klora_2000_skill / 12 /trainer_state.json

Upload folder using huggingface_hub

5e33024 verified 8 months ago

26.4 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 2.0,
	"eval_steps": 500,
	"global_step": 740,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.013531799729364006,
	"grad_norm": 1.4412583112716675,
	"learning_rate": 1.2903225806451614e-06,
	"loss": 1.3064,
	"step": 5
	},
	{
	"epoch": 0.02706359945872801,
	"grad_norm": 0.9369994401931763,
	"learning_rate": 2.9032258064516128e-06,
	"loss": 1.3176,
	"step": 10
	},
	{
	"epoch": 0.04059539918809202,
	"grad_norm": 0.6337246298789978,
	"learning_rate": 4.516129032258065e-06,
	"loss": 1.3047,
	"step": 15
	},
	{
	"epoch": 0.05412719891745602,
	"grad_norm": 0.7102669477462769,
	"learning_rate": 6.129032258064517e-06,
	"loss": 1.2226,
	"step": 20
	},
	{
	"epoch": 0.06765899864682003,
	"grad_norm": 0.5792216062545776,
	"learning_rate": 7.741935483870968e-06,
	"loss": 1.2671,
	"step": 25
	},
	{
	"epoch": 0.08119079837618404,
	"grad_norm": 0.5476118326187134,
	"learning_rate": 9.35483870967742e-06,
	"loss": 1.2585,
	"step": 30
	},
	{
	"epoch": 0.09472259810554803,
	"grad_norm": 0.6799878478050232,
	"learning_rate": 1.0967741935483872e-05,
	"loss": 1.2151,
	"step": 35
	},
	{
	"epoch": 0.10825439783491204,
	"grad_norm": 0.5542110800743103,
	"learning_rate": 1.2580645161290324e-05,
	"loss": 1.185,
	"step": 40
	},
	{
	"epoch": 0.12178619756427606,
	"grad_norm": 0.4575681686401367,
	"learning_rate": 1.4193548387096776e-05,
	"loss": 1.1688,
	"step": 45
	},
	{
	"epoch": 0.13531799729364005,
	"grad_norm": 0.5137224197387695,
	"learning_rate": 1.5806451612903226e-05,
	"loss": 1.1865,
	"step": 50
	},
	{
	"epoch": 0.14884979702300405,
	"grad_norm": 0.4554082453250885,
	"learning_rate": 1.741935483870968e-05,
	"loss": 1.163,
	"step": 55
	},
	{
	"epoch": 0.16238159675236807,
	"grad_norm": 0.5306389331817627,
	"learning_rate": 1.903225806451613e-05,
	"loss": 1.1513,
	"step": 60
	},
	{
	"epoch": 0.17591339648173207,
	"grad_norm": 0.5879004597663879,
	"learning_rate": 2.0645161290322582e-05,
	"loss": 1.1948,
	"step": 65
	},
	{
	"epoch": 0.18944519621109607,
	"grad_norm": 0.4350433647632599,
	"learning_rate": 2.2258064516129034e-05,
	"loss": 1.0976,
	"step": 70
	},
	{
	"epoch": 0.2029769959404601,
	"grad_norm": 0.49727171659469604,
	"learning_rate": 2.3870967741935483e-05,
	"loss": 1.1021,
	"step": 75
	},
	{
	"epoch": 0.2165087956698241,
	"grad_norm": 0.551313042640686,
	"learning_rate": 2.548387096774194e-05,
	"loss": 1.1962,
	"step": 80
	},
	{
	"epoch": 0.23004059539918809,
	"grad_norm": 0.4979248046875,
	"learning_rate": 2.7096774193548387e-05,
	"loss": 1.1318,
	"step": 85
	},
	{
	"epoch": 0.2435723951285521,
	"grad_norm": 0.5184155702590942,
	"learning_rate": 2.870967741935484e-05,
	"loss": 1.1268,
	"step": 90
	},
	{
	"epoch": 0.2571041948579161,
	"grad_norm": 0.6341415643692017,
	"learning_rate": 2.9999976021756284e-05,
	"loss": 1.0454,
	"step": 95
	},
	{
	"epoch": 0.2706359945872801,
	"grad_norm": 0.4915357530117035,
	"learning_rate": 2.9999136791275564e-05,
	"loss": 1.078,
	"step": 100
	},
	{
	"epoch": 0.28416779431664413,
	"grad_norm": 0.541904091835022,
	"learning_rate": 2.999709872526874e-05,
	"loss": 1.0623,
	"step": 105
	},
	{
	"epoch": 0.2976995940460081,
	"grad_norm": 0.5630597472190857,
	"learning_rate": 2.999386198663225e-05,
	"loss": 1.0517,
	"step": 110
	},
	{
	"epoch": 0.3112313937753721,
	"grad_norm": 0.7628896832466125,
	"learning_rate": 2.9989426834068792e-05,
	"loss": 1.084,
	"step": 115
	},
	{
	"epoch": 0.32476319350473615,
	"grad_norm": 0.6299301981925964,
	"learning_rate": 2.9983793622066668e-05,
	"loss": 1.0186,
	"step": 120
	},
	{
	"epoch": 0.3382949932341001,
	"grad_norm": 0.6008714437484741,
	"learning_rate": 2.9976962800871434e-05,
	"loss": 1.0228,
	"step": 125
	},
	{
	"epoch": 0.35182679296346414,
	"grad_norm": 0.6700873374938965,
	"learning_rate": 2.9968934916449923e-05,
	"loss": 0.9923,
	"step": 130
	},
	{
	"epoch": 0.36535859269282817,
	"grad_norm": 0.5688751339912415,
	"learning_rate": 2.9959710610446577e-05,
	"loss": 0.998,
	"step": 135
	},
	{
	"epoch": 0.37889039242219213,
	"grad_norm": 0.7533664703369141,
	"learning_rate": 2.9949290620132225e-05,
	"loss": 1.0353,
	"step": 140
	},
	{
	"epoch": 0.39242219215155616,
	"grad_norm": 0.7014450430870056,
	"learning_rate": 2.99376757783451e-05,
	"loss": 0.9277,
	"step": 145
	},
	{
	"epoch": 0.4059539918809202,
	"grad_norm": 0.6594902873039246,
	"learning_rate": 2.992486701342427e-05,
	"loss": 0.9636,
	"step": 150
	},
	{
	"epoch": 0.41948579161028415,
	"grad_norm": 0.7603819966316223,
	"learning_rate": 2.9910865349135498e-05,
	"loss": 0.9665,
	"step": 155
	},
	{
	"epoch": 0.4330175913396482,
	"grad_norm": 0.642242968082428,
	"learning_rate": 2.989567190458935e-05,
	"loss": 0.9616,
	"step": 160
	},
	{
	"epoch": 0.4465493910690122,
	"grad_norm": 0.6365484595298767,
	"learning_rate": 2.9879287894151786e-05,
	"loss": 0.979,
	"step": 165
	},
	{
	"epoch": 0.46008119079837617,
	"grad_norm": 0.6748781800270081,
	"learning_rate": 2.9861714627347076e-05,
	"loss": 0.9437,
	"step": 170
	},
	{
	"epoch": 0.4736129905277402,
	"grad_norm": 0.6489437222480774,
	"learning_rate": 2.984295350875316e-05,
	"loss": 0.9036,
	"step": 175
	},
	{
	"epoch": 0.4871447902571042,
	"grad_norm": 0.6802551746368408,
	"learning_rate": 2.9823006037889358e-05,
	"loss": 0.8769,
	"step": 180
	},
	{
	"epoch": 0.5006765899864682,
	"grad_norm": 0.7979145050048828,
	"learning_rate": 2.9801873809096543e-05,
	"loss": 0.9136,
	"step": 185
	},
	{
	"epoch": 0.5142083897158322,
	"grad_norm": 0.774574875831604,
	"learning_rate": 2.9779558511409678e-05,
	"loss": 0.8767,
	"step": 190
	},
	{
	"epoch": 0.5277401894451962,
	"grad_norm": 0.724077045917511,
	"learning_rate": 2.9756061928422857e-05,
	"loss": 0.913,
	"step": 195
	},
	{
	"epoch": 0.5412719891745602,
	"grad_norm": 0.7980031967163086,
	"learning_rate": 2.973138593814671e-05,
	"loss": 0.9224,
	"step": 200
	},
	{
	"epoch": 0.5548037889039242,
	"grad_norm": 0.900132417678833,
	"learning_rate": 2.9705532512858324e-05,
	"loss": 0.8389,
	"step": 205
	},
	{
	"epoch": 0.5683355886332883,
	"grad_norm": 0.8545295596122742,
	"learning_rate": 2.9678503718943594e-05,
	"loss": 0.8391,
	"step": 210
	},
	{
	"epoch": 0.5818673883626523,
	"grad_norm": 0.78533935546875,
	"learning_rate": 2.965030171673207e-05,
	"loss": 0.8716,
	"step": 215
	},
	{
	"epoch": 0.5953991880920162,
	"grad_norm": 0.9080139994621277,
	"learning_rate": 2.962092876032427e-05,
	"loss": 0.8158,
	"step": 220
	},
	{
	"epoch": 0.6089309878213802,
	"grad_norm": 0.9167734384536743,
	"learning_rate": 2.9590387197411547e-05,
	"loss": 0.8416,
	"step": 225
	},
	{
	"epoch": 0.6224627875507442,
	"grad_norm": 1.0270551443099976,
	"learning_rate": 2.9558679469088423e-05,
	"loss": 0.8628,
	"step": 230
	},
	{
	"epoch": 0.6359945872801083,
	"grad_norm": 0.8939360976219177,
	"learning_rate": 2.9525808109657485e-05,
	"loss": 0.8487,
	"step": 235
	},
	{
	"epoch": 0.6495263870094723,
	"grad_norm": 0.8669422268867493,
	"learning_rate": 2.949177574642682e-05,
	"loss": 0.8317,
	"step": 240
	},
	{
	"epoch": 0.6630581867388363,
	"grad_norm": 0.7396143674850464,
	"learning_rate": 2.9456585099500036e-05,
	"loss": 0.784,
	"step": 245
	},
	{
	"epoch": 0.6765899864682002,
	"grad_norm": 0.9191597700119019,
	"learning_rate": 2.942023898155885e-05,
	"loss": 0.8148,
	"step": 250
	},
	{
	"epoch": 0.6901217861975643,
	"grad_norm": 1.05917227268219,
	"learning_rate": 2.938274029763826e-05,
	"loss": 0.7824,
	"step": 255
	},
	{
	"epoch": 0.7036535859269283,
	"grad_norm": 0.8561118245124817,
	"learning_rate": 2.934409204489438e-05,
	"loss": 0.8054,
	"step": 260
	},
	{
	"epoch": 0.7171853856562923,
	"grad_norm": 0.7686528563499451,
	"learning_rate": 2.9304297312364865e-05,
	"loss": 0.7765,
	"step": 265
	},
	{
	"epoch": 0.7307171853856563,
	"grad_norm": 0.9166774749755859,
	"learning_rate": 2.926335928072203e-05,
	"loss": 0.7964,
	"step": 270
	},
	{
	"epoch": 0.7442489851150202,
	"grad_norm": 0.9427902102470398,
	"learning_rate": 2.922128122201862e-05,
	"loss": 0.7521,
	"step": 275
	},
	{
	"epoch": 0.7577807848443843,
	"grad_norm": 0.8347809314727783,
	"learning_rate": 2.9178066499426284e-05,
	"loss": 0.7492,
	"step": 280
	},
	{
	"epoch": 0.7713125845737483,
	"grad_norm": 0.9658071994781494,
	"learning_rate": 2.9133718566966773e-05,
	"loss": 0.6946,
	"step": 285
	},
	{
	"epoch": 0.7848443843031123,
	"grad_norm": 0.8596900105476379,
	"learning_rate": 2.9088240969235864e-05,
	"loss": 0.7395,
	"step": 290
	},
	{
	"epoch": 0.7983761840324763,
	"grad_norm": 0.9865032434463501,
	"learning_rate": 2.9041637341120054e-05,
	"loss": 0.7497,
	"step": 295
	},
	{
	"epoch": 0.8119079837618404,
	"grad_norm": 0.8877797722816467,
	"learning_rate": 2.8993911407506037e-05,
	"loss": 0.7162,
	"step": 300
	},
	{
	"epoch": 0.8254397834912043,
	"grad_norm": 0.9064735174179077,
	"learning_rate": 2.8945066982982984e-05,
	"loss": 0.6864,
	"step": 305
	},
	{
	"epoch": 0.8389715832205683,
	"grad_norm": 0.9386357665061951,
	"learning_rate": 2.889510797153764e-05,
	"loss": 0.6957,
	"step": 310
	},
	{
	"epoch": 0.8525033829499323,
	"grad_norm": 1.0564672946929932,
	"learning_rate": 2.8844038366242326e-05,
	"loss": 0.698,
	"step": 315
	},
	{
	"epoch": 0.8660351826792964,
	"grad_norm": 0.9778911471366882,
	"learning_rate": 2.879186224893574e-05,
	"loss": 0.6916,
	"step": 320
	},
	{
	"epoch": 0.8795669824086604,
	"grad_norm": 0.9041974544525146,
	"learning_rate": 2.8738583789896743e-05,
	"loss": 0.6482,
	"step": 325
	},
	{
	"epoch": 0.8930987821380244,
	"grad_norm": 1.026167392730713,
	"learning_rate": 2.8684207247511025e-05,
	"loss": 0.7138,
	"step": 330
	},
	{
	"epoch": 0.9066305818673883,
	"grad_norm": 0.8488349318504333,
	"learning_rate": 2.8628736967930747e-05,
	"loss": 0.6957,
	"step": 335
	},
	{
	"epoch": 0.9201623815967523,
	"grad_norm": 0.9476014375686646,
	"learning_rate": 2.8572177384727167e-05,
	"loss": 0.6485,
	"step": 340
	},
	{
	"epoch": 0.9336941813261164,
	"grad_norm": 0.9190114140510559,
	"learning_rate": 2.8514533018536286e-05,
	"loss": 0.6747,
	"step": 345
	},
	{
	"epoch": 0.9472259810554804,
	"grad_norm": 0.9507735371589661,
	"learning_rate": 2.8455808476697513e-05,
	"loss": 0.6732,
	"step": 350
	},
	{
	"epoch": 0.9607577807848444,
	"grad_norm": 1.0128976106643677,
	"learning_rate": 2.8396008452885426e-05,
	"loss": 0.6633,
	"step": 355
	},
	{
	"epoch": 0.9742895805142084,
	"grad_norm": 1.2091327905654907,
	"learning_rate": 2.8335137726734608e-05,
	"loss": 0.6888,
	"step": 360
	},
	{
	"epoch": 0.9878213802435724,
	"grad_norm": 0.998440682888031,
	"learning_rate": 2.827320116345764e-05,
	"loss": 0.6605,
	"step": 365
	},
	{
	"epoch": 1.0,
	"grad_norm": 1.5365850925445557,
	"learning_rate": 2.821020371345624e-05,
	"loss": 0.6687,
	"step": 370
	},
	{
	"epoch": 1.013531799729364,
	"grad_norm": 1.3685508966445923,
	"learning_rate": 2.8146150411925568e-05,
	"loss": 0.541,
	"step": 375
	},
	{
	"epoch": 1.027063599458728,
	"grad_norm": 1.0007332563400269,
	"learning_rate": 2.8081046378451807e-05,
	"loss": 0.5494,
	"step": 380
	},
	{
	"epoch": 1.040595399188092,
	"grad_norm": 1.3241759538650513,
	"learning_rate": 2.801489681660296e-05,
	"loss": 0.5614,
	"step": 385
	},
	{
	"epoch": 1.054127198917456,
	"grad_norm": 1.0600066184997559,
	"learning_rate": 2.7947707013512936e-05,
	"loss": 0.5606,
	"step": 390
	},
	{
	"epoch": 1.0676589986468201,
	"grad_norm": 0.9737664461135864,
	"learning_rate": 2.7879482339458974e-05,
	"loss": 0.5386,
	"step": 395
	},
	{
	"epoch": 1.0811907983761841,
	"grad_norm": 0.9769577980041504,
	"learning_rate": 2.7810228247432415e-05,
	"loss": 0.5397,
	"step": 400
	},
	{
	"epoch": 1.094722598105548,
	"grad_norm": 0.8770543336868286,
	"learning_rate": 2.7739950272702856e-05,
	"loss": 0.5319,
	"step": 405
	},
	{
	"epoch": 1.108254397834912,
	"grad_norm": 0.9559663534164429,
	"learning_rate": 2.7668654032375733e-05,
	"loss": 0.5952,
	"step": 410
	},
	{
	"epoch": 1.121786197564276,
	"grad_norm": 0.9816983938217163,
	"learning_rate": 2.7596345224943357e-05,
	"loss": 0.5308,
	"step": 415
	},
	{
	"epoch": 1.13531799729364,
	"grad_norm": 1.0468382835388184,
	"learning_rate": 2.7523029629829478e-05,
	"loss": 0.5199,
	"step": 420
	},
	{
	"epoch": 1.148849797023004,
	"grad_norm": 1.1081461906433105,
	"learning_rate": 2.744871310692731e-05,
	"loss": 0.5094,
	"step": 425
	},
	{
	"epoch": 1.162381596752368,
	"grad_norm": 1.0275734663009644,
	"learning_rate": 2.73734015961312e-05,
	"loss": 0.5744,
	"step": 430
	},
	{
	"epoch": 1.175913396481732,
	"grad_norm": 0.9587875604629517,
	"learning_rate": 2.7297101116861862e-05,
	"loss": 0.5095,
	"step": 435
	},
	{
	"epoch": 1.1894451962110961,
	"grad_norm": 1.1627024412155151,
	"learning_rate": 2.721981776758526e-05,
	"loss": 0.4957,
	"step": 440
	},
	{
	"epoch": 1.2029769959404601,
	"grad_norm": 0.9614389538764954,
	"learning_rate": 2.714155772532518e-05,
	"loss": 0.506,
	"step": 445
	},
	{
	"epoch": 1.2165087956698242,
	"grad_norm": 1.0214952230453491,
	"learning_rate": 2.7062327245169506e-05,
	"loss": 0.5174,
	"step": 450
	},
	{
	"epoch": 1.230040595399188,
	"grad_norm": 1.1152983903884888,
	"learning_rate": 2.6982132659770298e-05,
	"loss": 0.5119,
	"step": 455
	},
	{
	"epoch": 1.243572395128552,
	"grad_norm": 0.9631413817405701,
	"learning_rate": 2.6900980378837614e-05,
	"loss": 0.5094,
	"step": 460
	},
	{
	"epoch": 1.257104194857916,
	"grad_norm": 1.333390712738037,
	"learning_rate": 2.6818876888627204e-05,
	"loss": 0.5279,
	"step": 465
	},
	{
	"epoch": 1.27063599458728,
	"grad_norm": 1.1421831846237183,
	"learning_rate": 2.6735828751422117e-05,
	"loss": 0.5038,
	"step": 470
	},
	{
	"epoch": 1.284167794316644,
	"grad_norm": 1.093878149986267,
	"learning_rate": 2.6651842605008142e-05,
	"loss": 0.4847,
	"step": 475
	},
	{
	"epoch": 1.297699594046008,
	"grad_norm": 1.0584564208984375,
	"learning_rate": 2.6566925162143322e-05,
	"loss": 0.463,
	"step": 480
	},
	{
	"epoch": 1.3112313937753721,
	"grad_norm": 1.1284931898117065,
	"learning_rate": 2.6481083210021396e-05,
	"loss": 0.5409,
	"step": 485
	},
	{
	"epoch": 1.3247631935047361,
	"grad_norm": 1.6687848567962646,
	"learning_rate": 2.6394323609729317e-05,
	"loss": 0.5144,
	"step": 490
	},
	{
	"epoch": 1.3382949932341002,
	"grad_norm": 1.1010960340499878,
	"learning_rate": 2.6306653295698885e-05,
	"loss": 0.526,
	"step": 495
	},
	{
	"epoch": 1.3518267929634642,
	"grad_norm": 1.0190247297286987,
	"learning_rate": 2.6218079275152485e-05,
	"loss": 0.4194,
	"step": 500
	},
	{
	"epoch": 1.3653585926928282,
	"grad_norm": 1.2479708194732666,
	"learning_rate": 2.6128608627543012e-05,
	"loss": 0.4678,
	"step": 505
	},
	{
	"epoch": 1.3788903924221922,
	"grad_norm": 1.0126714706420898,
	"learning_rate": 2.6038248503988058e-05,
	"loss": 0.4241,
	"step": 510
	},
	{
	"epoch": 1.3924221921515563,
	"grad_norm": 1.1457223892211914,
	"learning_rate": 2.5947006126698325e-05,
	"loss": 0.4553,
	"step": 515
	},
	{
	"epoch": 1.4059539918809203,
	"grad_norm": 0.9630009531974792,
	"learning_rate": 2.5854888788400384e-05,
	"loss": 0.4664,
	"step": 520
	},
	{
	"epoch": 1.419485791610284,
	"grad_norm": 1.067337989807129,
	"learning_rate": 2.5761903851753783e-05,
	"loss": 0.4379,
	"step": 525
	},
	{
	"epoch": 1.4330175913396481,
	"grad_norm": 1.0295122861862183,
	"learning_rate": 2.5668058748762574e-05,
	"loss": 0.4428,
	"step": 530
	},
	{
	"epoch": 1.4465493910690121,
	"grad_norm": 0.9696286916732788,
	"learning_rate": 2.5573360980181297e-05,
	"loss": 0.4245,
	"step": 535
	},
	{
	"epoch": 1.4600811907983762,
	"grad_norm": 1.2453484535217285,
	"learning_rate": 2.5477818114915477e-05,
	"loss": 0.462,
	"step": 540
	},
	{
	"epoch": 1.4736129905277402,
	"grad_norm": 1.038318395614624,
	"learning_rate": 2.5381437789416643e-05,
	"loss": 0.4367,
	"step": 545
	},
	{
	"epoch": 1.4871447902571042,
	"grad_norm": 1.1128343343734741,
	"learning_rate": 2.5284227707071986e-05,
	"loss": 0.4184,
	"step": 550
	},
	{
	"epoch": 1.5006765899864682,
	"grad_norm": 1.2020708322525024,
	"learning_rate": 2.518619563758864e-05,
	"loss": 0.4334,
	"step": 555
	},
	{
	"epoch": 1.514208389715832,
	"grad_norm": 1.0298750400543213,
	"learning_rate": 2.5087349416372696e-05,
	"loss": 0.4125,
	"step": 560
	},
	{
	"epoch": 1.527740189445196,
	"grad_norm": 1.0778883695602417,
	"learning_rate": 2.49876969439029e-05,
	"loss": 0.4133,
	"step": 565
	},
	{
	"epoch": 1.54127198917456,
	"grad_norm": 1.1158068180084229,
	"learning_rate": 2.4887246185099237e-05,
	"loss": 0.4366,
	"step": 570
	},
	{
	"epoch": 1.5548037889039241,
	"grad_norm": 1.1676713228225708,
	"learning_rate": 2.4786005168686286e-05,
	"loss": 0.436,
	"step": 575
	},
	{
	"epoch": 1.5683355886332881,
	"grad_norm": 1.2565547227859497,
	"learning_rate": 2.4683981986551526e-05,
	"loss": 0.4557,
	"step": 580
	},
	{
	"epoch": 1.5818673883626522,
	"grad_norm": 1.133944034576416,
	"learning_rate": 2.458118479309857e-05,
	"loss": 0.4026,
	"step": 585
	},
	{
	"epoch": 1.5953991880920162,
	"grad_norm": 1.0183407068252563,
	"learning_rate": 2.4477621804595402e-05,
	"loss": 0.4533,
	"step": 590
	},
	{
	"epoch": 1.6089309878213802,
	"grad_norm": 1.26309335231781,
	"learning_rate": 2.4373301298517696e-05,
	"loss": 0.4314,
	"step": 595
	},
	{
	"epoch": 1.6224627875507442,
	"grad_norm": 1.1744800806045532,
	"learning_rate": 2.42682316128872e-05,
	"loss": 0.3831,
	"step": 600
	},
	{
	"epoch": 1.6359945872801083,
	"grad_norm": 1.1486276388168335,
	"learning_rate": 2.4162421145605308e-05,
	"loss": 0.4609,
	"step": 605
	},
	{
	"epoch": 1.6495263870094723,
	"grad_norm": 1.1308343410491943,
	"learning_rate": 2.4055878353781858e-05,
	"loss": 0.3715,
	"step": 610
	},
	{
	"epoch": 1.6630581867388363,
	"grad_norm": 1.048828125,
	"learning_rate": 2.3948611753059155e-05,
	"loss": 0.3978,
	"step": 615
	},
	{
	"epoch": 1.6765899864682003,
	"grad_norm": 1.2727230787277222,
	"learning_rate": 2.3840629916931362e-05,
	"loss": 0.3986,
	"step": 620
	},
	{
	"epoch": 1.6901217861975644,
	"grad_norm": 1.1679140329360962,
	"learning_rate": 2.3731941476059243e-05,
	"loss": 0.3896,
	"step": 625
	},
	{
	"epoch": 1.7036535859269284,
	"grad_norm": 1.1558784246444702,
	"learning_rate": 2.362255511758033e-05,
	"loss": 0.3888,
	"step": 630
	},
	{
	"epoch": 1.7171853856562924,
	"grad_norm": 1.337999939918518,
	"learning_rate": 2.351247958441459e-05,
	"loss": 0.3811,
	"step": 635
	},
	{
	"epoch": 1.7307171853856564,
	"grad_norm": 1.1977120637893677,
	"learning_rate": 2.340172367456564e-05,
	"loss": 0.3987,
	"step": 640
	},
	{
	"epoch": 1.7442489851150202,
	"grad_norm": 1.2168259620666504,
	"learning_rate": 2.3290296240417544e-05,
	"loss": 0.3497,
	"step": 645
	},
	{
	"epoch": 1.7577807848443843,
	"grad_norm": 1.1579980850219727,
	"learning_rate": 2.3178206188027265e-05,
	"loss": 0.3342,
	"step": 650
	},
	{
	"epoch": 1.7713125845737483,
	"grad_norm": 0.9696447253227234,
	"learning_rate": 2.3065462476412825e-05,
	"loss": 0.3763,
	"step": 655
	},
	{
	"epoch": 1.7848443843031123,
	"grad_norm": 1.072059154510498,
	"learning_rate": 2.295207411683725e-05,
	"loss": 0.3668,
	"step": 660
	},
	{
	"epoch": 1.7983761840324763,
	"grad_norm": 1.0907052755355835,
	"learning_rate": 2.283805017208834e-05,
	"loss": 0.369,
	"step": 665
	},
	{
	"epoch": 1.8119079837618404,
	"grad_norm": 1.1626112461090088,
	"learning_rate": 2.2723399755754262e-05,
	"loss": 0.349,
	"step": 670
	},
	{
	"epoch": 1.8254397834912042,
	"grad_norm": 1.0268486738204956,
	"learning_rate": 2.2608132031495184e-05,
	"loss": 0.3214,
	"step": 675
	},
	{
	"epoch": 1.8389715832205682,
	"grad_norm": 1.1764811277389526,
	"learning_rate": 2.2492256212310805e-05,
	"loss": 0.3133,
	"step": 680
	},
	{
	"epoch": 1.8525033829499322,
	"grad_norm": 1.0286613702774048,
	"learning_rate": 2.2375781559804012e-05,
	"loss": 0.3362,
	"step": 685
	},
	{
	"epoch": 1.8660351826792962,
	"grad_norm": 1.2203805446624756,
	"learning_rate": 2.2258717383440632e-05,
	"loss": 0.3344,
	"step": 690
	},
	{
	"epoch": 1.8795669824086603,
	"grad_norm": 1.0343270301818848,
	"learning_rate": 2.2141073039805344e-05,
	"loss": 0.3352,
	"step": 695
	},
	{
	"epoch": 1.8930987821380243,
	"grad_norm": 1.082728385925293,
	"learning_rate": 2.202285793185383e-05,
	"loss": 0.3419,
	"step": 700
	},
	{
	"epoch": 1.9066305818673883,
	"grad_norm": 1.1293714046478271,
	"learning_rate": 2.1904081508161236e-05,
	"loss": 0.3589,
	"step": 705
	},
	{
	"epoch": 1.9201623815967523,
	"grad_norm": 1.090536117553711,
	"learning_rate": 2.1784753262166984e-05,
	"loss": 0.3487,
	"step": 710
	},
	{
	"epoch": 1.9336941813261164,
	"grad_norm": 1.2215139865875244,
	"learning_rate": 2.166488273141597e-05,
	"loss": 0.3917,
	"step": 715
	},
	{
	"epoch": 1.9472259810554804,
	"grad_norm": 1.2397185564041138,
	"learning_rate": 2.1544479496796258e-05,
	"loss": 0.3715,
	"step": 720
	},
	{
	"epoch": 1.9607577807848444,
	"grad_norm": 1.0956600904464722,
	"learning_rate": 2.1423553181773336e-05,
	"loss": 0.3448,
	"step": 725
	},
	{
	"epoch": 1.9742895805142084,
	"grad_norm": 1.1384000778198242,
	"learning_rate": 2.130211345162091e-05,
	"loss": 0.3248,
	"step": 730
	},
	{
	"epoch": 1.9878213802435725,
	"grad_norm": 1.2017817497253418,
	"learning_rate": 2.1180170012648406e-05,
	"loss": 0.3016,
	"step": 735
	},
	{
	"epoch": 2.0,
	"grad_norm": 1.444764256477356,
	"learning_rate": 2.105773261142516e-05,
	"loss": 0.3309,
	"step": 740
	}
	],
	"logging_steps": 5,
	"max_steps": 1850,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 5,
	"save_steps": 2000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 1.0801623899381432e+18,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}