Lora_1B_TR / checkpoint-8238 /trainer_state.json

Upload folder using huggingface_hub

2dce28f verified about 1 month ago

29.2 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 2.0,
	"eval_steps": 500,
	"global_step": 8238,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.012138868657441126,
	"grad_norm": 2.9070301055908203,
	"learning_rate": 1.975806451612903e-05,
	"loss": 2.9199,
	"step": 50
	},
	{
	"epoch": 0.024277737314882253,
	"grad_norm": 1.895039439201355,
	"learning_rate": 3.991935483870968e-05,
	"loss": 2.8553,
	"step": 100
	},
	{
	"epoch": 0.03641660597232338,
	"grad_norm": 2.2209153175354004,
	"learning_rate": 6.0080645161290325e-05,
	"loss": 2.8865,
	"step": 150
	},
	{
	"epoch": 0.048555474629764506,
	"grad_norm": 2.2095389366149902,
	"learning_rate": 8.024193548387097e-05,
	"loss": 2.7245,
	"step": 200
	},
	{
	"epoch": 0.06069434328720563,
	"grad_norm": 2.3479413986206055,
	"learning_rate": 9.999999613502945e-05,
	"loss": 2.7798,
	"step": 250
	},
	{
	"epoch": 0.07283321194464676,
	"grad_norm": 2.177093744277954,
	"learning_rate": 9.99899475483094e-05,
	"loss": 2.7718,
	"step": 300
	},
	{
	"epoch": 0.08497208060208788,
	"grad_norm": 2.8577401638031006,
	"learning_rate": 9.996057861608239e-05,
	"loss": 2.7981,
	"step": 350
	},
	{
	"epoch": 0.09711094925952901,
	"grad_norm": 2.592057466506958,
	"learning_rate": 9.991190068898889e-05,
	"loss": 2.7317,
	"step": 400
	},
	{
	"epoch": 0.10924981791697014,
	"grad_norm": 1.9039149284362793,
	"learning_rate": 9.98439325802986e-05,
	"loss": 2.6439,
	"step": 450
	},
	{
	"epoch": 0.12138868657441126,
	"grad_norm": 1.9637870788574219,
	"learning_rate": 9.975670055863974e-05,
	"loss": 2.7429,
	"step": 500
	},
	{
	"epoch": 0.1335275552318524,
	"grad_norm": 2.6924002170562744,
	"learning_rate": 9.965023833784636e-05,
	"loss": 2.7226,
	"step": 550
	},
	{
	"epoch": 0.14566642388929352,
	"grad_norm": 1.896791934967041,
	"learning_rate": 9.952458706392864e-05,
	"loss": 2.6811,
	"step": 600
	},
	{
	"epoch": 0.15780529254673464,
	"grad_norm": 2.0208559036254883,
	"learning_rate": 9.937979529917046e-05,
	"loss": 2.6905,
	"step": 650
	},
	{
	"epoch": 0.16994416120417577,
	"grad_norm": 2.337047815322876,
	"learning_rate": 9.921591900336092e-05,
	"loss": 2.716,
	"step": 700
	},
	{
	"epoch": 0.1820830298616169,
	"grad_norm": 1.9349219799041748,
	"learning_rate": 9.903302151216671e-05,
	"loss": 2.7061,
	"step": 750
	},
	{
	"epoch": 0.19422189851905802,
	"grad_norm": 1.7132676839828491,
	"learning_rate": 9.883117351265385e-05,
	"loss": 2.7762,
	"step": 800
	},
	{
	"epoch": 0.20636076717649915,
	"grad_norm": 2.1389896869659424,
	"learning_rate": 9.861045301596821e-05,
	"loss": 2.7318,
	"step": 850
	},
	{
	"epoch": 0.21849963583394028,
	"grad_norm": 3.0611305236816406,
	"learning_rate": 9.837094532718541e-05,
	"loss": 2.7319,
	"step": 900
	},
	{
	"epoch": 0.2306385044913814,
	"grad_norm": 1.7353436946868896,
	"learning_rate": 9.811274301234174e-05,
	"loss": 2.7076,
	"step": 950
	},
	{
	"epoch": 0.24277737314882253,
	"grad_norm": 2.3191990852355957,
	"learning_rate": 9.78359458626588e-05,
	"loss": 2.7457,
	"step": 1000
	},
	{
	"epoch": 0.25491624180626365,
	"grad_norm": 2.0282199382781982,
	"learning_rate": 9.754066085597576e-05,
	"loss": 2.638,
	"step": 1050
	},
	{
	"epoch": 0.2670551104637048,
	"grad_norm": 2.1684181690216064,
	"learning_rate": 9.722700211540394e-05,
	"loss": 2.6815,
	"step": 1100
	},
	{
	"epoch": 0.2791939791211459,
	"grad_norm": 1.9141716957092285,
	"learning_rate": 9.689509086522019e-05,
	"loss": 2.5845,
	"step": 1150
	},
	{
	"epoch": 0.29133284777858703,
	"grad_norm": 1.8547425270080566,
	"learning_rate": 9.65450553840154e-05,
	"loss": 2.686,
	"step": 1200
	},
	{
	"epoch": 0.30347171643602816,
	"grad_norm": 2.2245781421661377,
	"learning_rate": 9.617703095511691e-05,
	"loss": 2.757,
	"step": 1250
	},
	{
	"epoch": 0.3156105850934693,
	"grad_norm": 1.9658602476119995,
	"learning_rate": 9.579115981430349e-05,
	"loss": 2.6181,
	"step": 1300
	},
	{
	"epoch": 0.3277494537509104,
	"grad_norm": 2.5929782390594482,
	"learning_rate": 9.538759109483347e-05,
	"loss": 2.6221,
	"step": 1350
	},
	{
	"epoch": 0.33988832240835154,
	"grad_norm": 1.781426191329956,
	"learning_rate": 9.496648076980702e-05,
	"loss": 2.6583,
	"step": 1400
	},
	{
	"epoch": 0.35202719106579267,
	"grad_norm": 2.546909809112549,
	"learning_rate": 9.452799159188492e-05,
	"loss": 2.637,
	"step": 1450
	},
	{
	"epoch": 0.3641660597232338,
	"grad_norm": 2.062859058380127,
	"learning_rate": 9.407229303038719e-05,
	"loss": 2.6607,
	"step": 1500
	},
	{
	"epoch": 0.3763049283806749,
	"grad_norm": 2.205317735671997,
	"learning_rate": 9.359956120579578e-05,
	"loss": 2.6899,
	"step": 1550
	},
	{
	"epoch": 0.38844379703811605,
	"grad_norm": 1.6034296751022339,
	"learning_rate": 9.310997882168673e-05,
	"loss": 2.6986,
	"step": 1600
	},
	{
	"epoch": 0.40058266569555717,
	"grad_norm": 1.492854356765747,
	"learning_rate": 9.260373509411806e-05,
	"loss": 2.7071,
	"step": 1650
	},
	{
	"epoch": 0.4127215343529983,
	"grad_norm": 2.1287174224853516,
	"learning_rate": 9.208102567850063e-05,
	"loss": 2.6058,
	"step": 1700
	},
	{
	"epoch": 0.4248604030104394,
	"grad_norm": 2.4047040939331055,
	"learning_rate": 9.154205259398038e-05,
	"loss": 2.705,
	"step": 1750
	},
	{
	"epoch": 0.43699927166788055,
	"grad_norm": 1.8397117853164673,
	"learning_rate": 9.098702414536107e-05,
	"loss": 2.6512,
	"step": 1800
	},
	{
	"epoch": 0.4491381403253217,
	"grad_norm": 2.055699586868286,
	"learning_rate": 9.041615484259753e-05,
	"loss": 2.6701,
	"step": 1850
	},
	{
	"epoch": 0.4612770089827628,
	"grad_norm": 1.9400551319122314,
	"learning_rate": 8.982966531789105e-05,
	"loss": 2.6792,
	"step": 1900
	},
	{
	"epoch": 0.47341587764020393,
	"grad_norm": 2.668945074081421,
	"learning_rate": 8.922778224041835e-05,
	"loss": 2.6004,
	"step": 1950
	},
	{
	"epoch": 0.48555474629764506,
	"grad_norm": 2.9810187816619873,
	"learning_rate": 8.861073822872734e-05,
	"loss": 2.5851,
	"step": 2000
	},
	{
	"epoch": 0.4976936149550862,
	"grad_norm": 1.625508427619934,
	"learning_rate": 8.79787717608338e-05,
	"loss": 2.5802,
	"step": 2050
	},
	{
	"epoch": 0.5098324836125273,
	"grad_norm": 2.1407854557037354,
	"learning_rate": 8.733212708205321e-05,
	"loss": 2.5865,
	"step": 2100
	},
	{
	"epoch": 0.5219713522699685,
	"grad_norm": 2.2356784343719482,
	"learning_rate": 8.667105411060361e-05,
	"loss": 2.6538,
	"step": 2150
	},
	{
	"epoch": 0.5341102209274096,
	"grad_norm": 2.3607735633850098,
	"learning_rate": 8.599580834101625e-05,
	"loss": 2.5077,
	"step": 2200
	},
	{
	"epoch": 0.5462490895848507,
	"grad_norm": 2.3377416133880615,
	"learning_rate": 8.530665074539073e-05,
	"loss": 2.5979,
	"step": 2250
	},
	{
	"epoch": 0.5583879582422918,
	"grad_norm": 2.3431484699249268,
	"learning_rate": 8.460384767253331e-05,
	"loss": 2.4996,
	"step": 2300
	},
	{
	"epoch": 0.570526826899733,
	"grad_norm": 2.106093406677246,
	"learning_rate": 8.388767074501731e-05,
	"loss": 2.4795,
	"step": 2350
	},
	{
	"epoch": 0.5826656955571741,
	"grad_norm": 1.8955905437469482,
	"learning_rate": 8.3158396754205e-05,
	"loss": 2.5837,
	"step": 2400
	},
	{
	"epoch": 0.5948045642146153,
	"grad_norm": 1.9230371713638306,
	"learning_rate": 8.241630755327213e-05,
	"loss": 2.5845,
	"step": 2450
	},
	{
	"epoch": 0.6069434328720563,
	"grad_norm": 1.6631944179534912,
	"learning_rate": 8.166168994827599e-05,
	"loss": 2.6071,
	"step": 2500
	},
	{
	"epoch": 0.6190823015294975,
	"grad_norm": 2.2075533866882324,
	"learning_rate": 8.089483558730919e-05,
	"loss": 2.5412,
	"step": 2550
	},
	{
	"epoch": 0.6312211701869386,
	"grad_norm": 1.8824903964996338,
	"learning_rate": 8.011604084778229e-05,
	"loss": 2.5386,
	"step": 2600
	},
	{
	"epoch": 0.6433600388443798,
	"grad_norm": 2.604081869125366,
	"learning_rate": 7.932560672187839e-05,
	"loss": 2.6509,
	"step": 2650
	},
	{
	"epoch": 0.6554989075018208,
	"grad_norm": 2.0620648860931396,
	"learning_rate": 7.852383870022439e-05,
	"loss": 2.6403,
	"step": 2700
	},
	{
	"epoch": 0.667637776159262,
	"grad_norm": 2.0239202976226807,
	"learning_rate": 7.771104665382341e-05,
	"loss": 2.6965,
	"step": 2750
	},
	{
	"epoch": 0.6797766448167031,
	"grad_norm": 1.7837492227554321,
	"learning_rate": 7.688754471429456e-05,
	"loss": 2.5448,
	"step": 2800
	},
	{
	"epoch": 0.6919155134741443,
	"grad_norm": 1.9377483129501343,
	"learning_rate": 7.605365115246581e-05,
	"loss": 2.6333,
	"step": 2850
	},
	{
	"epoch": 0.7040543821315853,
	"grad_norm": 2.297499179840088,
	"learning_rate": 7.520968825536732e-05,
	"loss": 2.4747,
	"step": 2900
	},
	{
	"epoch": 0.7161932507890265,
	"grad_norm": 1.857254147529602,
	"learning_rate": 7.435598220167226e-05,
	"loss": 2.6631,
	"step": 2950
	},
	{
	"epoch": 0.7283321194464676,
	"grad_norm": 2.1972172260284424,
	"learning_rate": 7.349286293563402e-05,
	"loss": 2.5898,
	"step": 3000
	},
	{
	"epoch": 0.7404709881039088,
	"grad_norm": 2.267690896987915,
	"learning_rate": 7.26206640395677e-05,
	"loss": 2.4341,
	"step": 3050
	},
	{
	"epoch": 0.7526098567613498,
	"grad_norm": 1.6826646327972412,
	"learning_rate": 7.17397226049256e-05,
	"loss": 2.6269,
	"step": 3100
	},
	{
	"epoch": 0.764748725418791,
	"grad_norm": 2.3957300186157227,
	"learning_rate": 7.085037910201677e-05,
	"loss": 2.6107,
	"step": 3150
	},
	{
	"epoch": 0.7768875940762321,
	"grad_norm": 2.471625566482544,
	"learning_rate": 6.99529772484203e-05,
	"loss": 2.5767,
	"step": 3200
	},
	{
	"epoch": 0.7890264627336733,
	"grad_norm": 1.8939329385757446,
	"learning_rate": 6.904786387614382e-05,
	"loss": 2.5009,
	"step": 3250
	},
	{
	"epoch": 0.8011653313911143,
	"grad_norm": 2.498994827270508,
	"learning_rate": 6.813538879757828e-05,
	"loss": 2.5742,
	"step": 3300
	},
	{
	"epoch": 0.8133042000485555,
	"grad_norm": 2.3812406063079834,
	"learning_rate": 6.721590467030083e-05,
	"loss": 2.5011,
	"step": 3350
	},
	{
	"epoch": 0.8254430687059966,
	"grad_norm": 1.9224671125411987,
	"learning_rate": 6.62897668607781e-05,
	"loss": 2.5455,
	"step": 3400
	},
	{
	"epoch": 0.8375819373634378,
	"grad_norm": 1.811013102531433,
	"learning_rate": 6.535733330702254e-05,
	"loss": 2.5791,
	"step": 3450
	},
	{
	"epoch": 0.8497208060208788,
	"grad_norm": 1.4125910997390747,
	"learning_rate": 6.441896438025482e-05,
	"loss": 2.477,
	"step": 3500
	},
	{
	"epoch": 0.86185967467832,
	"grad_norm": 1.7109546661376953,
	"learning_rate": 6.3475022745626e-05,
	"loss": 2.4967,
	"step": 3550
	},
	{
	"epoch": 0.8739985433357611,
	"grad_norm": 1.8944520950317383,
	"learning_rate": 6.252587322205299e-05,
	"loss": 2.6007,
	"step": 3600
	},
	{
	"epoch": 0.8861374119932023,
	"grad_norm": 2.4895029067993164,
	"learning_rate": 6.157188264122153e-05,
	"loss": 2.5122,
	"step": 3650
	},
	{
	"epoch": 0.8982762806506434,
	"grad_norm": 2.2736401557922363,
	"learning_rate": 6.061341970581165e-05,
	"loss": 2.5942,
	"step": 3700
	},
	{
	"epoch": 0.9104151493080845,
	"grad_norm": 2.258389711380005,
	"learning_rate": 5.9650854846999495e-05,
	"loss": 2.4973,
	"step": 3750
	},
	{
	"epoch": 0.9225540179655256,
	"grad_norm": 2.1070783138275146,
	"learning_rate": 5.868456008129154e-05,
	"loss": 2.5858,
	"step": 3800
	},
	{
	"epoch": 0.9346928866229668,
	"grad_norm": 1.8113417625427246,
	"learning_rate": 5.7714908866745864e-05,
	"loss": 2.5253,
	"step": 3850
	},
	{
	"epoch": 0.9468317552804079,
	"grad_norm": 1.8022534847259521,
	"learning_rate": 5.674227595863638e-05,
	"loss": 2.5297,
	"step": 3900
	},
	{
	"epoch": 0.958970623937849,
	"grad_norm": 2.208134174346924,
	"learning_rate": 5.5767037264615686e-05,
	"loss": 2.5352,
	"step": 3950
	},
	{
	"epoch": 0.9711094925952901,
	"grad_norm": 1.7783771753311157,
	"learning_rate": 5.478956969943252e-05,
	"loss": 2.622,
	"step": 4000
	},
	{
	"epoch": 0.9832483612527313,
	"grad_norm": 1.889061689376831,
	"learning_rate": 5.3810251039260026e-05,
	"loss": 2.5766,
	"step": 4050
	},
	{
	"epoch": 0.9953872299101724,
	"grad_norm": 1.7664889097213745,
	"learning_rate": 5.2829459775691124e-05,
	"loss": 2.5343,
	"step": 4100
	},
	{
	"epoch": 1.0075260985676135,
	"grad_norm": 2.389195442199707,
	"learning_rate": 5.184757496945726e-05,
	"loss": 2.4996,
	"step": 4150
	},
	{
	"epoch": 1.0196649672250546,
	"grad_norm": 2.4707448482513428,
	"learning_rate": 5.086497610392723e-05,
	"loss": 2.3471,
	"step": 4200
	},
	{
	"epoch": 1.0318038358824957,
	"grad_norm": 2.3839166164398193,
	"learning_rate": 4.988204293844289e-05,
	"loss": 2.3737,
	"step": 4250
	},
	{
	"epoch": 1.043942704539937,
	"grad_norm": 2.6970324516296387,
	"learning_rate": 4.889915536154776e-05,
	"loss": 2.3854,
	"step": 4300
	},
	{
	"epoch": 1.056081573197378,
	"grad_norm": 1.623435616493225,
	"learning_rate": 4.7916693244166126e-05,
	"loss": 2.3536,
	"step": 4350
	},
	{
	"epoch": 1.0682204418548191,
	"grad_norm": 2.695117473602295,
	"learning_rate": 4.693503629278875e-05,
	"loss": 2.3699,
	"step": 4400
	},
	{
	"epoch": 1.0803593105122602,
	"grad_norm": 2.7556312084198,
	"learning_rate": 4.595456390272207e-05,
	"loss": 2.3021,
	"step": 4450
	},
	{
	"epoch": 1.0924981791697013,
	"grad_norm": 2.1368134021759033,
	"learning_rate": 4.4975655011457815e-05,
	"loss": 2.3003,
	"step": 4500
	},
	{
	"epoch": 1.1046370478271426,
	"grad_norm": 1.6469930410385132,
	"learning_rate": 4.399868795221951e-05,
	"loss": 2.3007,
	"step": 4550
	},
	{
	"epoch": 1.1167759164845836,
	"grad_norm": 1.8031399250030518,
	"learning_rate": 4.302404030774248e-05,
	"loss": 2.4757,
	"step": 4600
	},
	{
	"epoch": 1.1289147851420247,
	"grad_norm": 2.02652907371521,
	"learning_rate": 4.205208876434389e-05,
	"loss": 2.2888,
	"step": 4650
	},
	{
	"epoch": 1.141053653799466,
	"grad_norm": 1.9721205234527588,
	"learning_rate": 4.108320896633937e-05,
	"loss": 2.3307,
	"step": 4700
	},
	{
	"epoch": 1.153192522456907,
	"grad_norm": 2.1819326877593994,
	"learning_rate": 4.011777537086219e-05,
	"loss": 2.3219,
	"step": 4750
	},
	{
	"epoch": 1.1653313911143481,
	"grad_norm": 2.973172187805176,
	"learning_rate": 3.915616110314142e-05,
	"loss": 2.252,
	"step": 4800
	},
	{
	"epoch": 1.1774702597717892,
	"grad_norm": 2.2087929248809814,
	"learning_rate": 3.8198737812294675e-05,
	"loss": 2.3202,
	"step": 4850
	},
	{
	"epoch": 1.1896091284292303,
	"grad_norm": 2.286069869995117,
	"learning_rate": 3.724587552769152e-05,
	"loss": 2.3541,
	"step": 4900
	},
	{
	"epoch": 1.2017479970866716,
	"grad_norm": 2.08137583732605,
	"learning_rate": 3.6297942515942776e-05,
	"loss": 2.3576,
	"step": 4950
	},
	{
	"epoch": 1.2138868657441126,
	"grad_norm": 2.029747724533081,
	"learning_rate": 3.535530513857115e-05,
	"loss": 2.3344,
	"step": 5000
	},
	{
	"epoch": 1.2260257344015537,
	"grad_norm": 2.449650764465332,
	"learning_rate": 3.441832771041818e-05,
	"loss": 2.3351,
	"step": 5050
	},
	{
	"epoch": 1.238164603058995,
	"grad_norm": 2.0461597442626953,
	"learning_rate": 3.34873723588421e-05,
	"loss": 2.2197,
	"step": 5100
	},
	{
	"epoch": 1.250303471716436,
	"grad_norm": 1.7304949760437012,
	"learning_rate": 3.25627988837612e-05,
	"loss": 2.3097,
	"step": 5150
	},
	{
	"epoch": 1.2624423403738771,
	"grad_norm": 2.58225417137146,
	"learning_rate": 3.164496461859673e-05,
	"loss": 2.4066,
	"step": 5200
	},
	{
	"epoch": 1.2745812090313182,
	"grad_norm": 1.7446330785751343,
	"learning_rate": 3.0734224292169e-05,
	"loss": 2.3252,
	"step": 5250
	},
	{
	"epoch": 1.2867200776887593,
	"grad_norm": 1.8611998558044434,
	"learning_rate": 2.9830929891600177e-05,
	"loss": 2.2757,
	"step": 5300
	},
	{
	"epoch": 1.2988589463462006,
	"grad_norm": 1.8992869853973389,
	"learning_rate": 2.8935430526276586e-05,
	"loss": 2.3245,
	"step": 5350
	},
	{
	"epoch": 1.3109978150036417,
	"grad_norm": 2.460495710372925,
	"learning_rate": 2.8048072292923465e-05,
	"loss": 2.2645,
	"step": 5400
	},
	{
	"epoch": 1.3231366836610827,
	"grad_norm": 2.6929290294647217,
	"learning_rate": 2.7169198141843767e-05,
	"loss": 2.2588,
	"step": 5450
	},
	{
	"epoch": 1.335275552318524,
	"grad_norm": 3.0288407802581787,
	"learning_rate": 2.6299147744373193e-05,
	"loss": 2.2605,
	"step": 5500
	},
	{
	"epoch": 1.347414420975965,
	"grad_norm": 1.7983629703521729,
	"learning_rate": 2.5438257361602474e-05,
	"loss": 2.2654,
	"step": 5550
	},
	{
	"epoch": 1.3595532896334062,
	"grad_norm": 2.5929248332977295,
	"learning_rate": 2.4586859714417594e-05,
	"loss": 2.2965,
	"step": 5600
	},
	{
	"epoch": 1.3716921582908472,
	"grad_norm": 1.558080792427063,
	"learning_rate": 2.3745283854908305e-05,
	"loss": 2.3072,
	"step": 5650
	},
	{
	"epoch": 1.3838310269482883,
	"grad_norm": 1.997135877609253,
	"learning_rate": 2.2913855039194553e-05,
	"loss": 2.3047,
	"step": 5700
	},
	{
	"epoch": 1.3959698956057296,
	"grad_norm": 1.9210643768310547,
	"learning_rate": 2.2092894601720005e-05,
	"loss": 2.2756,
	"step": 5750
	},
	{
	"epoch": 1.4081087642631707,
	"grad_norm": 2.384209156036377,
	"learning_rate": 2.128271983106121e-05,
	"loss": 2.2948,
	"step": 5800
	},
	{
	"epoch": 1.4202476329206117,
	"grad_norm": 2.263803482055664,
	"learning_rate": 2.0483643847300453e-05,
	"loss": 2.3062,
	"step": 5850
	},
	{
	"epoch": 1.432386501578053,
	"grad_norm": 2.315314769744873,
	"learning_rate": 1.9695975481009683e-05,
	"loss": 2.3215,
	"step": 5900
	},
	{
	"epoch": 1.444525370235494,
	"grad_norm": 2.041764497756958,
	"learning_rate": 1.89200191538922e-05,
	"loss": 2.3256,
	"step": 5950
	},
	{
	"epoch": 1.4566642388929352,
	"grad_norm": 2.1705563068389893,
	"learning_rate": 1.8156074761128454e-05,
	"loss": 2.2912,
	"step": 6000
	},
	{
	"epoch": 1.4688031075503762,
	"grad_norm": 2.304280996322632,
	"learning_rate": 1.7404437555471003e-05,
	"loss": 2.309,
	"step": 6050
	},
	{
	"epoch": 1.4809419762078173,
	"grad_norm": 2.4376580715179443,
	"learning_rate": 1.6665398033134034e-05,
	"loss": 2.345,
	"step": 6100
	},
	{
	"epoch": 1.4930808448652586,
	"grad_norm": 2.959686279296875,
	"learning_rate": 1.5939241821520952e-05,
	"loss": 2.2565,
	"step": 6150
	},
	{
	"epoch": 1.5052197135226997,
	"grad_norm": 1.8753809928894043,
	"learning_rate": 1.5226249568833794e-05,
	"loss": 2.3363,
	"step": 6200
	},
	{
	"epoch": 1.5173585821801407,
	"grad_norm": 1.8722175359725952,
	"learning_rate": 1.452669683560709e-05,
	"loss": 2.3196,
	"step": 6250
	},
	{
	"epoch": 1.529497450837582,
	"grad_norm": 2.468750238418579,
	"learning_rate": 1.3840853988207847e-05,
	"loss": 2.3277,
	"step": 6300
	},
	{
	"epoch": 1.541636319495023,
	"grad_norm": 1.8061391115188599,
	"learning_rate": 1.316898609434319e-05,
	"loss": 2.2795,
	"step": 6350
	},
	{
	"epoch": 1.5537751881524642,
	"grad_norm": 1.9603863954544067,
	"learning_rate": 1.2511352820615691e-05,
	"loss": 2.326,
	"step": 6400
	},
	{
	"epoch": 1.5659140568099055,
	"grad_norm": 2.2773890495300293,
	"learning_rate": 1.1868208332166336e-05,
	"loss": 2.2427,
	"step": 6450
	},
	{
	"epoch": 1.5780529254673463,
	"grad_norm": 1.9823254346847534,
	"learning_rate": 1.1239801194443506e-05,
	"loss": 2.2775,
	"step": 6500
	},
	{
	"epoch": 1.5901917941247876,
	"grad_norm": 2.00081205368042,
	"learning_rate": 1.0626374277136342e-05,
	"loss": 2.3023,
	"step": 6550
	},
	{
	"epoch": 1.6023306627822287,
	"grad_norm": 2.134455919265747,
	"learning_rate": 1.0028164660309259e-05,
	"loss": 2.4271,
	"step": 6600
	},
	{
	"epoch": 1.6144695314396698,
	"grad_norm": 2.493212938308716,
	"learning_rate": 9.445403542774206e-06,
	"loss": 2.2615,
	"step": 6650
	},
	{
	"epoch": 1.626608400097111,
	"grad_norm": 2.063344955444336,
	"learning_rate": 8.878316152735888e-06,
	"loss": 2.2552,
	"step": 6700
	},
	{
	"epoch": 1.6387472687545521,
	"grad_norm": 2.2275609970092773,
	"learning_rate": 8.327121660744452e-06,
	"loss": 2.3427,
	"step": 6750
	},
	{
	"epoch": 1.6508861374119932,
	"grad_norm": 2.143228769302368,
	"learning_rate": 7.792033094989593e-06,
	"loss": 2.2294,
	"step": 6800
	},
	{
	"epoch": 1.6630250060694345,
	"grad_norm": 1.6725349426269531,
	"learning_rate": 7.273257258968275e-06,
	"loss": 2.3335,
	"step": 6850
	},
	{
	"epoch": 1.6751638747268753,
	"grad_norm": 1.7002774477005005,
	"learning_rate": 6.77099465155846e-06,
	"loss": 2.3019,
	"step": 6900
	},
	{
	"epoch": 1.6873027433843166,
	"grad_norm": 2.0058093070983887,
	"learning_rate": 6.285439389529346e-06,
	"loss": 2.2801,
	"step": 6950
	},
	{
	"epoch": 1.6994416120417577,
	"grad_norm": 2.444603681564331,
	"learning_rate": 5.816779132518224e-06,
	"loss": 2.2837,
	"step": 7000
	},
	{
	"epoch": 1.7115804806991988,
	"grad_norm": 2.3724894523620605,
	"learning_rate": 5.365195010502916e-06,
	"loss": 2.3238,
	"step": 7050
	},
	{
	"epoch": 1.72371934935664,
	"grad_norm": 2.394784450531006,
	"learning_rate": 4.930861553797822e-06,
	"loss": 2.2119,
	"step": 7100
	},
	{
	"epoch": 1.7358582180140811,
	"grad_norm": 1.8876112699508667,
	"learning_rate": 4.5139466256006625e-06,
	"loss": 2.3293,
	"step": 7150
	},
	{
	"epoch": 1.7479970866715222,
	"grad_norm": 2.4736382961273193,
	"learning_rate": 4.1146113571158995e-06,
	"loss": 2.2619,
	"step": 7200
	},
	{
	"epoch": 1.7601359553289635,
	"grad_norm": 2.3860538005828857,
	"learning_rate": 3.733010085280031e-06,
	"loss": 2.2628,
	"step": 7250
	},
	{
	"epoch": 1.7722748239864043,
	"grad_norm": 2.2846248149871826,
	"learning_rate": 3.3692902931127256e-06,
	"loss": 2.2636,
	"step": 7300
	},
	{
	"epoch": 1.7844136926438456,
	"grad_norm": 1.9925642013549805,
	"learning_rate": 3.0235925527169196e-06,
	"loss": 2.2772,
	"step": 7350
	},
	{
	"epoch": 1.7965525613012867,
	"grad_norm": 2.708155870437622,
	"learning_rate": 2.696050470949857e-06,
	"loss": 2.2776,
	"step": 7400
	},
	{
	"epoch": 1.8086914299587278,
	"grad_norm": 1.6095919609069824,
	"learning_rate": 2.386790637786085e-06,
	"loss": 2.3365,
	"step": 7450
	},
	{
	"epoch": 1.820830298616169,
	"grad_norm": 1.8871222734451294,
	"learning_rate": 2.0959325773923732e-06,
	"loss": 2.3408,
	"step": 7500
	},
	{
	"epoch": 1.8329691672736101,
	"grad_norm": 2.4641993045806885,
	"learning_rate": 1.8235887019334985e-06,
	"loss": 2.2675,
	"step": 7550
	},
	{
	"epoch": 1.8451080359310512,
	"grad_norm": 2.003045082092285,
	"learning_rate": 1.569864268126614e-06,
	"loss": 2.3028,
	"step": 7600
	},
	{
	"epoch": 1.8572469045884925,
	"grad_norm": 2.2934603691101074,
	"learning_rate": 1.3348573365612184e-06,
	"loss": 2.3406,
	"step": 7650
	},
	{
	"epoch": 1.8693857732459334,
	"grad_norm": 1.78590989112854,
	"learning_rate": 1.118658733800193e-06,
	"loss": 2.2264,
	"step": 7700
	},
	{
	"epoch": 1.8815246419033747,
	"grad_norm": 1.7274677753448486,
	"learning_rate": 9.213520172767332e-07,
	"loss": 2.3045,
	"step": 7750
	},
	{
	"epoch": 1.8936635105608157,
	"grad_norm": 1.8418123722076416,
	"learning_rate": 7.43013443000734e-07,
	"loss": 2.2462,
	"step": 7800
	},
	{
	"epoch": 1.9058023792182568,
	"grad_norm": 2.445272445678711,
	"learning_rate": 5.837119360869503e-07,
	"loss": 2.4228,
	"step": 7850
	},
	{
	"epoch": 1.917941247875698,
	"grad_norm": 2.3169541358947754,
	"learning_rate": 4.435090641165651e-07,
	"loss": 2.3271,
	"step": 7900
	},
	{
	"epoch": 1.9300801165331392,
	"grad_norm": 1.9685901403427124,
	"learning_rate": 3.2245901334221895e-07,
	"loss": 2.2368,
	"step": 7950
	},
	{
	"epoch": 1.9422189851905802,
	"grad_norm": 2.039243221282959,
	"learning_rate": 2.2060856774587803e-07,
	"loss": 2.3857,
	"step": 8000
	},
	{
	"epoch": 1.9543578538480215,
	"grad_norm": 2.139963150024414,
	"learning_rate": 1.3799709095754232e-07,
	"loss": 2.3981,
	"step": 8050
	},
	{
	"epoch": 1.9664967225054624,
	"grad_norm": 2.1113266944885254,
	"learning_rate": 7.46565110417985e-08,
	"loss": 2.306,
	"step": 8100
	},
	{
	"epoch": 1.9786355911629037,
	"grad_norm": 2.550076723098755,
	"learning_rate": 3.06113081581405e-08,
	"loss": 2.2583,
	"step": 8150
	},
	{
	"epoch": 1.9907744598203447,
	"grad_norm": 1.6660057306289673,
	"learning_rate": 5.878505099732312e-09,
	"loss": 2.3201,
	"step": 8200
	}
	],
	"logging_steps": 50,
	"max_steps": 8238,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2,
	"save_steps": 4000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 3.2322467312492544e+17,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}