Eva-4B-V2 / trainer_state.json

Upload folder using huggingface_hub

98ffe92 verified 1 day ago

32.8 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 2.0,
	"eval_steps": 500.0,
	"global_step": 1500,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0013333333333333333,
	"grad_norm": 4.90625,
	"learning_rate": 4.444444444444445e-07,
	"loss": 0.027944788336753845,
	"step": 1,
	"token_acc": 0.9901477832512315
	},
	{
	"epoch": 0.013333333333333334,
	"grad_norm": 4.90625,
	"learning_rate": 4.444444444444444e-06,
	"loss": 0.05075684520933363,
	"step": 10,
	"token_acc": 0.9901595744680851
	},
	{
	"epoch": 0.02666666666666667,
	"grad_norm": 2.578125,
	"learning_rate": 8.888888888888888e-06,
	"loss": 0.04696210622787476,
	"step": 20,
	"token_acc": 0.9893488259501332
	},
	{
	"epoch": 0.04,
	"grad_norm": 2.5625,
	"learning_rate": 1.3333333333333333e-05,
	"loss": 0.05452235341072083,
	"step": 30,
	"token_acc": 0.9853012048192771
	},
	{
	"epoch": 0.05333333333333334,
	"grad_norm": 2.0625,
	"learning_rate": 1.7777777777777777e-05,
	"loss": 0.03315775990486145,
	"step": 40,
	"token_acc": 0.9846264712947393
	},
	{
	"epoch": 0.06666666666666667,
	"grad_norm": 1.046875,
	"learning_rate": 1.9999417253661235e-05,
	"loss": 0.028552538156509398,
	"step": 50,
	"token_acc": 0.9908411665461557
	},
	{
	"epoch": 0.08,
	"grad_norm": 1.765625,
	"learning_rate": 1.9994755690455154e-05,
	"loss": 0.04210628271102905,
	"step": 60,
	"token_acc": 0.9860944617597699
	},
	{
	"epoch": 0.09333333333333334,
	"grad_norm": 1.5859375,
	"learning_rate": 1.998543473718677e-05,
	"loss": 0.03467268347740173,
	"step": 70,
	"token_acc": 0.9840695148443157
	},
	{
	"epoch": 0.10666666666666667,
	"grad_norm": 1.03125,
	"learning_rate": 1.9971458739130598e-05,
	"loss": 0.03366573452949524,
	"step": 80,
	"token_acc": 0.986271676300578
	},
	{
	"epoch": 0.12,
	"grad_norm": 2.109375,
	"learning_rate": 1.995283421166614e-05,
	"loss": 0.03945094347000122,
	"step": 90,
	"token_acc": 0.9827420901246404
	},
	{
	"epoch": 0.13333333333333333,
	"grad_norm": 2.171875,
	"learning_rate": 1.9929569837240567e-05,
	"loss": 0.03638350963592529,
	"step": 100,
	"token_acc": 0.9838981014179283
	},
	{
	"epoch": 0.14666666666666667,
	"grad_norm": 1.0234375,
	"learning_rate": 1.990167646132107e-05,
	"loss": 0.027288395166397094,
	"step": 110,
	"token_acc": 0.9886555636012552
	},
	{
	"epoch": 0.16,
	"grad_norm": 1.375,
	"learning_rate": 1.9869167087338908e-05,
	"loss": 0.03376817405223846,
	"step": 120,
	"token_acc": 0.987075155576831
	},
	{
	"epoch": 0.17333333333333334,
	"grad_norm": 1.7265625,
	"learning_rate": 1.983205687062742e-05,
	"loss": 0.03553054332733154,
	"step": 130,
	"token_acc": 0.9824687800192123
	},
	{
	"epoch": 0.18666666666666668,
	"grad_norm": 1.59375,
	"learning_rate": 1.9790363111356838e-05,
	"loss": 0.033854860067367556,
	"step": 140,
	"token_acc": 0.9848812095032398
	},
	{
	"epoch": 0.2,
	"grad_norm": 1.53125,
	"learning_rate": 1.9744105246469264e-05,
	"loss": 0.02748125195503235,
	"step": 150,
	"token_acc": 0.9879459980713597
	},
	{
	"epoch": 0.21333333333333335,
	"grad_norm": 2.59375,
	"learning_rate": 1.9693304840617456e-05,
	"loss": 0.03520364165306091,
	"step": 160,
	"token_acc": 0.9846042819340871
	},
	{
	"epoch": 0.22666666666666666,
	"grad_norm": 1.6171875,
	"learning_rate": 1.963798557611178e-05,
	"loss": 0.03284199237823486,
	"step": 170,
	"token_acc": 0.9877902801053388
	},
	{
	"epoch": 0.24,
	"grad_norm": 0.96484375,
	"learning_rate": 1.957817324187987e-05,
	"loss": 0.03556506037712097,
	"step": 180,
	"token_acc": 0.98562874251497
	},
	{
	"epoch": 0.25333333333333335,
	"grad_norm": 1.15625,
	"learning_rate": 1.9513895721444286e-05,
	"loss": 0.030231645703315733,
	"step": 190,
	"token_acc": 0.9858275282248379
	},
	{
	"epoch": 0.26666666666666666,
	"grad_norm": 2.515625,
	"learning_rate": 1.9445182979923657e-05,
	"loss": 0.03149127662181854,
	"step": 200,
	"token_acc": 0.9862085652068715
	},
	{
	"epoch": 0.28,
	"grad_norm": 1.0234375,
	"learning_rate": 1.937206705006344e-05,
	"loss": 0.03637541532516479,
	"step": 210,
	"token_acc": 0.9851211903047756
	},
	{
	"epoch": 0.29333333333333333,
	"grad_norm": 1.34375,
	"learning_rate": 1.9294582017302797e-05,
	"loss": 0.03209535479545593,
	"step": 220,
	"token_acc": 0.9861542134160898
	},
	{
	"epoch": 0.30666666666666664,
	"grad_norm": 1.6015625,
	"learning_rate": 1.921276400388451e-05,
	"loss": 0.031918269395828244,
	"step": 230,
	"token_acc": 0.986810551558753
	},
	{
	"epoch": 0.32,
	"grad_norm": 1.9921875,
	"learning_rate": 1.9126651152015404e-05,
	"loss": 0.03563873469829559,
	"step": 240,
	"token_acc": 0.983626294245124
	},
	{
	"epoch": 0.3333333333333333,
	"grad_norm": 1.5234375,
	"learning_rate": 1.9036283606085057e-05,
	"loss": 0.03571958541870117,
	"step": 250,
	"token_acc": 0.9839019702066314
	},
	{
	"epoch": 0.3466666666666667,
	"grad_norm": 2.1875,
	"learning_rate": 1.8941703493951163e-05,
	"loss": 0.030891618132591246,
	"step": 260,
	"token_acc": 0.9862881885975463
	},
	{
	"epoch": 0.36,
	"grad_norm": 1.78125,
	"learning_rate": 1.8842954907300236e-05,
	"loss": 0.03673713207244873,
	"step": 270,
	"token_acc": 0.9827006246996636
	},
	{
	"epoch": 0.37333333333333335,
	"grad_norm": 2.015625,
	"learning_rate": 1.874008388109276e-05,
	"loss": 0.033187645673751834,
	"step": 280,
	"token_acc": 0.9853752097818269
	},
	{
	"epoch": 0.38666666666666666,
	"grad_norm": 1.21875,
	"learning_rate": 1.863313837210247e-05,
	"loss": 0.03002692461013794,
	"step": 290,
	"token_acc": 0.9861011262880421
	},
	{
	"epoch": 0.4,
	"grad_norm": 1.9921875,
	"learning_rate": 1.8522168236559693e-05,
	"loss": 0.03252564668655396,
	"step": 300,
	"token_acc": 0.9860409145607701
	},
	{
	"epoch": 0.41333333333333333,
	"grad_norm": 1.1484375,
	"learning_rate": 1.840722520690921e-05,
	"loss": 0.034389343857765195,
	"step": 310,
	"token_acc": 0.9862683690676946
	},
	{
	"epoch": 0.4266666666666667,
	"grad_norm": 2.046875,
	"learning_rate": 1.8288362867693414e-05,
	"loss": 0.030599406361579894,
	"step": 320,
	"token_acc": 0.9861011262880421
	},
	{
	"epoch": 0.44,
	"grad_norm": 0.9453125,
	"learning_rate": 1.816563663057211e-05,
	"loss": 0.029587957262992858,
	"step": 330,
	"token_acc": 0.9865513928914506
	},
	{
	"epoch": 0.4533333333333333,
	"grad_norm": 1.5390625,
	"learning_rate": 1.8039103708490503e-05,
	"loss": 0.03238507807254791,
	"step": 340,
	"token_acc": 0.985875029925784
	},
	{
	"epoch": 0.4666666666666667,
	"grad_norm": 0.77734375,
	"learning_rate": 1.790882308900746e-05,
	"loss": 0.03101579546928406,
	"step": 350,
	"token_acc": 0.9872962607861937
	},
	{
	"epoch": 0.48,
	"grad_norm": 1.53125,
	"learning_rate": 1.7774855506796497e-05,
	"loss": 0.031994479894638064,
	"step": 360,
	"token_acc": 0.9857350096711799
	},
	{
	"epoch": 0.49333333333333335,
	"grad_norm": 1.2421875,
	"learning_rate": 1.7637263415332272e-05,
	"loss": 0.028815871477127074,
	"step": 370,
	"token_acc": 0.9896110171539019
	},
	{
	"epoch": 0.5066666666666667,
	"grad_norm": 1.515625,
	"learning_rate": 1.749611095777581e-05,
	"loss": 0.03330559730529785,
	"step": 380,
	"token_acc": 0.9864734299516909
	},
	{
	"epoch": 0.52,
	"grad_norm": 1.4453125,
	"learning_rate": 1.7351463937072008e-05,
	"loss": 0.024368155002593993,
	"step": 390,
	"token_acc": 0.9897202964379632
	},
	{
	"epoch": 0.5333333333333333,
	"grad_norm": 2.140625,
	"learning_rate": 1.7203389785273402e-05,
	"loss": 0.0315426915884018,
	"step": 400,
	"token_acc": 0.9867501806793544
	},
	{
	"epoch": 0.5466666666666666,
	"grad_norm": 0.99609375,
	"learning_rate": 1.705195753210446e-05,
	"loss": 0.027628937363624574,
	"step": 410,
	"token_acc": 0.9856699307379986
	},
	{
	"epoch": 0.56,
	"grad_norm": 1.5078125,
	"learning_rate": 1.6897237772781046e-05,
	"loss": 0.031161597371101378,
	"step": 420,
	"token_acc": 0.9867756672276989
	},
	{
	"epoch": 0.5733333333333334,
	"grad_norm": 2.046875,
	"learning_rate": 1.673930263510011e-05,
	"loss": 0.030777221918106078,
	"step": 430,
	"token_acc": 0.9867851994233542
	},
	{
	"epoch": 0.5866666666666667,
	"grad_norm": 1.9609375,
	"learning_rate": 1.6578225745814907e-05,
	"loss": 0.030515575408935548,
	"step": 440,
	"token_acc": 0.9867947178871549
	},
	{
	"epoch": 0.6,
	"grad_norm": 2.65625,
	"learning_rate": 1.6414082196311402e-05,
	"loss": 0.031556323170661926,
	"step": 450,
	"token_acc": 0.9853471054527985
	},
	{
	"epoch": 0.6133333333333333,
	"grad_norm": 2.859375,
	"learning_rate": 1.6246948507601915e-05,
	"loss": 0.028740781545639037,
	"step": 460,
	"token_acc": 0.9858173076923077
	},
	{
	"epoch": 0.6266666666666667,
	"grad_norm": 3.296875,
	"learning_rate": 1.607690259465229e-05,
	"loss": 0.031500387191772464,
	"step": 470,
	"token_acc": 0.9882522176935986
	},
	{
	"epoch": 0.64,
	"grad_norm": 2.25,
	"learning_rate": 1.5904023730059227e-05,
	"loss": 0.03357301354408264,
	"step": 480,
	"token_acc": 0.9862914862914863
	},
	{
	"epoch": 0.6533333333333333,
	"grad_norm": 2.015625,
	"learning_rate": 1.57283925070947e-05,
	"loss": 0.03677979111671448,
	"step": 490,
	"token_acc": 0.982924482924483
	},
	{
	"epoch": 0.6666666666666666,
	"grad_norm": 1.1171875,
	"learning_rate": 1.55500908021347e-05,
	"loss": 0.03298424780368805,
	"step": 500,
	"token_acc": 0.9850169163847269
	},
	{
	"epoch": 0.68,
	"grad_norm": 2.6875,
	"learning_rate": 1.536920173648984e-05,
	"loss": 0.035187387466430665,
	"step": 510,
	"token_acc": 0.9867597496389022
	},
	{
	"epoch": 0.6933333333333334,
	"grad_norm": 1.546875,
	"learning_rate": 1.5185809637655548e-05,
	"loss": 0.02551887333393097,
	"step": 520,
	"token_acc": 0.990148966842864
	},
	{
	"epoch": 0.7066666666666667,
	"grad_norm": 1.375,
	"learning_rate": 1.5000000000000002e-05,
	"loss": 0.029168868064880372,
	"step": 530,
	"token_acc": 0.9879489033502049
	},
	{
	"epoch": 0.72,
	"grad_norm": 1.8203125,
	"learning_rate": 1.4811859444908053e-05,
	"loss": 0.02838689088821411,
	"step": 540,
	"token_acc": 0.9872442839951865
	},
	{
	"epoch": 0.7333333333333333,
	"grad_norm": 1.6875,
	"learning_rate": 1.4621475680399771e-05,
	"loss": 0.027503234148025513,
	"step": 550,
	"token_acc": 0.9870285851549363
	},
	{
	"epoch": 0.7466666666666667,
	"grad_norm": 0.9296875,
	"learning_rate": 1.4428937460242417e-05,
	"loss": 0.03381537199020386,
	"step": 560,
	"token_acc": 0.9860744297719087
	},
	{
	"epoch": 0.76,
	"grad_norm": 1.296875,
	"learning_rate": 1.4234334542574906e-05,
	"loss": 0.028558316826820373,
	"step": 570,
	"token_acc": 0.9874909790714458
	},
	{
	"epoch": 0.7733333333333333,
	"grad_norm": 1.4921875,
	"learning_rate": 1.4037757648064019e-05,
	"loss": 0.029447346925735474,
	"step": 580,
	"token_acc": 0.9868609651218346
	},
	{
	"epoch": 0.7866666666666666,
	"grad_norm": 2.453125,
	"learning_rate": 1.3839298417611964e-05,
	"loss": 0.02759793698787689,
	"step": 590,
	"token_acc": 0.9877285851780558
	},
	{
	"epoch": 0.8,
	"grad_norm": 1.8671875,
	"learning_rate": 1.3639049369634878e-05,
	"loss": 0.030391490459442137,
	"step": 600,
	"token_acc": 0.9863505747126436
	},
	{
	"epoch": 0.8133333333333334,
	"grad_norm": 1.5390625,
	"learning_rate": 1.3437103856932266e-05,
	"loss": 0.028662437200546266,
	"step": 610,
	"token_acc": 0.9881470730527334
	},
	{
	"epoch": 0.8266666666666667,
	"grad_norm": 1.453125,
	"learning_rate": 1.3233556023167487e-05,
	"loss": 0.02797028422355652,
	"step": 620,
	"token_acc": 0.9882211538461538
	},
	{
	"epoch": 0.84,
	"grad_norm": 1.59375,
	"learning_rate": 1.3028500758979507e-05,
	"loss": 0.02865118682384491,
	"step": 630,
	"token_acc": 0.9860911270983214
	},
	{
	"epoch": 0.8533333333333334,
	"grad_norm": 1.234375,
	"learning_rate": 1.2822033657746478e-05,
	"loss": 0.026763680577278137,
	"step": 640,
	"token_acc": 0.9887127761767531
	},
	{
	"epoch": 0.8666666666666667,
	"grad_norm": 2.078125,
	"learning_rate": 1.2614250971021658e-05,
	"loss": 0.03335306942462921,
	"step": 650,
	"token_acc": 0.9831568816169394
	},
	{
	"epoch": 0.88,
	"grad_norm": 1.765625,
	"learning_rate": 1.2405249563662539e-05,
	"loss": 0.02619180679321289,
	"step": 660,
	"token_acc": 0.9882465819141281
	},
	{
	"epoch": 0.8933333333333333,
	"grad_norm": 1.2890625,
	"learning_rate": 1.2195126868674052e-05,
	"loss": 0.028585124015808105,
	"step": 670,
	"token_acc": 0.9881984585741811
	},
	{
	"epoch": 0.9066666666666666,
	"grad_norm": 1.15625,
	"learning_rate": 1.1983980841786899e-05,
	"loss": 0.02787652611732483,
	"step": 680,
	"token_acc": 0.9889290012033695
	},
	{
	"epoch": 0.92,
	"grad_norm": 1.796875,
	"learning_rate": 1.177190991579223e-05,
	"loss": 0.0291363924741745,
	"step": 690,
	"token_acc": 0.9864897466827504
	},
	{
	"epoch": 0.9333333333333333,
	"grad_norm": 1.21875,
	"learning_rate": 1.1559012954653865e-05,
	"loss": 0.03034358024597168,
	"step": 700,
	"token_acc": 0.9869407496977025
	},
	{
	"epoch": 0.9466666666666667,
	"grad_norm": 1.34375,
	"learning_rate": 1.1345389207419588e-05,
	"loss": 0.027029412984848022,
	"step": 710,
	"token_acc": 0.9873084291187739
	},
	{
	"epoch": 0.96,
	"grad_norm": 2.125,
	"learning_rate": 1.1131138261952845e-05,
	"loss": 0.029054158926010133,
	"step": 720,
	"token_acc": 0.9872657376261412
	},
	{
	"epoch": 0.9733333333333334,
	"grad_norm": 1.28125,
	"learning_rate": 1.0916359998506549e-05,
	"loss": 0.030344563722610473,
	"step": 730,
	"token_acc": 0.987710843373494
	},
	{
	"epoch": 0.9866666666666667,
	"grad_norm": 1.2421875,
	"learning_rate": 1.070115454316054e-05,
	"loss": 0.028968954086303712,
	"step": 740,
	"token_acc": 0.986003861003861
	},
	{
	"epoch": 1.0,
	"grad_norm": 1.5546875,
	"learning_rate": 1.0485622221144485e-05,
	"loss": 0.027395570278167726,
	"step": 750,
	"token_acc": 0.9886005335920446
	},
	{
	"epoch": 1.0133333333333334,
	"grad_norm": 0.796875,
	"learning_rate": 1.0269863510067872e-05,
	"loss": 0.013629350066184997,
	"step": 760,
	"token_acc": 0.9968712394705175
	},
	{
	"epoch": 1.0266666666666666,
	"grad_norm": 0.79296875,
	"learning_rate": 1.0053978993079046e-05,
	"loss": 0.012067935615777969,
	"step": 770,
	"token_acc": 0.9961749940234281
	},
	{
	"epoch": 1.04,
	"grad_norm": 2.203125,
	"learning_rate": 9.838069311974986e-06,
	"loss": 0.011612998694181443,
	"step": 780,
	"token_acc": 0.9954348870735223
	},
	{
	"epoch": 1.0533333333333332,
	"grad_norm": 0.5,
	"learning_rate": 9.622235120283769e-06,
	"loss": 0.0077203229069709774,
	"step": 790,
	"token_acc": 0.9971271247306679
	},
	{
	"epoch": 1.0666666666666667,
	"grad_norm": 0.45703125,
	"learning_rate": 9.406577036341548e-06,
	"loss": 0.011040687561035156,
	"step": 800,
	"token_acc": 0.9956772334293948
	},
	{
	"epoch": 1.08,
	"grad_norm": 0.5859375,
	"learning_rate": 9.19119559638596e-06,
	"loss": 0.008952221274375916,
	"step": 810,
	"token_acc": 0.9966450994488377
	},
	{
	"epoch": 1.0933333333333333,
	"grad_norm": 1.8515625,
	"learning_rate": 8.976191207687775e-06,
	"loss": 0.010079852491617202,
	"step": 820,
	"token_acc": 0.9959310674964098
	},
	{
	"epoch": 1.1066666666666667,
	"grad_norm": 1.625,
	"learning_rate": 8.7616641017427e-06,
	"loss": 0.01139761358499527,
	"step": 830,
	"token_acc": 0.9963916285783017
	},
	{
	"epoch": 1.12,
	"grad_norm": 1.609375,
	"learning_rate": 8.5477142875451e-06,
	"loss": 0.010524387657642364,
	"step": 840,
	"token_acc": 0.9961361989857522
	},
	{
	"epoch": 1.1333333333333333,
	"grad_norm": 0.84375,
	"learning_rate": 8.334441504965456e-06,
	"loss": 0.011410476267337799,
	"step": 850,
	"token_acc": 0.9956490210297317
	},
	{
	"epoch": 1.1466666666666667,
	"grad_norm": 1.90625,
	"learning_rate": 8.1219451782533e-06,
	"loss": 0.009808246791362763,
	"step": 860,
	"token_acc": 0.9964020148716719
	},
	{
	"epoch": 1.16,
	"grad_norm": 1.28125,
	"learning_rate": 7.91032436968725e-06,
	"loss": 0.008106120675802232,
	"step": 870,
	"token_acc": 0.9964054636951833
	},
	{
	"epoch": 1.1733333333333333,
	"grad_norm": 1.0859375,
	"learning_rate": 7.699677733393827e-06,
	"loss": 0.005388218909502029,
	"step": 880,
	"token_acc": 0.9978515158749105
	},
	{
	"epoch": 1.1866666666666668,
	"grad_norm": 1.96875,
	"learning_rate": 7.490103469356513e-06,
	"loss": 0.016499459743499756,
	"step": 890,
	"token_acc": 0.9947000722717417
	},
	{
	"epoch": 1.2,
	"grad_norm": 1.75,
	"learning_rate": 7.2816992776365714e-06,
	"loss": 0.008301901072263718,
	"step": 900,
	"token_acc": 0.9966418805468937
	},
	{
	"epoch": 1.2133333333333334,
	"grad_norm": 1.1328125,
	"learning_rate": 7.0745623128268605e-06,
	"loss": 0.010182877629995346,
	"step": 910,
	"token_acc": 0.9963968292097045
	},
	{
	"epoch": 1.2266666666666666,
	"grad_norm": 0.44921875,
	"learning_rate": 6.868789138759977e-06,
	"loss": 0.007760406285524368,
	"step": 920,
	"token_acc": 0.9971278123504069
	},
	{
	"epoch": 1.24,
	"grad_norm": 1.3828125,
	"learning_rate": 6.664475683491797e-06,
	"loss": 0.007416041195392608,
	"step": 930,
	"token_acc": 0.997346840328027
	},
	{
	"epoch": 1.2533333333333334,
	"grad_norm": 1.6484375,
	"learning_rate": 6.461717194581394e-06,
	"loss": 0.012545964121818543,
	"step": 940,
	"token_acc": 0.9954260953298026
	},
	{
	"epoch": 1.2666666666666666,
	"grad_norm": 2.625,
	"learning_rate": 6.260608194688207e-06,
	"loss": 0.009528040885925293,
	"step": 950,
	"token_acc": 0.9964011516314779
	},
	{
	"epoch": 1.28,
	"grad_norm": 1.109375,
	"learning_rate": 6.061242437507131e-06,
	"loss": 0.010063067823648453,
	"step": 960,
	"token_acc": 0.9958907420836355
	},
	{
	"epoch": 1.2933333333333334,
	"grad_norm": 2.03125,
	"learning_rate": 5.863712864062089e-06,
	"loss": 0.016041702032089232,
	"step": 970,
	"token_acc": 0.9954326923076923
	},
	{
	"epoch": 1.3066666666666666,
	"grad_norm": 1.859375,
	"learning_rate": 5.6681115593784705e-06,
	"loss": 0.010919718444347382,
	"step": 980,
	"token_acc": 0.9959124789612888
	},
	{
	"epoch": 1.32,
	"grad_norm": 0.421875,
	"learning_rate": 5.4745297095546125e-06,
	"loss": 0.011771070957183837,
	"step": 990,
	"token_acc": 0.9963933637893725
	},
	{
	"epoch": 1.3333333333333333,
	"grad_norm": 0.21484375,
	"learning_rate": 5.2830575592523415e-06,
	"loss": 0.011084750294685364,
	"step": 1000,
	"token_acc": 0.996135265700483
	},
	{
	"epoch": 1.3466666666666667,
	"grad_norm": 1.3828125,
	"learning_rate": 5.093784369626397e-06,
	"loss": 0.007512730360031128,
	"step": 1010,
	"token_acc": 0.9968772519817439
	},
	{
	"epoch": 1.3599999999999999,
	"grad_norm": 0.85546875,
	"learning_rate": 4.9067983767123736e-06,
	"loss": 0.010888008773326874,
	"step": 1020,
	"token_acc": 0.9963985594237695
	},
	{
	"epoch": 1.3733333333333333,
	"grad_norm": 1.3828125,
	"learning_rate": 4.722186750292511e-06,
	"loss": 0.01149669587612152,
	"step": 1030,
	"token_acc": 0.9964054636951833
	},
	{
	"epoch": 1.3866666666666667,
	"grad_norm": 1.890625,
	"learning_rate": 4.54003555325862e-06,
	"loss": 0.009606964886188507,
	"step": 1040,
	"token_acc": 0.9970937272947444
	},
	{
	"epoch": 1.4,
	"grad_norm": 2.484375,
	"learning_rate": 4.360429701490935e-06,
	"loss": 0.011592777073383331,
	"step": 1050,
	"token_acc": 0.9959222835212281
	},
	{
	"epoch": 1.4133333333333333,
	"grad_norm": 0.625,
	"learning_rate": 4.183452924271776e-06,
	"loss": 0.008268815279006959,
	"step": 1060,
	"token_acc": 0.9963924963924964
	},
	{
	"epoch": 1.4266666666666667,
	"grad_norm": 1.0859375,
	"learning_rate": 4.009187725252309e-06,
	"loss": 0.008235112577676774,
	"step": 1070,
	"token_acc": 0.996875
	},
	{
	"epoch": 1.44,
	"grad_norm": 1.6953125,
	"learning_rate": 3.837715343990727e-06,
	"loss": 0.010764123499393463,
	"step": 1080,
	"token_acc": 0.9963645176926805
	},
	{
	"epoch": 1.4533333333333334,
	"grad_norm": 2.421875,
	"learning_rate": 3.669115718079702e-06,
	"loss": 0.01102955937385559,
	"step": 1090,
	"token_acc": 0.9954425521707844
	},
	{
	"epoch": 1.4666666666666668,
	"grad_norm": 0.453125,
	"learning_rate": 3.5034674458807893e-06,
	"loss": 0.01023436188697815,
	"step": 1100,
	"token_acc": 0.9963750604156597
	},
	{
	"epoch": 1.48,
	"grad_norm": 1.8125,
	"learning_rate": 3.3408477498831917e-06,
	"loss": 0.008587966859340667,
	"step": 1110,
	"token_acc": 0.9961676646706586
	},
	{
	"epoch": 1.4933333333333334,
	"grad_norm": 1.59375,
	"learning_rate": 3.1813324407038826e-06,
	"loss": 0.007490788400173187,
	"step": 1120,
	"token_acc": 0.9971056439942113
	},
	{
	"epoch": 1.5066666666666668,
	"grad_norm": 0.88671875,
	"learning_rate": 3.024995881745972e-06,
	"loss": 0.00892709642648697,
	"step": 1130,
	"token_acc": 0.9952049868137137
	},
	{
	"epoch": 1.52,
	"grad_norm": 0.625,
	"learning_rate": 2.8719109545317102e-06,
	"loss": 0.010660454630851746,
	"step": 1140,
	"token_acc": 0.9963715529753265
	},
	{
	"epoch": 1.5333333333333332,
	"grad_norm": 0.921875,
	"learning_rate": 2.722149024726307e-06,
	"loss": 0.008663681149482728,
	"step": 1150,
	"token_acc": 0.9968892079444843
	},
	{
	"epoch": 1.5466666666666666,
	"grad_norm": 1.1796875,
	"learning_rate": 2.5757799088684654e-06,
	"loss": 0.011409056186676026,
	"step": 1160,
	"token_acc": 0.9959193470955353
	},
	{
	"epoch": 1.56,
	"grad_norm": 1.8046875,
	"learning_rate": 2.432871841823047e-06,
	"loss": 0.008858834207057954,
	"step": 1170,
	"token_acc": 0.9973513123043583
	},
	{
	"epoch": 1.5733333333333333,
	"grad_norm": 0.1435546875,
	"learning_rate": 2.293491444971109e-06,
	"loss": 0.005919945612549782,
	"step": 1180,
	"token_acc": 0.9971133028626413
	},
	{
	"epoch": 1.5866666666666667,
	"grad_norm": 1.5546875,
	"learning_rate": 2.157703695152109e-06,
	"loss": 0.011429443210363387,
	"step": 1190,
	"token_acc": 0.9944724825763037
	},
	{
	"epoch": 1.6,
	"grad_norm": 0.96484375,
	"learning_rate": 2.025571894372794e-06,
	"loss": 0.008558385819196702,
	"step": 1200,
	"token_acc": 0.9966159052453468
	},
	{
	"epoch": 1.6133333333333333,
	"grad_norm": 1.9921875,
	"learning_rate": 1.897157640296825e-06,
	"loss": 0.012137772142887115,
	"step": 1210,
	"token_acc": 0.9954282964388835
	},
	{
	"epoch": 1.6266666666666667,
	"grad_norm": 2.03125,
	"learning_rate": 1.7725207975289883e-06,
	"loss": 0.008094522356986999,
	"step": 1220,
	"token_acc": 0.9976019184652278
	},
	{
	"epoch": 1.6400000000000001,
	"grad_norm": 1.2890625,
	"learning_rate": 1.6517194697072903e-06,
	"loss": 0.01032220721244812,
	"step": 1230,
	"token_acc": 0.9975984630163305
	},
	{
	"epoch": 1.6533333333333333,
	"grad_norm": 1.4765625,
	"learning_rate": 1.534809972415998e-06,
	"loss": 0.006939056515693665,
	"step": 1240,
	"token_acc": 0.996868978805395
	},
	{
	"epoch": 1.6666666666666665,
	"grad_norm": 2.53125,
	"learning_rate": 1.4218468069322576e-06,
	"loss": 0.015096238255500794,
	"step": 1250,
	"token_acc": 0.9951853635050554
	},
	{
	"epoch": 1.6800000000000002,
	"grad_norm": 1.6875,
	"learning_rate": 1.3128826348184886e-06,
	"loss": 0.010143952071666717,
	"step": 1260,
	"token_acc": 0.9961482908040443
	},
	{
	"epoch": 1.6933333333333334,
	"grad_norm": 0.62109375,
	"learning_rate": 1.207968253372438e-06,
	"loss": 0.009067404270172118,
	"step": 1270,
	"token_acc": 0.995906573561281
	},
	{
	"epoch": 1.7066666666666666,
	"grad_norm": 1.5078125,
	"learning_rate": 1.1071525719463094e-06,
	"loss": 0.011023186147212982,
	"step": 1280,
	"token_acc": 0.9954447374730281
	},
	{
	"epoch": 1.72,
	"grad_norm": 1.0625,
	"learning_rate": 1.010482589146048e-06,
	"loss": 0.009403180330991745,
	"step": 1290,
	"token_acc": 0.9964251668255482
	},
	{
	"epoch": 1.7333333333333334,
	"grad_norm": 1.3359375,
	"learning_rate": 9.180033709213454e-07,
	"loss": 0.010034725069999695,
	"step": 1300,
	"token_acc": 0.997114691031498
	},
	{
	"epoch": 1.7466666666666666,
	"grad_norm": 1.3671875,
	"learning_rate": 8.297580295566576e-07,
	"loss": 0.009973371028900146,
	"step": 1310,
	"token_acc": 0.9968772519817439
	},
	{
	"epoch": 1.76,
	"grad_norm": 0.359375,
	"learning_rate": 7.457877035729588e-07,
	"loss": 0.0062577612698078156,
	"step": 1320,
	"token_acc": 0.9978406909788867
	},
	{
	"epoch": 1.7733333333333334,
	"grad_norm": 1.296875,
	"learning_rate": 6.661315385496426e-07,
	"loss": 0.010465647280216216,
	"step": 1330,
	"token_acc": 0.9971133028626413
	},
	{
	"epoch": 1.7866666666666666,
	"grad_norm": 2.96875,
	"learning_rate": 5.908266688755049e-07,
	"loss": 0.012356024980545045,
	"step": 1340,
	"token_acc": 0.9951737451737451
	},
	{
	"epoch": 1.8,
	"grad_norm": 0.98046875,
	"learning_rate": 5.199082004372958e-07,
	"loss": 0.009671059250831605,
	"step": 1350,
	"token_acc": 0.9966378482228626
	},
	{
	"epoch": 1.8133333333333335,
	"grad_norm": 2.078125,
	"learning_rate": 4.534091942539476e-07,
	"loss": 0.008851684629917145,
	"step": 1360,
	"token_acc": 0.9968802495800336
	},
	{
	"epoch": 1.8266666666666667,
	"grad_norm": 1.5625,
	"learning_rate": 3.913606510640644e-07,
	"loss": 0.008533693850040436,
	"step": 1370,
	"token_acc": 0.9966232513265798
	},
	{
	"epoch": 1.8399999999999999,
	"grad_norm": 0.81640625,
	"learning_rate": 3.3379149687388866e-07,
	"loss": 0.010838476568460464,
	"step": 1380,
	"token_acc": 0.9959193470955353
	},
	{
	"epoch": 1.8533333333333335,
	"grad_norm": 0.3515625,
	"learning_rate": 2.807285694724804e-07,
	"loss": 0.0096530020236969,
	"step": 1390,
	"token_acc": 0.9966442953020134
	},
	{
	"epoch": 1.8666666666666667,
	"grad_norm": 1.9609375,
	"learning_rate": 2.3219660592038285e-07,
	"loss": 0.01174573004245758,
	"step": 1400,
	"token_acc": 0.9966346153846154
	},
	{
	"epoch": 1.88,
	"grad_norm": 2.171875,
	"learning_rate": 1.8821823101760949e-07,
	"loss": 0.012217908352613448,
	"step": 1410,
	"token_acc": 0.9949555608935864
	},
	{
	"epoch": 1.8933333333333333,
	"grad_norm": 0.4375,
	"learning_rate": 1.4881394675633543e-07,
	"loss": 0.007538451254367829,
	"step": 1420,
	"token_acc": 0.9978354978354979
	},
	{
	"epoch": 1.9066666666666667,
	"grad_norm": 0.251953125,
	"learning_rate": 1.1400212276321377e-07,
	"loss": 0.005265282094478607,
	"step": 1430,
	"token_acc": 0.9976065102920058
	},
	{
	"epoch": 1.92,
	"grad_norm": 2.34375,
	"learning_rate": 8.379898773574924e-08,
	"loss": 0.009292224794626236,
	"step": 1440,
	"token_acc": 0.9964046021093
	},
	{
	"epoch": 1.9333333333333333,
	"grad_norm": 1.390625,
	"learning_rate": 5.821862187675775e-08,
	"loss": 0.009811708331108093,
	"step": 1450,
	"token_acc": 0.9966450994488377
	},
	{
	"epoch": 1.9466666666666668,
	"grad_norm": 2.265625,
	"learning_rate": 3.727295033040035e-08,
	"loss": 0.00994875207543373,
	"step": 1460,
	"token_acc": 0.9966329966329966
	},
	{
	"epoch": 1.96,
	"grad_norm": 2.734375,
	"learning_rate": 2.0971737622883515e-08,
	"loss": 0.009690174460411071,
	"step": 1470,
	"token_acc": 0.9963776865491427
	},
	{
	"epoch": 1.9733333333333334,
	"grad_norm": 1.671875,
	"learning_rate": 9.322583110392692e-09,
	"loss": 0.00724238008260727,
	"step": 1480,
	"token_acc": 0.9978380975258228
	},
	{
	"epoch": 1.9866666666666668,
	"grad_norm": 1.0234375,
	"learning_rate": 2.330917436402791e-09,
	"loss": 0.008754293620586395,
	"step": 1490,
	"token_acc": 0.9961492178098676
	},
	{
	"epoch": 2.0,
	"grad_norm": 1.84375,
	"learning_rate": 0.0,
	"loss": 0.007110082358121872,
	"step": 1500,
	"token_acc": 0.997303260603089
	}
	],
	"logging_steps": 10,
	"max_steps": 1500,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 2,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 6.111061190492815e+17,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}