webagent / webrl-llama /trainer_state.json

Upload folder using huggingface_hub

c60f0f4 verified 20 days ago

29.1 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 3.0,
	"eval_steps": 500,
	"global_step": 1599,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.018788163457022077,
	"grad_norm": 38.902539143522475,
	"learning_rate": 5.625e-07,
	"loss": 1.3022,
	"step": 10
	},
	{
	"epoch": 0.03757632691404415,
	"grad_norm": 25.841390543115104,
	"learning_rate": 1.1875e-06,
	"loss": 0.9208,
	"step": 20
	},
	{
	"epoch": 0.05636449037106623,
	"grad_norm": 12.835104883604552,
	"learning_rate": 1.8125e-06,
	"loss": 0.6368,
	"step": 30
	},
	{
	"epoch": 0.0751526538280883,
	"grad_norm": 14.597848294473495,
	"learning_rate": 2.4375e-06,
	"loss": 0.4864,
	"step": 40
	},
	{
	"epoch": 0.09394081728511038,
	"grad_norm": 10.147065718110532,
	"learning_rate": 3.0625000000000003e-06,
	"loss": 0.413,
	"step": 50
	},
	{
	"epoch": 0.11272898074213246,
	"grad_norm": 7.953678589468881,
	"learning_rate": 3.6875000000000007e-06,
	"loss": 0.3552,
	"step": 60
	},
	{
	"epoch": 0.13151714419915453,
	"grad_norm": 15.497275455908772,
	"learning_rate": 4.312500000000001e-06,
	"loss": 0.3232,
	"step": 70
	},
	{
	"epoch": 0.1503053076561766,
	"grad_norm": 10.684325762714469,
	"learning_rate": 4.937500000000001e-06,
	"loss": 0.3995,
	"step": 80
	},
	{
	"epoch": 0.1690934711131987,
	"grad_norm": 5.578373425613698,
	"learning_rate": 5.5625000000000005e-06,
	"loss": 0.383,
	"step": 90
	},
	{
	"epoch": 0.18788163457022075,
	"grad_norm": 6.8251720225201336,
	"learning_rate": 6.1875000000000005e-06,
	"loss": 0.4042,
	"step": 100
	},
	{
	"epoch": 0.20666979802724283,
	"grad_norm": 6.671521431411895,
	"learning_rate": 6.8125e-06,
	"loss": 0.2883,
	"step": 110
	},
	{
	"epoch": 0.22545796148426492,
	"grad_norm": 5.055948701380774,
	"learning_rate": 7.437500000000001e-06,
	"loss": 0.3389,
	"step": 120
	},
	{
	"epoch": 0.244246124941287,
	"grad_norm": 6.217541233533783,
	"learning_rate": 8.062500000000001e-06,
	"loss": 0.2971,
	"step": 130
	},
	{
	"epoch": 0.26303428839830906,
	"grad_norm": 4.948590364279342,
	"learning_rate": 8.687500000000001e-06,
	"loss": 0.3087,
	"step": 140
	},
	{
	"epoch": 0.28182245185533117,
	"grad_norm": 9.515982957654412,
	"learning_rate": 9.312500000000001e-06,
	"loss": 0.328,
	"step": 150
	},
	{
	"epoch": 0.3006106153123532,
	"grad_norm": 5.588586595769071,
	"learning_rate": 9.937500000000001e-06,
	"loss": 0.3183,
	"step": 160
	},
	{
	"epoch": 0.3193987787693753,
	"grad_norm": 6.382027734743243,
	"learning_rate": 9.999034862449997e-06,
	"loss": 0.3427,
	"step": 170
	},
	{
	"epoch": 0.3381869422263974,
	"grad_norm": 7.190427289350578,
	"learning_rate": 9.995699062853814e-06,
	"loss": 0.3567,
	"step": 180
	},
	{
	"epoch": 0.35697510568341945,
	"grad_norm": 7.34935653943741,
	"learning_rate": 9.989982275421674e-06,
	"loss": 0.2315,
	"step": 190
	},
	{
	"epoch": 0.3757632691404415,
	"grad_norm": 6.295235795739874,
	"learning_rate": 9.981887224817565e-06,
	"loss": 0.3465,
	"step": 200
	},
	{
	"epoch": 0.3945514325974636,
	"grad_norm": 6.275130440505698,
	"learning_rate": 9.971417769203639e-06,
	"loss": 0.3036,
	"step": 210
	},
	{
	"epoch": 0.41333959605448567,
	"grad_norm": 7.6581869277864465,
	"learning_rate": 9.958578898401365e-06,
	"loss": 0.314,
	"step": 220
	},
	{
	"epoch": 0.4321277595115077,
	"grad_norm": 4.7865555589430535,
	"learning_rate": 9.943376731513364e-06,
	"loss": 0.3888,
	"step": 230
	},
	{
	"epoch": 0.45091592296852984,
	"grad_norm": 5.5592205355180155,
	"learning_rate": 9.92581851400698e-06,
	"loss": 0.3072,
	"step": 240
	},
	{
	"epoch": 0.4697040864255519,
	"grad_norm": 7.370996615746405,
	"learning_rate": 9.90591261426105e-06,
	"loss": 0.3344,
	"step": 250
	},
	{
	"epoch": 0.488492249882574,
	"grad_norm": 5.867505322765833,
	"learning_rate": 9.883668519577464e-06,
	"loss": 0.2927,
	"step": 260
	},
	{
	"epoch": 0.5072804133395961,
	"grad_norm": 5.191413529518597,
	"learning_rate": 9.85909683165945e-06,
	"loss": 0.2952,
	"step": 270
	},
	{
	"epoch": 0.5260685767966181,
	"grad_norm": 19.97325422873732,
	"learning_rate": 9.832209261558707e-06,
	"loss": 0.2545,
	"step": 280
	},
	{
	"epoch": 0.5448567402536402,
	"grad_norm": 4.341682760199477,
	"learning_rate": 9.803018624093859e-06,
	"loss": 0.2789,
	"step": 290
	},
	{
	"epoch": 0.5636449037106623,
	"grad_norm": 5.155418355116268,
	"learning_rate": 9.771538831742785e-06,
	"loss": 0.3209,
	"step": 300
	},
	{
	"epoch": 0.5824330671676844,
	"grad_norm": 5.585775233082983,
	"learning_rate": 9.737784888011847e-06,
	"loss": 0.2721,
	"step": 310
	},
	{
	"epoch": 0.6012212306247064,
	"grad_norm": 6.011924955720608,
	"learning_rate": 9.701772880285098e-06,
	"loss": 0.2369,
	"step": 320
	},
	{
	"epoch": 0.6200093940817285,
	"grad_norm": 3.464693811617661,
	"learning_rate": 9.663519972156919e-06,
	"loss": 0.327,
	"step": 330
	},
	{
	"epoch": 0.6387975575387506,
	"grad_norm": 3.9209881919217473,
	"learning_rate": 9.623044395251709e-06,
	"loss": 0.3057,
	"step": 340
	},
	{
	"epoch": 0.6575857209957726,
	"grad_norm": 3.4697639872647668,
	"learning_rate": 9.580365440534567e-06,
	"loss": 0.2397,
	"step": 350
	},
	{
	"epoch": 0.6763738844527948,
	"grad_norm": 3.7401214735406234,
	"learning_rate": 9.535503449117067e-06,
	"loss": 0.2472,
	"step": 360
	},
	{
	"epoch": 0.6951620479098168,
	"grad_norm": 6.346162811263442,
	"learning_rate": 9.488479802562535e-06,
	"loss": 0.2861,
	"step": 370
	},
	{
	"epoch": 0.7139502113668389,
	"grad_norm": 3.159937104618782,
	"learning_rate": 9.439316912695433e-06,
	"loss": 0.263,
	"step": 380
	},
	{
	"epoch": 0.732738374823861,
	"grad_norm": 4.840970300357461,
	"learning_rate": 9.388038210919706e-06,
	"loss": 0.317,
	"step": 390
	},
	{
	"epoch": 0.751526538280883,
	"grad_norm": 3.7912950448134284,
	"learning_rate": 9.334668137051213e-06,
	"loss": 0.2399,
	"step": 400
	},
	{
	"epoch": 0.7703147017379052,
	"grad_norm": 3.6544447000330536,
	"learning_rate": 9.279232127669519e-06,
	"loss": 0.2855,
	"step": 410
	},
	{
	"epoch": 0.7891028651949272,
	"grad_norm": 3.415036837035855,
	"learning_rate": 9.221756603994622e-06,
	"loss": 0.2258,
	"step": 420
	},
	{
	"epoch": 0.8078910286519493,
	"grad_norm": 4.076375098278762,
	"learning_rate": 9.162268959294421e-06,
	"loss": 0.2501,
	"step": 430
	},
	{
	"epoch": 0.8266791921089713,
	"grad_norm": 3.496486007224735,
	"learning_rate": 9.10079754582885e-06,
	"loss": 0.1867,
	"step": 440
	},
	{
	"epoch": 0.8454673555659934,
	"grad_norm": 3.469220654012647,
	"learning_rate": 9.037371661337006e-06,
	"loss": 0.2623,
	"step": 450
	},
	{
	"epoch": 0.8642555190230155,
	"grad_norm": 5.445833530786857,
	"learning_rate": 8.972021535073605e-06,
	"loss": 0.2986,
	"step": 460
	},
	{
	"epoch": 0.8830436824800376,
	"grad_norm": 2.807672252814633,
	"learning_rate": 8.904778313401497e-06,
	"loss": 0.2536,
	"step": 470
	},
	{
	"epoch": 0.9018318459370597,
	"grad_norm": 7.9424075184306755,
	"learning_rate": 8.835674044947078e-06,
	"loss": 0.3049,
	"step": 480
	},
	{
	"epoch": 0.9206200093940817,
	"grad_norm": 4.713848985031599,
	"learning_rate": 8.764741665325672e-06,
	"loss": 0.2319,
	"step": 490
	},
	{
	"epoch": 0.9394081728511038,
	"grad_norm": 4.413441646714263,
	"learning_rate": 8.692014981444166e-06,
	"loss": 0.2843,
	"step": 500
	},
	{
	"epoch": 0.9394081728511038,
	"eval_loss": 0.23845727741718292,
	"eval_runtime": 139.1371,
	"eval_samples_per_second": 6.799,
	"eval_steps_per_second": 1.703,
	"step": 500
	},
	{
	"epoch": 0.9581963363081258,
	"grad_norm": 1.9799881256140055,
	"learning_rate": 8.617528655388384e-06,
	"loss": 0.2351,
	"step": 510
	},
	{
	"epoch": 0.976984499765148,
	"grad_norm": 5.12487715924031,
	"learning_rate": 8.541318187902879e-06,
	"loss": 0.233,
	"step": 520
	},
	{
	"epoch": 0.9957726632221701,
	"grad_norm": 3.19651743083849,
	"learning_rate": 8.463419901471002e-06,
	"loss": 0.2415,
	"step": 530
	},
	{
	"epoch": 1.0131517144199154,
	"grad_norm": 3.1257162430007224,
	"learning_rate": 8.383870923003345e-06,
	"loss": 0.2149,
	"step": 540
	},
	{
	"epoch": 1.0319398778769375,
	"grad_norm": 3.45631296377837,
	"learning_rate": 8.302709166142765e-06,
	"loss": 0.1915,
	"step": 550
	},
	{
	"epoch": 1.0507280413339597,
	"grad_norm": 2.286180863936669,
	"learning_rate": 8.219973313194461e-06,
	"loss": 0.1317,
	"step": 560
	},
	{
	"epoch": 1.0695162047909816,
	"grad_norm": 2.9540247439256673,
	"learning_rate": 8.135702796689693e-06,
	"loss": 0.1626,
	"step": 570
	},
	{
	"epoch": 1.0883043682480038,
	"grad_norm": 2.1567801477380066,
	"learning_rate": 8.049937780591944e-06,
	"loss": 0.1284,
	"step": 580
	},
	{
	"epoch": 1.1070925317050258,
	"grad_norm": 3.3038946448126256,
	"learning_rate": 7.962719141154469e-06,
	"loss": 0.15,
	"step": 590
	},
	{
	"epoch": 1.125880695162048,
	"grad_norm": 3.0873807975498635,
	"learning_rate": 7.874088447438366e-06,
	"loss": 0.139,
	"step": 600
	},
	{
	"epoch": 1.1446688586190699,
	"grad_norm": 2.051043815446488,
	"learning_rate": 7.784087941500446e-06,
	"loss": 0.1519,
	"step": 610
	},
	{
	"epoch": 1.163457022076092,
	"grad_norm": 2.4617892609619143,
	"learning_rate": 7.692760518260355e-06,
	"loss": 0.1084,
	"step": 620
	},
	{
	"epoch": 1.1822451855331142,
	"grad_norm": 1.7623637548791922,
	"learning_rate": 7.6001497050565256e-06,
	"loss": 0.1348,
	"step": 630
	},
	{
	"epoch": 1.2010333489901361,
	"grad_norm": 3.2507782557395206,
	"learning_rate": 7.506299640900725e-06,
	"loss": 0.1598,
	"step": 640
	},
	{
	"epoch": 1.2198215124471583,
	"grad_norm": 4.2496165791641864,
	"learning_rate": 7.411255055441064e-06,
	"loss": 0.1691,
	"step": 650
	},
	{
	"epoch": 1.2386096759041805,
	"grad_norm": 6.841696105552823,
	"learning_rate": 7.315061247643518e-06,
	"loss": 0.1755,
	"step": 660
	},
	{
	"epoch": 1.2573978393612024,
	"grad_norm": 2.5825812551037224,
	"learning_rate": 7.2177640642020875e-06,
	"loss": 0.1706,
	"step": 670
	},
	{
	"epoch": 1.2761860028182246,
	"grad_norm": 3.371098422024725,
	"learning_rate": 7.119409877687923e-06,
	"loss": 0.1444,
	"step": 680
	},
	{
	"epoch": 1.2949741662752465,
	"grad_norm": 2.590100923291357,
	"learning_rate": 7.0200455644478105e-06,
	"loss": 0.1028,
	"step": 690
	},
	{
	"epoch": 1.3137623297322687,
	"grad_norm": 2.481043190681829,
	"learning_rate": 6.91971848226255e-06,
	"loss": 0.1614,
	"step": 700
	},
	{
	"epoch": 1.3325504931892906,
	"grad_norm": 2.329271785947211,
	"learning_rate": 6.818476447775873e-06,
	"loss": 0.14,
	"step": 710
	},
	{
	"epoch": 1.3513386566463128,
	"grad_norm": 2.646993250936894,
	"learning_rate": 6.7163677137046855e-06,
	"loss": 0.1737,
	"step": 720
	},
	{
	"epoch": 1.370126820103335,
	"grad_norm": 5.413980223824179,
	"learning_rate": 6.6134409458414415e-06,
	"loss": 0.1878,
	"step": 730
	},
	{
	"epoch": 1.388914983560357,
	"grad_norm": 2.1714036144692934,
	"learning_rate": 6.50974519985967e-06,
	"loss": 0.1495,
	"step": 740
	},
	{
	"epoch": 1.407703147017379,
	"grad_norm": 3.133663498685042,
	"learning_rate": 6.405329897933669e-06,
	"loss": 0.1128,
	"step": 750
	},
	{
	"epoch": 1.4264913104744013,
	"grad_norm": 6.167890536629415,
	"learning_rate": 6.300244805183524e-06,
	"loss": 0.1226,
	"step": 760
	},
	{
	"epoch": 1.4452794739314232,
	"grad_norm": 2.676375029014761,
	"learning_rate": 6.194540005956675e-06,
	"loss": 0.1484,
	"step": 770
	},
	{
	"epoch": 1.4640676373884451,
	"grad_norm": 2.475835214596877,
	"learning_rate": 6.088265879957345e-06,
	"loss": 0.1491,
	"step": 780
	},
	{
	"epoch": 1.4828558008454673,
	"grad_norm": 2.2436437435088723,
	"learning_rate": 5.981473078235186e-06,
	"loss": 0.1166,
	"step": 790
	},
	{
	"epoch": 1.5016439643024895,
	"grad_norm": 2.132099788544184,
	"learning_rate": 5.874212499044609e-06,
	"loss": 0.1531,
	"step": 800
	},
	{
	"epoch": 1.5204321277595114,
	"grad_norm": 4.079361340018406,
	"learning_rate": 5.7665352635862945e-06,
	"loss": 0.1398,
	"step": 810
	},
	{
	"epoch": 1.5392202912165336,
	"grad_norm": 1.9003215983018618,
	"learning_rate": 5.658492691642443e-06,
	"loss": 0.1391,
	"step": 820
	},
	{
	"epoch": 1.5580084546735558,
	"grad_norm": 2.6377367761402586,
	"learning_rate": 5.550136277117375e-06,
	"loss": 0.1418,
	"step": 830
	},
	{
	"epoch": 1.5767966181305777,
	"grad_norm": 3.1017028365243995,
	"learning_rate": 5.4415176634951515e-06,
	"loss": 0.1381,
	"step": 840
	},
	{
	"epoch": 1.5955847815875999,
	"grad_norm": 2.6515166581373504,
	"learning_rate": 5.332688619225903e-06,
	"loss": 0.1238,
	"step": 850
	},
	{
	"epoch": 1.614372945044622,
	"grad_norm": 1.922819738710662,
	"learning_rate": 5.22370101305259e-06,
	"loss": 0.1119,
	"step": 860
	},
	{
	"epoch": 1.633161108501644,
	"grad_norm": 2.529225306976089,
	"learning_rate": 5.114606789289973e-06,
	"loss": 0.1622,
	"step": 870
	},
	{
	"epoch": 1.651949271958666,
	"grad_norm": 1.288640339335927,
	"learning_rate": 5.005457943067561e-06,
	"loss": 0.1192,
	"step": 880
	},
	{
	"epoch": 1.670737435415688,
	"grad_norm": 3.4037089339443782,
	"learning_rate": 4.896306495548334e-06,
	"loss": 0.1039,
	"step": 890
	},
	{
	"epoch": 1.6895255988727103,
	"grad_norm": 3.9649233321606805,
	"learning_rate": 4.7872044691350735e-06,
	"loss": 0.1375,
	"step": 900
	},
	{
	"epoch": 1.7083137623297322,
	"grad_norm": 2.5965801580755286,
	"learning_rate": 4.678203862676091e-06,
	"loss": 0.1092,
	"step": 910
	},
	{
	"epoch": 1.7271019257867544,
	"grad_norm": 2.5786254690111265,
	"learning_rate": 4.569356626682181e-06,
	"loss": 0.1239,
	"step": 920
	},
	{
	"epoch": 1.7458900892437765,
	"grad_norm": 3.8696436706505435,
	"learning_rate": 4.4607146385666145e-06,
	"loss": 0.1387,
	"step": 930
	},
	{
	"epoch": 1.7646782527007985,
	"grad_norm": 2.851127249549094,
	"learning_rate": 4.352329677919983e-06,
	"loss": 0.1595,
	"step": 940
	},
	{
	"epoch": 1.7834664161578204,
	"grad_norm": 2.2742219632834795,
	"learning_rate": 4.244253401831646e-06,
	"loss": 0.11,
	"step": 950
	},
	{
	"epoch": 1.8022545796148428,
	"grad_norm": 1.9123730074854848,
	"learning_rate": 4.136537320269571e-06,
	"loss": 0.1205,
	"step": 960
	},
	{
	"epoch": 1.8210427430718648,
	"grad_norm": 2.5825751840603277,
	"learning_rate": 4.029232771530306e-06,
	"loss": 0.1134,
	"step": 970
	},
	{
	"epoch": 1.8398309065288867,
	"grad_norm": 2.471433944974579,
	"learning_rate": 3.92239089777075e-06,
	"loss": 0.1123,
	"step": 980
	},
	{
	"epoch": 1.8586190699859089,
	"grad_norm": 3.5281114838659686,
	"learning_rate": 3.816062620633414e-06,
	"loss": 0.1188,
	"step": 990
	},
	{
	"epoch": 1.877407233442931,
	"grad_norm": 1.9634958487628664,
	"learning_rate": 3.7102986169767954e-06,
	"loss": 0.1062,
	"step": 1000
	},
	{
	"epoch": 1.877407233442931,
	"eval_loss": 0.19623179733753204,
	"eval_runtime": 139.2435,
	"eval_samples_per_second": 6.794,
	"eval_steps_per_second": 1.702,
	"step": 1000
	},
	{
	"epoch": 1.896195396899953,
	"grad_norm": 3.6853787421863164,
	"learning_rate": 3.605149294722392e-06,
	"loss": 0.1055,
	"step": 1010
	},
	{
	"epoch": 1.9149835603569751,
	"grad_norm": 3.7066247620003168,
	"learning_rate": 3.500664768829908e-06,
	"loss": 0.125,
	"step": 1020
	},
	{
	"epoch": 1.9337717238139973,
	"grad_norm": 1.9487521917157127,
	"learning_rate": 3.3968948374120958e-06,
	"loss": 0.1046,
	"step": 1030
	},
	{
	"epoch": 1.9525598872710193,
	"grad_norm": 1.7787524143692979,
	"learning_rate": 3.2938889580005932e-06,
	"loss": 0.1308,
	"step": 1040
	},
	{
	"epoch": 1.9713480507280412,
	"grad_norm": 2.4115181227326383,
	"learning_rate": 3.191696223974084e-06,
	"loss": 0.1195,
	"step": 1050
	},
	{
	"epoch": 1.9901362141850634,
	"grad_norm": 1.8676954461633957,
	"learning_rate": 3.090365341160041e-06,
	"loss": 0.119,
	"step": 1060
	},
	{
	"epoch": 2.0075152653828088,
	"grad_norm": 2.0403175416536157,
	"learning_rate": 2.989944604621148e-06,
	"loss": 0.1082,
	"step": 1070
	},
	{
	"epoch": 2.0263034288398307,
	"grad_norm": 1.8796687540004382,
	"learning_rate": 2.8904818756375076e-06,
	"loss": 0.0649,
	"step": 1080
	},
	{
	"epoch": 2.045091592296853,
	"grad_norm": 1.6678868897065664,
	"learning_rate": 2.792024558895606e-06,
	"loss": 0.0671,
	"step": 1090
	},
	{
	"epoch": 2.063879755753875,
	"grad_norm": 3.1485507384660547,
	"learning_rate": 2.6946195798948755e-06,
	"loss": 0.0597,
	"step": 1100
	},
	{
	"epoch": 2.082667919210897,
	"grad_norm": 0.966514290803291,
	"learning_rate": 2.598313362582639e-06,
	"loss": 0.0582,
	"step": 1110
	},
	{
	"epoch": 2.1014560826679194,
	"grad_norm": 1.3610544972984766,
	"learning_rate": 2.5031518072281236e-06,
	"loss": 0.0609,
	"step": 1120
	},
	{
	"epoch": 2.1202442461249413,
	"grad_norm": 1.5921330796712605,
	"learning_rate": 2.4091802685460336e-06,
	"loss": 0.0664,
	"step": 1130
	},
	{
	"epoch": 2.1390324095819633,
	"grad_norm": 2.3312224294157025,
	"learning_rate": 2.3164435340801574e-06,
	"loss": 0.0675,
	"step": 1140
	},
	{
	"epoch": 2.1578205730389852,
	"grad_norm": 1.7103466660833229,
	"learning_rate": 2.224985802857284e-06,
	"loss": 0.0453,
	"step": 1150
	},
	{
	"epoch": 2.1766087364960076,
	"grad_norm": 2.060481882429091,
	"learning_rate": 2.134850664321617e-06,
	"loss": 0.0625,
	"step": 1160
	},
	{
	"epoch": 2.1953968999530296,
	"grad_norm": 0.9427782782833426,
	"learning_rate": 2.046081077559707e-06,
	"loss": 0.0565,
	"step": 1170
	},
	{
	"epoch": 2.2141850634100515,
	"grad_norm": 1.9240741575863745,
	"learning_rate": 1.9587193508258415e-06,
	"loss": 0.051,
	"step": 1180
	},
	{
	"epoch": 2.232973226867074,
	"grad_norm": 1.2001636500769781,
	"learning_rate": 1.8728071213776028e-06,
	"loss": 0.048,
	"step": 1190
	},
	{
	"epoch": 2.251761390324096,
	"grad_norm": 1.8036945101434407,
	"learning_rate": 1.7883853356312375e-06,
	"loss": 0.0575,
	"step": 1200
	},
	{
	"epoch": 2.270549553781118,
	"grad_norm": 1.2865058971634646,
	"learning_rate": 1.7054942296462895e-06,
	"loss": 0.0708,
	"step": 1210
	},
	{
	"epoch": 2.2893377172381397,
	"grad_norm": 1.9144408525509076,
	"learning_rate": 1.6241733099487888e-06,
	"loss": 0.0513,
	"step": 1220
	},
	{
	"epoch": 2.308125880695162,
	"grad_norm": 1.7106138783392042,
	"learning_rate": 1.5444613347021392e-06,
	"loss": 0.0562,
	"step": 1230
	},
	{
	"epoch": 2.326914044152184,
	"grad_norm": 1.2128475292175165,
	"learning_rate": 1.4663962952346938e-06,
	"loss": 0.0507,
	"step": 1240
	},
	{
	"epoch": 2.3457022076092064,
	"grad_norm": 1.321730273201786,
	"learning_rate": 1.3900153979327951e-06,
	"loss": 0.0577,
	"step": 1250
	},
	{
	"epoch": 2.3644903710662284,
	"grad_norm": 2.7875274955613745,
	"learning_rate": 1.315355046507934e-06,
	"loss": 0.0648,
	"step": 1260
	},
	{
	"epoch": 2.3832785345232503,
	"grad_norm": 1.8288963759953032,
	"learning_rate": 1.2424508246464635e-06,
	"loss": 0.0558,
	"step": 1270
	},
	{
	"epoch": 2.4020666979802723,
	"grad_norm": 1.537482323897175,
	"learning_rate": 1.171337479050148e-06,
	"loss": 0.061,
	"step": 1280
	},
	{
	"epoch": 2.4208548614372947,
	"grad_norm": 2.1795553061277357,
	"learning_rate": 1.1020489028756243e-06,
	"loss": 0.0521,
	"step": 1290
	},
	{
	"epoch": 2.4396430248943166,
	"grad_norm": 1.75277898274252,
	"learning_rate": 1.0346181195806614e-06,
	"loss": 0.0583,
	"step": 1300
	},
	{
	"epoch": 2.4584311883513386,
	"grad_norm": 1.7605887217641596,
	"learning_rate": 9.690772671849403e-07,
	"loss": 0.0546,
	"step": 1310
	},
	{
	"epoch": 2.477219351808361,
	"grad_norm": 1.447955784872353,
	"learning_rate": 9.054575829528251e-07,
	"loss": 0.0551,
	"step": 1320
	},
	{
	"epoch": 2.496007515265383,
	"grad_norm": 5.225313476562762,
	"learning_rate": 8.437893885054504e-07,
	"loss": 0.0517,
	"step": 1330
	},
	{
	"epoch": 2.514795678722405,
	"grad_norm": 1.5717503369334935,
	"learning_rate": 7.841020753692058e-07,
	"loss": 0.0545,
	"step": 1340
	},
	{
	"epoch": 2.533583842179427,
	"grad_norm": 2.6343667579863963,
	"learning_rate": 7.264240909675174e-07,
	"loss": 0.0472,
	"step": 1350
	},
	{
	"epoch": 2.552372005636449,
	"grad_norm": 2.023557390851674,
	"learning_rate": 6.707829250625825e-07,
	"loss": 0.0446,
	"step": 1360
	},
	{
	"epoch": 2.571160169093471,
	"grad_norm": 1.6290921730514096,
	"learning_rate": 6.172050966535514e-07,
	"loss": 0.0542,
	"step": 1370
	},
	{
	"epoch": 2.589948332550493,
	"grad_norm": 1.712949974396625,
	"learning_rate": 5.65716141337368e-07,
	"loss": 0.0469,
	"step": 1380
	},
	{
	"epoch": 2.6087364960075154,
	"grad_norm": 1.3027380061751708,
	"learning_rate": 5.163405991383114e-07,
	"loss": 0.0425,
	"step": 1390
	},
	{
	"epoch": 2.6275246594645374,
	"grad_norm": 1.065265515773574,
	"learning_rate": 4.6910200281203523e-07,
	"loss": 0.0504,
	"step": 1400
	},
	{
	"epoch": 2.6463128229215593,
	"grad_norm": 1.9478720946650225,
	"learning_rate": 4.240228666296825e-07,
	"loss": 0.0634,
	"step": 1410
	},
	{
	"epoch": 2.6651009863785813,
	"grad_norm": 2.5865600012088326,
	"learning_rate": 3.8112467564740796e-07,
	"loss": 0.0573,
	"step": 1420
	},
	{
	"epoch": 2.6838891498356037,
	"grad_norm": 2.0098060853151702,
	"learning_rate": 3.4042787546644305e-07,
	"loss": 0.07,
	"step": 1430
	},
	{
	"epoch": 2.7026773132926256,
	"grad_norm": 1.1444888015196577,
	"learning_rate": 3.0195186248856866e-07,
	"loss": 0.0448,
	"step": 1440
	},
	{
	"epoch": 2.7214654767496476,
	"grad_norm": 1.0223331183810753,
	"learning_rate": 2.6571497467164033e-07,
	"loss": 0.058,
	"step": 1450
	},
	{
	"epoch": 2.74025364020667,
	"grad_norm": 1.4130933630125946,
	"learning_rate": 2.3173448278958178e-07,
	"loss": 0.0654,
	"step": 1460
	},
	{
	"epoch": 2.759041803663692,
	"grad_norm": 1.2949137507027924,
	"learning_rate": 2.0002658220100334e-07,
	"loss": 0.0556,
	"step": 1470
	},
	{
	"epoch": 2.777829967120714,
	"grad_norm": 1.5805556155196185,
	"learning_rate": 1.7060638513037076e-07,
	"loss": 0.0558,
	"step": 1480
	},
	{
	"epoch": 2.796618130577736,
	"grad_norm": 2.0964534267823725,
	"learning_rate": 1.434879134654077e-07,
	"loss": 0.0496,
	"step": 1490
	},
	{
	"epoch": 2.815406294034758,
	"grad_norm": 1.464233077890015,
	"learning_rate": 1.186840920741561e-07,
	"loss": 0.0573,
	"step": 1500
	},
	{
	"epoch": 2.815406294034758,
	"eval_loss": 0.19711866974830627,
	"eval_runtime": 140.2242,
	"eval_samples_per_second": 6.746,
	"eval_steps_per_second": 1.69,
	"step": 1500
	},
	{
	"epoch": 2.83419445749178,
	"grad_norm": 0.969822959813251,
	"learning_rate": 9.620674264488594e-08,
	"loss": 0.0548,
	"step": 1510
	},
	{
	"epoch": 2.8529826209488025,
	"grad_norm": 1.8413122290273847,
	"learning_rate": 7.606657805179274e-08,
	"loss": 0.063,
	"step": 1520
	},
	{
	"epoch": 2.8717707844058245,
	"grad_norm": 0.7665376382039885,
	"learning_rate": 5.827319724915959e-08,
	"loss": 0.0514,
	"step": 1530
	},
	{
	"epoch": 2.8905589478628464,
	"grad_norm": 0.8215067982809356,
	"learning_rate": 4.283508069641951e-08,
	"loss": 0.0467,
	"step": 1540
	},
	{
	"epoch": 2.9093471113198683,
	"grad_norm": 2.021014987559278,
	"learning_rate": 2.975958631631082e-08,
	"loss": 0.0483,
	"step": 1550
	},
	{
	"epoch": 2.9281352747768903,
	"grad_norm": 1.4695240828377725,
	"learning_rate": 1.9052945988030648e-08,
	"loss": 0.0427,
	"step": 1560
	},
	{
	"epoch": 2.9469234382339127,
	"grad_norm": 1.1451618059955273,
	"learning_rate": 1.0720262577076923e-08,
	"loss": 0.0493,
	"step": 1570
	},
	{
	"epoch": 2.9657116016909346,
	"grad_norm": 2.9129055521839895,
	"learning_rate": 4.76550750318383e-09,
	"loss": 0.0542,
	"step": 1580
	},
	{
	"epoch": 2.984499765147957,
	"grad_norm": 1.7988477080352803,
	"learning_rate": 1.1915188475125627e-09,
	"loss": 0.04,
	"step": 1590
	},
	{
	"epoch": 3.0,
	"step": 1599,
	"total_flos": 141952390594560.0,
	"train_loss": 0.17646967794389706,
	"train_runtime": 16767.1291,
	"train_samples_per_second": 1.523,
	"train_steps_per_second": 0.095
	}
	],
	"logging_steps": 10,
	"max_steps": 1599,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 141952390594560.0,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}