VInficheck / training_log.json

Upload folder using huggingface_hub

d4d0eb8 verified about 2 months ago

8.95 kB

	[
	{
	"loss": 0.34830059051513673,
	"grad_norm": 0.2803570032119751,
	"learning_rate": 0.00013714285714285716,
	"num_tokens": 640109.0,
	"mean_token_accuracy": 0.9155976337194442,
	"epoch": 0.10746910263299302,
	"step": 25
	},
	{
	"loss": 0.14681048393249513,
	"grad_norm": 0.23165035247802734,
	"learning_rate": 0.000199780703920947,
	"num_tokens": 1262877.0,
	"mean_token_accuracy": 0.9537364545464516,
	"epoch": 0.21493820526598603,
	"step": 50
	},
	{
	"loss": 0.1139146327972412,
	"grad_norm": 0.16550014913082123,
	"learning_rate": 0.00019830242014201796,
	"num_tokens": 1905162.0,
	"mean_token_accuracy": 0.9621101367473602,
	"epoch": 0.32240730789897903,
	"step": 75
	},
	{
	"loss": 0.11038614273071289,
	"grad_norm": 0.18707048892974854,
	"learning_rate": 0.0001954504062771555,
	"num_tokens": 2537797.0,
	"mean_token_accuracy": 0.9628356519341469,
	"epoch": 0.42987641053197206,
	"step": 100
	},
	{
	"eval_loss": 0.1351652890443802,
	"eval_runtime": 69.5984,
	"eval_samples_per_second": 2.845,
	"eval_steps_per_second": 1.422,
	"eval_num_tokens": 2954175.0,
	"eval_mean_token_accuracy": 0.9607259185627254,
	"epoch": 0.4986566362170876,
	"step": 116
	},
	{
	"loss": 0.11258039474487305,
	"grad_norm": 0.20463427901268005,
	"learning_rate": 0.00019126451787870527,
	"num_tokens": 3175008.0,
	"mean_token_accuracy": 0.9623757800459862,
	"epoch": 0.537345513164965,
	"step": 125
	},
	{
	"loss": 0.11596426963806153,
	"grad_norm": 0.1986123025417328,
	"learning_rate": 0.00018580325076824513,
	"num_tokens": 3799800.0,
	"mean_token_accuracy": 0.961990795135498,
	"epoch": 0.6448146157979581,
	"step": 150
	},
	{
	"loss": 0.0997089672088623,
	"grad_norm": 0.1511112004518509,
	"learning_rate": 0.0001791429235849919,
	"num_tokens": 4438381.0,
	"mean_token_accuracy": 0.9641576319932937,
	"epoch": 0.7522837184309511,
	"step": 175
	},
	{
	"loss": 0.09359555244445801,
	"grad_norm": 0.13941654562950134,
	"learning_rate": 0.0001713766112687139,
	"num_tokens": 5075973.0,
	"mean_token_accuracy": 0.9686441496014595,
	"epoch": 0.8597528210639441,
	"step": 200
	},
	{
	"loss": 0.11163744926452637,
	"grad_norm": 0.1599922776222229,
	"learning_rate": 0.0001626128443812245,
	"num_tokens": 5723214.0,
	"mean_token_accuracy": 0.9624734339118004,
	"epoch": 0.9672219236969372,
	"step": 225
	},
	{
	"eval_loss": 0.12350355833768845,
	"eval_runtime": 69.5143,
	"eval_samples_per_second": 2.848,
	"eval_steps_per_second": 1.424,
	"eval_num_tokens": 5899964.0,
	"eval_mean_token_accuracy": 0.9637513997578862,
	"epoch": 0.9973132724341752,
	"step": 232
	},
	{
	"loss": 0.07306031227111816,
	"grad_norm": 0.1523396372795105,
	"learning_rate": 0.00015297409244282694,
	"num_tokens": 6364544.0,
	"mean_token_accuracy": 0.9745264253035415,
	"epoch": 1.0730789897904351,
	"step": 250
	},
	{
	"loss": 0.06787878513336182,
	"grad_norm": 0.13754014670848846,
	"learning_rate": 0.00014259505247837074,
	"num_tokens": 6996524.0,
	"mean_token_accuracy": 0.9755120638012886,
	"epoch": 1.1805480924234282,
	"step": 275
	},
	{
	"loss": 0.08596912384033203,
	"grad_norm": 0.17458459734916687,
	"learning_rate": 0.0001316207666896824,
	"num_tokens": 7621299.0,
	"mean_token_accuracy": 0.9696658563613891,
	"epoch": 1.2880171950564212,
	"step": 300
	},
	{
	"loss": 0.06656608581542969,
	"grad_norm": 0.1313866376876831,
	"learning_rate": 0.00012020459555901427,
	"num_tokens": 8267290.0,
	"mean_token_accuracy": 0.9760522067546844,
	"epoch": 1.3954862976894142,
	"step": 325
	},
	{
	"eval_loss": 0.1249435767531395,
	"eval_runtime": 69.7547,
	"eval_samples_per_second": 2.839,
	"eval_steps_per_second": 1.419,
	"eval_num_tokens": 8834417.0,
	"eval_mean_token_accuracy": 0.963239210422593,
	"epoch": 1.4943578721117678,
	"step": 348
	},
	{
	"loss": 0.07149289608001709,
	"grad_norm": 0.15927733480930328,
	"learning_rate": 0.00010850607470843656,
	"num_tokens": 8883001.0,
	"mean_token_accuracy": 0.9746167114377022,
	"epoch": 1.5029554003224073,
	"step": 350
	},
	{
	"loss": 0.0666344976425171,
	"grad_norm": 0.14084048569202423,
	"learning_rate": 9.668868546455486e-05,
	"num_tokens": 9525128.0,
	"mean_token_accuracy": 0.975580106973648,
	"epoch": 1.6104245029554003,
	"step": 375
	},
	{
	"loss": 0.07050958156585693,
	"grad_norm": 0.1653551161289215,
	"learning_rate": 8.491757028386263e-05,
	"num_tokens": 10162043.0,
	"mean_token_accuracy": 0.9742929524183274,
	"epoch": 1.7178936055883933,
	"step": 400
	},
	{
	"loss": 0.054537668228149414,
	"grad_norm": 0.17465578019618988,
	"learning_rate": 7.33572249645848e-05,
	"num_tokens": 10802637.0,
	"mean_token_accuracy": 0.9797186449170112,
	"epoch": 1.8253627082213864,
	"step": 425
	},
	{
	"loss": 0.06608867645263672,
	"grad_norm": 0.15113526582717896,
	"learning_rate": 6.216919989526651e-05,
	"num_tokens": 11430608.0,
	"mean_token_accuracy": 0.9761568233370781,
	"epoch": 1.9328318108543794,
	"step": 450
	},
	{
	"eval_loss": 0.11843688040971756,
	"eval_runtime": 69.9946,
	"eval_samples_per_second": 2.829,
	"eval_steps_per_second": 1.414,
	"eval_num_tokens": 11786762.0,
	"eval_mean_token_accuracy": 0.965543883015411,
	"epoch": 1.9930145083288555,
	"step": 464
	},
	{
	"loss": 0.05509011745452881,
	"grad_norm": 0.09923101216554642,
	"learning_rate": 5.1509842464076776e-05,
	"num_tokens": 12054154.0,
	"mean_token_accuracy": 0.9804502256630641,
	"epoch": 2.0386888769478775,
	"step": 475
	},
	{
	"loss": 0.031655769348144534,
	"grad_norm": 0.13326086103916168,
	"learning_rate": 4.152811217759529e-05,
	"num_tokens": 12697456.0,
	"mean_token_accuracy": 0.9891643562912941,
	"epoch": 2.1461579795808703,
	"step": 500
	},
	{
	"loss": 0.032743215560913086,
	"grad_norm": 0.12852540612220764,
	"learning_rate": 3.2363499021769526e-05,
	"num_tokens": 13329332.0,
	"mean_token_accuracy": 0.9882625249028206,
	"epoch": 2.2536270822138635,
	"step": 525
	},
	{
	"loss": 0.029418470859527587,
	"grad_norm": 0.12474379688501358,
	"learning_rate": 2.4144074154968832e-05,
	"num_tokens": 13972889.0,
	"mean_token_accuracy": 0.9891040176153183,
	"epoch": 2.3610961848468563,
	"step": 550
	},
	{
	"loss": 0.030236964225769044,
	"grad_norm": 0.12814833223819733,
	"learning_rate": 1.6984700173783175e-05,
	"num_tokens": 14606119.0,
	"mean_token_accuracy": 0.9886843663454056,
	"epoch": 2.4685652874798496,
	"step": 575
	},
	{
	"eval_loss": 0.1397247463464737,
	"eval_runtime": 69.3145,
	"eval_samples_per_second": 2.857,
	"eval_steps_per_second": 1.428,
	"eval_num_tokens": 14728454.0,
	"eval_mean_token_accuracy": 0.9646775379325404,
	"epoch": 2.4900591080064483,
	"step": 580
	},
	{
	"loss": 0.030723834037780763,
	"grad_norm": 0.12963370978832245,
	"learning_rate": 1.0985425962260343e-05,
	"num_tokens": 15237584.0,
	"mean_token_accuracy": 0.9888986241817475,
	"epoch": 2.5760343901128424,
	"step": 600
	},
	{
	"loss": 0.030379328727722168,
	"grad_norm": 0.16792573034763336,
	"learning_rate": 6.230088555808278e-06,
	"num_tokens": 15876203.0,
	"mean_token_accuracy": 0.9890140387415886,
	"epoch": 2.6835034927458357,
	"step": 625
	},
	{
	"loss": 0.02967998743057251,
	"grad_norm": 0.19673478603363037,
	"learning_rate": 2.7851415580571692e-06,
	"num_tokens": 16513501.0,
	"mean_token_accuracy": 0.9892704981565476,
	"epoch": 2.7909725953788285,
	"step": 650
	},
	{
	"loss": 0.030462250709533692,
	"grad_norm": 0.11195345222949982,
	"learning_rate": 6.987264830045526e-07,
	"num_tokens": 17145749.0,
	"mean_token_accuracy": 0.9888393118977546,
	"epoch": 2.8984416980118217,
	"step": 675
	},
	{
	"eval_loss": 0.13951744139194489,
	"eval_runtime": 69.3391,
	"eval_samples_per_second": 2.856,
	"eval_steps_per_second": 1.428,
	"eval_num_tokens": 17672878.0,
	"eval_mean_token_accuracy": 0.9649288859030213,
	"epoch": 2.9887157442235357,
	"step": 696
	},
	{
	"eval_loss": 0.13946650922298431,
	"eval_runtime": 69.3693,
	"eval_samples_per_second": 2.854,
	"eval_steps_per_second": 1.427,
	"eval_num_tokens": 17736411.0,
	"eval_mean_token_accuracy": 0.9649666162452313,
	"epoch": 3.0,
	"step": 699
	},
	{
	"train_runtime": 14009.2214,
	"train_samples_per_second": 0.797,
	"train_steps_per_second": 0.05,
	"total_flos": 8.799123393273508e+17,
	"train_loss": 0.07888307489550676,
	"epoch": 3.0,
	"step": 699
	}
	]