labse-Matryoshka-AuthId / checkpoint-8236 /trainer_state.json

Upload folder using huggingface_hub

546a5d6 verified 6 months ago

9.98 kB

	{
	"best_global_step": 7500,
	"best_metric": 0.7552966570626944,
	"best_model_checkpoint": "./labse-Matryoshka-AuthId/checkpoint-7500",
	"epoch": 4.0,
	"eval_steps": 500,
	"global_step": 8236,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.24283632831471588,
	"grad_norm": 8.226706504821777,
	"learning_rate": 1.8788246721709567e-05,
	"loss": 1.8844,
	"step": 500
	},
	{
	"epoch": 0.24283632831471588,
	"eval_accuracy": 0.580466682703873,
	"eval_f1_macro": 0.4960676688683372,
	"eval_loss": 1.5094239711761475,
	"eval_precision_macro": 0.5214977084503927,
	"eval_recall_macro": 0.5479464513669718,
	"eval_runtime": 79.4803,
	"eval_samples_per_second": 52.302,
	"eval_steps_per_second": 3.271,
	"step": 500
	},
	{
	"epoch": 0.48567265662943176,
	"grad_norm": 23.343076705932617,
	"learning_rate": 1.757406508013599e-05,
	"loss": 1.0439,
	"step": 1000
	},
	{
	"epoch": 0.48567265662943176,
	"eval_accuracy": 0.6338705797450084,
	"eval_f1_macro": 0.5443060410532249,
	"eval_loss": 1.180512547492981,
	"eval_precision_macro": 0.5964210887979737,
	"eval_recall_macro": 0.5815396599629518,
	"eval_runtime": 79.5018,
	"eval_samples_per_second": 52.288,
	"eval_steps_per_second": 3.27,
	"step": 1000
	},
	{
	"epoch": 0.7285089849441476,
	"grad_norm": 22.333507537841797,
	"learning_rate": 1.635988343856241e-05,
	"loss": 0.7775,
	"step": 1500
	},
	{
	"epoch": 0.7285089849441476,
	"eval_accuracy": 0.7168631224440702,
	"eval_f1_macro": 0.6352859818957786,
	"eval_loss": 1.000940203666687,
	"eval_precision_macro": 0.6284925893229054,
	"eval_recall_macro": 0.6892646842795946,
	"eval_runtime": 79.7404,
	"eval_samples_per_second": 52.132,
	"eval_steps_per_second": 3.261,
	"step": 1500
	},
	{
	"epoch": 0.9713453132588635,
	"grad_norm": 17.205595016479492,
	"learning_rate": 1.514570179698883e-05,
	"loss": 0.6235,
	"step": 2000
	},
	{
	"epoch": 0.9713453132588635,
	"eval_accuracy": 0.7002646139042579,
	"eval_f1_macro": 0.6444992633781246,
	"eval_loss": 1.0062403678894043,
	"eval_precision_macro": 0.6416324743101667,
	"eval_recall_macro": 0.7175728403685042,
	"eval_runtime": 79.8787,
	"eval_samples_per_second": 52.041,
	"eval_steps_per_second": 3.255,
	"step": 2000
	},
	{
	"epoch": 1.2141816415735793,
	"grad_norm": 6.284836769104004,
	"learning_rate": 1.393152015541525e-05,
	"loss": 0.4443,
	"step": 2500
	},
	{
	"epoch": 1.2141816415735793,
	"eval_accuracy": 0.752225162376714,
	"eval_f1_macro": 0.7005112117395045,
	"eval_loss": 0.8306922316551208,
	"eval_precision_macro": 0.7030961323363835,
	"eval_recall_macro": 0.7405526082434787,
	"eval_runtime": 79.5711,
	"eval_samples_per_second": 52.243,
	"eval_steps_per_second": 3.268,
	"step": 2500
	},
	{
	"epoch": 1.4570179698882952,
	"grad_norm": 14.860431671142578,
	"learning_rate": 1.2717338513841673e-05,
	"loss": 0.3917,
	"step": 3000
	},
	{
	"epoch": 1.4570179698882952,
	"eval_accuracy": 0.776040413759923,
	"eval_f1_macro": 0.7195032487137867,
	"eval_loss": 0.7922475934028625,
	"eval_precision_macro": 0.718432845056206,
	"eval_recall_macro": 0.7476174763134192,
	"eval_runtime": 79.7377,
	"eval_samples_per_second": 52.133,
	"eval_steps_per_second": 3.261,
	"step": 3000
	},
	{
	"epoch": 1.6998542982030111,
	"grad_norm": 15.658327102661133,
	"learning_rate": 1.1503156872268093e-05,
	"loss": 0.3384,
	"step": 3500
	},
	{
	"epoch": 1.6998542982030111,
	"eval_accuracy": 0.7914361318258359,
	"eval_f1_macro": 0.7267579331806328,
	"eval_loss": 0.7427302598953247,
	"eval_precision_macro": 0.7315940928020874,
	"eval_recall_macro": 0.7473775054197197,
	"eval_runtime": 79.5326,
	"eval_samples_per_second": 52.268,
	"eval_steps_per_second": 3.269,
	"step": 3500
	},
	{
	"epoch": 1.942690626517727,
	"grad_norm": 3.790079355239868,
	"learning_rate": 1.0288975230694513e-05,
	"loss": 0.3212,
	"step": 4000
	},
	{
	"epoch": 1.942690626517727,
	"eval_accuracy": 0.7666586480635074,
	"eval_f1_macro": 0.7040518310115823,
	"eval_loss": 0.8302342891693115,
	"eval_precision_macro": 0.7097429428181893,
	"eval_recall_macro": 0.7427055724786205,
	"eval_runtime": 79.7283,
	"eval_samples_per_second": 52.14,
	"eval_steps_per_second": 3.261,
	"step": 4000
	},
	{
	"epoch": 2.1855269548324427,
	"grad_norm": 20.00322151184082,
	"learning_rate": 9.074793589120935e-06,
	"loss": 0.2072,
	"step": 4500
	},
	{
	"epoch": 2.1855269548324427,
	"eval_accuracy": 0.7926389222997354,
	"eval_f1_macro": 0.7306884775555181,
	"eval_loss": 0.7662757039070129,
	"eval_precision_macro": 0.7372020807956,
	"eval_recall_macro": 0.7527073689440521,
	"eval_runtime": 79.8142,
	"eval_samples_per_second": 52.083,
	"eval_steps_per_second": 3.258,
	"step": 4500
	},
	{
	"epoch": 2.4283632831471587,
	"grad_norm": 9.991105079650879,
	"learning_rate": 7.860611947547354e-06,
	"loss": 0.1837,
	"step": 5000
	},
	{
	"epoch": 2.4283632831471587,
	"eval_accuracy": 0.7887899927832571,
	"eval_f1_macro": 0.7303342643678596,
	"eval_loss": 0.8012056946754456,
	"eval_precision_macro": 0.7383307287980656,
	"eval_recall_macro": 0.749799051904019,
	"eval_runtime": 79.4999,
	"eval_samples_per_second": 52.289,
	"eval_steps_per_second": 3.27,
	"step": 5000
	},
	{
	"epoch": 2.6711996114618746,
	"grad_norm": 2.5781819820404053,
	"learning_rate": 6.646430305973774e-06,
	"loss": 0.1853,
	"step": 5500
	},
	{
	"epoch": 2.6711996114618746,
	"eval_accuracy": 0.8169352898725042,
	"eval_f1_macro": 0.7425975963793477,
	"eval_loss": 0.7290380597114563,
	"eval_precision_macro": 0.7490380424010595,
	"eval_recall_macro": 0.7728571995465946,
	"eval_runtime": 79.7501,
	"eval_samples_per_second": 52.125,
	"eval_steps_per_second": 3.26,
	"step": 5500
	},
	{
	"epoch": 2.9140359397765905,
	"grad_norm": 13.812039375305176,
	"learning_rate": 5.432248664400195e-06,
	"loss": 0.1702,
	"step": 6000
	},
	{
	"epoch": 2.9140359397765905,
	"eval_accuracy": 0.8025018041857108,
	"eval_f1_macro": 0.7478693465335228,
	"eval_loss": 0.7762283682823181,
	"eval_precision_macro": 0.7494886922567287,
	"eval_recall_macro": 0.7661448691705909,
	"eval_runtime": 79.5684,
	"eval_samples_per_second": 52.244,
	"eval_steps_per_second": 3.268,
	"step": 6000
	},
	{
	"epoch": 3.1568722680913064,
	"grad_norm": 19.965606689453125,
	"learning_rate": 4.2180670228266156e-06,
	"loss": 0.115,
	"step": 6500
	},
	{
	"epoch": 3.1568722680913064,
	"eval_accuracy": 0.8085157565552081,
	"eval_f1_macro": 0.7550956906548623,
	"eval_loss": 0.8461021184921265,
	"eval_precision_macro": 0.7547053436507176,
	"eval_recall_macro": 0.7770605308609413,
	"eval_runtime": 79.7407,
	"eval_samples_per_second": 52.131,
	"eval_steps_per_second": 3.261,
	"step": 6500
	},
	{
	"epoch": 3.3997085964060223,
	"grad_norm": 5.473484039306641,
	"learning_rate": 3.0038853812530354e-06,
	"loss": 0.0881,
	"step": 7000
	},
	{
	"epoch": 3.3997085964060223,
	"eval_accuracy": 0.8051479432282896,
	"eval_f1_macro": 0.7518260599241406,
	"eval_loss": 0.8820834755897522,
	"eval_precision_macro": 0.7561690673733429,
	"eval_recall_macro": 0.7634548535133201,
	"eval_runtime": 79.7355,
	"eval_samples_per_second": 52.135,
	"eval_steps_per_second": 3.261,
	"step": 7000
	},
	{
	"epoch": 3.642544924720738,
	"grad_norm": 0.03955981135368347,
	"learning_rate": 1.789703739679456e-06,
	"loss": 0.0854,
	"step": 7500
	},
	{
	"epoch": 3.642544924720738,
	"eval_accuracy": 0.8171758479672842,
	"eval_f1_macro": 0.7552966570626944,
	"eval_loss": 0.8381013870239258,
	"eval_precision_macro": 0.7568149477995186,
	"eval_recall_macro": 0.7706908260368737,
	"eval_runtime": 79.5261,
	"eval_samples_per_second": 52.272,
	"eval_steps_per_second": 3.269,
	"step": 7500
	},
	{
	"epoch": 3.885381253035454,
	"grad_norm": 6.264761447906494,
	"learning_rate": 5.755220981058767e-07,
	"loss": 0.0848,
	"step": 8000
	},
	{
	"epoch": 3.885381253035454,
	"eval_accuracy": 0.8077940822708685,
	"eval_f1_macro": 0.7527204408320765,
	"eval_loss": 0.8696035742759705,
	"eval_precision_macro": 0.7535730472048996,
	"eval_recall_macro": 0.7700727790457579,
	"eval_runtime": 79.6143,
	"eval_samples_per_second": 52.214,
	"eval_steps_per_second": 3.266,
	"step": 8000
	}
	],
	"logging_steps": 500,
	"max_steps": 8236,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 4,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1.7337239662270464e+16,
	"train_batch_size": 16,
	"trial_name": null,
	"trial_params": null
	}