SecureCLI-Tuner-V2 / trainer_state.json

Upload folder using huggingface_hub

8ce9395 verified 10 days ago

11.8 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.20393596410727033,
	"eval_steps": 50,
	"global_step": 500,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0,
	"eval_loss": 4.004721641540527,
	"eval_runtime": 173.7131,
	"eval_samples_per_second": 7.052,
	"eval_steps_per_second": 7.052,
	"step": 0
	},
	{
	"epoch": 0.004078719282145407,
	"grad_norm": 0.7785049676895142,
	"learning_rate": 3.6e-05,
	"loss": 3.8826,
	"step": 10
	},
	{
	"epoch": 0.008157438564290813,
	"grad_norm": 0.9169650077819824,
	"learning_rate": 7.6e-05,
	"loss": 3.8197,
	"step": 20
	},
	{
	"epoch": 0.012236157846436219,
	"grad_norm": 1.1420930624008179,
	"learning_rate": 0.000116,
	"loss": 3.1268,
	"step": 30
	},
	{
	"epoch": 0.016314877128581626,
	"grad_norm": 1.2675455808639526,
	"learning_rate": 0.00015600000000000002,
	"loss": 2.1309,
	"step": 40
	},
	{
	"epoch": 0.020393596410727032,
	"grad_norm": 1.0368549823760986,
	"learning_rate": 0.000196,
	"loss": 1.5617,
	"step": 50
	},
	{
	"epoch": 0.020393596410727032,
	"eval_loss": 1.423304557800293,
	"eval_runtime": 173.1158,
	"eval_samples_per_second": 7.076,
	"eval_steps_per_second": 7.076,
	"step": 50
	},
	{
	"epoch": 0.024472315692872438,
	"grad_norm": 0.8746965527534485,
	"learning_rate": 0.00019980267284282717,
	"loss": 1.3048,
	"step": 60
	},
	{
	"epoch": 0.028551034975017844,
	"grad_norm": 4.214962959289551,
	"learning_rate": 0.00019912155402515417,
	"loss": 1.0715,
	"step": 70
	},
	{
	"epoch": 0.03262975425716325,
	"grad_norm": 0.665006697177887,
	"learning_rate": 0.0001979575249599344,
	"loss": 1.0188,
	"step": 80
	},
	{
	"epoch": 0.03670847353930866,
	"grad_norm": 0.5204000473022461,
	"learning_rate": 0.00019631625667976583,
	"loss": 0.9787,
	"step": 90
	},
	{
	"epoch": 0.040787192821454064,
	"grad_norm": 0.5942240357398987,
	"learning_rate": 0.00019420574527872968,
	"loss": 0.9041,
	"step": 100
	},
	{
	"epoch": 0.040787192821454064,
	"eval_loss": 0.9287890791893005,
	"eval_runtime": 173.4553,
	"eval_samples_per_second": 7.062,
	"eval_steps_per_second": 7.062,
	"step": 100
	},
	{
	"epoch": 0.04486591210359947,
	"grad_norm": 0.6731751561164856,
	"learning_rate": 0.00019163627295622397,
	"loss": 0.9193,
	"step": 110
	},
	{
	"epoch": 0.048944631385744876,
	"grad_norm": 0.7434952855110168,
	"learning_rate": 0.00018862035792312147,
	"loss": 0.9247,
	"step": 120
	},
	{
	"epoch": 0.05302335066789028,
	"grad_norm": 0.6485812664031982,
	"learning_rate": 0.00018517269341430476,
	"loss": 1.0027,
	"step": 130
	},
	{
	"epoch": 0.05710206995003569,
	"grad_norm": 0.6013619303703308,
	"learning_rate": 0.00018131007610470276,
	"loss": 0.9267,
	"step": 140
	},
	{
	"epoch": 0.06118078923218109,
	"grad_norm": 0.6937788724899292,
	"learning_rate": 0.00017705132427757895,
	"loss": 0.9152,
	"step": 150
	},
	{
	"epoch": 0.06118078923218109,
	"eval_loss": 0.9047658443450928,
	"eval_runtime": 173.377,
	"eval_samples_per_second": 7.066,
	"eval_steps_per_second": 7.066,
	"step": 150
	},
	{
	"epoch": 0.0652595085143265,
	"grad_norm": 0.6242877244949341,
	"learning_rate": 0.00017241718614374678,
	"loss": 0.9777,
	"step": 160
	},
	{
	"epoch": 0.0693382277964719,
	"grad_norm": 0.6055032014846802,
	"learning_rate": 0.00016743023875837233,
	"loss": 0.9655,
	"step": 170
	},
	{
	"epoch": 0.07341694707861732,
	"grad_norm": 0.6116403937339783,
	"learning_rate": 0.00016211477802783103,
	"loss": 1.0206,
	"step": 180
	},
	{
	"epoch": 0.07749566636076272,
	"grad_norm": 0.8313778042793274,
	"learning_rate": 0.0001564967003424938,
	"loss": 0.9532,
	"step": 190
	},
	{
	"epoch": 0.08157438564290813,
	"grad_norm": 0.6586077213287354,
	"learning_rate": 0.00015060337641211637,
	"loss": 0.9392,
	"step": 200
	},
	{
	"epoch": 0.08157438564290813,
	"eval_loss": 0.8928409218788147,
	"eval_runtime": 173.3344,
	"eval_samples_per_second": 7.067,
	"eval_steps_per_second": 7.067,
	"step": 200
	},
	{
	"epoch": 0.08565310492505353,
	"grad_norm": 0.6433130502700806,
	"learning_rate": 0.00014446351791849276,
	"loss": 0.9729,
	"step": 210
	},
	{
	"epoch": 0.08973182420719894,
	"grad_norm": 0.7685410976409912,
	"learning_rate": 0.00013810703763502744,
	"loss": 0.9407,
	"step": 220
	},
	{
	"epoch": 0.09381054348934434,
	"grad_norm": 0.7548204064369202,
	"learning_rate": 0.00013156490369471027,
	"loss": 0.8866,
	"step": 230
	},
	{
	"epoch": 0.09788926277148975,
	"grad_norm": 0.6521336436271667,
	"learning_rate": 0.0001248689887164855,
	"loss": 0.8709,
	"step": 240
	},
	{
	"epoch": 0.10196798205363516,
	"grad_norm": 0.7266818284988403,
	"learning_rate": 0.00011805191452505602,
	"loss": 0.977,
	"step": 250
	},
	{
	"epoch": 0.10196798205363516,
	"eval_loss": 0.882000744342804,
	"eval_runtime": 173.4293,
	"eval_samples_per_second": 7.063,
	"eval_steps_per_second": 7.063,
	"step": 250
	},
	{
	"epoch": 0.10604670133578056,
	"grad_norm": 0.7059846520423889,
	"learning_rate": 0.00011114689322063255,
	"loss": 0.9515,
	"step": 260
	},
	{
	"epoch": 0.11012542061792598,
	"grad_norm": 0.7184727787971497,
	"learning_rate": 0.00010418756537291996,
	"loss": 0.9049,
	"step": 270
	},
	{
	"epoch": 0.11420413990007137,
	"grad_norm": 0.8101040124893188,
	"learning_rate": 9.720783612764314e-05,
	"loss": 0.9918,
	"step": 280
	},
	{
	"epoch": 0.11828285918221679,
	"grad_norm": 0.5306759476661682,
	"learning_rate": 9.024171002408506e-05,
	"loss": 0.9756,
	"step": 290
	},
	{
	"epoch": 0.12236157846436219,
	"grad_norm": 0.8896522521972656,
	"learning_rate": 8.332312532838978e-05,
	"loss": 0.8556,
	"step": 300
	},
	{
	"epoch": 0.12236157846436219,
	"eval_loss": 0.873528003692627,
	"eval_runtime": 173.4611,
	"eval_samples_per_second": 7.062,
	"eval_steps_per_second": 7.062,
	"step": 300
	},
	{
	"epoch": 0.12644029774650759,
	"grad_norm": 0.715740978717804,
	"learning_rate": 7.6485788689741e-05,
	"loss": 0.8381,
	"step": 310
	},
	{
	"epoch": 0.130519017028653,
	"grad_norm": 0.7031327486038208,
	"learning_rate": 6.976301092495556e-05,
	"loss": 0.8517,
	"step": 320
	},
	{
	"epoch": 0.1345977363107984,
	"grad_norm": 0.6190944910049438,
	"learning_rate": 6.318754473153221e-05,
	"loss": 0.8552,
	"step": 330
	},
	{
	"epoch": 0.1386764555929438,
	"grad_norm": 0.6262460947036743,
	"learning_rate": 5.679142511980175e-05,
	"loss": 0.9806,
	"step": 340
	},
	{
	"epoch": 0.14275517487508924,
	"grad_norm": 0.5318371653556824,
	"learning_rate": 5.0605813341576924e-05,
	"loss": 0.8857,
	"step": 350
	},
	{
	"epoch": 0.14275517487508924,
	"eval_loss": 0.8685455322265625,
	"eval_runtime": 173.2693,
	"eval_samples_per_second": 7.07,
	"eval_steps_per_second": 7.07,
	"step": 350
	},
	{
	"epoch": 0.14683389415723463,
	"grad_norm": 0.8289533853530884,
	"learning_rate": 4.46608450756656e-05,
	"loss": 0.9057,
	"step": 360
	},
	{
	"epoch": 0.15091261343938003,
	"grad_norm": 0.7940821051597595,
	"learning_rate": 3.8985483609873244e-05,
	"loss": 0.8912,
	"step": 370
	},
	{
	"epoch": 0.15499133272152543,
	"grad_norm": 0.6407303810119629,
	"learning_rate": 3.360737873477584e-05,
	"loss": 0.944,
	"step": 380
	},
	{
	"epoch": 0.15907005200367086,
	"grad_norm": 0.741663932800293,
	"learning_rate": 2.8552732036719687e-05,
	"loss": 0.8752,
	"step": 390
	},
	{
	"epoch": 0.16314877128581626,
	"grad_norm": 0.5255782604217529,
	"learning_rate": 2.3846169246326343e-05,
	"loss": 0.8946,
	"step": 400
	},
	{
	"epoch": 0.16314877128581626,
	"eval_loss": 0.8629406690597534,
	"eval_runtime": 173.2005,
	"eval_samples_per_second": 7.073,
	"eval_steps_per_second": 7.073,
	"step": 400
	},
	{
	"epoch": 0.16722749056796166,
	"grad_norm": 0.6469287872314453,
	"learning_rate": 1.9510620264408596e-05,
	"loss": 0.9102,
	"step": 410
	},
	{
	"epoch": 0.17130620985010706,
	"grad_norm": 0.7001602649688721,
	"learning_rate": 1.5567207449798515e-05,
	"loss": 0.8821,
	"step": 420
	},
	{
	"epoch": 0.17538492913225248,
	"grad_norm": 0.9216477870941162,
	"learning_rate": 1.2035142713338366e-05,
	"loss": 0.931,
	"step": 430
	},
	{
	"epoch": 0.17946364841439788,
	"grad_norm": 0.6395500898361206,
	"learning_rate": 8.931633919382298e-06,
	"loss": 0.8528,
	"step": 440
	},
	{
	"epoch": 0.18354236769654328,
	"grad_norm": 0.7768850922584534,
	"learning_rate": 6.2718010508108545e-06,
	"loss": 0.8807,
	"step": 450
	},
	{
	"epoch": 0.18354236769654328,
	"eval_loss": 0.8612557649612427,
	"eval_runtime": 173.4106,
	"eval_samples_per_second": 7.064,
	"eval_steps_per_second": 7.064,
	"step": 450
	},
	{
	"epoch": 0.18762108697868868,
	"grad_norm": 0.7101565003395081,
	"learning_rate": 4.068602545994249e-06,
	"loss": 0.9011,
	"step": 460
	},
	{
	"epoch": 0.1916998062608341,
	"grad_norm": 0.7115808725357056,
	"learning_rate": 2.332772166583208e-06,
	"loss": 0.9117,
	"step": 470
	},
	{
	"epoch": 0.1957785255429795,
	"grad_norm": 0.5874737501144409,
	"learning_rate": 1.0727667037011668e-06,
	"loss": 0.8661,
	"step": 480
	},
	{
	"epoch": 0.1998572448251249,
	"grad_norm": 0.6979043483734131,
	"learning_rate": 2.947247773079753e-07,
	"loss": 0.9236,
	"step": 490
	},
	{
	"epoch": 0.20393596410727033,
	"grad_norm": 0.7868551015853882,
	"learning_rate": 2.4369294605253166e-09,
	"loss": 0.813,
	"step": 500
	},
	{
	"epoch": 0.20393596410727033,
	"eval_loss": 0.8608318567276001,
	"eval_runtime": 173.2348,
	"eval_samples_per_second": 7.071,
	"eval_steps_per_second": 7.071,
	"step": 500
	}
	],
	"logging_steps": 10,
	"max_steps": 500,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 100,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 4.3472888266752e+16,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}