16-clusters-imbalanced-2 / trainer_state.json

MHGanainy/16-clusters-imbalanced-2

70ca898 verified over 1 year ago

15.4 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.0,
	"eval_steps": 500,
	"global_step": 8310,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.012033694344163659,
	"grad_norm": 0.10395803302526474,
	"learning_rate": 6.666666666666667e-06,
	"loss": 2.5454,
	"step": 100
	},
	{
	"epoch": 0.024067388688327317,
	"grad_norm": 0.1665215641260147,
	"learning_rate": 1.3333333333333333e-05,
	"loss": 2.5267,
	"step": 200
	},
	{
	"epoch": 0.036101083032490974,
	"grad_norm": 0.3333851397037506,
	"learning_rate": 2e-05,
	"loss": 2.4777,
	"step": 300
	},
	{
	"epoch": 0.048134777376654635,
	"grad_norm": 0.4827630817890167,
	"learning_rate": 1.9992309597956244e-05,
	"loss": 2.4484,
	"step": 400
	},
	{
	"epoch": 0.06016847172081829,
	"grad_norm": 0.4034655690193176,
	"learning_rate": 1.9969250220281687e-05,
	"loss": 2.374,
	"step": 500
	},
	{
	"epoch": 0.07220216606498195,
	"grad_norm": 0.4711494743824005,
	"learning_rate": 1.9930857334153374e-05,
	"loss": 2.3987,
	"step": 600
	},
	{
	"epoch": 0.0842358604091456,
	"grad_norm": 0.5272079110145569,
	"learning_rate": 1.987718999091729e-05,
	"loss": 2.3692,
	"step": 700
	},
	{
	"epoch": 0.09626955475330927,
	"grad_norm": 0.48402172327041626,
	"learning_rate": 1.9808330735262657e-05,
	"loss": 2.3804,
	"step": 800
	},
	{
	"epoch": 0.10830324909747292,
	"grad_norm": 0.5433884859085083,
	"learning_rate": 1.972438547826156e-05,
	"loss": 2.3637,
	"step": 900
	},
	{
	"epoch": 0.12033694344163658,
	"grad_norm": 0.4431970417499542,
	"learning_rate": 1.9625483334469198e-05,
	"loss": 2.3256,
	"step": 1000
	},
	{
	"epoch": 0.13237063778580024,
	"grad_norm": 0.659107506275177,
	"learning_rate": 1.9511776423335327e-05,
	"loss": 2.3063,
	"step": 1100
	},
	{
	"epoch": 0.1444043321299639,
	"grad_norm": 0.5573317408561707,
	"learning_rate": 1.9383439635232296e-05,
	"loss": 2.3277,
	"step": 1200
	},
	{
	"epoch": 0.15643802647412755,
	"grad_norm": 0.6801158785820007,
	"learning_rate": 1.924067036245961e-05,
	"loss": 2.2647,
	"step": 1300
	},
	{
	"epoch": 0.1684717208182912,
	"grad_norm": 0.6493859887123108,
	"learning_rate": 1.9083688195638694e-05,
	"loss": 2.3073,
	"step": 1400
	},
	{
	"epoch": 0.18050541516245489,
	"grad_norm": 0.5970639586448669,
	"learning_rate": 1.891273458596486e-05,
	"loss": 2.3006,
	"step": 1500
	},
	{
	"epoch": 0.19253910950661854,
	"grad_norm": 0.5887291431427002,
	"learning_rate": 1.8728072473835944e-05,
	"loss": 2.3492,
	"step": 1600
	},
	{
	"epoch": 0.2045728038507822,
	"grad_norm": 0.7891527414321899,
	"learning_rate": 1.8529985884428855e-05,
	"loss": 2.3155,
	"step": 1700
	},
	{
	"epoch": 0.21660649819494585,
	"grad_norm": 0.641476035118103,
	"learning_rate": 1.8318779490846005e-05,
	"loss": 2.2822,
	"step": 1800
	},
	{
	"epoch": 0.2286401925391095,
	"grad_norm": 0.6066290736198425,
	"learning_rate": 1.8094778145503555e-05,
	"loss": 2.2936,
	"step": 1900
	},
	{
	"epoch": 0.24067388688327315,
	"grad_norm": 0.620587944984436,
	"learning_rate": 1.7858326380482313e-05,
	"loss": 2.2576,
	"step": 2000
	},
	{
	"epoch": 0.2527075812274368,
	"grad_norm": 0.7826667428016663,
	"learning_rate": 1.7609787877609678e-05,
	"loss": 2.246,
	"step": 2100
	},
	{
	"epoch": 0.2647412755716005,
	"grad_norm": 0.9285653829574585,
	"learning_rate": 1.7349544909087737e-05,
	"loss": 2.2675,
	"step": 2200
	},
	{
	"epoch": 0.2767749699157641,
	"grad_norm": 0.8119534254074097,
	"learning_rate": 1.7077997749527884e-05,
	"loss": 2.2335,
	"step": 2300
	},
	{
	"epoch": 0.2888086642599278,
	"grad_norm": 0.7591002583503723,
	"learning_rate": 1.6795564060296295e-05,
	"loss": 2.2353,
	"step": 2400
	},
	{
	"epoch": 0.3008423586040915,
	"grad_norm": 0.8516184687614441,
	"learning_rate": 1.6502678247117146e-05,
	"loss": 2.266,
	"step": 2500
	},
	{
	"epoch": 0.3128760529482551,
	"grad_norm": 0.7212440967559814,
	"learning_rate": 1.6199790791921693e-05,
	"loss": 2.253,
	"step": 2600
	},
	{
	"epoch": 0.3249097472924188,
	"grad_norm": 0.6549546122550964,
	"learning_rate": 1.5887367559970825e-05,
	"loss": 2.2147,
	"step": 2700
	},
	{
	"epoch": 0.3369434416365824,
	"grad_norm": 0.7691039443016052,
	"learning_rate": 1.5565889083316847e-05,
	"loss": 2.2499,
	"step": 2800
	},
	{
	"epoch": 0.3489771359807461,
	"grad_norm": 0.7296893000602722,
	"learning_rate": 1.5235849821706531e-05,
	"loss": 2.2458,
	"step": 2900
	},
	{
	"epoch": 0.36101083032490977,
	"grad_norm": 0.6736641526222229,
	"learning_rate": 1.4897757402062285e-05,
	"loss": 2.2561,
	"step": 3000
	},
	{
	"epoch": 0.3730445246690734,
	"grad_norm": 0.711357593536377,
	"learning_rate": 1.4552131837711108e-05,
	"loss": 2.2529,
	"step": 3100
	},
	{
	"epoch": 0.3850782190132371,
	"grad_norm": 0.7297707796096802,
	"learning_rate": 1.4199504728562294e-05,
	"loss": 2.2368,
	"step": 3200
	},
	{
	"epoch": 0.3971119133574007,
	"grad_norm": 0.7659047842025757,
	"learning_rate": 1.3840418443464015e-05,
	"loss": 2.247,
	"step": 3300
	},
	{
	"epoch": 0.4091456077015644,
	"grad_norm": 1.0112534761428833,
	"learning_rate": 1.3475425285996438e-05,
	"loss": 2.2343,
	"step": 3400
	},
	{
	"epoch": 0.42117930204572807,
	"grad_norm": 0.8520541787147522,
	"learning_rate": 1.310508664498439e-05,
	"loss": 2.2708,
	"step": 3500
	},
	{
	"epoch": 0.4332129963898917,
	"grad_norm": 0.7974518537521362,
	"learning_rate": 1.2729972131036212e-05,
	"loss": 2.2687,
	"step": 3600
	},
	{
	"epoch": 0.4452466907340554,
	"grad_norm": 0.6873015761375427,
	"learning_rate": 1.2350658700436852e-05,
	"loss": 2.2502,
	"step": 3700
	},
	{
	"epoch": 0.457280385078219,
	"grad_norm": 0.9805155396461487,
	"learning_rate": 1.1967729767742688e-05,
	"loss": 2.2026,
	"step": 3800
	},
	{
	"epoch": 0.4693140794223827,
	"grad_norm": 1.0702319145202637,
	"learning_rate": 1.1581774308443042e-05,
	"loss": 2.2294,
	"step": 3900
	},
	{
	"epoch": 0.4813477737665463,
	"grad_norm": 0.818926990032196,
	"learning_rate": 1.1193385953068512e-05,
	"loss": 2.2566,
	"step": 4000
	},
	{
	"epoch": 0.49338146811071,
	"grad_norm": 0.7473201155662537,
	"learning_rate": 1.0803162074139489e-05,
	"loss": 2.2348,
	"step": 4100
	},
	{
	"epoch": 0.5054151624548736,
	"grad_norm": 0.9612985849380493,
	"learning_rate": 1.041170286735918e-05,
	"loss": 2.2055,
	"step": 4200
	},
	{
	"epoch": 0.5174488567990373,
	"grad_norm": 0.6838109493255615,
	"learning_rate": 1.0019610428464354e-05,
	"loss": 2.2991,
	"step": 4300
	},
	{
	"epoch": 0.529482551143201,
	"grad_norm": 0.7192391753196716,
	"learning_rate": 9.627487827153704e-06,
	"loss": 2.2438,
	"step": 4400
	},
	{
	"epoch": 0.5415162454873647,
	"grad_norm": 0.8669145703315735,
	"learning_rate": 9.235938179518131e-06,
	"loss": 2.2375,
	"step": 4500
	},
	{
	"epoch": 0.5535499398315282,
	"grad_norm": 0.8066568970680237,
	"learning_rate": 8.845563720399715e-06,
	"loss": 2.2517,
	"step": 4600
	},
	{
	"epoch": 0.5655836341756919,
	"grad_norm": 0.8181942701339722,
	"learning_rate": 8.456964877106104e-06,
	"loss": 2.2433,
	"step": 4700
	},
	{
	"epoch": 0.5776173285198556,
	"grad_norm": 0.7640101313591003,
	"learning_rate": 8.070739345905032e-06,
	"loss": 2.2323,
	"step": 4800
	},
	{
	"epoch": 0.5896510228640193,
	"grad_norm": 0.8630154728889465,
	"learning_rate": 7.687481172719402e-06,
	"loss": 2.2258,
	"step": 4900
	},
	{
	"epoch": 0.601684717208183,
	"grad_norm": 0.8093004822731018,
	"learning_rate": 7.307779839436878e-06,
	"loss": 2.1821,
	"step": 5000
	},
	{
	"epoch": 0.6137184115523465,
	"grad_norm": 0.831082820892334,
	"learning_rate": 6.932219357239362e-06,
	"loss": 2.208,
	"step": 5100
	},
	{
	"epoch": 0.6257521058965102,
	"grad_norm": 1.0010204315185547,
	"learning_rate": 6.561377368346824e-06,
	"loss": 2.2223,
	"step": 5200
	},
	{
	"epoch": 0.6377858002406739,
	"grad_norm": 0.7786392569541931,
	"learning_rate": 6.195824257557126e-06,
	"loss": 2.2135,
	"step": 5300
	},
	{
	"epoch": 0.6498194945848376,
	"grad_norm": 1.119176983833313,
	"learning_rate": 5.8361222749483246e-06,
	"loss": 2.2343,
	"step": 5400
	},
	{
	"epoch": 0.6618531889290012,
	"grad_norm": 1.0055018663406372,
	"learning_rate": 5.482824671092862e-06,
	"loss": 2.2361,
	"step": 5500
	},
	{
	"epoch": 0.6738868832731648,
	"grad_norm": 1.0241854190826416,
	"learning_rate": 5.136474846113688e-06,
	"loss": 2.2512,
	"step": 5600
	},
	{
	"epoch": 0.6859205776173285,
	"grad_norm": 0.792901337146759,
	"learning_rate": 4.797605513891179e-06,
	"loss": 2.2203,
	"step": 5700
	},
	{
	"epoch": 0.6979542719614922,
	"grad_norm": 1.4910557270050049,
	"learning_rate": 4.46673788270635e-06,
	"loss": 2.2261,
	"step": 5800
	},
	{
	"epoch": 0.7099879663056559,
	"grad_norm": 0.8699010610580444,
	"learning_rate": 4.1443808535806195e-06,
	"loss": 2.2282,
	"step": 5900
	},
	{
	"epoch": 0.7220216606498195,
	"grad_norm": 0.7998189330101013,
	"learning_rate": 3.83103023754511e-06,
	"loss": 2.2035,
	"step": 6000
	},
	{
	"epoch": 0.7340553549939831,
	"grad_norm": 0.8159136772155762,
	"learning_rate": 3.527167993043411e-06,
	"loss": 2.2378,
	"step": 6100
	},
	{
	"epoch": 0.7460890493381468,
	"grad_norm": 0.7632446885108948,
	"learning_rate": 3.233261484640753e-06,
	"loss": 2.2091,
	"step": 6200
	},
	{
	"epoch": 0.7581227436823105,
	"grad_norm": 0.9270642399787903,
	"learning_rate": 2.949762764179711e-06,
	"loss": 2.2278,
	"step": 6300
	},
	{
	"epoch": 0.7701564380264742,
	"grad_norm": 0.8804704546928406,
	"learning_rate": 2.6771078754881417e-06,
	"loss": 2.2409,
	"step": 6400
	},
	{
	"epoch": 0.7821901323706378,
	"grad_norm": 1.0230224132537842,
	"learning_rate": 2.415716183708684e-06,
	"loss": 2.2658,
	"step": 6500
	},
	{
	"epoch": 0.7942238267148014,
	"grad_norm": 0.7484972476959229,
	"learning_rate": 2.165989730281475e-06,
	"loss": 2.2396,
	"step": 6600
	},
	{
	"epoch": 0.8062575210589651,
	"grad_norm": 0.7870795130729675,
	"learning_rate": 1.928312614572083e-06,
	"loss": 2.206,
	"step": 6700
	},
	{
	"epoch": 0.8182912154031288,
	"grad_norm": 0.8243082761764526,
	"learning_rate": 1.703050403095783e-06,
	"loss": 2.2403,
	"step": 6800
	},
	{
	"epoch": 0.8303249097472925,
	"grad_norm": 0.88877934217453,
	"learning_rate": 1.4905495672468784e-06,
	"loss": 2.2549,
	"step": 6900
	},
	{
	"epoch": 0.8423586040914561,
	"grad_norm": 0.7939454317092896,
	"learning_rate": 1.2911369503978389e-06,
	"loss": 2.253,
	"step": 7000
	},
	{
	"epoch": 0.8543922984356197,
	"grad_norm": 0.845038652420044,
	"learning_rate": 1.1051192651878938e-06,
	"loss": 2.2124,
	"step": 7100
	},
	{
	"epoch": 0.8664259927797834,
	"grad_norm": 1.047326683998108,
	"learning_rate": 9.327826217743452e-07,
	"loss": 2.2202,
	"step": 7200
	},
	{
	"epoch": 0.8784596871239471,
	"grad_norm": 1.1349254846572876,
	"learning_rate": 7.743920877721378e-07,
	"loss": 2.2059,
	"step": 7300
	},
	{
	"epoch": 0.8904933814681107,
	"grad_norm": 0.9006612300872803,
	"learning_rate": 6.30191280558553e-07,
	"loss": 2.2327,
	"step": 7400
	},
	{
	"epoch": 0.9025270758122743,
	"grad_norm": 1.3734016418457031,
	"learning_rate": 5.004019925700921e-07,
	"loss": 2.2116,
	"step": 7500
	},
	{
	"epoch": 0.914560770156438,
	"grad_norm": 0.7956872582435608,
	"learning_rate": 3.852238501678751e-07,
	"loss": 2.2349,
	"step": 7600
	},
	{
	"epoch": 0.9265944645006017,
	"grad_norm": 0.7709358930587769,
	"learning_rate": 2.8483400659624737e-07,
	"loss": 2.2159,
	"step": 7700
	},
	{
	"epoch": 0.9386281588447654,
	"grad_norm": 0.9854726195335388,
	"learning_rate": 1.993868695068457e-07,
	"loss": 2.2324,
	"step": 7800
	},
	{
	"epoch": 0.950661853188929,
	"grad_norm": 0.957122802734375,
	"learning_rate": 1.290138634672089e-07,
	"loss": 2.2256,
	"step": 7900
	},
	{
	"epoch": 0.9626955475330926,
	"grad_norm": 1.1688376665115356,
	"learning_rate": 7.382322781923301e-08,
	"loss": 2.2578,
	"step": 8000
	},
	{
	"epoch": 0.9747292418772563,
	"grad_norm": 0.8519200682640076,
	"learning_rate": 3.38998501983534e-08,
	"loss": 2.2476,
	"step": 8100
	},
	{
	"epoch": 0.98676293622142,
	"grad_norm": 0.7625014185905457,
	"learning_rate": 9.475062435719828e-09,
	"loss": 2.2162,
	"step": 8200
	},
	{
	"epoch": 0.9987966305655837,
	"grad_norm": 0.9132429361343384,
	"learning_rate": 9.306564984878919e-11,
	"loss": 2.2016,
	"step": 8300
	},
	{
	"epoch": 1.0,
	"step": 8310,
	"total_flos": 1.510104094015488e+17,
	"train_loss": 2.265305694231201,
	"train_runtime": 2607.4148,
	"train_samples_per_second": 6.374,
	"train_steps_per_second": 3.187
	}
	],
	"logging_steps": 100,
	"max_steps": 8310,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1.510104094015488e+17,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}