ryan_model3272024 / trainer_state.json

🍻 cheers

d6a8860 verified almost 2 years ago

14.6 kB

	{
	"best_metric": 0.26356959342956543,
	"best_model_checkpoint": "./ryan_model3272024/checkpoint-1000",
	"epoch": 0.6496519721577726,
	"eval_steps": 100,
	"global_step": 1400,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.01,
	"grad_norm": 0.38699468970298767,
	"learning_rate": 0.0001994199535962877,
	"loss": 0.4038,
	"step": 25
	},
	{
	"epoch": 0.02,
	"grad_norm": 0.6787680387496948,
	"learning_rate": 0.00019883990719257543,
	"loss": 0.4003,
	"step": 50
	},
	{
	"epoch": 0.03,
	"grad_norm": 0.5743306279182434,
	"learning_rate": 0.00019825986078886312,
	"loss": 0.3591,
	"step": 75
	},
	{
	"epoch": 0.05,
	"grad_norm": 0.41705068945884705,
	"learning_rate": 0.00019767981438515082,
	"loss": 0.3524,
	"step": 100
	},
	{
	"epoch": 0.05,
	"eval_loss": 0.339992493391037,
	"eval_na_accuracy": 0.7586872577667236,
	"eval_ordinal_accuracy": 0.38746026158332825,
	"eval_ordinal_mae": 0.8904515504837036,
	"eval_runtime": 335.205,
	"eval_samples_per_second": 11.87,
	"eval_steps_per_second": 1.486,
	"step": 100
	},
	{
	"epoch": 0.06,
	"grad_norm": 0.36200761795043945,
	"learning_rate": 0.0001970997679814385,
	"loss": 0.3071,
	"step": 125
	},
	{
	"epoch": 0.07,
	"grad_norm": 0.24589791893959045,
	"learning_rate": 0.00019651972157772623,
	"loss": 0.3475,
	"step": 150
	},
	{
	"epoch": 0.08,
	"grad_norm": 0.6089735627174377,
	"learning_rate": 0.00019593967517401393,
	"loss": 0.3072,
	"step": 175
	},
	{
	"epoch": 0.09,
	"grad_norm": 0.5671761631965637,
	"learning_rate": 0.00019535962877030162,
	"loss": 0.2683,
	"step": 200
	},
	{
	"epoch": 0.09,
	"eval_loss": 0.36712726950645447,
	"eval_na_accuracy": 0.623552143573761,
	"eval_ordinal_accuracy": 0.48916497826576233,
	"eval_ordinal_mae": 0.7306416630744934,
	"eval_runtime": 155.9343,
	"eval_samples_per_second": 25.517,
	"eval_steps_per_second": 3.194,
	"step": 200
	},
	{
	"epoch": 0.1,
	"grad_norm": 1.2764167785644531,
	"learning_rate": 0.00019477958236658932,
	"loss": 0.2953,
	"step": 225
	},
	{
	"epoch": 0.12,
	"grad_norm": 1.9076497554779053,
	"learning_rate": 0.00019419953596287704,
	"loss": 0.3382,
	"step": 250
	},
	{
	"epoch": 0.13,
	"grad_norm": 0.2747127115726471,
	"learning_rate": 0.00019361948955916474,
	"loss": 0.2752,
	"step": 275
	},
	{
	"epoch": 0.14,
	"grad_norm": 0.9448749423027039,
	"learning_rate": 0.00019303944315545243,
	"loss": 0.3314,
	"step": 300
	},
	{
	"epoch": 0.14,
	"eval_loss": 0.3450469672679901,
	"eval_na_accuracy": 0.6969112157821655,
	"eval_ordinal_accuracy": 0.4013291001319885,
	"eval_ordinal_mae": 0.8077224493026733,
	"eval_runtime": 156.2328,
	"eval_samples_per_second": 25.468,
	"eval_steps_per_second": 3.188,
	"step": 300
	},
	{
	"epoch": 0.15,
	"grad_norm": 0.2589721083641052,
	"learning_rate": 0.00019245939675174015,
	"loss": 0.3486,
	"step": 325
	},
	{
	"epoch": 0.16,
	"grad_norm": 0.44286003708839417,
	"learning_rate": 0.00019187935034802785,
	"loss": 0.3386,
	"step": 350
	},
	{
	"epoch": 0.17,
	"grad_norm": 0.3215602934360504,
	"learning_rate": 0.00019129930394431554,
	"loss": 0.3056,
	"step": 375
	},
	{
	"epoch": 0.19,
	"grad_norm": 0.9510051012039185,
	"learning_rate": 0.00019071925754060324,
	"loss": 0.2747,
	"step": 400
	},
	{
	"epoch": 0.19,
	"eval_loss": 0.28132036328315735,
	"eval_na_accuracy": 0.7895752787590027,
	"eval_ordinal_accuracy": 0.5423288345336914,
	"eval_ordinal_mae": 0.6105712056159973,
	"eval_runtime": 155.1965,
	"eval_samples_per_second": 25.638,
	"eval_steps_per_second": 3.209,
	"step": 400
	},
	{
	"epoch": 0.2,
	"grad_norm": 0.5417093634605408,
	"learning_rate": 0.00019013921113689096,
	"loss": 0.2522,
	"step": 425
	},
	{
	"epoch": 0.21,
	"grad_norm": 1.405881643295288,
	"learning_rate": 0.00018955916473317868,
	"loss": 0.3589,
	"step": 450
	},
	{
	"epoch": 0.22,
	"grad_norm": 0.8319898843765259,
	"learning_rate": 0.00018897911832946638,
	"loss": 0.2991,
	"step": 475
	},
	{
	"epoch": 0.23,
	"grad_norm": 1.9455621242523193,
	"learning_rate": 0.00018839907192575407,
	"loss": 0.3247,
	"step": 500
	},
	{
	"epoch": 0.23,
	"eval_loss": 0.3143959045410156,
	"eval_na_accuracy": 0.7104247212409973,
	"eval_ordinal_accuracy": 0.4524703919887543,
	"eval_ordinal_mae": 0.7256373763084412,
	"eval_runtime": 157.1141,
	"eval_samples_per_second": 25.326,
	"eval_steps_per_second": 3.17,
	"step": 500
	},
	{
	"epoch": 0.24,
	"grad_norm": 0.6339251399040222,
	"learning_rate": 0.00018781902552204177,
	"loss": 0.303,
	"step": 525
	},
	{
	"epoch": 0.26,
	"grad_norm": 0.3713740408420563,
	"learning_rate": 0.0001872389791183295,
	"loss": 0.3035,
	"step": 550
	},
	{
	"epoch": 0.27,
	"grad_norm": 0.7050974369049072,
	"learning_rate": 0.00018665893271461718,
	"loss": 0.2609,
	"step": 575
	},
	{
	"epoch": 0.28,
	"grad_norm": 0.791477620601654,
	"learning_rate": 0.00018607888631090488,
	"loss": 0.3612,
	"step": 600
	},
	{
	"epoch": 0.28,
	"eval_loss": 0.3074879050254822,
	"eval_na_accuracy": 0.7586872577667236,
	"eval_ordinal_accuracy": 0.4984108507633209,
	"eval_ordinal_mae": 0.6415887475013733,
	"eval_runtime": 154.2538,
	"eval_samples_per_second": 25.795,
	"eval_steps_per_second": 3.228,
	"step": 600
	},
	{
	"epoch": 0.29,
	"grad_norm": 0.39196524024009705,
	"learning_rate": 0.0001854988399071926,
	"loss": 0.31,
	"step": 625
	},
	{
	"epoch": 0.3,
	"grad_norm": 1.0753191709518433,
	"learning_rate": 0.0001849187935034803,
	"loss": 0.2722,
	"step": 650
	},
	{
	"epoch": 0.31,
	"grad_norm": 0.8922611474990845,
	"learning_rate": 0.000184338747099768,
	"loss": 0.3132,
	"step": 675
	},
	{
	"epoch": 0.32,
	"grad_norm": 0.6866246461868286,
	"learning_rate": 0.0001837587006960557,
	"loss": 0.3031,
	"step": 700
	},
	{
	"epoch": 0.32,
	"eval_loss": 0.2784635126590729,
	"eval_na_accuracy": 0.7895752787590027,
	"eval_ordinal_accuracy": 0.5556197762489319,
	"eval_ordinal_mae": 0.5720168352127075,
	"eval_runtime": 154.421,
	"eval_samples_per_second": 25.767,
	"eval_steps_per_second": 3.225,
	"step": 700
	},
	{
	"epoch": 0.34,
	"grad_norm": 1.713051676750183,
	"learning_rate": 0.0001831786542923434,
	"loss": 0.337,
	"step": 725
	},
	{
	"epoch": 0.35,
	"grad_norm": 1.0872548818588257,
	"learning_rate": 0.0001825986078886311,
	"loss": 0.2918,
	"step": 750
	},
	{
	"epoch": 0.36,
	"grad_norm": 1.5099256038665771,
	"learning_rate": 0.0001820185614849188,
	"loss": 0.2509,
	"step": 775
	},
	{
	"epoch": 0.37,
	"grad_norm": 0.5774210691452026,
	"learning_rate": 0.0001814385150812065,
	"loss": 0.2866,
	"step": 800
	},
	{
	"epoch": 0.37,
	"eval_loss": 0.28780511021614075,
	"eval_na_accuracy": 0.7335907220840454,
	"eval_ordinal_accuracy": 0.5775787234306335,
	"eval_ordinal_mae": 0.5347856879234314,
	"eval_runtime": 154.6062,
	"eval_samples_per_second": 25.736,
	"eval_steps_per_second": 3.221,
	"step": 800
	},
	{
	"epoch": 0.38,
	"grad_norm": 0.33059367537498474,
	"learning_rate": 0.00018085846867749422,
	"loss": 0.2626,
	"step": 825
	},
	{
	"epoch": 0.39,
	"grad_norm": 1.45087730884552,
	"learning_rate": 0.0001802784222737819,
	"loss": 0.3485,
	"step": 850
	},
	{
	"epoch": 0.41,
	"grad_norm": 1.195901870727539,
	"learning_rate": 0.0001796983758700696,
	"loss": 0.3007,
	"step": 875
	},
	{
	"epoch": 0.42,
	"grad_norm": 0.26779890060424805,
	"learning_rate": 0.00017911832946635733,
	"loss": 0.2927,
	"step": 900
	},
	{
	"epoch": 0.42,
	"eval_loss": 0.2688673734664917,
	"eval_na_accuracy": 0.7972972989082336,
	"eval_ordinal_accuracy": 0.5573533773422241,
	"eval_ordinal_mae": 0.5855077505111694,
	"eval_runtime": 154.5178,
	"eval_samples_per_second": 25.751,
	"eval_steps_per_second": 3.223,
	"step": 900
	},
	{
	"epoch": 0.43,
	"grad_norm": 0.5635965466499329,
	"learning_rate": 0.00017853828306264502,
	"loss": 0.269,
	"step": 925
	},
	{
	"epoch": 0.44,
	"grad_norm": 2.8135786056518555,
	"learning_rate": 0.00017795823665893272,
	"loss": 0.2677,
	"step": 950
	},
	{
	"epoch": 0.45,
	"grad_norm": 0.49396631121635437,
	"learning_rate": 0.0001773781902552204,
	"loss": 0.3069,
	"step": 975
	},
	{
	"epoch": 0.46,
	"grad_norm": 1.3267723321914673,
	"learning_rate": 0.00017679814385150814,
	"loss": 0.3003,
	"step": 1000
	},
	{
	"epoch": 0.46,
	"eval_loss": 0.26356959342956543,
	"eval_na_accuracy": 0.7915058135986328,
	"eval_ordinal_accuracy": 0.581045925617218,
	"eval_ordinal_mae": 0.5543876886367798,
	"eval_runtime": 157.946,
	"eval_samples_per_second": 25.192,
	"eval_steps_per_second": 3.153,
	"step": 1000
	},
	{
	"epoch": 0.48,
	"grad_norm": 0.9938157200813293,
	"learning_rate": 0.00017621809744779583,
	"loss": 0.2521,
	"step": 1025
	},
	{
	"epoch": 0.49,
	"grad_norm": 0.45715010166168213,
	"learning_rate": 0.00017563805104408353,
	"loss": 0.2926,
	"step": 1050
	},
	{
	"epoch": 0.5,
	"grad_norm": 2.9666409492492676,
	"learning_rate": 0.00017505800464037122,
	"loss": 0.2581,
	"step": 1075
	},
	{
	"epoch": 0.51,
	"grad_norm": 2.5301055908203125,
	"learning_rate": 0.00017447795823665894,
	"loss": 0.2522,
	"step": 1100
	},
	{
	"epoch": 0.51,
	"eval_loss": 0.3009192943572998,
	"eval_na_accuracy": 0.8571428656578064,
	"eval_ordinal_accuracy": 0.54435133934021,
	"eval_ordinal_mae": 0.5650931596755981,
	"eval_runtime": 159.1216,
	"eval_samples_per_second": 25.006,
	"eval_steps_per_second": 3.13,
	"step": 1100
	},
	{
	"epoch": 0.52,
	"grad_norm": 0.8192782998085022,
	"learning_rate": 0.00017389791183294664,
	"loss": 0.3584,
	"step": 1125
	},
	{
	"epoch": 0.53,
	"grad_norm": 2.0657265186309814,
	"learning_rate": 0.00017331786542923433,
	"loss": 0.2547,
	"step": 1150
	},
	{
	"epoch": 0.55,
	"grad_norm": 0.5887840390205383,
	"learning_rate": 0.00017273781902552203,
	"loss": 0.2335,
	"step": 1175
	},
	{
	"epoch": 0.56,
	"grad_norm": 0.8169906735420227,
	"learning_rate": 0.00017215777262180975,
	"loss": 0.262,
	"step": 1200
	},
	{
	"epoch": 0.56,
	"eval_loss": 0.279022216796875,
	"eval_na_accuracy": 0.8301158547401428,
	"eval_ordinal_accuracy": 0.5801791548728943,
	"eval_ordinal_mae": 0.5203233361244202,
	"eval_runtime": 159.9167,
	"eval_samples_per_second": 24.882,
	"eval_steps_per_second": 3.114,
	"step": 1200
	},
	{
	"epoch": 0.57,
	"grad_norm": 2.5461835861206055,
	"learning_rate": 0.00017157772621809744,
	"loss": 0.2387,
	"step": 1225
	},
	{
	"epoch": 0.58,
	"grad_norm": 0.7304142117500305,
	"learning_rate": 0.00017099767981438517,
	"loss": 0.2366,
	"step": 1250
	},
	{
	"epoch": 0.59,
	"grad_norm": 1.3845186233520508,
	"learning_rate": 0.00017041763341067286,
	"loss": 0.2309,
	"step": 1275
	},
	{
	"epoch": 0.6,
	"grad_norm": 0.5202885270118713,
	"learning_rate": 0.00016983758700696058,
	"loss": 0.2139,
	"step": 1300
	},
	{
	"epoch": 0.6,
	"eval_loss": 0.2653418481349945,
	"eval_na_accuracy": 0.7509652376174927,
	"eval_ordinal_accuracy": 0.5492632389068604,
	"eval_ordinal_mae": 0.562603771686554,
	"eval_runtime": 158.9921,
	"eval_samples_per_second": 25.026,
	"eval_steps_per_second": 3.132,
	"step": 1300
	},
	{
	"epoch": 0.61,
	"grad_norm": 1.6506483554840088,
	"learning_rate": 0.00016925754060324828,
	"loss": 0.3071,
	"step": 1325
	},
	{
	"epoch": 0.63,
	"grad_norm": 0.5789369940757751,
	"learning_rate": 0.00016867749419953597,
	"loss": 0.2689,
	"step": 1350
	},
	{
	"epoch": 0.64,
	"grad_norm": 0.5665389895439148,
	"learning_rate": 0.00016809744779582367,
	"loss": 0.2598,
	"step": 1375
	},
	{
	"epoch": 0.65,
	"grad_norm": 0.6937847137451172,
	"learning_rate": 0.0001675174013921114,
	"loss": 0.2655,
	"step": 1400
	},
	{
	"epoch": 0.65,
	"eval_loss": 0.2760397493839264,
	"eval_na_accuracy": 0.7123551964759827,
	"eval_ordinal_accuracy": 0.5426177382469177,
	"eval_ordinal_mae": 0.6106911897659302,
	"eval_runtime": 160.1635,
	"eval_samples_per_second": 24.843,
	"eval_steps_per_second": 3.109,
	"step": 1400
	},
	{
	"epoch": 0.65,
	"step": 1400,
	"total_flos": 1.735882797809664e+18,
	"train_loss": 0.29669314997536794,
	"train_runtime": 4786.838,
	"train_samples_per_second": 28.807,
	"train_steps_per_second": 1.801
	}
	],
	"logging_steps": 25,
	"max_steps": 8620,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 4,
	"save_steps": 100,
	"total_flos": 1.735882797809664e+18,
	"train_batch_size": 16,
	"trial_name": null,
	"trial_params": null
	}