AI_Checkpoint / checkpoint-2200 /trainer_state.json

Upload 12 files

4071f9d verified 10 days ago

15.6 kB

	{
	"best_global_step": 600,
	"best_metric": 72.28,
	"best_model_checkpoint": "/content/drive/MyDrive/Summarization/checkpoints/cur_cp/checkpoint-600",
	"epoch": 8.835341365461847,
	"eval_steps": 100,
	"global_step": 2200,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.20080321285140562,
	"grad_norm": 10.723053932189941,
	"learning_rate": 4.995027130745321e-05,
	"loss": 0.8179,
	"step": 50
	},
	{
	"epoch": 0.40160642570281124,
	"grad_norm": 13.537382125854492,
	"learning_rate": 4.980128306524183e-05,
	"loss": 0.7085,
	"step": 100
	},
	{
	"epoch": 0.40160642570281124,
	"eval_f1": 70.31,
	"eval_gen_len": 42.92338709677419,
	"eval_loss": 0.6963455080986023,
	"eval_p": 74.73,
	"eval_r": 70.54,
	"eval_runtime": 46.3873,
	"eval_samples_per_second": 10.693,
	"eval_steps_per_second": 0.668,
	"step": 100
	},
	{
	"epoch": 0.6024096385542169,
	"grad_norm": 3.749103307723999,
	"learning_rate": 4.9553627992605066e-05,
	"loss": 0.6667,
	"step": 150
	},
	{
	"epoch": 0.8032128514056225,
	"grad_norm": 7.421478748321533,
	"learning_rate": 4.9208291334580104e-05,
	"loss": 0.5991,
	"step": 200
	},
	{
	"epoch": 0.8032128514056225,
	"eval_f1": 68.09,
	"eval_gen_len": 40.17741935483871,
	"eval_loss": 0.7214160561561584,
	"eval_p": 75.9,
	"eval_r": 66.2,
	"eval_runtime": 45.6263,
	"eval_samples_per_second": 10.871,
	"eval_steps_per_second": 0.679,
	"step": 200
	},
	{
	"epoch": 1.0040160642570282,
	"grad_norm": 9.242626190185547,
	"learning_rate": 4.87666469424063e-05,
	"loss": 0.752,
	"step": 250
	},
	{
	"epoch": 1.2048192771084336,
	"grad_norm": 4.659054756164551,
	"learning_rate": 4.8230451807939135e-05,
	"loss": 0.4472,
	"step": 300
	},
	{
	"epoch": 1.2048192771084336,
	"eval_f1": 67.64,
	"eval_gen_len": 39.01411290322581,
	"eval_loss": 0.7062053084373474,
	"eval_p": 75.6,
	"eval_r": 65.19,
	"eval_runtime": 42.4185,
	"eval_samples_per_second": 11.693,
	"eval_steps_per_second": 0.731,
	"step": 300
	},
	{
	"epoch": 1.4056224899598393,
	"grad_norm": 11.880289077758789,
	"learning_rate": 4.760183907381757e-05,
	"loss": 0.5069,
	"step": 350
	},
	{
	"epoch": 1.606425702811245,
	"grad_norm": 9.056407928466797,
	"learning_rate": 4.6883309547192476e-05,
	"loss": 0.519,
	"step": 400
	},
	{
	"epoch": 1.606425702811245,
	"eval_f1": 71.67,
	"eval_gen_len": 46.93346774193548,
	"eval_loss": 0.7584968209266663,
	"eval_p": 73.71,
	"eval_r": 74.1,
	"eval_runtime": 55.9551,
	"eval_samples_per_second": 8.864,
	"eval_steps_per_second": 0.554,
	"step": 400
	},
	{
	"epoch": 1.8072289156626506,
	"grad_norm": 7.793162822723389,
	"learning_rate": 4.607772175077711e-05,
	"loss": 0.4939,
	"step": 450
	},
	{
	"epoch": 2.0080321285140563,
	"grad_norm": 7.212235927581787,
	"learning_rate": 4.518828055079925e-05,
	"loss": 0.4646,
	"step": 500
	},
	{
	"epoch": 2.0080321285140563,
	"eval_f1": 69.01,
	"eval_gen_len": 42.16129032258065,
	"eval_loss": 0.7297435998916626,
	"eval_p": 73.93,
	"eval_r": 68.57,
	"eval_runtime": 48.8895,
	"eval_samples_per_second": 10.145,
	"eval_steps_per_second": 0.634,
	"step": 500
	},
	{
	"epoch": 2.208835341365462,
	"grad_norm": 5.176413536071777,
	"learning_rate": 4.421852440709666e-05,
	"loss": 0.2646,
	"step": 550
	},
	{
	"epoch": 2.4096385542168672,
	"grad_norm": 19.735258102416992,
	"learning_rate": 4.3172311296078595e-05,
	"loss": 0.3214,
	"step": 600
	},
	{
	"epoch": 2.4096385542168672,
	"eval_f1": 72.28,
	"eval_gen_len": 46.564516129032256,
	"eval_loss": 0.788872241973877,
	"eval_p": 74.17,
	"eval_r": 74.3,
	"eval_runtime": 54.3998,
	"eval_samples_per_second": 9.118,
	"eval_steps_per_second": 0.57,
	"step": 600
	},
	{
	"epoch": 2.610441767068273,
	"grad_norm": 9.665975570678711,
	"learning_rate": 4.205380336255594e-05,
	"loss": 0.4161,
	"step": 650
	},
	{
	"epoch": 2.8112449799196786,
	"grad_norm": 8.65356731414795,
	"learning_rate": 4.08674503614997e-05,
	"loss": 0.2973,
	"step": 700
	},
	{
	"epoch": 2.8112449799196786,
	"eval_f1": 68.05,
	"eval_gen_len": 41.256048387096776,
	"eval_loss": 0.770168662071228,
	"eval_p": 74.23,
	"eval_r": 66.93,
	"eval_runtime": 44.2971,
	"eval_samples_per_second": 11.197,
	"eval_steps_per_second": 0.7,
	"step": 700
	},
	{
	"epoch": 3.0120481927710845,
	"grad_norm": 4.7805867195129395,
	"learning_rate": 3.961797195560118e-05,
	"loss": 0.3477,
	"step": 750
	},
	{
	"epoch": 3.21285140562249,
	"grad_norm": 3.864029884338379,
	"learning_rate": 3.8310338939059644e-05,
	"loss": 0.2447,
	"step": 800
	},
	{
	"epoch": 3.21285140562249,
	"eval_f1": 69.3,
	"eval_gen_len": 42.681451612903224,
	"eval_loss": 0.8243445158004761,
	"eval_p": 74.09,
	"eval_r": 68.98,
	"eval_runtime": 47.774,
	"eval_samples_per_second": 10.382,
	"eval_steps_per_second": 0.649,
	"step": 800
	},
	{
	"epoch": 3.4136546184738954,
	"grad_norm": 1.5391823053359985,
	"learning_rate": 3.694975346229458e-05,
	"loss": 0.2272,
	"step": 850
	},
	{
	"epoch": 3.6144578313253013,
	"grad_norm": 12.502788543701172,
	"learning_rate": 3.55416283362546e-05,
	"loss": 0.2136,
	"step": 900
	},
	{
	"epoch": 3.6144578313253013,
	"eval_f1": 72.18,
	"eval_gen_len": 45.850806451612904,
	"eval_loss": 0.8359085917472839,
	"eval_p": 74.24,
	"eval_r": 73.77,
	"eval_runtime": 51.4887,
	"eval_samples_per_second": 9.633,
	"eval_steps_per_second": 0.602,
	"step": 900
	},
	{
	"epoch": 3.8152610441767068,
	"grad_norm": 6.718369960784912,
	"learning_rate": 3.409156549865654e-05,
	"loss": 0.1959,
	"step": 950
	},
	{
	"epoch": 4.016064257028113,
	"grad_norm": 32.431217193603516,
	"learning_rate": 3.260533372782234e-05,
	"loss": 0.2571,
	"step": 1000
	},
	{
	"epoch": 4.016064257028113,
	"eval_f1": 69.38,
	"eval_gen_len": 42.243951612903224,
	"eval_loss": 0.8177807927131653,
	"eval_p": 73.87,
	"eval_r": 69.22,
	"eval_runtime": 48.2955,
	"eval_samples_per_second": 10.27,
	"eval_steps_per_second": 0.642,
	"step": 1000
	},
	{
	"epoch": 4.216867469879518,
	"grad_norm": 5.5347065925598145,
	"learning_rate": 3.10888456927748e-05,
	"loss": 0.1427,
	"step": 1050
	},
	{
	"epoch": 4.417670682730924,
	"grad_norm": 4.728146076202393,
	"learning_rate": 2.9548134430893604e-05,
	"loss": 0.1356,
	"step": 1100
	},
	{
	"epoch": 4.417670682730924,
	"eval_f1": 70.43,
	"eval_gen_len": 44.792338709677416,
	"eval_loss": 0.8745766878128052,
	"eval_p": 73.6,
	"eval_r": 71.48,
	"eval_runtime": 49.7707,
	"eval_samples_per_second": 9.966,
	"eval_steps_per_second": 0.623,
	"step": 1100
	},
	{
	"epoch": 4.618473895582329,
	"grad_norm": 4.265488147735596,
	"learning_rate": 2.7989329346710375e-05,
	"loss": 0.1644,
	"step": 1150
	},
	{
	"epoch": 4.8192771084337345,
	"grad_norm": 5.412672996520996,
	"learning_rate": 2.6418631827326857e-05,
	"loss": 0.1564,
	"step": 1200
	},
	{
	"epoch": 4.8192771084337345,
	"eval_f1": 70.56,
	"eval_gen_len": 45.20967741935484,
	"eval_loss": 0.8563244342803955,
	"eval_p": 73.64,
	"eval_r": 71.76,
	"eval_runtime": 50.2355,
	"eval_samples_per_second": 9.873,
	"eval_steps_per_second": 0.617,
	"step": 1200
	},
	{
	"epoch": 5.020080321285141,
	"grad_norm": 5.465022087097168,
	"learning_rate": 2.484229057146507e-05,
	"loss": 0.1396,
	"step": 1250
	},
	{
	"epoch": 5.220883534136546,
	"grad_norm": 4.947805881500244,
	"learning_rate": 2.3266576730297956e-05,
	"loss": 0.0937,
	"step": 1300
	},
	{
	"epoch": 5.220883534136546,
	"eval_f1": 70.17,
	"eval_gen_len": 42.51411290322581,
	"eval_loss": 0.8945086002349854,
	"eval_p": 74.73,
	"eval_r": 69.95,
	"eval_runtime": 47.3409,
	"eval_samples_per_second": 10.477,
	"eval_steps_per_second": 0.655,
	"step": 1300
	},
	{
	"epoch": 5.421686746987952,
	"grad_norm": 2.938572883605957,
	"learning_rate": 2.1697758958957448e-05,
	"loss": 0.0842,
	"step": 1350
	},
	{
	"epoch": 5.622489959839357,
	"grad_norm": 7.102436542510986,
	"learning_rate": 2.014207847797256e-05,
	"loss": 0.1031,
	"step": 1400
	},
	{
	"epoch": 5.622489959839357,
	"eval_f1": 71.86,
	"eval_gen_len": 47.534274193548384,
	"eval_loss": 0.8877253532409668,
	"eval_p": 73.18,
	"eval_r": 74.71,
	"eval_runtime": 53.5518,
	"eval_samples_per_second": 9.262,
	"eval_steps_per_second": 0.579,
	"step": 1400
	},
	{
	"epoch": 5.823293172690763,
	"grad_norm": 2.2575900554656982,
	"learning_rate": 1.8605724243850502e-05,
	"loss": 0.1126,
	"step": 1450
	},
	{
	"epoch": 6.024096385542169,
	"grad_norm": 3.7854058742523193,
	"learning_rate": 1.70948083275794e-05,
	"loss": 0.095,
	"step": 1500
	},
	{
	"epoch": 6.024096385542169,
	"eval_f1": 70.87,
	"eval_gen_len": 45.21774193548387,
	"eval_loss": 0.9038512706756592,
	"eval_p": 73.83,
	"eval_r": 72.16,
	"eval_runtime": 52.1132,
	"eval_samples_per_second": 9.518,
	"eval_steps_per_second": 0.595,
	"step": 1500
	},
	{
	"epoch": 6.224899598393574,
	"grad_norm": 3.2422773838043213,
	"learning_rate": 1.561534159900441e-05,
	"loss": 0.0689,
	"step": 1550
	},
	{
	"epoch": 6.42570281124498,
	"grad_norm": 6.3022990226745605,
	"learning_rate": 1.4173209813811788e-05,
	"loss": 0.0764,
	"step": 1600
	},
	{
	"epoch": 6.42570281124498,
	"eval_f1": 71.12,
	"eval_gen_len": 46.310483870967744,
	"eval_loss": 0.9024052619934082,
	"eval_p": 73.55,
	"eval_r": 73.2,
	"eval_runtime": 51.8511,
	"eval_samples_per_second": 9.566,
	"eval_steps_per_second": 0.598,
	"step": 1600
	},
	{
	"epoch": 6.626506024096385,
	"grad_norm": 3.3996074199676514,
	"learning_rate": 1.277415019825417e-05,
	"loss": 0.0639,
	"step": 1650
	},
	{
	"epoch": 6.827309236947791,
	"grad_norm": 1.7633498907089233,
	"learning_rate": 1.1423728624769695e-05,
	"loss": 0.0499,
	"step": 1700
	},
	{
	"epoch": 6.827309236947791,
	"eval_f1": 71.1,
	"eval_gen_len": 45.52620967741935,
	"eval_loss": 0.9023270010948181,
	"eval_p": 73.73,
	"eval_r": 72.63,
	"eval_runtime": 48.5153,
	"eval_samples_per_second": 10.224,
	"eval_steps_per_second": 0.639,
	"step": 1700
	},
	{
	"epoch": 7.028112449799197,
	"grad_norm": 0.14504443109035492,
	"learning_rate": 1.0127317469297277e-05,
	"loss": 0.0707,
	"step": 1750
	},
	{
	"epoch": 7.228915662650603,
	"grad_norm": 0.9350752830505371,
	"learning_rate": 8.890074238378074e-06,
	"loss": 0.0422,
	"step": 1800
	},
	{
	"epoch": 7.228915662650603,
	"eval_f1": 71.74,
	"eval_gen_len": 46.16935483870968,
	"eval_loss": 0.9106847643852234,
	"eval_p": 73.84,
	"eval_r": 73.54,
	"eval_runtime": 53.7841,
	"eval_samples_per_second": 9.222,
	"eval_steps_per_second": 0.576,
	"step": 1800
	},
	{
	"epoch": 7.429718875502008,
	"grad_norm": 2.7118020057678223,
	"learning_rate": 7.71692105107098e-06,
	"loss": 0.0442,
	"step": 1850
	},
	{
	"epoch": 7.6305220883534135,
	"grad_norm": 3.540323495864868,
	"learning_rate": 6.612525057308949e-06,
	"loss": 0.0469,
	"step": 1900
	},
	{
	"epoch": 7.6305220883534135,
	"eval_f1": 71.51,
	"eval_gen_len": 45.40120967741935,
	"eval_loss": 0.9106153845787048,
	"eval_p": 74.15,
	"eval_r": 73.09,
	"eval_runtime": 51.3332,
	"eval_samples_per_second": 9.662,
	"eval_steps_per_second": 0.604,
	"step": 1900
	},
	{
	"epoch": 7.831325301204819,
	"grad_norm": 1.7734179496765137,
	"learning_rate": 5.581279870597867e-06,
	"loss": 0.0368,
	"step": 1950
	},
	{
	"epoch": 8.032128514056225,
	"grad_norm": 2.24417781829834,
	"learning_rate": 4.627288088924156e-06,
	"loss": 0.0379,
	"step": 2000
	},
	{
	"epoch": 8.032128514056225,
	"eval_f1": 70.84,
	"eval_gen_len": 45.127016129032256,
	"eval_loss": 0.9157423973083496,
	"eval_p": 73.79,
	"eval_r": 72.15,
	"eval_runtime": 51.0735,
	"eval_samples_per_second": 9.711,
	"eval_steps_per_second": 0.607,
	"step": 2000
	},
	{
	"epoch": 8.23293172690763,
	"grad_norm": 1.954770565032959,
	"learning_rate": 3.754344973408064e-06,
	"loss": 0.0335,
	"step": 2050
	},
	{
	"epoch": 8.433734939759036,
	"grad_norm": 1.5767686367034912,
	"learning_rate": 2.9659233496337786e-06,
	"loss": 0.0301,
	"step": 2100
	},
	{
	"epoch": 8.433734939759036,
	"eval_f1": 71.39,
	"eval_gen_len": 46.381048387096776,
	"eval_loss": 0.9240424633026123,
	"eval_p": 73.77,
	"eval_r": 73.37,
	"eval_runtime": 53.2399,
	"eval_samples_per_second": 9.316,
	"eval_steps_per_second": 0.582,
	"step": 2100
	},
	{
	"epoch": 8.634538152610443,
	"grad_norm": 0.2601850628852844,
	"learning_rate": 2.265159791723373e-06,
	"loss": 0.0358,
	"step": 2150
	},
	{
	"epoch": 8.835341365461847,
	"grad_norm": 5.757479667663574,
	"learning_rate": 1.6548421441183875e-06,
	"loss": 0.0254,
	"step": 2200
	},
	{
	"epoch": 8.835341365461847,
	"eval_f1": 71.82,
	"eval_gen_len": 46.47782258064516,
	"eval_loss": 0.9292237162590027,
	"eval_p": 73.8,
	"eval_r": 74.04,
	"eval_runtime": 54.2877,
	"eval_samples_per_second": 9.137,
	"eval_steps_per_second": 0.571,
	"step": 2200
	}
	],
	"logging_steps": 50,
	"max_steps": 2490,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 10,
	"save_steps": 100,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 490953080733696.0,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}