job-parser-model-qwen / trainer_state.json

Upload folder using huggingface_hub

2ff9105 verified 6 months ago

15.7 kB

	{
	"best_global_step": 190,
	"best_metric": 6.224213600158691,
	"best_model_checkpoint": "/kaggle/working/qwen-model-finetuned/checkpoint-190",
	"epoch": 20.0,
	"eval_steps": 500,
	"global_step": 200,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.5194805194805194,
	"grad_norm": 504.0,
	"learning_rate": 9.800000000000001e-06,
	"loss": 10.9305,
	"mean_token_accuracy": 0.022239863348659128,
	"num_tokens": 81920.0,
	"step": 5
	},
	{
	"epoch": 1.0,
	"grad_norm": 528.0,
	"learning_rate": 9.55e-06,
	"loss": 9.7037,
	"mean_token_accuracy": 0.03139729846923335,
	"num_tokens": 157696.0,
	"step": 10
	},
	{
	"epoch": 1.0,
	"eval_loss": 9.371186256408691,
	"eval_mean_token_accuracy": 0.025891548436548974,
	"eval_num_tokens": 157696.0,
	"eval_runtime": 10.0705,
	"eval_samples_per_second": 0.894,
	"eval_steps_per_second": 0.894,
	"step": 10
	},
	{
	"epoch": 1.5194805194805194,
	"grad_norm": 374.0,
	"learning_rate": 9.3e-06,
	"loss": 9.0276,
	"mean_token_accuracy": 0.04255007305182516,
	"num_tokens": 239616.0,
	"step": 15
	},
	{
	"epoch": 2.0,
	"grad_norm": 3504.0,
	"learning_rate": 9.050000000000001e-06,
	"loss": 8.5915,
	"mean_token_accuracy": 0.06423375010490417,
	"num_tokens": 315392.0,
	"step": 20
	},
	{
	"epoch": 2.0,
	"eval_loss": 8.596755981445312,
	"eval_mean_token_accuracy": 0.06323617200056712,
	"eval_num_tokens": 315392.0,
	"eval_runtime": 9.9888,
	"eval_samples_per_second": 0.901,
	"eval_steps_per_second": 0.901,
	"step": 20
	},
	{
	"epoch": 2.5194805194805197,
	"grad_norm": 502.0,
	"learning_rate": 8.8e-06,
	"loss": 8.3693,
	"mean_token_accuracy": 0.0784318515099585,
	"num_tokens": 397312.0,
	"step": 25
	},
	{
	"epoch": 3.0,
	"grad_norm": 288.0,
	"learning_rate": 8.550000000000001e-06,
	"loss": 8.2333,
	"mean_token_accuracy": 0.07881012428048495,
	"num_tokens": 473088.0,
	"step": 30
	},
	{
	"epoch": 3.0,
	"eval_loss": 8.20586109161377,
	"eval_mean_token_accuracy": 0.06926124874088499,
	"eval_num_tokens": 473088.0,
	"eval_runtime": 9.9908,
	"eval_samples_per_second": 0.901,
	"eval_steps_per_second": 0.901,
	"step": 30
	},
	{
	"epoch": 3.5194805194805197,
	"grad_norm": 249.0,
	"learning_rate": 8.3e-06,
	"loss": 8.0225,
	"mean_token_accuracy": 0.09137762561440468,
	"num_tokens": 555008.0,
	"step": 35
	},
	{
	"epoch": 4.0,
	"grad_norm": 218.0,
	"learning_rate": 8.050000000000001e-06,
	"loss": 7.8343,
	"mean_token_accuracy": 0.09395423753036035,
	"num_tokens": 630784.0,
	"step": 40
	},
	{
	"epoch": 4.0,
	"eval_loss": 7.793511390686035,
	"eval_mean_token_accuracy": 0.0885306414630678,
	"eval_num_tokens": 630784.0,
	"eval_runtime": 9.9692,
	"eval_samples_per_second": 0.903,
	"eval_steps_per_second": 0.903,
	"step": 40
	},
	{
	"epoch": 4.51948051948052,
	"grad_norm": 124.5,
	"learning_rate": 7.800000000000002e-06,
	"loss": 7.667,
	"mean_token_accuracy": 0.10079384371638297,
	"num_tokens": 712704.0,
	"step": 45
	},
	{
	"epoch": 5.0,
	"grad_norm": 199.0,
	"learning_rate": 7.5500000000000006e-06,
	"loss": 7.5062,
	"mean_token_accuracy": 0.10965288692229502,
	"num_tokens": 788480.0,
	"step": 50
	},
	{
	"epoch": 5.0,
	"eval_loss": 7.532417297363281,
	"eval_mean_token_accuracy": 0.11339086873663796,
	"eval_num_tokens": 788480.0,
	"eval_runtime": 9.9854,
	"eval_samples_per_second": 0.901,
	"eval_steps_per_second": 0.901,
	"step": 50
	},
	{
	"epoch": 5.51948051948052,
	"grad_norm": 189.0,
	"learning_rate": 7.3e-06,
	"loss": 7.4228,
	"mean_token_accuracy": 0.14055935498327016,
	"num_tokens": 870400.0,
	"step": 55
	},
	{
	"epoch": 6.0,
	"grad_norm": 179.0,
	"learning_rate": 7.05e-06,
	"loss": 7.1983,
	"mean_token_accuracy": 0.1601288616657257,
	"num_tokens": 946176.0,
	"step": 60
	},
	{
	"epoch": 6.0,
	"eval_loss": 7.2402825355529785,
	"eval_mean_token_accuracy": 0.15719481143686506,
	"eval_num_tokens": 946176.0,
	"eval_runtime": 9.9843,
	"eval_samples_per_second": 0.901,
	"eval_steps_per_second": 0.901,
	"step": 60
	},
	{
	"epoch": 6.51948051948052,
	"grad_norm": 212.0,
	"learning_rate": 6.800000000000001e-06,
	"loss": 7.1554,
	"mean_token_accuracy": 0.16111382581293582,
	"num_tokens": 1028096.0,
	"step": 65
	},
	{
	"epoch": 7.0,
	"grad_norm": 240.0,
	"learning_rate": 6.550000000000001e-06,
	"loss": 7.0146,
	"mean_token_accuracy": 0.16839409096015467,
	"num_tokens": 1103872.0,
	"step": 70
	},
	{
	"epoch": 7.0,
	"eval_loss": 7.037937641143799,
	"eval_mean_token_accuracy": 0.16300277080800799,
	"eval_num_tokens": 1103872.0,
	"eval_runtime": 9.9771,
	"eval_samples_per_second": 0.902,
	"eval_steps_per_second": 0.902,
	"step": 70
	},
	{
	"epoch": 7.51948051948052,
	"grad_norm": 89.0,
	"learning_rate": 6.300000000000001e-06,
	"loss": 6.9988,
	"mean_token_accuracy": 0.1658891063183546,
	"num_tokens": 1185792.0,
	"step": 75
	},
	{
	"epoch": 8.0,
	"grad_norm": 99.5,
	"learning_rate": 6.0500000000000005e-06,
	"loss": 6.8182,
	"mean_token_accuracy": 0.1801449720923965,
	"num_tokens": 1261568.0,
	"step": 80
	},
	{
	"epoch": 8.0,
	"eval_loss": 6.879114627838135,
	"eval_mean_token_accuracy": 0.17081908716095817,
	"eval_num_tokens": 1261568.0,
	"eval_runtime": 9.9794,
	"eval_samples_per_second": 0.902,
	"eval_steps_per_second": 0.902,
	"step": 80
	},
	{
	"epoch": 8.519480519480519,
	"grad_norm": 79.0,
	"learning_rate": 5.8e-06,
	"loss": 6.7599,
	"mean_token_accuracy": 0.18248656746000053,
	"num_tokens": 1343488.0,
	"step": 85
	},
	{
	"epoch": 9.0,
	"grad_norm": 244.0,
	"learning_rate": 5.550000000000001e-06,
	"loss": 6.7712,
	"mean_token_accuracy": 0.18557150158527735,
	"num_tokens": 1419264.0,
	"step": 90
	},
	{
	"epoch": 9.0,
	"eval_loss": 6.76102352142334,
	"eval_mean_token_accuracy": 0.18694023622406852,
	"eval_num_tokens": 1419264.0,
	"eval_runtime": 9.9905,
	"eval_samples_per_second": 0.901,
	"eval_steps_per_second": 0.901,
	"step": 90
	},
	{
	"epoch": 9.519480519480519,
	"grad_norm": 122.0,
	"learning_rate": 5.300000000000001e-06,
	"loss": 6.7039,
	"mean_token_accuracy": 0.18946018554270266,
	"num_tokens": 1501184.0,
	"step": 95
	},
	{
	"epoch": 10.0,
	"grad_norm": 182.0,
	"learning_rate": 5.050000000000001e-06,
	"loss": 6.618,
	"mean_token_accuracy": 0.1998177944002925,
	"num_tokens": 1576960.0,
	"step": 100
	},
	{
	"epoch": 10.0,
	"eval_loss": 6.640429496765137,
	"eval_mean_token_accuracy": 0.19361667500601876,
	"eval_num_tokens": 1576960.0,
	"eval_runtime": 9.9854,
	"eval_samples_per_second": 0.901,
	"eval_steps_per_second": 0.901,
	"step": 100
	},
	{
	"epoch": 10.519480519480519,
	"grad_norm": 103.5,
	"learning_rate": 4.800000000000001e-06,
	"loss": 6.5581,
	"mean_token_accuracy": 0.19838788434863092,
	"num_tokens": 1658880.0,
	"step": 105
	},
	{
	"epoch": 11.0,
	"grad_norm": 132.0,
	"learning_rate": 4.5500000000000005e-06,
	"loss": 6.5207,
	"mean_token_accuracy": 0.19835223559592222,
	"num_tokens": 1734656.0,
	"step": 110
	},
	{
	"epoch": 11.0,
	"eval_loss": 6.540436744689941,
	"eval_mean_token_accuracy": 0.19757911231782702,
	"eval_num_tokens": 1734656.0,
	"eval_runtime": 9.9902,
	"eval_samples_per_second": 0.901,
	"eval_steps_per_second": 0.901,
	"step": 110
	},
	{
	"epoch": 11.519480519480519,
	"grad_norm": 82.0,
	"learning_rate": 4.3e-06,
	"loss": 6.487,
	"mean_token_accuracy": 0.1987176351249218,
	"num_tokens": 1816576.0,
	"step": 115
	},
	{
	"epoch": 12.0,
	"grad_norm": 55.0,
	"learning_rate": 4.05e-06,
	"loss": 6.381,
	"mean_token_accuracy": 0.20363352991439201,
	"num_tokens": 1892352.0,
	"step": 120
	},
	{
	"epoch": 12.0,
	"eval_loss": 6.44816255569458,
	"eval_mean_token_accuracy": 0.19850187169180977,
	"eval_num_tokens": 1892352.0,
	"eval_runtime": 9.9827,
	"eval_samples_per_second": 0.902,
	"eval_steps_per_second": 0.902,
	"step": 120
	},
	{
	"epoch": 12.519480519480519,
	"grad_norm": 109.5,
	"learning_rate": 3.8000000000000005e-06,
	"loss": 6.3201,
	"mean_token_accuracy": 0.207901806011796,
	"num_tokens": 1974272.0,
	"step": 125
	},
	{
	"epoch": 13.0,
	"grad_norm": 81.0,
	"learning_rate": 3.5500000000000003e-06,
	"loss": 6.3889,
	"mean_token_accuracy": 0.1981937969858582,
	"num_tokens": 2050048.0,
	"step": 130
	},
	{
	"epoch": 13.0,
	"eval_loss": 6.373791217803955,
	"eval_mean_token_accuracy": 0.19828475183910793,
	"eval_num_tokens": 2050048.0,
	"eval_runtime": 9.9649,
	"eval_samples_per_second": 0.903,
	"eval_steps_per_second": 0.903,
	"step": 130
	},
	{
	"epoch": 13.519480519480519,
	"grad_norm": 57.75,
	"learning_rate": 3.3000000000000006e-06,
	"loss": 6.3537,
	"mean_token_accuracy": 0.20020762123167515,
	"num_tokens": 2131968.0,
	"step": 135
	},
	{
	"epoch": 14.0,
	"grad_norm": 131.0,
	"learning_rate": 3.05e-06,
	"loss": 6.2238,
	"mean_token_accuracy": 0.20939014046578794,
	"num_tokens": 2207744.0,
	"step": 140
	},
	{
	"epoch": 14.0,
	"eval_loss": 6.317364692687988,
	"eval_mean_token_accuracy": 0.20094447003470528,
	"eval_num_tokens": 2207744.0,
	"eval_runtime": 9.9793,
	"eval_samples_per_second": 0.902,
	"eval_steps_per_second": 0.902,
	"step": 140
	},
	{
	"epoch": 14.519480519480519,
	"grad_norm": 111.0,
	"learning_rate": 2.8000000000000003e-06,
	"loss": 6.2564,
	"mean_token_accuracy": 0.2047997061163187,
	"num_tokens": 2289664.0,
	"step": 145
	},
	{
	"epoch": 15.0,
	"grad_norm": 60.5,
	"learning_rate": 2.55e-06,
	"loss": 6.237,
	"mean_token_accuracy": 0.2071191845713435,
	"num_tokens": 2365440.0,
	"step": 150
	},
	{
	"epoch": 15.0,
	"eval_loss": 6.276952743530273,
	"eval_mean_token_accuracy": 0.20354990826712716,
	"eval_num_tokens": 2365440.0,
	"eval_runtime": 9.9884,
	"eval_samples_per_second": 0.901,
	"eval_steps_per_second": 0.901,
	"step": 150
	},
	{
	"epoch": 15.519480519480519,
	"grad_norm": 57.0,
	"learning_rate": 2.3000000000000004e-06,
	"loss": 6.1936,
	"mean_token_accuracy": 0.2097093306481838,
	"num_tokens": 2447360.0,
	"step": 155
	},
	{
	"epoch": 16.0,
	"grad_norm": 92.5,
	"learning_rate": 2.05e-06,
	"loss": 6.2567,
	"mean_token_accuracy": 0.20516510428609075,
	"num_tokens": 2523136.0,
	"step": 160
	},
	{
	"epoch": 16.0,
	"eval_loss": 6.257329940795898,
	"eval_mean_token_accuracy": 0.20631818804475996,
	"eval_num_tokens": 2523136.0,
	"eval_runtime": 10.0306,
	"eval_samples_per_second": 0.897,
	"eval_steps_per_second": 0.897,
	"step": 160
	},
	{
	"epoch": 16.51948051948052,
	"grad_norm": 57.75,
	"learning_rate": 1.8000000000000001e-06,
	"loss": 6.1925,
	"mean_token_accuracy": 0.2081704933196306,
	"num_tokens": 2605056.0,
	"step": 165
	},
	{
	"epoch": 17.0,
	"grad_norm": 67.5,
	"learning_rate": 1.5500000000000002e-06,
	"loss": 6.2109,
	"mean_token_accuracy": 0.2084659144685075,
	"num_tokens": 2680832.0,
	"step": 170
	},
	{
	"epoch": 17.0,
	"eval_loss": 6.232978343963623,
	"eval_mean_token_accuracy": 0.20924930771191916,
	"eval_num_tokens": 2680832.0,
	"eval_runtime": 9.9679,
	"eval_samples_per_second": 0.903,
	"eval_steps_per_second": 0.903,
	"step": 170
	},
	{
	"epoch": 17.51948051948052,
	"grad_norm": 66.0,
	"learning_rate": 1.3e-06,
	"loss": 6.1513,
	"mean_token_accuracy": 0.21311675421893597,
	"num_tokens": 2762752.0,
	"step": 175
	},
	{
	"epoch": 18.0,
	"grad_norm": 62.25,
	"learning_rate": 1.0500000000000001e-06,
	"loss": 6.2227,
	"mean_token_accuracy": 0.20644582042822968,
	"num_tokens": 2838528.0,
	"step": 180
	},
	{
	"epoch": 18.0,
	"eval_loss": 6.226585388183594,
	"eval_mean_token_accuracy": 0.19757911231782702,
	"eval_num_tokens": 2838528.0,
	"eval_runtime": 9.9755,
	"eval_samples_per_second": 0.902,
	"eval_steps_per_second": 0.902,
	"step": 180
	},
	{
	"epoch": 18.51948051948052,
	"grad_norm": 47.75,
	"learning_rate": 8.000000000000001e-07,
	"loss": 6.1354,
	"mean_token_accuracy": 0.20610649585723878,
	"num_tokens": 2920448.0,
	"step": 185
	},
	{
	"epoch": 19.0,
	"grad_norm": 58.25,
	"learning_rate": 5.5e-07,
	"loss": 6.2115,
	"mean_token_accuracy": 0.20702676193134203,
	"num_tokens": 2996224.0,
	"step": 190
	},
	{
	"epoch": 19.0,
	"eval_loss": 6.224213600158691,
	"eval_mean_token_accuracy": 0.20870650642448002,
	"eval_num_tokens": 2996224.0,
	"eval_runtime": 9.9648,
	"eval_samples_per_second": 0.903,
	"eval_steps_per_second": 0.903,
	"step": 190
	},
	{
	"epoch": 19.51948051948052,
	"grad_norm": 58.75,
	"learning_rate": 3.0000000000000004e-07,
	"loss": 6.1279,
	"mean_token_accuracy": 0.21613336391746998,
	"num_tokens": 3078144.0,
	"step": 195
	},
	{
	"epoch": 20.0,
	"grad_norm": 57.75,
	"learning_rate": 5.0000000000000004e-08,
	"loss": 6.2165,
	"mean_token_accuracy": 0.20515190266274116,
	"num_tokens": 3153920.0,
	"step": 200
	},
	{
	"epoch": 20.0,
	"eval_loss": 6.226177215576172,
	"eval_mean_token_accuracy": 0.20892362627718183,
	"eval_num_tokens": 3153920.0,
	"eval_runtime": 9.9552,
	"eval_samples_per_second": 0.904,
	"eval_steps_per_second": 0.904,
	"step": 200
	}
	],
	"logging_steps": 5,
	"max_steps": 200,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 20,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 8335194712965120.0,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}