roberta-base-mean-softmax-450 / trainer_state.json

Upload folder using huggingface_hub

d9e0b72 verified 11 months ago

20.9 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.06114130434782609,
	"eval_steps": 5,
	"global_step": 450,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0006793478260869565,
	"eval_loss": 4.499350547790527,
	"eval_runtime": 20.1523,
	"eval_samples_per_second": 975.424,
	"eval_steps_per_second": 7.642,
	"step": 5
	},
	{
	"epoch": 0.001358695652173913,
	"eval_loss": 4.498117923736572,
	"eval_runtime": 20.4966,
	"eval_samples_per_second": 959.037,
	"eval_steps_per_second": 7.513,
	"step": 10
	},
	{
	"epoch": 0.0020380434782608695,
	"eval_loss": 4.495996475219727,
	"eval_runtime": 21.0485,
	"eval_samples_per_second": 933.891,
	"eval_steps_per_second": 7.316,
	"step": 15
	},
	{
	"epoch": 0.002717391304347826,
	"eval_loss": 4.492975234985352,
	"eval_runtime": 21.3506,
	"eval_samples_per_second": 920.677,
	"eval_steps_per_second": 7.213,
	"step": 20
	},
	{
	"epoch": 0.0033967391304347825,
	"eval_loss": 4.489028453826904,
	"eval_runtime": 21.5145,
	"eval_samples_per_second": 913.661,
	"eval_steps_per_second": 7.158,
	"step": 25
	},
	{
	"epoch": 0.004076086956521739,
	"eval_loss": 4.484206199645996,
	"eval_runtime": 21.5836,
	"eval_samples_per_second": 910.738,
	"eval_steps_per_second": 7.135,
	"step": 30
	},
	{
	"epoch": 0.004755434782608696,
	"eval_loss": 4.478429317474365,
	"eval_runtime": 21.7892,
	"eval_samples_per_second": 902.143,
	"eval_steps_per_second": 7.068,
	"step": 35
	},
	{
	"epoch": 0.005434782608695652,
	"eval_loss": 4.471565246582031,
	"eval_runtime": 21.9727,
	"eval_samples_per_second": 894.608,
	"eval_steps_per_second": 7.009,
	"step": 40
	},
	{
	"epoch": 0.006114130434782609,
	"eval_loss": 4.463589668273926,
	"eval_runtime": 21.6519,
	"eval_samples_per_second": 907.863,
	"eval_steps_per_second": 7.113,
	"step": 45
	},
	{
	"epoch": 0.006793478260869565,
	"eval_loss": 4.454347610473633,
	"eval_runtime": 21.7784,
	"eval_samples_per_second": 902.593,
	"eval_steps_per_second": 7.071,
	"step": 50
	},
	{
	"epoch": 0.007472826086956522,
	"eval_loss": 4.443789958953857,
	"eval_runtime": 21.9874,
	"eval_samples_per_second": 894.012,
	"eval_steps_per_second": 7.004,
	"step": 55
	},
	{
	"epoch": 0.008152173913043478,
	"eval_loss": 4.432095527648926,
	"eval_runtime": 21.6944,
	"eval_samples_per_second": 906.087,
	"eval_steps_per_second": 7.099,
	"step": 60
	},
	{
	"epoch": 0.008831521739130434,
	"eval_loss": 4.419074535369873,
	"eval_runtime": 21.7766,
	"eval_samples_per_second": 902.668,
	"eval_steps_per_second": 7.072,
	"step": 65
	},
	{
	"epoch": 0.009510869565217392,
	"eval_loss": 4.404222011566162,
	"eval_runtime": 21.9472,
	"eval_samples_per_second": 895.649,
	"eval_steps_per_second": 7.017,
	"step": 70
	},
	{
	"epoch": 0.010190217391304348,
	"eval_loss": 4.387468338012695,
	"eval_runtime": 22.1085,
	"eval_samples_per_second": 889.115,
	"eval_steps_per_second": 6.966,
	"step": 75
	},
	{
	"epoch": 0.010869565217391304,
	"eval_loss": 4.368589878082275,
	"eval_runtime": 21.8154,
	"eval_samples_per_second": 901.063,
	"eval_steps_per_second": 7.059,
	"step": 80
	},
	{
	"epoch": 0.01154891304347826,
	"eval_loss": 4.347426891326904,
	"eval_runtime": 21.8937,
	"eval_samples_per_second": 897.84,
	"eval_steps_per_second": 7.034,
	"step": 85
	},
	{
	"epoch": 0.012228260869565218,
	"eval_loss": 4.32356595993042,
	"eval_runtime": 21.9031,
	"eval_samples_per_second": 897.453,
	"eval_steps_per_second": 7.031,
	"step": 90
	},
	{
	"epoch": 0.012907608695652174,
	"eval_loss": 4.296773433685303,
	"eval_runtime": 22.045,
	"eval_samples_per_second": 891.674,
	"eval_steps_per_second": 6.986,
	"step": 95
	},
	{
	"epoch": 0.01358695652173913,
	"grad_norm": 11.771966934204102,
	"learning_rate": 4.528985507246377e-07,
	"loss": 4.4995,
	"step": 100
	},
	{
	"epoch": 0.01358695652173913,
	"eval_loss": 4.266582489013672,
	"eval_runtime": 21.7748,
	"eval_samples_per_second": 902.742,
	"eval_steps_per_second": 7.072,
	"step": 100
	},
	{
	"epoch": 0.014266304347826086,
	"eval_loss": 4.232626914978027,
	"eval_runtime": 21.7463,
	"eval_samples_per_second": 903.924,
	"eval_steps_per_second": 7.082,
	"step": 105
	},
	{
	"epoch": 0.014945652173913044,
	"eval_loss": 4.194711208343506,
	"eval_runtime": 22.0767,
	"eval_samples_per_second": 890.396,
	"eval_steps_per_second": 6.976,
	"step": 110
	},
	{
	"epoch": 0.015625,
	"eval_loss": 4.151618957519531,
	"eval_runtime": 21.7284,
	"eval_samples_per_second": 904.667,
	"eval_steps_per_second": 7.087,
	"step": 115
	},
	{
	"epoch": 0.016304347826086956,
	"eval_loss": 4.102933883666992,
	"eval_runtime": 21.8375,
	"eval_samples_per_second": 900.149,
	"eval_steps_per_second": 7.052,
	"step": 120
	},
	{
	"epoch": 0.016983695652173912,
	"eval_loss": 4.047597408294678,
	"eval_runtime": 21.8792,
	"eval_samples_per_second": 898.434,
	"eval_steps_per_second": 7.039,
	"step": 125
	},
	{
	"epoch": 0.017663043478260868,
	"eval_loss": 3.9850316047668457,
	"eval_runtime": 22.0074,
	"eval_samples_per_second": 893.2,
	"eval_steps_per_second": 6.998,
	"step": 130
	},
	{
	"epoch": 0.018342391304347828,
	"eval_loss": 3.9161784648895264,
	"eval_runtime": 21.9382,
	"eval_samples_per_second": 896.016,
	"eval_steps_per_second": 7.02,
	"step": 135
	},
	{
	"epoch": 0.019021739130434784,
	"eval_loss": 3.839725971221924,
	"eval_runtime": 21.8144,
	"eval_samples_per_second": 901.1,
	"eval_steps_per_second": 7.06,
	"step": 140
	},
	{
	"epoch": 0.01970108695652174,
	"eval_loss": 3.7521822452545166,
	"eval_runtime": 21.6841,
	"eval_samples_per_second": 906.516,
	"eval_steps_per_second": 7.102,
	"step": 145
	},
	{
	"epoch": 0.020380434782608696,
	"eval_loss": 3.652061700820923,
	"eval_runtime": 21.8254,
	"eval_samples_per_second": 900.648,
	"eval_steps_per_second": 7.056,
	"step": 150
	},
	{
	"epoch": 0.021059782608695652,
	"eval_loss": 3.5387539863586426,
	"eval_runtime": 21.8927,
	"eval_samples_per_second": 897.878,
	"eval_steps_per_second": 7.034,
	"step": 155
	},
	{
	"epoch": 0.021739130434782608,
	"eval_loss": 3.4114441871643066,
	"eval_runtime": 21.8999,
	"eval_samples_per_second": 897.585,
	"eval_steps_per_second": 7.032,
	"step": 160
	},
	{
	"epoch": 0.022418478260869564,
	"eval_loss": 3.2700562477111816,
	"eval_runtime": 22.0501,
	"eval_samples_per_second": 891.469,
	"eval_steps_per_second": 6.984,
	"step": 165
	},
	{
	"epoch": 0.02309782608695652,
	"eval_loss": 3.114734172821045,
	"eval_runtime": 21.7106,
	"eval_samples_per_second": 905.412,
	"eval_steps_per_second": 7.093,
	"step": 170
	},
	{
	"epoch": 0.02377717391304348,
	"eval_loss": 2.9471371173858643,
	"eval_runtime": 21.8419,
	"eval_samples_per_second": 899.966,
	"eval_steps_per_second": 7.051,
	"step": 175
	},
	{
	"epoch": 0.024456521739130436,
	"eval_loss": 2.7709779739379883,
	"eval_runtime": 21.8693,
	"eval_samples_per_second": 898.839,
	"eval_steps_per_second": 7.042,
	"step": 180
	},
	{
	"epoch": 0.025135869565217392,
	"eval_loss": 2.590932607650757,
	"eval_runtime": 22.0818,
	"eval_samples_per_second": 890.189,
	"eval_steps_per_second": 6.974,
	"step": 185
	},
	{
	"epoch": 0.025815217391304348,
	"eval_loss": 2.4126803874969482,
	"eval_runtime": 21.8508,
	"eval_samples_per_second": 899.601,
	"eval_steps_per_second": 7.048,
	"step": 190
	},
	{
	"epoch": 0.026494565217391304,
	"eval_loss": 2.243886947631836,
	"eval_runtime": 21.9268,
	"eval_samples_per_second": 896.483,
	"eval_steps_per_second": 7.023,
	"step": 195
	},
	{
	"epoch": 0.02717391304347826,
	"grad_norm": 25.208101272583008,
	"learning_rate": 9.057971014492754e-07,
	"loss": 3.6918,
	"step": 200
	},
	{
	"epoch": 0.02717391304347826,
	"eval_loss": 2.0869383811950684,
	"eval_runtime": 21.9994,
	"eval_samples_per_second": 893.524,
	"eval_steps_per_second": 7.0,
	"step": 200
	},
	{
	"epoch": 0.027853260869565216,
	"eval_loss": 1.9476724863052368,
	"eval_runtime": 21.8137,
	"eval_samples_per_second": 901.132,
	"eval_steps_per_second": 7.06,
	"step": 205
	},
	{
	"epoch": 0.028532608695652172,
	"eval_loss": 1.8273799419403076,
	"eval_runtime": 21.8665,
	"eval_samples_per_second": 898.954,
	"eval_steps_per_second": 7.043,
	"step": 210
	},
	{
	"epoch": 0.029211956521739132,
	"eval_loss": 1.71555495262146,
	"eval_runtime": 21.8011,
	"eval_samples_per_second": 901.651,
	"eval_steps_per_second": 7.064,
	"step": 215
	},
	{
	"epoch": 0.029891304347826088,
	"eval_loss": 1.621083378791809,
	"eval_runtime": 21.9545,
	"eval_samples_per_second": 895.354,
	"eval_steps_per_second": 7.015,
	"step": 220
	},
	{
	"epoch": 0.030570652173913044,
	"eval_loss": 1.5416371822357178,
	"eval_runtime": 21.6636,
	"eval_samples_per_second": 907.377,
	"eval_steps_per_second": 7.109,
	"step": 225
	},
	{
	"epoch": 0.03125,
	"eval_loss": 1.4732381105422974,
	"eval_runtime": 21.6731,
	"eval_samples_per_second": 906.976,
	"eval_steps_per_second": 7.106,
	"step": 230
	},
	{
	"epoch": 0.03192934782608696,
	"eval_loss": 1.417628288269043,
	"eval_runtime": 21.9177,
	"eval_samples_per_second": 896.857,
	"eval_steps_per_second": 7.026,
	"step": 235
	},
	{
	"epoch": 0.03260869565217391,
	"eval_loss": 1.3701567649841309,
	"eval_runtime": 22.0593,
	"eval_samples_per_second": 891.097,
	"eval_steps_per_second": 6.981,
	"step": 240
	},
	{
	"epoch": 0.03328804347826087,
	"eval_loss": 1.326924204826355,
	"eval_runtime": 21.7518,
	"eval_samples_per_second": 903.694,
	"eval_steps_per_second": 7.08,
	"step": 245
	},
	{
	"epoch": 0.033967391304347824,
	"eval_loss": 1.2892364263534546,
	"eval_runtime": 21.807,
	"eval_samples_per_second": 901.406,
	"eval_steps_per_second": 7.062,
	"step": 250
	},
	{
	"epoch": 0.034646739130434784,
	"eval_loss": 1.256325125694275,
	"eval_runtime": 21.977,
	"eval_samples_per_second": 894.436,
	"eval_steps_per_second": 7.007,
	"step": 255
	},
	{
	"epoch": 0.035326086956521736,
	"eval_loss": 1.2281286716461182,
	"eval_runtime": 21.9123,
	"eval_samples_per_second": 897.075,
	"eval_steps_per_second": 7.028,
	"step": 260
	},
	{
	"epoch": 0.036005434782608696,
	"eval_loss": 1.2023590803146362,
	"eval_runtime": 21.7217,
	"eval_samples_per_second": 904.947,
	"eval_steps_per_second": 7.09,
	"step": 265
	},
	{
	"epoch": 0.036684782608695655,
	"eval_loss": 1.1796302795410156,
	"eval_runtime": 21.8625,
	"eval_samples_per_second": 899.119,
	"eval_steps_per_second": 7.044,
	"step": 270
	},
	{
	"epoch": 0.03736413043478261,
	"eval_loss": 1.1600725650787354,
	"eval_runtime": 22.083,
	"eval_samples_per_second": 890.141,
	"eval_steps_per_second": 6.974,
	"step": 275
	},
	{
	"epoch": 0.03804347826086957,
	"eval_loss": 1.1428364515304565,
	"eval_runtime": 21.958,
	"eval_samples_per_second": 895.209,
	"eval_steps_per_second": 7.013,
	"step": 280
	},
	{
	"epoch": 0.03872282608695652,
	"eval_loss": 1.1271179914474487,
	"eval_runtime": 21.9261,
	"eval_samples_per_second": 896.511,
	"eval_steps_per_second": 7.024,
	"step": 285
	},
	{
	"epoch": 0.03940217391304348,
	"eval_loss": 1.1129034757614136,
	"eval_runtime": 21.8882,
	"eval_samples_per_second": 898.065,
	"eval_steps_per_second": 7.036,
	"step": 290
	},
	{
	"epoch": 0.04008152173913043,
	"eval_loss": 1.100168228149414,
	"eval_runtime": 21.8776,
	"eval_samples_per_second": 898.498,
	"eval_steps_per_second": 7.039,
	"step": 295
	},
	{
	"epoch": 0.04076086956521739,
	"grad_norm": 14.775556564331055,
	"learning_rate": 1.3586956521739131e-06,
	"loss": 1.7071,
	"step": 300
	},
	{
	"epoch": 0.04076086956521739,
	"eval_loss": 1.087642788887024,
	"eval_runtime": 21.8501,
	"eval_samples_per_second": 899.629,
	"eval_steps_per_second": 7.048,
	"step": 300
	},
	{
	"epoch": 0.041440217391304345,
	"eval_loss": 1.076054334640503,
	"eval_runtime": 21.9626,
	"eval_samples_per_second": 895.023,
	"eval_steps_per_second": 7.012,
	"step": 305
	},
	{
	"epoch": 0.042119565217391304,
	"eval_loss": 1.06575608253479,
	"eval_runtime": 22.0431,
	"eval_samples_per_second": 891.751,
	"eval_steps_per_second": 6.986,
	"step": 310
	},
	{
	"epoch": 0.042798913043478264,
	"eval_loss": 1.055428385734558,
	"eval_runtime": 21.9208,
	"eval_samples_per_second": 896.727,
	"eval_steps_per_second": 7.025,
	"step": 315
	},
	{
	"epoch": 0.043478260869565216,
	"eval_loss": 1.0457570552825928,
	"eval_runtime": 21.8629,
	"eval_samples_per_second": 899.103,
	"eval_steps_per_second": 7.044,
	"step": 320
	},
	{
	"epoch": 0.044157608695652176,
	"eval_loss": 1.0364974737167358,
	"eval_runtime": 21.8717,
	"eval_samples_per_second": 898.741,
	"eval_steps_per_second": 7.041,
	"step": 325
	},
	{
	"epoch": 0.04483695652173913,
	"eval_loss": 1.0275565385818481,
	"eval_runtime": 22.0891,
	"eval_samples_per_second": 889.895,
	"eval_steps_per_second": 6.972,
	"step": 330
	},
	{
	"epoch": 0.04551630434782609,
	"eval_loss": 1.0180351734161377,
	"eval_runtime": 21.8038,
	"eval_samples_per_second": 901.541,
	"eval_steps_per_second": 7.063,
	"step": 335
	},
	{
	"epoch": 0.04619565217391304,
	"eval_loss": 1.0085766315460205,
	"eval_runtime": 21.9023,
	"eval_samples_per_second": 897.484,
	"eval_steps_per_second": 7.031,
	"step": 340
	},
	{
	"epoch": 0.046875,
	"eval_loss": 0.9996482729911804,
	"eval_runtime": 21.6674,
	"eval_samples_per_second": 907.216,
	"eval_steps_per_second": 7.107,
	"step": 345
	},
	{
	"epoch": 0.04755434782608696,
	"eval_loss": 0.9920084476470947,
	"eval_runtime": 21.9122,
	"eval_samples_per_second": 897.081,
	"eval_steps_per_second": 7.028,
	"step": 350
	},
	{
	"epoch": 0.04823369565217391,
	"eval_loss": 0.9846301674842834,
	"eval_runtime": 21.8368,
	"eval_samples_per_second": 900.179,
	"eval_steps_per_second": 7.052,
	"step": 355
	},
	{
	"epoch": 0.04891304347826087,
	"eval_loss": 0.9782416820526123,
	"eval_runtime": 21.8836,
	"eval_samples_per_second": 898.252,
	"eval_steps_per_second": 7.037,
	"step": 360
	},
	{
	"epoch": 0.049592391304347824,
	"eval_loss": 0.9715093374252319,
	"eval_runtime": 22.0024,
	"eval_samples_per_second": 893.402,
	"eval_steps_per_second": 6.999,
	"step": 365
	},
	{
	"epoch": 0.050271739130434784,
	"eval_loss": 0.9640997648239136,
	"eval_runtime": 21.7358,
	"eval_samples_per_second": 904.359,
	"eval_steps_per_second": 7.085,
	"step": 370
	},
	{
	"epoch": 0.050951086956521736,
	"eval_loss": 0.9571502804756165,
	"eval_runtime": 21.7367,
	"eval_samples_per_second": 904.322,
	"eval_steps_per_second": 7.085,
	"step": 375
	},
	{
	"epoch": 0.051630434782608696,
	"eval_loss": 0.9503456950187683,
	"eval_runtime": 21.899,
	"eval_samples_per_second": 897.623,
	"eval_steps_per_second": 7.032,
	"step": 380
	},
	{
	"epoch": 0.052309782608695655,
	"eval_loss": 0.9444239139556885,
	"eval_runtime": 22.041,
	"eval_samples_per_second": 891.838,
	"eval_steps_per_second": 6.987,
	"step": 385
	},
	{
	"epoch": 0.05298913043478261,
	"eval_loss": 0.938381552696228,
	"eval_runtime": 21.867,
	"eval_samples_per_second": 898.934,
	"eval_steps_per_second": 7.043,
	"step": 390
	},
	{
	"epoch": 0.05366847826086957,
	"eval_loss": 0.932941734790802,
	"eval_runtime": 21.9262,
	"eval_samples_per_second": 896.508,
	"eval_steps_per_second": 7.024,
	"step": 395
	},
	{
	"epoch": 0.05434782608695652,
	"grad_norm": 12.524120330810547,
	"learning_rate": 1.8115942028985508e-06,
	"loss": 1.2083,
	"step": 400
	},
	{
	"epoch": 0.05434782608695652,
	"eval_loss": 0.9275586009025574,
	"eval_runtime": 21.8696,
	"eval_samples_per_second": 898.826,
	"eval_steps_per_second": 7.042,
	"step": 400
	},
	{
	"epoch": 0.05502717391304348,
	"eval_loss": 0.9220263957977295,
	"eval_runtime": 22.0053,
	"eval_samples_per_second": 893.286,
	"eval_steps_per_second": 6.998,
	"step": 405
	},
	{
	"epoch": 0.05570652173913043,
	"eval_loss": 0.9166238903999329,
	"eval_runtime": 21.8627,
	"eval_samples_per_second": 899.109,
	"eval_steps_per_second": 7.044,
	"step": 410
	},
	{
	"epoch": 0.05638586956521739,
	"eval_loss": 0.9113851189613342,
	"eval_runtime": 21.8548,
	"eval_samples_per_second": 899.437,
	"eval_steps_per_second": 7.047,
	"step": 415
	},
	{
	"epoch": 0.057065217391304345,
	"eval_loss": 0.906219482421875,
	"eval_runtime": 21.9972,
	"eval_samples_per_second": 893.614,
	"eval_steps_per_second": 7.001,
	"step": 420
	},
	{
	"epoch": 0.057744565217391304,
	"eval_loss": 0.9006016850471497,
	"eval_runtime": 21.7635,
	"eval_samples_per_second": 903.21,
	"eval_steps_per_second": 7.076,
	"step": 425
	},
	{
	"epoch": 0.058423913043478264,
	"eval_loss": 0.896024763584137,
	"eval_runtime": 21.8923,
	"eval_samples_per_second": 897.895,
	"eval_steps_per_second": 7.034,
	"step": 430
	},
	{
	"epoch": 0.059103260869565216,
	"eval_loss": 0.8931179642677307,
	"eval_runtime": 21.8314,
	"eval_samples_per_second": 900.398,
	"eval_steps_per_second": 7.054,
	"step": 435
	},
	{
	"epoch": 0.059782608695652176,
	"eval_loss": 0.8903534412384033,
	"eval_runtime": 22.0255,
	"eval_samples_per_second": 892.465,
	"eval_steps_per_second": 6.992,
	"step": 440
	},
	{
	"epoch": 0.06046195652173913,
	"eval_loss": 0.8864532709121704,
	"eval_runtime": 21.7658,
	"eval_samples_per_second": 903.114,
	"eval_steps_per_second": 7.075,
	"step": 445
	},
	{
	"epoch": 0.06114130434782609,
	"eval_loss": 0.8822493553161621,
	"eval_runtime": 21.7539,
	"eval_samples_per_second": 903.609,
	"eval_steps_per_second": 7.079,
	"step": 450
	}
	],
	"logging_steps": 100,
	"max_steps": 22080,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 5,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 128,
	"trial_name": null,
	"trial_params": null
	}