test-sft-prd / trainer_state.json

Upload folder using huggingface_hub

3bbb5bc verified about 1 month ago

10.5 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 3.0,
	"eval_steps": 50,
	"global_step": 477,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"entropy": 1.9739606760442256,
	"epoch": 0.12598425196850394,
	"grad_norm": 0.968841016292572,
	"learning_rate": 7.6e-05,
	"loss": 2.2682,
	"mean_token_accuracy": 0.5962976351380348,
	"num_tokens": 99995.0,
	"step": 20
	},
	{
	"entropy": 0.9236388027667999,
	"epoch": 0.25196850393700787,
	"grad_norm": 0.30187129974365234,
	"learning_rate": 0.00015600000000000002,
	"loss": 0.9381,
	"mean_token_accuracy": 0.7860403966158629,
	"num_tokens": 200771.0,
	"step": 40
	},
	{
	"epoch": 0.31496062992125984,
	"eval_entropy": 0.7079527728587577,
	"eval_loss": 0.6960555911064148,
	"eval_mean_token_accuracy": 0.8306159124059497,
	"eval_num_tokens": 251130.0,
	"eval_runtime": 45.7017,
	"eval_samples_per_second": 13.894,
	"eval_steps_per_second": 6.958,
	"step": 50
	},
	{
	"entropy": 0.7168553218245506,
	"epoch": 0.3779527559055118,
	"grad_norm": 0.28825637698173523,
	"learning_rate": 0.0001997808505782075,
	"loss": 0.7182,
	"mean_token_accuracy": 0.8267303571105004,
	"num_tokens": 300943.0,
	"step": 60
	},
	{
	"entropy": 0.647084547393024,
	"epoch": 0.5039370078740157,
	"grad_norm": 0.3307661712169647,
	"learning_rate": 0.00019773242425416768,
	"loss": 0.6472,
	"mean_token_accuracy": 0.8401378501206637,
	"num_tokens": 401448.0,
	"step": 80
	},
	{
	"entropy": 0.6049567876383662,
	"epoch": 0.6299212598425197,
	"grad_norm": 0.3357570469379425,
	"learning_rate": 0.00019357168190404936,
	"loss": 0.6097,
	"mean_token_accuracy": 0.8464727878570557,
	"num_tokens": 501464.0,
	"step": 100
	},
	{
	"epoch": 0.6299212598425197,
	"eval_entropy": 0.60639403676087,
	"eval_loss": 0.5814101696014404,
	"eval_mean_token_accuracy": 0.8527061408795651,
	"eval_num_tokens": 501464.0,
	"eval_runtime": 45.6184,
	"eval_samples_per_second": 13.92,
	"eval_steps_per_second": 6.971,
	"step": 100
	},
	{
	"entropy": 0.580510495044291,
	"epoch": 0.7559055118110236,
	"grad_norm": 0.35506585240364075,
	"learning_rate": 0.0001873885507225743,
	"loss": 0.5852,
	"mean_token_accuracy": 0.8522923283278943,
	"num_tokens": 602072.0,
	"step": 120
	},
	{
	"entropy": 0.5525572836399079,
	"epoch": 0.8818897637795275,
	"grad_norm": 0.3671925663948059,
	"learning_rate": 0.00017931666831451536,
	"loss": 0.5538,
	"mean_token_accuracy": 0.8564509227871895,
	"num_tokens": 701808.0,
	"step": 140
	},
	{
	"epoch": 0.9448818897637795,
	"eval_entropy": 0.5495308028452052,
	"eval_loss": 0.5309950113296509,
	"eval_mean_token_accuracy": 0.8605339890755948,
	"eval_num_tokens": 751756.0,
	"eval_runtime": 46.259,
	"eval_samples_per_second": 13.727,
	"eval_steps_per_second": 6.874,
	"step": 150
	},
	{
	"entropy": 0.5359916405964501,
	"epoch": 1.0062992125984251,
	"grad_norm": 0.3443862497806549,
	"learning_rate": 0.0001695304943507677,
	"loss": 0.5351,
	"mean_token_accuracy": 0.8600816813450826,
	"num_tokens": 800169.0,
	"step": 160
	},
	{
	"entropy": 0.47207170017063615,
	"epoch": 1.132283464566929,
	"grad_norm": 0.4181714951992035,
	"learning_rate": 0.0001582415399266036,
	"loss": 0.4724,
	"mean_token_accuracy": 0.8726930443197489,
	"num_tokens": 899852.0,
	"step": 180
	},
	{
	"entropy": 0.4565439449623227,
	"epoch": 1.258267716535433,
	"grad_norm": 0.45549947023391724,
	"learning_rate": 0.00014569379611796137,
	"loss": 0.4599,
	"mean_token_accuracy": 0.875334644690156,
	"num_tokens": 999653.0,
	"step": 200
	},
	{
	"epoch": 1.258267716535433,
	"eval_entropy": 0.4601464904141876,
	"eval_loss": 0.5056809782981873,
	"eval_mean_token_accuracy": 0.8665201171014294,
	"eval_num_tokens": 999653.0,
	"eval_runtime": 45.7221,
	"eval_samples_per_second": 13.888,
	"eval_steps_per_second": 6.955,
	"step": 200
	},
	{
	"entropy": 0.4486727064475417,
	"epoch": 1.384251968503937,
	"grad_norm": 0.4510684311389923,
	"learning_rate": 0.00013215846053955683,
	"loss": 0.4513,
	"mean_token_accuracy": 0.878431486710906,
	"num_tokens": 1100570.0,
	"step": 220
	},
	{
	"entropy": 0.4511976413428783,
	"epoch": 1.510236220472441,
	"grad_norm": 0.44284847378730774,
	"learning_rate": 0.00011792807588107357,
	"loss": 0.4521,
	"mean_token_accuracy": 0.8780730802565813,
	"num_tokens": 1201178.0,
	"step": 240
	},
	{
	"epoch": 1.573228346456693,
	"eval_entropy": 0.46230017211077346,
	"eval_loss": 0.4856663942337036,
	"eval_mean_token_accuracy": 0.8700332990232503,
	"eval_num_tokens": 1251074.0,
	"eval_runtime": 45.5388,
	"eval_samples_per_second": 13.944,
	"eval_steps_per_second": 6.983,
	"step": 250
	},
	{
	"entropy": 0.451329773850739,
	"epoch": 1.6362204724409448,
	"grad_norm": 0.4431185722351074,
	"learning_rate": 0.00010331020710675729,
	"loss": 0.4531,
	"mean_token_accuracy": 0.8772743601351977,
	"num_tokens": 1301346.0,
	"step": 260
	},
	{
	"entropy": 0.42816779650747777,
	"epoch": 1.762204724409449,
	"grad_norm": 0.45769160985946655,
	"learning_rate": 8.862079397472553e-05,
	"loss": 0.4285,
	"mean_token_accuracy": 0.8827753882855177,
	"num_tokens": 1401547.0,
	"step": 280
	},
	{
	"entropy": 0.4320015098899603,
	"epoch": 1.8881889763779527,
	"grad_norm": 0.44558027386665344,
	"learning_rate": 7.417732254970317e-05,
	"loss": 0.4326,
	"mean_token_accuracy": 0.8826998364180326,
	"num_tokens": 1502107.0,
	"step": 300
	},
	{
	"epoch": 1.8881889763779527,
	"eval_entropy": 0.42231335453454805,
	"eval_loss": 0.4666292071342468,
	"eval_mean_token_accuracy": 0.875962255885766,
	"eval_num_tokens": 1502107.0,
	"eval_runtime": 46.1255,
	"eval_samples_per_second": 13.767,
	"eval_steps_per_second": 6.894,
	"step": 300
	},
	{
	"entropy": 0.4177426643009427,
	"epoch": 2.0125984251968503,
	"grad_norm": 0.42371708154678345,
	"learning_rate": 6.0291963295035484e-05,
	"loss": 0.4157,
	"mean_token_accuracy": 0.8861905902246886,
	"num_tokens": 1600674.0,
	"step": 320
	},
	{
	"entropy": 0.3515403226017952,
	"epoch": 2.1385826771653544,
	"grad_norm": 0.5003436803817749,
	"learning_rate": 4.726482405216125e-05,
	"loss": 0.3405,
	"mean_token_accuracy": 0.9042681198567152,
	"num_tokens": 1700569.0,
	"step": 340
	},
	{
	"epoch": 2.2015748031496063,
	"eval_entropy": 0.3585739609955242,
	"eval_loss": 0.46917417645454407,
	"eval_mean_token_accuracy": 0.8779247264442204,
	"eval_num_tokens": 1750522.0,
	"eval_runtime": 46.0421,
	"eval_samples_per_second": 13.792,
	"eval_steps_per_second": 6.907,
	"step": 350
	},
	{
	"entropy": 0.33075640462338923,
	"epoch": 2.264566929133858,
	"grad_norm": 0.5350939035415649,
	"learning_rate": 3.537746373263589e-05,
	"loss": 0.3258,
	"mean_token_accuracy": 0.9079407677054405,
	"num_tokens": 1800230.0,
	"step": 360
	},
	{
	"entropy": 0.3440810150466859,
	"epoch": 2.3905511811023623,
	"grad_norm": 0.5540388822555542,
	"learning_rate": 2.4886806912948035e-05,
	"loss": 0.3391,
	"mean_token_accuracy": 0.9038707241415977,
	"num_tokens": 1900074.0,
	"step": 380
	},
	{
	"entropy": 0.3350882642902434,
	"epoch": 2.516535433070866,
	"grad_norm": 0.630711019039154,
	"learning_rate": 1.601959085755641e-05,
	"loss": 0.3338,
	"mean_token_accuracy": 0.9055462963879108,
	"num_tokens": 2000844.0,
	"step": 400
	},
	{
	"epoch": 2.516535433070866,
	"eval_entropy": 0.3513495825559088,
	"eval_loss": 0.46354979276657104,
	"eval_mean_token_accuracy": 0.8799726563804554,
	"eval_num_tokens": 2000844.0,
	"eval_runtime": 45.6998,
	"eval_samples_per_second": 13.895,
	"eval_steps_per_second": 6.958,
	"step": 400
	},
	{
	"entropy": 0.3295320746488869,
	"epoch": 2.64251968503937,
	"grad_norm": 0.5727705359458923,
	"learning_rate": 8.967464988067475e-06,
	"loss": 0.3217,
	"mean_token_accuracy": 0.9084840539842844,
	"num_tokens": 2100721.0,
	"step": 420
	},
	{
	"entropy": 0.3233298393897712,
	"epoch": 2.768503937007874,
	"grad_norm": 0.5514662265777588,
	"learning_rate": 3.882848714986243e-06,
	"loss": 0.3262,
	"mean_token_accuracy": 0.9086818728595972,
	"num_tokens": 2201603.0,
	"step": 440
	},
	{
	"epoch": 2.8314960629921258,
	"eval_entropy": 0.34981531504565067,
	"eval_loss": 0.4621703028678894,
	"eval_mean_token_accuracy": 0.8799344349957112,
	"eval_num_tokens": 2251922.0,
	"eval_runtime": 46.0709,
	"eval_samples_per_second": 13.783,
	"eval_steps_per_second": 6.902,
	"step": 450
	},
	{
	"entropy": 0.32763075120747087,
	"epoch": 2.894488188976378,
	"grad_norm": 0.5462954044342041,
	"learning_rate": 8.75637157788689e-07,
	"loss": 0.3236,
	"mean_token_accuracy": 0.9094593167304993,
	"num_tokens": 2301918.0,
	"step": 460
	}
	],
	"logging_steps": 20,
	"max_steps": 477,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 200,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1.2172041861270528e+17,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}