large_cooking_sft_success / trainer_state.json

End of training

6c2f2de verified 10 months ago

10.7 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.9982174688057041,
	"eval_steps": 50,
	"global_step": 455,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.021938845468257234,
	"grad_norm": 12.424902582474958,
	"learning_rate": 2.173913043478261e-06,
	"loss": 0.7081,
	"step": 10
	},
	{
	"epoch": 0.04387769093651447,
	"grad_norm": 6.0713141624709825,
	"learning_rate": 4.347826086956522e-06,
	"loss": 0.4726,
	"step": 20
	},
	{
	"epoch": 0.0658165364047717,
	"grad_norm": 4.512954928350966,
	"learning_rate": 6.521739130434783e-06,
	"loss": 0.4235,
	"step": 30
	},
	{
	"epoch": 0.08775538187302893,
	"grad_norm": 4.603276515046331,
	"learning_rate": 8.695652173913044e-06,
	"loss": 0.4008,
	"step": 40
	},
	{
	"epoch": 0.10969422734128617,
	"grad_norm": 3.7910168149721177,
	"learning_rate": 9.997640179574575e-06,
	"loss": 0.397,
	"step": 50
	},
	{
	"epoch": 0.10969422734128617,
	"eval_loss": 0.41209444403648376,
	"eval_runtime": 29.5871,
	"eval_samples_per_second": 40.254,
	"eval_steps_per_second": 5.036,
	"step": 50
	},
	{
	"epoch": 0.1316330728095434,
	"grad_norm": 3.728999125026244,
	"learning_rate": 9.971117774604978e-06,
	"loss": 0.3871,
	"step": 60
	},
	{
	"epoch": 0.15357191827780062,
	"grad_norm": 3.6715336556817135,
	"learning_rate": 9.915280116903003e-06,
	"loss": 0.3919,
	"step": 70
	},
	{
	"epoch": 0.17551076374605787,
	"grad_norm": 3.4605871577349556,
	"learning_rate": 9.83045648755225e-06,
	"loss": 0.3879,
	"step": 80
	},
	{
	"epoch": 0.1974496092143151,
	"grad_norm": 3.3517597500433443,
	"learning_rate": 9.717147101241817e-06,
	"loss": 0.3855,
	"step": 90
	},
	{
	"epoch": 0.21938845468257234,
	"grad_norm": 3.1582377924524576,
	"learning_rate": 9.576020156442802e-06,
	"loss": 0.3805,
	"step": 100
	},
	{
	"epoch": 0.21938845468257234,
	"eval_loss": 0.37224116921424866,
	"eval_runtime": 29.5341,
	"eval_samples_per_second": 40.326,
	"eval_steps_per_second": 5.045,
	"step": 100
	},
	{
	"epoch": 0.24132730015082957,
	"grad_norm": 2.837036752154941,
	"learning_rate": 9.407907894965138e-06,
	"loss": 0.374,
	"step": 110
	},
	{
	"epoch": 0.2632661456190868,
	"grad_norm": 2.724521510718504,
	"learning_rate": 9.213801694132014e-06,
	"loss": 0.3719,
	"step": 120
	},
	{
	"epoch": 0.28520499108734404,
	"grad_norm": 2.725360946601145,
	"learning_rate": 8.994846220513872e-06,
	"loss": 0.3592,
	"step": 130
	},
	{
	"epoch": 0.30714383655560124,
	"grad_norm": 2.6787727140455337,
	"learning_rate": 8.752332679698128e-06,
	"loss": 0.354,
	"step": 140
	},
	{
	"epoch": 0.3290826820238585,
	"grad_norm": 2.63208682146886,
	"learning_rate": 8.48769120190144e-06,
	"loss": 0.3544,
	"step": 150
	},
	{
	"epoch": 0.3290826820238585,
	"eval_loss": 0.3495293855667114,
	"eval_runtime": 29.5877,
	"eval_samples_per_second": 40.253,
	"eval_steps_per_second": 5.036,
	"step": 150
	},
	{
	"epoch": 0.35102152749211574,
	"grad_norm": 2.7602877709225853,
	"learning_rate": 8.202482408327496e-06,
	"loss": 0.3444,
	"step": 160
	},
	{
	"epoch": 0.372960372960373,
	"grad_norm": 2.575707765912064,
	"learning_rate": 7.898388208004449e-06,
	"loss": 0.3495,
	"step": 170
	},
	{
	"epoch": 0.3948992184286302,
	"grad_norm": 2.5241416019820315,
	"learning_rate": 7.577201879374114e-06,
	"loss": 0.3541,
	"step": 180
	},
	{
	"epoch": 0.41683806389688743,
	"grad_norm": 2.8793232091254084,
	"learning_rate": 7.240817495122936e-06,
	"loss": 0.3475,
	"step": 190
	},
	{
	"epoch": 0.4387769093651447,
	"grad_norm": 2.4866688274538125,
	"learning_rate": 6.891218752617715e-06,
	"loss": 0.3297,
	"step": 200
	},
	{
	"epoch": 0.4387769093651447,
	"eval_loss": 0.32541003823280334,
	"eval_runtime": 29.5409,
	"eval_samples_per_second": 40.317,
	"eval_steps_per_second": 5.044,
	"step": 200
	},
	{
	"epoch": 0.4607157548334019,
	"grad_norm": 2.6691402545735836,
	"learning_rate": 6.5304672758143014e-06,
	"loss": 0.3257,
	"step": 210
	},
	{
	"epoch": 0.48265460030165913,
	"grad_norm": 2.349476417183144,
	"learning_rate": 6.160690457624223e-06,
	"loss": 0.3238,
	"step": 220
	},
	{
	"epoch": 0.5045934457699164,
	"grad_norm": 2.5946728592046124,
	"learning_rate": 5.784068914434239e-06,
	"loss": 0.3351,
	"step": 230
	},
	{
	"epoch": 0.5265322912381736,
	"grad_norm": 2.477858154523217,
	"learning_rate": 5.40282362676094e-06,
	"loss": 0.3335,
	"step": 240
	},
	{
	"epoch": 0.5484711367064308,
	"grad_norm": 2.575851491571078,
	"learning_rate": 5.019202841873434e-06,
	"loss": 0.3254,
	"step": 250
	},
	{
	"epoch": 0.5484711367064308,
	"eval_loss": 0.30290254950523376,
	"eval_runtime": 29.5608,
	"eval_samples_per_second": 40.29,
	"eval_steps_per_second": 5.04,
	"step": 250
	},
	{
	"epoch": 0.5704099821746881,
	"grad_norm": 2.3674747360086337,
	"learning_rate": 4.635468815620862e-06,
	"loss": 0.3095,
	"step": 260
	},
	{
	"epoch": 0.5923488276429453,
	"grad_norm": 2.5587459409819946,
	"learning_rate": 4.2538844716497075e-06,
	"loss": 0.3172,
	"step": 270
	},
	{
	"epoch": 0.6142876731112025,
	"grad_norm": 2.244319397718011,
	"learning_rate": 3.876700056683026e-06,
	"loss": 0.3107,
	"step": 280
	},
	{
	"epoch": 0.6362265185794598,
	"grad_norm": 2.0256188861398825,
	"learning_rate": 3.5061398705569544e-06,
	"loss": 0.3037,
	"step": 290
	},
	{
	"epoch": 0.658165364047717,
	"grad_norm": 2.4556781164203523,
	"learning_rate": 3.144389149268983e-06,
	"loss": 0.3241,
	"step": 300
	},
	{
	"epoch": 0.658165364047717,
	"eval_loss": 0.2885204553604126,
	"eval_runtime": 29.5254,
	"eval_samples_per_second": 40.338,
	"eval_steps_per_second": 5.046,
	"step": 300
	},
	{
	"epoch": 0.6801042095159742,
	"grad_norm": 2.449660334538155,
	"learning_rate": 2.7935811783901878e-06,
	"loss": 0.3017,
	"step": 310
	},
	{
	"epoch": 0.7020430549842315,
	"grad_norm": 2.2258709329717057,
	"learning_rate": 2.455784712835084e-06,
	"loss": 0.2913,
	"step": 320
	},
	{
	"epoch": 0.7239819004524887,
	"grad_norm": 2.248993483635239,
	"learning_rate": 2.1329917771761806e-06,
	"loss": 0.2879,
	"step": 330
	},
	{
	"epoch": 0.745920745920746,
	"grad_norm": 2.4165452193734747,
	"learning_rate": 1.8271059184461781e-06,
	"loss": 0.2834,
	"step": 340
	},
	{
	"epoch": 0.7678595913890032,
	"grad_norm": 2.3889927116481604,
	"learning_rate": 1.5399309807023942e-06,
	"loss": 0.2974,
	"step": 350
	},
	{
	"epoch": 0.7678595913890032,
	"eval_loss": 0.2725418210029602,
	"eval_runtime": 29.5299,
	"eval_samples_per_second": 40.332,
	"eval_steps_per_second": 5.046,
	"step": 350
	},
	{
	"epoch": 0.7897984368572604,
	"grad_norm": 2.2089674082836384,
	"learning_rate": 1.2731604675510729e-06,
	"loss": 0.2943,
	"step": 360
	},
	{
	"epoch": 0.8117372823255177,
	"grad_norm": 2.4017649981453264,
	"learning_rate": 1.0283675553620281e-06,
	"loss": 0.2862,
	"step": 370
	},
	{
	"epoch": 0.8336761277937749,
	"grad_norm": 2.4373610476244862,
	"learning_rate": 8.069958160668256e-07,
	"loss": 0.286,
	"step": 380
	},
	{
	"epoch": 0.8556149732620321,
	"grad_norm": 2.18553733016173,
	"learning_rate": 6.10350704249219e-07,
	"loss": 0.2816,
	"step": 390
	},
	{
	"epoch": 0.8775538187302894,
	"grad_norm": 2.3150792762293495,
	"learning_rate": 4.3959185872947007e-07,
	"loss": 0.2823,
	"step": 400
	},
	{
	"epoch": 0.8775538187302894,
	"eval_loss": 0.2639661431312561,
	"eval_runtime": 29.5407,
	"eval_samples_per_second": 40.317,
	"eval_steps_per_second": 5.044,
	"step": 400
	},
	{
	"epoch": 0.8994926641985466,
	"grad_norm": 2.4147809022722053,
	"learning_rate": 2.9572626404096915e-07,
	"loss": 0.2798,
	"step": 410
	},
	{
	"epoch": 0.9214315096668038,
	"grad_norm": 2.4693641028993185,
	"learning_rate": 1.7960231212674095e-07,
	"loss": 0.2736,
	"step": 420
	},
	{
	"epoch": 0.9433703551350611,
	"grad_norm": 2.5200198676740615,
	"learning_rate": 9.190479927466023e-08,
	"loss": 0.2777,
	"step": 430
	},
	{
	"epoch": 0.9653092006033183,
	"grad_norm": 2.0981819100598966,
	"learning_rate": 3.315088779506259e-08,
	"loss": 0.2742,
	"step": 440
	},
	{
	"epoch": 0.9872480460715755,
	"grad_norm": 2.280993150561446,
	"learning_rate": 3.6870562551699627e-09,
	"loss": 0.2761,
	"step": 450
	},
	{
	"epoch": 0.9872480460715755,
	"eval_loss": 0.26167768239974976,
	"eval_runtime": 29.5714,
	"eval_samples_per_second": 40.275,
	"eval_steps_per_second": 5.039,
	"step": 450
	},
	{
	"epoch": 0.9982174688057041,
	"step": 455,
	"total_flos": 230099756515328.0,
	"train_loss": 0.34066918446467476,
	"train_runtime": 6191.927,
	"train_samples_per_second": 9.423,
	"train_steps_per_second": 0.073
	}
	],
	"logging_steps": 10,
	"max_steps": 455,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 230099756515328.0,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}