sla_cpt / trainer_state.json

Upload folder using huggingface_hub

e81bbde verified 5 months ago

11.7 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 3.0,
	"eval_steps": 500,
	"global_step": 126,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.023827252419955324,
	"grad_norm": 27.642908096313477,
	"learning_rate": 0.0,
	"loss": 3.3263,
	"step": 1
	},
	{
	"epoch": 0.04765450483991065,
	"grad_norm": 29.03249740600586,
	"learning_rate": 2.8571428571428573e-06,
	"loss": 3.393,
	"step": 2
	},
	{
	"epoch": 0.0953090096798213,
	"grad_norm": 4.636140823364258,
	"learning_rate": 8.571428571428571e-06,
	"loss": 2.6817,
	"step": 4
	},
	{
	"epoch": 0.14296351451973194,
	"grad_norm": 4.222386360168457,
	"learning_rate": 1.4285714285714287e-05,
	"loss": 2.5385,
	"step": 6
	},
	{
	"epoch": 0.1906180193596426,
	"grad_norm": 3.460394859313965,
	"learning_rate": 2e-05,
	"loss": 2.352,
	"step": 8
	},
	{
	"epoch": 0.23827252419955325,
	"grad_norm": 3.7368428707122803,
	"learning_rate": 1.998606410321534e-05,
	"loss": 2.1794,
	"step": 10
	},
	{
	"epoch": 0.2859270290394639,
	"grad_norm": 2.6725502014160156,
	"learning_rate": 1.9944295254705187e-05,
	"loss": 2.043,
	"step": 12
	},
	{
	"epoch": 0.33358153387937456,
	"grad_norm": 2.636101484298706,
	"learning_rate": 1.9874809871741877e-05,
	"loss": 1.8958,
	"step": 14
	},
	{
	"epoch": 0.3812360387192852,
	"grad_norm": 2.869380474090576,
	"learning_rate": 1.977780162255041e-05,
	"loss": 1.8137,
	"step": 16
	},
	{
	"epoch": 0.4288905435591958,
	"grad_norm": 2.8045756816864014,
	"learning_rate": 1.9653540886520387e-05,
	"loss": 1.7214,
	"step": 18
	},
	{
	"epoch": 0.4765450483991065,
	"grad_norm": 1.602889060974121,
	"learning_rate": 1.9502374000610152e-05,
	"loss": 1.6312,
	"step": 20
	},
	{
	"epoch": 0.5241995532390171,
	"grad_norm": 2.921908378601074,
	"learning_rate": 1.932472229404356e-05,
	"loss": 1.5755,
	"step": 22
	},
	{
	"epoch": 0.5718540580789278,
	"grad_norm": 3.2532429695129395,
	"learning_rate": 1.912108091398988e-05,
	"loss": 1.5273,
	"step": 24
	},
	{
	"epoch": 0.6195085629188384,
	"grad_norm": 2.755262613296509,
	"learning_rate": 1.8892017445499812e-05,
	"loss": 1.4395,
	"step": 26
	},
	{
	"epoch": 0.6671630677587491,
	"grad_norm": 2.0402467250823975,
	"learning_rate": 1.8638170329544164e-05,
	"loss": 1.4345,
	"step": 28
	},
	{
	"epoch": 0.7148175725986597,
	"grad_norm": 2.27799129486084,
	"learning_rate": 1.8360247083564343e-05,
	"loss": 1.3749,
	"step": 30
	},
	{
	"epoch": 0.7624720774385704,
	"grad_norm": 1.5731786489486694,
	"learning_rate": 1.805902232949435e-05,
	"loss": 1.28,
	"step": 32
	},
	{
	"epoch": 0.810126582278481,
	"grad_norm": 2.364778757095337,
	"learning_rate": 1.773533563475053e-05,
	"loss": 1.2666,
	"step": 34
	},
	{
	"epoch": 0.8577810871183916,
	"grad_norm": 1.5619275569915771,
	"learning_rate": 1.7390089172206594e-05,
	"loss": 1.2227,
	"step": 36
	},
	{
	"epoch": 0.9054355919583023,
	"grad_norm": 1.949645757675171,
	"learning_rate": 1.7024245205675986e-05,
	"loss": 1.1678,
	"step": 38
	},
	{
	"epoch": 0.953090096798213,
	"grad_norm": 1.5181773900985718,
	"learning_rate": 1.6638823407910085e-05,
	"loss": 1.1625,
	"step": 40
	},
	{
	"epoch": 1.0,
	"grad_norm": 1.2812515497207642,
	"learning_rate": 1.6234898018587336e-05,
	"loss": 1.1757,
	"step": 42
	},
	{
	"epoch": 1.0476545048399106,
	"grad_norm": 1.1844559907913208,
	"learning_rate": 1.58135948502146e-05,
	"loss": 1.1938,
	"step": 44
	},
	{
	"epoch": 1.0953090096798213,
	"grad_norm": 0.7573416233062744,
	"learning_rate": 1.5376088150285777e-05,
	"loss": 1.157,
	"step": 46
	},
	{
	"epoch": 1.1429635145197319,
	"grad_norm": 0.7566890120506287,
	"learning_rate": 1.4923597328443423e-05,
	"loss": 1.1033,
	"step": 48
	},
	{
	"epoch": 1.1906180193596425,
	"grad_norm": 0.7004701495170593,
	"learning_rate": 1.4457383557765385e-05,
	"loss": 1.1247,
	"step": 50
	},
	{
	"epoch": 1.2382725241995534,
	"grad_norm": 0.9414187669754028,
	"learning_rate": 1.397874625964921e-05,
	"loss": 1.0881,
	"step": 52
	},
	{
	"epoch": 1.2859270290394638,
	"grad_norm": 0.6709342002868652,
	"learning_rate": 1.348901948209167e-05,
	"loss": 1.0797,
	"step": 54
	},
	{
	"epoch": 1.3335815338793746,
	"grad_norm": 0.8439044952392578,
	"learning_rate": 1.2989568181457704e-05,
	"loss": 1.0723,
	"step": 56
	},
	{
	"epoch": 1.3812360387192852,
	"grad_norm": 0.4865539073944092,
	"learning_rate": 1.248178441810224e-05,
	"loss": 1.0495,
	"step": 58
	},
	{
	"epoch": 1.4288905435591959,
	"grad_norm": 0.5796261429786682,
	"learning_rate": 1.1967083476448282e-05,
	"loss": 1.0648,
	"step": 60
	},
	{
	"epoch": 1.4765450483991065,
	"grad_norm": 0.6459540128707886,
	"learning_rate": 1.1446899920335407e-05,
	"loss": 1.0539,
	"step": 62
	},
	{
	"epoch": 1.5241995532390171,
	"grad_norm": 0.41356927156448364,
	"learning_rate": 1.092268359463302e-05,
	"loss": 1.0292,
	"step": 64
	},
	{
	"epoch": 1.5718540580789278,
	"grad_norm": 0.45745816826820374,
	"learning_rate": 1.0395895584262696e-05,
	"loss": 1.002,
	"step": 66
	},
	{
	"epoch": 1.6195085629188384,
	"grad_norm": 0.4945538640022278,
	"learning_rate": 9.868004141892412e-06,
	"loss": 1.0291,
	"step": 68
	},
	{
	"epoch": 1.6671630677587492,
	"grad_norm": 0.4044688045978546,
	"learning_rate": 9.340480595653047e-06,
	"loss": 1.0213,
	"step": 70
	},
	{
	"epoch": 1.7148175725986596,
	"grad_norm": 0.40503114461898804,
	"learning_rate": 8.814795248282974e-06,
	"loss": 1.0027,
	"step": 72
	},
	{
	"epoch": 1.7624720774385705,
	"grad_norm": 0.409345805644989,
	"learning_rate": 8.292413279130625e-06,
	"loss": 1.0292,
	"step": 74
	},
	{
	"epoch": 1.810126582278481,
	"grad_norm": 0.3667221963405609,
	"learning_rate": 7.774790660436857e-06,
	"loss": 0.9908,
	"step": 76
	},
	{
	"epoch": 1.8577810871183917,
	"grad_norm": 0.37784790992736816,
	"learning_rate": 7.263370099279173e-06,
	"loss": 1.0006,
	"step": 78
	},
	{
	"epoch": 1.9054355919583021,
	"grad_norm": 0.33597901463508606,
	"learning_rate": 6.759577016488343e-06,
	"loss": 0.9708,
	"step": 80
	},
	{
	"epoch": 1.953090096798213,
	"grad_norm": 0.37733909487724304,
	"learning_rate": 6.264815573744884e-06,
	"loss": 0.9695,
	"step": 82
	},
	{
	"epoch": 2.0,
	"grad_norm": 0.32598474621772766,
	"learning_rate": 5.780464759928623e-06,
	"loss": 1.0016,
	"step": 84
	},
	{
	"epoch": 2.047654504839911,
	"grad_norm": 0.3468402922153473,
	"learning_rate": 5.307874547629339e-06,
	"loss": 0.9625,
	"step": 86
	},
	{
	"epoch": 2.0953090096798213,
	"grad_norm": 0.3330307602882385,
	"learning_rate": 4.848362130531039e-06,
	"loss": 0.9447,
	"step": 88
	},
	{
	"epoch": 2.142963514519732,
	"grad_norm": 0.33839651942253113,
	"learning_rate": 4.403208252156921e-06,
	"loss": 0.9482,
	"step": 90
	},
	{
	"epoch": 2.1906180193596425,
	"grad_norm": 0.3227793276309967,
	"learning_rate": 3.973653636207437e-06,
	"loss": 0.979,
	"step": 92
	},
	{
	"epoch": 2.2382725241995534,
	"grad_norm": 0.33203473687171936,
	"learning_rate": 3.560895528440844e-06,
	"loss": 0.9626,
	"step": 94
	},
	{
	"epoch": 2.2859270290394638,
	"grad_norm": 0.29434484243392944,
	"learning_rate": 3.1660843597345137e-06,
	"loss": 0.9814,
	"step": 96
	},
	{
	"epoch": 2.3335815338793746,
	"grad_norm": 0.2951570451259613,
	"learning_rate": 2.7903205396277546e-06,
	"loss": 0.9368,
	"step": 98
	},
	{
	"epoch": 2.381236038719285,
	"grad_norm": 0.3088631331920624,
	"learning_rate": 2.4346513892830427e-06,
	"loss": 0.952,
	"step": 100
	},
	{
	"epoch": 2.428890543559196,
	"grad_norm": 0.3212229609489441,
	"learning_rate": 2.100068222414121e-06,
	"loss": 0.924,
	"step": 102
	},
	{
	"epoch": 2.4765450483991067,
	"grad_norm": 0.28245487809181213,
	"learning_rate": 1.7875035823168641e-06,
	"loss": 0.9435,
	"step": 104
	},
	{
	"epoch": 2.524199553239017,
	"grad_norm": 0.2676449716091156,
	"learning_rate": 1.4978286427038602e-06,
	"loss": 0.92,
	"step": 106
	},
	{
	"epoch": 2.5718540580789275,
	"grad_norm": 0.26664310693740845,
	"learning_rate": 1.2318507795870138e-06,
	"loss": 0.9385,
	"step": 108
	},
	{
	"epoch": 2.6195085629188384,
	"grad_norm": 0.263298362493515,
	"learning_rate": 9.903113209758098e-07,
	"loss": 0.931,
	"step": 110
	},
	{
	"epoch": 2.6671630677587492,
	"grad_norm": 0.27026382088661194,
	"learning_rate": 7.738834806631712e-07,
	"loss": 0.947,
	"step": 112
	},
	{
	"epoch": 2.7148175725986596,
	"grad_norm": 0.2611420452594757,
	"learning_rate": 5.831704818578842e-07,
	"loss": 0.9346,
	"step": 114
	},
	{
	"epoch": 2.7624720774385705,
	"grad_norm": 0.25799694657325745,
	"learning_rate": 4.187038758933204e-07,
	"loss": 0.9363,
	"step": 116
	},
	{
	"epoch": 2.810126582278481,
	"grad_norm": 0.2518501877784729,
	"learning_rate": 2.809420606985236e-07,
	"loss": 0.9359,
	"step": 118
	},
	{
	"epoch": 2.8577810871183917,
	"grad_norm": 0.2569182813167572,
	"learning_rate": 1.7026900316098217e-07,
	"loss": 0.9399,
	"step": 120
	},
	{
	"epoch": 2.905435591958302,
	"grad_norm": 0.24561701714992523,
	"learning_rate": 8.699316894203225e-08,
	"loss": 0.9467,
	"step": 122
	},
	{
	"epoch": 2.953090096798213,
	"grad_norm": 0.2518835961818695,
	"learning_rate": 3.134666272774034e-08,
	"loss": 0.9405,
	"step": 124
	},
	{
	"epoch": 3.0,
	"grad_norm": 0.25132957100868225,
	"learning_rate": 3.4845813115114147e-09,
	"loss": 0.9466,
	"step": 126
	}
	],
	"logging_steps": 2,
	"max_steps": 126,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 300.0,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 2.312585296119595e+18,
	"train_batch_size": 16,
	"trial_name": null,
	"trial_params": null
	}