sample_phi3_finetune_example / trainer_state.json

Matt Huang

new

78aa984 over 1 year ago

14.8 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.0,
	"eval_steps": 500,
	"global_step": 1677,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.011926058437686345,
	"grad_norm": 0.859375,
	"learning_rate": 2.9761904761904765e-07,
	"loss": 1.3391,
	"step": 20
	},
	{
	"epoch": 0.02385211687537269,
	"grad_norm": 0.9765625,
	"learning_rate": 5.952380952380953e-07,
	"loss": 1.3358,
	"step": 40
	},
	{
	"epoch": 0.03577817531305903,
	"grad_norm": 0.484375,
	"learning_rate": 8.928571428571429e-07,
	"loss": 1.2273,
	"step": 60
	},
	{
	"epoch": 0.04770423375074538,
	"grad_norm": 0.6015625,
	"learning_rate": 1.1904761904761906e-06,
	"loss": 1.2731,
	"step": 80
	},
	{
	"epoch": 0.05963029218843172,
	"grad_norm": 0.4921875,
	"learning_rate": 1.4880952380952381e-06,
	"loss": 1.2757,
	"step": 100
	},
	{
	"epoch": 0.07155635062611806,
	"grad_norm": 0.5859375,
	"learning_rate": 1.7857142857142859e-06,
	"loss": 1.2827,
	"step": 120
	},
	{
	"epoch": 0.08348240906380441,
	"grad_norm": 0.52734375,
	"learning_rate": 2.0833333333333334e-06,
	"loss": 1.2206,
	"step": 140
	},
	{
	"epoch": 0.09540846750149076,
	"grad_norm": 0.66015625,
	"learning_rate": 2.380952380952381e-06,
	"loss": 1.2604,
	"step": 160
	},
	{
	"epoch": 0.1073345259391771,
	"grad_norm": 0.412109375,
	"learning_rate": 2.6785714285714285e-06,
	"loss": 1.2433,
	"step": 180
	},
	{
	"epoch": 0.11926058437686345,
	"grad_norm": 0.6015625,
	"learning_rate": 2.9761904761904763e-06,
	"loss": 1.2834,
	"step": 200
	},
	{
	"epoch": 0.13118664281454978,
	"grad_norm": 0.69140625,
	"learning_rate": 3.273809523809524e-06,
	"loss": 1.263,
	"step": 220
	},
	{
	"epoch": 0.14311270125223613,
	"grad_norm": 0.3984375,
	"learning_rate": 3.5714285714285718e-06,
	"loss": 1.2525,
	"step": 240
	},
	{
	"epoch": 0.15503875968992248,
	"grad_norm": 0.298828125,
	"learning_rate": 3.869047619047619e-06,
	"loss": 1.2064,
	"step": 260
	},
	{
	"epoch": 0.16696481812760883,
	"grad_norm": 0.431640625,
	"learning_rate": 4.166666666666667e-06,
	"loss": 1.1364,
	"step": 280
	},
	{
	"epoch": 0.17889087656529518,
	"grad_norm": 0.55078125,
	"learning_rate": 4.464285714285715e-06,
	"loss": 1.1594,
	"step": 300
	},
	{
	"epoch": 0.19081693500298152,
	"grad_norm": 0.291015625,
	"learning_rate": 4.761904761904762e-06,
	"loss": 1.1471,
	"step": 320
	},
	{
	"epoch": 0.20274299344066785,
	"grad_norm": 0.2578125,
	"learning_rate": 4.99989023370455e-06,
	"loss": 1.138,
	"step": 340
	},
	{
	"epoch": 0.2146690518783542,
	"grad_norm": 0.232421875,
	"learning_rate": 4.996049425354717e-06,
	"loss": 1.1786,
	"step": 360
	},
	{
	"epoch": 0.22659511031604054,
	"grad_norm": 0.8671875,
	"learning_rate": 4.986729937340083e-06,
	"loss": 1.2042,
	"step": 380
	},
	{
	"epoch": 0.2385211687537269,
	"grad_norm": 0.29296875,
	"learning_rate": 4.971952225381176e-06,
	"loss": 1.1528,
	"step": 400
	},
	{
	"epoch": 0.2504472271914132,
	"grad_norm": 0.26953125,
	"learning_rate": 4.951748725674643e-06,
	"loss": 1.1932,
	"step": 420
	},
	{
	"epoch": 0.26237328562909956,
	"grad_norm": 0.328125,
	"learning_rate": 4.9261637836977315e-06,
	"loss": 1.1587,
	"step": 440
	},
	{
	"epoch": 0.2742993440667859,
	"grad_norm": 0.2119140625,
	"learning_rate": 4.895253556872611e-06,
	"loss": 1.2024,
	"step": 460
	},
	{
	"epoch": 0.28622540250447226,
	"grad_norm": 0.2236328125,
	"learning_rate": 4.8590858913041775e-06,
	"loss": 1.1471,
	"step": 480
	},
	{
	"epoch": 0.2981514609421586,
	"grad_norm": 0.291015625,
	"learning_rate": 4.817740172861903e-06,
	"loss": 1.137,
	"step": 500
	},
	{
	"epoch": 0.31007751937984496,
	"grad_norm": 0.234375,
	"learning_rate": 4.771307152932579e-06,
	"loss": 1.1693,
	"step": 520
	},
	{
	"epoch": 0.3220035778175313,
	"grad_norm": 0.28125,
	"learning_rate": 4.719888749226442e-06,
	"loss": 1.1901,
	"step": 540
	},
	{
	"epoch": 0.33392963625521765,
	"grad_norm": 0.28125,
	"learning_rate": 4.663597822073865e-06,
	"loss": 1.1139,
	"step": 560
	},
	{
	"epoch": 0.345855694692904,
	"grad_norm": 0.26953125,
	"learning_rate": 4.602557926703675e-06,
	"loss": 1.1683,
	"step": 580
	},
	{
	"epoch": 0.35778175313059035,
	"grad_norm": 0.375,
	"learning_rate": 4.536903042046778e-06,
	"loss": 1.1746,
	"step": 600
	},
	{
	"epoch": 0.3697078115682767,
	"grad_norm": 0.216796875,
	"learning_rate": 4.4667772766604065e-06,
	"loss": 1.1092,
	"step": 620
	},
	{
	"epoch": 0.38163387000596305,
	"grad_norm": 0.392578125,
	"learning_rate": 4.392334552418421e-06,
	"loss": 1.125,
	"step": 640
	},
	{
	"epoch": 0.3935599284436494,
	"grad_norm": 0.25390625,
	"learning_rate": 4.313738266661979e-06,
	"loss": 1.1584,
	"step": 660
	},
	{
	"epoch": 0.4054859868813357,
	"grad_norm": 0.2216796875,
	"learning_rate": 4.231160933552109e-06,
	"loss": 1.1235,
	"step": 680
	},
	{
	"epoch": 0.41741204531902204,
	"grad_norm": 0.330078125,
	"learning_rate": 4.144783805411415e-06,
	"loss": 1.2566,
	"step": 700
	},
	{
	"epoch": 0.4293381037567084,
	"grad_norm": 0.208984375,
	"learning_rate": 4.054796474886038e-06,
	"loss": 1.164,
	"step": 720
	},
	{
	"epoch": 0.44126416219439474,
	"grad_norm": 0.248046875,
	"learning_rate": 3.961396458801099e-06,
	"loss": 1.1195,
	"step": 740
	},
	{
	"epoch": 0.4531902206320811,
	"grad_norm": 0.255859375,
	"learning_rate": 3.864788764623042e-06,
	"loss": 1.1012,
	"step": 760
	},
	{
	"epoch": 0.46511627906976744,
	"grad_norm": 0.4296875,
	"learning_rate": 3.7651854404804757e-06,
	"loss": 1.1042,
	"step": 780
	},
	{
	"epoch": 0.4770423375074538,
	"grad_norm": 0.1953125,
	"learning_rate": 3.662805109731168e-06,
	"loss": 1.1627,
	"step": 800
	},
	{
	"epoch": 0.48896839594514013,
	"grad_norm": 0.2119140625,
	"learning_rate": 3.557872491096812e-06,
	"loss": 1.1711,
	"step": 820
	},
	{
	"epoch": 0.5008944543828264,
	"grad_norm": 0.322265625,
	"learning_rate": 3.450617905418834e-06,
	"loss": 1.1929,
	"step": 840
	},
	{
	"epoch": 0.5128205128205128,
	"grad_norm": 0.193359375,
	"learning_rate": 3.341276770117877e-06,
	"loss": 1.0958,
	"step": 860
	},
	{
	"epoch": 0.5247465712581991,
	"grad_norm": 0.2294921875,
	"learning_rate": 3.2300890824665942e-06,
	"loss": 1.1335,
	"step": 880
	},
	{
	"epoch": 0.5366726296958855,
	"grad_norm": 0.3125,
	"learning_rate": 3.117298892809953e-06,
	"loss": 1.137,
	"step": 900
	},
	{
	"epoch": 0.5485986881335718,
	"grad_norm": 0.171875,
	"learning_rate": 3.003153768889276e-06,
	"loss": 1.1752,
	"step": 920
	},
	{
	"epoch": 0.5605247465712582,
	"grad_norm": 0.1826171875,
	"learning_rate": 2.887904252445806e-06,
	"loss": 1.1044,
	"step": 940
	},
	{
	"epoch": 0.5724508050089445,
	"grad_norm": 0.49609375,
	"learning_rate": 2.7718033092965267e-06,
	"loss": 1.1124,
	"step": 960
	},
	{
	"epoch": 0.5843768634466309,
	"grad_norm": 0.25390625,
	"learning_rate": 2.655105774089278e-06,
	"loss": 1.2478,
	"step": 980
	},
	{
	"epoch": 0.5963029218843172,
	"grad_norm": 0.20703125,
	"learning_rate": 2.538067790955892e-06,
	"loss": 1.1365,
	"step": 1000
	},
	{
	"epoch": 0.6082289803220036,
	"grad_norm": 0.2578125,
	"learning_rate": 2.420946251291103e-06,
	"loss": 1.0598,
	"step": 1020
	},
	{
	"epoch": 0.6201550387596899,
	"grad_norm": 0.2109375,
	"learning_rate": 2.303998229891249e-06,
	"loss": 1.1299,
	"step": 1040
	},
	{
	"epoch": 0.6320810971973763,
	"grad_norm": 0.29296875,
	"learning_rate": 2.18748042069042e-06,
	"loss": 1.148,
	"step": 1060
	},
	{
	"epoch": 0.6440071556350626,
	"grad_norm": 0.2412109375,
	"learning_rate": 2.0716485733325834e-06,
	"loss": 1.1469,
	"step": 1080
	},
	{
	"epoch": 0.655933214072749,
	"grad_norm": 0.27734375,
	"learning_rate": 1.95675693181636e-06,
	"loss": 1.1275,
	"step": 1100
	},
	{
	"epoch": 0.6678592725104353,
	"grad_norm": 0.25,
	"learning_rate": 1.8430576764446046e-06,
	"loss": 1.1711,
	"step": 1120
	},
	{
	"epoch": 0.6797853309481217,
	"grad_norm": 0.2412109375,
	"learning_rate": 1.730800370303683e-06,
	"loss": 1.1191,
	"step": 1140
	},
	{
	"epoch": 0.691711389385808,
	"grad_norm": 0.328125,
	"learning_rate": 1.6202314114873693e-06,
	"loss": 1.2033,
	"step": 1160
	},
	{
	"epoch": 0.7036374478234944,
	"grad_norm": 0.24609375,
	"learning_rate": 1.51159349226773e-06,
	"loss": 1.1747,
	"step": 1180
	},
	{
	"epoch": 0.7155635062611807,
	"grad_norm": 0.24609375,
	"learning_rate": 1.4051250664000515e-06,
	"loss": 1.1467,
	"step": 1200
	},
	{
	"epoch": 0.727489564698867,
	"grad_norm": 0.21484375,
	"learning_rate": 1.3010598257310642e-06,
	"loss": 1.1213,
	"step": 1220
	},
	{
	"epoch": 0.7394156231365534,
	"grad_norm": 0.423828125,
	"learning_rate": 1.1996261872592754e-06,
	"loss": 1.1539,
	"step": 1240
	},
	{
	"epoch": 0.7513416815742398,
	"grad_norm": 0.296875,
	"learning_rate": 1.1010467917732783e-06,
	"loss": 1.0518,
	"step": 1260
	},
	{
	"epoch": 0.7632677400119261,
	"grad_norm": 0.263671875,
	"learning_rate": 1.005538015168487e-06,
	"loss": 1.1907,
	"step": 1280
	},
	{
	"epoch": 0.7751937984496124,
	"grad_norm": 0.2109375,
	"learning_rate": 9.133094935149592e-07,
	"loss": 1.0732,
	"step": 1300
	},
	{
	"epoch": 0.7871198568872988,
	"grad_norm": 0.177734375,
	"learning_rate": 8.245636629187121e-07,
	"loss": 1.1658,
	"step": 1320
	},
	{
	"epoch": 0.7990459153249851,
	"grad_norm": 0.19921875,
	"learning_rate": 7.394953151865444e-07,
	"loss": 1.0766,
	"step": 1340
	},
	{
	"epoch": 0.8109719737626714,
	"grad_norm": 0.208984375,
	"learning_rate": 6.582911702696334e-07,
	"loss": 1.1737,
	"step": 1360
	},
	{
	"epoch": 0.8228980322003577,
	"grad_norm": 0.212890625,
	"learning_rate": 5.811294664243752e-07,
	"loss": 1.0915,
	"step": 1380
	},
	{
	"epoch": 0.8348240906380441,
	"grad_norm": 0.1884765625,
	"learning_rate": 5.081795689900398e-07,
	"loss": 1.1312,
	"step": 1400
	},
	{
	"epoch": 0.8467501490757304,
	"grad_norm": 0.181640625,
	"learning_rate": 4.396015986419483e-07,
	"loss": 1.1867,
	"step": 1420
	},
	{
	"epoch": 0.8586762075134168,
	"grad_norm": 0.1904296875,
	"learning_rate": 3.7554607993613823e-07,
	"loss": 1.1985,
	"step": 1440
	},
	{
	"epoch": 0.8706022659511031,
	"grad_norm": 0.25,
	"learning_rate": 3.1615361091693694e-07,
	"loss": 1.1426,
	"step": 1460
	},
	{
	"epoch": 0.8825283243887895,
	"grad_norm": 0.2060546875,
	"learning_rate": 2.615545545126416e-07,
	"loss": 1.1924,
	"step": 1480
	},
	{
	"epoch": 0.8944543828264758,
	"grad_norm": 0.21484375,
	"learning_rate": 2.118687523966559e-07,
	"loss": 1.1344,
	"step": 1500
	},
	{
	"epoch": 0.9063804412641622,
	"grad_norm": 0.2138671875,
	"learning_rate": 1.6720526194217186e-07,
	"loss": 1.153,
	"step": 1520
	},
	{
	"epoch": 0.9183064997018485,
	"grad_norm": 0.1708984375,
	"learning_rate": 1.2766211684773156e-07,
	"loss": 1.1558,
	"step": 1540
	},
	{
	"epoch": 0.9302325581395349,
	"grad_norm": 0.21484375,
	"learning_rate": 9.332611195910585e-08,
	"loss": 1.1415,
	"step": 1560
	},
	{
	"epoch": 0.9421586165772212,
	"grad_norm": 0.349609375,
	"learning_rate": 6.427261275978369e-08,
	"loss": 1.1919,
	"step": 1580
	},
	{
	"epoch": 0.9540846750149076,
	"grad_norm": 0.2353515625,
	"learning_rate": 4.056538994822945e-08,
	"loss": 1.0785,
	"step": 1600
	},
	{
	"epoch": 0.9660107334525939,
	"grad_norm": 0.228515625,
	"learning_rate": 2.2256479464999315e-08,
	"loss": 1.1849,
	"step": 1620
	},
	{
	"epoch": 0.9779367918902803,
	"grad_norm": 0.32421875,
	"learning_rate": 9.386068276959204e-09,
	"loss": 1.1015,
	"step": 1640
	},
	{
	"epoch": 0.9898628503279666,
	"grad_norm": 0.17578125,
	"learning_rate": 1.982406169283857e-09,
	"loss": 1.1445,
	"step": 1660
	},
	{
	"epoch": 1.0,
	"step": 1677,
	"total_flos": 1.5441332068889395e+17,
	"train_loss": 1.1665670079849415,
	"train_runtime": 5262.9957,
	"train_samples_per_second": 1.274,
	"train_steps_per_second": 0.319
	}
	],
	"logging_steps": 20,
	"max_steps": 1677,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 100,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 1.5441332068889395e+17,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}