End of training

c27468e verified about 1 year ago

14 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 2.991501416430595,
	"eval_steps": 500,
	"global_step": 792,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.03777148253068933,
	"grad_norm": 2.3805434235210083,
	"learning_rate": 5e-06,
	"loss": 1.0395,
	"step": 10
	},
	{
	"epoch": 0.07554296506137866,
	"grad_norm": 2.856513616647182,
	"learning_rate": 5e-06,
	"loss": 0.9048,
	"step": 20
	},
	{
	"epoch": 0.11331444759206799,
	"grad_norm": 1.44752023730039,
	"learning_rate": 5e-06,
	"loss": 0.8676,
	"step": 30
	},
	{
	"epoch": 0.1510859301227573,
	"grad_norm": 2.724838836111604,
	"learning_rate": 5e-06,
	"loss": 0.8452,
	"step": 40
	},
	{
	"epoch": 0.18885741265344666,
	"grad_norm": 1.5098321508092247,
	"learning_rate": 5e-06,
	"loss": 0.8261,
	"step": 50
	},
	{
	"epoch": 0.22662889518413598,
	"grad_norm": 1.1562207951359371,
	"learning_rate": 5e-06,
	"loss": 0.8055,
	"step": 60
	},
	{
	"epoch": 0.26440037771482533,
	"grad_norm": 1.0400869852117345,
	"learning_rate": 5e-06,
	"loss": 0.7953,
	"step": 70
	},
	{
	"epoch": 0.3021718602455146,
	"grad_norm": 0.9148701519417262,
	"learning_rate": 5e-06,
	"loss": 0.786,
	"step": 80
	},
	{
	"epoch": 0.33994334277620397,
	"grad_norm": 0.8722664324312153,
	"learning_rate": 5e-06,
	"loss": 0.7725,
	"step": 90
	},
	{
	"epoch": 0.3777148253068933,
	"grad_norm": 1.0427331036560754,
	"learning_rate": 5e-06,
	"loss": 0.7813,
	"step": 100
	},
	{
	"epoch": 0.4154863078375826,
	"grad_norm": 0.6602583497680015,
	"learning_rate": 5e-06,
	"loss": 0.7702,
	"step": 110
	},
	{
	"epoch": 0.45325779036827196,
	"grad_norm": 0.6261264742184848,
	"learning_rate": 5e-06,
	"loss": 0.7601,
	"step": 120
	},
	{
	"epoch": 0.4910292728989613,
	"grad_norm": 0.8612076277718839,
	"learning_rate": 5e-06,
	"loss": 0.765,
	"step": 130
	},
	{
	"epoch": 0.5288007554296507,
	"grad_norm": 0.7081715175245555,
	"learning_rate": 5e-06,
	"loss": 0.7585,
	"step": 140
	},
	{
	"epoch": 0.56657223796034,
	"grad_norm": 0.6464092566763289,
	"learning_rate": 5e-06,
	"loss": 0.7582,
	"step": 150
	},
	{
	"epoch": 0.6043437204910292,
	"grad_norm": 0.7867913648175029,
	"learning_rate": 5e-06,
	"loss": 0.7535,
	"step": 160
	},
	{
	"epoch": 0.6421152030217187,
	"grad_norm": 0.8335496759284264,
	"learning_rate": 5e-06,
	"loss": 0.7506,
	"step": 170
	},
	{
	"epoch": 0.6798866855524079,
	"grad_norm": 0.9045739681846007,
	"learning_rate": 5e-06,
	"loss": 0.7538,
	"step": 180
	},
	{
	"epoch": 0.7176581680830972,
	"grad_norm": 0.642733706975797,
	"learning_rate": 5e-06,
	"loss": 0.7512,
	"step": 190
	},
	{
	"epoch": 0.7554296506137866,
	"grad_norm": 0.7751098599889861,
	"learning_rate": 5e-06,
	"loss": 0.7432,
	"step": 200
	},
	{
	"epoch": 0.7932011331444759,
	"grad_norm": 0.9169213826519828,
	"learning_rate": 5e-06,
	"loss": 0.7523,
	"step": 210
	},
	{
	"epoch": 0.8309726156751652,
	"grad_norm": 0.751413803169088,
	"learning_rate": 5e-06,
	"loss": 0.7475,
	"step": 220
	},
	{
	"epoch": 0.8687440982058546,
	"grad_norm": 0.7640332235725673,
	"learning_rate": 5e-06,
	"loss": 0.7384,
	"step": 230
	},
	{
	"epoch": 0.9065155807365439,
	"grad_norm": 0.728990276372915,
	"learning_rate": 5e-06,
	"loss": 0.742,
	"step": 240
	},
	{
	"epoch": 0.9442870632672332,
	"grad_norm": 0.6854770933941848,
	"learning_rate": 5e-06,
	"loss": 0.7415,
	"step": 250
	},
	{
	"epoch": 0.9820585457979226,
	"grad_norm": 0.7112160685903344,
	"learning_rate": 5e-06,
	"loss": 0.7413,
	"step": 260
	},
	{
	"epoch": 0.9971671388101983,
	"eval_loss": 0.7381541132926941,
	"eval_runtime": 185.7861,
	"eval_samples_per_second": 38.399,
	"eval_steps_per_second": 0.603,
	"step": 264
	},
	{
	"epoch": 1.019830028328612,
	"grad_norm": 0.8806260533344807,
	"learning_rate": 5e-06,
	"loss": 0.7317,
	"step": 270
	},
	{
	"epoch": 1.0576015108593013,
	"grad_norm": 0.8463597906884003,
	"learning_rate": 5e-06,
	"loss": 0.6852,
	"step": 280
	},
	{
	"epoch": 1.0953729933899905,
	"grad_norm": 0.998627698983325,
	"learning_rate": 5e-06,
	"loss": 0.6903,
	"step": 290
	},
	{
	"epoch": 1.13314447592068,
	"grad_norm": 0.8372558817429967,
	"learning_rate": 5e-06,
	"loss": 0.684,
	"step": 300
	},
	{
	"epoch": 1.1709159584513693,
	"grad_norm": 0.6335303040398027,
	"learning_rate": 5e-06,
	"loss": 0.6899,
	"step": 310
	},
	{
	"epoch": 1.2086874409820585,
	"grad_norm": 0.8131802909561154,
	"learning_rate": 5e-06,
	"loss": 0.6886,
	"step": 320
	},
	{
	"epoch": 1.246458923512748,
	"grad_norm": 0.8544395006729588,
	"learning_rate": 5e-06,
	"loss": 0.6876,
	"step": 330
	},
	{
	"epoch": 1.284230406043437,
	"grad_norm": 0.7496941658426767,
	"learning_rate": 5e-06,
	"loss": 0.6841,
	"step": 340
	},
	{
	"epoch": 1.3220018885741265,
	"grad_norm": 0.6225060094101681,
	"learning_rate": 5e-06,
	"loss": 0.6875,
	"step": 350
	},
	{
	"epoch": 1.3597733711048159,
	"grad_norm": 0.8041619905694252,
	"learning_rate": 5e-06,
	"loss": 0.6835,
	"step": 360
	},
	{
	"epoch": 1.3975448536355053,
	"grad_norm": 0.6579082421853544,
	"learning_rate": 5e-06,
	"loss": 0.6839,
	"step": 370
	},
	{
	"epoch": 1.4353163361661945,
	"grad_norm": 0.6914768615360496,
	"learning_rate": 5e-06,
	"loss": 0.6888,
	"step": 380
	},
	{
	"epoch": 1.4730878186968839,
	"grad_norm": 0.5488530522257256,
	"learning_rate": 5e-06,
	"loss": 0.6844,
	"step": 390
	},
	{
	"epoch": 1.510859301227573,
	"grad_norm": 0.5967231206297695,
	"learning_rate": 5e-06,
	"loss": 0.6835,
	"step": 400
	},
	{
	"epoch": 1.5486307837582625,
	"grad_norm": 0.8534656126840098,
	"learning_rate": 5e-06,
	"loss": 0.6894,
	"step": 410
	},
	{
	"epoch": 1.5864022662889519,
	"grad_norm": 0.8114796417385948,
	"learning_rate": 5e-06,
	"loss": 0.6892,
	"step": 420
	},
	{
	"epoch": 1.6241737488196413,
	"grad_norm": 0.7087354816053721,
	"learning_rate": 5e-06,
	"loss": 0.6854,
	"step": 430
	},
	{
	"epoch": 1.6619452313503305,
	"grad_norm": 0.5687873916760361,
	"learning_rate": 5e-06,
	"loss": 0.6874,
	"step": 440
	},
	{
	"epoch": 1.6997167138810199,
	"grad_norm": 0.7321157421532287,
	"learning_rate": 5e-06,
	"loss": 0.6891,
	"step": 450
	},
	{
	"epoch": 1.737488196411709,
	"grad_norm": 0.9059336248026789,
	"learning_rate": 5e-06,
	"loss": 0.6813,
	"step": 460
	},
	{
	"epoch": 1.7752596789423984,
	"grad_norm": 0.675756534213701,
	"learning_rate": 5e-06,
	"loss": 0.6835,
	"step": 470
	},
	{
	"epoch": 1.8130311614730878,
	"grad_norm": 0.6005853815924641,
	"learning_rate": 5e-06,
	"loss": 0.6835,
	"step": 480
	},
	{
	"epoch": 1.8508026440037773,
	"grad_norm": 0.7612226170902838,
	"learning_rate": 5e-06,
	"loss": 0.68,
	"step": 490
	},
	{
	"epoch": 1.8885741265344664,
	"grad_norm": 0.7562478445031421,
	"learning_rate": 5e-06,
	"loss": 0.6805,
	"step": 500
	},
	{
	"epoch": 1.9263456090651558,
	"grad_norm": 0.7011514213635397,
	"learning_rate": 5e-06,
	"loss": 0.6821,
	"step": 510
	},
	{
	"epoch": 1.964117091595845,
	"grad_norm": 0.668105825093532,
	"learning_rate": 5e-06,
	"loss": 0.6815,
	"step": 520
	},
	{
	"epoch": 1.9981114258734656,
	"eval_loss": 0.7243772149085999,
	"eval_runtime": 177.4303,
	"eval_samples_per_second": 40.207,
	"eval_steps_per_second": 0.631,
	"step": 529
	},
	{
	"epoch": 2.0018885741265344,
	"grad_norm": 1.0061690465784974,
	"learning_rate": 5e-06,
	"loss": 0.7,
	"step": 530
	},
	{
	"epoch": 2.039660056657224,
	"grad_norm": 0.7877880100051793,
	"learning_rate": 5e-06,
	"loss": 0.6295,
	"step": 540
	},
	{
	"epoch": 2.0774315391879132,
	"grad_norm": 0.793030648640271,
	"learning_rate": 5e-06,
	"loss": 0.6269,
	"step": 550
	},
	{
	"epoch": 2.1152030217186026,
	"grad_norm": 0.7589773401731925,
	"learning_rate": 5e-06,
	"loss": 0.6306,
	"step": 560
	},
	{
	"epoch": 2.1529745042492916,
	"grad_norm": 0.6507155946743034,
	"learning_rate": 5e-06,
	"loss": 0.6302,
	"step": 570
	},
	{
	"epoch": 2.190745986779981,
	"grad_norm": 0.7706192007874249,
	"learning_rate": 5e-06,
	"loss": 0.6278,
	"step": 580
	},
	{
	"epoch": 2.2285174693106704,
	"grad_norm": 0.6327752250601594,
	"learning_rate": 5e-06,
	"loss": 0.6364,
	"step": 590
	},
	{
	"epoch": 2.26628895184136,
	"grad_norm": 0.6327979312894738,
	"learning_rate": 5e-06,
	"loss": 0.6326,
	"step": 600
	},
	{
	"epoch": 2.304060434372049,
	"grad_norm": 0.5816500449436098,
	"learning_rate": 5e-06,
	"loss": 0.6322,
	"step": 610
	},
	{
	"epoch": 2.3418319169027386,
	"grad_norm": 0.7685458410506589,
	"learning_rate": 5e-06,
	"loss": 0.632,
	"step": 620
	},
	{
	"epoch": 2.3796033994334276,
	"grad_norm": 0.7331975528938945,
	"learning_rate": 5e-06,
	"loss": 0.6359,
	"step": 630
	},
	{
	"epoch": 2.417374881964117,
	"grad_norm": 0.6048367664881513,
	"learning_rate": 5e-06,
	"loss": 0.6351,
	"step": 640
	},
	{
	"epoch": 2.4551463644948064,
	"grad_norm": 0.7225741561090323,
	"learning_rate": 5e-06,
	"loss": 0.6304,
	"step": 650
	},
	{
	"epoch": 2.492917847025496,
	"grad_norm": 0.6762661427796176,
	"learning_rate": 5e-06,
	"loss": 0.6348,
	"step": 660
	},
	{
	"epoch": 2.530689329556185,
	"grad_norm": 0.6888475213512071,
	"learning_rate": 5e-06,
	"loss": 0.6335,
	"step": 670
	},
	{
	"epoch": 2.568460812086874,
	"grad_norm": 0.7082247476426633,
	"learning_rate": 5e-06,
	"loss": 0.6349,
	"step": 680
	},
	{
	"epoch": 2.6062322946175636,
	"grad_norm": 0.7648839755479956,
	"learning_rate": 5e-06,
	"loss": 0.6285,
	"step": 690
	},
	{
	"epoch": 2.644003777148253,
	"grad_norm": 0.7473110651002637,
	"learning_rate": 5e-06,
	"loss": 0.6341,
	"step": 700
	},
	{
	"epoch": 2.6817752596789424,
	"grad_norm": 0.6406025398016005,
	"learning_rate": 5e-06,
	"loss": 0.6393,
	"step": 710
	},
	{
	"epoch": 2.7195467422096318,
	"grad_norm": 0.6180603575164161,
	"learning_rate": 5e-06,
	"loss": 0.6397,
	"step": 720
	},
	{
	"epoch": 2.757318224740321,
	"grad_norm": 0.7188210996816503,
	"learning_rate": 5e-06,
	"loss": 0.6356,
	"step": 730
	},
	{
	"epoch": 2.7950897072710106,
	"grad_norm": 0.7014279573066574,
	"learning_rate": 5e-06,
	"loss": 0.6394,
	"step": 740
	},
	{
	"epoch": 2.8328611898017,
	"grad_norm": 0.6189845652330979,
	"learning_rate": 5e-06,
	"loss": 0.6321,
	"step": 750
	},
	{
	"epoch": 2.870632672332389,
	"grad_norm": 0.6750791101100844,
	"learning_rate": 5e-06,
	"loss": 0.6351,
	"step": 760
	},
	{
	"epoch": 2.9084041548630784,
	"grad_norm": 0.645156423238826,
	"learning_rate": 5e-06,
	"loss": 0.6333,
	"step": 770
	},
	{
	"epoch": 2.9461756373937678,
	"grad_norm": 0.7328592259216773,
	"learning_rate": 5e-06,
	"loss": 0.6412,
	"step": 780
	},
	{
	"epoch": 2.983947119924457,
	"grad_norm": 0.5893339209675429,
	"learning_rate": 5e-06,
	"loss": 0.6392,
	"step": 790
	},
	{
	"epoch": 2.991501416430595,
	"eval_loss": 0.7273694276809692,
	"eval_runtime": 177.6532,
	"eval_samples_per_second": 40.157,
	"eval_steps_per_second": 0.63,
	"step": 792
	},
	{
	"epoch": 2.991501416430595,
	"step": 792,
	"total_flos": 1326420118732800.0,
	"train_loss": 0.7023529005472107,
	"train_runtime": 26189.6442,
	"train_samples_per_second": 15.525,
	"train_steps_per_second": 0.03
	}
	],
	"logging_steps": 10,
	"max_steps": 792,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 1326420118732800.0,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}