Model save

fc53030 verified over 1 year ago

17.8 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.9989550679205852,
	"eval_steps": 500,
	"global_step": 478,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0020898641588296763,
	"grad_norm": 216.79754638671875,
	"learning_rate": 6.2499999999999995e-06,
	"loss": 57.9838,
	"step": 1
	},
	{
	"epoch": 0.01044932079414838,
	"grad_norm": 184.4412841796875,
	"learning_rate": 3.125e-05,
	"loss": 60.093,
	"step": 5
	},
	{
	"epoch": 0.02089864158829676,
	"grad_norm": 107.91060638427734,
	"learning_rate": 6.25e-05,
	"loss": 48.3094,
	"step": 10
	},
	{
	"epoch": 0.03134796238244514,
	"grad_norm": 17.1436710357666,
	"learning_rate": 9.374999999999999e-05,
	"loss": 33.2668,
	"step": 15
	},
	{
	"epoch": 0.04179728317659352,
	"grad_norm": 12.335116386413574,
	"learning_rate": 0.000125,
	"loss": 27.698,
	"step": 20
	},
	{
	"epoch": 0.0522466039707419,
	"grad_norm": 6.2943196296691895,
	"learning_rate": 0.00015625,
	"loss": 25.9692,
	"step": 25
	},
	{
	"epoch": 0.06269592476489028,
	"grad_norm": 5.466517448425293,
	"learning_rate": 0.00018749999999999998,
	"loss": 25.2691,
	"step": 30
	},
	{
	"epoch": 0.07314524555903866,
	"grad_norm": 9.744288444519043,
	"learning_rate": 0.00021874999999999998,
	"loss": 23.7082,
	"step": 35
	},
	{
	"epoch": 0.08359456635318704,
	"grad_norm": 19.27219581604004,
	"learning_rate": 0.00025,
	"loss": 21.3655,
	"step": 40
	},
	{
	"epoch": 0.09404388714733543,
	"grad_norm": 41.77222442626953,
	"learning_rate": 0.00028125,
	"loss": 16.1707,
	"step": 45
	},
	{
	"epoch": 0.1044932079414838,
	"grad_norm": 18.60293960571289,
	"learning_rate": 0.0002999839868651235,
	"loss": 8.0969,
	"step": 50
	},
	{
	"epoch": 0.11494252873563218,
	"grad_norm": 11.452897071838379,
	"learning_rate": 0.00029980387835984494,
	"loss": 4.1367,
	"step": 55
	},
	{
	"epoch": 0.12539184952978055,
	"grad_norm": 8.422245979309082,
	"learning_rate": 0.000299423886051382,
	"loss": 3.1254,
	"step": 60
	},
	{
	"epoch": 0.13584117032392895,
	"grad_norm": 2.444629669189453,
	"learning_rate": 0.0002988445169647103,
	"loss": 2.4463,
	"step": 65
	},
	{
	"epoch": 0.14629049111807732,
	"grad_norm": 1.307098627090454,
	"learning_rate": 0.0002980665441538907,
	"loss": 2.1685,
	"step": 70
	},
	{
	"epoch": 0.15673981191222572,
	"grad_norm": 2.10964298248291,
	"learning_rate": 0.0002970910056705806,
	"loss": 2.0392,
	"step": 75
	},
	{
	"epoch": 0.1671891327063741,
	"grad_norm": 1.1905853748321533,
	"learning_rate": 0.0002959192031789579,
	"loss": 1.9225,
	"step": 80
	},
	{
	"epoch": 0.17763845350052246,
	"grad_norm": 0.8916841745376587,
	"learning_rate": 0.0002945527002189068,
	"loss": 1.8422,
	"step": 85
	},
	{
	"epoch": 0.18808777429467086,
	"grad_norm": 3.186051845550537,
	"learning_rate": 0.00029299332011978107,
	"loss": 1.748,
	"step": 90
	},
	{
	"epoch": 0.19853709508881923,
	"grad_norm": 3.865817070007324,
	"learning_rate": 0.00029124314356752967,
	"loss": 1.7184,
	"step": 95
	},
	{
	"epoch": 0.2089864158829676,
	"grad_norm": 2.8790738582611084,
	"learning_rate": 0.0002893045058284311,
	"loss": 1.6432,
	"step": 100
	},
	{
	"epoch": 0.219435736677116,
	"grad_norm": 1.6771491765975952,
	"learning_rate": 0.00028717999363313967,
	"loss": 1.6567,
	"step": 105
	},
	{
	"epoch": 0.22988505747126436,
	"grad_norm": 2.725285530090332,
	"learning_rate": 0.00028487244172520246,
	"loss": 1.6157,
	"step": 110
	},
	{
	"epoch": 0.24033437826541273,
	"grad_norm": 2.289280652999878,
	"learning_rate": 0.0002823849290786517,
	"loss": 1.6148,
	"step": 115
	},
	{
	"epoch": 0.2507836990595611,
	"grad_norm": 2.0211188793182373,
	"learning_rate": 0.0002797207747897198,
	"loss": 1.5858,
	"step": 120
	},
	{
	"epoch": 0.2612330198537095,
	"grad_norm": 2.0264103412628174,
	"learning_rate": 0.00027688353364815834,
	"loss": 1.5708,
	"step": 125
	},
	{
	"epoch": 0.2716823406478579,
	"grad_norm": 0.9253348112106323,
	"learning_rate": 0.0002738769913940706,
	"loss": 1.5481,
	"step": 130
	},
	{
	"epoch": 0.28213166144200624,
	"grad_norm": 3.3143184185028076,
	"learning_rate": 0.00027070515966658604,
	"loss": 1.5535,
	"step": 135
	},
	{
	"epoch": 0.29258098223615464,
	"grad_norm": 4.024845600128174,
	"learning_rate": 0.0002673722706511174,
	"loss": 1.5542,
	"step": 140
	},
	{
	"epoch": 0.30303030303030304,
	"grad_norm": 3.718261241912842,
	"learning_rate": 0.00026388277143234146,
	"loss": 1.5507,
	"step": 145
	},
	{
	"epoch": 0.31347962382445144,
	"grad_norm": 1.9526076316833496,
	"learning_rate": 0.0002602413180604401,
	"loss": 1.5251,
	"step": 150
	},
	{
	"epoch": 0.3239289446185998,
	"grad_norm": 1.5725075006484985,
	"learning_rate": 0.00025645276933851667,
	"loss": 1.4937,
	"step": 155
	},
	{
	"epoch": 0.3343782654127482,
	"grad_norm": 4.266882419586182,
	"learning_rate": 0.00025252218033947993,
	"loss": 1.4944,
	"step": 160
	},
	{
	"epoch": 0.3448275862068966,
	"grad_norm": 2.6647915840148926,
	"learning_rate": 0.0002484547956610429,
	"loss": 1.4798,
	"step": 165
	},
	{
	"epoch": 0.3552769070010449,
	"grad_norm": 2.0770153999328613,
	"learning_rate": 0.0002442560424278399,
	"loss": 1.4708,
	"step": 170
	},
	{
	"epoch": 0.3657262277951933,
	"grad_norm": 1.8132774829864502,
	"learning_rate": 0.00023993152304999582,
	"loss": 1.4554,
	"step": 175
	},
	{
	"epoch": 0.3761755485893417,
	"grad_norm": 1.9493850469589233,
	"learning_rate": 0.00023548700774781242,
	"loss": 1.485,
	"step": 180
	},
	{
	"epoch": 0.38662486938349006,
	"grad_norm": 3.6726951599121094,
	"learning_rate": 0.00023092842685254442,
	"loss": 1.4584,
	"step": 185
	},
	{
	"epoch": 0.39707419017763845,
	"grad_norm": 2.253319501876831,
	"learning_rate": 0.00022626186289353913,
	"loss": 1.4569,
	"step": 190
	},
	{
	"epoch": 0.40752351097178685,
	"grad_norm": 3.336820125579834,
	"learning_rate": 0.00022149354248229784,
	"loss": 1.4334,
	"step": 195
	},
	{
	"epoch": 0.4179728317659352,
	"grad_norm": 3.0895018577575684,
	"learning_rate": 0.0002166298280042877,
	"loss": 1.4203,
	"step": 200
	},
	{
	"epoch": 0.4284221525600836,
	"grad_norm": 1.8486225605010986,
	"learning_rate": 0.00021167720912959004,
	"loss": 1.414,
	"step": 205
	},
	{
	"epoch": 0.438871473354232,
	"grad_norm": 0.7216203808784485,
	"learning_rate": 0.00020664229415371266,
	"loss": 1.3897,
	"step": 210
	},
	{
	"epoch": 0.44932079414838033,
	"grad_norm": 2.909454107284546,
	"learning_rate": 0.0002015318011801192,
	"loss": 1.3713,
	"step": 215
	},
	{
	"epoch": 0.45977011494252873,
	"grad_norm": 1.5531753301620483,
	"learning_rate": 0.0001963525491562421,
	"loss": 1.4055,
	"step": 220
	},
	{
	"epoch": 0.4702194357366771,
	"grad_norm": 4.848015308380127,
	"learning_rate": 0.00019111144877493873,
	"loss": 1.435,
	"step": 225
	},
	{
	"epoch": 0.48066875653082547,
	"grad_norm": 4.833097457885742,
	"learning_rate": 0.00018581549325353126,
	"loss": 1.417,
	"step": 230
	},
	{
	"epoch": 0.49111807732497387,
	"grad_norm": 1.415703296661377,
	"learning_rate": 0.00018047174900273435,
	"loss": 1.4449,
	"step": 235
	},
	{
	"epoch": 0.5015673981191222,
	"grad_norm": 0.9621894359588623,
	"learning_rate": 0.00017508734619791966,
	"loss": 1.3907,
	"step": 240
	},
	{
	"epoch": 0.5120167189132706,
	"grad_norm": 2.091428279876709,
	"learning_rate": 0.0001696694692653004,
	"loss": 1.3581,
	"step": 245
	},
	{
	"epoch": 0.522466039707419,
	"grad_norm": 1.3531287908554077,
	"learning_rate": 0.00016422534729572738,
	"loss": 1.3717,
	"step": 250
	},
	{
	"epoch": 0.5329153605015674,
	"grad_norm": 1.8569897413253784,
	"learning_rate": 0.0001587622443988899,
	"loss": 1.3811,
	"step": 255
	},
	{
	"epoch": 0.5433646812957158,
	"grad_norm": 4.248292446136475,
	"learning_rate": 0.0001532874500107902,
	"loss": 1.3797,
	"step": 260
	},
	{
	"epoch": 0.5538140020898642,
	"grad_norm": 2.5460174083709717,
	"learning_rate": 0.0001478082691674256,
	"loss": 1.3576,
	"step": 265
	},
	{
	"epoch": 0.5642633228840125,
	"grad_norm": 1.3485275506973267,
	"learning_rate": 0.00014233201275765494,
	"loss": 1.383,
	"step": 270
	},
	{
	"epoch": 0.5747126436781609,
	"grad_norm": 1.1686965227127075,
	"learning_rate": 0.00013686598776825563,
	"loss": 1.3715,
	"step": 275
	},
	{
	"epoch": 0.5851619644723093,
	"grad_norm": 1.8593087196350098,
	"learning_rate": 0.0001314174875341878,
	"loss": 1.3671,
	"step": 280
	},
	{
	"epoch": 0.5956112852664577,
	"grad_norm": 1.5989689826965332,
	"learning_rate": 0.0001259937820070732,
	"loss": 1.3379,
	"step": 285
	},
	{
	"epoch": 0.6060606060606061,
	"grad_norm": 3.129467248916626,
	"learning_rate": 0.00012060210805487529,
	"loss": 1.3436,
	"step": 290
	},
	{
	"epoch": 0.6165099268547545,
	"grad_norm": 1.071311593055725,
	"learning_rate": 0.00011524965980572284,
	"loss": 1.3711,
	"step": 295
	},
	{
	"epoch": 0.6269592476489029,
	"grad_norm": 2.8161048889160156,
	"learning_rate": 0.00010994357904876106,
	"loss": 1.3242,
	"step": 300
	},
	{
	"epoch": 0.6374085684430512,
	"grad_norm": 0.9445050954818726,
	"learning_rate": 0.00010469094570483928,
	"loss": 1.3217,
	"step": 305
	},
	{
	"epoch": 0.6478578892371996,
	"grad_norm": 1.53034508228302,
	"learning_rate": 9.949876837974944e-05,
	"loss": 1.314,
	"step": 310
	},
	{
	"epoch": 0.658307210031348,
	"grad_norm": 1.8168761730194092,
	"learning_rate": 9.437397501262026e-05,
	"loss": 1.3365,
	"step": 315
	},
	{
	"epoch": 0.6687565308254964,
	"grad_norm": 1.4955302476882935,
	"learning_rate": 8.932340363194595e-05,
	"loss": 1.3154,
	"step": 320
	},
	{
	"epoch": 0.6792058516196448,
	"grad_norm": 1.2552021741867065,
	"learning_rate": 8.435379323158218e-05,
	"loss": 1.3366,
	"step": 325
	},
	{
	"epoch": 0.6896551724137931,
	"grad_norm": 2.914289712905884,
	"learning_rate": 7.947177477888472e-05,
	"loss": 1.3233,
	"step": 330
	},
	{
	"epoch": 0.7001044932079414,
	"grad_norm": 1.3406000137329102,
	"learning_rate": 7.46838623669881e-05,
	"loss": 1.3264,
	"step": 335
	},
	{
	"epoch": 0.7105538140020898,
	"grad_norm": 0.9025297164916992,
	"learning_rate": 6.999644452302975e-05,
	"loss": 1.3197,
	"step": 340
	},
	{
	"epoch": 0.7210031347962382,
	"grad_norm": 1.2824598550796509,
	"learning_rate": 6.541577568391758e-05,
	"loss": 1.3201,
	"step": 345
	},
	{
	"epoch": 0.7314524555903866,
	"grad_norm": 0.9296241998672485,
	"learning_rate": 6.0947967851014405e-05,
	"loss": 1.3097,
	"step": 350
	},
	{
	"epoch": 0.741901776384535,
	"grad_norm": 0.8738858699798584,
	"learning_rate": 5.659898243487463e-05,
	"loss": 1.3044,
	"step": 355
	},
	{
	"epoch": 0.7523510971786834,
	"grad_norm": 1.8482000827789307,
	"learning_rate": 5.237462230091467e-05,
	"loss": 1.3108,
	"step": 360
	},
	{
	"epoch": 0.7628004179728317,
	"grad_norm": 2.537909746170044,
	"learning_rate": 4.8280524026630565e-05,
	"loss": 1.3164,
	"step": 365
	},
	{
	"epoch": 0.7732497387669801,
	"grad_norm": 1.3068586587905884,
	"learning_rate": 4.432215038069449e-05,
	"loss": 1.2782,
	"step": 370
	},
	{
	"epoch": 0.7836990595611285,
	"grad_norm": 1.3742858171463013,
	"learning_rate": 4.0504783033964645e-05,
	"loss": 1.3179,
	"step": 375
	},
	{
	"epoch": 0.7941483803552769,
	"grad_norm": 1.2923156023025513,
	"learning_rate": 3.6833515512134606e-05,
	"loss": 1.2904,
	"step": 380
	},
	{
	"epoch": 0.8045977011494253,
	"grad_norm": 0.7867398262023926,
	"learning_rate": 3.331324639942526e-05,
	"loss": 1.3029,
	"step": 385
	},
	{
	"epoch": 0.8150470219435737,
	"grad_norm": 1.1442195177078247,
	"learning_rate": 2.9948672802388135e-05,
	"loss": 1.3069,
	"step": 390
	},
	{
	"epoch": 0.8254963427377221,
	"grad_norm": 1.4821033477783203,
	"learning_rate": 2.67442840825406e-05,
	"loss": 1.3177,
	"step": 395
	},
	{
	"epoch": 0.8359456635318704,
	"grad_norm": 0.9633380770683289,
	"learning_rate": 2.3704355866196373e-05,
	"loss": 1.3249,
	"step": 400
	},
	{
	"epoch": 0.8463949843260188,
	"grad_norm": 1.2908155918121338,
	"learning_rate": 2.083294433948324e-05,
	"loss": 1.3449,
	"step": 405
	},
	{
	"epoch": 0.8568443051201672,
	"grad_norm": 1.1834619045257568,
	"learning_rate": 1.813388083616068e-05,
	"loss": 1.3086,
	"step": 410
	},
	{
	"epoch": 0.8672936259143156,
	"grad_norm": 1.1399352550506592,
	"learning_rate": 1.5610766725458834e-05,
	"loss": 1.315,
	"step": 415
	},
	{
	"epoch": 0.877742946708464,
	"grad_norm": 1.2300066947937012,
	"learning_rate": 1.326696860675981e-05,
	"loss": 1.2894,
	"step": 420
	},
	{
	"epoch": 0.8881922675026124,
	"grad_norm": 0.9975532293319702,
	"learning_rate": 1.1105613817532976e-05,
	"loss": 1.2953,
	"step": 425
	},
	{
	"epoch": 0.8986415882967607,
	"grad_norm": 0.9357336163520813,
	"learning_rate": 9.129586260518634e-06,
	"loss": 1.3159,
	"step": 430
	},
	{
	"epoch": 0.9090909090909091,
	"grad_norm": 0.7603440880775452,
	"learning_rate": 7.34152255572697e-06,
	"loss": 1.2897,
	"step": 435
	},
	{
	"epoch": 0.9195402298850575,
	"grad_norm": 0.8711851835250854,
	"learning_rate": 5.743808522387544e-06,
	"loss": 1.275,
	"step": 440
	},
	{
	"epoch": 0.9299895506792059,
	"grad_norm": 0.9144044518470764,
	"learning_rate": 4.33857599554282e-06,
	"loss": 1.328,
	"step": 445
	},
	{
	"epoch": 0.9404388714733543,
	"grad_norm": 0.862479567527771,
	"learning_rate": 3.1276999815337544e-06,
	"loss": 1.2879,
	"step": 450
	},
	{
	"epoch": 0.9508881922675027,
	"grad_norm": 0.7352892756462097,
	"learning_rate": 2.1127961561727193e-06,
	"loss": 1.2873,
	"step": 455
	},
	{
	"epoch": 0.9613375130616509,
	"grad_norm": 2.582821846008301,
	"learning_rate": 1.2952187089419642e-06,
	"loss": 1.3191,
	"step": 460
	},
	{
	"epoch": 0.9717868338557993,
	"grad_norm": 0.7060139179229736,
	"learning_rate": 6.760585360942872e-07,
	"loss": 1.3047,
	"step": 465
	},
	{
	"epoch": 0.9822361546499477,
	"grad_norm": 0.8089200258255005,
	"learning_rate": 2.5614178506644934e-07,
	"loss": 1.2743,
	"step": 470
	},
	{
	"epoch": 0.9926854754440961,
	"grad_norm": 1.2739328145980835,
	"learning_rate": 3.6028752148081766e-08,
	"loss": 1.3004,
	"step": 475
	},
	{
	"epoch": 0.9989550679205852,
	"eval_loss": 1.9203195571899414,
	"eval_runtime": 0.8302,
	"eval_samples_per_second": 2.409,
	"eval_steps_per_second": 1.205,
	"step": 478
	},
	{
	"epoch": 0.9989550679205852,
	"step": 478,
	"total_flos": 3.643767570437243e+17,
	"train_loss": 4.360991338805674,
	"train_runtime": 2613.4355,
	"train_samples_per_second": 2.928,
	"train_steps_per_second": 0.183
	}
	],
	"logging_steps": 5,
	"max_steps": 478,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 100,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 3.643767570437243e+17,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}