Upload folder using huggingface_hub

6f04b9e verified about 1 month ago

14 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.0,
	"eval_steps": 500,
	"global_step": 750,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.013349463935588836,
	"grad_norm": 3.8443384275181525,
	"learning_rate": 6.000000000000001e-07,
	"loss": 0.6301,
	"step": 10
	},
	{
	"epoch": 0.026698927871177672,
	"grad_norm": 1.1304019443903548,
	"learning_rate": 1.2666666666666669e-06,
	"loss": 0.6325,
	"step": 20
	},
	{
	"epoch": 0.04004839180676651,
	"grad_norm": 0.7924252148112436,
	"learning_rate": 1.9333333333333336e-06,
	"loss": 0.6061,
	"step": 30
	},
	{
	"epoch": 0.053397855742355345,
	"grad_norm": 0.7615554902176207,
	"learning_rate": 2.6e-06,
	"loss": 0.6039,
	"step": 40
	},
	{
	"epoch": 0.06674731967794419,
	"grad_norm": 0.6884584126571622,
	"learning_rate": 3.266666666666667e-06,
	"loss": 0.6035,
	"step": 50
	},
	{
	"epoch": 0.08009678361353302,
	"grad_norm": 0.6895907181910402,
	"learning_rate": 3.9333333333333335e-06,
	"loss": 0.6177,
	"step": 60
	},
	{
	"epoch": 0.09344624754912186,
	"grad_norm": 0.6789285267200114,
	"learning_rate": 4.600000000000001e-06,
	"loss": 0.603,
	"step": 70
	},
	{
	"epoch": 0.10679571148471069,
	"grad_norm": 0.6467096461947729,
	"learning_rate": 4.99956677884892e-06,
	"loss": 0.6118,
	"step": 80
	},
	{
	"epoch": 0.12014517542029952,
	"grad_norm": 0.6168635819855449,
	"learning_rate": 4.994694765050121e-06,
	"loss": 0.6116,
	"step": 90
	},
	{
	"epoch": 0.13349463935588837,
	"grad_norm": 0.5441117690789925,
	"learning_rate": 4.984419797901491e-06,
	"loss": 0.6046,
	"step": 100
	},
	{
	"epoch": 0.1468441032914772,
	"grad_norm": 0.5172864204707323,
	"learning_rate": 4.9687641306938766e-06,
	"loss": 0.5961,
	"step": 110
	},
	{
	"epoch": 0.16019356722706604,
	"grad_norm": 0.5120924898252496,
	"learning_rate": 4.94776167011629e-06,
	"loss": 0.5891,
	"step": 120
	},
	{
	"epoch": 0.17354303116265488,
	"grad_norm": 0.4936858545975663,
	"learning_rate": 4.921457902821578e-06,
	"loss": 0.5965,
	"step": 130
	},
	{
	"epoch": 0.1868924950982437,
	"grad_norm": 0.5096637378296062,
	"learning_rate": 4.889909796912454e-06,
	"loss": 0.5876,
	"step": 140
	},
	{
	"epoch": 0.20024195903383255,
	"grad_norm": 0.4893103328332192,
	"learning_rate": 4.85318567856128e-06,
	"loss": 0.5866,
	"step": 150
	},
	{
	"epoch": 0.21359142296942138,
	"grad_norm": 0.48634183325283653,
	"learning_rate": 4.811365084030784e-06,
	"loss": 0.5917,
	"step": 160
	},
	{
	"epoch": 0.22694088690501021,
	"grad_norm": 0.5077880866108633,
	"learning_rate": 4.764538587416233e-06,
	"loss": 0.5972,
	"step": 170
	},
	{
	"epoch": 0.24029035084059905,
	"grad_norm": 0.5531086916036718,
	"learning_rate": 4.712807604482108e-06,
	"loss": 0.5692,
	"step": 180
	},
	{
	"epoch": 0.2536398147761879,
	"grad_norm": 0.4815973346852316,
	"learning_rate": 4.656284173018144e-06,
	"loss": 0.5878,
	"step": 190
	},
	{
	"epoch": 0.26698927871177675,
	"grad_norm": 0.4477210102882603,
	"learning_rate": 4.595090710190419e-06,
	"loss": 0.606,
	"step": 200
	},
	{
	"epoch": 0.2803387426473656,
	"grad_norm": 0.4442300924031833,
	"learning_rate": 4.529359747413038e-06,
	"loss": 0.5921,
	"step": 210
	},
	{
	"epoch": 0.2936882065829544,
	"grad_norm": 0.4318914186907017,
	"learning_rate": 4.4592336433146e-06,
	"loss": 0.5954,
	"step": 220
	},
	{
	"epoch": 0.30703767051854325,
	"grad_norm": 0.4822511296612312,
	"learning_rate": 4.384864275421109e-06,
	"loss": 0.6013,
	"step": 230
	},
	{
	"epoch": 0.3203871344541321,
	"grad_norm": 0.44291005932494015,
	"learning_rate": 4.30641271122307e-06,
	"loss": 0.6083,
	"step": 240
	},
	{
	"epoch": 0.3337365983897209,
	"grad_norm": 0.48203103136482495,
	"learning_rate": 4.224048859339175e-06,
	"loss": 0.6216,
	"step": 250
	},
	{
	"epoch": 0.34708606232530975,
	"grad_norm": 0.45150578106097233,
	"learning_rate": 4.1379511015320625e-06,
	"loss": 0.6042,
	"step": 260
	},
	{
	"epoch": 0.3604355262608986,
	"grad_norm": 0.4551136191346761,
	"learning_rate": 4.048305906373151e-06,
	"loss": 0.6163,
	"step": 270
	},
	{
	"epoch": 0.3737849901964874,
	"grad_norm": 0.46692000639310954,
	"learning_rate": 3.955307425393224e-06,
	"loss": 0.576,
	"step": 280
	},
	{
	"epoch": 0.38713445413207626,
	"grad_norm": 0.43289733012383014,
	"learning_rate": 3.859157072593459e-06,
	"loss": 0.5905,
	"step": 290
	},
	{
	"epoch": 0.4004839180676651,
	"grad_norm": 0.47300144920672366,
	"learning_rate": 3.760063088227542e-06,
	"loss": 0.6046,
	"step": 300
	},
	{
	"epoch": 0.4138333820032539,
	"grad_norm": 0.43427902038611416,
	"learning_rate": 3.658240087799655e-06,
	"loss": 0.5795,
	"step": 310
	},
	{
	"epoch": 0.42718284593884276,
	"grad_norm": 0.4321634460614613,
	"learning_rate": 3.5539085972550786e-06,
	"loss": 0.6001,
	"step": 320
	},
	{
	"epoch": 0.4405323098744316,
	"grad_norm": 0.4751769823117227,
	"learning_rate": 3.4472945753701038e-06,
	"loss": 0.5969,
	"step": 330
	},
	{
	"epoch": 0.45388177381002043,
	"grad_norm": 0.4523747463622145,
	"learning_rate": 3.338628924375638e-06,
	"loss": 0.5809,
	"step": 340
	},
	{
	"epoch": 0.46723123774560926,
	"grad_norm": 0.4571186296564021,
	"learning_rate": 3.228146989874389e-06,
	"loss": 0.5884,
	"step": 350
	},
	{
	"epoch": 0.4805807016811981,
	"grad_norm": 0.48390017792164,
	"learning_rate": 3.116088051134695e-06,
	"loss": 0.5854,
	"step": 360
	},
	{
	"epoch": 0.49393016561678693,
	"grad_norm": 0.4656758402293932,
	"learning_rate": 3.002694802864912e-06,
	"loss": 0.6115,
	"step": 370
	},
	{
	"epoch": 0.5072796295523758,
	"grad_norm": 0.4624954532839225,
	"learning_rate": 2.888212829590719e-06,
	"loss": 0.6079,
	"step": 380
	},
	{
	"epoch": 0.5206290934879646,
	"grad_norm": 0.436497560779719,
	"learning_rate": 2.77289007377372e-06,
	"loss": 0.5787,
	"step": 390
	},
	{
	"epoch": 0.5339785574235535,
	"grad_norm": 0.46334201651691187,
	"learning_rate": 2.6569762988232838e-06,
	"loss": 0.6069,
	"step": 400
	},
	{
	"epoch": 0.5473280213591423,
	"grad_norm": 0.4806566661003276,
	"learning_rate": 2.5407225481646146e-06,
	"loss": 0.575,
	"step": 410
	},
	{
	"epoch": 0.5606774852947312,
	"grad_norm": 0.460214567270956,
	"learning_rate": 2.4243806015345988e-06,
	"loss": 0.5858,
	"step": 420
	},
	{
	"epoch": 0.5740269492303199,
	"grad_norm": 0.42739545970036125,
	"learning_rate": 2.3082024296829538e-06,
	"loss": 0.5699,
	"step": 430
	},
	{
	"epoch": 0.5873764131659088,
	"grad_norm": 0.4503645884785317,
	"learning_rate": 2.192439648659699e-06,
	"loss": 0.5823,
	"step": 440
	},
	{
	"epoch": 0.6007258771014976,
	"grad_norm": 0.4776520102412501,
	"learning_rate": 2.0773429748708153e-06,
	"loss": 0.5974,
	"step": 450
	},
	{
	"epoch": 0.6140753410370865,
	"grad_norm": 0.4600206541871604,
	"learning_rate": 1.963161682082342e-06,
	"loss": 0.5905,
	"step": 460
	},
	{
	"epoch": 0.6274248049726753,
	"grad_norm": 0.42642177736501347,
	"learning_rate": 1.850143061548907e-06,
	"loss": 0.5841,
	"step": 470
	},
	{
	"epoch": 0.6407742689082642,
	"grad_norm": 0.4374872861905679,
	"learning_rate": 1.7385318864359304e-06,
	"loss": 0.5883,
	"step": 480
	},
	{
	"epoch": 0.654123732843853,
	"grad_norm": 0.4539731186521712,
	"learning_rate": 1.6285698816954626e-06,
	"loss": 0.5981,
	"step": 490
	},
	{
	"epoch": 0.6674731967794418,
	"grad_norm": 0.49549560937788556,
	"learning_rate": 1.520495200543754e-06,
	"loss": 0.594,
	"step": 500
	},
	{
	"epoch": 0.6808226607150306,
	"grad_norm": 0.442220991522498,
	"learning_rate": 1.41454190867443e-06,
	"loss": 0.5978,
	"step": 510
	},
	{
	"epoch": 0.6941721246506195,
	"grad_norm": 0.44323894790772966,
	"learning_rate": 1.3109394773243117e-06,
	"loss": 0.5867,
	"step": 520
	},
	{
	"epoch": 0.7075215885862083,
	"grad_norm": 0.4233660170980954,
	"learning_rate": 1.2099122862898214e-06,
	"loss": 0.6018,
	"step": 530
	},
	{
	"epoch": 0.7208710525217972,
	"grad_norm": 0.43218789543451824,
	"learning_rate": 1.1116791379703032e-06,
	"loss": 0.6013,
	"step": 540
	},
	{
	"epoch": 0.7342205164573861,
	"grad_norm": 0.44159730183002366,
	"learning_rate": 1.0164527834907468e-06,
	"loss": 0.591,
	"step": 550
	},
	{
	"epoch": 0.7475699803929748,
	"grad_norm": 0.43870818069759426,
	"learning_rate": 9.244394619302338e-07,
	"loss": 0.5691,
	"step": 560
	},
	{
	"epoch": 0.7609194443285637,
	"grad_norm": 0.4477385893330783,
	"learning_rate": 8.35838453654009e-07,
	"loss": 0.6041,
	"step": 570
	},
	{
	"epoch": 0.7742689082641525,
	"grad_norm": 0.43072214351782917,
	"learning_rate": 7.508416487165862e-07,
	"loss": 0.5886,
	"step": 580
	},
	{
	"epoch": 0.7876183721997414,
	"grad_norm": 0.4279974728470172,
	"learning_rate": 6.696331312706245e-07,
	"loss": 0.5754,
	"step": 590
	},
	{
	"epoch": 0.8009678361353302,
	"grad_norm": 0.3917096350694494,
	"learning_rate": 5.923887808816373e-07,
	"loss": 0.5896,
	"step": 600
	},
	{
	"epoch": 0.8143173000709191,
	"grad_norm": 0.4434938485219406,
	"learning_rate": 5.192758916120236e-07,
	"loss": 0.5831,
	"step": 610
	},
	{
	"epoch": 0.8276667640065078,
	"grad_norm": 0.41679775408713765,
	"learning_rate": 4.5045280969937847e-07,
	"loss": 0.5937,
	"step": 620
	},
	{
	"epoch": 0.8410162279420967,
	"grad_norm": 0.4268405005566493,
	"learning_rate": 3.86068590613804e-07,
	"loss": 0.5933,
	"step": 630
	},
	{
	"epoch": 0.8543656918776855,
	"grad_norm": 0.4166184793700984,
	"learning_rate": 3.262626762369525e-07,
	"loss": 0.5993,
	"step": 640
	},
	{
	"epoch": 0.8677151558132744,
	"grad_norm": 0.41797554779045376,
	"learning_rate": 2.7116459286195887e-07,
	"loss": 0.6012,
	"step": 650
	},
	{
	"epoch": 0.8810646197488632,
	"grad_norm": 0.4255310425370243,
	"learning_rate": 2.208936706683351e-07,
	"loss": 0.5856,
	"step": 660
	},
	{
	"epoch": 0.8944140836844521,
	"grad_norm": 0.42943616856150774,
	"learning_rate": 1.7555878527937164e-07,
	"loss": 0.5929,
	"step": 670
	},
	{
	"epoch": 0.9077635476200409,
	"grad_norm": 0.41759560647733296,
	"learning_rate": 1.352581219617824e-07,
	"loss": 0.578,
	"step": 680
	},
	{
	"epoch": 0.9211130115556297,
	"grad_norm": 0.41217774020393527,
	"learning_rate": 1.0007896297828113e-07,
	"loss": 0.5815,
	"step": 690
	},
	{
	"epoch": 0.9344624754912185,
	"grad_norm": 0.4305528132965425,
	"learning_rate": 7.009749855363457e-08,
	"loss": 0.5984,
	"step": 700
	},
	{
	"epoch": 0.9478119394268074,
	"grad_norm": 0.4237537569089471,
	"learning_rate": 4.537866186360207e-08,
	"loss": 0.5797,
	"step": 710
	},
	{
	"epoch": 0.9611614033623962,
	"grad_norm": 0.4354601270782283,
	"learning_rate": 2.59759884041369e-08,
	"loss": 0.5822,
	"step": 720
	},
	{
	"epoch": 0.9745108672979851,
	"grad_norm": 0.4236057022989506,
	"learning_rate": 1.193150004542204e-08,
	"loss": 0.6017,
	"step": 730
	},
	{
	"epoch": 0.9878603312335739,
	"grad_norm": 0.4253092913652658,
	"learning_rate": 3.275614021857609e-09,
	"loss": 0.5792,
	"step": 740
	},
	{
	"epoch": 1.0,
	"grad_norm": 0.4153479478058976,
	"learning_rate": 2.7077055103075233e-11,
	"loss": 0.5653,
	"step": 750
	},
	{
	"epoch": 1.0,
	"step": 750,
	"total_flos": 9.514760021422899e+17,
	"train_loss": 0.5942036323547363,
	"train_runtime": 26089.1141,
	"train_samples_per_second": 14.701,
	"train_steps_per_second": 0.029
	}
	],
	"logging_steps": 10,
	"max_steps": 750,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 250,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 9.514760021422899e+17,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}