Upload folder using huggingface_hub

41d44a3 verified 10 days ago

13.5 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.11666666666666667,
	"eval_steps": 500,
	"global_step": 700,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0016666666666666668,
	"grad_norm": 0.17955420911312103,
	"learning_rate": 1.2272727272727271e-05,
	"loss": 10.305491638183593,
	"step": 10
	},
	{
	"epoch": 0.0033333333333333335,
	"grad_norm": 0.10135336220264435,
	"learning_rate": 2.5909090909090906e-05,
	"loss": 9.537527465820313,
	"step": 20
	},
	{
	"epoch": 0.005,
	"grad_norm": 0.07960466295480728,
	"learning_rate": 3.954545454545454e-05,
	"loss": 9.106172180175781,
	"step": 30
	},
	{
	"epoch": 0.006666666666666667,
	"grad_norm": 0.06795097142457962,
	"learning_rate": 5.318181818181818e-05,
	"loss": 8.718563842773438,
	"step": 40
	},
	{
	"epoch": 0.008333333333333333,
	"grad_norm": 0.05100312456488609,
	"learning_rate": 6.68181818181818e-05,
	"loss": 8.348831176757812,
	"step": 50
	},
	{
	"epoch": 0.01,
	"grad_norm": 0.04906494542956352,
	"learning_rate": 8.045454545454545e-05,
	"loss": 7.987481689453125,
	"step": 60
	},
	{
	"epoch": 0.011666666666666667,
	"grad_norm": 0.04696398228406906,
	"learning_rate": 9.40909090909091e-05,
	"loss": 7.68848876953125,
	"step": 70
	},
	{
	"epoch": 0.013333333333333334,
	"grad_norm": 0.061917733401060104,
	"learning_rate": 0.00010772727272727271,
	"loss": 7.5045921325683596,
	"step": 80
	},
	{
	"epoch": 0.015,
	"grad_norm": 0.057658903300762177,
	"learning_rate": 0.00012136363636363636,
	"loss": 7.318255615234375,
	"step": 90
	},
	{
	"epoch": 0.016666666666666666,
	"grad_norm": 0.07039465755224228,
	"learning_rate": 0.000135,
	"loss": 7.1057685852050785,
	"step": 100
	},
	{
	"epoch": 0.018333333333333333,
	"grad_norm": 0.07016664743423462,
	"learning_rate": 0.00014863636363636362,
	"loss": 6.860664367675781,
	"step": 110
	},
	{
	"epoch": 0.02,
	"grad_norm": 0.05617974326014519,
	"learning_rate": 0.00016227272727272726,
	"loss": 6.646616363525391,
	"step": 120
	},
	{
	"epoch": 0.021666666666666667,
	"grad_norm": 0.06325174123048782,
	"learning_rate": 0.00017590909090909088,
	"loss": 6.355916213989258,
	"step": 130
	},
	{
	"epoch": 0.023333333333333334,
	"grad_norm": 0.055446118116378784,
	"learning_rate": 0.00018954545454545453,
	"loss": 6.141727447509766,
	"step": 140
	},
	{
	"epoch": 0.025,
	"grad_norm": 0.054804038256406784,
	"learning_rate": 0.00020318181818181815,
	"loss": 5.897381591796875,
	"step": 150
	},
	{
	"epoch": 0.02666666666666667,
	"grad_norm": 0.0623275451362133,
	"learning_rate": 0.00021681818181818182,
	"loss": 5.885671234130859,
	"step": 160
	},
	{
	"epoch": 0.028333333333333332,
	"grad_norm": 0.07681386917829514,
	"learning_rate": 0.00023045454545454544,
	"loss": 5.685733032226563,
	"step": 170
	},
	{
	"epoch": 0.03,
	"grad_norm": 0.04866230487823486,
	"learning_rate": 0.00024409090909090905,
	"loss": 5.53424072265625,
	"step": 180
	},
	{
	"epoch": 0.03166666666666667,
	"grad_norm": 0.04755285009741783,
	"learning_rate": 0.0002577272727272727,
	"loss": 5.486316299438476,
	"step": 190
	},
	{
	"epoch": 0.03333333333333333,
	"grad_norm": 0.04537806287407875,
	"learning_rate": 0.0002713636363636363,
	"loss": 5.251799011230469,
	"step": 200
	},
	{
	"epoch": 0.035,
	"grad_norm": 0.06503544747829437,
	"learning_rate": 0.000285,
	"loss": 5.205155944824218,
	"step": 210
	},
	{
	"epoch": 0.03666666666666667,
	"grad_norm": 0.047095887362957,
	"learning_rate": 0.0002986363636363636,
	"loss": 5.0513874053955075,
	"step": 220
	},
	{
	"epoch": 0.03833333333333333,
	"grad_norm": 0.04293389245867729,
	"learning_rate": 0.000299998205309827,
	"loss": 5.07093505859375,
	"step": 230
	},
	{
	"epoch": 0.04,
	"grad_norm": 0.03894070163369179,
	"learning_rate": 0.00029999200149769797,
	"loss": 4.897030258178711,
	"step": 240
	},
	{
	"epoch": 0.041666666666666664,
	"grad_norm": 0.03855148330330849,
	"learning_rate": 0.0002999813665901747,
	"loss": 4.875085067749024,
	"step": 250
	},
	{
	"epoch": 0.043333333333333335,
	"grad_norm": 0.0404694639146328,
	"learning_rate": 0.00029996630090143596,
	"loss": 4.785137939453125,
	"step": 260
	},
	{
	"epoch": 0.045,
	"grad_norm": 0.04759955033659935,
	"learning_rate": 0.0002999468048765554,
	"loss": 4.664665985107422,
	"step": 270
	},
	{
	"epoch": 0.04666666666666667,
	"grad_norm": 0.040492940694093704,
	"learning_rate": 0.0002999228790914889,
	"loss": 4.679857635498047,
	"step": 280
	},
	{
	"epoch": 0.04833333333333333,
	"grad_norm": 0.03861634433269501,
	"learning_rate": 0.0002998945242530568,
	"loss": 4.589862060546875,
	"step": 290
	},
	{
	"epoch": 0.05,
	"grad_norm": 0.03984590247273445,
	"learning_rate": 0.0002998617411989239,
	"loss": 4.600507354736328,
	"step": 300
	},
	{
	"epoch": 0.051666666666666666,
	"grad_norm": 0.04622051492333412,
	"learning_rate": 0.00029982453089757413,
	"loss": 4.467031097412109,
	"step": 310
	},
	{
	"epoch": 0.05333333333333334,
	"grad_norm": 0.043236907571554184,
	"learning_rate": 0.00029978289444828194,
	"loss": 4.450032806396484,
	"step": 320
	},
	{
	"epoch": 0.055,
	"grad_norm": 0.03891831263899803,
	"learning_rate": 0.0002997368330810802,
	"loss": 4.394803237915039,
	"step": 330
	},
	{
	"epoch": 0.056666666666666664,
	"grad_norm": 0.041397932916879654,
	"learning_rate": 0.0002996863481567235,
	"loss": 4.410647201538086,
	"step": 340
	},
	{
	"epoch": 0.058333333333333334,
	"grad_norm": 0.03689548373222351,
	"learning_rate": 0.0002996314411666482,
	"loss": 4.301704406738281,
	"step": 350
	},
	{
	"epoch": 0.06,
	"grad_norm": 0.038849372416734695,
	"learning_rate": 0.0002995721137329282,
	"loss": 4.242988967895508,
	"step": 360
	},
	{
	"epoch": 0.06166666666666667,
	"grad_norm": 0.03877558186650276,
	"learning_rate": 0.00029950836760822704,
	"loss": 4.151651763916016,
	"step": 370
	},
	{
	"epoch": 0.06333333333333334,
	"grad_norm": 0.03422855585813522,
	"learning_rate": 0.0002994402046757462,
	"loss": 4.228427124023438,
	"step": 380
	},
	{
	"epoch": 0.065,
	"grad_norm": 0.040397658944129944,
	"learning_rate": 0.0002993676269491695,
	"loss": 4.222199249267578,
	"step": 390
	},
	{
	"epoch": 0.06666666666666667,
	"grad_norm": 0.03786230832338333,
	"learning_rate": 0.0002992906365726033,
	"loss": 4.117541885375976,
	"step": 400
	},
	{
	"epoch": 0.06833333333333333,
	"grad_norm": 0.0379491001367569,
	"learning_rate": 0.00029920923582051377,
	"loss": 4.12406005859375,
	"step": 410
	},
	{
	"epoch": 0.07,
	"grad_norm": 0.03680192679166794,
	"learning_rate": 0.00029912342709765904,
	"loss": 4.020008850097656,
	"step": 420
	},
	{
	"epoch": 0.07166666666666667,
	"grad_norm": 0.03528207913041115,
	"learning_rate": 0.0002990332129390185,
	"loss": 3.9816268920898437,
	"step": 430
	},
	{
	"epoch": 0.07333333333333333,
	"grad_norm": 0.03580179810523987,
	"learning_rate": 0.00029893859600971793,
	"loss": 3.980207061767578,
	"step": 440
	},
	{
	"epoch": 0.075,
	"grad_norm": 0.034479495137929916,
	"learning_rate": 0.0002988395791049506,
	"loss": 4.027605819702148,
	"step": 450
	},
	{
	"epoch": 0.07666666666666666,
	"grad_norm": 0.034174006432294846,
	"learning_rate": 0.00029873616514989487,
	"loss": 3.981894683837891,
	"step": 460
	},
	{
	"epoch": 0.07833333333333334,
	"grad_norm": 0.0394420325756073,
	"learning_rate": 0.00029862835719962757,
	"loss": 3.915305328369141,
	"step": 470
	},
	{
	"epoch": 0.08,
	"grad_norm": 0.03507312014698982,
	"learning_rate": 0.00029851615843903405,
	"loss": 3.907708740234375,
	"step": 480
	},
	{
	"epoch": 0.08166666666666667,
	"grad_norm": 0.035838689655065536,
	"learning_rate": 0.0002983995721827137,
	"loss": 3.8745994567871094,
	"step": 490
	},
	{
	"epoch": 0.08333333333333333,
	"grad_norm": 0.03250565007328987,
	"learning_rate": 0.00029827860187488247,
	"loss": 3.863072967529297,
	"step": 500
	},
	{
	"epoch": 0.085,
	"grad_norm": 0.037158895283937454,
	"learning_rate": 0.00029815325108927063,
	"loss": 3.7035972595214846,
	"step": 510
	},
	{
	"epoch": 0.08666666666666667,
	"grad_norm": 0.03817693144083023,
	"learning_rate": 0.00029802352352901757,
	"loss": 3.784911346435547,
	"step": 520
	},
	{
	"epoch": 0.08833333333333333,
	"grad_norm": 0.03666158393025398,
	"learning_rate": 0.0002978894230265623,
	"loss": 3.753315734863281,
	"step": 530
	},
	{
	"epoch": 0.09,
	"grad_norm": 0.03293011710047722,
	"learning_rate": 0.0002977509535435302,
	"loss": 3.711289978027344,
	"step": 540
	},
	{
	"epoch": 0.09166666666666666,
	"grad_norm": 0.03294748812913895,
	"learning_rate": 0.00029760811917061607,
	"loss": 3.7139713287353517,
	"step": 550
	},
	{
	"epoch": 0.09333333333333334,
	"grad_norm": 0.03147300332784653,
	"learning_rate": 0.00029746092412746296,
	"loss": 3.583917999267578,
	"step": 560
	},
	{
	"epoch": 0.095,
	"grad_norm": 0.03498848155140877,
	"learning_rate": 0.000297309372762538,
	"loss": 3.6284183502197265,
	"step": 570
	},
	{
	"epoch": 0.09666666666666666,
	"grad_norm": 0.030913719907402992,
	"learning_rate": 0.0002971534695530037,
	"loss": 3.5620845794677733,
	"step": 580
	},
	{
	"epoch": 0.09833333333333333,
	"grad_norm": 0.030253689736127853,
	"learning_rate": 0.00029699321910458556,
	"loss": 3.5500133514404295,
	"step": 590
	},
	{
	"epoch": 0.1,
	"grad_norm": 0.03715764731168747,
	"learning_rate": 0.00029682862615143616,
	"loss": 3.5795806884765624,
	"step": 600
	},
	{
	"epoch": 0.10166666666666667,
	"grad_norm": 0.032984547317028046,
	"learning_rate": 0.00029665969555599535,
	"loss": 3.6005035400390626,
	"step": 610
	},
	{
	"epoch": 0.10333333333333333,
	"grad_norm": 0.03254346922039986,
	"learning_rate": 0.0002964864323088464,
	"loss": 3.54862060546875,
	"step": 620
	},
	{
	"epoch": 0.105,
	"grad_norm": 0.03320642560720444,
	"learning_rate": 0.00029630884152856874,
	"loss": 3.534542465209961,
	"step": 630
	},
	{
	"epoch": 0.10666666666666667,
	"grad_norm": 0.031381070613861084,
	"learning_rate": 0.00029612692846158676,
	"loss": 3.502734375,
	"step": 640
	},
	{
	"epoch": 0.10833333333333334,
	"grad_norm": 0.03120303899049759,
	"learning_rate": 0.00029594069848201476,
	"loss": 3.481256103515625,
	"step": 650
	},
	{
	"epoch": 0.11,
	"grad_norm": 0.03503166139125824,
	"learning_rate": 0.00029575015709149813,
	"loss": 3.464976501464844,
	"step": 660
	},
	{
	"epoch": 0.11166666666666666,
	"grad_norm": 0.03037203475832939,
	"learning_rate": 0.0002955553099190508,
	"loss": 3.3426334381103517,
	"step": 670
	},
	{
	"epoch": 0.11333333333333333,
	"grad_norm": 0.030078619718551636,
	"learning_rate": 0.0002953561627208891,
	"loss": 3.386351776123047,
	"step": 680
	},
	{
	"epoch": 0.115,
	"grad_norm": 0.030806683003902435,
	"learning_rate": 0.0002951527213802617,
	"loss": 3.241590118408203,
	"step": 690
	},
	{
	"epoch": 0.11666666666666667,
	"grad_norm": 0.03040868043899536,
	"learning_rate": 0.00029494499190727566,
	"loss": 3.414640426635742,
	"step": 700
	}
	],
	"logging_steps": 10,
	"max_steps": 6000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 9223372036854775807,
	"save_steps": 100,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 1.06588538929152e+17,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}