SykoLLM-V5.0-Beta / trainer_state.json
SykoSLM's picture
Upload folder using huggingface_hub
41d44a3 verified
{
"best_global_step": null,
"best_metric": null,
"best_model_checkpoint": null,
"epoch": 0.11666666666666667,
"eval_steps": 500,
"global_step": 700,
"is_hyper_param_search": false,
"is_local_process_zero": true,
"is_world_process_zero": true,
"log_history": [
{
"epoch": 0.0016666666666666668,
"grad_norm": 0.17955420911312103,
"learning_rate": 1.2272727272727271e-05,
"loss": 10.305491638183593,
"step": 10
},
{
"epoch": 0.0033333333333333335,
"grad_norm": 0.10135336220264435,
"learning_rate": 2.5909090909090906e-05,
"loss": 9.537527465820313,
"step": 20
},
{
"epoch": 0.005,
"grad_norm": 0.07960466295480728,
"learning_rate": 3.954545454545454e-05,
"loss": 9.106172180175781,
"step": 30
},
{
"epoch": 0.006666666666666667,
"grad_norm": 0.06795097142457962,
"learning_rate": 5.318181818181818e-05,
"loss": 8.718563842773438,
"step": 40
},
{
"epoch": 0.008333333333333333,
"grad_norm": 0.05100312456488609,
"learning_rate": 6.68181818181818e-05,
"loss": 8.348831176757812,
"step": 50
},
{
"epoch": 0.01,
"grad_norm": 0.04906494542956352,
"learning_rate": 8.045454545454545e-05,
"loss": 7.987481689453125,
"step": 60
},
{
"epoch": 0.011666666666666667,
"grad_norm": 0.04696398228406906,
"learning_rate": 9.40909090909091e-05,
"loss": 7.68848876953125,
"step": 70
},
{
"epoch": 0.013333333333333334,
"grad_norm": 0.061917733401060104,
"learning_rate": 0.00010772727272727271,
"loss": 7.5045921325683596,
"step": 80
},
{
"epoch": 0.015,
"grad_norm": 0.057658903300762177,
"learning_rate": 0.00012136363636363636,
"loss": 7.318255615234375,
"step": 90
},
{
"epoch": 0.016666666666666666,
"grad_norm": 0.07039465755224228,
"learning_rate": 0.000135,
"loss": 7.1057685852050785,
"step": 100
},
{
"epoch": 0.018333333333333333,
"grad_norm": 0.07016664743423462,
"learning_rate": 0.00014863636363636362,
"loss": 6.860664367675781,
"step": 110
},
{
"epoch": 0.02,
"grad_norm": 0.05617974326014519,
"learning_rate": 0.00016227272727272726,
"loss": 6.646616363525391,
"step": 120
},
{
"epoch": 0.021666666666666667,
"grad_norm": 0.06325174123048782,
"learning_rate": 0.00017590909090909088,
"loss": 6.355916213989258,
"step": 130
},
{
"epoch": 0.023333333333333334,
"grad_norm": 0.055446118116378784,
"learning_rate": 0.00018954545454545453,
"loss": 6.141727447509766,
"step": 140
},
{
"epoch": 0.025,
"grad_norm": 0.054804038256406784,
"learning_rate": 0.00020318181818181815,
"loss": 5.897381591796875,
"step": 150
},
{
"epoch": 0.02666666666666667,
"grad_norm": 0.0623275451362133,
"learning_rate": 0.00021681818181818182,
"loss": 5.885671234130859,
"step": 160
},
{
"epoch": 0.028333333333333332,
"grad_norm": 0.07681386917829514,
"learning_rate": 0.00023045454545454544,
"loss": 5.685733032226563,
"step": 170
},
{
"epoch": 0.03,
"grad_norm": 0.04866230487823486,
"learning_rate": 0.00024409090909090905,
"loss": 5.53424072265625,
"step": 180
},
{
"epoch": 0.03166666666666667,
"grad_norm": 0.04755285009741783,
"learning_rate": 0.0002577272727272727,
"loss": 5.486316299438476,
"step": 190
},
{
"epoch": 0.03333333333333333,
"grad_norm": 0.04537806287407875,
"learning_rate": 0.0002713636363636363,
"loss": 5.251799011230469,
"step": 200
},
{
"epoch": 0.035,
"grad_norm": 0.06503544747829437,
"learning_rate": 0.000285,
"loss": 5.205155944824218,
"step": 210
},
{
"epoch": 0.03666666666666667,
"grad_norm": 0.047095887362957,
"learning_rate": 0.0002986363636363636,
"loss": 5.0513874053955075,
"step": 220
},
{
"epoch": 0.03833333333333333,
"grad_norm": 0.04293389245867729,
"learning_rate": 0.000299998205309827,
"loss": 5.07093505859375,
"step": 230
},
{
"epoch": 0.04,
"grad_norm": 0.03894070163369179,
"learning_rate": 0.00029999200149769797,
"loss": 4.897030258178711,
"step": 240
},
{
"epoch": 0.041666666666666664,
"grad_norm": 0.03855148330330849,
"learning_rate": 0.0002999813665901747,
"loss": 4.875085067749024,
"step": 250
},
{
"epoch": 0.043333333333333335,
"grad_norm": 0.0404694639146328,
"learning_rate": 0.00029996630090143596,
"loss": 4.785137939453125,
"step": 260
},
{
"epoch": 0.045,
"grad_norm": 0.04759955033659935,
"learning_rate": 0.0002999468048765554,
"loss": 4.664665985107422,
"step": 270
},
{
"epoch": 0.04666666666666667,
"grad_norm": 0.040492940694093704,
"learning_rate": 0.0002999228790914889,
"loss": 4.679857635498047,
"step": 280
},
{
"epoch": 0.04833333333333333,
"grad_norm": 0.03861634433269501,
"learning_rate": 0.0002998945242530568,
"loss": 4.589862060546875,
"step": 290
},
{
"epoch": 0.05,
"grad_norm": 0.03984590247273445,
"learning_rate": 0.0002998617411989239,
"loss": 4.600507354736328,
"step": 300
},
{
"epoch": 0.051666666666666666,
"grad_norm": 0.04622051492333412,
"learning_rate": 0.00029982453089757413,
"loss": 4.467031097412109,
"step": 310
},
{
"epoch": 0.05333333333333334,
"grad_norm": 0.043236907571554184,
"learning_rate": 0.00029978289444828194,
"loss": 4.450032806396484,
"step": 320
},
{
"epoch": 0.055,
"grad_norm": 0.03891831263899803,
"learning_rate": 0.0002997368330810802,
"loss": 4.394803237915039,
"step": 330
},
{
"epoch": 0.056666666666666664,
"grad_norm": 0.041397932916879654,
"learning_rate": 0.0002996863481567235,
"loss": 4.410647201538086,
"step": 340
},
{
"epoch": 0.058333333333333334,
"grad_norm": 0.03689548373222351,
"learning_rate": 0.0002996314411666482,
"loss": 4.301704406738281,
"step": 350
},
{
"epoch": 0.06,
"grad_norm": 0.038849372416734695,
"learning_rate": 0.0002995721137329282,
"loss": 4.242988967895508,
"step": 360
},
{
"epoch": 0.06166666666666667,
"grad_norm": 0.03877558186650276,
"learning_rate": 0.00029950836760822704,
"loss": 4.151651763916016,
"step": 370
},
{
"epoch": 0.06333333333333334,
"grad_norm": 0.03422855585813522,
"learning_rate": 0.0002994402046757462,
"loss": 4.228427124023438,
"step": 380
},
{
"epoch": 0.065,
"grad_norm": 0.040397658944129944,
"learning_rate": 0.0002993676269491695,
"loss": 4.222199249267578,
"step": 390
},
{
"epoch": 0.06666666666666667,
"grad_norm": 0.03786230832338333,
"learning_rate": 0.0002992906365726033,
"loss": 4.117541885375976,
"step": 400
},
{
"epoch": 0.06833333333333333,
"grad_norm": 0.0379491001367569,
"learning_rate": 0.00029920923582051377,
"loss": 4.12406005859375,
"step": 410
},
{
"epoch": 0.07,
"grad_norm": 0.03680192679166794,
"learning_rate": 0.00029912342709765904,
"loss": 4.020008850097656,
"step": 420
},
{
"epoch": 0.07166666666666667,
"grad_norm": 0.03528207913041115,
"learning_rate": 0.0002990332129390185,
"loss": 3.9816268920898437,
"step": 430
},
{
"epoch": 0.07333333333333333,
"grad_norm": 0.03580179810523987,
"learning_rate": 0.00029893859600971793,
"loss": 3.980207061767578,
"step": 440
},
{
"epoch": 0.075,
"grad_norm": 0.034479495137929916,
"learning_rate": 0.0002988395791049506,
"loss": 4.027605819702148,
"step": 450
},
{
"epoch": 0.07666666666666666,
"grad_norm": 0.034174006432294846,
"learning_rate": 0.00029873616514989487,
"loss": 3.981894683837891,
"step": 460
},
{
"epoch": 0.07833333333333334,
"grad_norm": 0.0394420325756073,
"learning_rate": 0.00029862835719962757,
"loss": 3.915305328369141,
"step": 470
},
{
"epoch": 0.08,
"grad_norm": 0.03507312014698982,
"learning_rate": 0.00029851615843903405,
"loss": 3.907708740234375,
"step": 480
},
{
"epoch": 0.08166666666666667,
"grad_norm": 0.035838689655065536,
"learning_rate": 0.0002983995721827137,
"loss": 3.8745994567871094,
"step": 490
},
{
"epoch": 0.08333333333333333,
"grad_norm": 0.03250565007328987,
"learning_rate": 0.00029827860187488247,
"loss": 3.863072967529297,
"step": 500
},
{
"epoch": 0.085,
"grad_norm": 0.037158895283937454,
"learning_rate": 0.00029815325108927063,
"loss": 3.7035972595214846,
"step": 510
},
{
"epoch": 0.08666666666666667,
"grad_norm": 0.03817693144083023,
"learning_rate": 0.00029802352352901757,
"loss": 3.784911346435547,
"step": 520
},
{
"epoch": 0.08833333333333333,
"grad_norm": 0.03666158393025398,
"learning_rate": 0.0002978894230265623,
"loss": 3.753315734863281,
"step": 530
},
{
"epoch": 0.09,
"grad_norm": 0.03293011710047722,
"learning_rate": 0.0002977509535435302,
"loss": 3.711289978027344,
"step": 540
},
{
"epoch": 0.09166666666666666,
"grad_norm": 0.03294748812913895,
"learning_rate": 0.00029760811917061607,
"loss": 3.7139713287353517,
"step": 550
},
{
"epoch": 0.09333333333333334,
"grad_norm": 0.03147300332784653,
"learning_rate": 0.00029746092412746296,
"loss": 3.583917999267578,
"step": 560
},
{
"epoch": 0.095,
"grad_norm": 0.03498848155140877,
"learning_rate": 0.000297309372762538,
"loss": 3.6284183502197265,
"step": 570
},
{
"epoch": 0.09666666666666666,
"grad_norm": 0.030913719907402992,
"learning_rate": 0.0002971534695530037,
"loss": 3.5620845794677733,
"step": 580
},
{
"epoch": 0.09833333333333333,
"grad_norm": 0.030253689736127853,
"learning_rate": 0.00029699321910458556,
"loss": 3.5500133514404295,
"step": 590
},
{
"epoch": 0.1,
"grad_norm": 0.03715764731168747,
"learning_rate": 0.00029682862615143616,
"loss": 3.5795806884765624,
"step": 600
},
{
"epoch": 0.10166666666666667,
"grad_norm": 0.032984547317028046,
"learning_rate": 0.00029665969555599535,
"loss": 3.6005035400390626,
"step": 610
},
{
"epoch": 0.10333333333333333,
"grad_norm": 0.03254346922039986,
"learning_rate": 0.0002964864323088464,
"loss": 3.54862060546875,
"step": 620
},
{
"epoch": 0.105,
"grad_norm": 0.03320642560720444,
"learning_rate": 0.00029630884152856874,
"loss": 3.534542465209961,
"step": 630
},
{
"epoch": 0.10666666666666667,
"grad_norm": 0.031381070613861084,
"learning_rate": 0.00029612692846158676,
"loss": 3.502734375,
"step": 640
},
{
"epoch": 0.10833333333333334,
"grad_norm": 0.03120303899049759,
"learning_rate": 0.00029594069848201476,
"loss": 3.481256103515625,
"step": 650
},
{
"epoch": 0.11,
"grad_norm": 0.03503166139125824,
"learning_rate": 0.00029575015709149813,
"loss": 3.464976501464844,
"step": 660
},
{
"epoch": 0.11166666666666666,
"grad_norm": 0.03037203475832939,
"learning_rate": 0.0002955553099190508,
"loss": 3.3426334381103517,
"step": 670
},
{
"epoch": 0.11333333333333333,
"grad_norm": 0.030078619718551636,
"learning_rate": 0.0002953561627208891,
"loss": 3.386351776123047,
"step": 680
},
{
"epoch": 0.115,
"grad_norm": 0.030806683003902435,
"learning_rate": 0.0002951527213802617,
"loss": 3.241590118408203,
"step": 690
},
{
"epoch": 0.11666666666666667,
"grad_norm": 0.03040868043899536,
"learning_rate": 0.00029494499190727566,
"loss": 3.414640426635742,
"step": 700
}
],
"logging_steps": 10,
"max_steps": 6000,
"num_input_tokens_seen": 0,
"num_train_epochs": 9223372036854775807,
"save_steps": 100,
"stateful_callbacks": {
"TrainerControl": {
"args": {
"should_epoch_stop": false,
"should_evaluate": false,
"should_log": false,
"should_save": true,
"should_training_stop": false
},
"attributes": {}
}
},
"total_flos": 1.06588538929152e+17,
"train_batch_size": 4,
"trial_name": null,
"trial_params": null
}