Ved-Code-7B-LoRA / trainer_state.json
anupbth1's picture
Upload folder using huggingface_hub
9b4c894 verified
{
"best_global_step": null,
"best_metric": null,
"best_model_checkpoint": null,
"epoch": 0.39603960396039606,
"eval_steps": 500,
"global_step": 2500,
"is_hyper_param_search": false,
"is_local_process_zero": true,
"is_world_process_zero": true,
"log_history": [
{
"epoch": 0.0015841584158415843,
"grad_norm": 0.06556262075901031,
"learning_rate": 7.2e-06,
"loss": 0.6151810169219971,
"step": 10
},
{
"epoch": 0.0031683168316831685,
"grad_norm": 0.06630237400531769,
"learning_rate": 1.52e-05,
"loss": 0.5479158401489258,
"step": 20
},
{
"epoch": 0.004752475247524752,
"grad_norm": 0.08819983899593353,
"learning_rate": 2.32e-05,
"loss": 0.580345344543457,
"step": 30
},
{
"epoch": 0.006336633663366337,
"grad_norm": 0.07164224237203598,
"learning_rate": 3.12e-05,
"loss": 0.5383748054504395,
"step": 40
},
{
"epoch": 0.007920792079207921,
"grad_norm": 0.08992987126111984,
"learning_rate": 3.9200000000000004e-05,
"loss": 0.5134584426879882,
"step": 50
},
{
"epoch": 0.009504950495049505,
"grad_norm": 0.09747444093227386,
"learning_rate": 4.72e-05,
"loss": 0.52029390335083,
"step": 60
},
{
"epoch": 0.011089108910891089,
"grad_norm": 0.11321567744016647,
"learning_rate": 5.520000000000001e-05,
"loss": 0.4892634391784668,
"step": 70
},
{
"epoch": 0.012673267326732674,
"grad_norm": 0.08909470587968826,
"learning_rate": 6.32e-05,
"loss": 0.4739553928375244,
"step": 80
},
{
"epoch": 0.014257425742574258,
"grad_norm": 0.12608297169208527,
"learning_rate": 7.12e-05,
"loss": 0.4961063385009766,
"step": 90
},
{
"epoch": 0.015841584158415842,
"grad_norm": 0.11412779241800308,
"learning_rate": 7.920000000000001e-05,
"loss": 0.4843149662017822,
"step": 100
},
{
"epoch": 0.017425742574257427,
"grad_norm": 0.12621361017227173,
"learning_rate": 8.72e-05,
"loss": 0.48389220237731934,
"step": 110
},
{
"epoch": 0.01900990099009901,
"grad_norm": 0.12417051941156387,
"learning_rate": 9.52e-05,
"loss": 0.4838583946228027,
"step": 120
},
{
"epoch": 0.020594059405940595,
"grad_norm": 0.14021746814250946,
"learning_rate": 0.0001032,
"loss": 0.45241260528564453,
"step": 130
},
{
"epoch": 0.022178217821782177,
"grad_norm": 0.09451174736022949,
"learning_rate": 0.00011120000000000002,
"loss": 0.44155592918395997,
"step": 140
},
{
"epoch": 0.023762376237623763,
"grad_norm": 0.12511184811592102,
"learning_rate": 0.0001192,
"loss": 0.47519407272338865,
"step": 150
},
{
"epoch": 0.025346534653465348,
"grad_norm": 0.13305315375328064,
"learning_rate": 0.0001272,
"loss": 0.4809138298034668,
"step": 160
},
{
"epoch": 0.02693069306930693,
"grad_norm": 0.11137474328279495,
"learning_rate": 0.0001352,
"loss": 0.4950218677520752,
"step": 170
},
{
"epoch": 0.028514851485148516,
"grad_norm": 0.14295189082622528,
"learning_rate": 0.0001432,
"loss": 0.44295687675476075,
"step": 180
},
{
"epoch": 0.030099009900990098,
"grad_norm": 0.11107228696346283,
"learning_rate": 0.00015120000000000002,
"loss": 0.5302713871002197,
"step": 190
},
{
"epoch": 0.031683168316831684,
"grad_norm": 0.11264927685260773,
"learning_rate": 0.00015920000000000002,
"loss": 0.4833076000213623,
"step": 200
},
{
"epoch": 0.03326732673267327,
"grad_norm": 0.1116105169057846,
"learning_rate": 0.0001672,
"loss": 0.47181167602539065,
"step": 210
},
{
"epoch": 0.034851485148514855,
"grad_norm": 0.12198604643344879,
"learning_rate": 0.0001752,
"loss": 0.45895776748657224,
"step": 220
},
{
"epoch": 0.03643564356435643,
"grad_norm": 0.09375844895839691,
"learning_rate": 0.0001832,
"loss": 0.46950302124023435,
"step": 230
},
{
"epoch": 0.03801980198019802,
"grad_norm": 0.12337016314268112,
"learning_rate": 0.0001912,
"loss": 0.5031816482543945,
"step": 240
},
{
"epoch": 0.039603960396039604,
"grad_norm": 0.1063649132847786,
"learning_rate": 0.00019920000000000002,
"loss": 0.4671049118041992,
"step": 250
},
{
"epoch": 0.04118811881188119,
"grad_norm": 0.09282703697681427,
"learning_rate": 0.00019920000000000002,
"loss": 0.4365957260131836,
"step": 260
},
{
"epoch": 0.042772277227722776,
"grad_norm": 0.11267738789319992,
"learning_rate": 0.00019831111111111112,
"loss": 0.480745267868042,
"step": 270
},
{
"epoch": 0.044356435643564354,
"grad_norm": 0.1347280740737915,
"learning_rate": 0.00019742222222222225,
"loss": 0.46505031585693357,
"step": 280
},
{
"epoch": 0.04594059405940594,
"grad_norm": 0.10801614820957184,
"learning_rate": 0.00019653333333333336,
"loss": 0.46571884155273435,
"step": 290
},
{
"epoch": 0.047524752475247525,
"grad_norm": 0.12413369119167328,
"learning_rate": 0.00019564444444444446,
"loss": 0.4441887378692627,
"step": 300
},
{
"epoch": 0.04910891089108911,
"grad_norm": 0.0879567414522171,
"learning_rate": 0.00019475555555555557,
"loss": 0.43287091255187987,
"step": 310
},
{
"epoch": 0.050693069306930696,
"grad_norm": 0.09971684217453003,
"learning_rate": 0.0001938666666666667,
"loss": 0.45388994216918943,
"step": 320
},
{
"epoch": 0.052277227722772275,
"grad_norm": 0.09890090674161911,
"learning_rate": 0.0001929777777777778,
"loss": 0.42935981750488283,
"step": 330
},
{
"epoch": 0.05386138613861386,
"grad_norm": 0.09626103192567825,
"learning_rate": 0.0001920888888888889,
"loss": 0.4544685363769531,
"step": 340
},
{
"epoch": 0.055445544554455446,
"grad_norm": 0.09048525989055634,
"learning_rate": 0.0001912,
"loss": 0.4353527069091797,
"step": 350
},
{
"epoch": 0.05702970297029703,
"grad_norm": 0.1372356116771698,
"learning_rate": 0.00019031111111111112,
"loss": 0.4675909519195557,
"step": 360
},
{
"epoch": 0.05861386138613861,
"grad_norm": 0.11068324744701385,
"learning_rate": 0.00018942222222222222,
"loss": 0.4603554725646973,
"step": 370
},
{
"epoch": 0.060198019801980196,
"grad_norm": 0.10414744913578033,
"learning_rate": 0.00018853333333333333,
"loss": 0.45653133392333983,
"step": 380
},
{
"epoch": 0.06178217821782178,
"grad_norm": 0.15728670358657837,
"learning_rate": 0.00018764444444444446,
"loss": 0.46082301139831544,
"step": 390
},
{
"epoch": 0.06336633663366337,
"grad_norm": 0.14269177615642548,
"learning_rate": 0.00018675555555555556,
"loss": 0.47365808486938477,
"step": 400
},
{
"epoch": 0.06495049504950495,
"grad_norm": 0.08951593935489655,
"learning_rate": 0.00018586666666666667,
"loss": 0.4434823036193848,
"step": 410
},
{
"epoch": 0.06653465346534654,
"grad_norm": 0.1097274124622345,
"learning_rate": 0.00018497777777777777,
"loss": 0.4335814952850342,
"step": 420
},
{
"epoch": 0.06811881188118812,
"grad_norm": 0.14073720574378967,
"learning_rate": 0.00018408888888888888,
"loss": 0.42411150932312014,
"step": 430
},
{
"epoch": 0.06970297029702971,
"grad_norm": 0.12873341143131256,
"learning_rate": 0.0001832,
"loss": 0.4766682624816895,
"step": 440
},
{
"epoch": 0.07128712871287128,
"grad_norm": 0.07945746928453445,
"learning_rate": 0.0001823111111111111,
"loss": 0.41811428070068357,
"step": 450
},
{
"epoch": 0.07287128712871287,
"grad_norm": 0.13228054344654083,
"learning_rate": 0.00018142222222222222,
"loss": 0.466593599319458,
"step": 460
},
{
"epoch": 0.07445544554455445,
"grad_norm": 0.12058842182159424,
"learning_rate": 0.00018053333333333332,
"loss": 0.4782561302185059,
"step": 470
},
{
"epoch": 0.07603960396039604,
"grad_norm": 0.10949750244617462,
"learning_rate": 0.00017964444444444445,
"loss": 0.4511709213256836,
"step": 480
},
{
"epoch": 0.07762376237623762,
"grad_norm": 0.133078470826149,
"learning_rate": 0.00017875555555555556,
"loss": 0.4502392292022705,
"step": 490
},
{
"epoch": 0.07920792079207921,
"grad_norm": 0.09396151453256607,
"learning_rate": 0.00017786666666666666,
"loss": 0.44018964767456054,
"step": 500
},
{
"epoch": 0.0807920792079208,
"grad_norm": 0.1271175742149353,
"learning_rate": 0.00017697777777777777,
"loss": 0.4549531936645508,
"step": 510
},
{
"epoch": 0.08237623762376238,
"grad_norm": 0.13191580772399902,
"learning_rate": 0.0001760888888888889,
"loss": 0.4755974769592285,
"step": 520
},
{
"epoch": 0.08396039603960397,
"grad_norm": 0.10729491710662842,
"learning_rate": 0.0001752,
"loss": 0.41382646560668945,
"step": 530
},
{
"epoch": 0.08554455445544555,
"grad_norm": 0.08870874345302582,
"learning_rate": 0.0001743111111111111,
"loss": 0.4281641483306885,
"step": 540
},
{
"epoch": 0.08712871287128712,
"grad_norm": 0.1239466741681099,
"learning_rate": 0.00017342222222222224,
"loss": 0.4584688186645508,
"step": 550
},
{
"epoch": 0.08871287128712871,
"grad_norm": 0.11894556134939194,
"learning_rate": 0.00017253333333333334,
"loss": 0.46378793716430666,
"step": 560
},
{
"epoch": 0.0902970297029703,
"grad_norm": 0.11373710632324219,
"learning_rate": 0.00017164444444444445,
"loss": 0.49725875854492185,
"step": 570
},
{
"epoch": 0.09188118811881188,
"grad_norm": 0.10424434393644333,
"learning_rate": 0.00017075555555555555,
"loss": 0.45825581550598143,
"step": 580
},
{
"epoch": 0.09346534653465347,
"grad_norm": 0.11420601606369019,
"learning_rate": 0.00016986666666666668,
"loss": 0.45974411964416506,
"step": 590
},
{
"epoch": 0.09504950495049505,
"grad_norm": 0.08729609847068787,
"learning_rate": 0.0001689777777777778,
"loss": 0.41493749618530273,
"step": 600
},
{
"epoch": 0.09663366336633664,
"grad_norm": 0.12459246814250946,
"learning_rate": 0.0001680888888888889,
"loss": 0.45732903480529785,
"step": 610
},
{
"epoch": 0.09821782178217822,
"grad_norm": 0.11139161139726639,
"learning_rate": 0.0001672,
"loss": 0.452393913269043,
"step": 620
},
{
"epoch": 0.09980198019801981,
"grad_norm": 0.13227005302906036,
"learning_rate": 0.00016631111111111113,
"loss": 0.4697711944580078,
"step": 630
},
{
"epoch": 0.10138613861386139,
"grad_norm": 0.11359205096960068,
"learning_rate": 0.00016542222222222223,
"loss": 0.44234395027160645,
"step": 640
},
{
"epoch": 0.10297029702970296,
"grad_norm": 0.10215561091899872,
"learning_rate": 0.00016453333333333334,
"loss": 0.4134825706481934,
"step": 650
},
{
"epoch": 0.10455445544554455,
"grad_norm": 0.10554394870996475,
"learning_rate": 0.00016364444444444444,
"loss": 0.4320853233337402,
"step": 660
},
{
"epoch": 0.10613861386138614,
"grad_norm": 0.10074356943368912,
"learning_rate": 0.00016275555555555558,
"loss": 0.47079954147338865,
"step": 670
},
{
"epoch": 0.10772277227722772,
"grad_norm": 0.1219848170876503,
"learning_rate": 0.00016186666666666668,
"loss": 0.44622125625610354,
"step": 680
},
{
"epoch": 0.1093069306930693,
"grad_norm": 0.10316894948482513,
"learning_rate": 0.00016097777777777778,
"loss": 0.4087726593017578,
"step": 690
},
{
"epoch": 0.11089108910891089,
"grad_norm": 0.09130258858203888,
"learning_rate": 0.0001600888888888889,
"loss": 0.4572176933288574,
"step": 700
},
{
"epoch": 0.11247524752475248,
"grad_norm": 0.13283619284629822,
"learning_rate": 0.00015920000000000002,
"loss": 0.44556303024291993,
"step": 710
},
{
"epoch": 0.11405940594059406,
"grad_norm": 0.09566845744848251,
"learning_rate": 0.00015831111111111113,
"loss": 0.4299760818481445,
"step": 720
},
{
"epoch": 0.11564356435643565,
"grad_norm": 0.09357430040836334,
"learning_rate": 0.00015742222222222223,
"loss": 0.4479306697845459,
"step": 730
},
{
"epoch": 0.11722772277227722,
"grad_norm": 0.08751889318227768,
"learning_rate": 0.00015653333333333333,
"loss": 0.42789626121520996,
"step": 740
},
{
"epoch": 0.1188118811881188,
"grad_norm": 0.12049714475870132,
"learning_rate": 0.00015564444444444447,
"loss": 0.47111997604370115,
"step": 750
},
{
"epoch": 0.12039603960396039,
"grad_norm": 0.10753843188285828,
"learning_rate": 0.00015475555555555557,
"loss": 0.42185111045837403,
"step": 760
},
{
"epoch": 0.12198019801980198,
"grad_norm": 0.1295730322599411,
"learning_rate": 0.00015386666666666668,
"loss": 0.4739703178405762,
"step": 770
},
{
"epoch": 0.12356435643564356,
"grad_norm": 0.08475282788276672,
"learning_rate": 0.00015297777777777778,
"loss": 0.4738037586212158,
"step": 780
},
{
"epoch": 0.12514851485148515,
"grad_norm": 0.10000675916671753,
"learning_rate": 0.0001520888888888889,
"loss": 0.44550237655639646,
"step": 790
},
{
"epoch": 0.12673267326732673,
"grad_norm": 0.10124850273132324,
"learning_rate": 0.00015120000000000002,
"loss": 0.41213264465332033,
"step": 800
},
{
"epoch": 0.12831683168316832,
"grad_norm": 0.09979727119207382,
"learning_rate": 0.00015031111111111112,
"loss": 0.4510068893432617,
"step": 810
},
{
"epoch": 0.1299009900990099,
"grad_norm": 0.10252496600151062,
"learning_rate": 0.00014942222222222223,
"loss": 0.4421220302581787,
"step": 820
},
{
"epoch": 0.1314851485148515,
"grad_norm": 0.11230350285768509,
"learning_rate": 0.00014853333333333336,
"loss": 0.4216045379638672,
"step": 830
},
{
"epoch": 0.13306930693069308,
"grad_norm": 0.10745341330766678,
"learning_rate": 0.00014764444444444446,
"loss": 0.45771260261535646,
"step": 840
},
{
"epoch": 0.13465346534653466,
"grad_norm": 0.10362319648265839,
"learning_rate": 0.00014675555555555557,
"loss": 0.456635570526123,
"step": 850
},
{
"epoch": 0.13623762376237625,
"grad_norm": 0.10825644433498383,
"learning_rate": 0.00014586666666666667,
"loss": 0.4578948974609375,
"step": 860
},
{
"epoch": 0.13782178217821783,
"grad_norm": 0.09999847412109375,
"learning_rate": 0.0001449777777777778,
"loss": 0.4257713794708252,
"step": 870
},
{
"epoch": 0.13940594059405942,
"grad_norm": 0.09439483284950256,
"learning_rate": 0.0001440888888888889,
"loss": 0.4488701820373535,
"step": 880
},
{
"epoch": 0.14099009900990098,
"grad_norm": 0.10177771002054214,
"learning_rate": 0.0001432,
"loss": 0.4768357276916504,
"step": 890
},
{
"epoch": 0.14257425742574256,
"grad_norm": 0.09642136842012405,
"learning_rate": 0.00014231111111111112,
"loss": 0.4253392696380615,
"step": 900
},
{
"epoch": 0.14415841584158415,
"grad_norm": 0.09430525451898575,
"learning_rate": 0.00014142222222222222,
"loss": 0.43414530754089353,
"step": 910
},
{
"epoch": 0.14574257425742573,
"grad_norm": 0.11593130230903625,
"learning_rate": 0.00014053333333333335,
"loss": 0.4248401165008545,
"step": 920
},
{
"epoch": 0.14732673267326732,
"grad_norm": 0.11584466695785522,
"learning_rate": 0.00013964444444444446,
"loss": 0.4541325092315674,
"step": 930
},
{
"epoch": 0.1489108910891089,
"grad_norm": 0.09682377427816391,
"learning_rate": 0.00013875555555555556,
"loss": 0.44811625480651857,
"step": 940
},
{
"epoch": 0.1504950495049505,
"grad_norm": 0.12739314138889313,
"learning_rate": 0.00013786666666666667,
"loss": 0.4510763168334961,
"step": 950
},
{
"epoch": 0.15207920792079208,
"grad_norm": 0.11477553099393845,
"learning_rate": 0.00013697777777777777,
"loss": 0.4399250507354736,
"step": 960
},
{
"epoch": 0.15366336633663366,
"grad_norm": 0.11998990923166275,
"learning_rate": 0.00013608888888888887,
"loss": 0.4643832206726074,
"step": 970
},
{
"epoch": 0.15524752475247525,
"grad_norm": 0.12250885367393494,
"learning_rate": 0.0001352,
"loss": 0.4670434474945068,
"step": 980
},
{
"epoch": 0.15683168316831683,
"grad_norm": 0.10394606739282608,
"learning_rate": 0.0001343111111111111,
"loss": 0.41683096885681153,
"step": 990
},
{
"epoch": 0.15841584158415842,
"grad_norm": 0.11151418834924698,
"learning_rate": 0.00013342222222222222,
"loss": 0.4357429504394531,
"step": 1000
},
{
"epoch": 0.16,
"grad_norm": 0.1484747976064682,
"learning_rate": 0.00013253333333333332,
"loss": 0.4269531726837158,
"step": 1010
},
{
"epoch": 0.1615841584158416,
"grad_norm": 0.11201906949281693,
"learning_rate": 0.00013164444444444445,
"loss": 0.4297961711883545,
"step": 1020
},
{
"epoch": 0.16316831683168317,
"grad_norm": 0.11010719835758209,
"learning_rate": 0.00013075555555555556,
"loss": 0.41904025077819823,
"step": 1030
},
{
"epoch": 0.16475247524752476,
"grad_norm": 0.10168910026550293,
"learning_rate": 0.00012986666666666666,
"loss": 0.46724610328674315,
"step": 1040
},
{
"epoch": 0.16633663366336635,
"grad_norm": 0.11108486354351044,
"learning_rate": 0.00012897777777777777,
"loss": 0.41109704971313477,
"step": 1050
},
{
"epoch": 0.16792079207920793,
"grad_norm": 0.1291012018918991,
"learning_rate": 0.0001280888888888889,
"loss": 0.44829635620117186,
"step": 1060
},
{
"epoch": 0.16950495049504952,
"grad_norm": 0.11215164512395859,
"learning_rate": 0.0001272,
"loss": 0.4662069797515869,
"step": 1070
},
{
"epoch": 0.1710891089108911,
"grad_norm": 0.13233599066734314,
"learning_rate": 0.0001263111111111111,
"loss": 0.4491884708404541,
"step": 1080
},
{
"epoch": 0.17267326732673266,
"grad_norm": 0.08990936726331711,
"learning_rate": 0.0001254222222222222,
"loss": 0.431490421295166,
"step": 1090
},
{
"epoch": 0.17425742574257425,
"grad_norm": 0.10440412163734436,
"learning_rate": 0.00012453333333333334,
"loss": 0.3993945598602295,
"step": 1100
},
{
"epoch": 0.17584158415841583,
"grad_norm": 0.11035147309303284,
"learning_rate": 0.00012364444444444445,
"loss": 0.456577730178833,
"step": 1110
},
{
"epoch": 0.17742574257425742,
"grad_norm": 0.11196247488260269,
"learning_rate": 0.00012275555555555555,
"loss": 0.4181276798248291,
"step": 1120
},
{
"epoch": 0.179009900990099,
"grad_norm": 0.10106303542852402,
"learning_rate": 0.00012186666666666666,
"loss": 0.4272180080413818,
"step": 1130
},
{
"epoch": 0.1805940594059406,
"grad_norm": 0.11019843071699142,
"learning_rate": 0.00012097777777777779,
"loss": 0.44555273056030276,
"step": 1140
},
{
"epoch": 0.18217821782178217,
"grad_norm": 0.09329156577587128,
"learning_rate": 0.00012008888888888889,
"loss": 0.42681331634521485,
"step": 1150
},
{
"epoch": 0.18376237623762376,
"grad_norm": 0.08857206255197525,
"learning_rate": 0.0001192,
"loss": 0.4692983627319336,
"step": 1160
},
{
"epoch": 0.18534653465346534,
"grad_norm": 0.11052225530147552,
"learning_rate": 0.0001183111111111111,
"loss": 0.44810261726379397,
"step": 1170
},
{
"epoch": 0.18693069306930693,
"grad_norm": 0.10589273273944855,
"learning_rate": 0.00011742222222222223,
"loss": 0.43929290771484375,
"step": 1180
},
{
"epoch": 0.18851485148514852,
"grad_norm": 0.12494352459907532,
"learning_rate": 0.00011653333333333334,
"loss": 0.48512043952941897,
"step": 1190
},
{
"epoch": 0.1900990099009901,
"grad_norm": 0.10260408371686935,
"learning_rate": 0.00011564444444444444,
"loss": 0.4629175662994385,
"step": 1200
},
{
"epoch": 0.1916831683168317,
"grad_norm": 0.12947669625282288,
"learning_rate": 0.00011475555555555557,
"loss": 0.43849620819091795,
"step": 1210
},
{
"epoch": 0.19326732673267327,
"grad_norm": 0.10582385957241058,
"learning_rate": 0.00011386666666666668,
"loss": 0.4508364677429199,
"step": 1220
},
{
"epoch": 0.19485148514851486,
"grad_norm": 0.12441077828407288,
"learning_rate": 0.00011297777777777778,
"loss": 0.42998151779174804,
"step": 1230
},
{
"epoch": 0.19643564356435644,
"grad_norm": 0.09037347137928009,
"learning_rate": 0.00011208888888888889,
"loss": 0.4441089630126953,
"step": 1240
},
{
"epoch": 0.19801980198019803,
"grad_norm": 0.1148349717259407,
"learning_rate": 0.00011120000000000002,
"loss": 0.47240777015686036,
"step": 1250
},
{
"epoch": 0.19960396039603961,
"grad_norm": 0.1014682874083519,
"learning_rate": 0.00011031111111111112,
"loss": 0.418576717376709,
"step": 1260
},
{
"epoch": 0.2011881188118812,
"grad_norm": 0.11128360033035278,
"learning_rate": 0.00010942222222222223,
"loss": 0.43076472282409667,
"step": 1270
},
{
"epoch": 0.20277227722772279,
"grad_norm": 0.11667651683092117,
"learning_rate": 0.00010853333333333333,
"loss": 0.44633755683898924,
"step": 1280
},
{
"epoch": 0.20435643564356434,
"grad_norm": 0.1285824179649353,
"learning_rate": 0.00010764444444444446,
"loss": 0.4465335845947266,
"step": 1290
},
{
"epoch": 0.20594059405940593,
"grad_norm": 0.1088799238204956,
"learning_rate": 0.00010675555555555557,
"loss": 0.44507641792297364,
"step": 1300
},
{
"epoch": 0.20752475247524751,
"grad_norm": 0.12076769769191742,
"learning_rate": 0.00010586666666666667,
"loss": 0.42668471336364744,
"step": 1310
},
{
"epoch": 0.2091089108910891,
"grad_norm": 0.13205377757549286,
"learning_rate": 0.00010497777777777778,
"loss": 0.41853861808776854,
"step": 1320
},
{
"epoch": 0.21069306930693069,
"grad_norm": 0.11711034923791885,
"learning_rate": 0.0001040888888888889,
"loss": 0.4606321334838867,
"step": 1330
},
{
"epoch": 0.21227722772277227,
"grad_norm": 0.0950397327542305,
"learning_rate": 0.0001032,
"loss": 0.4588432788848877,
"step": 1340
},
{
"epoch": 0.21386138613861386,
"grad_norm": 0.09417828172445297,
"learning_rate": 0.00010231111111111112,
"loss": 0.45938754081726074,
"step": 1350
},
{
"epoch": 0.21544554455445544,
"grad_norm": 0.1291818916797638,
"learning_rate": 0.00010142222222222222,
"loss": 0.4537965774536133,
"step": 1360
},
{
"epoch": 0.21702970297029703,
"grad_norm": 0.11345808953046799,
"learning_rate": 0.00010053333333333334,
"loss": 0.4731899261474609,
"step": 1370
},
{
"epoch": 0.2186138613861386,
"grad_norm": 0.11020190268754959,
"learning_rate": 9.964444444444445e-05,
"loss": 0.4215576171875,
"step": 1380
},
{
"epoch": 0.2201980198019802,
"grad_norm": 0.10281681269407272,
"learning_rate": 9.875555555555555e-05,
"loss": 0.45673704147338867,
"step": 1390
},
{
"epoch": 0.22178217821782178,
"grad_norm": 0.11533461511135101,
"learning_rate": 9.786666666666667e-05,
"loss": 0.43448405265808104,
"step": 1400
},
{
"epoch": 0.22336633663366337,
"grad_norm": 0.10428951680660248,
"learning_rate": 9.697777777777777e-05,
"loss": 0.42266035079956055,
"step": 1410
},
{
"epoch": 0.22495049504950496,
"grad_norm": 0.11180785298347473,
"learning_rate": 9.608888888888889e-05,
"loss": 0.43655991554260254,
"step": 1420
},
{
"epoch": 0.22653465346534654,
"grad_norm": 0.14148098230361938,
"learning_rate": 9.52e-05,
"loss": 0.45973858833312986,
"step": 1430
},
{
"epoch": 0.22811881188118813,
"grad_norm": 0.10056508332490921,
"learning_rate": 9.431111111111111e-05,
"loss": 0.4729654312133789,
"step": 1440
},
{
"epoch": 0.2297029702970297,
"grad_norm": 0.12625491619110107,
"learning_rate": 9.342222222222222e-05,
"loss": 0.4501173496246338,
"step": 1450
},
{
"epoch": 0.2312871287128713,
"grad_norm": 0.13399824500083923,
"learning_rate": 9.253333333333334e-05,
"loss": 0.4454296588897705,
"step": 1460
},
{
"epoch": 0.23287128712871288,
"grad_norm": 0.10759555548429489,
"learning_rate": 9.164444444444444e-05,
"loss": 0.4457117557525635,
"step": 1470
},
{
"epoch": 0.23445544554455444,
"grad_norm": 0.11816436797380447,
"learning_rate": 9.075555555555556e-05,
"loss": 0.43582868576049805,
"step": 1480
},
{
"epoch": 0.23603960396039603,
"grad_norm": 0.12996898591518402,
"learning_rate": 8.986666666666666e-05,
"loss": 0.4595947265625,
"step": 1490
},
{
"epoch": 0.2376237623762376,
"grad_norm": 0.12041634321212769,
"learning_rate": 8.897777777777778e-05,
"loss": 0.4592463493347168,
"step": 1500
},
{
"epoch": 0.2392079207920792,
"grad_norm": 0.09746157377958298,
"learning_rate": 8.80888888888889e-05,
"loss": 0.4601451873779297,
"step": 1510
},
{
"epoch": 0.24079207920792078,
"grad_norm": 0.13244478404521942,
"learning_rate": 8.72e-05,
"loss": 0.4243985652923584,
"step": 1520
},
{
"epoch": 0.24237623762376237,
"grad_norm": 0.11454407870769501,
"learning_rate": 8.631111111111112e-05,
"loss": 0.4436774730682373,
"step": 1530
},
{
"epoch": 0.24396039603960396,
"grad_norm": 0.10578440874814987,
"learning_rate": 8.542222222222223e-05,
"loss": 0.42084641456604005,
"step": 1540
},
{
"epoch": 0.24554455445544554,
"grad_norm": 0.12399782985448837,
"learning_rate": 8.453333333333335e-05,
"loss": 0.4574925422668457,
"step": 1550
},
{
"epoch": 0.24712871287128713,
"grad_norm": 0.1136360839009285,
"learning_rate": 8.364444444444445e-05,
"loss": 0.4346503257751465,
"step": 1560
},
{
"epoch": 0.2487128712871287,
"grad_norm": 0.1318485289812088,
"learning_rate": 8.275555555555557e-05,
"loss": 0.43329200744628904,
"step": 1570
},
{
"epoch": 0.2502970297029703,
"grad_norm": 0.11364690959453583,
"learning_rate": 8.186666666666667e-05,
"loss": 0.4125970840454102,
"step": 1580
},
{
"epoch": 0.2518811881188119,
"grad_norm": 0.10456566512584686,
"learning_rate": 8.097777777777779e-05,
"loss": 0.4665355682373047,
"step": 1590
},
{
"epoch": 0.25346534653465347,
"grad_norm": 0.08970664441585541,
"learning_rate": 8.00888888888889e-05,
"loss": 0.5053329944610596,
"step": 1600
},
{
"epoch": 0.25504950495049505,
"grad_norm": 0.1372910887002945,
"learning_rate": 7.920000000000001e-05,
"loss": 0.42962069511413575,
"step": 1610
},
{
"epoch": 0.25663366336633664,
"grad_norm": 0.12862013280391693,
"learning_rate": 7.831111111111112e-05,
"loss": 0.4417405128479004,
"step": 1620
},
{
"epoch": 0.2582178217821782,
"grad_norm": 0.1060621365904808,
"learning_rate": 7.742222222222222e-05,
"loss": 0.4423251152038574,
"step": 1630
},
{
"epoch": 0.2598019801980198,
"grad_norm": 0.11200203001499176,
"learning_rate": 7.653333333333333e-05,
"loss": 0.4621281623840332,
"step": 1640
},
{
"epoch": 0.2613861386138614,
"grad_norm": 0.11022822558879852,
"learning_rate": 7.564444444444445e-05,
"loss": 0.4474879264831543,
"step": 1650
},
{
"epoch": 0.262970297029703,
"grad_norm": 0.10621003806591034,
"learning_rate": 7.475555555555555e-05,
"loss": 0.42008557319641116,
"step": 1660
},
{
"epoch": 0.26455445544554457,
"grad_norm": 0.11836650967597961,
"learning_rate": 7.386666666666667e-05,
"loss": 0.43319091796875,
"step": 1670
},
{
"epoch": 0.26613861386138615,
"grad_norm": 0.1123187392950058,
"learning_rate": 7.297777777777777e-05,
"loss": 0.4296769618988037,
"step": 1680
},
{
"epoch": 0.26772277227722774,
"grad_norm": 0.10100077092647552,
"learning_rate": 7.208888888888889e-05,
"loss": 0.41154913902282714,
"step": 1690
},
{
"epoch": 0.2693069306930693,
"grad_norm": 0.1045333743095398,
"learning_rate": 7.12e-05,
"loss": 0.4219111442565918,
"step": 1700
},
{
"epoch": 0.2708910891089109,
"grad_norm": 0.13197870552539825,
"learning_rate": 7.031111111111111e-05,
"loss": 0.43259439468383787,
"step": 1710
},
{
"epoch": 0.2724752475247525,
"grad_norm": 0.14993301033973694,
"learning_rate": 6.942222222222222e-05,
"loss": 0.4652869701385498,
"step": 1720
},
{
"epoch": 0.2740594059405941,
"grad_norm": 0.10407901555299759,
"learning_rate": 6.853333333333334e-05,
"loss": 0.4714209079742432,
"step": 1730
},
{
"epoch": 0.27564356435643567,
"grad_norm": 0.10922378301620483,
"learning_rate": 6.764444444444444e-05,
"loss": 0.4610575199127197,
"step": 1740
},
{
"epoch": 0.27722772277227725,
"grad_norm": 0.1403568983078003,
"learning_rate": 6.675555555555556e-05,
"loss": 0.41899795532226564,
"step": 1750
},
{
"epoch": 0.27881188118811884,
"grad_norm": 0.10836900025606155,
"learning_rate": 6.586666666666666e-05,
"loss": 0.4317145824432373,
"step": 1760
},
{
"epoch": 0.2803960396039604,
"grad_norm": 0.1111619770526886,
"learning_rate": 6.497777777777778e-05,
"loss": 0.4658851146697998,
"step": 1770
},
{
"epoch": 0.28198019801980195,
"grad_norm": 0.12308915704488754,
"learning_rate": 6.408888888888889e-05,
"loss": 0.4481384754180908,
"step": 1780
},
{
"epoch": 0.28356435643564354,
"grad_norm": 0.12358427047729492,
"learning_rate": 6.32e-05,
"loss": 0.40901408195495603,
"step": 1790
},
{
"epoch": 0.2851485148514851,
"grad_norm": 0.10029692202806473,
"learning_rate": 6.231111111111111e-05,
"loss": 0.40301804542541503,
"step": 1800
},
{
"epoch": 0.2867326732673267,
"grad_norm": 0.11558814346790314,
"learning_rate": 6.142222222222223e-05,
"loss": 0.4106534481048584,
"step": 1810
},
{
"epoch": 0.2883168316831683,
"grad_norm": 0.14374975860118866,
"learning_rate": 6.053333333333333e-05,
"loss": 0.4378472328186035,
"step": 1820
},
{
"epoch": 0.2899009900990099,
"grad_norm": 0.10107695311307907,
"learning_rate": 5.964444444444445e-05,
"loss": 0.45861082077026366,
"step": 1830
},
{
"epoch": 0.29148514851485147,
"grad_norm": 0.11167020350694656,
"learning_rate": 5.875555555555556e-05,
"loss": 0.4487330913543701,
"step": 1840
},
{
"epoch": 0.29306930693069305,
"grad_norm": 0.13690310716629028,
"learning_rate": 5.7866666666666666e-05,
"loss": 0.46242694854736327,
"step": 1850
},
{
"epoch": 0.29465346534653464,
"grad_norm": 0.14845994114875793,
"learning_rate": 5.6977777777777784e-05,
"loss": 0.45589003562927244,
"step": 1860
},
{
"epoch": 0.2962376237623762,
"grad_norm": 0.11164864152669907,
"learning_rate": 5.608888888888889e-05,
"loss": 0.42093238830566404,
"step": 1870
},
{
"epoch": 0.2978217821782178,
"grad_norm": 0.11217094957828522,
"learning_rate": 5.520000000000001e-05,
"loss": 0.4216471195220947,
"step": 1880
},
{
"epoch": 0.2994059405940594,
"grad_norm": 0.12560051679611206,
"learning_rate": 5.431111111111111e-05,
"loss": 0.4341439247131348,
"step": 1890
},
{
"epoch": 0.300990099009901,
"grad_norm": 0.11575620621442795,
"learning_rate": 5.342222222222223e-05,
"loss": 0.42635207176208495,
"step": 1900
},
{
"epoch": 0.30257425742574257,
"grad_norm": 0.11144798994064331,
"learning_rate": 5.2533333333333334e-05,
"loss": 0.44115509986877444,
"step": 1910
},
{
"epoch": 0.30415841584158415,
"grad_norm": 0.11413414776325226,
"learning_rate": 5.164444444444445e-05,
"loss": 0.4849900722503662,
"step": 1920
},
{
"epoch": 0.30574257425742574,
"grad_norm": 0.11314431577920914,
"learning_rate": 5.075555555555556e-05,
"loss": 0.4439102649688721,
"step": 1930
},
{
"epoch": 0.3073267326732673,
"grad_norm": 0.12936046719551086,
"learning_rate": 4.986666666666667e-05,
"loss": 0.4341707706451416,
"step": 1940
},
{
"epoch": 0.3089108910891089,
"grad_norm": 0.1315099000930786,
"learning_rate": 4.897777777777778e-05,
"loss": 0.47466235160827636,
"step": 1950
},
{
"epoch": 0.3104950495049505,
"grad_norm": 0.135579913854599,
"learning_rate": 4.808888888888889e-05,
"loss": 0.4311628818511963,
"step": 1960
},
{
"epoch": 0.3120792079207921,
"grad_norm": 0.1412050724029541,
"learning_rate": 4.72e-05,
"loss": 0.4453381061553955,
"step": 1970
},
{
"epoch": 0.31366336633663366,
"grad_norm": 0.1284494251012802,
"learning_rate": 4.6311111111111113e-05,
"loss": 0.4290179252624512,
"step": 1980
},
{
"epoch": 0.31524752475247525,
"grad_norm": 0.13294199109077454,
"learning_rate": 4.5422222222222225e-05,
"loss": 0.433257007598877,
"step": 1990
},
{
"epoch": 0.31683168316831684,
"grad_norm": 0.12909874320030212,
"learning_rate": 4.4533333333333336e-05,
"loss": 0.44462175369262696,
"step": 2000
},
{
"epoch": 0.3184158415841584,
"grad_norm": 0.10991871356964111,
"learning_rate": 4.364444444444445e-05,
"loss": 0.45618624687194825,
"step": 2010
},
{
"epoch": 0.32,
"grad_norm": 0.12459543347358704,
"learning_rate": 4.275555555555556e-05,
"loss": 0.46598353385925295,
"step": 2020
},
{
"epoch": 0.3215841584158416,
"grad_norm": 0.11573746055364609,
"learning_rate": 4.186666666666667e-05,
"loss": 0.3969010591506958,
"step": 2030
},
{
"epoch": 0.3231683168316832,
"grad_norm": 0.10749443620443344,
"learning_rate": 4.097777777777778e-05,
"loss": 0.43877344131469725,
"step": 2040
},
{
"epoch": 0.32475247524752476,
"grad_norm": 0.11602727323770523,
"learning_rate": 4.008888888888889e-05,
"loss": 0.43892335891723633,
"step": 2050
},
{
"epoch": 0.32633663366336635,
"grad_norm": 0.1159844696521759,
"learning_rate": 3.9200000000000004e-05,
"loss": 0.4742868423461914,
"step": 2060
},
{
"epoch": 0.32792079207920793,
"grad_norm": 0.12614595890045166,
"learning_rate": 3.8311111111111115e-05,
"loss": 0.4636037826538086,
"step": 2070
},
{
"epoch": 0.3295049504950495,
"grad_norm": 0.11560297012329102,
"learning_rate": 3.742222222222223e-05,
"loss": 0.4710518836975098,
"step": 2080
},
{
"epoch": 0.3310891089108911,
"grad_norm": 0.15510666370391846,
"learning_rate": 3.653333333333334e-05,
"loss": 0.4677096366882324,
"step": 2090
},
{
"epoch": 0.3326732673267327,
"grad_norm": 0.14245380461215973,
"learning_rate": 3.564444444444445e-05,
"loss": 0.4679864406585693,
"step": 2100
},
{
"epoch": 0.3342574257425743,
"grad_norm": 0.11864912509918213,
"learning_rate": 3.475555555555556e-05,
"loss": 0.4409189701080322,
"step": 2110
},
{
"epoch": 0.33584158415841586,
"grad_norm": 0.1343812793493271,
"learning_rate": 3.3866666666666665e-05,
"loss": 0.4066458702087402,
"step": 2120
},
{
"epoch": 0.33742574257425745,
"grad_norm": 0.10461611300706863,
"learning_rate": 3.297777777777778e-05,
"loss": 0.4319614887237549,
"step": 2130
},
{
"epoch": 0.33900990099009903,
"grad_norm": 0.11563409864902496,
"learning_rate": 3.208888888888889e-05,
"loss": 0.432065486907959,
"step": 2140
},
{
"epoch": 0.3405940594059406,
"grad_norm": 0.10783884674310684,
"learning_rate": 3.12e-05,
"loss": 0.4129596710205078,
"step": 2150
},
{
"epoch": 0.3421782178217822,
"grad_norm": 0.14003720879554749,
"learning_rate": 3.031111111111111e-05,
"loss": 0.4282253265380859,
"step": 2160
},
{
"epoch": 0.34376237623762373,
"grad_norm": 0.1377970576286316,
"learning_rate": 2.9422222222222222e-05,
"loss": 0.4517963886260986,
"step": 2170
},
{
"epoch": 0.3453465346534653,
"grad_norm": 0.14984577894210815,
"learning_rate": 2.8533333333333333e-05,
"loss": 0.4358660697937012,
"step": 2180
},
{
"epoch": 0.3469306930693069,
"grad_norm": 0.11084114760160446,
"learning_rate": 2.7644444444444445e-05,
"loss": 0.3825148344039917,
"step": 2190
},
{
"epoch": 0.3485148514851485,
"grad_norm": 0.11796099692583084,
"learning_rate": 2.6755555555555556e-05,
"loss": 0.4264970779418945,
"step": 2200
},
{
"epoch": 0.3500990099009901,
"grad_norm": 0.13587944209575653,
"learning_rate": 2.5866666666666667e-05,
"loss": 0.41341686248779297,
"step": 2210
},
{
"epoch": 0.35168316831683166,
"grad_norm": 0.09793379157781601,
"learning_rate": 2.497777777777778e-05,
"loss": 0.4133430480957031,
"step": 2220
},
{
"epoch": 0.35326732673267325,
"grad_norm": 0.10808942466974258,
"learning_rate": 2.408888888888889e-05,
"loss": 0.42418746948242186,
"step": 2230
},
{
"epoch": 0.35485148514851483,
"grad_norm": 0.11084719747304916,
"learning_rate": 2.32e-05,
"loss": 0.42908754348754885,
"step": 2240
},
{
"epoch": 0.3564356435643564,
"grad_norm": 0.11243141442537308,
"learning_rate": 2.2311111111111113e-05,
"loss": 0.4357435703277588,
"step": 2250
},
{
"epoch": 0.358019801980198,
"grad_norm": 0.0989893451333046,
"learning_rate": 2.1422222222222224e-05,
"loss": 0.4179375648498535,
"step": 2260
},
{
"epoch": 0.3596039603960396,
"grad_norm": 0.1555781066417694,
"learning_rate": 2.0533333333333336e-05,
"loss": 0.42656970024108887,
"step": 2270
},
{
"epoch": 0.3611881188118812,
"grad_norm": 0.10041913390159607,
"learning_rate": 1.9644444444444447e-05,
"loss": 0.40676274299621584,
"step": 2280
},
{
"epoch": 0.36277227722772276,
"grad_norm": 0.11605637520551682,
"learning_rate": 1.8755555555555558e-05,
"loss": 0.4679983139038086,
"step": 2290
},
{
"epoch": 0.36435643564356435,
"grad_norm": 0.10629253089427948,
"learning_rate": 1.7866666666666666e-05,
"loss": 0.41867480278015134,
"step": 2300
},
{
"epoch": 0.36594059405940593,
"grad_norm": 0.12453669309616089,
"learning_rate": 1.6977777777777777e-05,
"loss": 0.42065892219543455,
"step": 2310
},
{
"epoch": 0.3675247524752475,
"grad_norm": 0.11581775546073914,
"learning_rate": 1.608888888888889e-05,
"loss": 0.444520092010498,
"step": 2320
},
{
"epoch": 0.3691089108910891,
"grad_norm": 0.1057516410946846,
"learning_rate": 1.52e-05,
"loss": 0.4548838138580322,
"step": 2330
},
{
"epoch": 0.3706930693069307,
"grad_norm": 0.11470479518175125,
"learning_rate": 1.4311111111111111e-05,
"loss": 0.42058815956115725,
"step": 2340
},
{
"epoch": 0.3722772277227723,
"grad_norm": 0.11543627828359604,
"learning_rate": 1.3422222222222223e-05,
"loss": 0.4344294548034668,
"step": 2350
},
{
"epoch": 0.37386138613861386,
"grad_norm": 0.12915924191474915,
"learning_rate": 1.2533333333333332e-05,
"loss": 0.4566244125366211,
"step": 2360
},
{
"epoch": 0.37544554455445545,
"grad_norm": 0.11681529879570007,
"learning_rate": 1.1644444444444446e-05,
"loss": 0.451328182220459,
"step": 2370
},
{
"epoch": 0.37702970297029703,
"grad_norm": 0.11974669992923737,
"learning_rate": 1.0755555555555557e-05,
"loss": 0.45825467109680174,
"step": 2380
},
{
"epoch": 0.3786138613861386,
"grad_norm": 0.11217518150806427,
"learning_rate": 9.866666666666667e-06,
"loss": 0.4391200065612793,
"step": 2390
},
{
"epoch": 0.3801980198019802,
"grad_norm": 0.13289013504981995,
"learning_rate": 8.977777777777778e-06,
"loss": 0.42261600494384766,
"step": 2400
},
{
"epoch": 0.3817821782178218,
"grad_norm": 0.13508014380931854,
"learning_rate": 8.08888888888889e-06,
"loss": 0.41110858917236326,
"step": 2410
},
{
"epoch": 0.3833663366336634,
"grad_norm": 0.12474465370178223,
"learning_rate": 7.2e-06,
"loss": 0.45510258674621584,
"step": 2420
},
{
"epoch": 0.38495049504950496,
"grad_norm": 0.13648369908332825,
"learning_rate": 6.311111111111112e-06,
"loss": 0.44538493156433107,
"step": 2430
},
{
"epoch": 0.38653465346534654,
"grad_norm": 0.1486520767211914,
"learning_rate": 5.422222222222222e-06,
"loss": 0.4148688793182373,
"step": 2440
},
{
"epoch": 0.38811881188118813,
"grad_norm": 0.12737219035625458,
"learning_rate": 4.533333333333334e-06,
"loss": 0.44829936027526857,
"step": 2450
},
{
"epoch": 0.3897029702970297,
"grad_norm": 0.1182004064321518,
"learning_rate": 3.6444444444444446e-06,
"loss": 0.45412731170654297,
"step": 2460
},
{
"epoch": 0.3912871287128713,
"grad_norm": 0.14805327355861664,
"learning_rate": 2.7555555555555555e-06,
"loss": 0.43036956787109376,
"step": 2470
},
{
"epoch": 0.3928712871287129,
"grad_norm": 0.12756042182445526,
"learning_rate": 1.8666666666666669e-06,
"loss": 0.42612438201904296,
"step": 2480
},
{
"epoch": 0.3944554455445545,
"grad_norm": 0.12241974472999573,
"learning_rate": 9.777777777777778e-07,
"loss": 0.4630708694458008,
"step": 2490
},
{
"epoch": 0.39603960396039606,
"grad_norm": 0.10594528913497925,
"learning_rate": 8.88888888888889e-08,
"loss": 0.4205953598022461,
"step": 2500
}
],
"logging_steps": 10,
"max_steps": 2500,
"num_input_tokens_seen": 0,
"num_train_epochs": 1,
"save_steps": 200,
"stateful_callbacks": {
"TrainerControl": {
"args": {
"should_epoch_stop": false,
"should_evaluate": false,
"should_log": false,
"should_save": true,
"should_training_stop": true
},
"attributes": {}
}
},
"total_flos": 3.900426845678039e+17,
"train_batch_size": 4,
"trial_name": null,
"trial_params": null
}