| { | |
| "best_global_step": null, | |
| "best_metric": null, | |
| "best_model_checkpoint": null, | |
| "epoch": 2.0, | |
| "eval_steps": 500.0, | |
| "global_step": 1500, | |
| "is_hyper_param_search": false, | |
| "is_local_process_zero": true, | |
| "is_world_process_zero": true, | |
| "log_history": [ | |
| { | |
| "epoch": 0.0013333333333333333, | |
| "grad_norm": 45.25, | |
| "learning_rate": 4.444444444444445e-07, | |
| "loss": 3.3626768589019775, | |
| "step": 1, | |
| "token_acc": 0.7078189300411523 | |
| }, | |
| { | |
| "epoch": 0.013333333333333334, | |
| "grad_norm": 41.75, | |
| "learning_rate": 4.444444444444444e-06, | |
| "loss": 3.1829696231418185, | |
| "step": 10, | |
| "token_acc": 0.7299733284282167 | |
| }, | |
| { | |
| "epoch": 0.02666666666666667, | |
| "grad_norm": 27.5, | |
| "learning_rate": 8.888888888888888e-06, | |
| "loss": 2.3577238082885743, | |
| "step": 20, | |
| "token_acc": 0.7365502400264857 | |
| }, | |
| { | |
| "epoch": 0.04, | |
| "grad_norm": 6.59375, | |
| "learning_rate": 1.3333333333333333e-05, | |
| "loss": 1.1959217071533204, | |
| "step": 30, | |
| "token_acc": 0.7462982876995616 | |
| }, | |
| { | |
| "epoch": 0.05333333333333334, | |
| "grad_norm": 5.53125, | |
| "learning_rate": 1.7777777777777777e-05, | |
| "loss": 0.9517614364624023, | |
| "step": 40, | |
| "token_acc": 0.7610685134800891 | |
| }, | |
| { | |
| "epoch": 0.06666666666666667, | |
| "grad_norm": 6.125, | |
| "learning_rate": 1.9999417253661235e-05, | |
| "loss": 0.8357250213623046, | |
| "step": 50, | |
| "token_acc": 0.7830657175964244 | |
| }, | |
| { | |
| "epoch": 0.08, | |
| "grad_norm": 5.03125, | |
| "learning_rate": 1.9994755690455154e-05, | |
| "loss": 0.8595026016235352, | |
| "step": 60, | |
| "token_acc": 0.7755716494425909 | |
| }, | |
| { | |
| "epoch": 0.09333333333333334, | |
| "grad_norm": 17.125, | |
| "learning_rate": 1.998543473718677e-05, | |
| "loss": 0.807354736328125, | |
| "step": 70, | |
| "token_acc": 0.7798762886597939 | |
| }, | |
| { | |
| "epoch": 0.10666666666666667, | |
| "grad_norm": 5.0625, | |
| "learning_rate": 1.9971458739130598e-05, | |
| "loss": 0.7531498432159424, | |
| "step": 80, | |
| "token_acc": 0.7947794779477948 | |
| }, | |
| { | |
| "epoch": 0.12, | |
| "grad_norm": 4.90625, | |
| "learning_rate": 1.995283421166614e-05, | |
| "loss": 0.7538675785064697, | |
| "step": 90, | |
| "token_acc": 0.7899263915308907 | |
| }, | |
| { | |
| "epoch": 0.13333333333333333, | |
| "grad_norm": 4.65625, | |
| "learning_rate": 1.9929569837240567e-05, | |
| "loss": 0.7319397926330566, | |
| "step": 100, | |
| "token_acc": 0.798266811099075 | |
| }, | |
| { | |
| "epoch": 0.14666666666666667, | |
| "grad_norm": 4.96875, | |
| "learning_rate": 1.990167646132107e-05, | |
| "loss": 0.7127217292785645, | |
| "step": 110, | |
| "token_acc": 0.8057138138882008 | |
| }, | |
| { | |
| "epoch": 0.16, | |
| "grad_norm": 272.0, | |
| "learning_rate": 1.9869167087338908e-05, | |
| "loss": 0.7467739582061768, | |
| "step": 120, | |
| "token_acc": 0.7953732212698676 | |
| }, | |
| { | |
| "epoch": 0.17333333333333334, | |
| "grad_norm": 4.96875, | |
| "learning_rate": 1.983205687062742e-05, | |
| "loss": 0.7184967994689941, | |
| "step": 130, | |
| "token_acc": 0.8007428807263722 | |
| }, | |
| { | |
| "epoch": 0.18666666666666668, | |
| "grad_norm": 4.5625, | |
| "learning_rate": 1.9790363111356838e-05, | |
| "loss": 0.7336640357971191, | |
| "step": 140, | |
| "token_acc": 0.7959844022235129 | |
| }, | |
| { | |
| "epoch": 0.2, | |
| "grad_norm": 5.25, | |
| "learning_rate": 1.9744105246469264e-05, | |
| "loss": 0.6993631839752197, | |
| "step": 150, | |
| "token_acc": 0.8036203603753218 | |
| }, | |
| { | |
| "epoch": 0.21333333333333335, | |
| "grad_norm": 5.90625, | |
| "learning_rate": 1.9693304840617456e-05, | |
| "loss": 0.7181343078613281, | |
| "step": 160, | |
| "token_acc": 0.8019235552607579 | |
| }, | |
| { | |
| "epoch": 0.22666666666666666, | |
| "grad_norm": 4.59375, | |
| "learning_rate": 1.963798557611178e-05, | |
| "loss": 0.7305001258850098, | |
| "step": 170, | |
| "token_acc": 0.8002150004134624 | |
| }, | |
| { | |
| "epoch": 0.24, | |
| "grad_norm": 5.1875, | |
| "learning_rate": 1.957817324187987e-05, | |
| "loss": 0.7065316677093506, | |
| "step": 180, | |
| "token_acc": 0.7971964167219642 | |
| }, | |
| { | |
| "epoch": 0.25333333333333335, | |
| "grad_norm": 5.0, | |
| "learning_rate": 1.9513895721444286e-05, | |
| "loss": 0.6857584953308106, | |
| "step": 190, | |
| "token_acc": 0.8034729651880503 | |
| }, | |
| { | |
| "epoch": 0.26666666666666666, | |
| "grad_norm": 5.5625, | |
| "learning_rate": 1.9445182979923657e-05, | |
| "loss": 0.68832426071167, | |
| "step": 200, | |
| "token_acc": 0.807828594973218 | |
| }, | |
| { | |
| "epoch": 0.28, | |
| "grad_norm": 4.8125, | |
| "learning_rate": 1.937206705006344e-05, | |
| "loss": 0.7163214683532715, | |
| "step": 210, | |
| "token_acc": 0.8007789840059667 | |
| }, | |
| { | |
| "epoch": 0.29333333333333333, | |
| "grad_norm": 4.84375, | |
| "learning_rate": 1.9294582017302797e-05, | |
| "loss": 0.7239726066589356, | |
| "step": 220, | |
| "token_acc": 0.7985396614669764 | |
| }, | |
| { | |
| "epoch": 0.30666666666666664, | |
| "grad_norm": 5.0, | |
| "learning_rate": 1.921276400388451e-05, | |
| "loss": 0.6996359825134277, | |
| "step": 230, | |
| "token_acc": 0.8036789573537904 | |
| }, | |
| { | |
| "epoch": 0.32, | |
| "grad_norm": 4.8125, | |
| "learning_rate": 1.9126651152015404e-05, | |
| "loss": 0.6872970581054687, | |
| "step": 240, | |
| "token_acc": 0.8045094152626363 | |
| }, | |
| { | |
| "epoch": 0.3333333333333333, | |
| "grad_norm": 5.09375, | |
| "learning_rate": 1.9036283606085057e-05, | |
| "loss": 0.718975305557251, | |
| "step": 250, | |
| "token_acc": 0.8033595186361357 | |
| }, | |
| { | |
| "epoch": 0.3466666666666667, | |
| "grad_norm": 4.5625, | |
| "learning_rate": 1.8941703493951163e-05, | |
| "loss": 0.7015841007232666, | |
| "step": 260, | |
| "token_acc": 0.804074196753892 | |
| }, | |
| { | |
| "epoch": 0.36, | |
| "grad_norm": 5.59375, | |
| "learning_rate": 1.8842954907300236e-05, | |
| "loss": 0.6847874164581299, | |
| "step": 270, | |
| "token_acc": 0.8045405584555473 | |
| }, | |
| { | |
| "epoch": 0.37333333333333335, | |
| "grad_norm": 5.28125, | |
| "learning_rate": 1.874008388109276e-05, | |
| "loss": 0.7038370609283447, | |
| "step": 280, | |
| "token_acc": 0.8052087639520463 | |
| }, | |
| { | |
| "epoch": 0.38666666666666666, | |
| "grad_norm": 5.03125, | |
| "learning_rate": 1.863313837210247e-05, | |
| "loss": 0.6809354782104492, | |
| "step": 290, | |
| "token_acc": 0.8060716655607166 | |
| }, | |
| { | |
| "epoch": 0.4, | |
| "grad_norm": 5.25, | |
| "learning_rate": 1.8522168236559693e-05, | |
| "loss": 0.6794841766357422, | |
| "step": 300, | |
| "token_acc": 0.8090757701915071 | |
| }, | |
| { | |
| "epoch": 0.41333333333333333, | |
| "grad_norm": 5.34375, | |
| "learning_rate": 1.840722520690921e-05, | |
| "loss": 0.6747215747833252, | |
| "step": 310, | |
| "token_acc": 0.8121132106609457 | |
| }, | |
| { | |
| "epoch": 0.4266666666666667, | |
| "grad_norm": 5.53125, | |
| "learning_rate": 1.8288362867693414e-05, | |
| "loss": 0.707129430770874, | |
| "step": 320, | |
| "token_acc": 0.805176431424767 | |
| }, | |
| { | |
| "epoch": 0.44, | |
| "grad_norm": 5.03125, | |
| "learning_rate": 1.816563663057211e-05, | |
| "loss": 0.647739315032959, | |
| "step": 330, | |
| "token_acc": 0.8150472842915725 | |
| }, | |
| { | |
| "epoch": 0.4533333333333333, | |
| "grad_norm": 4.71875, | |
| "learning_rate": 1.8039103708490503e-05, | |
| "loss": 0.6896476745605469, | |
| "step": 340, | |
| "token_acc": 0.8065552169974471 | |
| }, | |
| { | |
| "epoch": 0.4666666666666667, | |
| "grad_norm": 4.75, | |
| "learning_rate": 1.790882308900746e-05, | |
| "loss": 0.664955997467041, | |
| "step": 350, | |
| "token_acc": 0.8125154181399556 | |
| }, | |
| { | |
| "epoch": 0.48, | |
| "grad_norm": 5.375, | |
| "learning_rate": 1.7774855506796497e-05, | |
| "loss": 0.6880328178405761, | |
| "step": 360, | |
| "token_acc": 0.8025786318469246 | |
| }, | |
| { | |
| "epoch": 0.49333333333333335, | |
| "grad_norm": 5.71875, | |
| "learning_rate": 1.7637263415332272e-05, | |
| "loss": 0.6249119281768799, | |
| "step": 370, | |
| "token_acc": 0.8188309531717037 | |
| }, | |
| { | |
| "epoch": 0.5066666666666667, | |
| "grad_norm": 4.96875, | |
| "learning_rate": 1.749611095777581e-05, | |
| "loss": 0.6708433628082275, | |
| "step": 380, | |
| "token_acc": 0.8095159288374018 | |
| }, | |
| { | |
| "epoch": 0.52, | |
| "grad_norm": 4.78125, | |
| "learning_rate": 1.7351463937072008e-05, | |
| "loss": 0.6470840454101563, | |
| "step": 390, | |
| "token_acc": 0.8143397467521789 | |
| }, | |
| { | |
| "epoch": 0.5333333333333333, | |
| "grad_norm": 5.0625, | |
| "learning_rate": 1.7203389785273402e-05, | |
| "loss": 0.6731335163116455, | |
| "step": 400, | |
| "token_acc": 0.8096851499876043 | |
| }, | |
| { | |
| "epoch": 0.5466666666666666, | |
| "grad_norm": 5.65625, | |
| "learning_rate": 1.705195753210446e-05, | |
| "loss": 0.6792816162109375, | |
| "step": 410, | |
| "token_acc": 0.810073365757151 | |
| }, | |
| { | |
| "epoch": 0.56, | |
| "grad_norm": 4.9375, | |
| "learning_rate": 1.6897237772781046e-05, | |
| "loss": 0.6794995784759521, | |
| "step": 420, | |
| "token_acc": 0.8101666666666667 | |
| }, | |
| { | |
| "epoch": 0.5733333333333334, | |
| "grad_norm": 5.09375, | |
| "learning_rate": 1.673930263510011e-05, | |
| "loss": 0.6637616157531738, | |
| "step": 430, | |
| "token_acc": 0.8120294531314636 | |
| }, | |
| { | |
| "epoch": 0.5866666666666667, | |
| "grad_norm": 5.0625, | |
| "learning_rate": 1.6578225745814907e-05, | |
| "loss": 0.6662174224853515, | |
| "step": 440, | |
| "token_acc": 0.8131759266903327 | |
| }, | |
| { | |
| "epoch": 0.6, | |
| "grad_norm": 5.125, | |
| "learning_rate": 1.6414082196311402e-05, | |
| "loss": 0.6878618240356446, | |
| "step": 450, | |
| "token_acc": 0.8058309037900875 | |
| }, | |
| { | |
| "epoch": 0.6133333333333333, | |
| "grad_norm": 4.8125, | |
| "learning_rate": 1.6246948507601915e-05, | |
| "loss": 0.660774040222168, | |
| "step": 460, | |
| "token_acc": 0.8120300751879699 | |
| }, | |
| { | |
| "epoch": 0.6266666666666667, | |
| "grad_norm": 5.03125, | |
| "learning_rate": 1.607690259465229e-05, | |
| "loss": 0.6526580810546875, | |
| "step": 470, | |
| "token_acc": 0.8127831315377646 | |
| }, | |
| { | |
| "epoch": 0.64, | |
| "grad_norm": 5.5625, | |
| "learning_rate": 1.5904023730059227e-05, | |
| "loss": 0.6656332015991211, | |
| "step": 480, | |
| "token_acc": 0.810130800633175 | |
| }, | |
| { | |
| "epoch": 0.6533333333333333, | |
| "grad_norm": 4.84375, | |
| "learning_rate": 1.57283925070947e-05, | |
| "loss": 0.6628344535827637, | |
| "step": 490, | |
| "token_acc": 0.8118452528252083 | |
| }, | |
| { | |
| "epoch": 0.6666666666666666, | |
| "grad_norm": 5.125, | |
| "learning_rate": 1.55500908021347e-05, | |
| "loss": 0.653735876083374, | |
| "step": 500, | |
| "token_acc": 0.8094057360112406 | |
| }, | |
| { | |
| "epoch": 0.68, | |
| "grad_norm": 5.21875, | |
| "learning_rate": 1.536920173648984e-05, | |
| "loss": 0.6803311347961426, | |
| "step": 510, | |
| "token_acc": 0.8064040619113914 | |
| }, | |
| { | |
| "epoch": 0.6933333333333334, | |
| "grad_norm": 5.3125, | |
| "learning_rate": 1.5185809637655548e-05, | |
| "loss": 0.6302884101867676, | |
| "step": 520, | |
| "token_acc": 0.8177408747122658 | |
| }, | |
| { | |
| "epoch": 0.7066666666666667, | |
| "grad_norm": 5.03125, | |
| "learning_rate": 1.5000000000000002e-05, | |
| "loss": 0.6428533077239991, | |
| "step": 530, | |
| "token_acc": 0.8143707623615015 | |
| }, | |
| { | |
| "epoch": 0.72, | |
| "grad_norm": 5.21875, | |
| "learning_rate": 1.4811859444908053e-05, | |
| "loss": 0.6748039245605468, | |
| "step": 540, | |
| "token_acc": 0.8069062139442887 | |
| }, | |
| { | |
| "epoch": 0.7333333333333333, | |
| "grad_norm": 5.0, | |
| "learning_rate": 1.4621475680399771e-05, | |
| "loss": 0.6666205406188965, | |
| "step": 550, | |
| "token_acc": 0.8113144758735441 | |
| }, | |
| { | |
| "epoch": 0.7466666666666667, | |
| "grad_norm": 5.125, | |
| "learning_rate": 1.4428937460242417e-05, | |
| "loss": 0.6629705905914307, | |
| "step": 560, | |
| "token_acc": 0.8114679279727823 | |
| }, | |
| { | |
| "epoch": 0.76, | |
| "grad_norm": 4.875, | |
| "learning_rate": 1.4234334542574906e-05, | |
| "loss": 0.6209089279174804, | |
| "step": 570, | |
| "token_acc": 0.8185255198487713 | |
| }, | |
| { | |
| "epoch": 0.7733333333333333, | |
| "grad_norm": 5.46875, | |
| "learning_rate": 1.4037757648064019e-05, | |
| "loss": 0.6564031124114991, | |
| "step": 580, | |
| "token_acc": 0.8117355371900826 | |
| }, | |
| { | |
| "epoch": 0.7866666666666666, | |
| "grad_norm": 4.6875, | |
| "learning_rate": 1.3839298417611964e-05, | |
| "loss": 0.6243524551391602, | |
| "step": 590, | |
| "token_acc": 0.8198946848774066 | |
| }, | |
| { | |
| "epoch": 0.8, | |
| "grad_norm": 5.65625, | |
| "learning_rate": 1.3639049369634878e-05, | |
| "loss": 0.6542037010192872, | |
| "step": 600, | |
| "token_acc": 0.811638718246721 | |
| }, | |
| { | |
| "epoch": 0.8133333333333334, | |
| "grad_norm": 5.15625, | |
| "learning_rate": 1.3437103856932266e-05, | |
| "loss": 0.6563755512237549, | |
| "step": 610, | |
| "token_acc": 0.8142233928718413 | |
| }, | |
| { | |
| "epoch": 0.8266666666666667, | |
| "grad_norm": 5.40625, | |
| "learning_rate": 1.3233556023167487e-05, | |
| "loss": 0.6647263526916504, | |
| "step": 620, | |
| "token_acc": 0.8105810498514361 | |
| }, | |
| { | |
| "epoch": 0.84, | |
| "grad_norm": 4.6875, | |
| "learning_rate": 1.3028500758979507e-05, | |
| "loss": 0.6253678321838378, | |
| "step": 630, | |
| "token_acc": 0.8193319001157598 | |
| }, | |
| { | |
| "epoch": 0.8533333333333334, | |
| "grad_norm": 4.84375, | |
| "learning_rate": 1.2822033657746478e-05, | |
| "loss": 0.6672648429870606, | |
| "step": 640, | |
| "token_acc": 0.8074783177875962 | |
| }, | |
| { | |
| "epoch": 0.8666666666666667, | |
| "grad_norm": 4.8125, | |
| "learning_rate": 1.2614250971021658e-05, | |
| "loss": 0.6433141231536865, | |
| "step": 650, | |
| "token_acc": 0.8154884371656653 | |
| }, | |
| { | |
| "epoch": 0.88, | |
| "grad_norm": 4.96875, | |
| "learning_rate": 1.2405249563662539e-05, | |
| "loss": 0.6408381938934327, | |
| "step": 660, | |
| "token_acc": 0.8159061063690085 | |
| }, | |
| { | |
| "epoch": 0.8933333333333333, | |
| "grad_norm": 5.28125, | |
| "learning_rate": 1.2195126868674052e-05, | |
| "loss": 0.6590002059936524, | |
| "step": 670, | |
| "token_acc": 0.8103617613357341 | |
| }, | |
| { | |
| "epoch": 0.9066666666666666, | |
| "grad_norm": 5.53125, | |
| "learning_rate": 1.1983980841786899e-05, | |
| "loss": 0.6727564811706543, | |
| "step": 680, | |
| "token_acc": 0.8126651254953765 | |
| }, | |
| { | |
| "epoch": 0.92, | |
| "grad_norm": 5.09375, | |
| "learning_rate": 1.177190991579223e-05, | |
| "loss": 0.6352437019348145, | |
| "step": 690, | |
| "token_acc": 0.8162927394651875 | |
| }, | |
| { | |
| "epoch": 0.9333333333333333, | |
| "grad_norm": 5.0, | |
| "learning_rate": 1.1559012954653865e-05, | |
| "loss": 0.6518852233886718, | |
| "step": 700, | |
| "token_acc": 0.8118687922544028 | |
| }, | |
| { | |
| "epoch": 0.9466666666666667, | |
| "grad_norm": 4.96875, | |
| "learning_rate": 1.1345389207419588e-05, | |
| "loss": 0.6579255104064942, | |
| "step": 710, | |
| "token_acc": 0.8161885921529839 | |
| }, | |
| { | |
| "epoch": 0.96, | |
| "grad_norm": 4.75, | |
| "learning_rate": 1.1131138261952845e-05, | |
| "loss": 0.649392032623291, | |
| "step": 720, | |
| "token_acc": 0.8101401483924155 | |
| }, | |
| { | |
| "epoch": 0.9733333333333334, | |
| "grad_norm": 5.15625, | |
| "learning_rate": 1.0916359998506549e-05, | |
| "loss": 0.6262084007263183, | |
| "step": 730, | |
| "token_acc": 0.8160345974717232 | |
| }, | |
| { | |
| "epoch": 0.9866666666666667, | |
| "grad_norm": 4.78125, | |
| "learning_rate": 1.070115454316054e-05, | |
| "loss": 0.6292950630187988, | |
| "step": 740, | |
| "token_acc": 0.8216996080393628 | |
| }, | |
| { | |
| "epoch": 1.0, | |
| "grad_norm": 5.59375, | |
| "learning_rate": 1.0485622221144485e-05, | |
| "loss": 0.6571378707885742, | |
| "step": 750, | |
| "token_acc": 0.8100781781101292 | |
| }, | |
| { | |
| "epoch": 1.0133333333333334, | |
| "grad_norm": 4.34375, | |
| "learning_rate": 1.0269863510067872e-05, | |
| "loss": 0.5367588043212891, | |
| "step": 760, | |
| "token_acc": 0.8401360544217688 | |
| }, | |
| { | |
| "epoch": 1.0266666666666666, | |
| "grad_norm": 4.75, | |
| "learning_rate": 1.0053978993079046e-05, | |
| "loss": 0.5051831245422364, | |
| "step": 770, | |
| "token_acc": 0.849601593625498 | |
| }, | |
| { | |
| "epoch": 1.04, | |
| "grad_norm": 5.03125, | |
| "learning_rate": 9.838069311974986e-06, | |
| "loss": 0.5210224628448487, | |
| "step": 780, | |
| "token_acc": 0.843608527450819 | |
| }, | |
| { | |
| "epoch": 1.0533333333333332, | |
| "grad_norm": 5.375, | |
| "learning_rate": 9.622235120283769e-06, | |
| "loss": 0.5278147697448731, | |
| "step": 790, | |
| "token_acc": 0.8398365849591463 | |
| }, | |
| { | |
| "epoch": 1.0666666666666667, | |
| "grad_norm": 5.15625, | |
| "learning_rate": 9.406577036341548e-06, | |
| "loss": 0.5124680519104003, | |
| "step": 800, | |
| "token_acc": 0.8474182301178814 | |
| }, | |
| { | |
| "epoch": 1.08, | |
| "grad_norm": 5.53125, | |
| "learning_rate": 9.19119559638596e-06, | |
| "loss": 0.496380615234375, | |
| "step": 810, | |
| "token_acc": 0.8494579160804436 | |
| }, | |
| { | |
| "epoch": 1.0933333333333333, | |
| "grad_norm": 5.09375, | |
| "learning_rate": 8.976191207687775e-06, | |
| "loss": 0.5261075973510743, | |
| "step": 820, | |
| "token_acc": 0.84287738601317 | |
| }, | |
| { | |
| "epoch": 1.1066666666666667, | |
| "grad_norm": 5.15625, | |
| "learning_rate": 8.7616641017427e-06, | |
| "loss": 0.5055447578430176, | |
| "step": 830, | |
| "token_acc": 0.8449823001564172 | |
| }, | |
| { | |
| "epoch": 1.12, | |
| "grad_norm": 5.09375, | |
| "learning_rate": 8.5477142875451e-06, | |
| "loss": 0.5239055156707764, | |
| "step": 840, | |
| "token_acc": 0.842548970989338 | |
| }, | |
| { | |
| "epoch": 1.1333333333333333, | |
| "grad_norm": 4.65625, | |
| "learning_rate": 8.334441504965456e-06, | |
| "loss": 0.4905103206634521, | |
| "step": 850, | |
| "token_acc": 0.8514728938031191 | |
| }, | |
| { | |
| "epoch": 1.1466666666666667, | |
| "grad_norm": 5.0625, | |
| "learning_rate": 8.1219451782533e-06, | |
| "loss": 0.5009275913238526, | |
| "step": 860, | |
| "token_acc": 0.8506746130287228 | |
| }, | |
| { | |
| "epoch": 1.16, | |
| "grad_norm": 4.75, | |
| "learning_rate": 7.91032436968725e-06, | |
| "loss": 0.4902180194854736, | |
| "step": 870, | |
| "token_acc": 0.8521057786483839 | |
| }, | |
| { | |
| "epoch": 1.1733333333333333, | |
| "grad_norm": 4.96875, | |
| "learning_rate": 7.699677733393827e-06, | |
| "loss": 0.5278484344482421, | |
| "step": 880, | |
| "token_acc": 0.840717654986523 | |
| }, | |
| { | |
| "epoch": 1.1866666666666668, | |
| "grad_norm": 5.53125, | |
| "learning_rate": 7.490103469356513e-06, | |
| "loss": 0.5263231277465821, | |
| "step": 890, | |
| "token_acc": 0.8404159502169819 | |
| }, | |
| { | |
| "epoch": 1.2, | |
| "grad_norm": 5.03125, | |
| "learning_rate": 7.2816992776365714e-06, | |
| "loss": 0.5099364280700683, | |
| "step": 900, | |
| "token_acc": 0.8460590120818607 | |
| }, | |
| { | |
| "epoch": 1.2133333333333334, | |
| "grad_norm": 4.9375, | |
| "learning_rate": 7.0745623128268605e-06, | |
| "loss": 0.5009159564971923, | |
| "step": 910, | |
| "token_acc": 0.8469958847736625 | |
| }, | |
| { | |
| "epoch": 1.2266666666666666, | |
| "grad_norm": 5.03125, | |
| "learning_rate": 6.868789138759977e-06, | |
| "loss": 0.49021344184875487, | |
| "step": 920, | |
| "token_acc": 0.8506004140786749 | |
| }, | |
| { | |
| "epoch": 1.24, | |
| "grad_norm": 5.3125, | |
| "learning_rate": 6.664475683491797e-06, | |
| "loss": 0.4971901893615723, | |
| "step": 930, | |
| "token_acc": 0.8538934086003652 | |
| }, | |
| { | |
| "epoch": 1.2533333333333334, | |
| "grad_norm": 5.0, | |
| "learning_rate": 6.461717194581394e-06, | |
| "loss": 0.4910529136657715, | |
| "step": 940, | |
| "token_acc": 0.8459119496855346 | |
| }, | |
| { | |
| "epoch": 1.2666666666666666, | |
| "grad_norm": 5.375, | |
| "learning_rate": 6.260608194688207e-06, | |
| "loss": 0.5063029289245605, | |
| "step": 950, | |
| "token_acc": 0.8468998673740054 | |
| }, | |
| { | |
| "epoch": 1.28, | |
| "grad_norm": 4.8125, | |
| "learning_rate": 6.061242437507131e-06, | |
| "loss": 0.5053399085998536, | |
| "step": 960, | |
| "token_acc": 0.8462996538651723 | |
| }, | |
| { | |
| "epoch": 1.2933333333333334, | |
| "grad_norm": 5.3125, | |
| "learning_rate": 5.863712864062089e-06, | |
| "loss": 0.5190982341766357, | |
| "step": 970, | |
| "token_acc": 0.8431453272951832 | |
| }, | |
| { | |
| "epoch": 1.3066666666666666, | |
| "grad_norm": 4.8125, | |
| "learning_rate": 5.6681115593784705e-06, | |
| "loss": 0.5136405944824218, | |
| "step": 980, | |
| "token_acc": 0.8435474608253343 | |
| }, | |
| { | |
| "epoch": 1.32, | |
| "grad_norm": 5.4375, | |
| "learning_rate": 5.4745297095546125e-06, | |
| "loss": 0.5165410518646241, | |
| "step": 990, | |
| "token_acc": 0.8428911313479367 | |
| }, | |
| { | |
| "epoch": 1.3333333333333333, | |
| "grad_norm": 5.0625, | |
| "learning_rate": 5.2830575592523415e-06, | |
| "loss": 0.514188289642334, | |
| "step": 1000, | |
| "token_acc": 0.8438020659780073 | |
| }, | |
| { | |
| "epoch": 1.3466666666666667, | |
| "grad_norm": 5.34375, | |
| "learning_rate": 5.093784369626397e-06, | |
| "loss": 0.5106780052185058, | |
| "step": 1010, | |
| "token_acc": 0.8496154475535919 | |
| }, | |
| { | |
| "epoch": 1.3599999999999999, | |
| "grad_norm": 5.71875, | |
| "learning_rate": 4.9067983767123736e-06, | |
| "loss": 0.5307028293609619, | |
| "step": 1020, | |
| "token_acc": 0.838667323157722 | |
| }, | |
| { | |
| "epoch": 1.3733333333333333, | |
| "grad_norm": 5.0, | |
| "learning_rate": 4.722186750292511e-06, | |
| "loss": 0.5146197319030762, | |
| "step": 1030, | |
| "token_acc": 0.84857472400725 | |
| }, | |
| { | |
| "epoch": 1.3866666666666667, | |
| "grad_norm": 5.09375, | |
| "learning_rate": 4.54003555325862e-06, | |
| "loss": 0.49753627777099607, | |
| "step": 1040, | |
| "token_acc": 0.8499875197603795 | |
| }, | |
| { | |
| "epoch": 1.4, | |
| "grad_norm": 4.84375, | |
| "learning_rate": 4.360429701490935e-06, | |
| "loss": 0.5280821800231934, | |
| "step": 1050, | |
| "token_acc": 0.8412487545665892 | |
| }, | |
| { | |
| "epoch": 1.4133333333333333, | |
| "grad_norm": 6.09375, | |
| "learning_rate": 4.183452924271776e-06, | |
| "loss": 0.5167888164520263, | |
| "step": 1060, | |
| "token_acc": 0.8481448112048489 | |
| }, | |
| { | |
| "epoch": 1.4266666666666667, | |
| "grad_norm": 5.5625, | |
| "learning_rate": 4.009187725252309e-06, | |
| "loss": 0.5182465553283692, | |
| "step": 1070, | |
| "token_acc": 0.8417679921130463 | |
| }, | |
| { | |
| "epoch": 1.44, | |
| "grad_norm": 7.46875, | |
| "learning_rate": 3.837715343990727e-06, | |
| "loss": 0.544512128829956, | |
| "step": 1080, | |
| "token_acc": 0.8359665811895112 | |
| }, | |
| { | |
| "epoch": 1.4533333333333334, | |
| "grad_norm": 5.03125, | |
| "learning_rate": 3.669115718079702e-06, | |
| "loss": 0.5208297729492187, | |
| "step": 1090, | |
| "token_acc": 0.8439840239640539 | |
| }, | |
| { | |
| "epoch": 1.4666666666666668, | |
| "grad_norm": 4.78125, | |
| "learning_rate": 3.5034674458807893e-06, | |
| "loss": 0.49147634506225585, | |
| "step": 1100, | |
| "token_acc": 0.8498478743524381 | |
| }, | |
| { | |
| "epoch": 1.48, | |
| "grad_norm": 5.09375, | |
| "learning_rate": 3.3408477498831917e-06, | |
| "loss": 0.47376408576965334, | |
| "step": 1110, | |
| "token_acc": 0.8572384937238494 | |
| }, | |
| { | |
| "epoch": 1.4933333333333334, | |
| "grad_norm": 10.125, | |
| "learning_rate": 3.1813324407038826e-06, | |
| "loss": 0.500534963607788, | |
| "step": 1120, | |
| "token_acc": 0.8503216229589312 | |
| }, | |
| { | |
| "epoch": 1.5066666666666668, | |
| "grad_norm": 5.5625, | |
| "learning_rate": 3.024995881745972e-06, | |
| "loss": 0.5463671684265137, | |
| "step": 1130, | |
| "token_acc": 0.8375915378356388 | |
| }, | |
| { | |
| "epoch": 1.52, | |
| "grad_norm": 6.15625, | |
| "learning_rate": 2.8719109545317102e-06, | |
| "loss": 0.5056015968322753, | |
| "step": 1140, | |
| "token_acc": 0.8475624845335313 | |
| }, | |
| { | |
| "epoch": 1.5333333333333332, | |
| "grad_norm": 5.0, | |
| "learning_rate": 2.722149024726307e-06, | |
| "loss": 0.520869255065918, | |
| "step": 1150, | |
| "token_acc": 0.8475250808390681 | |
| }, | |
| { | |
| "epoch": 1.5466666666666666, | |
| "grad_norm": 5.6875, | |
| "learning_rate": 2.5757799088684654e-06, | |
| "loss": 0.5158756732940674, | |
| "step": 1160, | |
| "token_acc": 0.8439109486625685 | |
| }, | |
| { | |
| "epoch": 1.56, | |
| "grad_norm": 5.34375, | |
| "learning_rate": 2.432871841823047e-06, | |
| "loss": 0.5027194023132324, | |
| "step": 1170, | |
| "token_acc": 0.8479715772948856 | |
| }, | |
| { | |
| "epoch": 1.5733333333333333, | |
| "grad_norm": 5.3125, | |
| "learning_rate": 2.293491444971109e-06, | |
| "loss": 0.5003226280212403, | |
| "step": 1180, | |
| "token_acc": 0.8471252907942838 | |
| }, | |
| { | |
| "epoch": 1.5866666666666667, | |
| "grad_norm": 5.3125, | |
| "learning_rate": 2.157703695152109e-06, | |
| "loss": 0.5319044589996338, | |
| "step": 1190, | |
| "token_acc": 0.8401890860839277 | |
| }, | |
| { | |
| "epoch": 1.6, | |
| "grad_norm": 6.6875, | |
| "learning_rate": 2.025571894372794e-06, | |
| "loss": 0.5309244155883789, | |
| "step": 1200, | |
| "token_acc": 0.8413998510796724 | |
| }, | |
| { | |
| "epoch": 1.6133333333333333, | |
| "grad_norm": 5.3125, | |
| "learning_rate": 1.897157640296825e-06, | |
| "loss": 0.5081873893737793, | |
| "step": 1210, | |
| "token_acc": 0.848412173337744 | |
| }, | |
| { | |
| "epoch": 1.6266666666666667, | |
| "grad_norm": 5.125, | |
| "learning_rate": 1.7725207975289883e-06, | |
| "loss": 0.49367580413818357, | |
| "step": 1220, | |
| "token_acc": 0.8520744636447116 | |
| }, | |
| { | |
| "epoch": 1.6400000000000001, | |
| "grad_norm": 5.46875, | |
| "learning_rate": 1.6517194697072903e-06, | |
| "loss": 0.4906160831451416, | |
| "step": 1230, | |
| "token_acc": 0.8533410711324821 | |
| }, | |
| { | |
| "epoch": 1.6533333333333333, | |
| "grad_norm": 5.34375, | |
| "learning_rate": 1.534809972415998e-06, | |
| "loss": 0.5219162940979004, | |
| "step": 1240, | |
| "token_acc": 0.8453971637019427 | |
| }, | |
| { | |
| "epoch": 1.6666666666666665, | |
| "grad_norm": 5.90625, | |
| "learning_rate": 1.4218468069322576e-06, | |
| "loss": 0.5071018218994141, | |
| "step": 1250, | |
| "token_acc": 0.8475635152019991 | |
| }, | |
| { | |
| "epoch": 1.6800000000000002, | |
| "grad_norm": 5.34375, | |
| "learning_rate": 1.3128826348184886e-06, | |
| "loss": 0.4970040798187256, | |
| "step": 1260, | |
| "token_acc": 0.8517596281540505 | |
| }, | |
| { | |
| "epoch": 1.6933333333333334, | |
| "grad_norm": 5.125, | |
| "learning_rate": 1.207968253372438e-06, | |
| "loss": 0.5095610618591309, | |
| "step": 1270, | |
| "token_acc": 0.8455028211085297 | |
| }, | |
| { | |
| "epoch": 1.7066666666666666, | |
| "grad_norm": 5.21875, | |
| "learning_rate": 1.1071525719463094e-06, | |
| "loss": 0.5271808624267578, | |
| "step": 1280, | |
| "token_acc": 0.8363755961190593 | |
| }, | |
| { | |
| "epoch": 1.72, | |
| "grad_norm": 5.28125, | |
| "learning_rate": 1.010482589146048e-06, | |
| "loss": 0.5269584655761719, | |
| "step": 1290, | |
| "token_acc": 0.8395907253073686 | |
| }, | |
| { | |
| "epoch": 1.7333333333333334, | |
| "grad_norm": 4.84375, | |
| "learning_rate": 9.180033709213454e-07, | |
| "loss": 0.5068782329559326, | |
| "step": 1300, | |
| "token_acc": 0.8477703317613965 | |
| }, | |
| { | |
| "epoch": 1.7466666666666666, | |
| "grad_norm": 5.1875, | |
| "learning_rate": 8.297580295566576e-07, | |
| "loss": 0.5047368049621582, | |
| "step": 1310, | |
| "token_acc": 0.8473143236074271 | |
| }, | |
| { | |
| "epoch": 1.76, | |
| "grad_norm": 5.0625, | |
| "learning_rate": 7.457877035729588e-07, | |
| "loss": 0.5067093372344971, | |
| "step": 1320, | |
| "token_acc": 0.8472787702534275 | |
| }, | |
| { | |
| "epoch": 1.7733333333333334, | |
| "grad_norm": 5.0625, | |
| "learning_rate": 6.661315385496426e-07, | |
| "loss": 0.4852180480957031, | |
| "step": 1330, | |
| "token_acc": 0.8516288659793815 | |
| }, | |
| { | |
| "epoch": 1.7866666666666666, | |
| "grad_norm": 5.15625, | |
| "learning_rate": 5.908266688755049e-07, | |
| "loss": 0.522340202331543, | |
| "step": 1340, | |
| "token_acc": 0.8422346002621232 | |
| }, | |
| { | |
| "epoch": 1.8, | |
| "grad_norm": 5.0, | |
| "learning_rate": 5.199082004372958e-07, | |
| "loss": 0.5062976837158203, | |
| "step": 1350, | |
| "token_acc": 0.8476166749709351 | |
| }, | |
| { | |
| "epoch": 1.8133333333333335, | |
| "grad_norm": 5.0625, | |
| "learning_rate": 4.534091942539476e-07, | |
| "loss": 0.4891101837158203, | |
| "step": 1360, | |
| "token_acc": 0.8499586435070307 | |
| }, | |
| { | |
| "epoch": 1.8266666666666667, | |
| "grad_norm": 5.40625, | |
| "learning_rate": 3.913606510640644e-07, | |
| "loss": 0.5134968757629395, | |
| "step": 1370, | |
| "token_acc": 0.8447492357266794 | |
| }, | |
| { | |
| "epoch": 1.8399999999999999, | |
| "grad_norm": 5.15625, | |
| "learning_rate": 3.3379149687388866e-07, | |
| "loss": 0.5230096340179443, | |
| "step": 1380, | |
| "token_acc": 0.8396140842747588 | |
| }, | |
| { | |
| "epoch": 1.8533333333333335, | |
| "grad_norm": 5.25, | |
| "learning_rate": 2.807285694724804e-07, | |
| "loss": 0.5166028022766114, | |
| "step": 1390, | |
| "token_acc": 0.8429724556877757 | |
| }, | |
| { | |
| "epoch": 1.8666666666666667, | |
| "grad_norm": 5.625, | |
| "learning_rate": 2.3219660592038285e-07, | |
| "loss": 0.514072847366333, | |
| "step": 1400, | |
| "token_acc": 0.844030650078273 | |
| }, | |
| { | |
| "epoch": 1.88, | |
| "grad_norm": 5.15625, | |
| "learning_rate": 1.8821823101760949e-07, | |
| "loss": 0.5318747520446777, | |
| "step": 1410, | |
| "token_acc": 0.842118186282534 | |
| }, | |
| { | |
| "epoch": 1.8933333333333333, | |
| "grad_norm": 5.78125, | |
| "learning_rate": 1.4881394675633543e-07, | |
| "loss": 0.5264867782592774, | |
| "step": 1420, | |
| "token_acc": 0.8433446252995125 | |
| }, | |
| { | |
| "epoch": 1.9066666666666667, | |
| "grad_norm": 5.25, | |
| "learning_rate": 1.1400212276321377e-07, | |
| "loss": 0.4889203071594238, | |
| "step": 1430, | |
| "token_acc": 0.8535750083528233 | |
| }, | |
| { | |
| "epoch": 1.92, | |
| "grad_norm": 5.40625, | |
| "learning_rate": 8.379898773574924e-08, | |
| "loss": 0.5024492263793945, | |
| "step": 1440, | |
| "token_acc": 0.8484596861247198 | |
| }, | |
| { | |
| "epoch": 1.9333333333333333, | |
| "grad_norm": 5.375, | |
| "learning_rate": 5.821862187675775e-08, | |
| "loss": 0.5157130241394043, | |
| "step": 1450, | |
| "token_acc": 0.8467219167965865 | |
| }, | |
| { | |
| "epoch": 1.9466666666666668, | |
| "grad_norm": 5.40625, | |
| "learning_rate": 3.727295033040035e-08, | |
| "loss": 0.5204654693603515, | |
| "step": 1460, | |
| "token_acc": 0.8441256943868668 | |
| }, | |
| { | |
| "epoch": 1.96, | |
| "grad_norm": 5.5, | |
| "learning_rate": 2.0971737622883515e-08, | |
| "loss": 0.5130805969238281, | |
| "step": 1470, | |
| "token_acc": 0.8455365268470257 | |
| }, | |
| { | |
| "epoch": 1.9733333333333334, | |
| "grad_norm": 5.4375, | |
| "learning_rate": 9.322583110392692e-09, | |
| "loss": 0.48325433731079104, | |
| "step": 1480, | |
| "token_acc": 0.8567176519222819 | |
| }, | |
| { | |
| "epoch": 1.9866666666666668, | |
| "grad_norm": 5.46875, | |
| "learning_rate": 2.330917436402791e-09, | |
| "loss": 0.5024989604949951, | |
| "step": 1490, | |
| "token_acc": 0.8469235858418789 | |
| }, | |
| { | |
| "epoch": 2.0, | |
| "grad_norm": 6.0625, | |
| "learning_rate": 0.0, | |
| "loss": 0.5149618625640869, | |
| "step": 1500, | |
| "token_acc": 0.8438524245734935 | |
| } | |
| ], | |
| "logging_steps": 10, | |
| "max_steps": 1500, | |
| "num_input_tokens_seen": 0, | |
| "num_train_epochs": 2, | |
| "save_steps": 500, | |
| "stateful_callbacks": { | |
| "TrainerControl": { | |
| "args": { | |
| "should_epoch_stop": false, | |
| "should_evaluate": false, | |
| "should_log": false, | |
| "should_save": true, | |
| "should_training_stop": true | |
| }, | |
| "attributes": {} | |
| } | |
| }, | |
| "total_flos": 6.506814115938304e+17, | |
| "train_batch_size": 8, | |
| "trial_name": null, | |
| "trial_params": null | |
| } | |