| { | |
| "best_global_step": null, | |
| "best_metric": null, | |
| "best_model_checkpoint": null, | |
| "epoch": 2.0, | |
| "eval_steps": 500.0, | |
| "global_step": 1500, | |
| "is_hyper_param_search": false, | |
| "is_local_process_zero": true, | |
| "is_world_process_zero": true, | |
| "log_history": [ | |
| { | |
| "epoch": 0.0013333333333333333, | |
| "grad_norm": 45.5, | |
| "learning_rate": 4.444444444444445e-07, | |
| "loss": 3.6120924949645996, | |
| "step": 1, | |
| "token_acc": 0.692805173807599 | |
| }, | |
| { | |
| "epoch": 0.013333333333333334, | |
| "grad_norm": 41.75, | |
| "learning_rate": 4.444444444444444e-06, | |
| "loss": 3.241356955634223, | |
| "step": 10, | |
| "token_acc": 0.7250909090909091 | |
| }, | |
| { | |
| "epoch": 0.02666666666666667, | |
| "grad_norm": 27.375, | |
| "learning_rate": 8.888888888888888e-06, | |
| "loss": 2.4186626434326173, | |
| "step": 20, | |
| "token_acc": 0.7314211212516297 | |
| }, | |
| { | |
| "epoch": 0.04, | |
| "grad_norm": 6.46875, | |
| "learning_rate": 1.3333333333333333e-05, | |
| "loss": 1.2653627395629883, | |
| "step": 30, | |
| "token_acc": 0.7420932507336159 | |
| }, | |
| { | |
| "epoch": 0.05333333333333334, | |
| "grad_norm": 5.40625, | |
| "learning_rate": 1.7777777777777777e-05, | |
| "loss": 1.0001752853393555, | |
| "step": 40, | |
| "token_acc": 0.7544002607561929 | |
| }, | |
| { | |
| "epoch": 0.06666666666666667, | |
| "grad_norm": 6.1875, | |
| "learning_rate": 1.9999417253661235e-05, | |
| "loss": 0.8761209487915039, | |
| "step": 50, | |
| "token_acc": 0.7754220011416456 | |
| }, | |
| { | |
| "epoch": 0.08, | |
| "grad_norm": 4.84375, | |
| "learning_rate": 1.9994755690455154e-05, | |
| "loss": 0.8748796463012696, | |
| "step": 60, | |
| "token_acc": 0.7728149100257069 | |
| }, | |
| { | |
| "epoch": 0.09333333333333334, | |
| "grad_norm": 4.9375, | |
| "learning_rate": 1.998543473718677e-05, | |
| "loss": 0.8447202682495117, | |
| "step": 70, | |
| "token_acc": 0.7763874217924758 | |
| }, | |
| { | |
| "epoch": 0.10666666666666667, | |
| "grad_norm": 4.96875, | |
| "learning_rate": 1.9971458739130598e-05, | |
| "loss": 0.763272762298584, | |
| "step": 80, | |
| "token_acc": 0.7934078393262066 | |
| }, | |
| { | |
| "epoch": 0.12, | |
| "grad_norm": 4.8125, | |
| "learning_rate": 1.995283421166614e-05, | |
| "loss": 0.8083768844604492, | |
| "step": 90, | |
| "token_acc": 0.7815763707571801 | |
| }, | |
| { | |
| "epoch": 0.13333333333333333, | |
| "grad_norm": 4.53125, | |
| "learning_rate": 1.9929569837240567e-05, | |
| "loss": 0.7732916831970215, | |
| "step": 100, | |
| "token_acc": 0.7948781088401872 | |
| }, | |
| { | |
| "epoch": 0.14666666666666667, | |
| "grad_norm": 5.0, | |
| "learning_rate": 1.990167646132107e-05, | |
| "loss": 0.7417994499206543, | |
| "step": 110, | |
| "token_acc": 0.7989422294548413 | |
| }, | |
| { | |
| "epoch": 0.16, | |
| "grad_norm": 5.3125, | |
| "learning_rate": 1.9869167087338908e-05, | |
| "loss": 0.7866358757019043, | |
| "step": 120, | |
| "token_acc": 0.788159187684245 | |
| }, | |
| { | |
| "epoch": 0.17333333333333334, | |
| "grad_norm": 5.0, | |
| "learning_rate": 1.983205687062742e-05, | |
| "loss": 0.7566679000854493, | |
| "step": 130, | |
| "token_acc": 0.7970578673602081 | |
| }, | |
| { | |
| "epoch": 0.18666666666666668, | |
| "grad_norm": 5.125, | |
| "learning_rate": 1.9790363111356838e-05, | |
| "loss": 0.7657253742218018, | |
| "step": 140, | |
| "token_acc": 0.7885257925189472 | |
| }, | |
| { | |
| "epoch": 0.2, | |
| "grad_norm": 5.28125, | |
| "learning_rate": 1.9744105246469264e-05, | |
| "loss": 0.7730959892272949, | |
| "step": 150, | |
| "token_acc": 0.7950158807720499 | |
| }, | |
| { | |
| "epoch": 0.21333333333333335, | |
| "grad_norm": 5.5, | |
| "learning_rate": 1.9693304840617456e-05, | |
| "loss": 0.7428954124450684, | |
| "step": 160, | |
| "token_acc": 0.796344861498115 | |
| }, | |
| { | |
| "epoch": 0.22666666666666666, | |
| "grad_norm": 4.71875, | |
| "learning_rate": 1.963798557611178e-05, | |
| "loss": 0.7652041435241699, | |
| "step": 170, | |
| "token_acc": 0.7951132397110156 | |
| }, | |
| { | |
| "epoch": 0.24, | |
| "grad_norm": 5.25, | |
| "learning_rate": 1.957817324187987e-05, | |
| "loss": 0.7344063758850098, | |
| "step": 180, | |
| "token_acc": 0.7932641216381918 | |
| }, | |
| { | |
| "epoch": 0.25333333333333335, | |
| "grad_norm": 5.15625, | |
| "learning_rate": 1.9513895721444286e-05, | |
| "loss": 0.7396333694458008, | |
| "step": 190, | |
| "token_acc": 0.797104965227236 | |
| }, | |
| { | |
| "epoch": 0.26666666666666666, | |
| "grad_norm": 5.03125, | |
| "learning_rate": 1.9445182979923657e-05, | |
| "loss": 0.724589204788208, | |
| "step": 200, | |
| "token_acc": 0.8014981273408239 | |
| }, | |
| { | |
| "epoch": 0.28, | |
| "grad_norm": 4.84375, | |
| "learning_rate": 1.937206705006344e-05, | |
| "loss": 0.7408841133117676, | |
| "step": 210, | |
| "token_acc": 0.7963144963144964 | |
| }, | |
| { | |
| "epoch": 0.29333333333333333, | |
| "grad_norm": 5.34375, | |
| "learning_rate": 1.9294582017302797e-05, | |
| "loss": 0.7465139389038086, | |
| "step": 220, | |
| "token_acc": 0.7966129428127301 | |
| }, | |
| { | |
| "epoch": 0.30666666666666664, | |
| "grad_norm": 5.0, | |
| "learning_rate": 1.921276400388451e-05, | |
| "loss": 0.7401124000549316, | |
| "step": 230, | |
| "token_acc": 0.7974354812530433 | |
| }, | |
| { | |
| "epoch": 0.32, | |
| "grad_norm": 4.9375, | |
| "learning_rate": 1.9126651152015404e-05, | |
| "loss": 0.7206537246704101, | |
| "step": 240, | |
| "token_acc": 0.7979000488360736 | |
| }, | |
| { | |
| "epoch": 0.3333333333333333, | |
| "grad_norm": 4.9375, | |
| "learning_rate": 1.9036283606085057e-05, | |
| "loss": 0.759273910522461, | |
| "step": 250, | |
| "token_acc": 0.7967439565860878 | |
| }, | |
| { | |
| "epoch": 0.3466666666666667, | |
| "grad_norm": 4.59375, | |
| "learning_rate": 1.8941703493951163e-05, | |
| "loss": 0.7360185623168946, | |
| "step": 260, | |
| "token_acc": 0.7980267449445532 | |
| }, | |
| { | |
| "epoch": 0.36, | |
| "grad_norm": 5.3125, | |
| "learning_rate": 1.8842954907300236e-05, | |
| "loss": 0.7209041118621826, | |
| "step": 270, | |
| "token_acc": 0.8010954872465664 | |
| }, | |
| { | |
| "epoch": 0.37333333333333335, | |
| "grad_norm": 5.6875, | |
| "learning_rate": 1.874008388109276e-05, | |
| "loss": 0.7393032073974609, | |
| "step": 280, | |
| "token_acc": 0.7982671244073892 | |
| }, | |
| { | |
| "epoch": 0.38666666666666666, | |
| "grad_norm": 5.1875, | |
| "learning_rate": 1.863313837210247e-05, | |
| "loss": 0.6893481254577637, | |
| "step": 290, | |
| "token_acc": 0.8043727481166066 | |
| }, | |
| { | |
| "epoch": 0.4, | |
| "grad_norm": 5.03125, | |
| "learning_rate": 1.8522168236559693e-05, | |
| "loss": 0.7339417934417725, | |
| "step": 300, | |
| "token_acc": 0.7988840567818167 | |
| }, | |
| { | |
| "epoch": 0.41333333333333333, | |
| "grad_norm": 5.46875, | |
| "learning_rate": 1.840722520690921e-05, | |
| "loss": 0.7262563228607177, | |
| "step": 310, | |
| "token_acc": 0.8053370103009165 | |
| }, | |
| { | |
| "epoch": 0.4266666666666667, | |
| "grad_norm": 5.875, | |
| "learning_rate": 1.8288362867693414e-05, | |
| "loss": 0.7402091979980469, | |
| "step": 320, | |
| "token_acc": 0.7968160183817495 | |
| }, | |
| { | |
| "epoch": 0.44, | |
| "grad_norm": 5.125, | |
| "learning_rate": 1.816563663057211e-05, | |
| "loss": 0.6759980201721192, | |
| "step": 330, | |
| "token_acc": 0.808571898650872 | |
| }, | |
| { | |
| "epoch": 0.4533333333333333, | |
| "grad_norm": 4.96875, | |
| "learning_rate": 1.8039103708490503e-05, | |
| "loss": 0.7085983753204346, | |
| "step": 340, | |
| "token_acc": 0.7998858354399413 | |
| }, | |
| { | |
| "epoch": 0.4666666666666667, | |
| "grad_norm": 4.625, | |
| "learning_rate": 1.790882308900746e-05, | |
| "loss": 0.6950423717498779, | |
| "step": 350, | |
| "token_acc": 0.8057448880233691 | |
| }, | |
| { | |
| "epoch": 0.48, | |
| "grad_norm": 5.46875, | |
| "learning_rate": 1.7774855506796497e-05, | |
| "loss": 0.732569408416748, | |
| "step": 360, | |
| "token_acc": 0.7937176165803109 | |
| }, | |
| { | |
| "epoch": 0.49333333333333335, | |
| "grad_norm": 5.625, | |
| "learning_rate": 1.7637263415332272e-05, | |
| "loss": 0.656832218170166, | |
| "step": 370, | |
| "token_acc": 0.8121569591218154 | |
| }, | |
| { | |
| "epoch": 0.5066666666666667, | |
| "grad_norm": 4.84375, | |
| "learning_rate": 1.749611095777581e-05, | |
| "loss": 0.7230328559875489, | |
| "step": 380, | |
| "token_acc": 0.8009799918334014 | |
| }, | |
| { | |
| "epoch": 0.52, | |
| "grad_norm": 5.09375, | |
| "learning_rate": 1.7351463937072008e-05, | |
| "loss": 0.6758727073669434, | |
| "step": 390, | |
| "token_acc": 0.8078545926647193 | |
| }, | |
| { | |
| "epoch": 0.5333333333333333, | |
| "grad_norm": 5.0, | |
| "learning_rate": 1.7203389785273402e-05, | |
| "loss": 0.7040678024291992, | |
| "step": 400, | |
| "token_acc": 0.8046538117321618 | |
| }, | |
| { | |
| "epoch": 0.5466666666666666, | |
| "grad_norm": 5.53125, | |
| "learning_rate": 1.705195753210446e-05, | |
| "loss": 0.7089932441711426, | |
| "step": 410, | |
| "token_acc": 0.8042020202020203 | |
| }, | |
| { | |
| "epoch": 0.56, | |
| "grad_norm": 4.90625, | |
| "learning_rate": 1.6897237772781046e-05, | |
| "loss": 0.709561538696289, | |
| "step": 420, | |
| "token_acc": 0.8022167487684729 | |
| }, | |
| { | |
| "epoch": 0.5733333333333334, | |
| "grad_norm": 5.0625, | |
| "learning_rate": 1.673930263510011e-05, | |
| "loss": 0.6771355628967285, | |
| "step": 430, | |
| "token_acc": 0.8087418300653595 | |
| }, | |
| { | |
| "epoch": 0.5866666666666667, | |
| "grad_norm": 4.78125, | |
| "learning_rate": 1.6578225745814907e-05, | |
| "loss": 0.7098465919494629, | |
| "step": 440, | |
| "token_acc": 0.806032029916267 | |
| }, | |
| { | |
| "epoch": 0.6, | |
| "grad_norm": 4.90625, | |
| "learning_rate": 1.6414082196311402e-05, | |
| "loss": 0.7214509010314941, | |
| "step": 450, | |
| "token_acc": 0.8016759776536313 | |
| }, | |
| { | |
| "epoch": 0.6133333333333333, | |
| "grad_norm": 4.8125, | |
| "learning_rate": 1.6246948507601915e-05, | |
| "loss": 0.7162348747253418, | |
| "step": 460, | |
| "token_acc": 0.8048701822286728 | |
| }, | |
| { | |
| "epoch": 0.6266666666666667, | |
| "grad_norm": 5.03125, | |
| "learning_rate": 1.607690259465229e-05, | |
| "loss": 0.6926117420196534, | |
| "step": 470, | |
| "token_acc": 0.8064724919093851 | |
| }, | |
| { | |
| "epoch": 0.64, | |
| "grad_norm": 5.3125, | |
| "learning_rate": 1.5904023730059227e-05, | |
| "loss": 0.7288966655731202, | |
| "step": 480, | |
| "token_acc": 0.801030000817461 | |
| }, | |
| { | |
| "epoch": 0.6533333333333333, | |
| "grad_norm": 5.1875, | |
| "learning_rate": 1.57283925070947e-05, | |
| "loss": 0.6934792995452881, | |
| "step": 490, | |
| "token_acc": 0.8088163265306122 | |
| }, | |
| { | |
| "epoch": 0.6666666666666666, | |
| "grad_norm": 5.0625, | |
| "learning_rate": 1.55500908021347e-05, | |
| "loss": 0.7172669410705567, | |
| "step": 500, | |
| "token_acc": 0.7988286016432116 | |
| }, | |
| { | |
| "epoch": 0.68, | |
| "grad_norm": 5.0, | |
| "learning_rate": 1.536920173648984e-05, | |
| "loss": 0.7088887214660644, | |
| "step": 510, | |
| "token_acc": 0.8016348332793785 | |
| }, | |
| { | |
| "epoch": 0.6933333333333334, | |
| "grad_norm": 5.25, | |
| "learning_rate": 1.5185809637655548e-05, | |
| "loss": 0.6585777759552002, | |
| "step": 520, | |
| "token_acc": 0.8122295697607969 | |
| }, | |
| { | |
| "epoch": 0.7066666666666667, | |
| "grad_norm": 5.125, | |
| "learning_rate": 1.5000000000000002e-05, | |
| "loss": 0.6944583892822266, | |
| "step": 530, | |
| "token_acc": 0.807695436427235 | |
| }, | |
| { | |
| "epoch": 0.72, | |
| "grad_norm": 5.0, | |
| "learning_rate": 1.4811859444908053e-05, | |
| "loss": 0.7021516799926758, | |
| "step": 540, | |
| "token_acc": 0.8056577548851279 | |
| }, | |
| { | |
| "epoch": 0.7333333333333333, | |
| "grad_norm": 5.0, | |
| "learning_rate": 1.4621475680399771e-05, | |
| "loss": 0.7249656677246094, | |
| "step": 550, | |
| "token_acc": 0.7961825182272466 | |
| }, | |
| { | |
| "epoch": 0.7466666666666667, | |
| "grad_norm": 5.03125, | |
| "learning_rate": 1.4428937460242417e-05, | |
| "loss": 0.7149811744689941, | |
| "step": 560, | |
| "token_acc": 0.8019284196764177 | |
| }, | |
| { | |
| "epoch": 0.76, | |
| "grad_norm": 4.8125, | |
| "learning_rate": 1.4234334542574906e-05, | |
| "loss": 0.661277961730957, | |
| "step": 570, | |
| "token_acc": 0.8132054176072234 | |
| }, | |
| { | |
| "epoch": 0.7733333333333333, | |
| "grad_norm": 5.5625, | |
| "learning_rate": 1.4037757648064019e-05, | |
| "loss": 0.7020973205566406, | |
| "step": 580, | |
| "token_acc": 0.8036789842096695 | |
| }, | |
| { | |
| "epoch": 0.7866666666666666, | |
| "grad_norm": 4.8125, | |
| "learning_rate": 1.3839298417611964e-05, | |
| "loss": 0.6568217277526855, | |
| "step": 590, | |
| "token_acc": 0.8160507895165229 | |
| }, | |
| { | |
| "epoch": 0.8, | |
| "grad_norm": 4.9375, | |
| "learning_rate": 1.3639049369634878e-05, | |
| "loss": 0.7179049015045166, | |
| "step": 600, | |
| "token_acc": 0.8021664766248575 | |
| }, | |
| { | |
| "epoch": 0.8133333333333334, | |
| "grad_norm": 5.21875, | |
| "learning_rate": 1.3437103856932266e-05, | |
| "loss": 0.6972805976867675, | |
| "step": 610, | |
| "token_acc": 0.8070645554202193 | |
| }, | |
| { | |
| "epoch": 0.8266666666666667, | |
| "grad_norm": 5.53125, | |
| "learning_rate": 1.3233556023167487e-05, | |
| "loss": 0.7041952610015869, | |
| "step": 620, | |
| "token_acc": 0.804798962386511 | |
| }, | |
| { | |
| "epoch": 0.84, | |
| "grad_norm": 4.84375, | |
| "learning_rate": 1.3028500758979507e-05, | |
| "loss": 0.6543876647949218, | |
| "step": 630, | |
| "token_acc": 0.8139781438590769 | |
| }, | |
| { | |
| "epoch": 0.8533333333333334, | |
| "grad_norm": 4.78125, | |
| "learning_rate": 1.2822033657746478e-05, | |
| "loss": 0.7052624702453614, | |
| "step": 640, | |
| "token_acc": 0.8019825918762089 | |
| }, | |
| { | |
| "epoch": 0.8666666666666667, | |
| "grad_norm": 4.8125, | |
| "learning_rate": 1.2614250971021658e-05, | |
| "loss": 0.6933720588684082, | |
| "step": 650, | |
| "token_acc": 0.8080161943319838 | |
| }, | |
| { | |
| "epoch": 0.88, | |
| "grad_norm": 4.8125, | |
| "learning_rate": 1.2405249563662539e-05, | |
| "loss": 0.679276418685913, | |
| "step": 660, | |
| "token_acc": 0.8087387314220742 | |
| }, | |
| { | |
| "epoch": 0.8933333333333333, | |
| "grad_norm": 5.21875, | |
| "learning_rate": 1.2195126868674052e-05, | |
| "loss": 0.7009932041168213, | |
| "step": 670, | |
| "token_acc": 0.8023591718825228 | |
| }, | |
| { | |
| "epoch": 0.9066666666666666, | |
| "grad_norm": 5.40625, | |
| "learning_rate": 1.1983980841786899e-05, | |
| "loss": 0.7048829078674317, | |
| "step": 680, | |
| "token_acc": 0.8098488542174549 | |
| }, | |
| { | |
| "epoch": 0.92, | |
| "grad_norm": 5.25, | |
| "learning_rate": 1.177190991579223e-05, | |
| "loss": 0.6833941459655761, | |
| "step": 690, | |
| "token_acc": 0.8087610330173259 | |
| }, | |
| { | |
| "epoch": 0.9333333333333333, | |
| "grad_norm": 5.03125, | |
| "learning_rate": 1.1559012954653865e-05, | |
| "loss": 0.7195525169372559, | |
| "step": 700, | |
| "token_acc": 0.7997066492829205 | |
| }, | |
| { | |
| "epoch": 0.9466666666666667, | |
| "grad_norm": 4.84375, | |
| "learning_rate": 1.1345389207419588e-05, | |
| "loss": 0.6994742393493653, | |
| "step": 710, | |
| "token_acc": 0.8091652497773459 | |
| }, | |
| { | |
| "epoch": 0.96, | |
| "grad_norm": 4.90625, | |
| "learning_rate": 1.1131138261952845e-05, | |
| "loss": 0.6919075012207031, | |
| "step": 720, | |
| "token_acc": 0.8056322025645187 | |
| }, | |
| { | |
| "epoch": 0.9733333333333334, | |
| "grad_norm": 5.34375, | |
| "learning_rate": 1.0916359998506549e-05, | |
| "loss": 0.6733269214630127, | |
| "step": 730, | |
| "token_acc": 0.8091272756959752 | |
| }, | |
| { | |
| "epoch": 0.9866666666666667, | |
| "grad_norm": 5.125, | |
| "learning_rate": 1.070115454316054e-05, | |
| "loss": 0.692645263671875, | |
| "step": 740, | |
| "token_acc": 0.808663084188243 | |
| }, | |
| { | |
| "epoch": 1.0, | |
| "grad_norm": 5.625, | |
| "learning_rate": 1.0485622221144485e-05, | |
| "loss": 0.7089018821716309, | |
| "step": 750, | |
| "token_acc": 0.8050487378155461 | |
| }, | |
| { | |
| "epoch": 1.0133333333333334, | |
| "grad_norm": 4.21875, | |
| "learning_rate": 1.0269863510067872e-05, | |
| "loss": 0.5750129699707032, | |
| "step": 760, | |
| "token_acc": 0.8333738947026852 | |
| }, | |
| { | |
| "epoch": 1.0266666666666666, | |
| "grad_norm": 5.15625, | |
| "learning_rate": 1.0053978993079046e-05, | |
| "loss": 0.552493953704834, | |
| "step": 770, | |
| "token_acc": 0.8414773655826115 | |
| }, | |
| { | |
| "epoch": 1.04, | |
| "grad_norm": 5.0, | |
| "learning_rate": 9.838069311974986e-06, | |
| "loss": 0.5750764846801758, | |
| "step": 780, | |
| "token_acc": 0.8349679824916917 | |
| }, | |
| { | |
| "epoch": 1.0533333333333332, | |
| "grad_norm": 5.15625, | |
| "learning_rate": 9.622235120283769e-06, | |
| "loss": 0.5493856430053711, | |
| "step": 790, | |
| "token_acc": 0.8375368490009827 | |
| }, | |
| { | |
| "epoch": 1.0666666666666667, | |
| "grad_norm": 4.9375, | |
| "learning_rate": 9.406577036341548e-06, | |
| "loss": 0.5629888534545898, | |
| "step": 800, | |
| "token_acc": 0.8380639868744872 | |
| }, | |
| { | |
| "epoch": 1.08, | |
| "grad_norm": 5.40625, | |
| "learning_rate": 9.19119559638596e-06, | |
| "loss": 0.5275765419006347, | |
| "step": 810, | |
| "token_acc": 0.8425744193653909 | |
| }, | |
| { | |
| "epoch": 1.0933333333333333, | |
| "grad_norm": 4.90625, | |
| "learning_rate": 8.976191207687775e-06, | |
| "loss": 0.5670058727264404, | |
| "step": 820, | |
| "token_acc": 0.8355387523629489 | |
| }, | |
| { | |
| "epoch": 1.1066666666666667, | |
| "grad_norm": 5.125, | |
| "learning_rate": 8.7616641017427e-06, | |
| "loss": 0.5340017318725586, | |
| "step": 830, | |
| "token_acc": 0.8396157290564195 | |
| }, | |
| { | |
| "epoch": 1.12, | |
| "grad_norm": 5.0, | |
| "learning_rate": 8.5477142875451e-06, | |
| "loss": 0.5578254699707031, | |
| "step": 840, | |
| "token_acc": 0.8394350190762238 | |
| }, | |
| { | |
| "epoch": 1.1333333333333333, | |
| "grad_norm": 4.5625, | |
| "learning_rate": 8.334441504965456e-06, | |
| "loss": 0.5289861679077148, | |
| "step": 850, | |
| "token_acc": 0.8435291250304655 | |
| }, | |
| { | |
| "epoch": 1.1466666666666667, | |
| "grad_norm": 4.53125, | |
| "learning_rate": 8.1219451782533e-06, | |
| "loss": 0.5305328369140625, | |
| "step": 860, | |
| "token_acc": 0.8442883971584878 | |
| }, | |
| { | |
| "epoch": 1.16, | |
| "grad_norm": 5.0625, | |
| "learning_rate": 7.91032436968725e-06, | |
| "loss": 0.5430224895477295, | |
| "step": 870, | |
| "token_acc": 0.8437802126973897 | |
| }, | |
| { | |
| "epoch": 1.1733333333333333, | |
| "grad_norm": 4.90625, | |
| "learning_rate": 7.699677733393827e-06, | |
| "loss": 0.5600308418273926, | |
| "step": 880, | |
| "token_acc": 0.8361184645929848 | |
| }, | |
| { | |
| "epoch": 1.1866666666666668, | |
| "grad_norm": 5.5, | |
| "learning_rate": 7.490103469356513e-06, | |
| "loss": 0.5438615798950195, | |
| "step": 890, | |
| "token_acc": 0.8384927066450567 | |
| }, | |
| { | |
| "epoch": 1.2, | |
| "grad_norm": 5.0625, | |
| "learning_rate": 7.2816992776365714e-06, | |
| "loss": 0.5463601112365722, | |
| "step": 900, | |
| "token_acc": 0.8438770531793788 | |
| }, | |
| { | |
| "epoch": 1.2133333333333334, | |
| "grad_norm": 5.09375, | |
| "learning_rate": 7.0745623128268605e-06, | |
| "loss": 0.5410914421081543, | |
| "step": 910, | |
| "token_acc": 0.8389397746615871 | |
| }, | |
| { | |
| "epoch": 1.2266666666666666, | |
| "grad_norm": 5.21875, | |
| "learning_rate": 6.868789138759977e-06, | |
| "loss": 0.5365133285522461, | |
| "step": 920, | |
| "token_acc": 0.8415112855740923 | |
| }, | |
| { | |
| "epoch": 1.24, | |
| "grad_norm": 5.3125, | |
| "learning_rate": 6.664475683491797e-06, | |
| "loss": 0.5493819236755371, | |
| "step": 930, | |
| "token_acc": 0.8429853181076672 | |
| }, | |
| { | |
| "epoch": 1.2533333333333334, | |
| "grad_norm": 5.0625, | |
| "learning_rate": 6.461717194581394e-06, | |
| "loss": 0.5475409507751465, | |
| "step": 940, | |
| "token_acc": 0.8347282034614447 | |
| }, | |
| { | |
| "epoch": 1.2666666666666666, | |
| "grad_norm": 5.125, | |
| "learning_rate": 6.260608194688207e-06, | |
| "loss": 0.552414083480835, | |
| "step": 950, | |
| "token_acc": 0.8406754772393539 | |
| }, | |
| { | |
| "epoch": 1.28, | |
| "grad_norm": 4.875, | |
| "learning_rate": 6.061242437507131e-06, | |
| "loss": 0.5520871162414551, | |
| "step": 960, | |
| "token_acc": 0.8394540136496588 | |
| }, | |
| { | |
| "epoch": 1.2933333333333334, | |
| "grad_norm": 5.28125, | |
| "learning_rate": 5.863712864062089e-06, | |
| "loss": 0.5584508419036865, | |
| "step": 970, | |
| "token_acc": 0.835880344659405 | |
| }, | |
| { | |
| "epoch": 1.3066666666666666, | |
| "grad_norm": 5.0625, | |
| "learning_rate": 5.6681115593784705e-06, | |
| "loss": 0.5780391693115234, | |
| "step": 980, | |
| "token_acc": 0.8330101793504605 | |
| }, | |
| { | |
| "epoch": 1.32, | |
| "grad_norm": 4.78125, | |
| "learning_rate": 5.4745297095546125e-06, | |
| "loss": 0.5577362060546875, | |
| "step": 990, | |
| "token_acc": 0.8362530413625304 | |
| }, | |
| { | |
| "epoch": 1.3333333333333333, | |
| "grad_norm": 4.96875, | |
| "learning_rate": 5.2830575592523415e-06, | |
| "loss": 0.5792497634887696, | |
| "step": 1000, | |
| "token_acc": 0.8355370551746654 | |
| }, | |
| { | |
| "epoch": 1.3466666666666667, | |
| "grad_norm": 5.28125, | |
| "learning_rate": 5.093784369626397e-06, | |
| "loss": 0.5383687019348145, | |
| "step": 1010, | |
| "token_acc": 0.8474863035771834 | |
| }, | |
| { | |
| "epoch": 1.3599999999999999, | |
| "grad_norm": 5.40625, | |
| "learning_rate": 4.9067983767123736e-06, | |
| "loss": 0.5650774002075195, | |
| "step": 1020, | |
| "token_acc": 0.8352373290426388 | |
| }, | |
| { | |
| "epoch": 1.3733333333333333, | |
| "grad_norm": 5.0625, | |
| "learning_rate": 4.722186750292511e-06, | |
| "loss": 0.5460453987121582, | |
| "step": 1030, | |
| "token_acc": 0.8403026358607224 | |
| }, | |
| { | |
| "epoch": 1.3866666666666667, | |
| "grad_norm": 5.21875, | |
| "learning_rate": 4.54003555325862e-06, | |
| "loss": 0.542818260192871, | |
| "step": 1040, | |
| "token_acc": 0.8395213507089583 | |
| }, | |
| { | |
| "epoch": 1.4, | |
| "grad_norm": 4.9375, | |
| "learning_rate": 4.360429701490935e-06, | |
| "loss": 0.5746999740600586, | |
| "step": 1050, | |
| "token_acc": 0.8327645051194539 | |
| }, | |
| { | |
| "epoch": 1.4133333333333333, | |
| "grad_norm": 5.25, | |
| "learning_rate": 4.183452924271776e-06, | |
| "loss": 0.554568862915039, | |
| "step": 1060, | |
| "token_acc": 0.8416707139388052 | |
| }, | |
| { | |
| "epoch": 1.4266666666666667, | |
| "grad_norm": 5.40625, | |
| "learning_rate": 4.009187725252309e-06, | |
| "loss": 0.5654030799865722, | |
| "step": 1070, | |
| "token_acc": 0.8333736591660618 | |
| }, | |
| { | |
| "epoch": 1.44, | |
| "grad_norm": 5.5, | |
| "learning_rate": 3.837715343990727e-06, | |
| "loss": 0.6103961944580079, | |
| "step": 1080, | |
| "token_acc": 0.8269510421715948 | |
| }, | |
| { | |
| "epoch": 1.4533333333333334, | |
| "grad_norm": 5.0, | |
| "learning_rate": 3.669115718079702e-06, | |
| "loss": 0.5614163875579834, | |
| "step": 1090, | |
| "token_acc": 0.835208145167912 | |
| }, | |
| { | |
| "epoch": 1.4666666666666668, | |
| "grad_norm": 4.9375, | |
| "learning_rate": 3.5034674458807893e-06, | |
| "loss": 0.5274519920349121, | |
| "step": 1100, | |
| "token_acc": 0.8438818565400844 | |
| }, | |
| { | |
| "epoch": 1.48, | |
| "grad_norm": 5.09375, | |
| "learning_rate": 3.3408477498831917e-06, | |
| "loss": 0.515104866027832, | |
| "step": 1110, | |
| "token_acc": 0.8508114342202817 | |
| }, | |
| { | |
| "epoch": 1.4933333333333334, | |
| "grad_norm": 5.1875, | |
| "learning_rate": 3.1813324407038826e-06, | |
| "loss": 0.5415358543395996, | |
| "step": 1120, | |
| "token_acc": 0.840467874258793 | |
| }, | |
| { | |
| "epoch": 1.5066666666666668, | |
| "grad_norm": 5.125, | |
| "learning_rate": 3.024995881745972e-06, | |
| "loss": 0.5847115516662598, | |
| "step": 1130, | |
| "token_acc": 0.8299734961047306 | |
| }, | |
| { | |
| "epoch": 1.52, | |
| "grad_norm": 4.90625, | |
| "learning_rate": 2.8719109545317102e-06, | |
| "loss": 0.5601590156555176, | |
| "step": 1140, | |
| "token_acc": 0.8389327259415927 | |
| }, | |
| { | |
| "epoch": 1.5333333333333332, | |
| "grad_norm": 5.0, | |
| "learning_rate": 2.722149024726307e-06, | |
| "loss": 0.5610687255859375, | |
| "step": 1150, | |
| "token_acc": 0.8414853590708327 | |
| }, | |
| { | |
| "epoch": 1.5466666666666666, | |
| "grad_norm": 5.28125, | |
| "learning_rate": 2.5757799088684654e-06, | |
| "loss": 0.577172327041626, | |
| "step": 1160, | |
| "token_acc": 0.8321489830923793 | |
| }, | |
| { | |
| "epoch": 1.56, | |
| "grad_norm": 5.0, | |
| "learning_rate": 2.432871841823047e-06, | |
| "loss": 0.543946647644043, | |
| "step": 1170, | |
| "token_acc": 0.8399056833888934 | |
| }, | |
| { | |
| "epoch": 1.5733333333333333, | |
| "grad_norm": 5.625, | |
| "learning_rate": 2.293491444971109e-06, | |
| "loss": 0.5330200672149659, | |
| "step": 1180, | |
| "token_acc": 0.8392021669539522 | |
| }, | |
| { | |
| "epoch": 1.5866666666666667, | |
| "grad_norm": 5.5, | |
| "learning_rate": 2.157703695152109e-06, | |
| "loss": 0.5538602828979492, | |
| "step": 1190, | |
| "token_acc": 0.8352854451634041 | |
| }, | |
| { | |
| "epoch": 1.6, | |
| "grad_norm": 6.9375, | |
| "learning_rate": 2.025571894372794e-06, | |
| "loss": 0.5624844551086425, | |
| "step": 1200, | |
| "token_acc": 0.8357929066449246 | |
| }, | |
| { | |
| "epoch": 1.6133333333333333, | |
| "grad_norm": 5.59375, | |
| "learning_rate": 1.897157640296825e-06, | |
| "loss": 0.5314128398895264, | |
| "step": 1210, | |
| "token_acc": 0.8442562891801677 | |
| }, | |
| { | |
| "epoch": 1.6266666666666667, | |
| "grad_norm": 5.25, | |
| "learning_rate": 1.7725207975289883e-06, | |
| "loss": 0.5232909202575684, | |
| "step": 1220, | |
| "token_acc": 0.8454538001147823 | |
| }, | |
| { | |
| "epoch": 1.6400000000000001, | |
| "grad_norm": 5.28125, | |
| "learning_rate": 1.6517194697072903e-06, | |
| "loss": 0.5332683563232422, | |
| "step": 1230, | |
| "token_acc": 0.8460846084608461 | |
| }, | |
| { | |
| "epoch": 1.6533333333333333, | |
| "grad_norm": 6.21875, | |
| "learning_rate": 1.534809972415998e-06, | |
| "loss": 0.5625188827514649, | |
| "step": 1240, | |
| "token_acc": 0.8390097888520346 | |
| }, | |
| { | |
| "epoch": 1.6666666666666665, | |
| "grad_norm": 5.625, | |
| "learning_rate": 1.4218468069322576e-06, | |
| "loss": 0.5672781944274903, | |
| "step": 1250, | |
| "token_acc": 0.8358731969684622 | |
| }, | |
| { | |
| "epoch": 1.6800000000000002, | |
| "grad_norm": 5.46875, | |
| "learning_rate": 1.3128826348184886e-06, | |
| "loss": 0.535062599182129, | |
| "step": 1260, | |
| "token_acc": 0.8470780547609318 | |
| }, | |
| { | |
| "epoch": 1.6933333333333334, | |
| "grad_norm": 5.15625, | |
| "learning_rate": 1.207968253372438e-06, | |
| "loss": 0.5489750385284424, | |
| "step": 1270, | |
| "token_acc": 0.835595160235448 | |
| }, | |
| { | |
| "epoch": 1.7066666666666666, | |
| "grad_norm": 5.28125, | |
| "learning_rate": 1.1071525719463094e-06, | |
| "loss": 0.5558197498321533, | |
| "step": 1280, | |
| "token_acc": 0.8367743502550401 | |
| }, | |
| { | |
| "epoch": 1.72, | |
| "grad_norm": 5.8125, | |
| "learning_rate": 1.010482589146048e-06, | |
| "loss": 0.5633181571960449, | |
| "step": 1290, | |
| "token_acc": 0.8335362389416443 | |
| }, | |
| { | |
| "epoch": 1.7333333333333334, | |
| "grad_norm": 4.9375, | |
| "learning_rate": 9.180033709213454e-07, | |
| "loss": 0.5351186752319336, | |
| "step": 1300, | |
| "token_acc": 0.8425653594771242 | |
| }, | |
| { | |
| "epoch": 1.7466666666666666, | |
| "grad_norm": 5.34375, | |
| "learning_rate": 8.297580295566576e-07, | |
| "loss": 0.5495471954345703, | |
| "step": 1310, | |
| "token_acc": 0.8376214979988564 | |
| }, | |
| { | |
| "epoch": 1.76, | |
| "grad_norm": 4.875, | |
| "learning_rate": 7.457877035729588e-07, | |
| "loss": 0.5298055171966553, | |
| "step": 1320, | |
| "token_acc": 0.8442716857610475 | |
| }, | |
| { | |
| "epoch": 1.7733333333333334, | |
| "grad_norm": 5.3125, | |
| "learning_rate": 6.661315385496426e-07, | |
| "loss": 0.5053651809692383, | |
| "step": 1330, | |
| "token_acc": 0.8482404692082112 | |
| }, | |
| { | |
| "epoch": 1.7866666666666666, | |
| "grad_norm": 5.125, | |
| "learning_rate": 5.908266688755049e-07, | |
| "loss": 0.5791138172149658, | |
| "step": 1340, | |
| "token_acc": 0.8320777642770353 | |
| }, | |
| { | |
| "epoch": 1.8, | |
| "grad_norm": 5.0625, | |
| "learning_rate": 5.199082004372958e-07, | |
| "loss": 0.5311817169189453, | |
| "step": 1350, | |
| "token_acc": 0.8421654282681473 | |
| }, | |
| { | |
| "epoch": 1.8133333333333335, | |
| "grad_norm": 4.84375, | |
| "learning_rate": 4.534091942539476e-07, | |
| "loss": 0.5400612831115723, | |
| "step": 1360, | |
| "token_acc": 0.8404289892752681 | |
| }, | |
| { | |
| "epoch": 1.8266666666666667, | |
| "grad_norm": 5.25, | |
| "learning_rate": 3.913606510640644e-07, | |
| "loss": 0.5508237361907959, | |
| "step": 1370, | |
| "token_acc": 0.8375152253349574 | |
| }, | |
| { | |
| "epoch": 1.8399999999999999, | |
| "grad_norm": 5.3125, | |
| "learning_rate": 3.3379149687388866e-07, | |
| "loss": 0.5562265396118165, | |
| "step": 1380, | |
| "token_acc": 0.8347960344547375 | |
| }, | |
| { | |
| "epoch": 1.8533333333333335, | |
| "grad_norm": 5.03125, | |
| "learning_rate": 2.807285694724804e-07, | |
| "loss": 0.5473352432250976, | |
| "step": 1390, | |
| "token_acc": 0.8392668024439919 | |
| }, | |
| { | |
| "epoch": 1.8666666666666667, | |
| "grad_norm": 5.21875, | |
| "learning_rate": 2.3219660592038285e-07, | |
| "loss": 0.5694085121154785, | |
| "step": 1400, | |
| "token_acc": 0.8348972658145931 | |
| }, | |
| { | |
| "epoch": 1.88, | |
| "grad_norm": 5.40625, | |
| "learning_rate": 1.8821823101760949e-07, | |
| "loss": 0.5850461006164551, | |
| "step": 1410, | |
| "token_acc": 0.8356208622638462 | |
| }, | |
| { | |
| "epoch": 1.8933333333333333, | |
| "grad_norm": 5.71875, | |
| "learning_rate": 1.4881394675633543e-07, | |
| "loss": 0.546092414855957, | |
| "step": 1420, | |
| "token_acc": 0.8390607101947308 | |
| }, | |
| { | |
| "epoch": 1.9066666666666667, | |
| "grad_norm": 4.9375, | |
| "learning_rate": 1.1400212276321377e-07, | |
| "loss": 0.5248120307922364, | |
| "step": 1430, | |
| "token_acc": 0.8458810917786757 | |
| }, | |
| { | |
| "epoch": 1.92, | |
| "grad_norm": 5.03125, | |
| "learning_rate": 8.379898773574924e-08, | |
| "loss": 0.5477195739746094, | |
| "step": 1440, | |
| "token_acc": 0.8374480567098509 | |
| }, | |
| { | |
| "epoch": 1.9333333333333333, | |
| "grad_norm": 5.4375, | |
| "learning_rate": 5.821862187675775e-08, | |
| "loss": 0.5420383930206298, | |
| "step": 1450, | |
| "token_acc": 0.8410293997882564 | |
| }, | |
| { | |
| "epoch": 1.9466666666666668, | |
| "grad_norm": 6.09375, | |
| "learning_rate": 3.727295033040035e-08, | |
| "loss": 0.5678795337677002, | |
| "step": 1460, | |
| "token_acc": 0.8325832583258326 | |
| }, | |
| { | |
| "epoch": 1.96, | |
| "grad_norm": 5.34375, | |
| "learning_rate": 2.0971737622883515e-08, | |
| "loss": 0.5491668224334717, | |
| "step": 1470, | |
| "token_acc": 0.839298817774154 | |
| }, | |
| { | |
| "epoch": 1.9733333333333334, | |
| "grad_norm": 5.28125, | |
| "learning_rate": 9.322583110392692e-09, | |
| "loss": 0.5195291042327881, | |
| "step": 1480, | |
| "token_acc": 0.8513789999181602 | |
| }, | |
| { | |
| "epoch": 1.9866666666666668, | |
| "grad_norm": 5.5, | |
| "learning_rate": 2.330917436402791e-09, | |
| "loss": 0.55199294090271, | |
| "step": 1490, | |
| "token_acc": 0.836195616617599 | |
| }, | |
| { | |
| "epoch": 2.0, | |
| "grad_norm": 6.46875, | |
| "learning_rate": 0.0, | |
| "loss": 0.5600373268127441, | |
| "step": 1500, | |
| "token_acc": 0.8381766854865493 | |
| } | |
| ], | |
| "logging_steps": 10, | |
| "max_steps": 1500, | |
| "num_input_tokens_seen": 0, | |
| "num_train_epochs": 2, | |
| "save_steps": 500, | |
| "stateful_callbacks": { | |
| "TrainerControl": { | |
| "args": { | |
| "should_epoch_stop": false, | |
| "should_evaluate": false, | |
| "should_log": false, | |
| "should_save": true, | |
| "should_training_stop": true | |
| }, | |
| "attributes": {} | |
| } | |
| }, | |
| "total_flos": 6.514931745056358e+17, | |
| "train_batch_size": 8, | |
| "trial_name": null, | |
| "trial_params": null | |
| } | |