{ "best_global_step": null, "best_metric": null, "best_model_checkpoint": null, "epoch": 2.0, "eval_steps": 500.0, "global_step": 1500, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.0013333333333333333, "grad_norm": 4.90625, "learning_rate": 4.444444444444445e-07, "loss": 0.027944788336753845, "step": 1, "token_acc": 0.9901477832512315 }, { "epoch": 0.013333333333333334, "grad_norm": 4.90625, "learning_rate": 4.444444444444444e-06, "loss": 0.05075684520933363, "step": 10, "token_acc": 0.9901595744680851 }, { "epoch": 0.02666666666666667, "grad_norm": 2.578125, "learning_rate": 8.888888888888888e-06, "loss": 0.04696210622787476, "step": 20, "token_acc": 0.9893488259501332 }, { "epoch": 0.04, "grad_norm": 2.5625, "learning_rate": 1.3333333333333333e-05, "loss": 0.05452235341072083, "step": 30, "token_acc": 0.9853012048192771 }, { "epoch": 0.05333333333333334, "grad_norm": 2.0625, "learning_rate": 1.7777777777777777e-05, "loss": 0.03315775990486145, "step": 40, "token_acc": 0.9846264712947393 }, { "epoch": 0.06666666666666667, "grad_norm": 1.046875, "learning_rate": 1.9999417253661235e-05, "loss": 0.028552538156509398, "step": 50, "token_acc": 0.9908411665461557 }, { "epoch": 0.08, "grad_norm": 1.765625, "learning_rate": 1.9994755690455154e-05, "loss": 0.04210628271102905, "step": 60, "token_acc": 0.9860944617597699 }, { "epoch": 0.09333333333333334, "grad_norm": 1.5859375, "learning_rate": 1.998543473718677e-05, "loss": 0.03467268347740173, "step": 70, "token_acc": 0.9840695148443157 }, { "epoch": 0.10666666666666667, "grad_norm": 1.03125, "learning_rate": 1.9971458739130598e-05, "loss": 0.03366573452949524, "step": 80, "token_acc": 0.986271676300578 }, { "epoch": 0.12, "grad_norm": 2.109375, "learning_rate": 1.995283421166614e-05, "loss": 0.03945094347000122, "step": 90, "token_acc": 0.9827420901246404 }, { "epoch": 0.13333333333333333, "grad_norm": 2.171875, "learning_rate": 1.9929569837240567e-05, "loss": 0.03638350963592529, "step": 100, "token_acc": 0.9838981014179283 }, { "epoch": 0.14666666666666667, "grad_norm": 1.0234375, "learning_rate": 1.990167646132107e-05, "loss": 0.027288395166397094, "step": 110, "token_acc": 0.9886555636012552 }, { "epoch": 0.16, "grad_norm": 1.375, "learning_rate": 1.9869167087338908e-05, "loss": 0.03376817405223846, "step": 120, "token_acc": 0.987075155576831 }, { "epoch": 0.17333333333333334, "grad_norm": 1.7265625, "learning_rate": 1.983205687062742e-05, "loss": 0.03553054332733154, "step": 130, "token_acc": 0.9824687800192123 }, { "epoch": 0.18666666666666668, "grad_norm": 1.59375, "learning_rate": 1.9790363111356838e-05, "loss": 0.033854860067367556, "step": 140, "token_acc": 0.9848812095032398 }, { "epoch": 0.2, "grad_norm": 1.53125, "learning_rate": 1.9744105246469264e-05, "loss": 0.02748125195503235, "step": 150, "token_acc": 0.9879459980713597 }, { "epoch": 0.21333333333333335, "grad_norm": 2.59375, "learning_rate": 1.9693304840617456e-05, "loss": 0.03520364165306091, "step": 160, "token_acc": 0.9846042819340871 }, { "epoch": 0.22666666666666666, "grad_norm": 1.6171875, "learning_rate": 1.963798557611178e-05, "loss": 0.03284199237823486, "step": 170, "token_acc": 0.9877902801053388 }, { "epoch": 0.24, "grad_norm": 0.96484375, "learning_rate": 1.957817324187987e-05, "loss": 0.03556506037712097, "step": 180, "token_acc": 0.98562874251497 }, { "epoch": 0.25333333333333335, "grad_norm": 1.15625, "learning_rate": 1.9513895721444286e-05, "loss": 0.030231645703315733, "step": 190, "token_acc": 0.9858275282248379 }, { "epoch": 0.26666666666666666, "grad_norm": 2.515625, "learning_rate": 1.9445182979923657e-05, "loss": 0.03149127662181854, "step": 200, "token_acc": 0.9862085652068715 }, { "epoch": 0.28, "grad_norm": 1.0234375, "learning_rate": 1.937206705006344e-05, "loss": 0.03637541532516479, "step": 210, "token_acc": 0.9851211903047756 }, { "epoch": 0.29333333333333333, "grad_norm": 1.34375, "learning_rate": 1.9294582017302797e-05, "loss": 0.03209535479545593, "step": 220, "token_acc": 0.9861542134160898 }, { "epoch": 0.30666666666666664, "grad_norm": 1.6015625, "learning_rate": 1.921276400388451e-05, "loss": 0.031918269395828244, "step": 230, "token_acc": 0.986810551558753 }, { "epoch": 0.32, "grad_norm": 1.9921875, "learning_rate": 1.9126651152015404e-05, "loss": 0.03563873469829559, "step": 240, "token_acc": 0.983626294245124 }, { "epoch": 0.3333333333333333, "grad_norm": 1.5234375, "learning_rate": 1.9036283606085057e-05, "loss": 0.03571958541870117, "step": 250, "token_acc": 0.9839019702066314 }, { "epoch": 0.3466666666666667, "grad_norm": 2.1875, "learning_rate": 1.8941703493951163e-05, "loss": 0.030891618132591246, "step": 260, "token_acc": 0.9862881885975463 }, { "epoch": 0.36, "grad_norm": 1.78125, "learning_rate": 1.8842954907300236e-05, "loss": 0.03673713207244873, "step": 270, "token_acc": 0.9827006246996636 }, { "epoch": 0.37333333333333335, "grad_norm": 2.015625, "learning_rate": 1.874008388109276e-05, "loss": 0.033187645673751834, "step": 280, "token_acc": 0.9853752097818269 }, { "epoch": 0.38666666666666666, "grad_norm": 1.21875, "learning_rate": 1.863313837210247e-05, "loss": 0.03002692461013794, "step": 290, "token_acc": 0.9861011262880421 }, { "epoch": 0.4, "grad_norm": 1.9921875, "learning_rate": 1.8522168236559693e-05, "loss": 0.03252564668655396, "step": 300, "token_acc": 0.9860409145607701 }, { "epoch": 0.41333333333333333, "grad_norm": 1.1484375, "learning_rate": 1.840722520690921e-05, "loss": 0.034389343857765195, "step": 310, "token_acc": 0.9862683690676946 }, { "epoch": 0.4266666666666667, "grad_norm": 2.046875, "learning_rate": 1.8288362867693414e-05, "loss": 0.030599406361579894, "step": 320, "token_acc": 0.9861011262880421 }, { "epoch": 0.44, "grad_norm": 0.9453125, "learning_rate": 1.816563663057211e-05, "loss": 0.029587957262992858, "step": 330, "token_acc": 0.9865513928914506 }, { "epoch": 0.4533333333333333, "grad_norm": 1.5390625, "learning_rate": 1.8039103708490503e-05, "loss": 0.03238507807254791, "step": 340, "token_acc": 0.985875029925784 }, { "epoch": 0.4666666666666667, "grad_norm": 0.77734375, "learning_rate": 1.790882308900746e-05, "loss": 0.03101579546928406, "step": 350, "token_acc": 0.9872962607861937 }, { "epoch": 0.48, "grad_norm": 1.53125, "learning_rate": 1.7774855506796497e-05, "loss": 0.031994479894638064, "step": 360, "token_acc": 0.9857350096711799 }, { "epoch": 0.49333333333333335, "grad_norm": 1.2421875, "learning_rate": 1.7637263415332272e-05, "loss": 0.028815871477127074, "step": 370, "token_acc": 0.9896110171539019 }, { "epoch": 0.5066666666666667, "grad_norm": 1.515625, "learning_rate": 1.749611095777581e-05, "loss": 0.03330559730529785, "step": 380, "token_acc": 0.9864734299516909 }, { "epoch": 0.52, "grad_norm": 1.4453125, "learning_rate": 1.7351463937072008e-05, "loss": 0.024368155002593993, "step": 390, "token_acc": 0.9897202964379632 }, { "epoch": 0.5333333333333333, "grad_norm": 2.140625, "learning_rate": 1.7203389785273402e-05, "loss": 0.0315426915884018, "step": 400, "token_acc": 0.9867501806793544 }, { "epoch": 0.5466666666666666, "grad_norm": 0.99609375, "learning_rate": 1.705195753210446e-05, "loss": 0.027628937363624574, "step": 410, "token_acc": 0.9856699307379986 }, { "epoch": 0.56, "grad_norm": 1.5078125, "learning_rate": 1.6897237772781046e-05, "loss": 0.031161597371101378, "step": 420, "token_acc": 0.9867756672276989 }, { "epoch": 0.5733333333333334, "grad_norm": 2.046875, "learning_rate": 1.673930263510011e-05, "loss": 0.030777221918106078, "step": 430, "token_acc": 0.9867851994233542 }, { "epoch": 0.5866666666666667, "grad_norm": 1.9609375, "learning_rate": 1.6578225745814907e-05, "loss": 0.030515575408935548, "step": 440, "token_acc": 0.9867947178871549 }, { "epoch": 0.6, "grad_norm": 2.65625, "learning_rate": 1.6414082196311402e-05, "loss": 0.031556323170661926, "step": 450, "token_acc": 0.9853471054527985 }, { "epoch": 0.6133333333333333, "grad_norm": 2.859375, "learning_rate": 1.6246948507601915e-05, "loss": 0.028740781545639037, "step": 460, "token_acc": 0.9858173076923077 }, { "epoch": 0.6266666666666667, "grad_norm": 3.296875, "learning_rate": 1.607690259465229e-05, "loss": 0.031500387191772464, "step": 470, "token_acc": 0.9882522176935986 }, { "epoch": 0.64, "grad_norm": 2.25, "learning_rate": 1.5904023730059227e-05, "loss": 0.03357301354408264, "step": 480, "token_acc": 0.9862914862914863 }, { "epoch": 0.6533333333333333, "grad_norm": 2.015625, "learning_rate": 1.57283925070947e-05, "loss": 0.03677979111671448, "step": 490, "token_acc": 0.982924482924483 }, { "epoch": 0.6666666666666666, "grad_norm": 1.1171875, "learning_rate": 1.55500908021347e-05, "loss": 0.03298424780368805, "step": 500, "token_acc": 0.9850169163847269 }, { "epoch": 0.68, "grad_norm": 2.6875, "learning_rate": 1.536920173648984e-05, "loss": 0.035187387466430665, "step": 510, "token_acc": 0.9867597496389022 }, { "epoch": 0.6933333333333334, "grad_norm": 1.546875, "learning_rate": 1.5185809637655548e-05, "loss": 0.02551887333393097, "step": 520, "token_acc": 0.990148966842864 }, { "epoch": 0.7066666666666667, "grad_norm": 1.375, "learning_rate": 1.5000000000000002e-05, "loss": 0.029168868064880372, "step": 530, "token_acc": 0.9879489033502049 }, { "epoch": 0.72, "grad_norm": 1.8203125, "learning_rate": 1.4811859444908053e-05, "loss": 0.02838689088821411, "step": 540, "token_acc": 0.9872442839951865 }, { "epoch": 0.7333333333333333, "grad_norm": 1.6875, "learning_rate": 1.4621475680399771e-05, "loss": 0.027503234148025513, "step": 550, "token_acc": 0.9870285851549363 }, { "epoch": 0.7466666666666667, "grad_norm": 0.9296875, "learning_rate": 1.4428937460242417e-05, "loss": 0.03381537199020386, "step": 560, "token_acc": 0.9860744297719087 }, { "epoch": 0.76, "grad_norm": 1.296875, "learning_rate": 1.4234334542574906e-05, "loss": 0.028558316826820373, "step": 570, "token_acc": 0.9874909790714458 }, { "epoch": 0.7733333333333333, "grad_norm": 1.4921875, "learning_rate": 1.4037757648064019e-05, "loss": 0.029447346925735474, "step": 580, "token_acc": 0.9868609651218346 }, { "epoch": 0.7866666666666666, "grad_norm": 2.453125, "learning_rate": 1.3839298417611964e-05, "loss": 0.02759793698787689, "step": 590, "token_acc": 0.9877285851780558 }, { "epoch": 0.8, "grad_norm": 1.8671875, "learning_rate": 1.3639049369634878e-05, "loss": 0.030391490459442137, "step": 600, "token_acc": 0.9863505747126436 }, { "epoch": 0.8133333333333334, "grad_norm": 1.5390625, "learning_rate": 1.3437103856932266e-05, "loss": 0.028662437200546266, "step": 610, "token_acc": 0.9881470730527334 }, { "epoch": 0.8266666666666667, "grad_norm": 1.453125, "learning_rate": 1.3233556023167487e-05, "loss": 0.02797028422355652, "step": 620, "token_acc": 0.9882211538461538 }, { "epoch": 0.84, "grad_norm": 1.59375, "learning_rate": 1.3028500758979507e-05, "loss": 0.02865118682384491, "step": 630, "token_acc": 0.9860911270983214 }, { "epoch": 0.8533333333333334, "grad_norm": 1.234375, "learning_rate": 1.2822033657746478e-05, "loss": 0.026763680577278137, "step": 640, "token_acc": 0.9887127761767531 }, { "epoch": 0.8666666666666667, "grad_norm": 2.078125, "learning_rate": 1.2614250971021658e-05, "loss": 0.03335306942462921, "step": 650, "token_acc": 0.9831568816169394 }, { "epoch": 0.88, "grad_norm": 1.765625, "learning_rate": 1.2405249563662539e-05, "loss": 0.02619180679321289, "step": 660, "token_acc": 0.9882465819141281 }, { "epoch": 0.8933333333333333, "grad_norm": 1.2890625, "learning_rate": 1.2195126868674052e-05, "loss": 0.028585124015808105, "step": 670, "token_acc": 0.9881984585741811 }, { "epoch": 0.9066666666666666, "grad_norm": 1.15625, "learning_rate": 1.1983980841786899e-05, "loss": 0.02787652611732483, "step": 680, "token_acc": 0.9889290012033695 }, { "epoch": 0.92, "grad_norm": 1.796875, "learning_rate": 1.177190991579223e-05, "loss": 0.0291363924741745, "step": 690, "token_acc": 0.9864897466827504 }, { "epoch": 0.9333333333333333, "grad_norm": 1.21875, "learning_rate": 1.1559012954653865e-05, "loss": 0.03034358024597168, "step": 700, "token_acc": 0.9869407496977025 }, { "epoch": 0.9466666666666667, "grad_norm": 1.34375, "learning_rate": 1.1345389207419588e-05, "loss": 0.027029412984848022, "step": 710, "token_acc": 0.9873084291187739 }, { "epoch": 0.96, "grad_norm": 2.125, "learning_rate": 1.1131138261952845e-05, "loss": 0.029054158926010133, "step": 720, "token_acc": 0.9872657376261412 }, { "epoch": 0.9733333333333334, "grad_norm": 1.28125, "learning_rate": 1.0916359998506549e-05, "loss": 0.030344563722610473, "step": 730, "token_acc": 0.987710843373494 }, { "epoch": 0.9866666666666667, "grad_norm": 1.2421875, "learning_rate": 1.070115454316054e-05, "loss": 0.028968954086303712, "step": 740, "token_acc": 0.986003861003861 }, { "epoch": 1.0, "grad_norm": 1.5546875, "learning_rate": 1.0485622221144485e-05, "loss": 0.027395570278167726, "step": 750, "token_acc": 0.9886005335920446 }, { "epoch": 1.0133333333333334, "grad_norm": 0.796875, "learning_rate": 1.0269863510067872e-05, "loss": 0.013629350066184997, "step": 760, "token_acc": 0.9968712394705175 }, { "epoch": 1.0266666666666666, "grad_norm": 0.79296875, "learning_rate": 1.0053978993079046e-05, "loss": 0.012067935615777969, "step": 770, "token_acc": 0.9961749940234281 }, { "epoch": 1.04, "grad_norm": 2.203125, "learning_rate": 9.838069311974986e-06, "loss": 0.011612998694181443, "step": 780, "token_acc": 0.9954348870735223 }, { "epoch": 1.0533333333333332, "grad_norm": 0.5, "learning_rate": 9.622235120283769e-06, "loss": 0.0077203229069709774, "step": 790, "token_acc": 0.9971271247306679 }, { "epoch": 1.0666666666666667, "grad_norm": 0.45703125, "learning_rate": 9.406577036341548e-06, "loss": 0.011040687561035156, "step": 800, "token_acc": 0.9956772334293948 }, { "epoch": 1.08, "grad_norm": 0.5859375, "learning_rate": 9.19119559638596e-06, "loss": 0.008952221274375916, "step": 810, "token_acc": 0.9966450994488377 }, { "epoch": 1.0933333333333333, "grad_norm": 1.8515625, "learning_rate": 8.976191207687775e-06, "loss": 0.010079852491617202, "step": 820, "token_acc": 0.9959310674964098 }, { "epoch": 1.1066666666666667, "grad_norm": 1.625, "learning_rate": 8.7616641017427e-06, "loss": 0.01139761358499527, "step": 830, "token_acc": 0.9963916285783017 }, { "epoch": 1.12, "grad_norm": 1.609375, "learning_rate": 8.5477142875451e-06, "loss": 0.010524387657642364, "step": 840, "token_acc": 0.9961361989857522 }, { "epoch": 1.1333333333333333, "grad_norm": 0.84375, "learning_rate": 8.334441504965456e-06, "loss": 0.011410476267337799, "step": 850, "token_acc": 0.9956490210297317 }, { "epoch": 1.1466666666666667, "grad_norm": 1.90625, "learning_rate": 8.1219451782533e-06, "loss": 0.009808246791362763, "step": 860, "token_acc": 0.9964020148716719 }, { "epoch": 1.16, "grad_norm": 1.28125, "learning_rate": 7.91032436968725e-06, "loss": 0.008106120675802232, "step": 870, "token_acc": 0.9964054636951833 }, { "epoch": 1.1733333333333333, "grad_norm": 1.0859375, "learning_rate": 7.699677733393827e-06, "loss": 0.005388218909502029, "step": 880, "token_acc": 0.9978515158749105 }, { "epoch": 1.1866666666666668, "grad_norm": 1.96875, "learning_rate": 7.490103469356513e-06, "loss": 0.016499459743499756, "step": 890, "token_acc": 0.9947000722717417 }, { "epoch": 1.2, "grad_norm": 1.75, "learning_rate": 7.2816992776365714e-06, "loss": 0.008301901072263718, "step": 900, "token_acc": 0.9966418805468937 }, { "epoch": 1.2133333333333334, "grad_norm": 1.1328125, "learning_rate": 7.0745623128268605e-06, "loss": 0.010182877629995346, "step": 910, "token_acc": 0.9963968292097045 }, { "epoch": 1.2266666666666666, "grad_norm": 0.44921875, "learning_rate": 6.868789138759977e-06, "loss": 0.007760406285524368, "step": 920, "token_acc": 0.9971278123504069 }, { "epoch": 1.24, "grad_norm": 1.3828125, "learning_rate": 6.664475683491797e-06, "loss": 0.007416041195392608, "step": 930, "token_acc": 0.997346840328027 }, { "epoch": 1.2533333333333334, "grad_norm": 1.6484375, "learning_rate": 6.461717194581394e-06, "loss": 0.012545964121818543, "step": 940, "token_acc": 0.9954260953298026 }, { "epoch": 1.2666666666666666, "grad_norm": 2.625, "learning_rate": 6.260608194688207e-06, "loss": 0.009528040885925293, "step": 950, "token_acc": 0.9964011516314779 }, { "epoch": 1.28, "grad_norm": 1.109375, "learning_rate": 6.061242437507131e-06, "loss": 0.010063067823648453, "step": 960, "token_acc": 0.9958907420836355 }, { "epoch": 1.2933333333333334, "grad_norm": 2.03125, "learning_rate": 5.863712864062089e-06, "loss": 0.016041702032089232, "step": 970, "token_acc": 0.9954326923076923 }, { "epoch": 1.3066666666666666, "grad_norm": 1.859375, "learning_rate": 5.6681115593784705e-06, "loss": 0.010919718444347382, "step": 980, "token_acc": 0.9959124789612888 }, { "epoch": 1.32, "grad_norm": 0.421875, "learning_rate": 5.4745297095546125e-06, "loss": 0.011771070957183837, "step": 990, "token_acc": 0.9963933637893725 }, { "epoch": 1.3333333333333333, "grad_norm": 0.21484375, "learning_rate": 5.2830575592523415e-06, "loss": 0.011084750294685364, "step": 1000, "token_acc": 0.996135265700483 }, { "epoch": 1.3466666666666667, "grad_norm": 1.3828125, "learning_rate": 5.093784369626397e-06, "loss": 0.007512730360031128, "step": 1010, "token_acc": 0.9968772519817439 }, { "epoch": 1.3599999999999999, "grad_norm": 0.85546875, "learning_rate": 4.9067983767123736e-06, "loss": 0.010888008773326874, "step": 1020, "token_acc": 0.9963985594237695 }, { "epoch": 1.3733333333333333, "grad_norm": 1.3828125, "learning_rate": 4.722186750292511e-06, "loss": 0.01149669587612152, "step": 1030, "token_acc": 0.9964054636951833 }, { "epoch": 1.3866666666666667, "grad_norm": 1.890625, "learning_rate": 4.54003555325862e-06, "loss": 0.009606964886188507, "step": 1040, "token_acc": 0.9970937272947444 }, { "epoch": 1.4, "grad_norm": 2.484375, "learning_rate": 4.360429701490935e-06, "loss": 0.011592777073383331, "step": 1050, "token_acc": 0.9959222835212281 }, { "epoch": 1.4133333333333333, "grad_norm": 0.625, "learning_rate": 4.183452924271776e-06, "loss": 0.008268815279006959, "step": 1060, "token_acc": 0.9963924963924964 }, { "epoch": 1.4266666666666667, "grad_norm": 1.0859375, "learning_rate": 4.009187725252309e-06, "loss": 0.008235112577676774, "step": 1070, "token_acc": 0.996875 }, { "epoch": 1.44, "grad_norm": 1.6953125, "learning_rate": 3.837715343990727e-06, "loss": 0.010764123499393463, "step": 1080, "token_acc": 0.9963645176926805 }, { "epoch": 1.4533333333333334, "grad_norm": 2.421875, "learning_rate": 3.669115718079702e-06, "loss": 0.01102955937385559, "step": 1090, "token_acc": 0.9954425521707844 }, { "epoch": 1.4666666666666668, "grad_norm": 0.453125, "learning_rate": 3.5034674458807893e-06, "loss": 0.01023436188697815, "step": 1100, "token_acc": 0.9963750604156597 }, { "epoch": 1.48, "grad_norm": 1.8125, "learning_rate": 3.3408477498831917e-06, "loss": 0.008587966859340667, "step": 1110, "token_acc": 0.9961676646706586 }, { "epoch": 1.4933333333333334, "grad_norm": 1.59375, "learning_rate": 3.1813324407038826e-06, "loss": 0.007490788400173187, "step": 1120, "token_acc": 0.9971056439942113 }, { "epoch": 1.5066666666666668, "grad_norm": 0.88671875, "learning_rate": 3.024995881745972e-06, "loss": 0.00892709642648697, "step": 1130, "token_acc": 0.9952049868137137 }, { "epoch": 1.52, "grad_norm": 0.625, "learning_rate": 2.8719109545317102e-06, "loss": 0.010660454630851746, "step": 1140, "token_acc": 0.9963715529753265 }, { "epoch": 1.5333333333333332, "grad_norm": 0.921875, "learning_rate": 2.722149024726307e-06, "loss": 0.008663681149482728, "step": 1150, "token_acc": 0.9968892079444843 }, { "epoch": 1.5466666666666666, "grad_norm": 1.1796875, "learning_rate": 2.5757799088684654e-06, "loss": 0.011409056186676026, "step": 1160, "token_acc": 0.9959193470955353 }, { "epoch": 1.56, "grad_norm": 1.8046875, "learning_rate": 2.432871841823047e-06, "loss": 0.008858834207057954, "step": 1170, "token_acc": 0.9973513123043583 }, { "epoch": 1.5733333333333333, "grad_norm": 0.1435546875, "learning_rate": 2.293491444971109e-06, "loss": 0.005919945612549782, "step": 1180, "token_acc": 0.9971133028626413 }, { "epoch": 1.5866666666666667, "grad_norm": 1.5546875, "learning_rate": 2.157703695152109e-06, "loss": 0.011429443210363387, "step": 1190, "token_acc": 0.9944724825763037 }, { "epoch": 1.6, "grad_norm": 0.96484375, "learning_rate": 2.025571894372794e-06, "loss": 0.008558385819196702, "step": 1200, "token_acc": 0.9966159052453468 }, { "epoch": 1.6133333333333333, "grad_norm": 1.9921875, "learning_rate": 1.897157640296825e-06, "loss": 0.012137772142887115, "step": 1210, "token_acc": 0.9954282964388835 }, { "epoch": 1.6266666666666667, "grad_norm": 2.03125, "learning_rate": 1.7725207975289883e-06, "loss": 0.008094522356986999, "step": 1220, "token_acc": 0.9976019184652278 }, { "epoch": 1.6400000000000001, "grad_norm": 1.2890625, "learning_rate": 1.6517194697072903e-06, "loss": 0.01032220721244812, "step": 1230, "token_acc": 0.9975984630163305 }, { "epoch": 1.6533333333333333, "grad_norm": 1.4765625, "learning_rate": 1.534809972415998e-06, "loss": 0.006939056515693665, "step": 1240, "token_acc": 0.996868978805395 }, { "epoch": 1.6666666666666665, "grad_norm": 2.53125, "learning_rate": 1.4218468069322576e-06, "loss": 0.015096238255500794, "step": 1250, "token_acc": 0.9951853635050554 }, { "epoch": 1.6800000000000002, "grad_norm": 1.6875, "learning_rate": 1.3128826348184886e-06, "loss": 0.010143952071666717, "step": 1260, "token_acc": 0.9961482908040443 }, { "epoch": 1.6933333333333334, "grad_norm": 0.62109375, "learning_rate": 1.207968253372438e-06, "loss": 0.009067404270172118, "step": 1270, "token_acc": 0.995906573561281 }, { "epoch": 1.7066666666666666, "grad_norm": 1.5078125, "learning_rate": 1.1071525719463094e-06, "loss": 0.011023186147212982, "step": 1280, "token_acc": 0.9954447374730281 }, { "epoch": 1.72, "grad_norm": 1.0625, "learning_rate": 1.010482589146048e-06, "loss": 0.009403180330991745, "step": 1290, "token_acc": 0.9964251668255482 }, { "epoch": 1.7333333333333334, "grad_norm": 1.3359375, "learning_rate": 9.180033709213454e-07, "loss": 0.010034725069999695, "step": 1300, "token_acc": 0.997114691031498 }, { "epoch": 1.7466666666666666, "grad_norm": 1.3671875, "learning_rate": 8.297580295566576e-07, "loss": 0.009973371028900146, "step": 1310, "token_acc": 0.9968772519817439 }, { "epoch": 1.76, "grad_norm": 0.359375, "learning_rate": 7.457877035729588e-07, "loss": 0.0062577612698078156, "step": 1320, "token_acc": 0.9978406909788867 }, { "epoch": 1.7733333333333334, "grad_norm": 1.296875, "learning_rate": 6.661315385496426e-07, "loss": 0.010465647280216216, "step": 1330, "token_acc": 0.9971133028626413 }, { "epoch": 1.7866666666666666, "grad_norm": 2.96875, "learning_rate": 5.908266688755049e-07, "loss": 0.012356024980545045, "step": 1340, "token_acc": 0.9951737451737451 }, { "epoch": 1.8, "grad_norm": 0.98046875, "learning_rate": 5.199082004372958e-07, "loss": 0.009671059250831605, "step": 1350, "token_acc": 0.9966378482228626 }, { "epoch": 1.8133333333333335, "grad_norm": 2.078125, "learning_rate": 4.534091942539476e-07, "loss": 0.008851684629917145, "step": 1360, "token_acc": 0.9968802495800336 }, { "epoch": 1.8266666666666667, "grad_norm": 1.5625, "learning_rate": 3.913606510640644e-07, "loss": 0.008533693850040436, "step": 1370, "token_acc": 0.9966232513265798 }, { "epoch": 1.8399999999999999, "grad_norm": 0.81640625, "learning_rate": 3.3379149687388866e-07, "loss": 0.010838476568460464, "step": 1380, "token_acc": 0.9959193470955353 }, { "epoch": 1.8533333333333335, "grad_norm": 0.3515625, "learning_rate": 2.807285694724804e-07, "loss": 0.0096530020236969, "step": 1390, "token_acc": 0.9966442953020134 }, { "epoch": 1.8666666666666667, "grad_norm": 1.9609375, "learning_rate": 2.3219660592038285e-07, "loss": 0.01174573004245758, "step": 1400, "token_acc": 0.9966346153846154 }, { "epoch": 1.88, "grad_norm": 2.171875, "learning_rate": 1.8821823101760949e-07, "loss": 0.012217908352613448, "step": 1410, "token_acc": 0.9949555608935864 }, { "epoch": 1.8933333333333333, "grad_norm": 0.4375, "learning_rate": 1.4881394675633543e-07, "loss": 0.007538451254367829, "step": 1420, "token_acc": 0.9978354978354979 }, { "epoch": 1.9066666666666667, "grad_norm": 0.251953125, "learning_rate": 1.1400212276321377e-07, "loss": 0.005265282094478607, "step": 1430, "token_acc": 0.9976065102920058 }, { "epoch": 1.92, "grad_norm": 2.34375, "learning_rate": 8.379898773574924e-08, "loss": 0.009292224794626236, "step": 1440, "token_acc": 0.9964046021093 }, { "epoch": 1.9333333333333333, "grad_norm": 1.390625, "learning_rate": 5.821862187675775e-08, "loss": 0.009811708331108093, "step": 1450, "token_acc": 0.9966450994488377 }, { "epoch": 1.9466666666666668, "grad_norm": 2.265625, "learning_rate": 3.727295033040035e-08, "loss": 0.00994875207543373, "step": 1460, "token_acc": 0.9966329966329966 }, { "epoch": 1.96, "grad_norm": 2.734375, "learning_rate": 2.0971737622883515e-08, "loss": 0.009690174460411071, "step": 1470, "token_acc": 0.9963776865491427 }, { "epoch": 1.9733333333333334, "grad_norm": 1.671875, "learning_rate": 9.322583110392692e-09, "loss": 0.00724238008260727, "step": 1480, "token_acc": 0.9978380975258228 }, { "epoch": 1.9866666666666668, "grad_norm": 1.0234375, "learning_rate": 2.330917436402791e-09, "loss": 0.008754293620586395, "step": 1490, "token_acc": 0.9961492178098676 }, { "epoch": 2.0, "grad_norm": 1.84375, "learning_rate": 0.0, "loss": 0.007110082358121872, "step": 1500, "token_acc": 0.997303260603089 } ], "logging_steps": 10, "max_steps": 1500, "num_input_tokens_seen": 0, "num_train_epochs": 2, "save_steps": 500, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 6.111061190492815e+17, "train_batch_size": 8, "trial_name": null, "trial_params": null }