{ "best_global_step": null, "best_metric": null, "best_model_checkpoint": null, "epoch": 3.0, "eval_steps": 500, "global_step": 180, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.016666666666666666, "grad_norm": 4.307253357056896, "learning_rate": 0.0, "loss": 1.3486, "num_tokens": 386694.0, "step": 1 }, { "epoch": 0.03333333333333333, "grad_norm": 4.360320258925879, "learning_rate": 1.6666666666666667e-06, "loss": 1.355, "num_tokens": 763332.0, "step": 2 }, { "epoch": 0.05, "grad_norm": 4.345332014222828, "learning_rate": 3.3333333333333333e-06, "loss": 1.3444, "num_tokens": 1139716.0, "step": 3 }, { "epoch": 0.06666666666666667, "grad_norm": 3.628391365691474, "learning_rate": 5e-06, "loss": 1.2589, "num_tokens": 1538652.0, "step": 4 }, { "epoch": 0.08333333333333333, "grad_norm": 2.803675884185387, "learning_rate": 6.666666666666667e-06, "loss": 1.1789, "num_tokens": 1906687.0, "step": 5 }, { "epoch": 0.1, "grad_norm": 1.6755164899194928, "learning_rate": 8.333333333333334e-06, "loss": 0.9559, "num_tokens": 2291916.0, "step": 6 }, { "epoch": 0.11666666666666667, "grad_norm": 1.6023439747170054, "learning_rate": 1e-05, "loss": 0.9039, "num_tokens": 2681760.0, "step": 7 }, { "epoch": 0.13333333333333333, "grad_norm": 2.621524079150046, "learning_rate": 9.999266547540887e-06, "loss": 0.7046, "num_tokens": 3083275.0, "step": 8 }, { "epoch": 0.15, "grad_norm": 1.8310985368282848, "learning_rate": 9.997066429253546e-06, "loss": 0.67, "num_tokens": 3492333.0, "step": 9 }, { "epoch": 0.16666666666666666, "grad_norm": 1.588733471297654, "learning_rate": 9.993400362330058e-06, "loss": 0.5748, "num_tokens": 3874036.0, "step": 10 }, { "epoch": 0.18333333333333332, "grad_norm": 0.8180449520265045, "learning_rate": 9.988269541830775e-06, "loss": 0.4871, "num_tokens": 4288115.0, "step": 11 }, { "epoch": 0.2, "grad_norm": 0.752923941500878, "learning_rate": 9.98167564029477e-06, "loss": 0.4292, "num_tokens": 4688262.0, "step": 12 }, { "epoch": 0.21666666666666667, "grad_norm": 0.372241919164793, "learning_rate": 9.97362080719462e-06, "loss": 0.4056, "num_tokens": 5091722.0, "step": 13 }, { "epoch": 0.23333333333333334, "grad_norm": 0.33142327142903066, "learning_rate": 9.96410766823572e-06, "loss": 0.3793, "num_tokens": 5471288.0, "step": 14 }, { "epoch": 0.25, "grad_norm": 0.333034056817446, "learning_rate": 9.95313932450037e-06, "loss": 0.3692, "num_tokens": 5889666.0, "step": 15 }, { "epoch": 0.26666666666666666, "grad_norm": 0.27138429604415093, "learning_rate": 9.94071935143687e-06, "loss": 0.3756, "num_tokens": 6300311.0, "step": 16 }, { "epoch": 0.2833333333333333, "grad_norm": 0.25396556914093327, "learning_rate": 9.926851797694012e-06, "loss": 0.3632, "num_tokens": 6715155.0, "step": 17 }, { "epoch": 0.3, "grad_norm": 0.2500253644023207, "learning_rate": 9.911541183801312e-06, "loss": 0.3374, "num_tokens": 7135255.0, "step": 18 }, { "epoch": 0.31666666666666665, "grad_norm": 0.25089233453514137, "learning_rate": 9.89479250069539e-06, "loss": 0.321, "num_tokens": 7508317.0, "step": 19 }, { "epoch": 0.3333333333333333, "grad_norm": 0.2482917013855084, "learning_rate": 9.876611208093055e-06, "loss": 0.3146, "num_tokens": 7875185.0, "step": 20 }, { "epoch": 0.35, "grad_norm": 0.2170036674475473, "learning_rate": 9.857003232711535e-06, "loss": 0.3257, "num_tokens": 8278743.0, "step": 21 }, { "epoch": 0.36666666666666664, "grad_norm": 0.21290870255144237, "learning_rate": 9.835974966336504e-06, "loss": 0.3043, "num_tokens": 8653905.0, "step": 22 }, { "epoch": 0.38333333333333336, "grad_norm": 0.20612281123293255, "learning_rate": 9.813533263738486e-06, "loss": 0.3085, "num_tokens": 9043909.0, "step": 23 }, { "epoch": 0.4, "grad_norm": 0.21450894869657447, "learning_rate": 9.789685440438353e-06, "loss": 0.3072, "num_tokens": 9435837.0, "step": 24 }, { "epoch": 0.4166666666666667, "grad_norm": 0.20171788675549032, "learning_rate": 9.764439270322612e-06, "loss": 0.3075, "num_tokens": 9830459.0, "step": 25 }, { "epoch": 0.43333333333333335, "grad_norm": 0.19965322014196185, "learning_rate": 9.737802983109287e-06, "loss": 0.307, "num_tokens": 10213657.0, "step": 26 }, { "epoch": 0.45, "grad_norm": 0.1851962358951018, "learning_rate": 9.709785261665205e-06, "loss": 0.3011, "num_tokens": 10635429.0, "step": 27 }, { "epoch": 0.4666666666666667, "grad_norm": 0.18835954292626045, "learning_rate": 9.680395239175563e-06, "loss": 0.2958, "num_tokens": 11041197.0, "step": 28 }, { "epoch": 0.48333333333333334, "grad_norm": 0.1810203496485964, "learning_rate": 9.6496424961667e-06, "loss": 0.289, "num_tokens": 11456416.0, "step": 29 }, { "epoch": 0.5, "grad_norm": 0.18244709386338018, "learning_rate": 9.617537057383055e-06, "loss": 0.2676, "num_tokens": 11819187.0, "step": 30 }, { "epoch": 0.5166666666666667, "grad_norm": 0.17564449531170986, "learning_rate": 9.584089388519307e-06, "loss": 0.2939, "num_tokens": 12245580.0, "step": 31 }, { "epoch": 0.5333333333333333, "grad_norm": 0.17602330940765054, "learning_rate": 9.549310392808782e-06, "loss": 0.2908, "num_tokens": 12656812.0, "step": 32 }, { "epoch": 0.55, "grad_norm": 0.17341734231138603, "learning_rate": 9.51321140746922e-06, "loss": 0.2693, "num_tokens": 13051662.0, "step": 33 }, { "epoch": 0.5666666666666667, "grad_norm": 0.17642947100637568, "learning_rate": 9.475804200007104e-06, "loss": 0.2844, "num_tokens": 13460138.0, "step": 34 }, { "epoch": 0.5833333333333334, "grad_norm": 0.18195529537136276, "learning_rate": 9.437100964381674e-06, "loss": 0.2562, "num_tokens": 13839611.0, "step": 35 }, { "epoch": 0.6, "grad_norm": 0.17156360193212303, "learning_rate": 9.397114317029975e-06, "loss": 0.2791, "num_tokens": 14235849.0, "step": 36 }, { "epoch": 0.6166666666666667, "grad_norm": 0.16517378951073838, "learning_rate": 9.355857292754152e-06, "loss": 0.2574, "num_tokens": 14628658.0, "step": 37 }, { "epoch": 0.6333333333333333, "grad_norm": 0.16623649868248883, "learning_rate": 9.31334334047239e-06, "loss": 0.258, "num_tokens": 15022722.0, "step": 38 }, { "epoch": 0.65, "grad_norm": 0.16536066104473388, "learning_rate": 9.269586318834841e-06, "loss": 0.2621, "num_tokens": 15412919.0, "step": 39 }, { "epoch": 0.6666666666666666, "grad_norm": 0.16136165971570182, "learning_rate": 9.224600491706009e-06, "loss": 0.2578, "num_tokens": 15808067.0, "step": 40 }, { "epoch": 0.6833333333333333, "grad_norm": 0.16817050304190198, "learning_rate": 9.178400523515013e-06, "loss": 0.2551, "num_tokens": 16216305.0, "step": 41 }, { "epoch": 0.7, "grad_norm": 0.16231582842289252, "learning_rate": 9.131001474475318e-06, "loss": 0.2522, "num_tokens": 16614956.0, "step": 42 }, { "epoch": 0.7166666666666667, "grad_norm": 0.16568222727770732, "learning_rate": 9.082418795675397e-06, "loss": 0.2712, "num_tokens": 17017704.0, "step": 43 }, { "epoch": 0.7333333333333333, "grad_norm": 0.1655911348621601, "learning_rate": 9.032668324042027e-06, "loss": 0.251, "num_tokens": 17417441.0, "step": 44 }, { "epoch": 0.75, "grad_norm": 0.1709011568135344, "learning_rate": 8.981766277177764e-06, "loss": 0.2613, "num_tokens": 17836960.0, "step": 45 }, { "epoch": 0.7666666666666667, "grad_norm": 0.15724793095686002, "learning_rate": 8.929729248074364e-06, "loss": 0.2515, "num_tokens": 18229148.0, "step": 46 }, { "epoch": 0.7833333333333333, "grad_norm": 0.1566336577784553, "learning_rate": 8.87657419970381e-06, "loss": 0.2386, "num_tokens": 18629493.0, "step": 47 }, { "epoch": 0.8, "grad_norm": 0.156545141537549, "learning_rate": 8.822318459488744e-06, "loss": 0.2417, "num_tokens": 19016532.0, "step": 48 }, { "epoch": 0.8166666666666667, "grad_norm": 0.1682876261976619, "learning_rate": 8.76697971365409e-06, "loss": 0.25, "num_tokens": 19420153.0, "step": 49 }, { "epoch": 0.8333333333333334, "grad_norm": 0.15625972879253544, "learning_rate": 8.71057600146172e-06, "loss": 0.2477, "num_tokens": 19799943.0, "step": 50 }, { "epoch": 0.85, "grad_norm": 0.15865902000624793, "learning_rate": 8.65312570933004e-06, "loss": 0.2535, "num_tokens": 20211312.0, "step": 51 }, { "epoch": 0.8666666666666667, "grad_norm": 0.16243250536538423, "learning_rate": 8.594647564840407e-06, "loss": 0.2408, "num_tokens": 20601752.0, "step": 52 }, { "epoch": 0.8833333333333333, "grad_norm": 0.16344681631488067, "learning_rate": 8.535160630632312e-06, "loss": 0.2571, "num_tokens": 21018915.0, "step": 53 }, { "epoch": 0.9, "grad_norm": 0.15878464256544747, "learning_rate": 8.474684298189402e-06, "loss": 0.2391, "num_tokens": 21431176.0, "step": 54 }, { "epoch": 0.9166666666666666, "grad_norm": 0.16166754521090773, "learning_rate": 8.413238281518225e-06, "loss": 0.2349, "num_tokens": 21813557.0, "step": 55 }, { "epoch": 0.9333333333333333, "grad_norm": 0.1580424426734478, "learning_rate": 8.350842610721908e-06, "loss": 0.2374, "num_tokens": 22194786.0, "step": 56 }, { "epoch": 0.95, "grad_norm": 0.16231313908249073, "learning_rate": 8.287517625470754e-06, "loss": 0.2255, "num_tokens": 22567671.0, "step": 57 }, { "epoch": 0.9666666666666667, "grad_norm": 0.1557048649324866, "learning_rate": 8.223283968371945e-06, "loss": 0.2285, "num_tokens": 22950599.0, "step": 58 }, { "epoch": 0.9833333333333333, "grad_norm": 0.1575134308288616, "learning_rate": 8.158162578240479e-06, "loss": 0.2322, "num_tokens": 23343994.0, "step": 59 }, { "epoch": 1.0, "grad_norm": 0.1589382777080593, "learning_rate": 8.09217468327358e-06, "loss": 0.2304, "num_tokens": 23741790.0, "step": 60 }, { "epoch": 1.0166666666666666, "grad_norm": 0.17102027510972934, "learning_rate": 8.025341794130722e-06, "loss": 0.2214, "num_tokens": 24119088.0, "step": 61 }, { "epoch": 1.0333333333333334, "grad_norm": 0.15752410988362262, "learning_rate": 7.957685696921637e-06, "loss": 0.2346, "num_tokens": 24525980.0, "step": 62 }, { "epoch": 1.05, "grad_norm": 0.16659406480726785, "learning_rate": 7.889228446104492e-06, "loss": 0.2215, "num_tokens": 24923505.0, "step": 63 }, { "epoch": 1.0666666666666667, "grad_norm": 0.17116959316903918, "learning_rate": 7.8199923572966e-06, "loss": 0.2417, "num_tokens": 25357629.0, "step": 64 }, { "epoch": 1.0833333333333333, "grad_norm": 0.16260107516719483, "learning_rate": 7.75e-06, "loss": 0.2188, "num_tokens": 25764560.0, "step": 65 }, { "epoch": 1.1, "grad_norm": 0.16804687462761858, "learning_rate": 7.679274190244288e-06, "loss": 0.2275, "num_tokens": 26191304.0, "step": 66 }, { "epoch": 1.1166666666666667, "grad_norm": 0.16375887203042463, "learning_rate": 7.607837983149057e-06, "loss": 0.2138, "num_tokens": 26571577.0, "step": 67 }, { "epoch": 1.1333333333333333, "grad_norm": 0.16023540725876087, "learning_rate": 7.535714665408422e-06, "loss": 0.2189, "num_tokens": 26977355.0, "step": 68 }, { "epoch": 1.15, "grad_norm": 0.16856459027615175, "learning_rate": 7.462927747700054e-06, "loss": 0.2238, "num_tokens": 27386485.0, "step": 69 }, { "epoch": 1.1666666666666667, "grad_norm": 0.15852201765248605, "learning_rate": 7.389500957021192e-06, "loss": 0.2232, "num_tokens": 27796862.0, "step": 70 }, { "epoch": 1.1833333333333333, "grad_norm": 0.1562037699869291, "learning_rate": 7.31545822895414e-06, "loss": 0.2062, "num_tokens": 28173474.0, "step": 71 }, { "epoch": 1.2, "grad_norm": 0.16665718486974085, "learning_rate": 7.240823699863777e-06, "loss": 0.2063, "num_tokens": 28525368.0, "step": 72 }, { "epoch": 1.2166666666666668, "grad_norm": 0.1583738566323773, "learning_rate": 7.165621699029615e-06, "loss": 0.2169, "num_tokens": 28932221.0, "step": 73 }, { "epoch": 1.2333333333333334, "grad_norm": 0.15796778000095918, "learning_rate": 7.0898767407149614e-06, "loss": 0.2044, "num_tokens": 29318980.0, "step": 74 }, { "epoch": 1.25, "grad_norm": 0.1536497599528125, "learning_rate": 7.013613516175788e-06, "loss": 0.1993, "num_tokens": 29692583.0, "step": 75 }, { "epoch": 1.2666666666666666, "grad_norm": 0.1546218055415269, "learning_rate": 6.93685688561191e-06, "loss": 0.2051, "num_tokens": 30070786.0, "step": 76 }, { "epoch": 1.2833333333333332, "grad_norm": 0.14705152616718795, "learning_rate": 6.859631870063077e-06, "loss": 0.2164, "num_tokens": 30493521.0, "step": 77 }, { "epoch": 1.3, "grad_norm": 0.16343647621353785, "learning_rate": 6.781963643252651e-06, "loss": 0.2057, "num_tokens": 30867731.0, "step": 78 }, { "epoch": 1.3166666666666667, "grad_norm": 0.16180013718977998, "learning_rate": 6.703877523381495e-06, "loss": 0.2151, "num_tokens": 31278707.0, "step": 79 }, { "epoch": 1.3333333333333333, "grad_norm": 0.1554345859591716, "learning_rate": 6.6253989648747845e-06, "loss": 0.2204, "num_tokens": 31686041.0, "step": 80 }, { "epoch": 1.35, "grad_norm": 0.158796010961646, "learning_rate": 6.546553550084398e-06, "loss": 0.2124, "num_tokens": 32077613.0, "step": 81 }, { "epoch": 1.3666666666666667, "grad_norm": 0.15701623463042624, "learning_rate": 6.46736698094961e-06, "loss": 0.1948, "num_tokens": 32436972.0, "step": 82 }, { "epoch": 1.3833333333333333, "grad_norm": 0.17232253970403388, "learning_rate": 6.387865070618801e-06, "loss": 0.2102, "num_tokens": 32820896.0, "step": 83 }, { "epoch": 1.4, "grad_norm": 0.15205370063709056, "learning_rate": 6.308073735034923e-06, "loss": 0.2145, "num_tokens": 33232148.0, "step": 84 }, { "epoch": 1.4166666666666667, "grad_norm": 0.16615604361419675, "learning_rate": 6.228018984487443e-06, "loss": 0.2097, "num_tokens": 33617847.0, "step": 85 }, { "epoch": 1.4333333333333333, "grad_norm": 0.15608157931237884, "learning_rate": 6.147726915133536e-06, "loss": 0.2079, "num_tokens": 34013743.0, "step": 86 }, { "epoch": 1.45, "grad_norm": 0.1533815994944839, "learning_rate": 6.067223700491303e-06, "loss": 0.2234, "num_tokens": 34426281.0, "step": 87 }, { "epoch": 1.4666666666666668, "grad_norm": 0.16341622285747343, "learning_rate": 5.986535582907739e-06, "loss": 0.2082, "num_tokens": 34820833.0, "step": 88 }, { "epoch": 1.4833333333333334, "grad_norm": 0.1501827141164398, "learning_rate": 5.905688865004295e-06, "loss": 0.2047, "num_tokens": 35204582.0, "step": 89 }, { "epoch": 1.5, "grad_norm": 0.17073241665358838, "learning_rate": 5.8247099011027745e-06, "loss": 0.1981, "num_tokens": 35593390.0, "step": 90 }, { "epoch": 1.5166666666666666, "grad_norm": 0.155687295095261, "learning_rate": 5.74362508863438e-06, "loss": 0.2198, "num_tokens": 36016331.0, "step": 91 }, { "epoch": 1.5333333333333332, "grad_norm": 0.16109998374651785, "learning_rate": 5.662460859534714e-06, "loss": 0.2023, "num_tokens": 36413156.0, "step": 92 }, { "epoch": 1.55, "grad_norm": 0.16131117005573636, "learning_rate": 5.581243671627522e-06, "loss": 0.2171, "num_tokens": 36798646.0, "step": 93 }, { "epoch": 1.5666666666666667, "grad_norm": 0.15364974978248802, "learning_rate": 5.500000000000001e-06, "loss": 0.2015, "num_tokens": 37163989.0, "step": 94 }, { "epoch": 1.5833333333333335, "grad_norm": 0.15965272681106013, "learning_rate": 5.418756328372477e-06, "loss": 0.203, "num_tokens": 37561194.0, "step": 95 }, { "epoch": 1.6, "grad_norm": 0.16238266195932857, "learning_rate": 5.337539140465287e-06, "loss": 0.2065, "num_tokens": 37949527.0, "step": 96 }, { "epoch": 1.6166666666666667, "grad_norm": 0.15421187662404837, "learning_rate": 5.256374911365621e-06, "loss": 0.2006, "num_tokens": 38339423.0, "step": 97 }, { "epoch": 1.6333333333333333, "grad_norm": 0.1425557076209861, "learning_rate": 5.175290098897229e-06, "loss": 0.2201, "num_tokens": 38766377.0, "step": 98 }, { "epoch": 1.65, "grad_norm": 0.16173575303325918, "learning_rate": 5.094311134995707e-06, "loss": 0.2063, "num_tokens": 39147856.0, "step": 99 }, { "epoch": 1.6666666666666665, "grad_norm": 0.15671341837921993, "learning_rate": 5.013464417092263e-06, "loss": 0.2123, "num_tokens": 39566905.0, "step": 100 }, { "epoch": 1.6833333333333333, "grad_norm": 0.1466722022344314, "learning_rate": 4.932776299508699e-06, "loss": 0.2131, "num_tokens": 39958103.0, "step": 101 }, { "epoch": 1.7, "grad_norm": 0.15459226194943745, "learning_rate": 4.852273084866464e-06, "loss": 0.2056, "num_tokens": 40340633.0, "step": 102 }, { "epoch": 1.7166666666666668, "grad_norm": 0.15024633207597848, "learning_rate": 4.771981015512559e-06, "loss": 0.2032, "num_tokens": 40751526.0, "step": 103 }, { "epoch": 1.7333333333333334, "grad_norm": 0.15035138034173598, "learning_rate": 4.6919262649650775e-06, "loss": 0.2089, "num_tokens": 41164499.0, "step": 104 }, { "epoch": 1.75, "grad_norm": 0.15651786731510953, "learning_rate": 4.6121349293812015e-06, "loss": 0.1995, "num_tokens": 41570804.0, "step": 105 }, { "epoch": 1.7666666666666666, "grad_norm": 0.15052460060489134, "learning_rate": 4.532633019050392e-06, "loss": 0.2014, "num_tokens": 41958143.0, "step": 106 }, { "epoch": 1.7833333333333332, "grad_norm": 0.15701741784933038, "learning_rate": 4.453446449915605e-06, "loss": 0.1956, "num_tokens": 42328835.0, "step": 107 }, { "epoch": 1.8, "grad_norm": 0.14940995875441748, "learning_rate": 4.374601035125218e-06, "loss": 0.2013, "num_tokens": 42695932.0, "step": 108 }, { "epoch": 1.8166666666666667, "grad_norm": 0.14921621072385988, "learning_rate": 4.296122476618507e-06, "loss": 0.2106, "num_tokens": 43099402.0, "step": 109 }, { "epoch": 1.8333333333333335, "grad_norm": 0.15120472210694338, "learning_rate": 4.21803635674735e-06, "loss": 0.2046, "num_tokens": 43497618.0, "step": 110 }, { "epoch": 1.85, "grad_norm": 0.1537232334909544, "learning_rate": 4.140368129936923e-06, "loss": 0.2125, "num_tokens": 43910914.0, "step": 111 }, { "epoch": 1.8666666666666667, "grad_norm": 0.14899934511970375, "learning_rate": 4.0631431143880915e-06, "loss": 0.2161, "num_tokens": 44306362.0, "step": 112 }, { "epoch": 1.8833333333333333, "grad_norm": 0.14352426818162795, "learning_rate": 3.986386483824212e-06, "loss": 0.1881, "num_tokens": 44690072.0, "step": 113 }, { "epoch": 1.9, "grad_norm": 0.14966797180869215, "learning_rate": 3.91012325928504e-06, "loss": 0.2139, "num_tokens": 45097796.0, "step": 114 }, { "epoch": 1.9166666666666665, "grad_norm": 0.15059855985104126, "learning_rate": 3.834378300970385e-06, "loss": 0.2104, "num_tokens": 45507999.0, "step": 115 }, { "epoch": 1.9333333333333333, "grad_norm": 0.145399379241378, "learning_rate": 3.759176300136225e-06, "loss": 0.206, "num_tokens": 45893001.0, "step": 116 }, { "epoch": 1.95, "grad_norm": 0.15686955708392808, "learning_rate": 3.684541771045862e-06, "loss": 0.1925, "num_tokens": 46266011.0, "step": 117 }, { "epoch": 1.9666666666666668, "grad_norm": 0.15173053989396762, "learning_rate": 3.6104990429788102e-06, "loss": 0.2025, "num_tokens": 46654457.0, "step": 118 }, { "epoch": 1.9833333333333334, "grad_norm": 0.1437181537184728, "learning_rate": 3.5370722522999468e-06, "loss": 0.2052, "num_tokens": 47068222.0, "step": 119 }, { "epoch": 2.0, "grad_norm": 0.15409940511826736, "learning_rate": 3.4642853345915796e-06, "loss": 0.2105, "num_tokens": 47486208.0, "step": 120 }, { "epoch": 2.0166666666666666, "grad_norm": 0.15402414642751905, "learning_rate": 3.392162016850945e-06, "loss": 0.1735, "num_tokens": 47861567.0, "step": 121 }, { "epoch": 2.033333333333333, "grad_norm": 0.15373305435044163, "learning_rate": 3.3207258097557136e-06, "loss": 0.196, "num_tokens": 48258885.0, "step": 122 }, { "epoch": 2.05, "grad_norm": 0.14676915170123003, "learning_rate": 3.2500000000000015e-06, "loss": 0.1907, "num_tokens": 48642658.0, "step": 123 }, { "epoch": 2.066666666666667, "grad_norm": 0.1440659388733191, "learning_rate": 3.180007642703402e-06, "loss": 0.187, "num_tokens": 49052624.0, "step": 124 }, { "epoch": 2.0833333333333335, "grad_norm": 0.14784811155267652, "learning_rate": 3.1107715538955107e-06, "loss": 0.1811, "num_tokens": 49459791.0, "step": 125 }, { "epoch": 2.1, "grad_norm": 0.1539105789783882, "learning_rate": 3.042314303078364e-06, "loss": 0.1765, "num_tokens": 49827854.0, "step": 126 }, { "epoch": 2.1166666666666667, "grad_norm": 0.1552411260071569, "learning_rate": 2.9746582058692803e-06, "loss": 0.2016, "num_tokens": 50245908.0, "step": 127 }, { "epoch": 2.1333333333333333, "grad_norm": 0.15614255642839991, "learning_rate": 2.9078253167264225e-06, "loss": 0.1899, "num_tokens": 50630892.0, "step": 128 }, { "epoch": 2.15, "grad_norm": 0.14811369323743206, "learning_rate": 2.841837421759521e-06, "loss": 0.1914, "num_tokens": 51034329.0, "step": 129 }, { "epoch": 2.1666666666666665, "grad_norm": 0.1975445469271066, "learning_rate": 2.7767160316280583e-06, "loss": 0.1808, "num_tokens": 51424755.0, "step": 130 }, { "epoch": 2.183333333333333, "grad_norm": 0.1451760497316787, "learning_rate": 2.712482374529247e-06, "loss": 0.2008, "num_tokens": 51824755.0, "step": 131 }, { "epoch": 2.2, "grad_norm": 0.14733003430195793, "learning_rate": 2.6491573892780944e-06, "loss": 0.1949, "num_tokens": 52216263.0, "step": 132 }, { "epoch": 2.216666666666667, "grad_norm": 0.14534251232717119, "learning_rate": 2.586761718481776e-06, "loss": 0.1834, "num_tokens": 52598901.0, "step": 133 }, { "epoch": 2.2333333333333334, "grad_norm": 0.1496275777226439, "learning_rate": 2.5253157018105994e-06, "loss": 0.1905, "num_tokens": 52970634.0, "step": 134 }, { "epoch": 2.25, "grad_norm": 0.14905373345924058, "learning_rate": 2.464839369367688e-06, "loss": 0.1911, "num_tokens": 53361046.0, "step": 135 }, { "epoch": 2.2666666666666666, "grad_norm": 0.15115547136539223, "learning_rate": 2.405352435159595e-06, "loss": 0.1998, "num_tokens": 53778131.0, "step": 136 }, { "epoch": 2.283333333333333, "grad_norm": 0.14476235639341437, "learning_rate": 2.34687429066996e-06, "loss": 0.1817, "num_tokens": 54168768.0, "step": 137 }, { "epoch": 2.3, "grad_norm": 0.14725798416601737, "learning_rate": 2.28942399853828e-06, "loss": 0.1782, "num_tokens": 54548763.0, "step": 138 }, { "epoch": 2.3166666666666664, "grad_norm": 0.14942987448940256, "learning_rate": 2.2330202863459123e-06, "loss": 0.1936, "num_tokens": 54983583.0, "step": 139 }, { "epoch": 2.3333333333333335, "grad_norm": 0.15129686936588405, "learning_rate": 2.1776815405112567e-06, "loss": 0.1894, "num_tokens": 55390401.0, "step": 140 }, { "epoch": 2.35, "grad_norm": 0.1451441459771395, "learning_rate": 2.12342580029619e-06, "loss": 0.1876, "num_tokens": 55790352.0, "step": 141 }, { "epoch": 2.3666666666666667, "grad_norm": 0.1504932193926155, "learning_rate": 2.0702707519256365e-06, "loss": 0.1927, "num_tokens": 56198140.0, "step": 142 }, { "epoch": 2.3833333333333333, "grad_norm": 0.1425074357758425, "learning_rate": 2.0182337228222366e-06, "loss": 0.1901, "num_tokens": 56586902.0, "step": 143 }, { "epoch": 2.4, "grad_norm": 0.1523349986800055, "learning_rate": 1.9673316759579752e-06, "loss": 0.1901, "num_tokens": 56980540.0, "step": 144 }, { "epoch": 2.4166666666666665, "grad_norm": 0.148279722484878, "learning_rate": 1.9175812043246034e-06, "loss": 0.1937, "num_tokens": 57379690.0, "step": 145 }, { "epoch": 2.4333333333333336, "grad_norm": 0.14683043295079268, "learning_rate": 1.8689985255246834e-06, "loss": 0.1801, "num_tokens": 57759503.0, "step": 146 }, { "epoch": 2.45, "grad_norm": 0.14410047957451386, "learning_rate": 1.821599476484987e-06, "loss": 0.1759, "num_tokens": 58137010.0, "step": 147 }, { "epoch": 2.466666666666667, "grad_norm": 0.14626131914056648, "learning_rate": 1.7753995082939932e-06, "loss": 0.1996, "num_tokens": 58540304.0, "step": 148 }, { "epoch": 2.4833333333333334, "grad_norm": 0.14663671779264556, "learning_rate": 1.7304136811651595e-06, "loss": 0.183, "num_tokens": 58940195.0, "step": 149 }, { "epoch": 2.5, "grad_norm": 0.14829884847473565, "learning_rate": 1.6866566595276108e-06, "loss": 0.1909, "num_tokens": 59334134.0, "step": 150 }, { "epoch": 2.5166666666666666, "grad_norm": 0.14666192308168516, "learning_rate": 1.6441427072458493e-06, "loss": 0.184, "num_tokens": 59715949.0, "step": 151 }, { "epoch": 2.533333333333333, "grad_norm": 0.1481572245355778, "learning_rate": 1.602885682970026e-06, "loss": 0.1855, "num_tokens": 60116409.0, "step": 152 }, { "epoch": 2.55, "grad_norm": 0.14392865327162538, "learning_rate": 1.5628990356183267e-06, "loss": 0.1866, "num_tokens": 60525002.0, "step": 153 }, { "epoch": 2.5666666666666664, "grad_norm": 0.1461373431520025, "learning_rate": 1.5241957999928974e-06, "loss": 0.1878, "num_tokens": 60932270.0, "step": 154 }, { "epoch": 2.5833333333333335, "grad_norm": 0.14672445166075807, "learning_rate": 1.48678859253078e-06, "loss": 0.1958, "num_tokens": 61334649.0, "step": 155 }, { "epoch": 2.6, "grad_norm": 0.1520933383157152, "learning_rate": 1.4506896071912207e-06, "loss": 0.189, "num_tokens": 61734959.0, "step": 156 }, { "epoch": 2.6166666666666667, "grad_norm": 0.1428209521559839, "learning_rate": 1.4159106114806943e-06, "loss": 0.184, "num_tokens": 62136249.0, "step": 157 }, { "epoch": 2.6333333333333333, "grad_norm": 0.14550810004810277, "learning_rate": 1.3824629426169453e-06, "loss": 0.1955, "num_tokens": 62547232.0, "step": 158 }, { "epoch": 2.65, "grad_norm": 0.1471795467648584, "learning_rate": 1.3503575038333012e-06, "loss": 0.1865, "num_tokens": 62925792.0, "step": 159 }, { "epoch": 2.6666666666666665, "grad_norm": 0.14338365279795576, "learning_rate": 1.319604760824439e-06, "loss": 0.1934, "num_tokens": 63307635.0, "step": 160 }, { "epoch": 2.6833333333333336, "grad_norm": 0.14628389297503275, "learning_rate": 1.290214738334796e-06, "loss": 0.1845, "num_tokens": 63682238.0, "step": 161 }, { "epoch": 2.7, "grad_norm": 0.14038687556129809, "learning_rate": 1.2621970168907142e-06, "loss": 0.1817, "num_tokens": 64080742.0, "step": 162 }, { "epoch": 2.716666666666667, "grad_norm": 0.1488881989185735, "learning_rate": 1.2355607296773896e-06, "loss": 0.1873, "num_tokens": 64470953.0, "step": 163 }, { "epoch": 2.7333333333333334, "grad_norm": 0.14877894347532283, "learning_rate": 1.2103145595616483e-06, "loss": 0.1775, "num_tokens": 64841108.0, "step": 164 }, { "epoch": 2.75, "grad_norm": 0.14123105169145264, "learning_rate": 1.1864667362615143e-06, "loss": 0.1873, "num_tokens": 65231331.0, "step": 165 }, { "epoch": 2.7666666666666666, "grad_norm": 0.1450707618403656, "learning_rate": 1.164025033663497e-06, "loss": 0.1955, "num_tokens": 65618779.0, "step": 166 }, { "epoch": 2.783333333333333, "grad_norm": 0.14187799392326958, "learning_rate": 1.1429967672884653e-06, "loss": 0.1739, "num_tokens": 65984834.0, "step": 167 }, { "epoch": 2.8, "grad_norm": 0.14056724875916252, "learning_rate": 1.1233887919069461e-06, "loss": 0.1933, "num_tokens": 66393854.0, "step": 168 }, { "epoch": 2.8166666666666664, "grad_norm": 0.14962757784279573, "learning_rate": 1.1052074993046102e-06, "loss": 0.1921, "num_tokens": 66790920.0, "step": 169 }, { "epoch": 2.8333333333333335, "grad_norm": 0.14231360939136606, "learning_rate": 1.0884588161986893e-06, "loss": 0.1977, "num_tokens": 67209770.0, "step": 170 }, { "epoch": 2.85, "grad_norm": 0.14850621871295716, "learning_rate": 1.073148202305988e-06, "loss": 0.1843, "num_tokens": 67598233.0, "step": 171 }, { "epoch": 2.8666666666666667, "grad_norm": 0.14009685911878283, "learning_rate": 1.0592806485631326e-06, "loss": 0.1844, "num_tokens": 68012178.0, "step": 172 }, { "epoch": 2.8833333333333333, "grad_norm": 0.14434460171184124, "learning_rate": 1.0468606754996326e-06, "loss": 0.1938, "num_tokens": 68425764.0, "step": 173 }, { "epoch": 2.9, "grad_norm": 0.15620525484508824, "learning_rate": 1.0358923317642807e-06, "loss": 0.1945, "num_tokens": 68839975.0, "step": 174 }, { "epoch": 2.9166666666666665, "grad_norm": 0.14119966117512753, "learning_rate": 1.026379192805382e-06, "loss": 0.1936, "num_tokens": 69246450.0, "step": 175 }, { "epoch": 2.9333333333333336, "grad_norm": 0.14254063884129384, "learning_rate": 1.0183243597052312e-06, "loss": 0.1935, "num_tokens": 69641779.0, "step": 176 }, { "epoch": 2.95, "grad_norm": 0.14492800400381445, "learning_rate": 1.0117304581692261e-06, "loss": 0.1826, "num_tokens": 70032641.0, "step": 177 }, { "epoch": 2.966666666666667, "grad_norm": 0.13925574665371473, "learning_rate": 1.006599637669943e-06, "loss": 0.182, "num_tokens": 70438823.0, "step": 178 }, { "epoch": 2.9833333333333334, "grad_norm": 0.1437065239067374, "learning_rate": 1.002933570746454e-06, "loss": 0.1843, "num_tokens": 70827059.0, "step": 179 }, { "epoch": 3.0, "grad_norm": 0.14387233022808313, "learning_rate": 1.0007334524591145e-06, "loss": 0.1878, "num_tokens": 71219748.0, "step": 180 }, { "epoch": 3.0, "step": 180, "total_flos": 2.097365527654564e+17, "train_loss": 0.2700612629453341, "train_runtime": 2536.3753, "train_samples_per_second": 9.041, "train_steps_per_second": 0.071 } ], "logging_steps": 1, "max_steps": 180, "num_input_tokens_seen": 0, "num_train_epochs": 3, "save_steps": 500, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 2.097365527654564e+17, "train_batch_size": 8, "trial_name": null, "trial_params": null }