{ "best_metric": null, "best_model_checkpoint": null, "epoch": 14.917333333333334, "eval_steps": 500, "global_step": 1395, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.010666666666666666, "grad_norm": 2.017279624938965, "learning_rate": 1.4285714285714285e-05, "loss": 1.1741, "step": 1 }, { "epoch": 0.05333333333333334, "grad_norm": 1.1414889097213745, "learning_rate": 7.142857142857142e-05, "loss": 1.0112, "step": 5 }, { "epoch": 0.10666666666666667, "grad_norm": 0.5752452611923218, "learning_rate": 0.00014285714285714284, "loss": 0.9233, "step": 10 }, { "epoch": 0.16, "grad_norm": 0.4000088572502136, "learning_rate": 0.00021428571428571427, "loss": 0.8458, "step": 15 }, { "epoch": 0.21333333333333335, "grad_norm": 0.6516547799110413, "learning_rate": 0.0002857142857142857, "loss": 0.9087, "step": 20 }, { "epoch": 0.26666666666666666, "grad_norm": 0.8725354075431824, "learning_rate": 0.00035714285714285714, "loss": 0.9859, "step": 25 }, { "epoch": 0.32, "grad_norm": 0.7446133494377136, "learning_rate": 0.00042857142857142855, "loss": 0.9609, "step": 30 }, { "epoch": 0.37333333333333335, "grad_norm": 0.4507102370262146, "learning_rate": 0.0005, "loss": 1.2413, "step": 35 }, { "epoch": 0.4266666666666667, "grad_norm": 1.1437228918075562, "learning_rate": 0.0005714285714285714, "loss": 1.0784, "step": 40 }, { "epoch": 0.48, "grad_norm": 1.6952320337295532, "learning_rate": 0.0006428571428571429, "loss": 1.2622, "step": 45 }, { "epoch": 0.5333333333333333, "grad_norm": 12.92784309387207, "learning_rate": 0.0007142857142857143, "loss": 2.0382, "step": 50 }, { "epoch": 0.5866666666666667, "grad_norm": 4.855193138122559, "learning_rate": 0.0007857142857142857, "loss": 5.5645, "step": 55 }, { "epoch": 0.64, "grad_norm": 7.7960357666015625, "learning_rate": 0.0008571428571428571, "loss": 12.1792, "step": 60 }, { "epoch": 0.6933333333333334, "grad_norm": 9.617668151855469, "learning_rate": 0.0009285714285714287, "loss": 12.4584, "step": 65 }, { "epoch": 0.7466666666666667, "grad_norm": 1.5412602424621582, "learning_rate": 0.001, "loss": 7.3645, "step": 70 }, { "epoch": 0.8, "grad_norm": 1.459766149520874, "learning_rate": 0.0010714285714285715, "loss": 6.9284, "step": 75 }, { "epoch": 0.8533333333333334, "grad_norm": 1.6621876955032349, "learning_rate": 0.0011428571428571427, "loss": 6.7362, "step": 80 }, { "epoch": 0.9066666666666666, "grad_norm": 1.8117409944534302, "learning_rate": 0.0012142857142857142, "loss": 6.7313, "step": 85 }, { "epoch": 0.96, "grad_norm": 1.2151100635528564, "learning_rate": 0.0012857142857142859, "loss": 6.6705, "step": 90 }, { "epoch": 0.992, "eval_loss": 6.7252326011657715, "eval_runtime": 12.4963, "eval_samples_per_second": 90.027, "eval_steps_per_second": 15.045, "step": 93 }, { "epoch": 1.016, "grad_norm": 0.7800785303115845, "learning_rate": 0.0013571428571428573, "loss": 7.3155, "step": 95 }, { "epoch": 1.0693333333333332, "grad_norm": 0.6527447700500488, "learning_rate": 0.0014285714285714286, "loss": 6.5969, "step": 100 }, { "epoch": 1.1226666666666667, "grad_norm": 0.8018523454666138, "learning_rate": 0.0015, "loss": 6.4691, "step": 105 }, { "epoch": 1.176, "grad_norm": 0.5544389486312866, "learning_rate": 0.0015714285714285715, "loss": 6.6514, "step": 110 }, { "epoch": 1.2293333333333334, "grad_norm": 0.6455843448638916, "learning_rate": 0.0016428571428571427, "loss": 6.4806, "step": 115 }, { "epoch": 1.2826666666666666, "grad_norm": 0.6757238507270813, "learning_rate": 0.0017142857142857142, "loss": 6.6304, "step": 120 }, { "epoch": 1.336, "grad_norm": 0.5105107426643372, "learning_rate": 0.0017857142857142859, "loss": 6.4649, "step": 125 }, { "epoch": 1.3893333333333333, "grad_norm": 0.7170645594596863, "learning_rate": 0.0018571428571428573, "loss": 6.6033, "step": 130 }, { "epoch": 1.4426666666666668, "grad_norm": 0.7564003467559814, "learning_rate": 0.0019285714285714286, "loss": 6.6749, "step": 135 }, { "epoch": 1.496, "grad_norm": 0.4599800407886505, "learning_rate": 0.002, "loss": 6.3382, "step": 140 }, { "epoch": 1.5493333333333332, "grad_norm": 0.837786853313446, "learning_rate": 0.0019999216720722225, "loss": 6.8014, "step": 145 }, { "epoch": 1.6026666666666667, "grad_norm": 1.4660875797271729, "learning_rate": 0.001999686700559419, "loss": 6.5512, "step": 150 }, { "epoch": 1.6560000000000001, "grad_norm": 0.9593129754066467, "learning_rate": 0.001999295122271253, "loss": 6.5249, "step": 155 }, { "epoch": 1.7093333333333334, "grad_norm": 0.712748110294342, "learning_rate": 0.0019987469985507556, "loss": 6.5814, "step": 160 }, { "epoch": 1.7626666666666666, "grad_norm": 0.5598364472389221, "learning_rate": 0.0019980424152647174, "loss": 6.5057, "step": 165 }, { "epoch": 1.8159999999999998, "grad_norm": 1.0086586475372314, "learning_rate": 0.001997181482790236, "loss": 6.3741, "step": 170 }, { "epoch": 1.8693333333333333, "grad_norm": 1.0380948781967163, "learning_rate": 0.0019961643359974247, "loss": 6.5918, "step": 175 }, { "epoch": 1.9226666666666667, "grad_norm": 0.7874330282211304, "learning_rate": 0.0019949911342282845, "loss": 6.3813, "step": 180 }, { "epoch": 1.976, "grad_norm": 0.5932402610778809, "learning_rate": 0.0019936620612717427, "loss": 6.35, "step": 185 }, { "epoch": 1.9973333333333332, "eval_loss": 6.313483238220215, "eval_runtime": 12.8744, "eval_samples_per_second": 87.383, "eval_steps_per_second": 14.603, "step": 187 }, { "epoch": 2.032, "grad_norm": 0.777173638343811, "learning_rate": 0.00199217732533486, "loss": 6.6836, "step": 190 }, { "epoch": 2.0853333333333333, "grad_norm": 0.9935985207557678, "learning_rate": 0.0019905371590102153, "loss": 6.1532, "step": 195 }, { "epoch": 2.1386666666666665, "grad_norm": 0.5834164023399353, "learning_rate": 0.0019887418192394667, "loss": 6.0439, "step": 200 }, { "epoch": 2.192, "grad_norm": 0.7577049136161804, "learning_rate": 0.001986791587273103, "loss": 6.0436, "step": 205 }, { "epoch": 2.2453333333333334, "grad_norm": 0.9114102125167847, "learning_rate": 0.0019846867686263803, "loss": 6.0193, "step": 210 }, { "epoch": 2.2986666666666666, "grad_norm": 0.9455011487007141, "learning_rate": 0.001982427693031465, "loss": 5.9565, "step": 215 }, { "epoch": 2.352, "grad_norm": 1.504512071609497, "learning_rate": 0.001980014714385777, "loss": 6.2788, "step": 220 }, { "epoch": 2.405333333333333, "grad_norm": 1.2779139280319214, "learning_rate": 0.001977448210696551, "loss": 6.0278, "step": 225 }, { "epoch": 2.458666666666667, "grad_norm": 0.6228100061416626, "learning_rate": 0.001974728584021618, "loss": 5.846, "step": 230 }, { "epoch": 2.512, "grad_norm": 0.5647552609443665, "learning_rate": 0.0019718562604064214, "loss": 5.7982, "step": 235 }, { "epoch": 2.5653333333333332, "grad_norm": 0.6691617965698242, "learning_rate": 0.0019688316898172744, "loss": 5.6841, "step": 240 }, { "epoch": 2.618666666666667, "grad_norm": 0.8721797466278076, "learning_rate": 0.0019656553460708705, "loss": 5.6921, "step": 245 }, { "epoch": 2.672, "grad_norm": 0.49442487955093384, "learning_rate": 0.0019623277267600573, "loss": 5.6087, "step": 250 }, { "epoch": 2.7253333333333334, "grad_norm": 0.5820254683494568, "learning_rate": 0.001958849353175884, "loss": 5.4145, "step": 255 }, { "epoch": 2.7786666666666666, "grad_norm": 0.9541387557983398, "learning_rate": 0.001955220770225941, "loss": 5.4061, "step": 260 }, { "epoch": 2.832, "grad_norm": 0.8580039739608765, "learning_rate": 0.0019514425463489948, "loss": 5.3056, "step": 265 }, { "epoch": 2.8853333333333335, "grad_norm": 0.9031959772109985, "learning_rate": 0.001947515273425939, "loss": 5.3682, "step": 270 }, { "epoch": 2.9386666666666668, "grad_norm": 0.739450216293335, "learning_rate": 0.0019434395666870735, "loss": 5.2505, "step": 275 }, { "epoch": 2.992, "grad_norm": 0.8577784299850464, "learning_rate": 0.0019392160646157241, "loss": 5.0786, "step": 280 }, { "epoch": 2.992, "eval_loss": 5.260681629180908, "eval_runtime": 12.495, "eval_samples_per_second": 90.036, "eval_steps_per_second": 15.046, "step": 280 }, { "epoch": 3.048, "grad_norm": 0.7697703242301941, "learning_rate": 0.001934845428848222, "loss": 5.5708, "step": 285 }, { "epoch": 3.1013333333333333, "grad_norm": 0.8419788479804993, "learning_rate": 0.0019303283440702521, "loss": 4.9402, "step": 290 }, { "epoch": 3.1546666666666665, "grad_norm": 1.6958568096160889, "learning_rate": 0.0019256655179095952, "loss": 4.9352, "step": 295 }, { "epoch": 3.208, "grad_norm": 0.706997275352478, "learning_rate": 0.0019208576808252725, "loss": 4.9083, "step": 300 }, { "epoch": 3.2613333333333334, "grad_norm": 0.7924236059188843, "learning_rate": 0.0019159055859931163, "loss": 4.7812, "step": 305 }, { "epoch": 3.3146666666666667, "grad_norm": 0.6681360006332397, "learning_rate": 0.0019108100091877788, "loss": 4.7953, "step": 310 }, { "epoch": 3.368, "grad_norm": 0.9580642580986023, "learning_rate": 0.0019055717486612038, "loss": 4.8082, "step": 315 }, { "epoch": 3.421333333333333, "grad_norm": 1.4874638319015503, "learning_rate": 0.0019001916250175764, "loss": 4.7807, "step": 320 }, { "epoch": 3.474666666666667, "grad_norm": 2.9284310340881348, "learning_rate": 0.0018946704810847688, "loss": 4.7192, "step": 325 }, { "epoch": 3.528, "grad_norm": 0.8562856912612915, "learning_rate": 0.0018890091817823072, "loss": 4.7759, "step": 330 }, { "epoch": 3.5813333333333333, "grad_norm": 0.8265694975852966, "learning_rate": 0.0018832086139858775, "loss": 4.7143, "step": 335 }, { "epoch": 3.634666666666667, "grad_norm": 1.2272521257400513, "learning_rate": 0.0018772696863883906, "loss": 4.775, "step": 340 }, { "epoch": 3.6879999999999997, "grad_norm": 1.2595627307891846, "learning_rate": 0.0018711933293576303, "loss": 4.5926, "step": 345 }, { "epoch": 3.7413333333333334, "grad_norm": 1.0950653553009033, "learning_rate": 0.0018649804947905057, "loss": 4.813, "step": 350 }, { "epoch": 3.7946666666666666, "grad_norm": 1.4552189111709595, "learning_rate": 0.0018586321559639317, "loss": 4.717, "step": 355 }, { "epoch": 3.848, "grad_norm": 1.0459569692611694, "learning_rate": 0.001852149307382358, "loss": 4.6884, "step": 360 }, { "epoch": 3.9013333333333335, "grad_norm": 1.0256690979003906, "learning_rate": 0.0018455329646219765, "loss": 4.5672, "step": 365 }, { "epoch": 3.9546666666666668, "grad_norm": 1.2847387790679932, "learning_rate": 0.0018387841641716223, "loss": 4.4933, "step": 370 }, { "epoch": 3.997333333333333, "eval_loss": 4.830221176147461, "eval_runtime": 12.4939, "eval_samples_per_second": 90.044, "eval_steps_per_second": 15.047, "step": 374 }, { "epoch": 4.010666666666666, "grad_norm": 1.6286957263946533, "learning_rate": 0.001831903963270404, "loss": 5.0358, "step": 375 }, { "epoch": 4.064, "grad_norm": 1.2841631174087524, "learning_rate": 0.00182489343974208, "loss": 4.6172, "step": 380 }, { "epoch": 4.117333333333334, "grad_norm": 1.1748610734939575, "learning_rate": 0.001817753691826212, "loss": 4.6433, "step": 385 }, { "epoch": 4.1706666666666665, "grad_norm": 1.6473082304000854, "learning_rate": 0.0018104858380061178, "loss": 4.5933, "step": 390 }, { "epoch": 4.224, "grad_norm": 1.9459190368652344, "learning_rate": 0.0018030910168336557, "loss": 4.631, "step": 395 }, { "epoch": 4.277333333333333, "grad_norm": 1.5279489755630493, "learning_rate": 0.0017955703867508633, "loss": 4.5583, "step": 400 }, { "epoch": 4.330666666666667, "grad_norm": 1.3347927331924438, "learning_rate": 0.0017879251259084804, "loss": 4.7295, "step": 405 }, { "epoch": 4.384, "grad_norm": 2.52054500579834, "learning_rate": 0.0017801564319813853, "loss": 4.4718, "step": 410 }, { "epoch": 4.437333333333333, "grad_norm": 1.1874818801879883, "learning_rate": 0.0017722655219809715, "loss": 4.5063, "step": 415 }, { "epoch": 4.490666666666667, "grad_norm": 1.491890788078308, "learning_rate": 0.0017642536320644964, "loss": 4.3769, "step": 420 }, { "epoch": 4.5440000000000005, "grad_norm": 1.1082266569137573, "learning_rate": 0.0017561220173414297, "loss": 4.3971, "step": 425 }, { "epoch": 4.597333333333333, "grad_norm": 0.9449096918106079, "learning_rate": 0.0017478719516768322, "loss": 4.443, "step": 430 }, { "epoch": 4.650666666666667, "grad_norm": 1.4695461988449097, "learning_rate": 0.0017395047274917994, "loss": 4.3679, "step": 435 }, { "epoch": 4.704, "grad_norm": 2.962554693222046, "learning_rate": 0.001731021655560995, "loss": 4.2775, "step": 440 }, { "epoch": 4.757333333333333, "grad_norm": 0.9070279598236084, "learning_rate": 0.0017224240648073094, "loss": 4.5664, "step": 445 }, { "epoch": 4.810666666666666, "grad_norm": 1.7772026062011719, "learning_rate": 0.0017137133020936782, "loss": 4.4455, "step": 450 }, { "epoch": 4.864, "grad_norm": 2.937232255935669, "learning_rate": 0.0017048907320120865, "loss": 4.4177, "step": 455 }, { "epoch": 4.917333333333334, "grad_norm": 6.296092510223389, "learning_rate": 0.0016959577366697988, "loss": 4.5929, "step": 460 }, { "epoch": 4.970666666666666, "grad_norm": 22.26595687866211, "learning_rate": 0.0016869157154728437, "loss": 4.5319, "step": 465 }, { "epoch": 4.992, "eval_loss": 4.809427738189697, "eval_runtime": 12.4879, "eval_samples_per_second": 90.087, "eval_steps_per_second": 15.055, "step": 467 }, { "epoch": 5.026666666666666, "grad_norm": 6.585814476013184, "learning_rate": 0.001677766084906787, "loss": 5.1022, "step": 470 }, { "epoch": 5.08, "grad_norm": 5.868590831756592, "learning_rate": 0.001668510278314833, "loss": 4.5102, "step": 475 }, { "epoch": 5.133333333333334, "grad_norm": 4.387262344360352, "learning_rate": 0.0016591497456732824, "loss": 4.6548, "step": 480 }, { "epoch": 5.1866666666666665, "grad_norm": 9.387950897216797, "learning_rate": 0.0016496859533643852, "loss": 4.6778, "step": 485 }, { "epoch": 5.24, "grad_norm": 51.944549560546875, "learning_rate": 0.0016401203839466211, "loss": 5.041, "step": 490 }, { "epoch": 5.293333333333333, "grad_norm": 14.20453929901123, "learning_rate": 0.0016304545359224522, "loss": 5.2576, "step": 495 }, { "epoch": 5.346666666666667, "grad_norm": 3.1657214164733887, "learning_rate": 0.00162068992350357, "loss": 5.1287, "step": 500 }, { "epoch": 5.4, "grad_norm": 4.8425726890563965, "learning_rate": 0.001610828076373687, "loss": 4.9648, "step": 505 }, { "epoch": 5.453333333333333, "grad_norm": 1.9821243286132812, "learning_rate": 0.0016008705394489032, "loss": 4.9847, "step": 510 }, { "epoch": 5.506666666666667, "grad_norm": 6.5806379318237305, "learning_rate": 0.0015908188726356843, "loss": 4.9543, "step": 515 }, { "epoch": 5.5600000000000005, "grad_norm": 18.127779006958008, "learning_rate": 0.0015806746505864946, "loss": 4.9112, "step": 520 }, { "epoch": 5.613333333333333, "grad_norm": 12.010746955871582, "learning_rate": 0.0015704394624531184, "loss": 4.9836, "step": 525 }, { "epoch": 5.666666666666667, "grad_norm": 46.7609977722168, "learning_rate": 0.0015601149116377094, "loss": 4.8966, "step": 530 }, { "epoch": 5.72, "grad_norm": 117.95108795166016, "learning_rate": 0.0015497026155416088, "loss": 4.8016, "step": 535 }, { "epoch": 5.773333333333333, "grad_norm": 41.65292739868164, "learning_rate": 0.0015392042053119699, "loss": 5.1113, "step": 540 }, { "epoch": 5.826666666666666, "grad_norm": 26.858564376831055, "learning_rate": 0.0015286213255862294, "loss": 4.9389, "step": 545 }, { "epoch": 5.88, "grad_norm": 8.647442817687988, "learning_rate": 0.0015179556342344643, "loss": 4.9543, "step": 550 }, { "epoch": 5.933333333333334, "grad_norm": 3.5178844928741455, "learning_rate": 0.0015072088020996791, "loss": 5.1129, "step": 555 }, { "epoch": 5.986666666666666, "grad_norm": 2.328364849090576, "learning_rate": 0.001496382512736056, "loss": 4.8257, "step": 560 }, { "epoch": 5.997333333333334, "eval_loss": 5.105650901794434, "eval_runtime": 12.5011, "eval_samples_per_second": 89.992, "eval_steps_per_second": 15.039, "step": 561 }, { "epoch": 6.042666666666666, "grad_norm": 2.6246631145477295, "learning_rate": 0.0014854784621452176, "loss": 5.4436, "step": 565 }, { "epoch": 6.096, "grad_norm": 1.641006588935852, "learning_rate": 0.0014744983585105386, "loss": 4.721, "step": 570 }, { "epoch": 6.149333333333334, "grad_norm": 2.2615890502929688, "learning_rate": 0.001463443921929548, "loss": 4.6645, "step": 575 }, { "epoch": 6.2026666666666666, "grad_norm": 2.4459476470947266, "learning_rate": 0.0014523168841444657, "loss": 4.6295, "step": 580 }, { "epoch": 6.256, "grad_norm": 27.94793128967285, "learning_rate": 0.001441118988270916, "loss": 4.6528, "step": 585 }, { "epoch": 6.309333333333333, "grad_norm": 5.710525035858154, "learning_rate": 0.0014298519885248572, "loss": 4.549, "step": 590 }, { "epoch": 6.362666666666667, "grad_norm": 4.791785717010498, "learning_rate": 0.0014185176499477742, "loss": 4.5602, "step": 595 }, { "epoch": 6.416, "grad_norm": 2.0223538875579834, "learning_rate": 0.0014071177481301737, "loss": 4.5802, "step": 600 }, { "epoch": 6.469333333333333, "grad_norm": 1.6422585248947144, "learning_rate": 0.0013956540689334285, "loss": 4.4584, "step": 605 }, { "epoch": 6.522666666666667, "grad_norm": 8.107535362243652, "learning_rate": 0.001384128408210011, "loss": 4.5343, "step": 610 }, { "epoch": 6.576, "grad_norm": 2.697594404220581, "learning_rate": 0.0013725425715221625, "loss": 4.6172, "step": 615 }, { "epoch": 6.629333333333333, "grad_norm": 1.561109185218811, "learning_rate": 0.0013608983738590413, "loss": 4.4385, "step": 620 }, { "epoch": 6.682666666666667, "grad_norm": 2.0785770416259766, "learning_rate": 0.0013491976393523951, "loss": 4.4098, "step": 625 }, { "epoch": 6.736, "grad_norm": 5.022526264190674, "learning_rate": 0.0013374422009907983, "loss": 4.3741, "step": 630 }, { "epoch": 6.789333333333333, "grad_norm": 1.8558008670806885, "learning_rate": 0.0013256339003325053, "loss": 4.325, "step": 635 }, { "epoch": 6.842666666666666, "grad_norm": 1.2337331771850586, "learning_rate": 0.0013137745872169578, "loss": 4.3192, "step": 640 }, { "epoch": 6.896, "grad_norm": 1.0328541994094849, "learning_rate": 0.0013018661194749985, "loss": 4.3117, "step": 645 }, { "epoch": 6.949333333333334, "grad_norm": 6.057741641998291, "learning_rate": 0.00128991036263783, "loss": 4.2177, "step": 650 }, { "epoch": 6.992, "eval_loss": 4.5589494705200195, "eval_runtime": 12.5045, "eval_samples_per_second": 89.968, "eval_steps_per_second": 15.035, "step": 654 }, { "epoch": 7.005333333333334, "grad_norm": 10.887760162353516, "learning_rate": 0.001277909189644768, "loss": 4.7952, "step": 655 }, { "epoch": 7.058666666666666, "grad_norm": 3.197256565093994, "learning_rate": 0.001265864480549836, "loss": 4.166, "step": 660 }, { "epoch": 7.112, "grad_norm": 3.441707134246826, "learning_rate": 0.001253778122227242, "loss": 4.2237, "step": 665 }, { "epoch": 7.165333333333333, "grad_norm": 1.8096449375152588, "learning_rate": 0.0012416520080757892, "loss": 4.0627, "step": 670 }, { "epoch": 7.218666666666667, "grad_norm": 1.5362603664398193, "learning_rate": 0.0012294880377222647, "loss": 4.1205, "step": 675 }, { "epoch": 7.272, "grad_norm": 2.7223100662231445, "learning_rate": 0.0012172881167238515, "loss": 4.1721, "step": 680 }, { "epoch": 7.325333333333333, "grad_norm": 1.2539554834365845, "learning_rate": 0.0012050541562696109, "loss": 4.159, "step": 685 }, { "epoch": 7.378666666666667, "grad_norm": 3.9169719219207764, "learning_rate": 0.001192788072881085, "loss": 4.207, "step": 690 }, { "epoch": 7.432, "grad_norm": 2.505176544189453, "learning_rate": 0.0011804917881120607, "loss": 3.9257, "step": 695 }, { "epoch": 7.485333333333333, "grad_norm": 1.2009811401367188, "learning_rate": 0.0011681672282475495, "loss": 4.0998, "step": 700 }, { "epoch": 7.538666666666667, "grad_norm": 1.2483587265014648, "learning_rate": 0.0011558163240020208, "loss": 4.0612, "step": 705 }, { "epoch": 7.592, "grad_norm": 1.8018878698349, "learning_rate": 0.001143441010216946, "loss": 4.1208, "step": 710 }, { "epoch": 7.645333333333333, "grad_norm": 1.5484060049057007, "learning_rate": 0.0011310432255576942, "loss": 4.0344, "step": 715 }, { "epoch": 7.698666666666667, "grad_norm": 2.459238290786743, "learning_rate": 0.0011186249122098282, "loss": 4.0085, "step": 720 }, { "epoch": 7.752, "grad_norm": 2.3227972984313965, "learning_rate": 0.0011061880155748497, "loss": 4.0162, "step": 725 }, { "epoch": 7.8053333333333335, "grad_norm": 4.121925354003906, "learning_rate": 0.0010937344839654416, "loss": 4.1103, "step": 730 }, { "epoch": 7.858666666666666, "grad_norm": 2.338094711303711, "learning_rate": 0.0010812662683002527, "loss": 4.1566, "step": 735 }, { "epoch": 7.912, "grad_norm": 1.8548033237457275, "learning_rate": 0.001068785321798276, "loss": 4.0535, "step": 740 }, { "epoch": 7.965333333333334, "grad_norm": 1.4415037631988525, "learning_rate": 0.0010562935996728628, "loss": 4.0313, "step": 745 }, { "epoch": 7.997333333333334, "eval_loss": 4.3429412841796875, "eval_runtime": 12.4844, "eval_samples_per_second": 90.112, "eval_steps_per_second": 15.059, "step": 748 }, { "epoch": 8.021333333333333, "grad_norm": 1.2015221118927002, "learning_rate": 0.001043793058825431, "loss": 4.3842, "step": 750 }, { "epoch": 8.074666666666667, "grad_norm": 2.2034997940063477, "learning_rate": 0.0010312856575389016, "loss": 3.8739, "step": 755 }, { "epoch": 8.128, "grad_norm": 1.0531103610992432, "learning_rate": 0.0010187733551709234, "loss": 3.9207, "step": 760 }, { "epoch": 8.181333333333333, "grad_norm": 1.6261956691741943, "learning_rate": 0.0010062581118469298, "loss": 3.9147, "step": 765 }, { "epoch": 8.234666666666667, "grad_norm": 4.931313991546631, "learning_rate": 0.0009937418881530702, "loss": 3.9194, "step": 770 }, { "epoch": 8.288, "grad_norm": 1.1570011377334595, "learning_rate": 0.0009812266448290766, "loss": 3.8607, "step": 775 }, { "epoch": 8.341333333333333, "grad_norm": 2.3009421825408936, "learning_rate": 0.0009687143424610986, "loss": 3.8516, "step": 780 }, { "epoch": 8.394666666666666, "grad_norm": 1.5181440114974976, "learning_rate": 0.0009562069411745691, "loss": 3.8939, "step": 785 }, { "epoch": 8.448, "grad_norm": 1.7607407569885254, "learning_rate": 0.0009437064003271373, "loss": 3.9431, "step": 790 }, { "epoch": 8.501333333333333, "grad_norm": 1.155339241027832, "learning_rate": 0.0009312146782017244, "loss": 3.8956, "step": 795 }, { "epoch": 8.554666666666666, "grad_norm": 0.9878433346748352, "learning_rate": 0.0009187337316997475, "loss": 3.8884, "step": 800 }, { "epoch": 8.608, "grad_norm": 0.9723697304725647, "learning_rate": 0.0009062655160345587, "loss": 3.714, "step": 805 }, { "epoch": 8.661333333333333, "grad_norm": 6.659087181091309, "learning_rate": 0.0008938119844251507, "loss": 3.8302, "step": 810 }, { "epoch": 8.714666666666666, "grad_norm": 1.3487255573272705, "learning_rate": 0.0008813750877901723, "loss": 3.9658, "step": 815 }, { "epoch": 8.768, "grad_norm": 1.3927958011627197, "learning_rate": 0.0008689567744423059, "loss": 3.8516, "step": 820 }, { "epoch": 8.821333333333333, "grad_norm": 0.8693830370903015, "learning_rate": 0.0008565589897830542, "loss": 3.8388, "step": 825 }, { "epoch": 8.874666666666666, "grad_norm": 1.2397363185882568, "learning_rate": 0.0008441836759979795, "loss": 3.7521, "step": 830 }, { "epoch": 8.928, "grad_norm": 1.1434884071350098, "learning_rate": 0.0008318327717524509, "loss": 3.7411, "step": 835 }, { "epoch": 8.981333333333334, "grad_norm": 0.8602774143218994, "learning_rate": 0.0008195082118879396, "loss": 3.7408, "step": 840 }, { "epoch": 8.992, "eval_loss": 4.147874355316162, "eval_runtime": 12.5024, "eval_samples_per_second": 89.983, "eval_steps_per_second": 15.037, "step": 841 }, { "epoch": 9.037333333333333, "grad_norm": 1.2394230365753174, "learning_rate": 0.0008072119271189156, "loss": 4.0861, "step": 845 }, { "epoch": 9.090666666666667, "grad_norm": 0.9018468260765076, "learning_rate": 0.0007949458437303892, "loss": 3.6608, "step": 850 }, { "epoch": 9.144, "grad_norm": 2.0389747619628906, "learning_rate": 0.0007827118832761486, "loss": 3.6369, "step": 855 }, { "epoch": 9.197333333333333, "grad_norm": 1.0341744422912598, "learning_rate": 0.0007705119622777351, "loss": 3.6354, "step": 860 }, { "epoch": 9.250666666666667, "grad_norm": 0.8617631196975708, "learning_rate": 0.0007583479919242108, "loss": 3.6106, "step": 865 }, { "epoch": 9.304, "grad_norm": 0.719153642654419, "learning_rate": 0.000746221877772758, "loss": 3.7636, "step": 870 }, { "epoch": 9.357333333333333, "grad_norm": 3.26902437210083, "learning_rate": 0.0007341355194501638, "loss": 3.6817, "step": 875 }, { "epoch": 9.410666666666666, "grad_norm": 0.9911563396453857, "learning_rate": 0.0007220908103552318, "loss": 3.7094, "step": 880 }, { "epoch": 9.464, "grad_norm": 0.8281224370002747, "learning_rate": 0.0007100896373621699, "loss": 3.6431, "step": 885 }, { "epoch": 9.517333333333333, "grad_norm": 0.8220219612121582, "learning_rate": 0.0006981338805250015, "loss": 3.6953, "step": 890 }, { "epoch": 9.570666666666666, "grad_norm": 0.8096312284469604, "learning_rate": 0.0006862254127830425, "loss": 3.5947, "step": 895 }, { "epoch": 9.624, "grad_norm": 0.998589813709259, "learning_rate": 0.000674366099667495, "loss": 3.6492, "step": 900 }, { "epoch": 9.677333333333333, "grad_norm": 1.0131206512451172, "learning_rate": 0.0006625577990092018, "loss": 3.638, "step": 905 }, { "epoch": 9.730666666666666, "grad_norm": 0.6822465062141418, "learning_rate": 0.0006508023606476051, "loss": 3.626, "step": 910 }, { "epoch": 9.784, "grad_norm": 0.7446674704551697, "learning_rate": 0.0006391016261409591, "loss": 3.6361, "step": 915 }, { "epoch": 9.837333333333333, "grad_norm": 1.5426651239395142, "learning_rate": 0.0006274574284778378, "loss": 3.6579, "step": 920 }, { "epoch": 9.890666666666666, "grad_norm": 1.0557122230529785, "learning_rate": 0.0006158715917899892, "loss": 3.5978, "step": 925 }, { "epoch": 9.943999999999999, "grad_norm": 1.271697759628296, "learning_rate": 0.0006043459310665716, "loss": 3.5695, "step": 930 }, { "epoch": 9.997333333333334, "grad_norm": 1.3581335544586182, "learning_rate": 0.0005928822518698263, "loss": 4.0306, "step": 935 }, { "epoch": 9.997333333333334, "eval_loss": 4.033357620239258, "eval_runtime": 12.5191, "eval_samples_per_second": 89.863, "eval_steps_per_second": 15.017, "step": 935 }, { "epoch": 10.053333333333333, "grad_norm": 1.4836759567260742, "learning_rate": 0.000581482350052226, "loss": 3.5213, "step": 940 }, { "epoch": 10.106666666666667, "grad_norm": 0.8610721230506897, "learning_rate": 0.0005701480114751431, "loss": 3.4489, "step": 945 }, { "epoch": 10.16, "grad_norm": 1.1154193878173828, "learning_rate": 0.0005588810117290842, "loss": 3.4965, "step": 950 }, { "epoch": 10.213333333333333, "grad_norm": 0.9979135990142822, "learning_rate": 0.0005476831158555345, "loss": 3.5145, "step": 955 }, { "epoch": 10.266666666666667, "grad_norm": 18.88866424560547, "learning_rate": 0.0005365560780704523, "loss": 3.4903, "step": 960 }, { "epoch": 10.32, "grad_norm": 1.4323471784591675, "learning_rate": 0.0005255016414894615, "loss": 3.5408, "step": 965 }, { "epoch": 10.373333333333333, "grad_norm": 3.502009868621826, "learning_rate": 0.0005145215378547825, "loss": 3.5039, "step": 970 }, { "epoch": 10.426666666666666, "grad_norm": 4.632591247558594, "learning_rate": 0.0005036174872639443, "loss": 3.5314, "step": 975 }, { "epoch": 10.48, "grad_norm": 1.0967168807983398, "learning_rate": 0.0004927911979003214, "loss": 3.5151, "step": 980 }, { "epoch": 10.533333333333333, "grad_norm": 0.8381322622299194, "learning_rate": 0.000482044365765536, "loss": 3.4655, "step": 985 }, { "epoch": 10.586666666666666, "grad_norm": 0.9333806037902832, "learning_rate": 0.0004713786744137709, "loss": 3.4428, "step": 990 }, { "epoch": 10.64, "grad_norm": 1.3139746189117432, "learning_rate": 0.00046079579468803045, "loss": 3.4655, "step": 995 }, { "epoch": 10.693333333333333, "grad_norm": 13.540165901184082, "learning_rate": 0.0004502973844583914, "loss": 3.4847, "step": 1000 }, { "epoch": 10.746666666666666, "grad_norm": 0.730549156665802, "learning_rate": 0.00043988508836229046, "loss": 3.5064, "step": 1005 }, { "epoch": 10.8, "grad_norm": 1.1248104572296143, "learning_rate": 0.00042956053754688174, "loss": 3.4264, "step": 1010 }, { "epoch": 10.853333333333333, "grad_norm": 2.549948215484619, "learning_rate": 0.0004193253494135054, "loss": 3.4826, "step": 1015 }, { "epoch": 10.906666666666666, "grad_norm": 2.570146083831787, "learning_rate": 0.00040918112736431565, "loss": 3.5088, "step": 1020 }, { "epoch": 10.96, "grad_norm": 0.9071534276008606, "learning_rate": 0.0003991294605510969, "loss": 3.4673, "step": 1025 }, { "epoch": 10.992, "eval_loss": 3.9098801612854004, "eval_runtime": 12.4879, "eval_samples_per_second": 90.087, "eval_steps_per_second": 15.055, "step": 1028 }, { "epoch": 11.016, "grad_norm": 0.7501585483551025, "learning_rate": 0.0003891719236263128, "loss": 3.7099, "step": 1030 }, { "epoch": 11.069333333333333, "grad_norm": 0.7575392723083496, "learning_rate": 0.0003793100764964299, "loss": 3.3254, "step": 1035 }, { "epoch": 11.122666666666667, "grad_norm": 1.5098010301589966, "learning_rate": 0.00036954546407754797, "loss": 3.3361, "step": 1040 }, { "epoch": 11.176, "grad_norm": 0.652353048324585, "learning_rate": 0.00035987961605337895, "loss": 3.3419, "step": 1045 }, { "epoch": 11.229333333333333, "grad_norm": 1.4576791524887085, "learning_rate": 0.0003503140466356151, "loss": 3.4373, "step": 1050 }, { "epoch": 11.282666666666668, "grad_norm": 0.8805112242698669, "learning_rate": 0.0003408502543267175, "loss": 3.361, "step": 1055 }, { "epoch": 11.336, "grad_norm": 2.8293251991271973, "learning_rate": 0.0003314897216851673, "loss": 3.3537, "step": 1060 }, { "epoch": 11.389333333333333, "grad_norm": 1.0685662031173706, "learning_rate": 0.00032223391509321334, "loss": 3.295, "step": 1065 }, { "epoch": 11.442666666666666, "grad_norm": 0.5625657439231873, "learning_rate": 0.00031308428452715643, "loss": 3.3364, "step": 1070 }, { "epoch": 11.496, "grad_norm": 0.8257743120193481, "learning_rate": 0.00030404226333020115, "loss": 3.2609, "step": 1075 }, { "epoch": 11.549333333333333, "grad_norm": 1.0789713859558105, "learning_rate": 0.0002951092679879136, "loss": 3.3134, "step": 1080 }, { "epoch": 11.602666666666666, "grad_norm": 1.148529052734375, "learning_rate": 0.0002862866979063219, "loss": 3.2776, "step": 1085 }, { "epoch": 11.656, "grad_norm": 3.4152815341949463, "learning_rate": 0.0002775759351926909, "loss": 3.2817, "step": 1090 }, { "epoch": 11.709333333333333, "grad_norm": 5.510611057281494, "learning_rate": 0.00026897834443900527, "loss": 3.4051, "step": 1095 }, { "epoch": 11.762666666666666, "grad_norm": 3.2792694568634033, "learning_rate": 0.0002604952725082005, "loss": 3.3752, "step": 1100 }, { "epoch": 11.816, "grad_norm": 0.8379424214363098, "learning_rate": 0.00025212804832316785, "loss": 3.3568, "step": 1105 }, { "epoch": 11.869333333333334, "grad_norm": 1.0004689693450928, "learning_rate": 0.00024387798265857076, "loss": 3.2548, "step": 1110 }, { "epoch": 11.922666666666666, "grad_norm": 1.1289111375808716, "learning_rate": 0.00023574636793550374, "loss": 3.2763, "step": 1115 }, { "epoch": 11.975999999999999, "grad_norm": 0.7427679300308228, "learning_rate": 0.00022773447801902857, "loss": 3.3279, "step": 1120 }, { "epoch": 11.997333333333334, "eval_loss": 3.8246541023254395, "eval_runtime": 12.4686, "eval_samples_per_second": 90.226, "eval_steps_per_second": 15.078, "step": 1122 }, { "epoch": 12.032, "grad_norm": 0.7016487717628479, "learning_rate": 0.00021984356801861506, "loss": 3.545, "step": 1125 }, { "epoch": 12.085333333333333, "grad_norm": 1.0700368881225586, "learning_rate": 0.00021207487409151982, "loss": 3.213, "step": 1130 }, { "epoch": 12.138666666666667, "grad_norm": 0.548744261264801, "learning_rate": 0.0002044296132491369, "loss": 3.1303, "step": 1135 }, { "epoch": 12.192, "grad_norm": 0.5944454669952393, "learning_rate": 0.00019690898316634432, "loss": 3.2735, "step": 1140 }, { "epoch": 12.245333333333333, "grad_norm": 0.559898853302002, "learning_rate": 0.0001895141619938825, "loss": 3.221, "step": 1145 }, { "epoch": 12.298666666666668, "grad_norm": 0.5505184531211853, "learning_rate": 0.00018224630817378828, "loss": 3.247, "step": 1150 }, { "epoch": 12.352, "grad_norm": 4.3635735511779785, "learning_rate": 0.00017510656025792004, "loss": 3.091, "step": 1155 }, { "epoch": 12.405333333333333, "grad_norm": 0.553667426109314, "learning_rate": 0.00016809603672959616, "loss": 3.2349, "step": 1160 }, { "epoch": 12.458666666666666, "grad_norm": 1.5174871683120728, "learning_rate": 0.00016121583582837774, "loss": 3.2065, "step": 1165 }, { "epoch": 12.512, "grad_norm": 0.7590833306312561, "learning_rate": 0.0001544670353780234, "loss": 3.1883, "step": 1170 }, { "epoch": 12.565333333333333, "grad_norm": 1.4404692649841309, "learning_rate": 0.00014785069261764183, "loss": 3.2056, "step": 1175 }, { "epoch": 12.618666666666666, "grad_norm": 0.6769624948501587, "learning_rate": 0.0001413678440360684, "loss": 3.2165, "step": 1180 }, { "epoch": 12.672, "grad_norm": 0.5693238377571106, "learning_rate": 0.00013501950520949436, "loss": 3.1955, "step": 1185 }, { "epoch": 12.725333333333333, "grad_norm": 0.9455315470695496, "learning_rate": 0.00012880667064237006, "loss": 3.2017, "step": 1190 }, { "epoch": 12.778666666666666, "grad_norm": 0.8543607592582703, "learning_rate": 0.00012273031361160957, "loss": 3.2268, "step": 1195 }, { "epoch": 12.832, "grad_norm": 1.906198501586914, "learning_rate": 0.00011679138601412254, "loss": 3.2457, "step": 1200 }, { "epoch": 12.885333333333334, "grad_norm": 0.5271804928779602, "learning_rate": 0.00011099081821769297, "loss": 3.2146, "step": 1205 }, { "epoch": 12.938666666666666, "grad_norm": 1.0702733993530273, "learning_rate": 0.00010532951891523124, "loss": 3.2083, "step": 1210 }, { "epoch": 12.992, "grad_norm": 2.5151164531707764, "learning_rate": 9.980837498242356e-05, "loss": 3.2354, "step": 1215 }, { "epoch": 12.992, "eval_loss": 3.785278558731079, "eval_runtime": 12.6277, "eval_samples_per_second": 89.09, "eval_steps_per_second": 14.888, "step": 1215 }, { "epoch": 13.048, "grad_norm": 1.2420941591262817, "learning_rate": 9.442825133879607e-05, "loss": 3.4289, "step": 1220 }, { "epoch": 13.101333333333333, "grad_norm": 0.4141329824924469, "learning_rate": 8.918999081222156e-05, "loss": 3.0674, "step": 1225 }, { "epoch": 13.154666666666667, "grad_norm": 0.6331799030303955, "learning_rate": 8.4094414006884e-05, "loss": 3.1639, "step": 1230 }, { "epoch": 13.208, "grad_norm": 0.558097779750824, "learning_rate": 7.914231917472747e-05, "loss": 3.1318, "step": 1235 }, { "epoch": 13.261333333333333, "grad_norm": 0.5015540719032288, "learning_rate": 7.433448209040495e-05, "loss": 3.1447, "step": 1240 }, { "epoch": 13.314666666666668, "grad_norm": 3.2629053592681885, "learning_rate": 6.967165592974789e-05, "loss": 3.1929, "step": 1245 }, { "epoch": 13.368, "grad_norm": 0.35517868399620056, "learning_rate": 6.515457115177803e-05, "loss": 3.1434, "step": 1250 }, { "epoch": 13.421333333333333, "grad_norm": 2.8700928688049316, "learning_rate": 6.0783935384275736e-05, "loss": 3.1381, "step": 1255 }, { "epoch": 13.474666666666666, "grad_norm": 1.7031766176223755, "learning_rate": 5.656043331292682e-05, "loss": 3.1343, "step": 1260 }, { "epoch": 13.528, "grad_norm": 0.6974568963050842, "learning_rate": 5.2484726574061225e-05, "loss": 3.154, "step": 1265 }, { "epoch": 13.581333333333333, "grad_norm": 0.656442403793335, "learning_rate": 4.855745365100539e-05, "loss": 3.0817, "step": 1270 }, { "epoch": 13.634666666666666, "grad_norm": 0.7731483578681946, "learning_rate": 4.477922977405913e-05, "loss": 3.1515, "step": 1275 }, { "epoch": 13.688, "grad_norm": 0.6341891884803772, "learning_rate": 4.115064682411607e-05, "loss": 3.1462, "step": 1280 }, { "epoch": 13.741333333333333, "grad_norm": 0.5872439742088318, "learning_rate": 3.7672273239942934e-05, "loss": 3.1376, "step": 1285 }, { "epoch": 13.794666666666666, "grad_norm": 0.6876071691513062, "learning_rate": 3.434465392912956e-05, "loss": 3.1342, "step": 1290 }, { "epoch": 13.848, "grad_norm": 0.5463366508483887, "learning_rate": 3.1168310182725815e-05, "loss": 3.1465, "step": 1295 }, { "epoch": 13.901333333333334, "grad_norm": 0.49031180143356323, "learning_rate": 2.8143739593578856e-05, "loss": 3.0675, "step": 1300 }, { "epoch": 13.954666666666666, "grad_norm": 0.5363944172859192, "learning_rate": 2.5271415978382117e-05, "loss": 3.0656, "step": 1305 }, { "epoch": 13.997333333333334, "eval_loss": 3.7691831588745117, "eval_runtime": 12.4823, "eval_samples_per_second": 90.128, "eval_steps_per_second": 15.061, "step": 1309 }, { "epoch": 14.010666666666667, "grad_norm": 0.5036697387695312, "learning_rate": 2.255178930344903e-05, "loss": 3.4255, "step": 1310 }, { "epoch": 14.064, "grad_norm": 0.6493708491325378, "learning_rate": 1.998528561422297e-05, "loss": 3.0921, "step": 1315 }, { "epoch": 14.117333333333333, "grad_norm": 0.5409650206565857, "learning_rate": 1.757230696853518e-05, "loss": 3.074, "step": 1320 }, { "epoch": 14.170666666666667, "grad_norm": 0.7467535734176636, "learning_rate": 1.531323137361995e-05, "loss": 3.0659, "step": 1325 }, { "epoch": 14.224, "grad_norm": 1.0386552810668945, "learning_rate": 1.3208412726897322e-05, "loss": 3.1497, "step": 1330 }, { "epoch": 14.277333333333333, "grad_norm": 0.49301984906196594, "learning_rate": 1.1258180760533088e-05, "loss": 3.0785, "step": 1335 }, { "epoch": 14.330666666666666, "grad_norm": 1.8429055213928223, "learning_rate": 9.462840989784672e-06, "loss": 3.0583, "step": 1340 }, { "epoch": 14.384, "grad_norm": 1.5353028774261475, "learning_rate": 7.822674665139752e-06, "loss": 3.0546, "step": 1345 }, { "epoch": 14.437333333333333, "grad_norm": 0.3447898328304291, "learning_rate": 6.337938728257053e-06, "loss": 3.0634, "step": 1350 }, { "epoch": 14.490666666666666, "grad_norm": 0.923072874546051, "learning_rate": 5.008865771715221e-06, "loss": 3.1333, "step": 1355 }, { "epoch": 14.544, "grad_norm": 0.5001369714736938, "learning_rate": 3.8356640025752896e-06, "loss": 3.0982, "step": 1360 }, { "epoch": 14.597333333333333, "grad_norm": 0.559633195400238, "learning_rate": 2.8185172097641155e-06, "loss": 3.0525, "step": 1365 }, { "epoch": 14.650666666666666, "grad_norm": 0.49595069885253906, "learning_rate": 1.957584735282847e-06, "loss": 3.1459, "step": 1370 }, { "epoch": 14.704, "grad_norm": 0.6536312103271484, "learning_rate": 1.2530014492446729e-06, "loss": 3.1156, "step": 1375 }, { "epoch": 14.757333333333333, "grad_norm": 0.38376209139823914, "learning_rate": 7.048777287472774e-07, "loss": 3.0831, "step": 1380 }, { "epoch": 14.810666666666666, "grad_norm": 0.5727828741073608, "learning_rate": 3.132994405808942e-07, "loss": 3.0888, "step": 1385 }, { "epoch": 14.864, "grad_norm": 0.45092472434043884, "learning_rate": 7.832792777739961e-08, "loss": 3.1226, "step": 1390 }, { "epoch": 14.917333333333334, "grad_norm": 0.4628413915634155, "learning_rate": 0.0, "loss": 3.0981, "step": 1395 }, { "epoch": 14.917333333333334, "eval_loss": 3.767644166946411, "eval_runtime": 12.5131, "eval_samples_per_second": 89.906, "eval_steps_per_second": 15.024, "step": 1395 }, { "epoch": 14.917333333333334, "step": 1395, "total_flos": 6.545011747156132e+17, "train_loss": 4.23463837784251, "train_runtime": 3346.972, "train_samples_per_second": 20.159, "train_steps_per_second": 0.417 } ], "logging_steps": 5, "max_steps": 1395, "num_input_tokens_seen": 0, "num_train_epochs": 15, "save_steps": 500, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": false, "should_training_stop": false }, "attributes": {} } }, "total_flos": 6.545011747156132e+17, "train_batch_size": 4, "trial_name": null, "trial_params": null }