{ "best_global_step": 1200, "best_metric": 0.14440582692623138, "best_model_checkpoint": "./outputs/checkpoint-1200", "epoch": 0.9962640099626401, "eval_steps": 200, "global_step": 1200, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.004151100041511001, "grad_norm": 0.7003103494644165, "learning_rate": 0.00016, "loss": 0.7739, "step": 5 }, { "epoch": 0.008302200083022002, "grad_norm": 0.2718559503555298, "learning_rate": 0.00019933333333333334, "loss": 0.4629, "step": 10 }, { "epoch": 0.008302200083022002, "eval_loss": 0.38488370180130005, "eval_runtime": 191.3755, "eval_samples_per_second": 4.703, "eval_steps_per_second": 2.351, "step": 10 }, { "epoch": 0.012453300124533, "grad_norm": 0.14381290972232819, "learning_rate": 0.00019850000000000003, "loss": 0.3145, "step": 15 }, { "epoch": 0.016604400166044003, "grad_norm": 0.19169217348098755, "learning_rate": 0.00019766666666666666, "loss": 0.2939, "step": 20 }, { "epoch": 0.020755500207555, "grad_norm": 0.14952002465724945, "learning_rate": 0.00019683333333333334, "loss": 0.2497, "step": 25 }, { "epoch": 0.024906600249066, "grad_norm": 0.14751273393630981, "learning_rate": 0.000196, "loss": 0.232, "step": 30 }, { "epoch": 0.029057700290577002, "grad_norm": 0.14557640254497528, "learning_rate": 0.00019516666666666668, "loss": 0.2456, "step": 35 }, { "epoch": 0.033208800332088007, "grad_norm": 0.13989262282848358, "learning_rate": 0.00019433333333333333, "loss": 0.2252, "step": 40 }, { "epoch": 0.037359900373599, "grad_norm": 0.15823808312416077, "learning_rate": 0.00019350000000000001, "loss": 0.2263, "step": 45 }, { "epoch": 0.04151100041511, "grad_norm": 0.14398093521595, "learning_rate": 0.0001926666666666667, "loss": 0.2162, "step": 50 }, { "epoch": 0.045662100456621, "grad_norm": 0.12337611615657806, "learning_rate": 0.00019183333333333333, "loss": 0.2065, "step": 55 }, { "epoch": 0.049813200498132, "grad_norm": 0.1576000601053238, "learning_rate": 0.000191, "loss": 0.2067, "step": 60 }, { "epoch": 0.053964300539643004, "grad_norm": 0.13802748918533325, "learning_rate": 0.00019016666666666666, "loss": 0.2055, "step": 65 }, { "epoch": 0.058115400581154004, "grad_norm": 0.12468370050191879, "learning_rate": 0.00018933333333333335, "loss": 0.1899, "step": 70 }, { "epoch": 0.062266500622665005, "grad_norm": 0.13926441967487335, "learning_rate": 0.0001885, "loss": 0.2005, "step": 75 }, { "epoch": 0.06641760066417601, "grad_norm": 0.12755008041858673, "learning_rate": 0.00018766666666666668, "loss": 0.1843, "step": 80 }, { "epoch": 0.070568700705687, "grad_norm": 0.11908452957868576, "learning_rate": 0.00018683333333333334, "loss": 0.195, "step": 85 }, { "epoch": 0.074719800747198, "grad_norm": 0.10701552778482437, "learning_rate": 0.00018600000000000002, "loss": 0.1864, "step": 90 }, { "epoch": 0.07887090078870901, "grad_norm": 0.12250486761331558, "learning_rate": 0.00018516666666666668, "loss": 0.1953, "step": 95 }, { "epoch": 0.08302200083022, "grad_norm": 0.14064641296863556, "learning_rate": 0.00018433333333333333, "loss": 0.1809, "step": 100 }, { "epoch": 0.08717310087173101, "grad_norm": 0.12372340261936188, "learning_rate": 0.00018350000000000002, "loss": 0.178, "step": 105 }, { "epoch": 0.091324200913242, "grad_norm": 0.089394710958004, "learning_rate": 0.00018266666666666667, "loss": 0.1641, "step": 110 }, { "epoch": 0.09547530095475301, "grad_norm": 0.11845199763774872, "learning_rate": 0.00018183333333333335, "loss": 0.1914, "step": 115 }, { "epoch": 0.099626400996264, "grad_norm": 0.10505373775959015, "learning_rate": 0.000181, "loss": 0.2002, "step": 120 }, { "epoch": 0.10377750103777501, "grad_norm": 0.11983006447553635, "learning_rate": 0.0001801666666666667, "loss": 0.178, "step": 125 }, { "epoch": 0.10792860107928601, "grad_norm": 0.14301978051662445, "learning_rate": 0.00017933333333333332, "loss": 0.1838, "step": 130 }, { "epoch": 0.11207970112079702, "grad_norm": 0.11357705295085907, "learning_rate": 0.0001785, "loss": 0.1758, "step": 135 }, { "epoch": 0.11623080116230801, "grad_norm": 0.11982124298810959, "learning_rate": 0.00017766666666666666, "loss": 0.1838, "step": 140 }, { "epoch": 0.12038190120381902, "grad_norm": 0.10831739008426666, "learning_rate": 0.00017683333333333334, "loss": 0.1844, "step": 145 }, { "epoch": 0.12453300124533001, "grad_norm": 0.1307750791311264, "learning_rate": 0.00017600000000000002, "loss": 0.1682, "step": 150 }, { "epoch": 0.12868410128684102, "grad_norm": 0.11941725760698318, "learning_rate": 0.00017516666666666668, "loss": 0.1817, "step": 155 }, { "epoch": 0.13283520132835203, "grad_norm": 0.11858333647251129, "learning_rate": 0.00017433333333333336, "loss": 0.1755, "step": 160 }, { "epoch": 0.136986301369863, "grad_norm": 0.148487389087677, "learning_rate": 0.00017350000000000002, "loss": 0.1737, "step": 165 }, { "epoch": 0.141137401411374, "grad_norm": 0.09661240875720978, "learning_rate": 0.00017266666666666667, "loss": 0.1711, "step": 170 }, { "epoch": 0.14528850145288502, "grad_norm": 0.11982620507478714, "learning_rate": 0.00017183333333333333, "loss": 0.1761, "step": 175 }, { "epoch": 0.149439601494396, "grad_norm": 0.13303467631340027, "learning_rate": 0.000171, "loss": 0.1852, "step": 180 }, { "epoch": 0.153590701535907, "grad_norm": 0.17849081754684448, "learning_rate": 0.00017016666666666666, "loss": 0.175, "step": 185 }, { "epoch": 0.15774180157741802, "grad_norm": 0.1439221203327179, "learning_rate": 0.00016933333333333335, "loss": 0.1829, "step": 190 }, { "epoch": 0.16189290161892902, "grad_norm": 0.10196991264820099, "learning_rate": 0.0001685, "loss": 0.1806, "step": 195 }, { "epoch": 0.16604400166044, "grad_norm": 0.08456692099571228, "learning_rate": 0.00016766666666666669, "loss": 0.1654, "step": 200 }, { "epoch": 0.170195101701951, "grad_norm": 0.11249461770057678, "learning_rate": 0.00016683333333333334, "loss": 0.1742, "step": 205 }, { "epoch": 0.17434620174346202, "grad_norm": 0.13056688010692596, "learning_rate": 0.000166, "loss": 0.1638, "step": 210 }, { "epoch": 0.17849730178497303, "grad_norm": 0.11072465032339096, "learning_rate": 0.00016516666666666668, "loss": 0.174, "step": 215 }, { "epoch": 0.182648401826484, "grad_norm": 0.1256282925605774, "learning_rate": 0.00016433333333333333, "loss": 0.1787, "step": 220 }, { "epoch": 0.18679950186799502, "grad_norm": 0.11549237370491028, "learning_rate": 0.00016350000000000002, "loss": 0.158, "step": 225 }, { "epoch": 0.19095060190950602, "grad_norm": 0.1422484964132309, "learning_rate": 0.00016266666666666667, "loss": 0.1763, "step": 230 }, { "epoch": 0.19510170195101703, "grad_norm": 0.15041838586330414, "learning_rate": 0.00016183333333333335, "loss": 0.1724, "step": 235 }, { "epoch": 0.199252801992528, "grad_norm": 0.15117141604423523, "learning_rate": 0.000161, "loss": 0.1748, "step": 240 }, { "epoch": 0.20340390203403902, "grad_norm": 0.13535872101783752, "learning_rate": 0.00016016666666666667, "loss": 0.1639, "step": 245 }, { "epoch": 0.20755500207555003, "grad_norm": 0.11507098376750946, "learning_rate": 0.00015933333333333332, "loss": 0.1707, "step": 250 }, { "epoch": 0.21170610211706103, "grad_norm": 0.1293431520462036, "learning_rate": 0.0001585, "loss": 0.1549, "step": 255 }, { "epoch": 0.21585720215857201, "grad_norm": 0.11451301723718643, "learning_rate": 0.00015766666666666669, "loss": 0.169, "step": 260 }, { "epoch": 0.22000830220008302, "grad_norm": 0.12253163754940033, "learning_rate": 0.00015683333333333334, "loss": 0.1622, "step": 265 }, { "epoch": 0.22415940224159403, "grad_norm": 0.12956801056861877, "learning_rate": 0.00015600000000000002, "loss": 0.1682, "step": 270 }, { "epoch": 0.228310502283105, "grad_norm": 0.13183289766311646, "learning_rate": 0.00015516666666666668, "loss": 0.173, "step": 275 }, { "epoch": 0.23246160232461602, "grad_norm": 0.10935479402542114, "learning_rate": 0.00015433333333333334, "loss": 0.1655, "step": 280 }, { "epoch": 0.23661270236612703, "grad_norm": 0.12317913770675659, "learning_rate": 0.0001535, "loss": 0.1737, "step": 285 }, { "epoch": 0.24076380240763803, "grad_norm": 0.11220147460699081, "learning_rate": 0.00015266666666666667, "loss": 0.1629, "step": 290 }, { "epoch": 0.244914902449149, "grad_norm": 0.13465231657028198, "learning_rate": 0.00015183333333333333, "loss": 0.1662, "step": 295 }, { "epoch": 0.24906600249066002, "grad_norm": 0.11543688923120499, "learning_rate": 0.000151, "loss": 0.1696, "step": 300 }, { "epoch": 0.253217102532171, "grad_norm": 0.11491172760725021, "learning_rate": 0.00015016666666666667, "loss": 0.1658, "step": 305 }, { "epoch": 0.25736820257368204, "grad_norm": 0.12188146263360977, "learning_rate": 0.00014933333333333335, "loss": 0.1658, "step": 310 }, { "epoch": 0.261519302615193, "grad_norm": 0.12088894098997116, "learning_rate": 0.0001485, "loss": 0.1784, "step": 315 }, { "epoch": 0.26567040265670405, "grad_norm": 0.12337731570005417, "learning_rate": 0.00014766666666666666, "loss": 0.166, "step": 320 }, { "epoch": 0.26982150269821503, "grad_norm": 0.1168065220117569, "learning_rate": 0.00014683333333333334, "loss": 0.1673, "step": 325 }, { "epoch": 0.273972602739726, "grad_norm": 0.11037846654653549, "learning_rate": 0.000146, "loss": 0.1593, "step": 330 }, { "epoch": 0.27812370278123705, "grad_norm": 0.1385302096605301, "learning_rate": 0.00014516666666666668, "loss": 0.1711, "step": 335 }, { "epoch": 0.282274802822748, "grad_norm": 0.12126076221466064, "learning_rate": 0.00014433333333333334, "loss": 0.1672, "step": 340 }, { "epoch": 0.286425902864259, "grad_norm": 0.13003192842006683, "learning_rate": 0.00014350000000000002, "loss": 0.1856, "step": 345 }, { "epoch": 0.29057700290577004, "grad_norm": 0.11907174438238144, "learning_rate": 0.00014266666666666667, "loss": 0.1626, "step": 350 }, { "epoch": 0.294728102947281, "grad_norm": 0.1277119666337967, "learning_rate": 0.00014183333333333333, "loss": 0.1546, "step": 355 }, { "epoch": 0.298879202988792, "grad_norm": 0.09578083455562592, "learning_rate": 0.000141, "loss": 0.1581, "step": 360 }, { "epoch": 0.30303030303030304, "grad_norm": 0.14650468528270721, "learning_rate": 0.00014016666666666667, "loss": 0.155, "step": 365 }, { "epoch": 0.307181403071814, "grad_norm": 0.09313970804214478, "learning_rate": 0.00013933333333333335, "loss": 0.1538, "step": 370 }, { "epoch": 0.31133250311332505, "grad_norm": 0.12291823327541351, "learning_rate": 0.0001385, "loss": 0.1618, "step": 375 }, { "epoch": 0.31548360315483603, "grad_norm": 0.15737979114055634, "learning_rate": 0.0001376666666666667, "loss": 0.1489, "step": 380 }, { "epoch": 0.319634703196347, "grad_norm": 0.1407833844423294, "learning_rate": 0.00013683333333333334, "loss": 0.1667, "step": 385 }, { "epoch": 0.32378580323785805, "grad_norm": 0.11220885813236237, "learning_rate": 0.00013600000000000003, "loss": 0.1612, "step": 390 }, { "epoch": 0.32793690327936903, "grad_norm": 0.11603619903326035, "learning_rate": 0.00013516666666666665, "loss": 0.1512, "step": 395 }, { "epoch": 0.33208800332088, "grad_norm": 0.1272398978471756, "learning_rate": 0.00013433333333333334, "loss": 0.1698, "step": 400 }, { "epoch": 0.33623910336239105, "grad_norm": 0.09472394734621048, "learning_rate": 0.0001335, "loss": 0.1383, "step": 405 }, { "epoch": 0.340390203403902, "grad_norm": 0.14773984253406525, "learning_rate": 0.00013266666666666667, "loss": 0.1448, "step": 410 }, { "epoch": 0.34454130344541306, "grad_norm": 0.12423422932624817, "learning_rate": 0.00013183333333333333, "loss": 0.1592, "step": 415 }, { "epoch": 0.34869240348692404, "grad_norm": 0.09750059992074966, "learning_rate": 0.000131, "loss": 0.1547, "step": 420 }, { "epoch": 0.352843503528435, "grad_norm": 0.15196076035499573, "learning_rate": 0.00013016666666666667, "loss": 0.1454, "step": 425 }, { "epoch": 0.35699460356994606, "grad_norm": 0.13726986944675446, "learning_rate": 0.00012933333333333332, "loss": 0.1671, "step": 430 }, { "epoch": 0.36114570361145704, "grad_norm": 0.13060466945171356, "learning_rate": 0.0001285, "loss": 0.1547, "step": 435 }, { "epoch": 0.365296803652968, "grad_norm": 0.12362024933099747, "learning_rate": 0.00012766666666666666, "loss": 0.1616, "step": 440 }, { "epoch": 0.36944790369447905, "grad_norm": 0.1080276295542717, "learning_rate": 0.00012683333333333334, "loss": 0.1564, "step": 445 }, { "epoch": 0.37359900373599003, "grad_norm": 0.11262942105531693, "learning_rate": 0.000126, "loss": 0.1604, "step": 450 }, { "epoch": 0.377750103777501, "grad_norm": 0.13379591703414917, "learning_rate": 0.00012516666666666668, "loss": 0.157, "step": 455 }, { "epoch": 0.38190120381901205, "grad_norm": 0.12742692232131958, "learning_rate": 0.00012433333333333334, "loss": 0.1579, "step": 460 }, { "epoch": 0.386052303860523, "grad_norm": 0.10482796281576157, "learning_rate": 0.00012350000000000002, "loss": 0.1528, "step": 465 }, { "epoch": 0.39020340390203406, "grad_norm": 0.12541286647319794, "learning_rate": 0.00012266666666666668, "loss": 0.1498, "step": 470 }, { "epoch": 0.39435450394354504, "grad_norm": 0.15082834661006927, "learning_rate": 0.00012183333333333333, "loss": 0.1402, "step": 475 }, { "epoch": 0.398505603985056, "grad_norm": 0.11872395128011703, "learning_rate": 0.000121, "loss": 0.1613, "step": 480 }, { "epoch": 0.40265670402656706, "grad_norm": 0.12806229293346405, "learning_rate": 0.00012016666666666667, "loss": 0.1467, "step": 485 }, { "epoch": 0.40680780406807804, "grad_norm": 0.11704318970441818, "learning_rate": 0.00011933333333333334, "loss": 0.1536, "step": 490 }, { "epoch": 0.410958904109589, "grad_norm": 0.11440624296665192, "learning_rate": 0.00011850000000000001, "loss": 0.1488, "step": 495 }, { "epoch": 0.41511000415110005, "grad_norm": 0.1284865289926529, "learning_rate": 0.00011766666666666668, "loss": 0.1479, "step": 500 }, { "epoch": 0.41926110419261103, "grad_norm": 0.1310071051120758, "learning_rate": 0.00011683333333333333, "loss": 0.1638, "step": 505 }, { "epoch": 0.42341220423412207, "grad_norm": 0.14244677126407623, "learning_rate": 0.000116, "loss": 0.166, "step": 510 }, { "epoch": 0.42756330427563305, "grad_norm": 0.12084666639566422, "learning_rate": 0.00011516666666666667, "loss": 0.1521, "step": 515 }, { "epoch": 0.43171440431714403, "grad_norm": 0.13859711587429047, "learning_rate": 0.00011433333333333334, "loss": 0.1575, "step": 520 }, { "epoch": 0.43586550435865506, "grad_norm": 0.14870645105838776, "learning_rate": 0.00011350000000000001, "loss": 0.1599, "step": 525 }, { "epoch": 0.44001660440016604, "grad_norm": 0.12018068134784698, "learning_rate": 0.00011266666666666668, "loss": 0.1648, "step": 530 }, { "epoch": 0.444167704441677, "grad_norm": 0.120558962225914, "learning_rate": 0.00011183333333333335, "loss": 0.154, "step": 535 }, { "epoch": 0.44831880448318806, "grad_norm": 0.11315838992595673, "learning_rate": 0.00011100000000000001, "loss": 0.1465, "step": 540 }, { "epoch": 0.45246990452469904, "grad_norm": 0.1233653798699379, "learning_rate": 0.00011016666666666666, "loss": 0.1389, "step": 545 }, { "epoch": 0.45662100456621, "grad_norm": 0.12076210975646973, "learning_rate": 0.00010933333333333333, "loss": 0.1575, "step": 550 }, { "epoch": 0.46077210460772106, "grad_norm": 0.11424656212329865, "learning_rate": 0.00010850000000000001, "loss": 0.1542, "step": 555 }, { "epoch": 0.46492320464923204, "grad_norm": 0.11583676189184189, "learning_rate": 0.00010766666666666668, "loss": 0.1626, "step": 560 }, { "epoch": 0.46907430469074307, "grad_norm": 0.12343718856573105, "learning_rate": 0.00010683333333333335, "loss": 0.1394, "step": 565 }, { "epoch": 0.47322540473225405, "grad_norm": 0.12574954330921173, "learning_rate": 0.00010600000000000002, "loss": 0.1402, "step": 570 }, { "epoch": 0.47737650477376503, "grad_norm": 0.13551151752471924, "learning_rate": 0.00010516666666666668, "loss": 0.1598, "step": 575 }, { "epoch": 0.48152760481527607, "grad_norm": 0.12537416815757751, "learning_rate": 0.00010433333333333333, "loss": 0.1588, "step": 580 }, { "epoch": 0.48567870485678705, "grad_norm": 0.13128598034381866, "learning_rate": 0.0001035, "loss": 0.143, "step": 585 }, { "epoch": 0.489829804898298, "grad_norm": 0.11566058546304703, "learning_rate": 0.00010266666666666666, "loss": 0.1608, "step": 590 }, { "epoch": 0.49398090493980906, "grad_norm": 0.11678820848464966, "learning_rate": 0.00010183333333333333, "loss": 0.1505, "step": 595 }, { "epoch": 0.49813200498132004, "grad_norm": 0.12501274049282074, "learning_rate": 0.000101, "loss": 0.161, "step": 600 }, { "epoch": 0.49813200498132004, "eval_loss": 0.15276095271110535, "eval_runtime": 185.8767, "eval_samples_per_second": 4.842, "eval_steps_per_second": 2.421, "step": 600 }, { "epoch": 0.502283105022831, "grad_norm": 0.10359059274196625, "learning_rate": 0.00010016666666666667, "loss": 0.1498, "step": 605 }, { "epoch": 0.506434205064342, "grad_norm": 0.12891648709774017, "learning_rate": 9.933333333333334e-05, "loss": 0.1565, "step": 610 }, { "epoch": 0.5105853051058531, "grad_norm": 0.1454884111881256, "learning_rate": 9.850000000000001e-05, "loss": 0.1422, "step": 615 }, { "epoch": 0.5147364051473641, "grad_norm": 0.12548445165157318, "learning_rate": 9.766666666666668e-05, "loss": 0.176, "step": 620 }, { "epoch": 0.518887505188875, "grad_norm": 0.11389490962028503, "learning_rate": 9.683333333333335e-05, "loss": 0.152, "step": 625 }, { "epoch": 0.523038605230386, "grad_norm": 0.13731062412261963, "learning_rate": 9.6e-05, "loss": 0.1438, "step": 630 }, { "epoch": 0.527189705271897, "grad_norm": 0.10833003371953964, "learning_rate": 9.516666666666667e-05, "loss": 0.136, "step": 635 }, { "epoch": 0.5313408053134081, "grad_norm": 0.13331717252731323, "learning_rate": 9.433333333333334e-05, "loss": 0.1515, "step": 640 }, { "epoch": 0.5354919053549191, "grad_norm": 0.11971119791269302, "learning_rate": 9.350000000000001e-05, "loss": 0.1608, "step": 645 }, { "epoch": 0.5396430053964301, "grad_norm": 0.12283340841531754, "learning_rate": 9.266666666666666e-05, "loss": 0.1478, "step": 650 }, { "epoch": 0.543794105437941, "grad_norm": 0.18648238480091095, "learning_rate": 9.183333333333333e-05, "loss": 0.1578, "step": 655 }, { "epoch": 0.547945205479452, "grad_norm": 0.1412057876586914, "learning_rate": 9.1e-05, "loss": 0.1396, "step": 660 }, { "epoch": 0.552096305520963, "grad_norm": 0.14734192192554474, "learning_rate": 9.016666666666667e-05, "loss": 0.1571, "step": 665 }, { "epoch": 0.5562474055624741, "grad_norm": 0.10538703948259354, "learning_rate": 8.933333333333334e-05, "loss": 0.1641, "step": 670 }, { "epoch": 0.5603985056039851, "grad_norm": 0.12703998386859894, "learning_rate": 8.850000000000001e-05, "loss": 0.1559, "step": 675 }, { "epoch": 0.564549605645496, "grad_norm": 0.12684640288352966, "learning_rate": 8.766666666666668e-05, "loss": 0.1537, "step": 680 }, { "epoch": 0.568700705687007, "grad_norm": 0.1368802934885025, "learning_rate": 8.683333333333333e-05, "loss": 0.1554, "step": 685 }, { "epoch": 0.572851805728518, "grad_norm": 0.12192381918430328, "learning_rate": 8.6e-05, "loss": 0.1698, "step": 690 }, { "epoch": 0.5770029057700291, "grad_norm": 0.09523618221282959, "learning_rate": 8.516666666666667e-05, "loss": 0.1362, "step": 695 }, { "epoch": 0.5811540058115401, "grad_norm": 0.12437159568071365, "learning_rate": 8.433333333333334e-05, "loss": 0.1526, "step": 700 }, { "epoch": 0.5853051058530511, "grad_norm": 0.12487108260393143, "learning_rate": 8.35e-05, "loss": 0.1362, "step": 705 }, { "epoch": 0.589456205894562, "grad_norm": 0.10976472496986389, "learning_rate": 8.266666666666667e-05, "loss": 0.1516, "step": 710 }, { "epoch": 0.593607305936073, "grad_norm": 0.11062753945589066, "learning_rate": 8.183333333333333e-05, "loss": 0.1486, "step": 715 }, { "epoch": 0.597758405977584, "grad_norm": 0.1419171243906021, "learning_rate": 8.1e-05, "loss": 0.1558, "step": 720 }, { "epoch": 0.6019095060190951, "grad_norm": 0.11999824643135071, "learning_rate": 8.016666666666667e-05, "loss": 0.1365, "step": 725 }, { "epoch": 0.6060606060606061, "grad_norm": 0.12366942316293716, "learning_rate": 7.933333333333334e-05, "loss": 0.1594, "step": 730 }, { "epoch": 0.6102117061021171, "grad_norm": 0.12560267746448517, "learning_rate": 7.850000000000001e-05, "loss": 0.1469, "step": 735 }, { "epoch": 0.614362806143628, "grad_norm": 0.12089208513498306, "learning_rate": 7.766666666666667e-05, "loss": 0.1557, "step": 740 }, { "epoch": 0.618513906185139, "grad_norm": 0.1430719494819641, "learning_rate": 7.683333333333334e-05, "loss": 0.1423, "step": 745 }, { "epoch": 0.6226650062266501, "grad_norm": 0.13126327097415924, "learning_rate": 7.6e-05, "loss": 0.1468, "step": 750 }, { "epoch": 0.6268161062681611, "grad_norm": 0.09532318264245987, "learning_rate": 7.516666666666667e-05, "loss": 0.1449, "step": 755 }, { "epoch": 0.6309672063096721, "grad_norm": 0.12227542698383331, "learning_rate": 7.433333333333333e-05, "loss": 0.1544, "step": 760 }, { "epoch": 0.635118306351183, "grad_norm": 0.14084969460964203, "learning_rate": 7.35e-05, "loss": 0.1488, "step": 765 }, { "epoch": 0.639269406392694, "grad_norm": 0.12827131152153015, "learning_rate": 7.266666666666667e-05, "loss": 0.1447, "step": 770 }, { "epoch": 0.6434205064342051, "grad_norm": 0.14061811566352844, "learning_rate": 7.183333333333334e-05, "loss": 0.1428, "step": 775 }, { "epoch": 0.6475716064757161, "grad_norm": 0.14365419745445251, "learning_rate": 7.1e-05, "loss": 0.1574, "step": 780 }, { "epoch": 0.6517227065172271, "grad_norm": 0.11606994271278381, "learning_rate": 7.016666666666667e-05, "loss": 0.146, "step": 785 }, { "epoch": 0.6558738065587381, "grad_norm": 0.12274261564016342, "learning_rate": 6.933333333333334e-05, "loss": 0.1369, "step": 790 }, { "epoch": 0.660024906600249, "grad_norm": 0.11611846834421158, "learning_rate": 6.850000000000001e-05, "loss": 0.1557, "step": 795 }, { "epoch": 0.66417600664176, "grad_norm": 0.13420958817005157, "learning_rate": 6.766666666666667e-05, "loss": 0.1491, "step": 800 }, { "epoch": 0.66417600664176, "eval_loss": 0.14878682792186737, "eval_runtime": 186.9396, "eval_samples_per_second": 4.814, "eval_steps_per_second": 2.407, "step": 800 }, { "epoch": 0.6683271066832711, "grad_norm": 0.12904717028141022, "learning_rate": 6.683333333333334e-05, "loss": 0.153, "step": 805 }, { "epoch": 0.6724782067247821, "grad_norm": 0.12883269786834717, "learning_rate": 6.6e-05, "loss": 0.1455, "step": 810 }, { "epoch": 0.6766293067662931, "grad_norm": 0.15537196397781372, "learning_rate": 6.516666666666666e-05, "loss": 0.1564, "step": 815 }, { "epoch": 0.680780406807804, "grad_norm": 0.12396696209907532, "learning_rate": 6.433333333333333e-05, "loss": 0.1458, "step": 820 }, { "epoch": 0.684931506849315, "grad_norm": 0.15211425721645355, "learning_rate": 6.35e-05, "loss": 0.1424, "step": 825 }, { "epoch": 0.6890826068908261, "grad_norm": 0.12306790798902512, "learning_rate": 6.266666666666667e-05, "loss": 0.1418, "step": 830 }, { "epoch": 0.6932337069323371, "grad_norm": 0.13135729730129242, "learning_rate": 6.183333333333334e-05, "loss": 0.1329, "step": 835 }, { "epoch": 0.6973848069738481, "grad_norm": 0.1494913101196289, "learning_rate": 6.1e-05, "loss": 0.1518, "step": 840 }, { "epoch": 0.7015359070153591, "grad_norm": 0.10251809656620026, "learning_rate": 6.0166666666666674e-05, "loss": 0.135, "step": 845 }, { "epoch": 0.70568700705687, "grad_norm": 0.10936664044857025, "learning_rate": 5.9333333333333343e-05, "loss": 0.1498, "step": 850 }, { "epoch": 0.709838107098381, "grad_norm": 0.14118026196956635, "learning_rate": 5.85e-05, "loss": 0.1549, "step": 855 }, { "epoch": 0.7139892071398921, "grad_norm": 0.12029966711997986, "learning_rate": 5.766666666666667e-05, "loss": 0.1279, "step": 860 }, { "epoch": 0.7181403071814031, "grad_norm": 0.13987119495868683, "learning_rate": 5.683333333333334e-05, "loss": 0.1311, "step": 865 }, { "epoch": 0.7222914072229141, "grad_norm": 0.14721432328224182, "learning_rate": 5.6000000000000006e-05, "loss": 0.1539, "step": 870 }, { "epoch": 0.726442507264425, "grad_norm": 0.12505626678466797, "learning_rate": 5.516666666666667e-05, "loss": 0.1479, "step": 875 }, { "epoch": 0.730593607305936, "grad_norm": 0.13287393748760223, "learning_rate": 5.433333333333334e-05, "loss": 0.1586, "step": 880 }, { "epoch": 0.7347447073474471, "grad_norm": 0.10323189944028854, "learning_rate": 5.3500000000000006e-05, "loss": 0.1401, "step": 885 }, { "epoch": 0.7388958073889581, "grad_norm": 0.12466787546873093, "learning_rate": 5.266666666666666e-05, "loss": 0.1428, "step": 890 }, { "epoch": 0.7430469074304691, "grad_norm": 0.13881418108940125, "learning_rate": 5.183333333333333e-05, "loss": 0.1471, "step": 895 }, { "epoch": 0.7471980074719801, "grad_norm": 0.1371707320213318, "learning_rate": 5.1000000000000006e-05, "loss": 0.1508, "step": 900 }, { "epoch": 0.751349107513491, "grad_norm": 0.13635429739952087, "learning_rate": 5.0166666666666675e-05, "loss": 0.147, "step": 905 }, { "epoch": 0.755500207555002, "grad_norm": 0.126560777425766, "learning_rate": 4.933333333333334e-05, "loss": 0.1365, "step": 910 }, { "epoch": 0.7596513075965131, "grad_norm": 0.10843600332736969, "learning_rate": 4.85e-05, "loss": 0.1471, "step": 915 }, { "epoch": 0.7638024076380241, "grad_norm": 0.13791149854660034, "learning_rate": 4.766666666666667e-05, "loss": 0.1511, "step": 920 }, { "epoch": 0.7679535076795351, "grad_norm": 0.12029317021369934, "learning_rate": 4.683333333333334e-05, "loss": 0.1492, "step": 925 }, { "epoch": 0.772104607721046, "grad_norm": 0.08313252031803131, "learning_rate": 4.600000000000001e-05, "loss": 0.1422, "step": 930 }, { "epoch": 0.776255707762557, "grad_norm": 0.09343947470188141, "learning_rate": 4.516666666666667e-05, "loss": 0.1467, "step": 935 }, { "epoch": 0.7804068078040681, "grad_norm": 0.11305926740169525, "learning_rate": 4.433333333333334e-05, "loss": 0.143, "step": 940 }, { "epoch": 0.7845579078455791, "grad_norm": 0.12202338129281998, "learning_rate": 4.35e-05, "loss": 0.1382, "step": 945 }, { "epoch": 0.7887090078870901, "grad_norm": 0.13653194904327393, "learning_rate": 4.266666666666667e-05, "loss": 0.1248, "step": 950 }, { "epoch": 0.7928601079286011, "grad_norm": 0.1358615607023239, "learning_rate": 4.183333333333334e-05, "loss": 0.1528, "step": 955 }, { "epoch": 0.797011207970112, "grad_norm": 0.13426993787288666, "learning_rate": 4.1e-05, "loss": 0.1511, "step": 960 }, { "epoch": 0.801162308011623, "grad_norm": 0.08840786665678024, "learning_rate": 4.016666666666667e-05, "loss": 0.147, "step": 965 }, { "epoch": 0.8053134080531341, "grad_norm": 0.10167238861322403, "learning_rate": 3.933333333333333e-05, "loss": 0.124, "step": 970 }, { "epoch": 0.8094645080946451, "grad_norm": 0.15286456048488617, "learning_rate": 3.85e-05, "loss": 0.1388, "step": 975 }, { "epoch": 0.8136156081361561, "grad_norm": 0.12808531522750854, "learning_rate": 3.766666666666667e-05, "loss": 0.1312, "step": 980 }, { "epoch": 0.8177667081776671, "grad_norm": 0.11656677722930908, "learning_rate": 3.683333333333334e-05, "loss": 0.1479, "step": 985 }, { "epoch": 0.821917808219178, "grad_norm": 0.10321146994829178, "learning_rate": 3.6e-05, "loss": 0.1233, "step": 990 }, { "epoch": 0.8260689082606891, "grad_norm": 0.14637711644172668, "learning_rate": 3.516666666666667e-05, "loss": 0.1381, "step": 995 }, { "epoch": 0.8302200083022001, "grad_norm": 0.11799775063991547, "learning_rate": 3.433333333333333e-05, "loss": 0.1371, "step": 1000 }, { "epoch": 0.8302200083022001, "eval_loss": 0.14595866203308105, "eval_runtime": 186.6793, "eval_samples_per_second": 4.821, "eval_steps_per_second": 2.411, "step": 1000 }, { "epoch": 0.8343711083437111, "grad_norm": 0.056576840579509735, "learning_rate": 3.35e-05, "loss": 0.1278, "step": 1005 }, { "epoch": 0.8385222083852221, "grad_norm": 0.12720656394958496, "learning_rate": 3.266666666666667e-05, "loss": 0.1467, "step": 1010 }, { "epoch": 0.842673308426733, "grad_norm": 0.1243145540356636, "learning_rate": 3.183333333333334e-05, "loss": 0.1404, "step": 1015 }, { "epoch": 0.8468244084682441, "grad_norm": 0.12584663927555084, "learning_rate": 3.1e-05, "loss": 0.1511, "step": 1020 }, { "epoch": 0.8509755085097551, "grad_norm": 0.14398354291915894, "learning_rate": 3.016666666666667e-05, "loss": 0.1435, "step": 1025 }, { "epoch": 0.8551266085512661, "grad_norm": 0.17242616415023804, "learning_rate": 2.9333333333333336e-05, "loss": 0.1524, "step": 1030 }, { "epoch": 0.8592777085927771, "grad_norm": 0.11134395748376846, "learning_rate": 2.8499999999999998e-05, "loss": 0.1406, "step": 1035 }, { "epoch": 0.8634288086342881, "grad_norm": 0.13715781271457672, "learning_rate": 2.7666666666666667e-05, "loss": 0.1504, "step": 1040 }, { "epoch": 0.867579908675799, "grad_norm": 0.13127276301383972, "learning_rate": 2.6833333333333333e-05, "loss": 0.1465, "step": 1045 }, { "epoch": 0.8717310087173101, "grad_norm": 0.1410035789012909, "learning_rate": 2.6000000000000002e-05, "loss": 0.1289, "step": 1050 }, { "epoch": 0.8758821087588211, "grad_norm": 0.1502102166414261, "learning_rate": 2.5166666666666667e-05, "loss": 0.1367, "step": 1055 }, { "epoch": 0.8800332088003321, "grad_norm": 0.12710800766944885, "learning_rate": 2.4333333333333336e-05, "loss": 0.135, "step": 1060 }, { "epoch": 0.8841843088418431, "grad_norm": 0.1329444795846939, "learning_rate": 2.35e-05, "loss": 0.1315, "step": 1065 }, { "epoch": 0.888335408883354, "grad_norm": 0.12778909504413605, "learning_rate": 2.2666666666666668e-05, "loss": 0.1541, "step": 1070 }, { "epoch": 0.8924865089248651, "grad_norm": 0.12005715072154999, "learning_rate": 2.1833333333333333e-05, "loss": 0.151, "step": 1075 }, { "epoch": 0.8966376089663761, "grad_norm": 0.08895500004291534, "learning_rate": 2.1e-05, "loss": 0.1387, "step": 1080 }, { "epoch": 0.9007887090078871, "grad_norm": 0.12626707553863525, "learning_rate": 2.0166666666666668e-05, "loss": 0.149, "step": 1085 }, { "epoch": 0.9049398090493981, "grad_norm": 0.13254553079605103, "learning_rate": 1.9333333333333333e-05, "loss": 0.1414, "step": 1090 }, { "epoch": 0.9090909090909091, "grad_norm": 0.1267685890197754, "learning_rate": 1.85e-05, "loss": 0.1647, "step": 1095 }, { "epoch": 0.91324200913242, "grad_norm": 0.12603411078453064, "learning_rate": 1.7666666666666668e-05, "loss": 0.1407, "step": 1100 }, { "epoch": 0.9173931091739311, "grad_norm": 0.172598734498024, "learning_rate": 1.6833333333333334e-05, "loss": 0.1435, "step": 1105 }, { "epoch": 0.9215442092154421, "grad_norm": 0.143843412399292, "learning_rate": 1.6000000000000003e-05, "loss": 0.1517, "step": 1110 }, { "epoch": 0.9256953092569531, "grad_norm": 0.14932668209075928, "learning_rate": 1.5166666666666668e-05, "loss": 0.1528, "step": 1115 }, { "epoch": 0.9298464092984641, "grad_norm": 0.1127849742770195, "learning_rate": 1.4333333333333334e-05, "loss": 0.1355, "step": 1120 }, { "epoch": 0.933997509339975, "grad_norm": 0.1379147619009018, "learning_rate": 1.3500000000000001e-05, "loss": 0.1505, "step": 1125 }, { "epoch": 0.9381486093814861, "grad_norm": 0.11335213482379913, "learning_rate": 1.2666666666666668e-05, "loss": 0.1517, "step": 1130 }, { "epoch": 0.9422997094229971, "grad_norm": 0.13676024973392487, "learning_rate": 1.1833333333333334e-05, "loss": 0.1487, "step": 1135 }, { "epoch": 0.9464508094645081, "grad_norm": 0.11180838197469711, "learning_rate": 1.1000000000000001e-05, "loss": 0.124, "step": 1140 }, { "epoch": 0.9506019095060191, "grad_norm": 0.13548138737678528, "learning_rate": 1.0166666666666667e-05, "loss": 0.1496, "step": 1145 }, { "epoch": 0.9547530095475301, "grad_norm": 0.1309673935174942, "learning_rate": 9.333333333333334e-06, "loss": 0.1315, "step": 1150 }, { "epoch": 0.958904109589041, "grad_norm": 0.11803894490003586, "learning_rate": 8.500000000000002e-06, "loss": 0.1609, "step": 1155 }, { "epoch": 0.9630552096305521, "grad_norm": 0.12026551365852356, "learning_rate": 7.666666666666667e-06, "loss": 0.145, "step": 1160 }, { "epoch": 0.9672063096720631, "grad_norm": 0.14298652112483978, "learning_rate": 6.833333333333333e-06, "loss": 0.154, "step": 1165 }, { "epoch": 0.9713574097135741, "grad_norm": 0.13830389082431793, "learning_rate": 6e-06, "loss": 0.1373, "step": 1170 }, { "epoch": 0.9755085097550851, "grad_norm": 0.1225619986653328, "learning_rate": 5.166666666666667e-06, "loss": 0.1522, "step": 1175 }, { "epoch": 0.979659609796596, "grad_norm": 0.1404723823070526, "learning_rate": 4.333333333333334e-06, "loss": 0.1517, "step": 1180 }, { "epoch": 0.9838107098381071, "grad_norm": 0.12082472443580627, "learning_rate": 3.5000000000000004e-06, "loss": 0.1503, "step": 1185 }, { "epoch": 0.9879618098796181, "grad_norm": 0.09916210919618607, "learning_rate": 2.666666666666667e-06, "loss": 0.1369, "step": 1190 }, { "epoch": 0.9921129099211291, "grad_norm": 0.13724960386753082, "learning_rate": 1.8333333333333335e-06, "loss": 0.1304, "step": 1195 }, { "epoch": 0.9962640099626401, "grad_norm": 0.13304875791072845, "learning_rate": 1.0000000000000002e-06, "loss": 0.1429, "step": 1200 }, { "epoch": 0.9962640099626401, "eval_loss": 0.14440582692623138, "eval_runtime": 186.846, "eval_samples_per_second": 4.817, "eval_steps_per_second": 2.408, "step": 1200 } ], "logging_steps": 5, "max_steps": 1205, "num_input_tokens_seen": 0, "num_train_epochs": 1, "save_steps": 200, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": false }, "attributes": {} } }, "total_flos": 1.0590193691259955e+18, "train_batch_size": 10, "trial_name": null, "trial_params": null }