| { | |
| "best_global_step": null, | |
| "best_metric": null, | |
| "best_model_checkpoint": null, | |
| "epoch": 0.6333333333333333, | |
| "eval_steps": 500, | |
| "global_step": 3800, | |
| "is_hyper_param_search": false, | |
| "is_local_process_zero": true, | |
| "is_world_process_zero": true, | |
| "log_history": [ | |
| { | |
| "epoch": 0.0016666666666666668, | |
| "grad_norm": 0.3210105299949646, | |
| "learning_rate": 1.2272727272727271e-05, | |
| "loss": 10.294613647460938, | |
| "step": 10 | |
| }, | |
| { | |
| "epoch": 0.0033333333333333335, | |
| "grad_norm": 0.2156638205051422, | |
| "learning_rate": 2.5909090909090906e-05, | |
| "loss": 9.713479614257812, | |
| "step": 20 | |
| }, | |
| { | |
| "epoch": 0.005, | |
| "grad_norm": 0.15897703170776367, | |
| "learning_rate": 3.954545454545454e-05, | |
| "loss": 9.326141357421875, | |
| "step": 30 | |
| }, | |
| { | |
| "epoch": 0.006666666666666667, | |
| "grad_norm": 0.13951502740383148, | |
| "learning_rate": 5.318181818181818e-05, | |
| "loss": 9.020196533203125, | |
| "step": 40 | |
| }, | |
| { | |
| "epoch": 0.008333333333333333, | |
| "grad_norm": 0.12026762217283249, | |
| "learning_rate": 6.68181818181818e-05, | |
| "loss": 8.668742370605468, | |
| "step": 50 | |
| }, | |
| { | |
| "epoch": 0.01, | |
| "grad_norm": 0.09609497338533401, | |
| "learning_rate": 8.045454545454545e-05, | |
| "loss": 8.326473999023438, | |
| "step": 60 | |
| }, | |
| { | |
| "epoch": 0.011666666666666667, | |
| "grad_norm": 0.10631376504898071, | |
| "learning_rate": 9.40909090909091e-05, | |
| "loss": 7.9658042907714846, | |
| "step": 70 | |
| }, | |
| { | |
| "epoch": 0.013333333333333334, | |
| "grad_norm": 0.10316690802574158, | |
| "learning_rate": 0.00010772727272727271, | |
| "loss": 7.733299255371094, | |
| "step": 80 | |
| }, | |
| { | |
| "epoch": 0.015, | |
| "grad_norm": 0.09529491513967514, | |
| "learning_rate": 0.00012136363636363636, | |
| "loss": 7.559881591796875, | |
| "step": 90 | |
| }, | |
| { | |
| "epoch": 0.016666666666666666, | |
| "grad_norm": 0.08692844212055206, | |
| "learning_rate": 0.000135, | |
| "loss": 7.423441314697266, | |
| "step": 100 | |
| }, | |
| { | |
| "epoch": 0.018333333333333333, | |
| "grad_norm": 0.13299672305583954, | |
| "learning_rate": 0.00014863636363636362, | |
| "loss": 7.203767395019531, | |
| "step": 110 | |
| }, | |
| { | |
| "epoch": 0.02, | |
| "grad_norm": 0.10762651264667511, | |
| "learning_rate": 0.00016227272727272726, | |
| "loss": 6.991656494140625, | |
| "step": 120 | |
| }, | |
| { | |
| "epoch": 0.021666666666666667, | |
| "grad_norm": 0.15066272020339966, | |
| "learning_rate": 0.00017590909090909088, | |
| "loss": 6.775782775878906, | |
| "step": 130 | |
| }, | |
| { | |
| "epoch": 0.023333333333333334, | |
| "grad_norm": 0.16522859036922455, | |
| "learning_rate": 0.00018954545454545453, | |
| "loss": 6.557352447509766, | |
| "step": 140 | |
| }, | |
| { | |
| "epoch": 0.025, | |
| "grad_norm": 0.12791681289672852, | |
| "learning_rate": 0.00020318181818181815, | |
| "loss": 6.374400329589844, | |
| "step": 150 | |
| }, | |
| { | |
| "epoch": 0.02666666666666667, | |
| "grad_norm": 0.14518573880195618, | |
| "learning_rate": 0.00021681818181818182, | |
| "loss": 6.167789459228516, | |
| "step": 160 | |
| }, | |
| { | |
| "epoch": 0.028333333333333332, | |
| "grad_norm": 0.11279226839542389, | |
| "learning_rate": 0.00023045454545454544, | |
| "loss": 5.949956893920898, | |
| "step": 170 | |
| }, | |
| { | |
| "epoch": 0.03, | |
| "grad_norm": 0.10456318408250809, | |
| "learning_rate": 0.00024409090909090905, | |
| "loss": 5.898213958740234, | |
| "step": 180 | |
| }, | |
| { | |
| "epoch": 0.03166666666666667, | |
| "grad_norm": 0.08588645607233047, | |
| "learning_rate": 0.0002577272727272727, | |
| "loss": 5.692521667480468, | |
| "step": 190 | |
| }, | |
| { | |
| "epoch": 0.03333333333333333, | |
| "grad_norm": 0.09524291008710861, | |
| "learning_rate": 0.0002713636363636363, | |
| "loss": 5.620618057250977, | |
| "step": 200 | |
| }, | |
| { | |
| "epoch": 0.035, | |
| "grad_norm": 0.10834430158138275, | |
| "learning_rate": 0.000285, | |
| "loss": 5.490602111816406, | |
| "step": 210 | |
| }, | |
| { | |
| "epoch": 0.03666666666666667, | |
| "grad_norm": 0.13813409209251404, | |
| "learning_rate": 0.0002986363636363636, | |
| "loss": 5.307170867919922, | |
| "step": 220 | |
| }, | |
| { | |
| "epoch": 0.03833333333333333, | |
| "grad_norm": 0.07976827025413513, | |
| "learning_rate": 0.000299998205309827, | |
| "loss": 5.349527740478516, | |
| "step": 230 | |
| }, | |
| { | |
| "epoch": 0.04, | |
| "grad_norm": 0.09545526653528214, | |
| "learning_rate": 0.00029999200149769797, | |
| "loss": 5.204251861572265, | |
| "step": 240 | |
| }, | |
| { | |
| "epoch": 0.041666666666666664, | |
| "grad_norm": 0.10047531872987747, | |
| "learning_rate": 0.0002999813665901747, | |
| "loss": 5.08880615234375, | |
| "step": 250 | |
| }, | |
| { | |
| "epoch": 0.043333333333333335, | |
| "grad_norm": 0.08607863634824753, | |
| "learning_rate": 0.00029996630090143596, | |
| "loss": 4.946316528320312, | |
| "step": 260 | |
| }, | |
| { | |
| "epoch": 0.045, | |
| "grad_norm": 0.0853164866566658, | |
| "learning_rate": 0.0002999468048765554, | |
| "loss": 4.971838760375976, | |
| "step": 270 | |
| }, | |
| { | |
| "epoch": 0.04666666666666667, | |
| "grad_norm": 0.08899261802434921, | |
| "learning_rate": 0.0002999228790914889, | |
| "loss": 4.88647232055664, | |
| "step": 280 | |
| }, | |
| { | |
| "epoch": 0.04833333333333333, | |
| "grad_norm": 0.09347144514322281, | |
| "learning_rate": 0.0002998945242530568, | |
| "loss": 4.86058235168457, | |
| "step": 290 | |
| }, | |
| { | |
| "epoch": 0.05, | |
| "grad_norm": 0.08826533704996109, | |
| "learning_rate": 0.0002998617411989239, | |
| "loss": 4.7169921875, | |
| "step": 300 | |
| }, | |
| { | |
| "epoch": 0.051666666666666666, | |
| "grad_norm": 0.08748706430196762, | |
| "learning_rate": 0.00029982453089757413, | |
| "loss": 4.6202129364013675, | |
| "step": 310 | |
| }, | |
| { | |
| "epoch": 0.05333333333333334, | |
| "grad_norm": 0.08179391920566559, | |
| "learning_rate": 0.00029978289444828194, | |
| "loss": 4.677961730957032, | |
| "step": 320 | |
| }, | |
| { | |
| "epoch": 0.055, | |
| "grad_norm": 0.07042308896780014, | |
| "learning_rate": 0.0002997368330810802, | |
| "loss": 4.629831314086914, | |
| "step": 330 | |
| }, | |
| { | |
| "epoch": 0.056666666666666664, | |
| "grad_norm": 0.07931150496006012, | |
| "learning_rate": 0.0002996863481567235, | |
| "loss": 4.574167633056641, | |
| "step": 340 | |
| }, | |
| { | |
| "epoch": 0.058333333333333334, | |
| "grad_norm": 0.08005540817975998, | |
| "learning_rate": 0.0002996314411666482, | |
| "loss": 4.560203933715821, | |
| "step": 350 | |
| }, | |
| { | |
| "epoch": 0.06, | |
| "grad_norm": 0.08955864608287811, | |
| "learning_rate": 0.0002995721137329282, | |
| "loss": 4.448336410522461, | |
| "step": 360 | |
| }, | |
| { | |
| "epoch": 0.06166666666666667, | |
| "grad_norm": 0.08118876814842224, | |
| "learning_rate": 0.00029950836760822704, | |
| "loss": 4.408453750610351, | |
| "step": 370 | |
| }, | |
| { | |
| "epoch": 0.06333333333333334, | |
| "grad_norm": 0.08658885210752487, | |
| "learning_rate": 0.0002994402046757462, | |
| "loss": 4.47790298461914, | |
| "step": 380 | |
| }, | |
| { | |
| "epoch": 0.065, | |
| "grad_norm": 0.07376985251903534, | |
| "learning_rate": 0.0002993676269491695, | |
| "loss": 4.35412368774414, | |
| "step": 390 | |
| }, | |
| { | |
| "epoch": 0.06666666666666667, | |
| "grad_norm": 0.07317084819078445, | |
| "learning_rate": 0.0002992906365726033, | |
| "loss": 4.305249404907227, | |
| "step": 400 | |
| }, | |
| { | |
| "epoch": 0.06833333333333333, | |
| "grad_norm": 0.07801658660173416, | |
| "learning_rate": 0.00029920923582051377, | |
| "loss": 4.281742095947266, | |
| "step": 410 | |
| }, | |
| { | |
| "epoch": 0.07, | |
| "grad_norm": 0.08093922585248947, | |
| "learning_rate": 0.00029912342709765904, | |
| "loss": 4.267349624633789, | |
| "step": 420 | |
| }, | |
| { | |
| "epoch": 0.07166666666666667, | |
| "grad_norm": 0.06816517561674118, | |
| "learning_rate": 0.0002990332129390185, | |
| "loss": 4.211469268798828, | |
| "step": 430 | |
| }, | |
| { | |
| "epoch": 0.07333333333333333, | |
| "grad_norm": 0.07379963248968124, | |
| "learning_rate": 0.00029893859600971793, | |
| "loss": 4.209768676757813, | |
| "step": 440 | |
| }, | |
| { | |
| "epoch": 0.075, | |
| "grad_norm": 0.06909876316785812, | |
| "learning_rate": 0.0002988395791049506, | |
| "loss": 4.091614532470703, | |
| "step": 450 | |
| }, | |
| { | |
| "epoch": 0.07666666666666666, | |
| "grad_norm": 0.07152755558490753, | |
| "learning_rate": 0.00029873616514989487, | |
| "loss": 4.098369598388672, | |
| "step": 460 | |
| }, | |
| { | |
| "epoch": 0.07833333333333334, | |
| "grad_norm": 0.07937711477279663, | |
| "learning_rate": 0.00029862835719962757, | |
| "loss": 4.143830108642578, | |
| "step": 470 | |
| }, | |
| { | |
| "epoch": 0.08, | |
| "grad_norm": 0.06548741459846497, | |
| "learning_rate": 0.00029851615843903405, | |
| "loss": 4.0632171630859375, | |
| "step": 480 | |
| }, | |
| { | |
| "epoch": 0.08166666666666667, | |
| "grad_norm": 0.18737898766994476, | |
| "learning_rate": 0.0002983995721827137, | |
| "loss": 4.063528060913086, | |
| "step": 490 | |
| }, | |
| { | |
| "epoch": 0.08333333333333333, | |
| "grad_norm": 0.07438868284225464, | |
| "learning_rate": 0.00029827860187488247, | |
| "loss": 3.988648223876953, | |
| "step": 500 | |
| }, | |
| { | |
| "epoch": 0.085, | |
| "grad_norm": 0.0689290389418602, | |
| "learning_rate": 0.00029815325108927063, | |
| "loss": 4.0566871643066404, | |
| "step": 510 | |
| }, | |
| { | |
| "epoch": 0.08666666666666667, | |
| "grad_norm": 0.10340748727321625, | |
| "learning_rate": 0.00029802352352901757, | |
| "loss": 3.994831085205078, | |
| "step": 520 | |
| }, | |
| { | |
| "epoch": 0.08833333333333333, | |
| "grad_norm": 0.06787977367639542, | |
| "learning_rate": 0.0002978894230265623, | |
| "loss": 3.935833740234375, | |
| "step": 530 | |
| }, | |
| { | |
| "epoch": 0.09, | |
| "grad_norm": 0.07975687086582184, | |
| "learning_rate": 0.0002977509535435302, | |
| "loss": 3.921863555908203, | |
| "step": 540 | |
| }, | |
| { | |
| "epoch": 0.09166666666666666, | |
| "grad_norm": 0.06528890132904053, | |
| "learning_rate": 0.00029760811917061607, | |
| "loss": 3.9329925537109376, | |
| "step": 550 | |
| }, | |
| { | |
| "epoch": 0.09333333333333334, | |
| "grad_norm": 0.0730508416891098, | |
| "learning_rate": 0.00029746092412746296, | |
| "loss": 3.9105804443359373, | |
| "step": 560 | |
| }, | |
| { | |
| "epoch": 0.095, | |
| "grad_norm": 0.07522772252559662, | |
| "learning_rate": 0.000297309372762538, | |
| "loss": 3.8793365478515627, | |
| "step": 570 | |
| }, | |
| { | |
| "epoch": 0.09666666666666666, | |
| "grad_norm": 0.0628182664513588, | |
| "learning_rate": 0.0002971534695530037, | |
| "loss": 3.8207466125488283, | |
| "step": 580 | |
| }, | |
| { | |
| "epoch": 0.09833333333333333, | |
| "grad_norm": 0.06575705111026764, | |
| "learning_rate": 0.00029699321910458556, | |
| "loss": 3.7580352783203126, | |
| "step": 590 | |
| }, | |
| { | |
| "epoch": 0.1, | |
| "grad_norm": 0.07698246836662292, | |
| "learning_rate": 0.00029682862615143616, | |
| "loss": 3.741848373413086, | |
| "step": 600 | |
| }, | |
| { | |
| "epoch": 0.10166666666666667, | |
| "grad_norm": 0.06195211783051491, | |
| "learning_rate": 0.00029665969555599535, | |
| "loss": 3.8356746673583983, | |
| "step": 610 | |
| }, | |
| { | |
| "epoch": 0.10333333333333333, | |
| "grad_norm": 0.06386427581310272, | |
| "learning_rate": 0.0002964864323088464, | |
| "loss": 3.7516510009765627, | |
| "step": 620 | |
| }, | |
| { | |
| "epoch": 0.105, | |
| "grad_norm": 0.06469837576150894, | |
| "learning_rate": 0.00029630884152856874, | |
| "loss": 3.7427322387695314, | |
| "step": 630 | |
| }, | |
| { | |
| "epoch": 0.10666666666666667, | |
| "grad_norm": 0.0628240630030632, | |
| "learning_rate": 0.00029612692846158676, | |
| "loss": 3.727589416503906, | |
| "step": 640 | |
| }, | |
| { | |
| "epoch": 0.10833333333333334, | |
| "grad_norm": 0.06488772481679916, | |
| "learning_rate": 0.00029594069848201476, | |
| "loss": 3.6941436767578124, | |
| "step": 650 | |
| }, | |
| { | |
| "epoch": 0.11, | |
| "grad_norm": 0.06034167483448982, | |
| "learning_rate": 0.00029575015709149813, | |
| "loss": 3.621521759033203, | |
| "step": 660 | |
| }, | |
| { | |
| "epoch": 0.11166666666666666, | |
| "grad_norm": 0.06813275068998337, | |
| "learning_rate": 0.0002955553099190508, | |
| "loss": 3.5790252685546875, | |
| "step": 670 | |
| }, | |
| { | |
| "epoch": 0.11333333333333333, | |
| "grad_norm": 0.06076318025588989, | |
| "learning_rate": 0.0002953561627208891, | |
| "loss": 3.6731422424316404, | |
| "step": 680 | |
| }, | |
| { | |
| "epoch": 0.115, | |
| "grad_norm": 0.05848376452922821, | |
| "learning_rate": 0.0002951527213802617, | |
| "loss": 3.594041442871094, | |
| "step": 690 | |
| }, | |
| { | |
| "epoch": 0.11666666666666667, | |
| "grad_norm": 0.05992190167307854, | |
| "learning_rate": 0.00029494499190727566, | |
| "loss": 3.5415718078613283, | |
| "step": 700 | |
| }, | |
| { | |
| "epoch": 0.11833333333333333, | |
| "grad_norm": 0.06422701478004456, | |
| "learning_rate": 0.000294732980438719, | |
| "loss": 3.462107849121094, | |
| "step": 710 | |
| }, | |
| { | |
| "epoch": 0.12, | |
| "grad_norm": 0.06403794884681702, | |
| "learning_rate": 0.00029451669323787914, | |
| "loss": 3.475952911376953, | |
| "step": 720 | |
| }, | |
| { | |
| "epoch": 0.12166666666666667, | |
| "grad_norm": 0.06811420619487762, | |
| "learning_rate": 0.00029429613669435835, | |
| "loss": 3.537554931640625, | |
| "step": 730 | |
| }, | |
| { | |
| "epoch": 0.12333333333333334, | |
| "grad_norm": 0.06232806295156479, | |
| "learning_rate": 0.0002940713173238847, | |
| "loss": 3.438762664794922, | |
| "step": 740 | |
| }, | |
| { | |
| "epoch": 0.125, | |
| "grad_norm": 0.06179925426840782, | |
| "learning_rate": 0.00029384224176811946, | |
| "loss": 3.506423568725586, | |
| "step": 750 | |
| }, | |
| { | |
| "epoch": 0.12666666666666668, | |
| "grad_norm": 0.06174364313483238, | |
| "learning_rate": 0.0002936089167944611, | |
| "loss": 3.457561492919922, | |
| "step": 760 | |
| }, | |
| { | |
| "epoch": 0.12833333333333333, | |
| "grad_norm": 0.06338968873023987, | |
| "learning_rate": 0.00029337134929584524, | |
| "loss": 3.4751319885253906, | |
| "step": 770 | |
| }, | |
| { | |
| "epoch": 0.13, | |
| "grad_norm": 0.06177922338247299, | |
| "learning_rate": 0.00029312954629054117, | |
| "loss": 3.382034683227539, | |
| "step": 780 | |
| }, | |
| { | |
| "epoch": 0.13166666666666665, | |
| "grad_norm": 0.06135409325361252, | |
| "learning_rate": 0.00029288351492194435, | |
| "loss": 3.421039581298828, | |
| "step": 790 | |
| }, | |
| { | |
| "epoch": 0.13333333333333333, | |
| "grad_norm": 0.06828232109546661, | |
| "learning_rate": 0.00029263326245836536, | |
| "loss": 3.3520431518554688, | |
| "step": 800 | |
| }, | |
| { | |
| "epoch": 0.135, | |
| "grad_norm": 0.06002147123217583, | |
| "learning_rate": 0.00029237879629281547, | |
| "loss": 3.397780990600586, | |
| "step": 810 | |
| }, | |
| { | |
| "epoch": 0.13666666666666666, | |
| "grad_norm": 0.058005087077617645, | |
| "learning_rate": 0.0002921201239427879, | |
| "loss": 3.3631446838378904, | |
| "step": 820 | |
| }, | |
| { | |
| "epoch": 0.13833333333333334, | |
| "grad_norm": 0.061771899461746216, | |
| "learning_rate": 0.0002918572530500357, | |
| "loss": 3.3797203063964845, | |
| "step": 830 | |
| }, | |
| { | |
| "epoch": 0.14, | |
| "grad_norm": 0.057705093175172806, | |
| "learning_rate": 0.00029159019138034646, | |
| "loss": 3.2709060668945313, | |
| "step": 840 | |
| }, | |
| { | |
| "epoch": 0.14166666666666666, | |
| "grad_norm": 0.05799249932169914, | |
| "learning_rate": 0.0002913189468233124, | |
| "loss": 3.2947540283203125, | |
| "step": 850 | |
| }, | |
| { | |
| "epoch": 0.14333333333333334, | |
| "grad_norm": 0.059474553912878036, | |
| "learning_rate": 0.00029104352739209755, | |
| "loss": 3.4007835388183594, | |
| "step": 860 | |
| }, | |
| { | |
| "epoch": 0.145, | |
| "grad_norm": 0.062213234603405, | |
| "learning_rate": 0.00029076394122320087, | |
| "loss": 3.344309997558594, | |
| "step": 870 | |
| }, | |
| { | |
| "epoch": 0.14666666666666667, | |
| "grad_norm": 0.05876784771680832, | |
| "learning_rate": 0.00029048019657621605, | |
| "loss": 3.2779945373535155, | |
| "step": 880 | |
| }, | |
| { | |
| "epoch": 0.14833333333333334, | |
| "grad_norm": 0.06091905012726784, | |
| "learning_rate": 0.00029019230183358746, | |
| "loss": 3.178348159790039, | |
| "step": 890 | |
| }, | |
| { | |
| "epoch": 0.15, | |
| "grad_norm": 0.05918685719370842, | |
| "learning_rate": 0.0002899002655003623, | |
| "loss": 3.295793914794922, | |
| "step": 900 | |
| }, | |
| { | |
| "epoch": 0.15166666666666667, | |
| "grad_norm": 0.06123294681310654, | |
| "learning_rate": 0.00028960409620393967, | |
| "loss": 3.290731430053711, | |
| "step": 910 | |
| }, | |
| { | |
| "epoch": 0.15333333333333332, | |
| "grad_norm": 0.05882183462381363, | |
| "learning_rate": 0.00028930380269381553, | |
| "loss": 3.2458755493164064, | |
| "step": 920 | |
| }, | |
| { | |
| "epoch": 0.155, | |
| "grad_norm": 0.06071766838431358, | |
| "learning_rate": 0.0002889993938413241, | |
| "loss": 3.172679138183594, | |
| "step": 930 | |
| }, | |
| { | |
| "epoch": 0.15666666666666668, | |
| "grad_norm": 0.05640798434615135, | |
| "learning_rate": 0.0002886908786393761, | |
| "loss": 3.147473907470703, | |
| "step": 940 | |
| }, | |
| { | |
| "epoch": 0.15833333333333333, | |
| "grad_norm": 0.06143854558467865, | |
| "learning_rate": 0.0002883782662021927, | |
| "loss": 3.0966817855834963, | |
| "step": 950 | |
| }, | |
| { | |
| "epoch": 0.16, | |
| "grad_norm": 0.057186760008335114, | |
| "learning_rate": 0.00028806156576503665, | |
| "loss": 3.157902717590332, | |
| "step": 960 | |
| }, | |
| { | |
| "epoch": 0.16166666666666665, | |
| "grad_norm": 0.055310387164354324, | |
| "learning_rate": 0.0002877407866839391, | |
| "loss": 3.1260229110717774, | |
| "step": 970 | |
| }, | |
| { | |
| "epoch": 0.16333333333333333, | |
| "grad_norm": 0.05496911332011223, | |
| "learning_rate": 0.0002874159384354235, | |
| "loss": 3.158992576599121, | |
| "step": 980 | |
| }, | |
| { | |
| "epoch": 0.165, | |
| "grad_norm": 0.059410616755485535, | |
| "learning_rate": 0.00028708703061622537, | |
| "loss": 3.154488182067871, | |
| "step": 990 | |
| }, | |
| { | |
| "epoch": 0.16666666666666666, | |
| "grad_norm": 0.055123843252658844, | |
| "learning_rate": 0.00028675407294300907, | |
| "loss": 3.0926492691040037, | |
| "step": 1000 | |
| }, | |
| { | |
| "epoch": 0.16833333333333333, | |
| "grad_norm": 0.05329408124089241, | |
| "learning_rate": 0.0002864170752520804, | |
| "loss": 3.0617744445800783, | |
| "step": 1010 | |
| }, | |
| { | |
| "epoch": 0.17, | |
| "grad_norm": 0.056044623255729675, | |
| "learning_rate": 0.0002860760474990964, | |
| "loss": 3.087516212463379, | |
| "step": 1020 | |
| }, | |
| { | |
| "epoch": 0.17166666666666666, | |
| "grad_norm": 0.05408351868391037, | |
| "learning_rate": 0.00028573099975877104, | |
| "loss": 3.1055776596069338, | |
| "step": 1030 | |
| }, | |
| { | |
| "epoch": 0.17333333333333334, | |
| "grad_norm": 0.05544357746839523, | |
| "learning_rate": 0.00028538194222457746, | |
| "loss": 3.1246124267578126, | |
| "step": 1040 | |
| }, | |
| { | |
| "epoch": 0.175, | |
| "grad_norm": 0.05382883921265602, | |
| "learning_rate": 0.0002850288852084472, | |
| "loss": 3.090876007080078, | |
| "step": 1050 | |
| }, | |
| { | |
| "epoch": 0.17666666666666667, | |
| "grad_norm": 0.051369842141866684, | |
| "learning_rate": 0.000284671839140465, | |
| "loss": 3.0661289215087892, | |
| "step": 1060 | |
| }, | |
| { | |
| "epoch": 0.17833333333333334, | |
| "grad_norm": 0.13640367984771729, | |
| "learning_rate": 0.00028431081456856144, | |
| "loss": 3.02095947265625, | |
| "step": 1070 | |
| }, | |
| { | |
| "epoch": 0.18, | |
| "grad_norm": 0.057216331362724304, | |
| "learning_rate": 0.0002839458221582006, | |
| "loss": 2.9973451614379885, | |
| "step": 1080 | |
| }, | |
| { | |
| "epoch": 0.18166666666666667, | |
| "grad_norm": 0.05637884512543678, | |
| "learning_rate": 0.0002835768726920654, | |
| "loss": 3.0164566040039062, | |
| "step": 1090 | |
| }, | |
| { | |
| "epoch": 0.18333333333333332, | |
| "grad_norm": 0.05454772338271141, | |
| "learning_rate": 0.00028320397706973886, | |
| "loss": 3.016462707519531, | |
| "step": 1100 | |
| }, | |
| { | |
| "epoch": 0.185, | |
| "grad_norm": 0.057879574596881866, | |
| "learning_rate": 0.00028282714630738226, | |
| "loss": 3.0435638427734375, | |
| "step": 1110 | |
| }, | |
| { | |
| "epoch": 0.18666666666666668, | |
| "grad_norm": 0.05154268071055412, | |
| "learning_rate": 0.0002824463915374096, | |
| "loss": 3.0233779907226563, | |
| "step": 1120 | |
| }, | |
| { | |
| "epoch": 0.18833333333333332, | |
| "grad_norm": 0.056277673691511154, | |
| "learning_rate": 0.0002820617240081587, | |
| "loss": 2.926067924499512, | |
| "step": 1130 | |
| }, | |
| { | |
| "epoch": 0.19, | |
| "grad_norm": 0.05215265601873398, | |
| "learning_rate": 0.00028167315508355903, | |
| "loss": 2.990224075317383, | |
| "step": 1140 | |
| }, | |
| { | |
| "epoch": 0.19166666666666668, | |
| "grad_norm": 0.054222747683525085, | |
| "learning_rate": 0.00028128069624279575, | |
| "loss": 2.9995689392089844, | |
| "step": 1150 | |
| }, | |
| { | |
| "epoch": 0.19333333333333333, | |
| "grad_norm": 0.05429333448410034, | |
| "learning_rate": 0.0002808843590799709, | |
| "loss": 2.9959491729736327, | |
| "step": 1160 | |
| }, | |
| { | |
| "epoch": 0.195, | |
| "grad_norm": 0.05494142323732376, | |
| "learning_rate": 0.0002804841553037607, | |
| "loss": 3.0259002685546874, | |
| "step": 1170 | |
| }, | |
| { | |
| "epoch": 0.19666666666666666, | |
| "grad_norm": 0.0551028698682785, | |
| "learning_rate": 0.00028008009673706957, | |
| "loss": 2.992669677734375, | |
| "step": 1180 | |
| }, | |
| { | |
| "epoch": 0.19833333333333333, | |
| "grad_norm": 0.05398095026612282, | |
| "learning_rate": 0.00027967219531668114, | |
| "loss": 2.932081604003906, | |
| "step": 1190 | |
| }, | |
| { | |
| "epoch": 0.2, | |
| "grad_norm": 0.05642660707235336, | |
| "learning_rate": 0.0002792604630929053, | |
| "loss": 2.9109691619873046, | |
| "step": 1200 | |
| }, | |
| { | |
| "epoch": 0.20166666666666666, | |
| "grad_norm": 0.05668719485402107, | |
| "learning_rate": 0.0002788449122292223, | |
| "loss": 2.938386154174805, | |
| "step": 1210 | |
| }, | |
| { | |
| "epoch": 0.20333333333333334, | |
| "grad_norm": 0.05754353851079941, | |
| "learning_rate": 0.0002784255550019237, | |
| "loss": 2.9342037200927735, | |
| "step": 1220 | |
| }, | |
| { | |
| "epoch": 0.205, | |
| "grad_norm": 0.05338355898857117, | |
| "learning_rate": 0.0002780024037997492, | |
| "loss": 2.96917781829834, | |
| "step": 1230 | |
| }, | |
| { | |
| "epoch": 0.20666666666666667, | |
| "grad_norm": 0.051635079085826874, | |
| "learning_rate": 0.00027757547112352096, | |
| "loss": 2.86716365814209, | |
| "step": 1240 | |
| }, | |
| { | |
| "epoch": 0.20833333333333334, | |
| "grad_norm": 0.05334772914648056, | |
| "learning_rate": 0.00027714476958577445, | |
| "loss": 2.945565605163574, | |
| "step": 1250 | |
| }, | |
| { | |
| "epoch": 0.21, | |
| "grad_norm": 0.052452776581048965, | |
| "learning_rate": 0.00027671031191038527, | |
| "loss": 2.941428375244141, | |
| "step": 1260 | |
| }, | |
| { | |
| "epoch": 0.21166666666666667, | |
| "grad_norm": 0.0512646809220314, | |
| "learning_rate": 0.00027627211093219403, | |
| "loss": 2.8494869232177735, | |
| "step": 1270 | |
| }, | |
| { | |
| "epoch": 0.21333333333333335, | |
| "grad_norm": 0.056696198880672455, | |
| "learning_rate": 0.00027583017959662655, | |
| "loss": 2.886400032043457, | |
| "step": 1280 | |
| }, | |
| { | |
| "epoch": 0.215, | |
| "grad_norm": 0.05387052148580551, | |
| "learning_rate": 0.0002753845309593116, | |
| "loss": 2.9645118713378906, | |
| "step": 1290 | |
| }, | |
| { | |
| "epoch": 0.21666666666666667, | |
| "grad_norm": 0.05135899782180786, | |
| "learning_rate": 0.0002749351781856955, | |
| "loss": 2.9441659927368162, | |
| "step": 1300 | |
| }, | |
| { | |
| "epoch": 0.21833333333333332, | |
| "grad_norm": 0.056282345205545425, | |
| "learning_rate": 0.00027448213455065273, | |
| "loss": 2.8547969818115235, | |
| "step": 1310 | |
| }, | |
| { | |
| "epoch": 0.22, | |
| "grad_norm": 0.05254548415541649, | |
| "learning_rate": 0.00027402541343809415, | |
| "loss": 2.847319412231445, | |
| "step": 1320 | |
| }, | |
| { | |
| "epoch": 0.22166666666666668, | |
| "grad_norm": 0.05182240530848503, | |
| "learning_rate": 0.0002735650283405713, | |
| "loss": 2.7736480712890623, | |
| "step": 1330 | |
| }, | |
| { | |
| "epoch": 0.22333333333333333, | |
| "grad_norm": 0.05136930197477341, | |
| "learning_rate": 0.000273100992858878, | |
| "loss": 2.7611309051513673, | |
| "step": 1340 | |
| }, | |
| { | |
| "epoch": 0.225, | |
| "grad_norm": 0.052184589207172394, | |
| "learning_rate": 0.0002726333207016484, | |
| "loss": 2.841841125488281, | |
| "step": 1350 | |
| }, | |
| { | |
| "epoch": 0.22666666666666666, | |
| "grad_norm": 0.05014161020517349, | |
| "learning_rate": 0.0002721620256849522, | |
| "loss": 2.8447540283203123, | |
| "step": 1360 | |
| }, | |
| { | |
| "epoch": 0.22833333333333333, | |
| "grad_norm": 0.05224721133708954, | |
| "learning_rate": 0.00027168712173188646, | |
| "loss": 2.802615928649902, | |
| "step": 1370 | |
| }, | |
| { | |
| "epoch": 0.23, | |
| "grad_norm": 0.052749648690223694, | |
| "learning_rate": 0.000271208622872164, | |
| "loss": 2.801313781738281, | |
| "step": 1380 | |
| }, | |
| { | |
| "epoch": 0.23166666666666666, | |
| "grad_norm": 0.04991906136274338, | |
| "learning_rate": 0.0002707265432416991, | |
| "loss": 2.7495779037475585, | |
| "step": 1390 | |
| }, | |
| { | |
| "epoch": 0.23333333333333334, | |
| "grad_norm": 0.050237707793712616, | |
| "learning_rate": 0.0002702408970821903, | |
| "loss": 2.8282100677490236, | |
| "step": 1400 | |
| }, | |
| { | |
| "epoch": 0.235, | |
| "grad_norm": 0.05390395596623421, | |
| "learning_rate": 0.0002697516987406988, | |
| "loss": 2.7946498870849608, | |
| "step": 1410 | |
| }, | |
| { | |
| "epoch": 0.23666666666666666, | |
| "grad_norm": 0.0502890981733799, | |
| "learning_rate": 0.0002692589626692255, | |
| "loss": 2.825344467163086, | |
| "step": 1420 | |
| }, | |
| { | |
| "epoch": 0.23833333333333334, | |
| "grad_norm": 0.04883512109518051, | |
| "learning_rate": 0.0002687627034242834, | |
| "loss": 2.7205974578857424, | |
| "step": 1430 | |
| }, | |
| { | |
| "epoch": 0.24, | |
| "grad_norm": 0.052392296493053436, | |
| "learning_rate": 0.00026826293566646804, | |
| "loss": 2.8439666748046877, | |
| "step": 1440 | |
| }, | |
| { | |
| "epoch": 0.24166666666666667, | |
| "grad_norm": 0.05233413726091385, | |
| "learning_rate": 0.00026775967416002404, | |
| "loss": 2.724414253234863, | |
| "step": 1450 | |
| }, | |
| { | |
| "epoch": 0.24333333333333335, | |
| "grad_norm": 0.050031282007694244, | |
| "learning_rate": 0.0002672529337724092, | |
| "loss": 2.7721183776855467, | |
| "step": 1460 | |
| }, | |
| { | |
| "epoch": 0.245, | |
| "grad_norm": 0.050909098237752914, | |
| "learning_rate": 0.00026674272947385506, | |
| "loss": 2.732928466796875, | |
| "step": 1470 | |
| }, | |
| { | |
| "epoch": 0.24666666666666667, | |
| "grad_norm": 0.05034490302205086, | |
| "learning_rate": 0.00026622907633692483, | |
| "loss": 2.7958042144775392, | |
| "step": 1480 | |
| }, | |
| { | |
| "epoch": 0.24833333333333332, | |
| "grad_norm": 0.04935199022293091, | |
| "learning_rate": 0.0002657119895360679, | |
| "loss": 2.7595340728759767, | |
| "step": 1490 | |
| }, | |
| { | |
| "epoch": 0.25, | |
| "grad_norm": 0.05351424962282181, | |
| "learning_rate": 0.0002651914843471718, | |
| "loss": 2.759909439086914, | |
| "step": 1500 | |
| }, | |
| { | |
| "epoch": 0.25166666666666665, | |
| "grad_norm": 0.05047458037734032, | |
| "learning_rate": 0.0002646675761471109, | |
| "loss": 2.7807662963867186, | |
| "step": 1510 | |
| }, | |
| { | |
| "epoch": 0.25333333333333335, | |
| "grad_norm": 0.05166192352771759, | |
| "learning_rate": 0.0002641402804132917, | |
| "loss": 2.7948539733886717, | |
| "step": 1520 | |
| }, | |
| { | |
| "epoch": 0.255, | |
| "grad_norm": 0.05240360647439957, | |
| "learning_rate": 0.0002636096127231964, | |
| "loss": 2.758434295654297, | |
| "step": 1530 | |
| }, | |
| { | |
| "epoch": 0.25666666666666665, | |
| "grad_norm": 0.0527547188103199, | |
| "learning_rate": 0.00026307558875392185, | |
| "loss": 2.696501541137695, | |
| "step": 1540 | |
| }, | |
| { | |
| "epoch": 0.25833333333333336, | |
| "grad_norm": 0.04855458065867424, | |
| "learning_rate": 0.00026253822428171704, | |
| "loss": 2.7219696044921875, | |
| "step": 1550 | |
| }, | |
| { | |
| "epoch": 0.26, | |
| "grad_norm": 0.050831303000450134, | |
| "learning_rate": 0.00026199753518151665, | |
| "loss": 2.6843378067016603, | |
| "step": 1560 | |
| }, | |
| { | |
| "epoch": 0.26166666666666666, | |
| "grad_norm": 0.04829718917608261, | |
| "learning_rate": 0.00026145353742647234, | |
| "loss": 2.7331058502197267, | |
| "step": 1570 | |
| }, | |
| { | |
| "epoch": 0.2633333333333333, | |
| "grad_norm": 0.05254271253943443, | |
| "learning_rate": 0.0002609062470874807, | |
| "loss": 2.697750473022461, | |
| "step": 1580 | |
| }, | |
| { | |
| "epoch": 0.265, | |
| "grad_norm": 0.05015081539750099, | |
| "learning_rate": 0.0002603556803327086, | |
| "loss": 2.7325275421142576, | |
| "step": 1590 | |
| }, | |
| { | |
| "epoch": 0.26666666666666666, | |
| "grad_norm": 0.049517519772052765, | |
| "learning_rate": 0.00025980185342711537, | |
| "loss": 2.692926025390625, | |
| "step": 1600 | |
| }, | |
| { | |
| "epoch": 0.2683333333333333, | |
| "grad_norm": 0.04981537163257599, | |
| "learning_rate": 0.00025924478273197244, | |
| "loss": 2.696280860900879, | |
| "step": 1610 | |
| }, | |
| { | |
| "epoch": 0.27, | |
| "grad_norm": 0.04821797460317612, | |
| "learning_rate": 0.00025868448470438, | |
| "loss": 2.742702102661133, | |
| "step": 1620 | |
| }, | |
| { | |
| "epoch": 0.27166666666666667, | |
| "grad_norm": 0.04918017238378525, | |
| "learning_rate": 0.0002581209758967807, | |
| "loss": 2.7045921325683593, | |
| "step": 1630 | |
| }, | |
| { | |
| "epoch": 0.2733333333333333, | |
| "grad_norm": 0.046356577426195145, | |
| "learning_rate": 0.0002575542729564708, | |
| "loss": 2.740824317932129, | |
| "step": 1640 | |
| }, | |
| { | |
| "epoch": 0.275, | |
| "grad_norm": 0.05072147026658058, | |
| "learning_rate": 0.00025698439262510824, | |
| "loss": 2.6823020935058595, | |
| "step": 1650 | |
| }, | |
| { | |
| "epoch": 0.27666666666666667, | |
| "grad_norm": 0.04926977679133415, | |
| "learning_rate": 0.00025641135173821826, | |
| "loss": 2.684683609008789, | |
| "step": 1660 | |
| }, | |
| { | |
| "epoch": 0.2783333333333333, | |
| "grad_norm": 0.04812793433666229, | |
| "learning_rate": 0.0002558351672246957, | |
| "loss": 2.6484798431396483, | |
| "step": 1670 | |
| }, | |
| { | |
| "epoch": 0.28, | |
| "grad_norm": 0.05095838010311127, | |
| "learning_rate": 0.00025525585610630517, | |
| "loss": 2.598258209228516, | |
| "step": 1680 | |
| }, | |
| { | |
| "epoch": 0.2816666666666667, | |
| "grad_norm": 0.04753347486257553, | |
| "learning_rate": 0.0002546734354971782, | |
| "loss": 2.7237998962402346, | |
| "step": 1690 | |
| }, | |
| { | |
| "epoch": 0.2833333333333333, | |
| "grad_norm": 0.04822186380624771, | |
| "learning_rate": 0.00025408792260330745, | |
| "loss": 2.6640552520751952, | |
| "step": 1700 | |
| }, | |
| { | |
| "epoch": 0.285, | |
| "grad_norm": 0.04903876781463623, | |
| "learning_rate": 0.0002534993347220384, | |
| "loss": 2.6676206588745117, | |
| "step": 1710 | |
| }, | |
| { | |
| "epoch": 0.2866666666666667, | |
| "grad_norm": 0.05019659548997879, | |
| "learning_rate": 0.0002529076892415587, | |
| "loss": 2.702348327636719, | |
| "step": 1720 | |
| }, | |
| { | |
| "epoch": 0.28833333333333333, | |
| "grad_norm": 0.0495338961482048, | |
| "learning_rate": 0.0002523130036403841, | |
| "loss": 2.708498001098633, | |
| "step": 1730 | |
| }, | |
| { | |
| "epoch": 0.29, | |
| "grad_norm": 0.0475877970457077, | |
| "learning_rate": 0.0002517152954868422, | |
| "loss": 2.687460517883301, | |
| "step": 1740 | |
| }, | |
| { | |
| "epoch": 0.2916666666666667, | |
| "grad_norm": 0.05122576653957367, | |
| "learning_rate": 0.0002511145824385536, | |
| "loss": 2.6367557525634764, | |
| "step": 1750 | |
| }, | |
| { | |
| "epoch": 0.29333333333333333, | |
| "grad_norm": 0.04755600541830063, | |
| "learning_rate": 0.00025051088224191, | |
| "loss": 2.6142791748046874, | |
| "step": 1760 | |
| }, | |
| { | |
| "epoch": 0.295, | |
| "grad_norm": 0.04830149933695793, | |
| "learning_rate": 0.0002499042127315502, | |
| "loss": 2.6434532165527345, | |
| "step": 1770 | |
| }, | |
| { | |
| "epoch": 0.2966666666666667, | |
| "grad_norm": 0.05104847997426987, | |
| "learning_rate": 0.0002492945918298331, | |
| "loss": 2.651753044128418, | |
| "step": 1780 | |
| }, | |
| { | |
| "epoch": 0.29833333333333334, | |
| "grad_norm": 0.04865805059671402, | |
| "learning_rate": 0.00024868203754630804, | |
| "loss": 2.5990322113037108, | |
| "step": 1790 | |
| }, | |
| { | |
| "epoch": 0.3, | |
| "grad_norm": 0.04887863248586655, | |
| "learning_rate": 0.00024806656797718316, | |
| "loss": 2.6493152618408202, | |
| "step": 1800 | |
| }, | |
| { | |
| "epoch": 0.3016666666666667, | |
| "grad_norm": 0.05229433625936508, | |
| "learning_rate": 0.0002474482013047904, | |
| "loss": 2.5940528869628907, | |
| "step": 1810 | |
| }, | |
| { | |
| "epoch": 0.30333333333333334, | |
| "grad_norm": 0.04907260835170746, | |
| "learning_rate": 0.00024682695579704867, | |
| "loss": 2.5858959197998046, | |
| "step": 1820 | |
| }, | |
| { | |
| "epoch": 0.305, | |
| "grad_norm": 0.04654543846845627, | |
| "learning_rate": 0.00024620284980692394, | |
| "loss": 2.655795860290527, | |
| "step": 1830 | |
| }, | |
| { | |
| "epoch": 0.30666666666666664, | |
| "grad_norm": 0.04603976756334305, | |
| "learning_rate": 0.00024557590177188735, | |
| "loss": 2.6598703384399416, | |
| "step": 1840 | |
| }, | |
| { | |
| "epoch": 0.30833333333333335, | |
| "grad_norm": 0.04806356877088547, | |
| "learning_rate": 0.0002449461302133701, | |
| "loss": 2.5390226364135744, | |
| "step": 1850 | |
| }, | |
| { | |
| "epoch": 0.31, | |
| "grad_norm": 0.05908679962158203, | |
| "learning_rate": 0.0002443135537362166, | |
| "loss": 2.6288856506347655, | |
| "step": 1860 | |
| }, | |
| { | |
| "epoch": 0.31166666666666665, | |
| "grad_norm": 0.04684751480817795, | |
| "learning_rate": 0.00024367819102813487, | |
| "loss": 2.5432594299316404, | |
| "step": 1870 | |
| }, | |
| { | |
| "epoch": 0.31333333333333335, | |
| "grad_norm": 0.04680655896663666, | |
| "learning_rate": 0.00024304006085914412, | |
| "loss": 2.5751720428466798, | |
| "step": 1880 | |
| }, | |
| { | |
| "epoch": 0.315, | |
| "grad_norm": 0.050615034997463226, | |
| "learning_rate": 0.0002423991820810207, | |
| "loss": 2.5600002288818358, | |
| "step": 1890 | |
| }, | |
| { | |
| "epoch": 0.31666666666666665, | |
| "grad_norm": 0.047421351075172424, | |
| "learning_rate": 0.0002417555736267408, | |
| "loss": 2.557647705078125, | |
| "step": 1900 | |
| }, | |
| { | |
| "epoch": 0.31833333333333336, | |
| "grad_norm": 0.04778824374079704, | |
| "learning_rate": 0.00024110925450992137, | |
| "loss": 2.5525718688964845, | |
| "step": 1910 | |
| }, | |
| { | |
| "epoch": 0.32, | |
| "grad_norm": 0.04954797402024269, | |
| "learning_rate": 0.0002404602438242583, | |
| "loss": 2.575938034057617, | |
| "step": 1920 | |
| }, | |
| { | |
| "epoch": 0.32166666666666666, | |
| "grad_norm": 0.050552625209093094, | |
| "learning_rate": 0.00023980856074296236, | |
| "loss": 2.5811349868774416, | |
| "step": 1930 | |
| }, | |
| { | |
| "epoch": 0.3233333333333333, | |
| "grad_norm": 0.048965174704790115, | |
| "learning_rate": 0.00023915422451819282, | |
| "loss": 2.631545639038086, | |
| "step": 1940 | |
| }, | |
| { | |
| "epoch": 0.325, | |
| "grad_norm": 0.04841230437159538, | |
| "learning_rate": 0.00023849725448048863, | |
| "loss": 2.5535526275634766, | |
| "step": 1950 | |
| }, | |
| { | |
| "epoch": 0.32666666666666666, | |
| "grad_norm": 0.04769090935587883, | |
| "learning_rate": 0.00023783767003819747, | |
| "loss": 2.5577981948852537, | |
| "step": 1960 | |
| }, | |
| { | |
| "epoch": 0.3283333333333333, | |
| "grad_norm": 0.04834979772567749, | |
| "learning_rate": 0.00023717549067690225, | |
| "loss": 2.5483366012573243, | |
| "step": 1970 | |
| }, | |
| { | |
| "epoch": 0.33, | |
| "grad_norm": 0.048443444073200226, | |
| "learning_rate": 0.0002365107359588455, | |
| "loss": 2.5292953491210937, | |
| "step": 1980 | |
| }, | |
| { | |
| "epoch": 0.33166666666666667, | |
| "grad_norm": 0.05136331170797348, | |
| "learning_rate": 0.00023584342552235163, | |
| "loss": 2.5718793869018555, | |
| "step": 1990 | |
| }, | |
| { | |
| "epoch": 0.3333333333333333, | |
| "grad_norm": 0.047627076506614685, | |
| "learning_rate": 0.0002351735790812465, | |
| "loss": 2.577315902709961, | |
| "step": 2000 | |
| }, | |
| { | |
| "epoch": 0.335, | |
| "grad_norm": 0.04710236191749573, | |
| "learning_rate": 0.00023450121642427506, | |
| "loss": 2.5738367080688476, | |
| "step": 2010 | |
| }, | |
| { | |
| "epoch": 0.33666666666666667, | |
| "grad_norm": 0.04677637666463852, | |
| "learning_rate": 0.00023382635741451717, | |
| "loss": 2.5813961029052734, | |
| "step": 2020 | |
| }, | |
| { | |
| "epoch": 0.3383333333333333, | |
| "grad_norm": 0.04876928776502609, | |
| "learning_rate": 0.00023314902198880006, | |
| "loss": 2.543820381164551, | |
| "step": 2030 | |
| }, | |
| { | |
| "epoch": 0.34, | |
| "grad_norm": 0.04665738344192505, | |
| "learning_rate": 0.00023246923015711005, | |
| "loss": 2.5952043533325195, | |
| "step": 2040 | |
| }, | |
| { | |
| "epoch": 0.3416666666666667, | |
| "grad_norm": 0.04646483436226845, | |
| "learning_rate": 0.00023178700200200109, | |
| "loss": 2.552678680419922, | |
| "step": 2050 | |
| }, | |
| { | |
| "epoch": 0.3433333333333333, | |
| "grad_norm": 0.05093228071928024, | |
| "learning_rate": 0.00023110235767800138, | |
| "loss": 2.550699806213379, | |
| "step": 2060 | |
| }, | |
| { | |
| "epoch": 0.345, | |
| "grad_norm": 0.046919822692871094, | |
| "learning_rate": 0.00023041531741101816, | |
| "loss": 2.5460886001586913, | |
| "step": 2070 | |
| }, | |
| { | |
| "epoch": 0.3466666666666667, | |
| "grad_norm": 0.04563593491911888, | |
| "learning_rate": 0.00022972590149774021, | |
| "loss": 2.4875654220581054, | |
| "step": 2080 | |
| }, | |
| { | |
| "epoch": 0.34833333333333333, | |
| "grad_norm": 0.05062221735715866, | |
| "learning_rate": 0.00022903413030503806, | |
| "loss": 2.5220041275024414, | |
| "step": 2090 | |
| }, | |
| { | |
| "epoch": 0.35, | |
| "grad_norm": 0.04856550693511963, | |
| "learning_rate": 0.00022834002426936237, | |
| "loss": 2.5281932830810545, | |
| "step": 2100 | |
| }, | |
| { | |
| "epoch": 0.3516666666666667, | |
| "grad_norm": 0.0449577234685421, | |
| "learning_rate": 0.00022764360389614034, | |
| "loss": 2.477060890197754, | |
| "step": 2110 | |
| }, | |
| { | |
| "epoch": 0.35333333333333333, | |
| "grad_norm": 0.04712613299489021, | |
| "learning_rate": 0.0002269448897591697, | |
| "loss": 2.478282356262207, | |
| "step": 2120 | |
| }, | |
| { | |
| "epoch": 0.355, | |
| "grad_norm": 0.04585791751742363, | |
| "learning_rate": 0.0002262439025000111, | |
| "loss": 2.5013359069824217, | |
| "step": 2130 | |
| }, | |
| { | |
| "epoch": 0.3566666666666667, | |
| "grad_norm": 0.044884052127599716, | |
| "learning_rate": 0.0002255406628273783, | |
| "loss": 2.439927101135254, | |
| "step": 2140 | |
| }, | |
| { | |
| "epoch": 0.35833333333333334, | |
| "grad_norm": 0.04662775993347168, | |
| "learning_rate": 0.00022483519151652616, | |
| "loss": 2.55285530090332, | |
| "step": 2150 | |
| }, | |
| { | |
| "epoch": 0.36, | |
| "grad_norm": 0.04903047904372215, | |
| "learning_rate": 0.00022412750940863725, | |
| "loss": 2.493204879760742, | |
| "step": 2160 | |
| }, | |
| { | |
| "epoch": 0.3616666666666667, | |
| "grad_norm": 0.04704448580741882, | |
| "learning_rate": 0.00022341763741020592, | |
| "loss": 2.4445751190185545, | |
| "step": 2170 | |
| }, | |
| { | |
| "epoch": 0.36333333333333334, | |
| "grad_norm": 0.04714423418045044, | |
| "learning_rate": 0.00022270559649242066, | |
| "loss": 2.5784980773925783, | |
| "step": 2180 | |
| }, | |
| { | |
| "epoch": 0.365, | |
| "grad_norm": 0.04778430610895157, | |
| "learning_rate": 0.0002219914076905447, | |
| "loss": 2.5525665283203125, | |
| "step": 2190 | |
| }, | |
| { | |
| "epoch": 0.36666666666666664, | |
| "grad_norm": 0.04864959418773651, | |
| "learning_rate": 0.00022127509210329444, | |
| "loss": 2.5589746475219726, | |
| "step": 2200 | |
| }, | |
| { | |
| "epoch": 0.36833333333333335, | |
| "grad_norm": 0.0469190813601017, | |
| "learning_rate": 0.00022055667089221638, | |
| "loss": 2.5075405120849608, | |
| "step": 2210 | |
| }, | |
| { | |
| "epoch": 0.37, | |
| "grad_norm": 0.04603331536054611, | |
| "learning_rate": 0.00021983616528106162, | |
| "loss": 2.5121870040893555, | |
| "step": 2220 | |
| }, | |
| { | |
| "epoch": 0.37166666666666665, | |
| "grad_norm": 0.049395956099033356, | |
| "learning_rate": 0.00021911359655515925, | |
| "loss": 2.4887548446655274, | |
| "step": 2230 | |
| }, | |
| { | |
| "epoch": 0.37333333333333335, | |
| "grad_norm": 0.04528217762708664, | |
| "learning_rate": 0.00021838898606078708, | |
| "loss": 2.546308135986328, | |
| "step": 2240 | |
| }, | |
| { | |
| "epoch": 0.375, | |
| "grad_norm": 0.04689454659819603, | |
| "learning_rate": 0.00021766235520454146, | |
| "loss": 2.51337890625, | |
| "step": 2250 | |
| }, | |
| { | |
| "epoch": 0.37666666666666665, | |
| "grad_norm": 0.04646513611078262, | |
| "learning_rate": 0.00021693372545270465, | |
| "loss": 2.5064132690429686, | |
| "step": 2260 | |
| }, | |
| { | |
| "epoch": 0.37833333333333335, | |
| "grad_norm": 0.046086180955171585, | |
| "learning_rate": 0.00021620311833061073, | |
| "loss": 2.459269714355469, | |
| "step": 2270 | |
| }, | |
| { | |
| "epoch": 0.38, | |
| "grad_norm": 0.04597856104373932, | |
| "learning_rate": 0.00021547055542200962, | |
| "loss": 2.4114471435546876, | |
| "step": 2280 | |
| }, | |
| { | |
| "epoch": 0.38166666666666665, | |
| "grad_norm": 0.04976482689380646, | |
| "learning_rate": 0.00021473605836842951, | |
| "loss": 2.517044448852539, | |
| "step": 2290 | |
| }, | |
| { | |
| "epoch": 0.38333333333333336, | |
| "grad_norm": 0.0472680926322937, | |
| "learning_rate": 0.00021399964886853752, | |
| "loss": 2.4628728866577148, | |
| "step": 2300 | |
| }, | |
| { | |
| "epoch": 0.385, | |
| "grad_norm": 0.04661698266863823, | |
| "learning_rate": 0.00021326134867749865, | |
| "loss": 2.4527189254760744, | |
| "step": 2310 | |
| }, | |
| { | |
| "epoch": 0.38666666666666666, | |
| "grad_norm": 0.048806458711624146, | |
| "learning_rate": 0.00021252117960633316, | |
| "loss": 2.5331987380981444, | |
| "step": 2320 | |
| }, | |
| { | |
| "epoch": 0.3883333333333333, | |
| "grad_norm": 0.04546506330370903, | |
| "learning_rate": 0.0002117791635212721, | |
| "loss": 2.4684768676757813, | |
| "step": 2330 | |
| }, | |
| { | |
| "epoch": 0.39, | |
| "grad_norm": 0.047199103981256485, | |
| "learning_rate": 0.00021103532234311137, | |
| "loss": 2.4765689849853514, | |
| "step": 2340 | |
| }, | |
| { | |
| "epoch": 0.39166666666666666, | |
| "grad_norm": 0.04428820312023163, | |
| "learning_rate": 0.00021028967804656416, | |
| "loss": 2.484756088256836, | |
| "step": 2350 | |
| }, | |
| { | |
| "epoch": 0.3933333333333333, | |
| "grad_norm": 0.04644942283630371, | |
| "learning_rate": 0.00020954225265961185, | |
| "loss": 2.4731876373291017, | |
| "step": 2360 | |
| }, | |
| { | |
| "epoch": 0.395, | |
| "grad_norm": 0.07739172875881195, | |
| "learning_rate": 0.0002087930682628532, | |
| "loss": 2.5205495834350584, | |
| "step": 2370 | |
| }, | |
| { | |
| "epoch": 0.39666666666666667, | |
| "grad_norm": 0.04783055931329727, | |
| "learning_rate": 0.00020804214698885178, | |
| "loss": 2.419384002685547, | |
| "step": 2380 | |
| }, | |
| { | |
| "epoch": 0.3983333333333333, | |
| "grad_norm": 0.04736848548054695, | |
| "learning_rate": 0.0002072895110214826, | |
| "loss": 2.4492137908935545, | |
| "step": 2390 | |
| }, | |
| { | |
| "epoch": 0.4, | |
| "grad_norm": 0.046206265687942505, | |
| "learning_rate": 0.0002065351825952763, | |
| "loss": 2.541931915283203, | |
| "step": 2400 | |
| }, | |
| { | |
| "epoch": 0.40166666666666667, | |
| "grad_norm": 0.04697568714618683, | |
| "learning_rate": 0.00020577918399476269, | |
| "loss": 2.4992557525634767, | |
| "step": 2410 | |
| }, | |
| { | |
| "epoch": 0.4033333333333333, | |
| "grad_norm": 0.047801993787288666, | |
| "learning_rate": 0.00020502153755381207, | |
| "loss": 2.5004581451416015, | |
| "step": 2420 | |
| }, | |
| { | |
| "epoch": 0.405, | |
| "grad_norm": 0.044472649693489075, | |
| "learning_rate": 0.0002042622656549757, | |
| "loss": 2.412652587890625, | |
| "step": 2430 | |
| }, | |
| { | |
| "epoch": 0.4066666666666667, | |
| "grad_norm": 0.046403296291828156, | |
| "learning_rate": 0.00020350139072882446, | |
| "loss": 2.398054504394531, | |
| "step": 2440 | |
| }, | |
| { | |
| "epoch": 0.4083333333333333, | |
| "grad_norm": 0.043542440980672836, | |
| "learning_rate": 0.000202738935253286, | |
| "loss": 2.4214170455932615, | |
| "step": 2450 | |
| }, | |
| { | |
| "epoch": 0.41, | |
| "grad_norm": 0.047896455973386765, | |
| "learning_rate": 0.00020197492175298115, | |
| "loss": 2.5215213775634764, | |
| "step": 2460 | |
| }, | |
| { | |
| "epoch": 0.4116666666666667, | |
| "grad_norm": 0.04632239043712616, | |
| "learning_rate": 0.00020120937279855815, | |
| "loss": 2.4218860626220704, | |
| "step": 2470 | |
| }, | |
| { | |
| "epoch": 0.41333333333333333, | |
| "grad_norm": 0.04408172145485878, | |
| "learning_rate": 0.00020044231100602595, | |
| "loss": 2.43825740814209, | |
| "step": 2480 | |
| }, | |
| { | |
| "epoch": 0.415, | |
| "grad_norm": 0.044197119772434235, | |
| "learning_rate": 0.00019967375903608595, | |
| "loss": 2.453116607666016, | |
| "step": 2490 | |
| }, | |
| { | |
| "epoch": 0.4166666666666667, | |
| "grad_norm": 0.04552914947271347, | |
| "learning_rate": 0.00019890373959346295, | |
| "loss": 2.4558712005615235, | |
| "step": 2500 | |
| }, | |
| { | |
| "epoch": 0.41833333333333333, | |
| "grad_norm": 0.04537361487746239, | |
| "learning_rate": 0.00019813227542623386, | |
| "loss": 2.410854148864746, | |
| "step": 2510 | |
| }, | |
| { | |
| "epoch": 0.42, | |
| "grad_norm": 0.04683098942041397, | |
| "learning_rate": 0.00019735938932515613, | |
| "loss": 2.468762969970703, | |
| "step": 2520 | |
| }, | |
| { | |
| "epoch": 0.4216666666666667, | |
| "grad_norm": 0.04723796620965004, | |
| "learning_rate": 0.00019658510412299423, | |
| "loss": 2.4386947631835936, | |
| "step": 2530 | |
| }, | |
| { | |
| "epoch": 0.42333333333333334, | |
| "grad_norm": 0.04872257262468338, | |
| "learning_rate": 0.00019580944269384528, | |
| "loss": 2.446548843383789, | |
| "step": 2540 | |
| }, | |
| { | |
| "epoch": 0.425, | |
| "grad_norm": 0.04530220106244087, | |
| "learning_rate": 0.0001950324279524629, | |
| "loss": 2.3962860107421875, | |
| "step": 2550 | |
| }, | |
| { | |
| "epoch": 0.4266666666666667, | |
| "grad_norm": 0.0464116670191288, | |
| "learning_rate": 0.0001942540828535808, | |
| "loss": 2.4241104125976562, | |
| "step": 2560 | |
| }, | |
| { | |
| "epoch": 0.42833333333333334, | |
| "grad_norm": 0.04835973307490349, | |
| "learning_rate": 0.00019347443039123433, | |
| "loss": 2.489682197570801, | |
| "step": 2570 | |
| }, | |
| { | |
| "epoch": 0.43, | |
| "grad_norm": 0.04714079201221466, | |
| "learning_rate": 0.0001926934935980813, | |
| "loss": 2.4189998626708986, | |
| "step": 2580 | |
| }, | |
| { | |
| "epoch": 0.43166666666666664, | |
| "grad_norm": 0.0473017580807209, | |
| "learning_rate": 0.00019191129554472128, | |
| "loss": 2.450688934326172, | |
| "step": 2590 | |
| }, | |
| { | |
| "epoch": 0.43333333333333335, | |
| "grad_norm": 0.044971223920583725, | |
| "learning_rate": 0.0001911278593390145, | |
| "loss": 2.4232696533203124, | |
| "step": 2600 | |
| }, | |
| { | |
| "epoch": 0.435, | |
| "grad_norm": 0.04822346568107605, | |
| "learning_rate": 0.00019034320812539885, | |
| "loss": 2.38757209777832, | |
| "step": 2610 | |
| }, | |
| { | |
| "epoch": 0.43666666666666665, | |
| "grad_norm": 0.04403518885374069, | |
| "learning_rate": 0.00018955736508420617, | |
| "loss": 2.400294876098633, | |
| "step": 2620 | |
| }, | |
| { | |
| "epoch": 0.43833333333333335, | |
| "grad_norm": 0.04422234743833542, | |
| "learning_rate": 0.00018877035343097765, | |
| "loss": 2.395349884033203, | |
| "step": 2630 | |
| }, | |
| { | |
| "epoch": 0.44, | |
| "grad_norm": 0.05023488029837608, | |
| "learning_rate": 0.00018798219641577785, | |
| "loss": 2.4216394424438477, | |
| "step": 2640 | |
| }, | |
| { | |
| "epoch": 0.44166666666666665, | |
| "grad_norm": 0.04575344920158386, | |
| "learning_rate": 0.00018719291732250773, | |
| "loss": 2.4583833694458006, | |
| "step": 2650 | |
| }, | |
| { | |
| "epoch": 0.44333333333333336, | |
| "grad_norm": 0.044867198914289474, | |
| "learning_rate": 0.000186402539468217, | |
| "loss": 2.495341682434082, | |
| "step": 2660 | |
| }, | |
| { | |
| "epoch": 0.445, | |
| "grad_norm": 0.04729311540722847, | |
| "learning_rate": 0.00018561108620241524, | |
| "loss": 2.3960248947143556, | |
| "step": 2670 | |
| }, | |
| { | |
| "epoch": 0.44666666666666666, | |
| "grad_norm": 0.044369276612997055, | |
| "learning_rate": 0.000184818580906382, | |
| "loss": 2.3665014266967774, | |
| "step": 2680 | |
| }, | |
| { | |
| "epoch": 0.4483333333333333, | |
| "grad_norm": 0.04449554532766342, | |
| "learning_rate": 0.00018402504699247625, | |
| "loss": 2.4309972763061523, | |
| "step": 2690 | |
| }, | |
| { | |
| "epoch": 0.45, | |
| "grad_norm": 0.05088217183947563, | |
| "learning_rate": 0.0001832305079034443, | |
| "loss": 2.4841537475585938, | |
| "step": 2700 | |
| }, | |
| { | |
| "epoch": 0.45166666666666666, | |
| "grad_norm": 0.04597931355237961, | |
| "learning_rate": 0.00018243498711172803, | |
| "loss": 2.4378997802734377, | |
| "step": 2710 | |
| }, | |
| { | |
| "epoch": 0.4533333333333333, | |
| "grad_norm": 0.04585069790482521, | |
| "learning_rate": 0.00018163850811877047, | |
| "loss": 2.3535308837890625, | |
| "step": 2720 | |
| }, | |
| { | |
| "epoch": 0.455, | |
| "grad_norm": 0.04481475055217743, | |
| "learning_rate": 0.00018084109445432245, | |
| "loss": 2.38321533203125, | |
| "step": 2730 | |
| }, | |
| { | |
| "epoch": 0.45666666666666667, | |
| "grad_norm": 0.045594822615385056, | |
| "learning_rate": 0.00018004276967574682, | |
| "loss": 2.357186126708984, | |
| "step": 2740 | |
| }, | |
| { | |
| "epoch": 0.4583333333333333, | |
| "grad_norm": 0.04671576991677284, | |
| "learning_rate": 0.00017924355736732294, | |
| "loss": 2.3952842712402345, | |
| "step": 2750 | |
| }, | |
| { | |
| "epoch": 0.46, | |
| "grad_norm": 0.047669801861047745, | |
| "learning_rate": 0.0001784434811395495, | |
| "loss": 2.3996456146240233, | |
| "step": 2760 | |
| }, | |
| { | |
| "epoch": 0.46166666666666667, | |
| "grad_norm": 0.043536290526390076, | |
| "learning_rate": 0.00017764256462844756, | |
| "loss": 2.433817672729492, | |
| "step": 2770 | |
| }, | |
| { | |
| "epoch": 0.4633333333333333, | |
| "grad_norm": 0.04813670367002487, | |
| "learning_rate": 0.00017684083149486186, | |
| "loss": 2.4222438812255858, | |
| "step": 2780 | |
| }, | |
| { | |
| "epoch": 0.465, | |
| "grad_norm": 0.04439646378159523, | |
| "learning_rate": 0.000176038305423762, | |
| "loss": 2.380870056152344, | |
| "step": 2790 | |
| }, | |
| { | |
| "epoch": 0.4666666666666667, | |
| "grad_norm": 0.04823291301727295, | |
| "learning_rate": 0.00017523501012354264, | |
| "loss": 2.3966320037841795, | |
| "step": 2800 | |
| }, | |
| { | |
| "epoch": 0.4683333333333333, | |
| "grad_norm": 0.047504037618637085, | |
| "learning_rate": 0.00017443096932532335, | |
| "loss": 2.3766799926757813, | |
| "step": 2810 | |
| }, | |
| { | |
| "epoch": 0.47, | |
| "grad_norm": 0.046188633888959885, | |
| "learning_rate": 0.0001736262067822471, | |
| "loss": 2.3464776992797853, | |
| "step": 2820 | |
| }, | |
| { | |
| "epoch": 0.4716666666666667, | |
| "grad_norm": 0.045701149851083755, | |
| "learning_rate": 0.0001728207462687791, | |
| "loss": 2.410634994506836, | |
| "step": 2830 | |
| }, | |
| { | |
| "epoch": 0.47333333333333333, | |
| "grad_norm": 0.04649294540286064, | |
| "learning_rate": 0.00017201461158000394, | |
| "loss": 2.3622270584106446, | |
| "step": 2840 | |
| }, | |
| { | |
| "epoch": 0.475, | |
| "grad_norm": 0.044418223202228546, | |
| "learning_rate": 0.00017120782653092282, | |
| "loss": 2.3322967529296874, | |
| "step": 2850 | |
| }, | |
| { | |
| "epoch": 0.4766666666666667, | |
| "grad_norm": 0.04588953033089638, | |
| "learning_rate": 0.0001704004149557502, | |
| "loss": 2.3850997924804687, | |
| "step": 2860 | |
| }, | |
| { | |
| "epoch": 0.47833333333333333, | |
| "grad_norm": 0.045951224863529205, | |
| "learning_rate": 0.00016959240070720931, | |
| "loss": 2.3232908248901367, | |
| "step": 2870 | |
| }, | |
| { | |
| "epoch": 0.48, | |
| "grad_norm": 0.04799751937389374, | |
| "learning_rate": 0.0001687838076558278, | |
| "loss": 2.394255828857422, | |
| "step": 2880 | |
| }, | |
| { | |
| "epoch": 0.4816666666666667, | |
| "grad_norm": 0.04349227622151375, | |
| "learning_rate": 0.00016797465968923248, | |
| "loss": 2.3627696990966798, | |
| "step": 2890 | |
| }, | |
| { | |
| "epoch": 0.48333333333333334, | |
| "grad_norm": 0.04931052029132843, | |
| "learning_rate": 0.00016716498071144345, | |
| "loss": 2.2932670593261717, | |
| "step": 2900 | |
| }, | |
| { | |
| "epoch": 0.485, | |
| "grad_norm": 0.046034786850214005, | |
| "learning_rate": 0.00016635479464216808, | |
| "loss": 2.3476810455322266, | |
| "step": 2910 | |
| }, | |
| { | |
| "epoch": 0.4866666666666667, | |
| "grad_norm": 0.04429607465863228, | |
| "learning_rate": 0.00016554412541609445, | |
| "loss": 2.372750473022461, | |
| "step": 2920 | |
| }, | |
| { | |
| "epoch": 0.48833333333333334, | |
| "grad_norm": 0.04294951632618904, | |
| "learning_rate": 0.00016473299698218405, | |
| "loss": 2.364425277709961, | |
| "step": 2930 | |
| }, | |
| { | |
| "epoch": 0.49, | |
| "grad_norm": 0.04650357365608215, | |
| "learning_rate": 0.0001639214333029645, | |
| "loss": 2.416010093688965, | |
| "step": 2940 | |
| }, | |
| { | |
| "epoch": 0.49166666666666664, | |
| "grad_norm": 0.04426836222410202, | |
| "learning_rate": 0.00016310945835382133, | |
| "loss": 2.37786865234375, | |
| "step": 2950 | |
| }, | |
| { | |
| "epoch": 0.49333333333333335, | |
| "grad_norm": 0.04512490704655647, | |
| "learning_rate": 0.00016229709612229014, | |
| "loss": 2.278778839111328, | |
| "step": 2960 | |
| }, | |
| { | |
| "epoch": 0.495, | |
| "grad_norm": 0.04730796068906784, | |
| "learning_rate": 0.00016148437060734753, | |
| "loss": 2.3443241119384766, | |
| "step": 2970 | |
| }, | |
| { | |
| "epoch": 0.49666666666666665, | |
| "grad_norm": 0.04488737881183624, | |
| "learning_rate": 0.00016067130581870232, | |
| "loss": 2.3536972045898437, | |
| "step": 2980 | |
| }, | |
| { | |
| "epoch": 0.49833333333333335, | |
| "grad_norm": 0.04450669884681702, | |
| "learning_rate": 0.00015985792577608628, | |
| "loss": 2.2811954498291014, | |
| "step": 2990 | |
| }, | |
| { | |
| "epoch": 0.5, | |
| "grad_norm": 0.04698580875992775, | |
| "learning_rate": 0.00015904425450854453, | |
| "loss": 2.3730819702148436, | |
| "step": 3000 | |
| }, | |
| { | |
| "epoch": 0.5016666666666667, | |
| "grad_norm": 0.04636741429567337, | |
| "learning_rate": 0.0001582303160537254, | |
| "loss": 2.3249029159545898, | |
| "step": 3010 | |
| }, | |
| { | |
| "epoch": 0.5033333333333333, | |
| "grad_norm": 0.04602331295609474, | |
| "learning_rate": 0.00015741613445717078, | |
| "loss": 2.3067893981933594, | |
| "step": 3020 | |
| }, | |
| { | |
| "epoch": 0.505, | |
| "grad_norm": 0.04617249593138695, | |
| "learning_rate": 0.00015660173377160538, | |
| "loss": 2.283009719848633, | |
| "step": 3030 | |
| }, | |
| { | |
| "epoch": 0.5066666666666667, | |
| "grad_norm": 0.04522259905934334, | |
| "learning_rate": 0.00015578713805622629, | |
| "loss": 2.3601354598999023, | |
| "step": 3040 | |
| }, | |
| { | |
| "epoch": 0.5083333333333333, | |
| "grad_norm": 0.046779610216617584, | |
| "learning_rate": 0.00015497237137599215, | |
| "loss": 2.3319862365722654, | |
| "step": 3050 | |
| }, | |
| { | |
| "epoch": 0.51, | |
| "grad_norm": 0.04515037685632706, | |
| "learning_rate": 0.00015415745780091245, | |
| "loss": 2.3663728713989256, | |
| "step": 3060 | |
| }, | |
| { | |
| "epoch": 0.5116666666666667, | |
| "grad_norm": 0.04575490206480026, | |
| "learning_rate": 0.00015334242140533613, | |
| "loss": 2.3500614166259766, | |
| "step": 3070 | |
| }, | |
| { | |
| "epoch": 0.5133333333333333, | |
| "grad_norm": 0.04535854235291481, | |
| "learning_rate": 0.00015252728626724053, | |
| "loss": 2.393706512451172, | |
| "step": 3080 | |
| }, | |
| { | |
| "epoch": 0.515, | |
| "grad_norm": 0.045921266078948975, | |
| "learning_rate": 0.00015171207646752011, | |
| "loss": 2.3695343017578123, | |
| "step": 3090 | |
| }, | |
| { | |
| "epoch": 0.5166666666666667, | |
| "grad_norm": 0.04730748385190964, | |
| "learning_rate": 0.00015089681608927504, | |
| "loss": 2.3386932373046876, | |
| "step": 3100 | |
| }, | |
| { | |
| "epoch": 0.5183333333333333, | |
| "grad_norm": 0.04488634318113327, | |
| "learning_rate": 0.00015008152921709966, | |
| "loss": 2.341836166381836, | |
| "step": 3110 | |
| }, | |
| { | |
| "epoch": 0.52, | |
| "grad_norm": 0.04656840115785599, | |
| "learning_rate": 0.0001492662399363709, | |
| "loss": 2.3573772430419924, | |
| "step": 3120 | |
| }, | |
| { | |
| "epoch": 0.5216666666666666, | |
| "grad_norm": 0.04529151692986488, | |
| "learning_rate": 0.0001484509723325369, | |
| "loss": 2.3019832611083983, | |
| "step": 3130 | |
| }, | |
| { | |
| "epoch": 0.5233333333333333, | |
| "grad_norm": 0.04620906710624695, | |
| "learning_rate": 0.0001476357504904055, | |
| "loss": 2.2781230926513674, | |
| "step": 3140 | |
| }, | |
| { | |
| "epoch": 0.525, | |
| "grad_norm": 0.04393769055604935, | |
| "learning_rate": 0.00014682059849343255, | |
| "loss": 2.3518104553222656, | |
| "step": 3150 | |
| }, | |
| { | |
| "epoch": 0.5266666666666666, | |
| "grad_norm": 0.0452096126973629, | |
| "learning_rate": 0.00014600554042301065, | |
| "loss": 2.2971092224121095, | |
| "step": 3160 | |
| }, | |
| { | |
| "epoch": 0.5283333333333333, | |
| "grad_norm": 0.049306049942970276, | |
| "learning_rate": 0.00014519060035775733, | |
| "loss": 2.3017501831054688, | |
| "step": 3170 | |
| }, | |
| { | |
| "epoch": 0.53, | |
| "grad_norm": 0.04568931460380554, | |
| "learning_rate": 0.0001443758023728042, | |
| "loss": 2.2911956787109373, | |
| "step": 3180 | |
| }, | |
| { | |
| "epoch": 0.5316666666666666, | |
| "grad_norm": 0.048901692032814026, | |
| "learning_rate": 0.00014356117053908552, | |
| "loss": 2.341995620727539, | |
| "step": 3190 | |
| }, | |
| { | |
| "epoch": 0.5333333333333333, | |
| "grad_norm": 0.04323117807507515, | |
| "learning_rate": 0.00014274672892262706, | |
| "loss": 2.363936996459961, | |
| "step": 3200 | |
| }, | |
| { | |
| "epoch": 0.535, | |
| "grad_norm": 0.04628647118806839, | |
| "learning_rate": 0.00014193250158383493, | |
| "loss": 2.334271240234375, | |
| "step": 3210 | |
| }, | |
| { | |
| "epoch": 0.5366666666666666, | |
| "grad_norm": 0.04922735318541527, | |
| "learning_rate": 0.0001411185125767853, | |
| "loss": 2.305469512939453, | |
| "step": 3220 | |
| }, | |
| { | |
| "epoch": 0.5383333333333333, | |
| "grad_norm": 0.04770927503705025, | |
| "learning_rate": 0.00014030478594851336, | |
| "loss": 2.3782272338867188, | |
| "step": 3230 | |
| }, | |
| { | |
| "epoch": 0.54, | |
| "grad_norm": 0.0444621704518795, | |
| "learning_rate": 0.00013949134573830308, | |
| "loss": 2.302769088745117, | |
| "step": 3240 | |
| }, | |
| { | |
| "epoch": 0.5416666666666666, | |
| "grad_norm": 0.04581739008426666, | |
| "learning_rate": 0.0001386782159769769, | |
| "loss": 2.2403369903564454, | |
| "step": 3250 | |
| }, | |
| { | |
| "epoch": 0.5433333333333333, | |
| "grad_norm": 0.04609629139304161, | |
| "learning_rate": 0.0001378654206861861, | |
| "loss": 2.365464782714844, | |
| "step": 3260 | |
| }, | |
| { | |
| "epoch": 0.545, | |
| "grad_norm": 0.04579797014594078, | |
| "learning_rate": 0.00013705298387770083, | |
| "loss": 2.3029930114746096, | |
| "step": 3270 | |
| }, | |
| { | |
| "epoch": 0.5466666666666666, | |
| "grad_norm": 0.04666126146912575, | |
| "learning_rate": 0.0001362409295527009, | |
| "loss": 2.3250484466552734, | |
| "step": 3280 | |
| }, | |
| { | |
| "epoch": 0.5483333333333333, | |
| "grad_norm": 0.046123698353767395, | |
| "learning_rate": 0.00013542928170106675, | |
| "loss": 2.315472412109375, | |
| "step": 3290 | |
| }, | |
| { | |
| "epoch": 0.55, | |
| "grad_norm": 0.04441944509744644, | |
| "learning_rate": 0.00013461806430067067, | |
| "loss": 2.2456735610961913, | |
| "step": 3300 | |
| }, | |
| { | |
| "epoch": 0.5516666666666666, | |
| "grad_norm": 0.04268110916018486, | |
| "learning_rate": 0.00013380730131666848, | |
| "loss": 2.2688373565673827, | |
| "step": 3310 | |
| }, | |
| { | |
| "epoch": 0.5533333333333333, | |
| "grad_norm": 0.043934620916843414, | |
| "learning_rate": 0.00013299701670079148, | |
| "loss": 2.2969030380249023, | |
| "step": 3320 | |
| }, | |
| { | |
| "epoch": 0.555, | |
| "grad_norm": 0.04863844811916351, | |
| "learning_rate": 0.00013218723439063906, | |
| "loss": 2.330823516845703, | |
| "step": 3330 | |
| }, | |
| { | |
| "epoch": 0.5566666666666666, | |
| "grad_norm": 0.044768016785383224, | |
| "learning_rate": 0.00013137797830897117, | |
| "loss": 2.2624046325683596, | |
| "step": 3340 | |
| }, | |
| { | |
| "epoch": 0.5583333333333333, | |
| "grad_norm": 0.04282069951295853, | |
| "learning_rate": 0.000130569272363002, | |
| "loss": 2.2892608642578125, | |
| "step": 3350 | |
| }, | |
| { | |
| "epoch": 0.56, | |
| "grad_norm": 0.04653938114643097, | |
| "learning_rate": 0.00012976114044369348, | |
| "loss": 2.2605030059814455, | |
| "step": 3360 | |
| }, | |
| { | |
| "epoch": 0.5616666666666666, | |
| "grad_norm": 0.042660586535930634, | |
| "learning_rate": 0.00012895360642504948, | |
| "loss": 2.3623306274414064, | |
| "step": 3370 | |
| }, | |
| { | |
| "epoch": 0.5633333333333334, | |
| "grad_norm": 0.04504585638642311, | |
| "learning_rate": 0.0001281466941634105, | |
| "loss": 2.285787582397461, | |
| "step": 3380 | |
| }, | |
| { | |
| "epoch": 0.565, | |
| "grad_norm": 0.04642009362578392, | |
| "learning_rate": 0.00012734042749674903, | |
| "loss": 2.292758560180664, | |
| "step": 3390 | |
| }, | |
| { | |
| "epoch": 0.5666666666666667, | |
| "grad_norm": 0.04223250225186348, | |
| "learning_rate": 0.00012653483024396533, | |
| "loss": 2.320182991027832, | |
| "step": 3400 | |
| }, | |
| { | |
| "epoch": 0.5683333333333334, | |
| "grad_norm": 0.05031217634677887, | |
| "learning_rate": 0.00012572992620418368, | |
| "loss": 2.3236270904541017, | |
| "step": 3410 | |
| }, | |
| { | |
| "epoch": 0.57, | |
| "grad_norm": 0.043384041637182236, | |
| "learning_rate": 0.00012492573915604913, | |
| "loss": 2.294050598144531, | |
| "step": 3420 | |
| }, | |
| { | |
| "epoch": 0.5716666666666667, | |
| "grad_norm": 0.04652535542845726, | |
| "learning_rate": 0.00012412229285702536, | |
| "loss": 2.2717113494873047, | |
| "step": 3430 | |
| }, | |
| { | |
| "epoch": 0.5733333333333334, | |
| "grad_norm": 0.04482412710785866, | |
| "learning_rate": 0.00012331961104269272, | |
| "loss": 2.2652692794799805, | |
| "step": 3440 | |
| }, | |
| { | |
| "epoch": 0.575, | |
| "grad_norm": 0.044176436960697174, | |
| "learning_rate": 0.00012251771742604695, | |
| "loss": 2.3280864715576173, | |
| "step": 3450 | |
| }, | |
| { | |
| "epoch": 0.5766666666666667, | |
| "grad_norm": 0.045799173414707184, | |
| "learning_rate": 0.0001217166356967986, | |
| "loss": 2.2347755432128906, | |
| "step": 3460 | |
| }, | |
| { | |
| "epoch": 0.5783333333333334, | |
| "grad_norm": 0.04302337020635605, | |
| "learning_rate": 0.00012091638952067339, | |
| "loss": 2.2540973663330077, | |
| "step": 3470 | |
| }, | |
| { | |
| "epoch": 0.58, | |
| "grad_norm": 0.046573374420404434, | |
| "learning_rate": 0.00012011700253871287, | |
| "loss": 2.313714599609375, | |
| "step": 3480 | |
| }, | |
| { | |
| "epoch": 0.5816666666666667, | |
| "grad_norm": 0.045841339975595474, | |
| "learning_rate": 0.00011931849836657621, | |
| "loss": 2.279231643676758, | |
| "step": 3490 | |
| }, | |
| { | |
| "epoch": 0.5833333333333334, | |
| "grad_norm": 0.04207322746515274, | |
| "learning_rate": 0.0001185209005938423, | |
| "loss": 2.3070388793945313, | |
| "step": 3500 | |
| }, | |
| { | |
| "epoch": 0.585, | |
| "grad_norm": 0.04581030458211899, | |
| "learning_rate": 0.000117724232783313, | |
| "loss": 2.322564697265625, | |
| "step": 3510 | |
| }, | |
| { | |
| "epoch": 0.5866666666666667, | |
| "grad_norm": 0.04599674418568611, | |
| "learning_rate": 0.0001169285184703171, | |
| "loss": 2.2512928009033204, | |
| "step": 3520 | |
| }, | |
| { | |
| "epoch": 0.5883333333333334, | |
| "grad_norm": 0.04576753452420235, | |
| "learning_rate": 0.00011613378116201498, | |
| "loss": 2.2783023834228517, | |
| "step": 3530 | |
| }, | |
| { | |
| "epoch": 0.59, | |
| "grad_norm": 0.04758539795875549, | |
| "learning_rate": 0.000115340044336704, | |
| "loss": 2.2361690521240236, | |
| "step": 3540 | |
| }, | |
| { | |
| "epoch": 0.5916666666666667, | |
| "grad_norm": 0.0449649915099144, | |
| "learning_rate": 0.0001145473314431252, | |
| "loss": 2.3314971923828125, | |
| "step": 3550 | |
| }, | |
| { | |
| "epoch": 0.5933333333333334, | |
| "grad_norm": 0.044728368520736694, | |
| "learning_rate": 0.00011375566589977027, | |
| "loss": 2.2693477630615235, | |
| "step": 3560 | |
| }, | |
| { | |
| "epoch": 0.595, | |
| "grad_norm": 0.04283273592591286, | |
| "learning_rate": 0.00011296507109419001, | |
| "loss": 2.2808258056640627, | |
| "step": 3570 | |
| }, | |
| { | |
| "epoch": 0.5966666666666667, | |
| "grad_norm": 0.04367575794458389, | |
| "learning_rate": 0.00011217557038230321, | |
| "loss": 2.2483858108520507, | |
| "step": 3580 | |
| }, | |
| { | |
| "epoch": 0.5983333333333334, | |
| "grad_norm": 0.0444260872900486, | |
| "learning_rate": 0.00011138718708770652, | |
| "loss": 2.314860534667969, | |
| "step": 3590 | |
| }, | |
| { | |
| "epoch": 0.6, | |
| "grad_norm": 0.04368910938501358, | |
| "learning_rate": 0.00011059994450098592, | |
| "loss": 2.2928840637207033, | |
| "step": 3600 | |
| }, | |
| { | |
| "epoch": 0.6016666666666667, | |
| "grad_norm": 0.04608900472521782, | |
| "learning_rate": 0.00010981386587902815, | |
| "loss": 2.2551433563232424, | |
| "step": 3610 | |
| }, | |
| { | |
| "epoch": 0.6033333333333334, | |
| "grad_norm": 0.046781111508607864, | |
| "learning_rate": 0.00010902897444433402, | |
| "loss": 2.271870803833008, | |
| "step": 3620 | |
| }, | |
| { | |
| "epoch": 0.605, | |
| "grad_norm": 0.046633753925561905, | |
| "learning_rate": 0.00010824529338433196, | |
| "loss": 2.2948326110839843, | |
| "step": 3630 | |
| }, | |
| { | |
| "epoch": 0.6066666666666667, | |
| "grad_norm": 0.04348091781139374, | |
| "learning_rate": 0.00010746284585069346, | |
| "loss": 2.2265501022338867, | |
| "step": 3640 | |
| }, | |
| { | |
| "epoch": 0.6083333333333333, | |
| "grad_norm": 0.04466954246163368, | |
| "learning_rate": 0.00010668165495864886, | |
| "loss": 2.216339874267578, | |
| "step": 3650 | |
| }, | |
| { | |
| "epoch": 0.61, | |
| "grad_norm": 0.04601574316620827, | |
| "learning_rate": 0.00010590174378630452, | |
| "loss": 2.222498893737793, | |
| "step": 3660 | |
| }, | |
| { | |
| "epoch": 0.6116666666666667, | |
| "grad_norm": 0.04669777676463127, | |
| "learning_rate": 0.00010512313537396103, | |
| "loss": 2.2816734313964844, | |
| "step": 3670 | |
| }, | |
| { | |
| "epoch": 0.6133333333333333, | |
| "grad_norm": 0.0460570827126503, | |
| "learning_rate": 0.00010434585272343259, | |
| "loss": 2.2401283264160154, | |
| "step": 3680 | |
| }, | |
| { | |
| "epoch": 0.615, | |
| "grad_norm": 0.046909622848033905, | |
| "learning_rate": 0.00010356991879736749, | |
| "loss": 2.266475296020508, | |
| "step": 3690 | |
| }, | |
| { | |
| "epoch": 0.6166666666666667, | |
| "grad_norm": 0.04723437875509262, | |
| "learning_rate": 0.00010279535651856969, | |
| "loss": 2.2393699645996095, | |
| "step": 3700 | |
| }, | |
| { | |
| "epoch": 0.6183333333333333, | |
| "grad_norm": 0.04490575194358826, | |
| "learning_rate": 0.00010202218876932163, | |
| "loss": 2.223342514038086, | |
| "step": 3710 | |
| }, | |
| { | |
| "epoch": 0.62, | |
| "grad_norm": 0.04225336015224457, | |
| "learning_rate": 0.0001012504383907083, | |
| "loss": 2.1646907806396483, | |
| "step": 3720 | |
| }, | |
| { | |
| "epoch": 0.6216666666666667, | |
| "grad_norm": 0.046740125864744186, | |
| "learning_rate": 0.00010048012818194242, | |
| "loss": 2.3001195907592775, | |
| "step": 3730 | |
| }, | |
| { | |
| "epoch": 0.6233333333333333, | |
| "grad_norm": 0.04719153791666031, | |
| "learning_rate": 9.971128089969095e-05, | |
| "loss": 2.232859420776367, | |
| "step": 3740 | |
| }, | |
| { | |
| "epoch": 0.625, | |
| "grad_norm": 0.04699334874749184, | |
| "learning_rate": 9.894391925740264e-05, | |
| "loss": 2.250790023803711, | |
| "step": 3750 | |
| }, | |
| { | |
| "epoch": 0.6266666666666667, | |
| "grad_norm": 0.04357234388589859, | |
| "learning_rate": 9.817806592463727e-05, | |
| "loss": 2.2239524841308596, | |
| "step": 3760 | |
| }, | |
| { | |
| "epoch": 0.6283333333333333, | |
| "grad_norm": 0.04547634348273277, | |
| "learning_rate": 9.741374352639579e-05, | |
| "loss": 2.290673828125, | |
| "step": 3770 | |
| }, | |
| { | |
| "epoch": 0.63, | |
| "grad_norm": 0.04525672644376755, | |
| "learning_rate": 9.665097464245195e-05, | |
| "loss": 2.2089996337890625, | |
| "step": 3780 | |
| }, | |
| { | |
| "epoch": 0.6316666666666667, | |
| "grad_norm": 0.04538796842098236, | |
| "learning_rate": 9.588978180668531e-05, | |
| "loss": 2.321030044555664, | |
| "step": 3790 | |
| }, | |
| { | |
| "epoch": 0.6333333333333333, | |
| "grad_norm": 0.045243460685014725, | |
| "learning_rate": 9.513018750641531e-05, | |
| "loss": 2.2524177551269533, | |
| "step": 3800 | |
| } | |
| ], | |
| "logging_steps": 10, | |
| "max_steps": 6000, | |
| "num_input_tokens_seen": 0, | |
| "num_train_epochs": 9223372036854775807, | |
| "save_steps": 100, | |
| "stateful_callbacks": { | |
| "TrainerControl": { | |
| "args": { | |
| "should_epoch_stop": false, | |
| "should_evaluate": false, | |
| "should_log": false, | |
| "should_save": true, | |
| "should_training_stop": false | |
| }, | |
| "attributes": {} | |
| } | |
| }, | |
| "total_flos": 3.346714148732928e+17, | |
| "train_batch_size": 8, | |
| "trial_name": null, | |
| "trial_params": null | |
| } | |