{ "best_global_step": null, "best_metric": null, "best_model_checkpoint": null, "epoch": 0.6333333333333333, "eval_steps": 500, "global_step": 3800, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.0016666666666666668, "grad_norm": 0.3210105299949646, "learning_rate": 1.2272727272727271e-05, "loss": 10.294613647460938, "step": 10 }, { "epoch": 0.0033333333333333335, "grad_norm": 0.2156638205051422, "learning_rate": 2.5909090909090906e-05, "loss": 9.713479614257812, "step": 20 }, { "epoch": 0.005, "grad_norm": 0.15897703170776367, "learning_rate": 3.954545454545454e-05, "loss": 9.326141357421875, "step": 30 }, { "epoch": 0.006666666666666667, "grad_norm": 0.13951502740383148, "learning_rate": 5.318181818181818e-05, "loss": 9.020196533203125, "step": 40 }, { "epoch": 0.008333333333333333, "grad_norm": 0.12026762217283249, "learning_rate": 6.68181818181818e-05, "loss": 8.668742370605468, "step": 50 }, { "epoch": 0.01, "grad_norm": 0.09609497338533401, "learning_rate": 8.045454545454545e-05, "loss": 8.326473999023438, "step": 60 }, { "epoch": 0.011666666666666667, "grad_norm": 0.10631376504898071, "learning_rate": 9.40909090909091e-05, "loss": 7.9658042907714846, "step": 70 }, { "epoch": 0.013333333333333334, "grad_norm": 0.10316690802574158, "learning_rate": 0.00010772727272727271, "loss": 7.733299255371094, "step": 80 }, { "epoch": 0.015, "grad_norm": 0.09529491513967514, "learning_rate": 0.00012136363636363636, "loss": 7.559881591796875, "step": 90 }, { "epoch": 0.016666666666666666, "grad_norm": 0.08692844212055206, "learning_rate": 0.000135, "loss": 7.423441314697266, "step": 100 }, { "epoch": 0.018333333333333333, "grad_norm": 0.13299672305583954, "learning_rate": 0.00014863636363636362, "loss": 7.203767395019531, "step": 110 }, { "epoch": 0.02, "grad_norm": 0.10762651264667511, "learning_rate": 0.00016227272727272726, "loss": 6.991656494140625, "step": 120 }, { "epoch": 0.021666666666666667, "grad_norm": 0.15066272020339966, "learning_rate": 0.00017590909090909088, "loss": 6.775782775878906, "step": 130 }, { "epoch": 0.023333333333333334, "grad_norm": 0.16522859036922455, "learning_rate": 0.00018954545454545453, "loss": 6.557352447509766, "step": 140 }, { "epoch": 0.025, "grad_norm": 0.12791681289672852, "learning_rate": 0.00020318181818181815, "loss": 6.374400329589844, "step": 150 }, { "epoch": 0.02666666666666667, "grad_norm": 0.14518573880195618, "learning_rate": 0.00021681818181818182, "loss": 6.167789459228516, "step": 160 }, { "epoch": 0.028333333333333332, "grad_norm": 0.11279226839542389, "learning_rate": 0.00023045454545454544, "loss": 5.949956893920898, "step": 170 }, { "epoch": 0.03, "grad_norm": 0.10456318408250809, "learning_rate": 0.00024409090909090905, "loss": 5.898213958740234, "step": 180 }, { "epoch": 0.03166666666666667, "grad_norm": 0.08588645607233047, "learning_rate": 0.0002577272727272727, "loss": 5.692521667480468, "step": 190 }, { "epoch": 0.03333333333333333, "grad_norm": 0.09524291008710861, "learning_rate": 0.0002713636363636363, "loss": 5.620618057250977, "step": 200 }, { "epoch": 0.035, "grad_norm": 0.10834430158138275, "learning_rate": 0.000285, "loss": 5.490602111816406, "step": 210 }, { "epoch": 0.03666666666666667, "grad_norm": 0.13813409209251404, "learning_rate": 0.0002986363636363636, "loss": 5.307170867919922, "step": 220 }, { "epoch": 0.03833333333333333, "grad_norm": 0.07976827025413513, "learning_rate": 0.000299998205309827, "loss": 5.349527740478516, "step": 230 }, { "epoch": 0.04, "grad_norm": 0.09545526653528214, "learning_rate": 0.00029999200149769797, "loss": 5.204251861572265, "step": 240 }, { "epoch": 0.041666666666666664, "grad_norm": 0.10047531872987747, "learning_rate": 0.0002999813665901747, "loss": 5.08880615234375, "step": 250 }, { "epoch": 0.043333333333333335, "grad_norm": 0.08607863634824753, "learning_rate": 0.00029996630090143596, "loss": 4.946316528320312, "step": 260 }, { "epoch": 0.045, "grad_norm": 0.0853164866566658, "learning_rate": 0.0002999468048765554, "loss": 4.971838760375976, "step": 270 }, { "epoch": 0.04666666666666667, "grad_norm": 0.08899261802434921, "learning_rate": 0.0002999228790914889, "loss": 4.88647232055664, "step": 280 }, { "epoch": 0.04833333333333333, "grad_norm": 0.09347144514322281, "learning_rate": 0.0002998945242530568, "loss": 4.86058235168457, "step": 290 }, { "epoch": 0.05, "grad_norm": 0.08826533704996109, "learning_rate": 0.0002998617411989239, "loss": 4.7169921875, "step": 300 }, { "epoch": 0.051666666666666666, "grad_norm": 0.08748706430196762, "learning_rate": 0.00029982453089757413, "loss": 4.6202129364013675, "step": 310 }, { "epoch": 0.05333333333333334, "grad_norm": 0.08179391920566559, "learning_rate": 0.00029978289444828194, "loss": 4.677961730957032, "step": 320 }, { "epoch": 0.055, "grad_norm": 0.07042308896780014, "learning_rate": 0.0002997368330810802, "loss": 4.629831314086914, "step": 330 }, { "epoch": 0.056666666666666664, "grad_norm": 0.07931150496006012, "learning_rate": 0.0002996863481567235, "loss": 4.574167633056641, "step": 340 }, { "epoch": 0.058333333333333334, "grad_norm": 0.08005540817975998, "learning_rate": 0.0002996314411666482, "loss": 4.560203933715821, "step": 350 }, { "epoch": 0.06, "grad_norm": 0.08955864608287811, "learning_rate": 0.0002995721137329282, "loss": 4.448336410522461, "step": 360 }, { "epoch": 0.06166666666666667, "grad_norm": 0.08118876814842224, "learning_rate": 0.00029950836760822704, "loss": 4.408453750610351, "step": 370 }, { "epoch": 0.06333333333333334, "grad_norm": 0.08658885210752487, "learning_rate": 0.0002994402046757462, "loss": 4.47790298461914, "step": 380 }, { "epoch": 0.065, "grad_norm": 0.07376985251903534, "learning_rate": 0.0002993676269491695, "loss": 4.35412368774414, "step": 390 }, { "epoch": 0.06666666666666667, "grad_norm": 0.07317084819078445, "learning_rate": 0.0002992906365726033, "loss": 4.305249404907227, "step": 400 }, { "epoch": 0.06833333333333333, "grad_norm": 0.07801658660173416, "learning_rate": 0.00029920923582051377, "loss": 4.281742095947266, "step": 410 }, { "epoch": 0.07, "grad_norm": 0.08093922585248947, "learning_rate": 0.00029912342709765904, "loss": 4.267349624633789, "step": 420 }, { "epoch": 0.07166666666666667, "grad_norm": 0.06816517561674118, "learning_rate": 0.0002990332129390185, "loss": 4.211469268798828, "step": 430 }, { "epoch": 0.07333333333333333, "grad_norm": 0.07379963248968124, "learning_rate": 0.00029893859600971793, "loss": 4.209768676757813, "step": 440 }, { "epoch": 0.075, "grad_norm": 0.06909876316785812, "learning_rate": 0.0002988395791049506, "loss": 4.091614532470703, "step": 450 }, { "epoch": 0.07666666666666666, "grad_norm": 0.07152755558490753, "learning_rate": 0.00029873616514989487, "loss": 4.098369598388672, "step": 460 }, { "epoch": 0.07833333333333334, "grad_norm": 0.07937711477279663, "learning_rate": 0.00029862835719962757, "loss": 4.143830108642578, "step": 470 }, { "epoch": 0.08, "grad_norm": 0.06548741459846497, "learning_rate": 0.00029851615843903405, "loss": 4.0632171630859375, "step": 480 }, { "epoch": 0.08166666666666667, "grad_norm": 0.18737898766994476, "learning_rate": 0.0002983995721827137, "loss": 4.063528060913086, "step": 490 }, { "epoch": 0.08333333333333333, "grad_norm": 0.07438868284225464, "learning_rate": 0.00029827860187488247, "loss": 3.988648223876953, "step": 500 }, { "epoch": 0.085, "grad_norm": 0.0689290389418602, "learning_rate": 0.00029815325108927063, "loss": 4.0566871643066404, "step": 510 }, { "epoch": 0.08666666666666667, "grad_norm": 0.10340748727321625, "learning_rate": 0.00029802352352901757, "loss": 3.994831085205078, "step": 520 }, { "epoch": 0.08833333333333333, "grad_norm": 0.06787977367639542, "learning_rate": 0.0002978894230265623, "loss": 3.935833740234375, "step": 530 }, { "epoch": 0.09, "grad_norm": 0.07975687086582184, "learning_rate": 0.0002977509535435302, "loss": 3.921863555908203, "step": 540 }, { "epoch": 0.09166666666666666, "grad_norm": 0.06528890132904053, "learning_rate": 0.00029760811917061607, "loss": 3.9329925537109376, "step": 550 }, { "epoch": 0.09333333333333334, "grad_norm": 0.0730508416891098, "learning_rate": 0.00029746092412746296, "loss": 3.9105804443359373, "step": 560 }, { "epoch": 0.095, "grad_norm": 0.07522772252559662, "learning_rate": 0.000297309372762538, "loss": 3.8793365478515627, "step": 570 }, { "epoch": 0.09666666666666666, "grad_norm": 0.0628182664513588, "learning_rate": 0.0002971534695530037, "loss": 3.8207466125488283, "step": 580 }, { "epoch": 0.09833333333333333, "grad_norm": 0.06575705111026764, "learning_rate": 0.00029699321910458556, "loss": 3.7580352783203126, "step": 590 }, { "epoch": 0.1, "grad_norm": 0.07698246836662292, "learning_rate": 0.00029682862615143616, "loss": 3.741848373413086, "step": 600 }, { "epoch": 0.10166666666666667, "grad_norm": 0.06195211783051491, "learning_rate": 0.00029665969555599535, "loss": 3.8356746673583983, "step": 610 }, { "epoch": 0.10333333333333333, "grad_norm": 0.06386427581310272, "learning_rate": 0.0002964864323088464, "loss": 3.7516510009765627, "step": 620 }, { "epoch": 0.105, "grad_norm": 0.06469837576150894, "learning_rate": 0.00029630884152856874, "loss": 3.7427322387695314, "step": 630 }, { "epoch": 0.10666666666666667, "grad_norm": 0.0628240630030632, "learning_rate": 0.00029612692846158676, "loss": 3.727589416503906, "step": 640 }, { "epoch": 0.10833333333333334, "grad_norm": 0.06488772481679916, "learning_rate": 0.00029594069848201476, "loss": 3.6941436767578124, "step": 650 }, { "epoch": 0.11, "grad_norm": 0.06034167483448982, "learning_rate": 0.00029575015709149813, "loss": 3.621521759033203, "step": 660 }, { "epoch": 0.11166666666666666, "grad_norm": 0.06813275068998337, "learning_rate": 0.0002955553099190508, "loss": 3.5790252685546875, "step": 670 }, { "epoch": 0.11333333333333333, "grad_norm": 0.06076318025588989, "learning_rate": 0.0002953561627208891, "loss": 3.6731422424316404, "step": 680 }, { "epoch": 0.115, "grad_norm": 0.05848376452922821, "learning_rate": 0.0002951527213802617, "loss": 3.594041442871094, "step": 690 }, { "epoch": 0.11666666666666667, "grad_norm": 0.05992190167307854, "learning_rate": 0.00029494499190727566, "loss": 3.5415718078613283, "step": 700 }, { "epoch": 0.11833333333333333, "grad_norm": 0.06422701478004456, "learning_rate": 0.000294732980438719, "loss": 3.462107849121094, "step": 710 }, { "epoch": 0.12, "grad_norm": 0.06403794884681702, "learning_rate": 0.00029451669323787914, "loss": 3.475952911376953, "step": 720 }, { "epoch": 0.12166666666666667, "grad_norm": 0.06811420619487762, "learning_rate": 0.00029429613669435835, "loss": 3.537554931640625, "step": 730 }, { "epoch": 0.12333333333333334, "grad_norm": 0.06232806295156479, "learning_rate": 0.0002940713173238847, "loss": 3.438762664794922, "step": 740 }, { "epoch": 0.125, "grad_norm": 0.06179925426840782, "learning_rate": 0.00029384224176811946, "loss": 3.506423568725586, "step": 750 }, { "epoch": 0.12666666666666668, "grad_norm": 0.06174364313483238, "learning_rate": 0.0002936089167944611, "loss": 3.457561492919922, "step": 760 }, { "epoch": 0.12833333333333333, "grad_norm": 0.06338968873023987, "learning_rate": 0.00029337134929584524, "loss": 3.4751319885253906, "step": 770 }, { "epoch": 0.13, "grad_norm": 0.06177922338247299, "learning_rate": 0.00029312954629054117, "loss": 3.382034683227539, "step": 780 }, { "epoch": 0.13166666666666665, "grad_norm": 0.06135409325361252, "learning_rate": 0.00029288351492194435, "loss": 3.421039581298828, "step": 790 }, { "epoch": 0.13333333333333333, "grad_norm": 0.06828232109546661, "learning_rate": 0.00029263326245836536, "loss": 3.3520431518554688, "step": 800 }, { "epoch": 0.135, "grad_norm": 0.06002147123217583, "learning_rate": 0.00029237879629281547, "loss": 3.397780990600586, "step": 810 }, { "epoch": 0.13666666666666666, "grad_norm": 0.058005087077617645, "learning_rate": 0.0002921201239427879, "loss": 3.3631446838378904, "step": 820 }, { "epoch": 0.13833333333333334, "grad_norm": 0.061771899461746216, "learning_rate": 0.0002918572530500357, "loss": 3.3797203063964845, "step": 830 }, { "epoch": 0.14, "grad_norm": 0.057705093175172806, "learning_rate": 0.00029159019138034646, "loss": 3.2709060668945313, "step": 840 }, { "epoch": 0.14166666666666666, "grad_norm": 0.05799249932169914, "learning_rate": 0.0002913189468233124, "loss": 3.2947540283203125, "step": 850 }, { "epoch": 0.14333333333333334, "grad_norm": 0.059474553912878036, "learning_rate": 0.00029104352739209755, "loss": 3.4007835388183594, "step": 860 }, { "epoch": 0.145, "grad_norm": 0.062213234603405, "learning_rate": 0.00029076394122320087, "loss": 3.344309997558594, "step": 870 }, { "epoch": 0.14666666666666667, "grad_norm": 0.05876784771680832, "learning_rate": 0.00029048019657621605, "loss": 3.2779945373535155, "step": 880 }, { "epoch": 0.14833333333333334, "grad_norm": 0.06091905012726784, "learning_rate": 0.00029019230183358746, "loss": 3.178348159790039, "step": 890 }, { "epoch": 0.15, "grad_norm": 0.05918685719370842, "learning_rate": 0.0002899002655003623, "loss": 3.295793914794922, "step": 900 }, { "epoch": 0.15166666666666667, "grad_norm": 0.06123294681310654, "learning_rate": 0.00028960409620393967, "loss": 3.290731430053711, "step": 910 }, { "epoch": 0.15333333333333332, "grad_norm": 0.05882183462381363, "learning_rate": 0.00028930380269381553, "loss": 3.2458755493164064, "step": 920 }, { "epoch": 0.155, "grad_norm": 0.06071766838431358, "learning_rate": 0.0002889993938413241, "loss": 3.172679138183594, "step": 930 }, { "epoch": 0.15666666666666668, "grad_norm": 0.05640798434615135, "learning_rate": 0.0002886908786393761, "loss": 3.147473907470703, "step": 940 }, { "epoch": 0.15833333333333333, "grad_norm": 0.06143854558467865, "learning_rate": 0.0002883782662021927, "loss": 3.0966817855834963, "step": 950 }, { "epoch": 0.16, "grad_norm": 0.057186760008335114, "learning_rate": 0.00028806156576503665, "loss": 3.157902717590332, "step": 960 }, { "epoch": 0.16166666666666665, "grad_norm": 0.055310387164354324, "learning_rate": 0.0002877407866839391, "loss": 3.1260229110717774, "step": 970 }, { "epoch": 0.16333333333333333, "grad_norm": 0.05496911332011223, "learning_rate": 0.0002874159384354235, "loss": 3.158992576599121, "step": 980 }, { "epoch": 0.165, "grad_norm": 0.059410616755485535, "learning_rate": 0.00028708703061622537, "loss": 3.154488182067871, "step": 990 }, { "epoch": 0.16666666666666666, "grad_norm": 0.055123843252658844, "learning_rate": 0.00028675407294300907, "loss": 3.0926492691040037, "step": 1000 }, { "epoch": 0.16833333333333333, "grad_norm": 0.05329408124089241, "learning_rate": 0.0002864170752520804, "loss": 3.0617744445800783, "step": 1010 }, { "epoch": 0.17, "grad_norm": 0.056044623255729675, "learning_rate": 0.0002860760474990964, "loss": 3.087516212463379, "step": 1020 }, { "epoch": 0.17166666666666666, "grad_norm": 0.05408351868391037, "learning_rate": 0.00028573099975877104, "loss": 3.1055776596069338, "step": 1030 }, { "epoch": 0.17333333333333334, "grad_norm": 0.05544357746839523, "learning_rate": 0.00028538194222457746, "loss": 3.1246124267578126, "step": 1040 }, { "epoch": 0.175, "grad_norm": 0.05382883921265602, "learning_rate": 0.0002850288852084472, "loss": 3.090876007080078, "step": 1050 }, { "epoch": 0.17666666666666667, "grad_norm": 0.051369842141866684, "learning_rate": 0.000284671839140465, "loss": 3.0661289215087892, "step": 1060 }, { "epoch": 0.17833333333333334, "grad_norm": 0.13640367984771729, "learning_rate": 0.00028431081456856144, "loss": 3.02095947265625, "step": 1070 }, { "epoch": 0.18, "grad_norm": 0.057216331362724304, "learning_rate": 0.0002839458221582006, "loss": 2.9973451614379885, "step": 1080 }, { "epoch": 0.18166666666666667, "grad_norm": 0.05637884512543678, "learning_rate": 0.0002835768726920654, "loss": 3.0164566040039062, "step": 1090 }, { "epoch": 0.18333333333333332, "grad_norm": 0.05454772338271141, "learning_rate": 0.00028320397706973886, "loss": 3.016462707519531, "step": 1100 }, { "epoch": 0.185, "grad_norm": 0.057879574596881866, "learning_rate": 0.00028282714630738226, "loss": 3.0435638427734375, "step": 1110 }, { "epoch": 0.18666666666666668, "grad_norm": 0.05154268071055412, "learning_rate": 0.0002824463915374096, "loss": 3.0233779907226563, "step": 1120 }, { "epoch": 0.18833333333333332, "grad_norm": 0.056277673691511154, "learning_rate": 0.0002820617240081587, "loss": 2.926067924499512, "step": 1130 }, { "epoch": 0.19, "grad_norm": 0.05215265601873398, "learning_rate": 0.00028167315508355903, "loss": 2.990224075317383, "step": 1140 }, { "epoch": 0.19166666666666668, "grad_norm": 0.054222747683525085, "learning_rate": 0.00028128069624279575, "loss": 2.9995689392089844, "step": 1150 }, { "epoch": 0.19333333333333333, "grad_norm": 0.05429333448410034, "learning_rate": 0.0002808843590799709, "loss": 2.9959491729736327, "step": 1160 }, { "epoch": 0.195, "grad_norm": 0.05494142323732376, "learning_rate": 0.0002804841553037607, "loss": 3.0259002685546874, "step": 1170 }, { "epoch": 0.19666666666666666, "grad_norm": 0.0551028698682785, "learning_rate": 0.00028008009673706957, "loss": 2.992669677734375, "step": 1180 }, { "epoch": 0.19833333333333333, "grad_norm": 0.05398095026612282, "learning_rate": 0.00027967219531668114, "loss": 2.932081604003906, "step": 1190 }, { "epoch": 0.2, "grad_norm": 0.05642660707235336, "learning_rate": 0.0002792604630929053, "loss": 2.9109691619873046, "step": 1200 }, { "epoch": 0.20166666666666666, "grad_norm": 0.05668719485402107, "learning_rate": 0.0002788449122292223, "loss": 2.938386154174805, "step": 1210 }, { "epoch": 0.20333333333333334, "grad_norm": 0.05754353851079941, "learning_rate": 0.0002784255550019237, "loss": 2.9342037200927735, "step": 1220 }, { "epoch": 0.205, "grad_norm": 0.05338355898857117, "learning_rate": 0.0002780024037997492, "loss": 2.96917781829834, "step": 1230 }, { "epoch": 0.20666666666666667, "grad_norm": 0.051635079085826874, "learning_rate": 0.00027757547112352096, "loss": 2.86716365814209, "step": 1240 }, { "epoch": 0.20833333333333334, "grad_norm": 0.05334772914648056, "learning_rate": 0.00027714476958577445, "loss": 2.945565605163574, "step": 1250 }, { "epoch": 0.21, "grad_norm": 0.052452776581048965, "learning_rate": 0.00027671031191038527, "loss": 2.941428375244141, "step": 1260 }, { "epoch": 0.21166666666666667, "grad_norm": 0.0512646809220314, "learning_rate": 0.00027627211093219403, "loss": 2.8494869232177735, "step": 1270 }, { "epoch": 0.21333333333333335, "grad_norm": 0.056696198880672455, "learning_rate": 0.00027583017959662655, "loss": 2.886400032043457, "step": 1280 }, { "epoch": 0.215, "grad_norm": 0.05387052148580551, "learning_rate": 0.0002753845309593116, "loss": 2.9645118713378906, "step": 1290 }, { "epoch": 0.21666666666666667, "grad_norm": 0.05135899782180786, "learning_rate": 0.0002749351781856955, "loss": 2.9441659927368162, "step": 1300 }, { "epoch": 0.21833333333333332, "grad_norm": 0.056282345205545425, "learning_rate": 0.00027448213455065273, "loss": 2.8547969818115235, "step": 1310 }, { "epoch": 0.22, "grad_norm": 0.05254548415541649, "learning_rate": 0.00027402541343809415, "loss": 2.847319412231445, "step": 1320 }, { "epoch": 0.22166666666666668, "grad_norm": 0.05182240530848503, "learning_rate": 0.0002735650283405713, "loss": 2.7736480712890623, "step": 1330 }, { "epoch": 0.22333333333333333, "grad_norm": 0.05136930197477341, "learning_rate": 0.000273100992858878, "loss": 2.7611309051513673, "step": 1340 }, { "epoch": 0.225, "grad_norm": 0.052184589207172394, "learning_rate": 0.0002726333207016484, "loss": 2.841841125488281, "step": 1350 }, { "epoch": 0.22666666666666666, "grad_norm": 0.05014161020517349, "learning_rate": 0.0002721620256849522, "loss": 2.8447540283203123, "step": 1360 }, { "epoch": 0.22833333333333333, "grad_norm": 0.05224721133708954, "learning_rate": 0.00027168712173188646, "loss": 2.802615928649902, "step": 1370 }, { "epoch": 0.23, "grad_norm": 0.052749648690223694, "learning_rate": 0.000271208622872164, "loss": 2.801313781738281, "step": 1380 }, { "epoch": 0.23166666666666666, "grad_norm": 0.04991906136274338, "learning_rate": 0.0002707265432416991, "loss": 2.7495779037475585, "step": 1390 }, { "epoch": 0.23333333333333334, "grad_norm": 0.050237707793712616, "learning_rate": 0.0002702408970821903, "loss": 2.8282100677490236, "step": 1400 }, { "epoch": 0.235, "grad_norm": 0.05390395596623421, "learning_rate": 0.0002697516987406988, "loss": 2.7946498870849608, "step": 1410 }, { "epoch": 0.23666666666666666, "grad_norm": 0.0502890981733799, "learning_rate": 0.0002692589626692255, "loss": 2.825344467163086, "step": 1420 }, { "epoch": 0.23833333333333334, "grad_norm": 0.04883512109518051, "learning_rate": 0.0002687627034242834, "loss": 2.7205974578857424, "step": 1430 }, { "epoch": 0.24, "grad_norm": 0.052392296493053436, "learning_rate": 0.00026826293566646804, "loss": 2.8439666748046877, "step": 1440 }, { "epoch": 0.24166666666666667, "grad_norm": 0.05233413726091385, "learning_rate": 0.00026775967416002404, "loss": 2.724414253234863, "step": 1450 }, { "epoch": 0.24333333333333335, "grad_norm": 0.050031282007694244, "learning_rate": 0.0002672529337724092, "loss": 2.7721183776855467, "step": 1460 }, { "epoch": 0.245, "grad_norm": 0.050909098237752914, "learning_rate": 0.00026674272947385506, "loss": 2.732928466796875, "step": 1470 }, { "epoch": 0.24666666666666667, "grad_norm": 0.05034490302205086, "learning_rate": 0.00026622907633692483, "loss": 2.7958042144775392, "step": 1480 }, { "epoch": 0.24833333333333332, "grad_norm": 0.04935199022293091, "learning_rate": 0.0002657119895360679, "loss": 2.7595340728759767, "step": 1490 }, { "epoch": 0.25, "grad_norm": 0.05351424962282181, "learning_rate": 0.0002651914843471718, "loss": 2.759909439086914, "step": 1500 }, { "epoch": 0.25166666666666665, "grad_norm": 0.05047458037734032, "learning_rate": 0.0002646675761471109, "loss": 2.7807662963867186, "step": 1510 }, { "epoch": 0.25333333333333335, "grad_norm": 0.05166192352771759, "learning_rate": 0.0002641402804132917, "loss": 2.7948539733886717, "step": 1520 }, { "epoch": 0.255, "grad_norm": 0.05240360647439957, "learning_rate": 0.0002636096127231964, "loss": 2.758434295654297, "step": 1530 }, { "epoch": 0.25666666666666665, "grad_norm": 0.0527547188103199, "learning_rate": 0.00026307558875392185, "loss": 2.696501541137695, "step": 1540 }, { "epoch": 0.25833333333333336, "grad_norm": 0.04855458065867424, "learning_rate": 0.00026253822428171704, "loss": 2.7219696044921875, "step": 1550 }, { "epoch": 0.26, "grad_norm": 0.050831303000450134, "learning_rate": 0.00026199753518151665, "loss": 2.6843378067016603, "step": 1560 }, { "epoch": 0.26166666666666666, "grad_norm": 0.04829718917608261, "learning_rate": 0.00026145353742647234, "loss": 2.7331058502197267, "step": 1570 }, { "epoch": 0.2633333333333333, "grad_norm": 0.05254271253943443, "learning_rate": 0.0002609062470874807, "loss": 2.697750473022461, "step": 1580 }, { "epoch": 0.265, "grad_norm": 0.05015081539750099, "learning_rate": 0.0002603556803327086, "loss": 2.7325275421142576, "step": 1590 }, { "epoch": 0.26666666666666666, "grad_norm": 0.049517519772052765, "learning_rate": 0.00025980185342711537, "loss": 2.692926025390625, "step": 1600 }, { "epoch": 0.2683333333333333, "grad_norm": 0.04981537163257599, "learning_rate": 0.00025924478273197244, "loss": 2.696280860900879, "step": 1610 }, { "epoch": 0.27, "grad_norm": 0.04821797460317612, "learning_rate": 0.00025868448470438, "loss": 2.742702102661133, "step": 1620 }, { "epoch": 0.27166666666666667, "grad_norm": 0.04918017238378525, "learning_rate": 0.0002581209758967807, "loss": 2.7045921325683593, "step": 1630 }, { "epoch": 0.2733333333333333, "grad_norm": 0.046356577426195145, "learning_rate": 0.0002575542729564708, "loss": 2.740824317932129, "step": 1640 }, { "epoch": 0.275, "grad_norm": 0.05072147026658058, "learning_rate": 0.00025698439262510824, "loss": 2.6823020935058595, "step": 1650 }, { "epoch": 0.27666666666666667, "grad_norm": 0.04926977679133415, "learning_rate": 0.00025641135173821826, "loss": 2.684683609008789, "step": 1660 }, { "epoch": 0.2783333333333333, "grad_norm": 0.04812793433666229, "learning_rate": 0.0002558351672246957, "loss": 2.6484798431396483, "step": 1670 }, { "epoch": 0.28, "grad_norm": 0.05095838010311127, "learning_rate": 0.00025525585610630517, "loss": 2.598258209228516, "step": 1680 }, { "epoch": 0.2816666666666667, "grad_norm": 0.04753347486257553, "learning_rate": 0.0002546734354971782, "loss": 2.7237998962402346, "step": 1690 }, { "epoch": 0.2833333333333333, "grad_norm": 0.04822186380624771, "learning_rate": 0.00025408792260330745, "loss": 2.6640552520751952, "step": 1700 }, { "epoch": 0.285, "grad_norm": 0.04903876781463623, "learning_rate": 0.0002534993347220384, "loss": 2.6676206588745117, "step": 1710 }, { "epoch": 0.2866666666666667, "grad_norm": 0.05019659548997879, "learning_rate": 0.0002529076892415587, "loss": 2.702348327636719, "step": 1720 }, { "epoch": 0.28833333333333333, "grad_norm": 0.0495338961482048, "learning_rate": 0.0002523130036403841, "loss": 2.708498001098633, "step": 1730 }, { "epoch": 0.29, "grad_norm": 0.0475877970457077, "learning_rate": 0.0002517152954868422, "loss": 2.687460517883301, "step": 1740 }, { "epoch": 0.2916666666666667, "grad_norm": 0.05122576653957367, "learning_rate": 0.0002511145824385536, "loss": 2.6367557525634764, "step": 1750 }, { "epoch": 0.29333333333333333, "grad_norm": 0.04755600541830063, "learning_rate": 0.00025051088224191, "loss": 2.6142791748046874, "step": 1760 }, { "epoch": 0.295, "grad_norm": 0.04830149933695793, "learning_rate": 0.0002499042127315502, "loss": 2.6434532165527345, "step": 1770 }, { "epoch": 0.2966666666666667, "grad_norm": 0.05104847997426987, "learning_rate": 0.0002492945918298331, "loss": 2.651753044128418, "step": 1780 }, { "epoch": 0.29833333333333334, "grad_norm": 0.04865805059671402, "learning_rate": 0.00024868203754630804, "loss": 2.5990322113037108, "step": 1790 }, { "epoch": 0.3, "grad_norm": 0.04887863248586655, "learning_rate": 0.00024806656797718316, "loss": 2.6493152618408202, "step": 1800 }, { "epoch": 0.3016666666666667, "grad_norm": 0.05229433625936508, "learning_rate": 0.0002474482013047904, "loss": 2.5940528869628907, "step": 1810 }, { "epoch": 0.30333333333333334, "grad_norm": 0.04907260835170746, "learning_rate": 0.00024682695579704867, "loss": 2.5858959197998046, "step": 1820 }, { "epoch": 0.305, "grad_norm": 0.04654543846845627, "learning_rate": 0.00024620284980692394, "loss": 2.655795860290527, "step": 1830 }, { "epoch": 0.30666666666666664, "grad_norm": 0.04603976756334305, "learning_rate": 0.00024557590177188735, "loss": 2.6598703384399416, "step": 1840 }, { "epoch": 0.30833333333333335, "grad_norm": 0.04806356877088547, "learning_rate": 0.0002449461302133701, "loss": 2.5390226364135744, "step": 1850 }, { "epoch": 0.31, "grad_norm": 0.05908679962158203, "learning_rate": 0.0002443135537362166, "loss": 2.6288856506347655, "step": 1860 }, { "epoch": 0.31166666666666665, "grad_norm": 0.04684751480817795, "learning_rate": 0.00024367819102813487, "loss": 2.5432594299316404, "step": 1870 }, { "epoch": 0.31333333333333335, "grad_norm": 0.04680655896663666, "learning_rate": 0.00024304006085914412, "loss": 2.5751720428466798, "step": 1880 }, { "epoch": 0.315, "grad_norm": 0.050615034997463226, "learning_rate": 0.0002423991820810207, "loss": 2.5600002288818358, "step": 1890 }, { "epoch": 0.31666666666666665, "grad_norm": 0.047421351075172424, "learning_rate": 0.0002417555736267408, "loss": 2.557647705078125, "step": 1900 }, { "epoch": 0.31833333333333336, "grad_norm": 0.04778824374079704, "learning_rate": 0.00024110925450992137, "loss": 2.5525718688964845, "step": 1910 }, { "epoch": 0.32, "grad_norm": 0.04954797402024269, "learning_rate": 0.0002404602438242583, "loss": 2.575938034057617, "step": 1920 }, { "epoch": 0.32166666666666666, "grad_norm": 0.050552625209093094, "learning_rate": 0.00023980856074296236, "loss": 2.5811349868774416, "step": 1930 }, { "epoch": 0.3233333333333333, "grad_norm": 0.048965174704790115, "learning_rate": 0.00023915422451819282, "loss": 2.631545639038086, "step": 1940 }, { "epoch": 0.325, "grad_norm": 0.04841230437159538, "learning_rate": 0.00023849725448048863, "loss": 2.5535526275634766, "step": 1950 }, { "epoch": 0.32666666666666666, "grad_norm": 0.04769090935587883, "learning_rate": 0.00023783767003819747, "loss": 2.5577981948852537, "step": 1960 }, { "epoch": 0.3283333333333333, "grad_norm": 0.04834979772567749, "learning_rate": 0.00023717549067690225, "loss": 2.5483366012573243, "step": 1970 }, { "epoch": 0.33, "grad_norm": 0.048443444073200226, "learning_rate": 0.0002365107359588455, "loss": 2.5292953491210937, "step": 1980 }, { "epoch": 0.33166666666666667, "grad_norm": 0.05136331170797348, "learning_rate": 0.00023584342552235163, "loss": 2.5718793869018555, "step": 1990 }, { "epoch": 0.3333333333333333, "grad_norm": 0.047627076506614685, "learning_rate": 0.0002351735790812465, "loss": 2.577315902709961, "step": 2000 }, { "epoch": 0.335, "grad_norm": 0.04710236191749573, "learning_rate": 0.00023450121642427506, "loss": 2.5738367080688476, "step": 2010 }, { "epoch": 0.33666666666666667, "grad_norm": 0.04677637666463852, "learning_rate": 0.00023382635741451717, "loss": 2.5813961029052734, "step": 2020 }, { "epoch": 0.3383333333333333, "grad_norm": 0.04876928776502609, "learning_rate": 0.00023314902198880006, "loss": 2.543820381164551, "step": 2030 }, { "epoch": 0.34, "grad_norm": 0.04665738344192505, "learning_rate": 0.00023246923015711005, "loss": 2.5952043533325195, "step": 2040 }, { "epoch": 0.3416666666666667, "grad_norm": 0.04646483436226845, "learning_rate": 0.00023178700200200109, "loss": 2.552678680419922, "step": 2050 }, { "epoch": 0.3433333333333333, "grad_norm": 0.05093228071928024, "learning_rate": 0.00023110235767800138, "loss": 2.550699806213379, "step": 2060 }, { "epoch": 0.345, "grad_norm": 0.046919822692871094, "learning_rate": 0.00023041531741101816, "loss": 2.5460886001586913, "step": 2070 }, { "epoch": 0.3466666666666667, "grad_norm": 0.04563593491911888, "learning_rate": 0.00022972590149774021, "loss": 2.4875654220581054, "step": 2080 }, { "epoch": 0.34833333333333333, "grad_norm": 0.05062221735715866, "learning_rate": 0.00022903413030503806, "loss": 2.5220041275024414, "step": 2090 }, { "epoch": 0.35, "grad_norm": 0.04856550693511963, "learning_rate": 0.00022834002426936237, "loss": 2.5281932830810545, "step": 2100 }, { "epoch": 0.3516666666666667, "grad_norm": 0.0449577234685421, "learning_rate": 0.00022764360389614034, "loss": 2.477060890197754, "step": 2110 }, { "epoch": 0.35333333333333333, "grad_norm": 0.04712613299489021, "learning_rate": 0.0002269448897591697, "loss": 2.478282356262207, "step": 2120 }, { "epoch": 0.355, "grad_norm": 0.04585791751742363, "learning_rate": 0.0002262439025000111, "loss": 2.5013359069824217, "step": 2130 }, { "epoch": 0.3566666666666667, "grad_norm": 0.044884052127599716, "learning_rate": 0.0002255406628273783, "loss": 2.439927101135254, "step": 2140 }, { "epoch": 0.35833333333333334, "grad_norm": 0.04662775993347168, "learning_rate": 0.00022483519151652616, "loss": 2.55285530090332, "step": 2150 }, { "epoch": 0.36, "grad_norm": 0.04903047904372215, "learning_rate": 0.00022412750940863725, "loss": 2.493204879760742, "step": 2160 }, { "epoch": 0.3616666666666667, "grad_norm": 0.04704448580741882, "learning_rate": 0.00022341763741020592, "loss": 2.4445751190185545, "step": 2170 }, { "epoch": 0.36333333333333334, "grad_norm": 0.04714423418045044, "learning_rate": 0.00022270559649242066, "loss": 2.5784980773925783, "step": 2180 }, { "epoch": 0.365, "grad_norm": 0.04778430610895157, "learning_rate": 0.0002219914076905447, "loss": 2.5525665283203125, "step": 2190 }, { "epoch": 0.36666666666666664, "grad_norm": 0.04864959418773651, "learning_rate": 0.00022127509210329444, "loss": 2.5589746475219726, "step": 2200 }, { "epoch": 0.36833333333333335, "grad_norm": 0.0469190813601017, "learning_rate": 0.00022055667089221638, "loss": 2.5075405120849608, "step": 2210 }, { "epoch": 0.37, "grad_norm": 0.04603331536054611, "learning_rate": 0.00021983616528106162, "loss": 2.5121870040893555, "step": 2220 }, { "epoch": 0.37166666666666665, "grad_norm": 0.049395956099033356, "learning_rate": 0.00021911359655515925, "loss": 2.4887548446655274, "step": 2230 }, { "epoch": 0.37333333333333335, "grad_norm": 0.04528217762708664, "learning_rate": 0.00021838898606078708, "loss": 2.546308135986328, "step": 2240 }, { "epoch": 0.375, "grad_norm": 0.04689454659819603, "learning_rate": 0.00021766235520454146, "loss": 2.51337890625, "step": 2250 }, { "epoch": 0.37666666666666665, "grad_norm": 0.04646513611078262, "learning_rate": 0.00021693372545270465, "loss": 2.5064132690429686, "step": 2260 }, { "epoch": 0.37833333333333335, "grad_norm": 0.046086180955171585, "learning_rate": 0.00021620311833061073, "loss": 2.459269714355469, "step": 2270 }, { "epoch": 0.38, "grad_norm": 0.04597856104373932, "learning_rate": 0.00021547055542200962, "loss": 2.4114471435546876, "step": 2280 }, { "epoch": 0.38166666666666665, "grad_norm": 0.04976482689380646, "learning_rate": 0.00021473605836842951, "loss": 2.517044448852539, "step": 2290 }, { "epoch": 0.38333333333333336, "grad_norm": 0.0472680926322937, "learning_rate": 0.00021399964886853752, "loss": 2.4628728866577148, "step": 2300 }, { "epoch": 0.385, "grad_norm": 0.04661698266863823, "learning_rate": 0.00021326134867749865, "loss": 2.4527189254760744, "step": 2310 }, { "epoch": 0.38666666666666666, "grad_norm": 0.048806458711624146, "learning_rate": 0.00021252117960633316, "loss": 2.5331987380981444, "step": 2320 }, { "epoch": 0.3883333333333333, "grad_norm": 0.04546506330370903, "learning_rate": 0.0002117791635212721, "loss": 2.4684768676757813, "step": 2330 }, { "epoch": 0.39, "grad_norm": 0.047199103981256485, "learning_rate": 0.00021103532234311137, "loss": 2.4765689849853514, "step": 2340 }, { "epoch": 0.39166666666666666, "grad_norm": 0.04428820312023163, "learning_rate": 0.00021028967804656416, "loss": 2.484756088256836, "step": 2350 }, { "epoch": 0.3933333333333333, "grad_norm": 0.04644942283630371, "learning_rate": 0.00020954225265961185, "loss": 2.4731876373291017, "step": 2360 }, { "epoch": 0.395, "grad_norm": 0.07739172875881195, "learning_rate": 0.0002087930682628532, "loss": 2.5205495834350584, "step": 2370 }, { "epoch": 0.39666666666666667, "grad_norm": 0.04783055931329727, "learning_rate": 0.00020804214698885178, "loss": 2.419384002685547, "step": 2380 }, { "epoch": 0.3983333333333333, "grad_norm": 0.04736848548054695, "learning_rate": 0.0002072895110214826, "loss": 2.4492137908935545, "step": 2390 }, { "epoch": 0.4, "grad_norm": 0.046206265687942505, "learning_rate": 0.0002065351825952763, "loss": 2.541931915283203, "step": 2400 }, { "epoch": 0.40166666666666667, "grad_norm": 0.04697568714618683, "learning_rate": 0.00020577918399476269, "loss": 2.4992557525634767, "step": 2410 }, { "epoch": 0.4033333333333333, "grad_norm": 0.047801993787288666, "learning_rate": 0.00020502153755381207, "loss": 2.5004581451416015, "step": 2420 }, { "epoch": 0.405, "grad_norm": 0.044472649693489075, "learning_rate": 0.0002042622656549757, "loss": 2.412652587890625, "step": 2430 }, { "epoch": 0.4066666666666667, "grad_norm": 0.046403296291828156, "learning_rate": 0.00020350139072882446, "loss": 2.398054504394531, "step": 2440 }, { "epoch": 0.4083333333333333, "grad_norm": 0.043542440980672836, "learning_rate": 0.000202738935253286, "loss": 2.4214170455932615, "step": 2450 }, { "epoch": 0.41, "grad_norm": 0.047896455973386765, "learning_rate": 0.00020197492175298115, "loss": 2.5215213775634764, "step": 2460 }, { "epoch": 0.4116666666666667, "grad_norm": 0.04632239043712616, "learning_rate": 0.00020120937279855815, "loss": 2.4218860626220704, "step": 2470 }, { "epoch": 0.41333333333333333, "grad_norm": 0.04408172145485878, "learning_rate": 0.00020044231100602595, "loss": 2.43825740814209, "step": 2480 }, { "epoch": 0.415, "grad_norm": 0.044197119772434235, "learning_rate": 0.00019967375903608595, "loss": 2.453116607666016, "step": 2490 }, { "epoch": 0.4166666666666667, "grad_norm": 0.04552914947271347, "learning_rate": 0.00019890373959346295, "loss": 2.4558712005615235, "step": 2500 }, { "epoch": 0.41833333333333333, "grad_norm": 0.04537361487746239, "learning_rate": 0.00019813227542623386, "loss": 2.410854148864746, "step": 2510 }, { "epoch": 0.42, "grad_norm": 0.04683098942041397, "learning_rate": 0.00019735938932515613, "loss": 2.468762969970703, "step": 2520 }, { "epoch": 0.4216666666666667, "grad_norm": 0.04723796620965004, "learning_rate": 0.00019658510412299423, "loss": 2.4386947631835936, "step": 2530 }, { "epoch": 0.42333333333333334, "grad_norm": 0.04872257262468338, "learning_rate": 0.00019580944269384528, "loss": 2.446548843383789, "step": 2540 }, { "epoch": 0.425, "grad_norm": 0.04530220106244087, "learning_rate": 0.0001950324279524629, "loss": 2.3962860107421875, "step": 2550 }, { "epoch": 0.4266666666666667, "grad_norm": 0.0464116670191288, "learning_rate": 0.0001942540828535808, "loss": 2.4241104125976562, "step": 2560 }, { "epoch": 0.42833333333333334, "grad_norm": 0.04835973307490349, "learning_rate": 0.00019347443039123433, "loss": 2.489682197570801, "step": 2570 }, { "epoch": 0.43, "grad_norm": 0.04714079201221466, "learning_rate": 0.0001926934935980813, "loss": 2.4189998626708986, "step": 2580 }, { "epoch": 0.43166666666666664, "grad_norm": 0.0473017580807209, "learning_rate": 0.00019191129554472128, "loss": 2.450688934326172, "step": 2590 }, { "epoch": 0.43333333333333335, "grad_norm": 0.044971223920583725, "learning_rate": 0.0001911278593390145, "loss": 2.4232696533203124, "step": 2600 }, { "epoch": 0.435, "grad_norm": 0.04822346568107605, "learning_rate": 0.00019034320812539885, "loss": 2.38757209777832, "step": 2610 }, { "epoch": 0.43666666666666665, "grad_norm": 0.04403518885374069, "learning_rate": 0.00018955736508420617, "loss": 2.400294876098633, "step": 2620 }, { "epoch": 0.43833333333333335, "grad_norm": 0.04422234743833542, "learning_rate": 0.00018877035343097765, "loss": 2.395349884033203, "step": 2630 }, { "epoch": 0.44, "grad_norm": 0.05023488029837608, "learning_rate": 0.00018798219641577785, "loss": 2.4216394424438477, "step": 2640 }, { "epoch": 0.44166666666666665, "grad_norm": 0.04575344920158386, "learning_rate": 0.00018719291732250773, "loss": 2.4583833694458006, "step": 2650 }, { "epoch": 0.44333333333333336, "grad_norm": 0.044867198914289474, "learning_rate": 0.000186402539468217, "loss": 2.495341682434082, "step": 2660 }, { "epoch": 0.445, "grad_norm": 0.04729311540722847, "learning_rate": 0.00018561108620241524, "loss": 2.3960248947143556, "step": 2670 }, { "epoch": 0.44666666666666666, "grad_norm": 0.044369276612997055, "learning_rate": 0.000184818580906382, "loss": 2.3665014266967774, "step": 2680 }, { "epoch": 0.4483333333333333, "grad_norm": 0.04449554532766342, "learning_rate": 0.00018402504699247625, "loss": 2.4309972763061523, "step": 2690 }, { "epoch": 0.45, "grad_norm": 0.05088217183947563, "learning_rate": 0.0001832305079034443, "loss": 2.4841537475585938, "step": 2700 }, { "epoch": 0.45166666666666666, "grad_norm": 0.04597931355237961, "learning_rate": 0.00018243498711172803, "loss": 2.4378997802734377, "step": 2710 }, { "epoch": 0.4533333333333333, "grad_norm": 0.04585069790482521, "learning_rate": 0.00018163850811877047, "loss": 2.3535308837890625, "step": 2720 }, { "epoch": 0.455, "grad_norm": 0.04481475055217743, "learning_rate": 0.00018084109445432245, "loss": 2.38321533203125, "step": 2730 }, { "epoch": 0.45666666666666667, "grad_norm": 0.045594822615385056, "learning_rate": 0.00018004276967574682, "loss": 2.357186126708984, "step": 2740 }, { "epoch": 0.4583333333333333, "grad_norm": 0.04671576991677284, "learning_rate": 0.00017924355736732294, "loss": 2.3952842712402345, "step": 2750 }, { "epoch": 0.46, "grad_norm": 0.047669801861047745, "learning_rate": 0.0001784434811395495, "loss": 2.3996456146240233, "step": 2760 }, { "epoch": 0.46166666666666667, "grad_norm": 0.043536290526390076, "learning_rate": 0.00017764256462844756, "loss": 2.433817672729492, "step": 2770 }, { "epoch": 0.4633333333333333, "grad_norm": 0.04813670367002487, "learning_rate": 0.00017684083149486186, "loss": 2.4222438812255858, "step": 2780 }, { "epoch": 0.465, "grad_norm": 0.04439646378159523, "learning_rate": 0.000176038305423762, "loss": 2.380870056152344, "step": 2790 }, { "epoch": 0.4666666666666667, "grad_norm": 0.04823291301727295, "learning_rate": 0.00017523501012354264, "loss": 2.3966320037841795, "step": 2800 }, { "epoch": 0.4683333333333333, "grad_norm": 0.047504037618637085, "learning_rate": 0.00017443096932532335, "loss": 2.3766799926757813, "step": 2810 }, { "epoch": 0.47, "grad_norm": 0.046188633888959885, "learning_rate": 0.0001736262067822471, "loss": 2.3464776992797853, "step": 2820 }, { "epoch": 0.4716666666666667, "grad_norm": 0.045701149851083755, "learning_rate": 0.0001728207462687791, "loss": 2.410634994506836, "step": 2830 }, { "epoch": 0.47333333333333333, "grad_norm": 0.04649294540286064, "learning_rate": 0.00017201461158000394, "loss": 2.3622270584106446, "step": 2840 }, { "epoch": 0.475, "grad_norm": 0.044418223202228546, "learning_rate": 0.00017120782653092282, "loss": 2.3322967529296874, "step": 2850 }, { "epoch": 0.4766666666666667, "grad_norm": 0.04588953033089638, "learning_rate": 0.0001704004149557502, "loss": 2.3850997924804687, "step": 2860 }, { "epoch": 0.47833333333333333, "grad_norm": 0.045951224863529205, "learning_rate": 0.00016959240070720931, "loss": 2.3232908248901367, "step": 2870 }, { "epoch": 0.48, "grad_norm": 0.04799751937389374, "learning_rate": 0.0001687838076558278, "loss": 2.394255828857422, "step": 2880 }, { "epoch": 0.4816666666666667, "grad_norm": 0.04349227622151375, "learning_rate": 0.00016797465968923248, "loss": 2.3627696990966798, "step": 2890 }, { "epoch": 0.48333333333333334, "grad_norm": 0.04931052029132843, "learning_rate": 0.00016716498071144345, "loss": 2.2932670593261717, "step": 2900 }, { "epoch": 0.485, "grad_norm": 0.046034786850214005, "learning_rate": 0.00016635479464216808, "loss": 2.3476810455322266, "step": 2910 }, { "epoch": 0.4866666666666667, "grad_norm": 0.04429607465863228, "learning_rate": 0.00016554412541609445, "loss": 2.372750473022461, "step": 2920 }, { "epoch": 0.48833333333333334, "grad_norm": 0.04294951632618904, "learning_rate": 0.00016473299698218405, "loss": 2.364425277709961, "step": 2930 }, { "epoch": 0.49, "grad_norm": 0.04650357365608215, "learning_rate": 0.0001639214333029645, "loss": 2.416010093688965, "step": 2940 }, { "epoch": 0.49166666666666664, "grad_norm": 0.04426836222410202, "learning_rate": 0.00016310945835382133, "loss": 2.37786865234375, "step": 2950 }, { "epoch": 0.49333333333333335, "grad_norm": 0.04512490704655647, "learning_rate": 0.00016229709612229014, "loss": 2.278778839111328, "step": 2960 }, { "epoch": 0.495, "grad_norm": 0.04730796068906784, "learning_rate": 0.00016148437060734753, "loss": 2.3443241119384766, "step": 2970 }, { "epoch": 0.49666666666666665, "grad_norm": 0.04488737881183624, "learning_rate": 0.00016067130581870232, "loss": 2.3536972045898437, "step": 2980 }, { "epoch": 0.49833333333333335, "grad_norm": 0.04450669884681702, "learning_rate": 0.00015985792577608628, "loss": 2.2811954498291014, "step": 2990 }, { "epoch": 0.5, "grad_norm": 0.04698580875992775, "learning_rate": 0.00015904425450854453, "loss": 2.3730819702148436, "step": 3000 }, { "epoch": 0.5016666666666667, "grad_norm": 0.04636741429567337, "learning_rate": 0.0001582303160537254, "loss": 2.3249029159545898, "step": 3010 }, { "epoch": 0.5033333333333333, "grad_norm": 0.04602331295609474, "learning_rate": 0.00015741613445717078, "loss": 2.3067893981933594, "step": 3020 }, { "epoch": 0.505, "grad_norm": 0.04617249593138695, "learning_rate": 0.00015660173377160538, "loss": 2.283009719848633, "step": 3030 }, { "epoch": 0.5066666666666667, "grad_norm": 0.04522259905934334, "learning_rate": 0.00015578713805622629, "loss": 2.3601354598999023, "step": 3040 }, { "epoch": 0.5083333333333333, "grad_norm": 0.046779610216617584, "learning_rate": 0.00015497237137599215, "loss": 2.3319862365722654, "step": 3050 }, { "epoch": 0.51, "grad_norm": 0.04515037685632706, "learning_rate": 0.00015415745780091245, "loss": 2.3663728713989256, "step": 3060 }, { "epoch": 0.5116666666666667, "grad_norm": 0.04575490206480026, "learning_rate": 0.00015334242140533613, "loss": 2.3500614166259766, "step": 3070 }, { "epoch": 0.5133333333333333, "grad_norm": 0.04535854235291481, "learning_rate": 0.00015252728626724053, "loss": 2.393706512451172, "step": 3080 }, { "epoch": 0.515, "grad_norm": 0.045921266078948975, "learning_rate": 0.00015171207646752011, "loss": 2.3695343017578123, "step": 3090 }, { "epoch": 0.5166666666666667, "grad_norm": 0.04730748385190964, "learning_rate": 0.00015089681608927504, "loss": 2.3386932373046876, "step": 3100 }, { "epoch": 0.5183333333333333, "grad_norm": 0.04488634318113327, "learning_rate": 0.00015008152921709966, "loss": 2.341836166381836, "step": 3110 }, { "epoch": 0.52, "grad_norm": 0.04656840115785599, "learning_rate": 0.0001492662399363709, "loss": 2.3573772430419924, "step": 3120 }, { "epoch": 0.5216666666666666, "grad_norm": 0.04529151692986488, "learning_rate": 0.0001484509723325369, "loss": 2.3019832611083983, "step": 3130 }, { "epoch": 0.5233333333333333, "grad_norm": 0.04620906710624695, "learning_rate": 0.0001476357504904055, "loss": 2.2781230926513674, "step": 3140 }, { "epoch": 0.525, "grad_norm": 0.04393769055604935, "learning_rate": 0.00014682059849343255, "loss": 2.3518104553222656, "step": 3150 }, { "epoch": 0.5266666666666666, "grad_norm": 0.0452096126973629, "learning_rate": 0.00014600554042301065, "loss": 2.2971092224121095, "step": 3160 }, { "epoch": 0.5283333333333333, "grad_norm": 0.049306049942970276, "learning_rate": 0.00014519060035775733, "loss": 2.3017501831054688, "step": 3170 }, { "epoch": 0.53, "grad_norm": 0.04568931460380554, "learning_rate": 0.0001443758023728042, "loss": 2.2911956787109373, "step": 3180 }, { "epoch": 0.5316666666666666, "grad_norm": 0.048901692032814026, "learning_rate": 0.00014356117053908552, "loss": 2.341995620727539, "step": 3190 }, { "epoch": 0.5333333333333333, "grad_norm": 0.04323117807507515, "learning_rate": 0.00014274672892262706, "loss": 2.363936996459961, "step": 3200 }, { "epoch": 0.535, "grad_norm": 0.04628647118806839, "learning_rate": 0.00014193250158383493, "loss": 2.334271240234375, "step": 3210 }, { "epoch": 0.5366666666666666, "grad_norm": 0.04922735318541527, "learning_rate": 0.0001411185125767853, "loss": 2.305469512939453, "step": 3220 }, { "epoch": 0.5383333333333333, "grad_norm": 0.04770927503705025, "learning_rate": 0.00014030478594851336, "loss": 2.3782272338867188, "step": 3230 }, { "epoch": 0.54, "grad_norm": 0.0444621704518795, "learning_rate": 0.00013949134573830308, "loss": 2.302769088745117, "step": 3240 }, { "epoch": 0.5416666666666666, "grad_norm": 0.04581739008426666, "learning_rate": 0.0001386782159769769, "loss": 2.2403369903564454, "step": 3250 }, { "epoch": 0.5433333333333333, "grad_norm": 0.04609629139304161, "learning_rate": 0.0001378654206861861, "loss": 2.365464782714844, "step": 3260 }, { "epoch": 0.545, "grad_norm": 0.04579797014594078, "learning_rate": 0.00013705298387770083, "loss": 2.3029930114746096, "step": 3270 }, { "epoch": 0.5466666666666666, "grad_norm": 0.04666126146912575, "learning_rate": 0.0001362409295527009, "loss": 2.3250484466552734, "step": 3280 }, { "epoch": 0.5483333333333333, "grad_norm": 0.046123698353767395, "learning_rate": 0.00013542928170106675, "loss": 2.315472412109375, "step": 3290 }, { "epoch": 0.55, "grad_norm": 0.04441944509744644, "learning_rate": 0.00013461806430067067, "loss": 2.2456735610961913, "step": 3300 }, { "epoch": 0.5516666666666666, "grad_norm": 0.04268110916018486, "learning_rate": 0.00013380730131666848, "loss": 2.2688373565673827, "step": 3310 }, { "epoch": 0.5533333333333333, "grad_norm": 0.043934620916843414, "learning_rate": 0.00013299701670079148, "loss": 2.2969030380249023, "step": 3320 }, { "epoch": 0.555, "grad_norm": 0.04863844811916351, "learning_rate": 0.00013218723439063906, "loss": 2.330823516845703, "step": 3330 }, { "epoch": 0.5566666666666666, "grad_norm": 0.044768016785383224, "learning_rate": 0.00013137797830897117, "loss": 2.2624046325683596, "step": 3340 }, { "epoch": 0.5583333333333333, "grad_norm": 0.04282069951295853, "learning_rate": 0.000130569272363002, "loss": 2.2892608642578125, "step": 3350 }, { "epoch": 0.56, "grad_norm": 0.04653938114643097, "learning_rate": 0.00012976114044369348, "loss": 2.2605030059814455, "step": 3360 }, { "epoch": 0.5616666666666666, "grad_norm": 0.042660586535930634, "learning_rate": 0.00012895360642504948, "loss": 2.3623306274414064, "step": 3370 }, { "epoch": 0.5633333333333334, "grad_norm": 0.04504585638642311, "learning_rate": 0.0001281466941634105, "loss": 2.285787582397461, "step": 3380 }, { "epoch": 0.565, "grad_norm": 0.04642009362578392, "learning_rate": 0.00012734042749674903, "loss": 2.292758560180664, "step": 3390 }, { "epoch": 0.5666666666666667, "grad_norm": 0.04223250225186348, "learning_rate": 0.00012653483024396533, "loss": 2.320182991027832, "step": 3400 }, { "epoch": 0.5683333333333334, "grad_norm": 0.05031217634677887, "learning_rate": 0.00012572992620418368, "loss": 2.3236270904541017, "step": 3410 }, { "epoch": 0.57, "grad_norm": 0.043384041637182236, "learning_rate": 0.00012492573915604913, "loss": 2.294050598144531, "step": 3420 }, { "epoch": 0.5716666666666667, "grad_norm": 0.04652535542845726, "learning_rate": 0.00012412229285702536, "loss": 2.2717113494873047, "step": 3430 }, { "epoch": 0.5733333333333334, "grad_norm": 0.04482412710785866, "learning_rate": 0.00012331961104269272, "loss": 2.2652692794799805, "step": 3440 }, { "epoch": 0.575, "grad_norm": 0.044176436960697174, "learning_rate": 0.00012251771742604695, "loss": 2.3280864715576173, "step": 3450 }, { "epoch": 0.5766666666666667, "grad_norm": 0.045799173414707184, "learning_rate": 0.0001217166356967986, "loss": 2.2347755432128906, "step": 3460 }, { "epoch": 0.5783333333333334, "grad_norm": 0.04302337020635605, "learning_rate": 0.00012091638952067339, "loss": 2.2540973663330077, "step": 3470 }, { "epoch": 0.58, "grad_norm": 0.046573374420404434, "learning_rate": 0.00012011700253871287, "loss": 2.313714599609375, "step": 3480 }, { "epoch": 0.5816666666666667, "grad_norm": 0.045841339975595474, "learning_rate": 0.00011931849836657621, "loss": 2.279231643676758, "step": 3490 }, { "epoch": 0.5833333333333334, "grad_norm": 0.04207322746515274, "learning_rate": 0.0001185209005938423, "loss": 2.3070388793945313, "step": 3500 }, { "epoch": 0.585, "grad_norm": 0.04581030458211899, "learning_rate": 0.000117724232783313, "loss": 2.322564697265625, "step": 3510 }, { "epoch": 0.5866666666666667, "grad_norm": 0.04599674418568611, "learning_rate": 0.0001169285184703171, "loss": 2.2512928009033204, "step": 3520 }, { "epoch": 0.5883333333333334, "grad_norm": 0.04576753452420235, "learning_rate": 0.00011613378116201498, "loss": 2.2783023834228517, "step": 3530 }, { "epoch": 0.59, "grad_norm": 0.04758539795875549, "learning_rate": 0.000115340044336704, "loss": 2.2361690521240236, "step": 3540 }, { "epoch": 0.5916666666666667, "grad_norm": 0.0449649915099144, "learning_rate": 0.0001145473314431252, "loss": 2.3314971923828125, "step": 3550 }, { "epoch": 0.5933333333333334, "grad_norm": 0.044728368520736694, "learning_rate": 0.00011375566589977027, "loss": 2.2693477630615235, "step": 3560 }, { "epoch": 0.595, "grad_norm": 0.04283273592591286, "learning_rate": 0.00011296507109419001, "loss": 2.2808258056640627, "step": 3570 }, { "epoch": 0.5966666666666667, "grad_norm": 0.04367575794458389, "learning_rate": 0.00011217557038230321, "loss": 2.2483858108520507, "step": 3580 }, { "epoch": 0.5983333333333334, "grad_norm": 0.0444260872900486, "learning_rate": 0.00011138718708770652, "loss": 2.314860534667969, "step": 3590 }, { "epoch": 0.6, "grad_norm": 0.04368910938501358, "learning_rate": 0.00011059994450098592, "loss": 2.2928840637207033, "step": 3600 }, { "epoch": 0.6016666666666667, "grad_norm": 0.04608900472521782, "learning_rate": 0.00010981386587902815, "loss": 2.2551433563232424, "step": 3610 }, { "epoch": 0.6033333333333334, "grad_norm": 0.046781111508607864, "learning_rate": 0.00010902897444433402, "loss": 2.271870803833008, "step": 3620 }, { "epoch": 0.605, "grad_norm": 0.046633753925561905, "learning_rate": 0.00010824529338433196, "loss": 2.2948326110839843, "step": 3630 }, { "epoch": 0.6066666666666667, "grad_norm": 0.04348091781139374, "learning_rate": 0.00010746284585069346, "loss": 2.2265501022338867, "step": 3640 }, { "epoch": 0.6083333333333333, "grad_norm": 0.04466954246163368, "learning_rate": 0.00010668165495864886, "loss": 2.216339874267578, "step": 3650 }, { "epoch": 0.61, "grad_norm": 0.04601574316620827, "learning_rate": 0.00010590174378630452, "loss": 2.222498893737793, "step": 3660 }, { "epoch": 0.6116666666666667, "grad_norm": 0.04669777676463127, "learning_rate": 0.00010512313537396103, "loss": 2.2816734313964844, "step": 3670 }, { "epoch": 0.6133333333333333, "grad_norm": 0.0460570827126503, "learning_rate": 0.00010434585272343259, "loss": 2.2401283264160154, "step": 3680 }, { "epoch": 0.615, "grad_norm": 0.046909622848033905, "learning_rate": 0.00010356991879736749, "loss": 2.266475296020508, "step": 3690 }, { "epoch": 0.6166666666666667, "grad_norm": 0.04723437875509262, "learning_rate": 0.00010279535651856969, "loss": 2.2393699645996095, "step": 3700 }, { "epoch": 0.6183333333333333, "grad_norm": 0.04490575194358826, "learning_rate": 0.00010202218876932163, "loss": 2.223342514038086, "step": 3710 }, { "epoch": 0.62, "grad_norm": 0.04225336015224457, "learning_rate": 0.0001012504383907083, "loss": 2.1646907806396483, "step": 3720 }, { "epoch": 0.6216666666666667, "grad_norm": 0.046740125864744186, "learning_rate": 0.00010048012818194242, "loss": 2.3001195907592775, "step": 3730 }, { "epoch": 0.6233333333333333, "grad_norm": 0.04719153791666031, "learning_rate": 9.971128089969095e-05, "loss": 2.232859420776367, "step": 3740 }, { "epoch": 0.625, "grad_norm": 0.04699334874749184, "learning_rate": 9.894391925740264e-05, "loss": 2.250790023803711, "step": 3750 }, { "epoch": 0.6266666666666667, "grad_norm": 0.04357234388589859, "learning_rate": 9.817806592463727e-05, "loss": 2.2239524841308596, "step": 3760 }, { "epoch": 0.6283333333333333, "grad_norm": 0.04547634348273277, "learning_rate": 9.741374352639579e-05, "loss": 2.290673828125, "step": 3770 }, { "epoch": 0.63, "grad_norm": 0.04525672644376755, "learning_rate": 9.665097464245195e-05, "loss": 2.2089996337890625, "step": 3780 }, { "epoch": 0.6316666666666667, "grad_norm": 0.04538796842098236, "learning_rate": 9.588978180668531e-05, "loss": 2.321030044555664, "step": 3790 }, { "epoch": 0.6333333333333333, "grad_norm": 0.045243460685014725, "learning_rate": 9.513018750641531e-05, "loss": 2.2524177551269533, "step": 3800 } ], "logging_steps": 10, "max_steps": 6000, "num_input_tokens_seen": 0, "num_train_epochs": 9223372036854775807, "save_steps": 100, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": false }, "attributes": {} } }, "total_flos": 3.346714148732928e+17, "train_batch_size": 8, "trial_name": null, "trial_params": null }