SykoLLM-V4.9-Beta / trainer_state.json
SykoSLM's picture
Upload folder using huggingface_hub
a73ae90 verified
{
"best_global_step": null,
"best_metric": null,
"best_model_checkpoint": null,
"epoch": 0.6333333333333333,
"eval_steps": 500,
"global_step": 3800,
"is_hyper_param_search": false,
"is_local_process_zero": true,
"is_world_process_zero": true,
"log_history": [
{
"epoch": 0.0016666666666666668,
"grad_norm": 0.3210105299949646,
"learning_rate": 1.2272727272727271e-05,
"loss": 10.294613647460938,
"step": 10
},
{
"epoch": 0.0033333333333333335,
"grad_norm": 0.2156638205051422,
"learning_rate": 2.5909090909090906e-05,
"loss": 9.713479614257812,
"step": 20
},
{
"epoch": 0.005,
"grad_norm": 0.15897703170776367,
"learning_rate": 3.954545454545454e-05,
"loss": 9.326141357421875,
"step": 30
},
{
"epoch": 0.006666666666666667,
"grad_norm": 0.13951502740383148,
"learning_rate": 5.318181818181818e-05,
"loss": 9.020196533203125,
"step": 40
},
{
"epoch": 0.008333333333333333,
"grad_norm": 0.12026762217283249,
"learning_rate": 6.68181818181818e-05,
"loss": 8.668742370605468,
"step": 50
},
{
"epoch": 0.01,
"grad_norm": 0.09609497338533401,
"learning_rate": 8.045454545454545e-05,
"loss": 8.326473999023438,
"step": 60
},
{
"epoch": 0.011666666666666667,
"grad_norm": 0.10631376504898071,
"learning_rate": 9.40909090909091e-05,
"loss": 7.9658042907714846,
"step": 70
},
{
"epoch": 0.013333333333333334,
"grad_norm": 0.10316690802574158,
"learning_rate": 0.00010772727272727271,
"loss": 7.733299255371094,
"step": 80
},
{
"epoch": 0.015,
"grad_norm": 0.09529491513967514,
"learning_rate": 0.00012136363636363636,
"loss": 7.559881591796875,
"step": 90
},
{
"epoch": 0.016666666666666666,
"grad_norm": 0.08692844212055206,
"learning_rate": 0.000135,
"loss": 7.423441314697266,
"step": 100
},
{
"epoch": 0.018333333333333333,
"grad_norm": 0.13299672305583954,
"learning_rate": 0.00014863636363636362,
"loss": 7.203767395019531,
"step": 110
},
{
"epoch": 0.02,
"grad_norm": 0.10762651264667511,
"learning_rate": 0.00016227272727272726,
"loss": 6.991656494140625,
"step": 120
},
{
"epoch": 0.021666666666666667,
"grad_norm": 0.15066272020339966,
"learning_rate": 0.00017590909090909088,
"loss": 6.775782775878906,
"step": 130
},
{
"epoch": 0.023333333333333334,
"grad_norm": 0.16522859036922455,
"learning_rate": 0.00018954545454545453,
"loss": 6.557352447509766,
"step": 140
},
{
"epoch": 0.025,
"grad_norm": 0.12791681289672852,
"learning_rate": 0.00020318181818181815,
"loss": 6.374400329589844,
"step": 150
},
{
"epoch": 0.02666666666666667,
"grad_norm": 0.14518573880195618,
"learning_rate": 0.00021681818181818182,
"loss": 6.167789459228516,
"step": 160
},
{
"epoch": 0.028333333333333332,
"grad_norm": 0.11279226839542389,
"learning_rate": 0.00023045454545454544,
"loss": 5.949956893920898,
"step": 170
},
{
"epoch": 0.03,
"grad_norm": 0.10456318408250809,
"learning_rate": 0.00024409090909090905,
"loss": 5.898213958740234,
"step": 180
},
{
"epoch": 0.03166666666666667,
"grad_norm": 0.08588645607233047,
"learning_rate": 0.0002577272727272727,
"loss": 5.692521667480468,
"step": 190
},
{
"epoch": 0.03333333333333333,
"grad_norm": 0.09524291008710861,
"learning_rate": 0.0002713636363636363,
"loss": 5.620618057250977,
"step": 200
},
{
"epoch": 0.035,
"grad_norm": 0.10834430158138275,
"learning_rate": 0.000285,
"loss": 5.490602111816406,
"step": 210
},
{
"epoch": 0.03666666666666667,
"grad_norm": 0.13813409209251404,
"learning_rate": 0.0002986363636363636,
"loss": 5.307170867919922,
"step": 220
},
{
"epoch": 0.03833333333333333,
"grad_norm": 0.07976827025413513,
"learning_rate": 0.000299998205309827,
"loss": 5.349527740478516,
"step": 230
},
{
"epoch": 0.04,
"grad_norm": 0.09545526653528214,
"learning_rate": 0.00029999200149769797,
"loss": 5.204251861572265,
"step": 240
},
{
"epoch": 0.041666666666666664,
"grad_norm": 0.10047531872987747,
"learning_rate": 0.0002999813665901747,
"loss": 5.08880615234375,
"step": 250
},
{
"epoch": 0.043333333333333335,
"grad_norm": 0.08607863634824753,
"learning_rate": 0.00029996630090143596,
"loss": 4.946316528320312,
"step": 260
},
{
"epoch": 0.045,
"grad_norm": 0.0853164866566658,
"learning_rate": 0.0002999468048765554,
"loss": 4.971838760375976,
"step": 270
},
{
"epoch": 0.04666666666666667,
"grad_norm": 0.08899261802434921,
"learning_rate": 0.0002999228790914889,
"loss": 4.88647232055664,
"step": 280
},
{
"epoch": 0.04833333333333333,
"grad_norm": 0.09347144514322281,
"learning_rate": 0.0002998945242530568,
"loss": 4.86058235168457,
"step": 290
},
{
"epoch": 0.05,
"grad_norm": 0.08826533704996109,
"learning_rate": 0.0002998617411989239,
"loss": 4.7169921875,
"step": 300
},
{
"epoch": 0.051666666666666666,
"grad_norm": 0.08748706430196762,
"learning_rate": 0.00029982453089757413,
"loss": 4.6202129364013675,
"step": 310
},
{
"epoch": 0.05333333333333334,
"grad_norm": 0.08179391920566559,
"learning_rate": 0.00029978289444828194,
"loss": 4.677961730957032,
"step": 320
},
{
"epoch": 0.055,
"grad_norm": 0.07042308896780014,
"learning_rate": 0.0002997368330810802,
"loss": 4.629831314086914,
"step": 330
},
{
"epoch": 0.056666666666666664,
"grad_norm": 0.07931150496006012,
"learning_rate": 0.0002996863481567235,
"loss": 4.574167633056641,
"step": 340
},
{
"epoch": 0.058333333333333334,
"grad_norm": 0.08005540817975998,
"learning_rate": 0.0002996314411666482,
"loss": 4.560203933715821,
"step": 350
},
{
"epoch": 0.06,
"grad_norm": 0.08955864608287811,
"learning_rate": 0.0002995721137329282,
"loss": 4.448336410522461,
"step": 360
},
{
"epoch": 0.06166666666666667,
"grad_norm": 0.08118876814842224,
"learning_rate": 0.00029950836760822704,
"loss": 4.408453750610351,
"step": 370
},
{
"epoch": 0.06333333333333334,
"grad_norm": 0.08658885210752487,
"learning_rate": 0.0002994402046757462,
"loss": 4.47790298461914,
"step": 380
},
{
"epoch": 0.065,
"grad_norm": 0.07376985251903534,
"learning_rate": 0.0002993676269491695,
"loss": 4.35412368774414,
"step": 390
},
{
"epoch": 0.06666666666666667,
"grad_norm": 0.07317084819078445,
"learning_rate": 0.0002992906365726033,
"loss": 4.305249404907227,
"step": 400
},
{
"epoch": 0.06833333333333333,
"grad_norm": 0.07801658660173416,
"learning_rate": 0.00029920923582051377,
"loss": 4.281742095947266,
"step": 410
},
{
"epoch": 0.07,
"grad_norm": 0.08093922585248947,
"learning_rate": 0.00029912342709765904,
"loss": 4.267349624633789,
"step": 420
},
{
"epoch": 0.07166666666666667,
"grad_norm": 0.06816517561674118,
"learning_rate": 0.0002990332129390185,
"loss": 4.211469268798828,
"step": 430
},
{
"epoch": 0.07333333333333333,
"grad_norm": 0.07379963248968124,
"learning_rate": 0.00029893859600971793,
"loss": 4.209768676757813,
"step": 440
},
{
"epoch": 0.075,
"grad_norm": 0.06909876316785812,
"learning_rate": 0.0002988395791049506,
"loss": 4.091614532470703,
"step": 450
},
{
"epoch": 0.07666666666666666,
"grad_norm": 0.07152755558490753,
"learning_rate": 0.00029873616514989487,
"loss": 4.098369598388672,
"step": 460
},
{
"epoch": 0.07833333333333334,
"grad_norm": 0.07937711477279663,
"learning_rate": 0.00029862835719962757,
"loss": 4.143830108642578,
"step": 470
},
{
"epoch": 0.08,
"grad_norm": 0.06548741459846497,
"learning_rate": 0.00029851615843903405,
"loss": 4.0632171630859375,
"step": 480
},
{
"epoch": 0.08166666666666667,
"grad_norm": 0.18737898766994476,
"learning_rate": 0.0002983995721827137,
"loss": 4.063528060913086,
"step": 490
},
{
"epoch": 0.08333333333333333,
"grad_norm": 0.07438868284225464,
"learning_rate": 0.00029827860187488247,
"loss": 3.988648223876953,
"step": 500
},
{
"epoch": 0.085,
"grad_norm": 0.0689290389418602,
"learning_rate": 0.00029815325108927063,
"loss": 4.0566871643066404,
"step": 510
},
{
"epoch": 0.08666666666666667,
"grad_norm": 0.10340748727321625,
"learning_rate": 0.00029802352352901757,
"loss": 3.994831085205078,
"step": 520
},
{
"epoch": 0.08833333333333333,
"grad_norm": 0.06787977367639542,
"learning_rate": 0.0002978894230265623,
"loss": 3.935833740234375,
"step": 530
},
{
"epoch": 0.09,
"grad_norm": 0.07975687086582184,
"learning_rate": 0.0002977509535435302,
"loss": 3.921863555908203,
"step": 540
},
{
"epoch": 0.09166666666666666,
"grad_norm": 0.06528890132904053,
"learning_rate": 0.00029760811917061607,
"loss": 3.9329925537109376,
"step": 550
},
{
"epoch": 0.09333333333333334,
"grad_norm": 0.0730508416891098,
"learning_rate": 0.00029746092412746296,
"loss": 3.9105804443359373,
"step": 560
},
{
"epoch": 0.095,
"grad_norm": 0.07522772252559662,
"learning_rate": 0.000297309372762538,
"loss": 3.8793365478515627,
"step": 570
},
{
"epoch": 0.09666666666666666,
"grad_norm": 0.0628182664513588,
"learning_rate": 0.0002971534695530037,
"loss": 3.8207466125488283,
"step": 580
},
{
"epoch": 0.09833333333333333,
"grad_norm": 0.06575705111026764,
"learning_rate": 0.00029699321910458556,
"loss": 3.7580352783203126,
"step": 590
},
{
"epoch": 0.1,
"grad_norm": 0.07698246836662292,
"learning_rate": 0.00029682862615143616,
"loss": 3.741848373413086,
"step": 600
},
{
"epoch": 0.10166666666666667,
"grad_norm": 0.06195211783051491,
"learning_rate": 0.00029665969555599535,
"loss": 3.8356746673583983,
"step": 610
},
{
"epoch": 0.10333333333333333,
"grad_norm": 0.06386427581310272,
"learning_rate": 0.0002964864323088464,
"loss": 3.7516510009765627,
"step": 620
},
{
"epoch": 0.105,
"grad_norm": 0.06469837576150894,
"learning_rate": 0.00029630884152856874,
"loss": 3.7427322387695314,
"step": 630
},
{
"epoch": 0.10666666666666667,
"grad_norm": 0.0628240630030632,
"learning_rate": 0.00029612692846158676,
"loss": 3.727589416503906,
"step": 640
},
{
"epoch": 0.10833333333333334,
"grad_norm": 0.06488772481679916,
"learning_rate": 0.00029594069848201476,
"loss": 3.6941436767578124,
"step": 650
},
{
"epoch": 0.11,
"grad_norm": 0.06034167483448982,
"learning_rate": 0.00029575015709149813,
"loss": 3.621521759033203,
"step": 660
},
{
"epoch": 0.11166666666666666,
"grad_norm": 0.06813275068998337,
"learning_rate": 0.0002955553099190508,
"loss": 3.5790252685546875,
"step": 670
},
{
"epoch": 0.11333333333333333,
"grad_norm": 0.06076318025588989,
"learning_rate": 0.0002953561627208891,
"loss": 3.6731422424316404,
"step": 680
},
{
"epoch": 0.115,
"grad_norm": 0.05848376452922821,
"learning_rate": 0.0002951527213802617,
"loss": 3.594041442871094,
"step": 690
},
{
"epoch": 0.11666666666666667,
"grad_norm": 0.05992190167307854,
"learning_rate": 0.00029494499190727566,
"loss": 3.5415718078613283,
"step": 700
},
{
"epoch": 0.11833333333333333,
"grad_norm": 0.06422701478004456,
"learning_rate": 0.000294732980438719,
"loss": 3.462107849121094,
"step": 710
},
{
"epoch": 0.12,
"grad_norm": 0.06403794884681702,
"learning_rate": 0.00029451669323787914,
"loss": 3.475952911376953,
"step": 720
},
{
"epoch": 0.12166666666666667,
"grad_norm": 0.06811420619487762,
"learning_rate": 0.00029429613669435835,
"loss": 3.537554931640625,
"step": 730
},
{
"epoch": 0.12333333333333334,
"grad_norm": 0.06232806295156479,
"learning_rate": 0.0002940713173238847,
"loss": 3.438762664794922,
"step": 740
},
{
"epoch": 0.125,
"grad_norm": 0.06179925426840782,
"learning_rate": 0.00029384224176811946,
"loss": 3.506423568725586,
"step": 750
},
{
"epoch": 0.12666666666666668,
"grad_norm": 0.06174364313483238,
"learning_rate": 0.0002936089167944611,
"loss": 3.457561492919922,
"step": 760
},
{
"epoch": 0.12833333333333333,
"grad_norm": 0.06338968873023987,
"learning_rate": 0.00029337134929584524,
"loss": 3.4751319885253906,
"step": 770
},
{
"epoch": 0.13,
"grad_norm": 0.06177922338247299,
"learning_rate": 0.00029312954629054117,
"loss": 3.382034683227539,
"step": 780
},
{
"epoch": 0.13166666666666665,
"grad_norm": 0.06135409325361252,
"learning_rate": 0.00029288351492194435,
"loss": 3.421039581298828,
"step": 790
},
{
"epoch": 0.13333333333333333,
"grad_norm": 0.06828232109546661,
"learning_rate": 0.00029263326245836536,
"loss": 3.3520431518554688,
"step": 800
},
{
"epoch": 0.135,
"grad_norm": 0.06002147123217583,
"learning_rate": 0.00029237879629281547,
"loss": 3.397780990600586,
"step": 810
},
{
"epoch": 0.13666666666666666,
"grad_norm": 0.058005087077617645,
"learning_rate": 0.0002921201239427879,
"loss": 3.3631446838378904,
"step": 820
},
{
"epoch": 0.13833333333333334,
"grad_norm": 0.061771899461746216,
"learning_rate": 0.0002918572530500357,
"loss": 3.3797203063964845,
"step": 830
},
{
"epoch": 0.14,
"grad_norm": 0.057705093175172806,
"learning_rate": 0.00029159019138034646,
"loss": 3.2709060668945313,
"step": 840
},
{
"epoch": 0.14166666666666666,
"grad_norm": 0.05799249932169914,
"learning_rate": 0.0002913189468233124,
"loss": 3.2947540283203125,
"step": 850
},
{
"epoch": 0.14333333333333334,
"grad_norm": 0.059474553912878036,
"learning_rate": 0.00029104352739209755,
"loss": 3.4007835388183594,
"step": 860
},
{
"epoch": 0.145,
"grad_norm": 0.062213234603405,
"learning_rate": 0.00029076394122320087,
"loss": 3.344309997558594,
"step": 870
},
{
"epoch": 0.14666666666666667,
"grad_norm": 0.05876784771680832,
"learning_rate": 0.00029048019657621605,
"loss": 3.2779945373535155,
"step": 880
},
{
"epoch": 0.14833333333333334,
"grad_norm": 0.06091905012726784,
"learning_rate": 0.00029019230183358746,
"loss": 3.178348159790039,
"step": 890
},
{
"epoch": 0.15,
"grad_norm": 0.05918685719370842,
"learning_rate": 0.0002899002655003623,
"loss": 3.295793914794922,
"step": 900
},
{
"epoch": 0.15166666666666667,
"grad_norm": 0.06123294681310654,
"learning_rate": 0.00028960409620393967,
"loss": 3.290731430053711,
"step": 910
},
{
"epoch": 0.15333333333333332,
"grad_norm": 0.05882183462381363,
"learning_rate": 0.00028930380269381553,
"loss": 3.2458755493164064,
"step": 920
},
{
"epoch": 0.155,
"grad_norm": 0.06071766838431358,
"learning_rate": 0.0002889993938413241,
"loss": 3.172679138183594,
"step": 930
},
{
"epoch": 0.15666666666666668,
"grad_norm": 0.05640798434615135,
"learning_rate": 0.0002886908786393761,
"loss": 3.147473907470703,
"step": 940
},
{
"epoch": 0.15833333333333333,
"grad_norm": 0.06143854558467865,
"learning_rate": 0.0002883782662021927,
"loss": 3.0966817855834963,
"step": 950
},
{
"epoch": 0.16,
"grad_norm": 0.057186760008335114,
"learning_rate": 0.00028806156576503665,
"loss": 3.157902717590332,
"step": 960
},
{
"epoch": 0.16166666666666665,
"grad_norm": 0.055310387164354324,
"learning_rate": 0.0002877407866839391,
"loss": 3.1260229110717774,
"step": 970
},
{
"epoch": 0.16333333333333333,
"grad_norm": 0.05496911332011223,
"learning_rate": 0.0002874159384354235,
"loss": 3.158992576599121,
"step": 980
},
{
"epoch": 0.165,
"grad_norm": 0.059410616755485535,
"learning_rate": 0.00028708703061622537,
"loss": 3.154488182067871,
"step": 990
},
{
"epoch": 0.16666666666666666,
"grad_norm": 0.055123843252658844,
"learning_rate": 0.00028675407294300907,
"loss": 3.0926492691040037,
"step": 1000
},
{
"epoch": 0.16833333333333333,
"grad_norm": 0.05329408124089241,
"learning_rate": 0.0002864170752520804,
"loss": 3.0617744445800783,
"step": 1010
},
{
"epoch": 0.17,
"grad_norm": 0.056044623255729675,
"learning_rate": 0.0002860760474990964,
"loss": 3.087516212463379,
"step": 1020
},
{
"epoch": 0.17166666666666666,
"grad_norm": 0.05408351868391037,
"learning_rate": 0.00028573099975877104,
"loss": 3.1055776596069338,
"step": 1030
},
{
"epoch": 0.17333333333333334,
"grad_norm": 0.05544357746839523,
"learning_rate": 0.00028538194222457746,
"loss": 3.1246124267578126,
"step": 1040
},
{
"epoch": 0.175,
"grad_norm": 0.05382883921265602,
"learning_rate": 0.0002850288852084472,
"loss": 3.090876007080078,
"step": 1050
},
{
"epoch": 0.17666666666666667,
"grad_norm": 0.051369842141866684,
"learning_rate": 0.000284671839140465,
"loss": 3.0661289215087892,
"step": 1060
},
{
"epoch": 0.17833333333333334,
"grad_norm": 0.13640367984771729,
"learning_rate": 0.00028431081456856144,
"loss": 3.02095947265625,
"step": 1070
},
{
"epoch": 0.18,
"grad_norm": 0.057216331362724304,
"learning_rate": 0.0002839458221582006,
"loss": 2.9973451614379885,
"step": 1080
},
{
"epoch": 0.18166666666666667,
"grad_norm": 0.05637884512543678,
"learning_rate": 0.0002835768726920654,
"loss": 3.0164566040039062,
"step": 1090
},
{
"epoch": 0.18333333333333332,
"grad_norm": 0.05454772338271141,
"learning_rate": 0.00028320397706973886,
"loss": 3.016462707519531,
"step": 1100
},
{
"epoch": 0.185,
"grad_norm": 0.057879574596881866,
"learning_rate": 0.00028282714630738226,
"loss": 3.0435638427734375,
"step": 1110
},
{
"epoch": 0.18666666666666668,
"grad_norm": 0.05154268071055412,
"learning_rate": 0.0002824463915374096,
"loss": 3.0233779907226563,
"step": 1120
},
{
"epoch": 0.18833333333333332,
"grad_norm": 0.056277673691511154,
"learning_rate": 0.0002820617240081587,
"loss": 2.926067924499512,
"step": 1130
},
{
"epoch": 0.19,
"grad_norm": 0.05215265601873398,
"learning_rate": 0.00028167315508355903,
"loss": 2.990224075317383,
"step": 1140
},
{
"epoch": 0.19166666666666668,
"grad_norm": 0.054222747683525085,
"learning_rate": 0.00028128069624279575,
"loss": 2.9995689392089844,
"step": 1150
},
{
"epoch": 0.19333333333333333,
"grad_norm": 0.05429333448410034,
"learning_rate": 0.0002808843590799709,
"loss": 2.9959491729736327,
"step": 1160
},
{
"epoch": 0.195,
"grad_norm": 0.05494142323732376,
"learning_rate": 0.0002804841553037607,
"loss": 3.0259002685546874,
"step": 1170
},
{
"epoch": 0.19666666666666666,
"grad_norm": 0.0551028698682785,
"learning_rate": 0.00028008009673706957,
"loss": 2.992669677734375,
"step": 1180
},
{
"epoch": 0.19833333333333333,
"grad_norm": 0.05398095026612282,
"learning_rate": 0.00027967219531668114,
"loss": 2.932081604003906,
"step": 1190
},
{
"epoch": 0.2,
"grad_norm": 0.05642660707235336,
"learning_rate": 0.0002792604630929053,
"loss": 2.9109691619873046,
"step": 1200
},
{
"epoch": 0.20166666666666666,
"grad_norm": 0.05668719485402107,
"learning_rate": 0.0002788449122292223,
"loss": 2.938386154174805,
"step": 1210
},
{
"epoch": 0.20333333333333334,
"grad_norm": 0.05754353851079941,
"learning_rate": 0.0002784255550019237,
"loss": 2.9342037200927735,
"step": 1220
},
{
"epoch": 0.205,
"grad_norm": 0.05338355898857117,
"learning_rate": 0.0002780024037997492,
"loss": 2.96917781829834,
"step": 1230
},
{
"epoch": 0.20666666666666667,
"grad_norm": 0.051635079085826874,
"learning_rate": 0.00027757547112352096,
"loss": 2.86716365814209,
"step": 1240
},
{
"epoch": 0.20833333333333334,
"grad_norm": 0.05334772914648056,
"learning_rate": 0.00027714476958577445,
"loss": 2.945565605163574,
"step": 1250
},
{
"epoch": 0.21,
"grad_norm": 0.052452776581048965,
"learning_rate": 0.00027671031191038527,
"loss": 2.941428375244141,
"step": 1260
},
{
"epoch": 0.21166666666666667,
"grad_norm": 0.0512646809220314,
"learning_rate": 0.00027627211093219403,
"loss": 2.8494869232177735,
"step": 1270
},
{
"epoch": 0.21333333333333335,
"grad_norm": 0.056696198880672455,
"learning_rate": 0.00027583017959662655,
"loss": 2.886400032043457,
"step": 1280
},
{
"epoch": 0.215,
"grad_norm": 0.05387052148580551,
"learning_rate": 0.0002753845309593116,
"loss": 2.9645118713378906,
"step": 1290
},
{
"epoch": 0.21666666666666667,
"grad_norm": 0.05135899782180786,
"learning_rate": 0.0002749351781856955,
"loss": 2.9441659927368162,
"step": 1300
},
{
"epoch": 0.21833333333333332,
"grad_norm": 0.056282345205545425,
"learning_rate": 0.00027448213455065273,
"loss": 2.8547969818115235,
"step": 1310
},
{
"epoch": 0.22,
"grad_norm": 0.05254548415541649,
"learning_rate": 0.00027402541343809415,
"loss": 2.847319412231445,
"step": 1320
},
{
"epoch": 0.22166666666666668,
"grad_norm": 0.05182240530848503,
"learning_rate": 0.0002735650283405713,
"loss": 2.7736480712890623,
"step": 1330
},
{
"epoch": 0.22333333333333333,
"grad_norm": 0.05136930197477341,
"learning_rate": 0.000273100992858878,
"loss": 2.7611309051513673,
"step": 1340
},
{
"epoch": 0.225,
"grad_norm": 0.052184589207172394,
"learning_rate": 0.0002726333207016484,
"loss": 2.841841125488281,
"step": 1350
},
{
"epoch": 0.22666666666666666,
"grad_norm": 0.05014161020517349,
"learning_rate": 0.0002721620256849522,
"loss": 2.8447540283203123,
"step": 1360
},
{
"epoch": 0.22833333333333333,
"grad_norm": 0.05224721133708954,
"learning_rate": 0.00027168712173188646,
"loss": 2.802615928649902,
"step": 1370
},
{
"epoch": 0.23,
"grad_norm": 0.052749648690223694,
"learning_rate": 0.000271208622872164,
"loss": 2.801313781738281,
"step": 1380
},
{
"epoch": 0.23166666666666666,
"grad_norm": 0.04991906136274338,
"learning_rate": 0.0002707265432416991,
"loss": 2.7495779037475585,
"step": 1390
},
{
"epoch": 0.23333333333333334,
"grad_norm": 0.050237707793712616,
"learning_rate": 0.0002702408970821903,
"loss": 2.8282100677490236,
"step": 1400
},
{
"epoch": 0.235,
"grad_norm": 0.05390395596623421,
"learning_rate": 0.0002697516987406988,
"loss": 2.7946498870849608,
"step": 1410
},
{
"epoch": 0.23666666666666666,
"grad_norm": 0.0502890981733799,
"learning_rate": 0.0002692589626692255,
"loss": 2.825344467163086,
"step": 1420
},
{
"epoch": 0.23833333333333334,
"grad_norm": 0.04883512109518051,
"learning_rate": 0.0002687627034242834,
"loss": 2.7205974578857424,
"step": 1430
},
{
"epoch": 0.24,
"grad_norm": 0.052392296493053436,
"learning_rate": 0.00026826293566646804,
"loss": 2.8439666748046877,
"step": 1440
},
{
"epoch": 0.24166666666666667,
"grad_norm": 0.05233413726091385,
"learning_rate": 0.00026775967416002404,
"loss": 2.724414253234863,
"step": 1450
},
{
"epoch": 0.24333333333333335,
"grad_norm": 0.050031282007694244,
"learning_rate": 0.0002672529337724092,
"loss": 2.7721183776855467,
"step": 1460
},
{
"epoch": 0.245,
"grad_norm": 0.050909098237752914,
"learning_rate": 0.00026674272947385506,
"loss": 2.732928466796875,
"step": 1470
},
{
"epoch": 0.24666666666666667,
"grad_norm": 0.05034490302205086,
"learning_rate": 0.00026622907633692483,
"loss": 2.7958042144775392,
"step": 1480
},
{
"epoch": 0.24833333333333332,
"grad_norm": 0.04935199022293091,
"learning_rate": 0.0002657119895360679,
"loss": 2.7595340728759767,
"step": 1490
},
{
"epoch": 0.25,
"grad_norm": 0.05351424962282181,
"learning_rate": 0.0002651914843471718,
"loss": 2.759909439086914,
"step": 1500
},
{
"epoch": 0.25166666666666665,
"grad_norm": 0.05047458037734032,
"learning_rate": 0.0002646675761471109,
"loss": 2.7807662963867186,
"step": 1510
},
{
"epoch": 0.25333333333333335,
"grad_norm": 0.05166192352771759,
"learning_rate": 0.0002641402804132917,
"loss": 2.7948539733886717,
"step": 1520
},
{
"epoch": 0.255,
"grad_norm": 0.05240360647439957,
"learning_rate": 0.0002636096127231964,
"loss": 2.758434295654297,
"step": 1530
},
{
"epoch": 0.25666666666666665,
"grad_norm": 0.0527547188103199,
"learning_rate": 0.00026307558875392185,
"loss": 2.696501541137695,
"step": 1540
},
{
"epoch": 0.25833333333333336,
"grad_norm": 0.04855458065867424,
"learning_rate": 0.00026253822428171704,
"loss": 2.7219696044921875,
"step": 1550
},
{
"epoch": 0.26,
"grad_norm": 0.050831303000450134,
"learning_rate": 0.00026199753518151665,
"loss": 2.6843378067016603,
"step": 1560
},
{
"epoch": 0.26166666666666666,
"grad_norm": 0.04829718917608261,
"learning_rate": 0.00026145353742647234,
"loss": 2.7331058502197267,
"step": 1570
},
{
"epoch": 0.2633333333333333,
"grad_norm": 0.05254271253943443,
"learning_rate": 0.0002609062470874807,
"loss": 2.697750473022461,
"step": 1580
},
{
"epoch": 0.265,
"grad_norm": 0.05015081539750099,
"learning_rate": 0.0002603556803327086,
"loss": 2.7325275421142576,
"step": 1590
},
{
"epoch": 0.26666666666666666,
"grad_norm": 0.049517519772052765,
"learning_rate": 0.00025980185342711537,
"loss": 2.692926025390625,
"step": 1600
},
{
"epoch": 0.2683333333333333,
"grad_norm": 0.04981537163257599,
"learning_rate": 0.00025924478273197244,
"loss": 2.696280860900879,
"step": 1610
},
{
"epoch": 0.27,
"grad_norm": 0.04821797460317612,
"learning_rate": 0.00025868448470438,
"loss": 2.742702102661133,
"step": 1620
},
{
"epoch": 0.27166666666666667,
"grad_norm": 0.04918017238378525,
"learning_rate": 0.0002581209758967807,
"loss": 2.7045921325683593,
"step": 1630
},
{
"epoch": 0.2733333333333333,
"grad_norm": 0.046356577426195145,
"learning_rate": 0.0002575542729564708,
"loss": 2.740824317932129,
"step": 1640
},
{
"epoch": 0.275,
"grad_norm": 0.05072147026658058,
"learning_rate": 0.00025698439262510824,
"loss": 2.6823020935058595,
"step": 1650
},
{
"epoch": 0.27666666666666667,
"grad_norm": 0.04926977679133415,
"learning_rate": 0.00025641135173821826,
"loss": 2.684683609008789,
"step": 1660
},
{
"epoch": 0.2783333333333333,
"grad_norm": 0.04812793433666229,
"learning_rate": 0.0002558351672246957,
"loss": 2.6484798431396483,
"step": 1670
},
{
"epoch": 0.28,
"grad_norm": 0.05095838010311127,
"learning_rate": 0.00025525585610630517,
"loss": 2.598258209228516,
"step": 1680
},
{
"epoch": 0.2816666666666667,
"grad_norm": 0.04753347486257553,
"learning_rate": 0.0002546734354971782,
"loss": 2.7237998962402346,
"step": 1690
},
{
"epoch": 0.2833333333333333,
"grad_norm": 0.04822186380624771,
"learning_rate": 0.00025408792260330745,
"loss": 2.6640552520751952,
"step": 1700
},
{
"epoch": 0.285,
"grad_norm": 0.04903876781463623,
"learning_rate": 0.0002534993347220384,
"loss": 2.6676206588745117,
"step": 1710
},
{
"epoch": 0.2866666666666667,
"grad_norm": 0.05019659548997879,
"learning_rate": 0.0002529076892415587,
"loss": 2.702348327636719,
"step": 1720
},
{
"epoch": 0.28833333333333333,
"grad_norm": 0.0495338961482048,
"learning_rate": 0.0002523130036403841,
"loss": 2.708498001098633,
"step": 1730
},
{
"epoch": 0.29,
"grad_norm": 0.0475877970457077,
"learning_rate": 0.0002517152954868422,
"loss": 2.687460517883301,
"step": 1740
},
{
"epoch": 0.2916666666666667,
"grad_norm": 0.05122576653957367,
"learning_rate": 0.0002511145824385536,
"loss": 2.6367557525634764,
"step": 1750
},
{
"epoch": 0.29333333333333333,
"grad_norm": 0.04755600541830063,
"learning_rate": 0.00025051088224191,
"loss": 2.6142791748046874,
"step": 1760
},
{
"epoch": 0.295,
"grad_norm": 0.04830149933695793,
"learning_rate": 0.0002499042127315502,
"loss": 2.6434532165527345,
"step": 1770
},
{
"epoch": 0.2966666666666667,
"grad_norm": 0.05104847997426987,
"learning_rate": 0.0002492945918298331,
"loss": 2.651753044128418,
"step": 1780
},
{
"epoch": 0.29833333333333334,
"grad_norm": 0.04865805059671402,
"learning_rate": 0.00024868203754630804,
"loss": 2.5990322113037108,
"step": 1790
},
{
"epoch": 0.3,
"grad_norm": 0.04887863248586655,
"learning_rate": 0.00024806656797718316,
"loss": 2.6493152618408202,
"step": 1800
},
{
"epoch": 0.3016666666666667,
"grad_norm": 0.05229433625936508,
"learning_rate": 0.0002474482013047904,
"loss": 2.5940528869628907,
"step": 1810
},
{
"epoch": 0.30333333333333334,
"grad_norm": 0.04907260835170746,
"learning_rate": 0.00024682695579704867,
"loss": 2.5858959197998046,
"step": 1820
},
{
"epoch": 0.305,
"grad_norm": 0.04654543846845627,
"learning_rate": 0.00024620284980692394,
"loss": 2.655795860290527,
"step": 1830
},
{
"epoch": 0.30666666666666664,
"grad_norm": 0.04603976756334305,
"learning_rate": 0.00024557590177188735,
"loss": 2.6598703384399416,
"step": 1840
},
{
"epoch": 0.30833333333333335,
"grad_norm": 0.04806356877088547,
"learning_rate": 0.0002449461302133701,
"loss": 2.5390226364135744,
"step": 1850
},
{
"epoch": 0.31,
"grad_norm": 0.05908679962158203,
"learning_rate": 0.0002443135537362166,
"loss": 2.6288856506347655,
"step": 1860
},
{
"epoch": 0.31166666666666665,
"grad_norm": 0.04684751480817795,
"learning_rate": 0.00024367819102813487,
"loss": 2.5432594299316404,
"step": 1870
},
{
"epoch": 0.31333333333333335,
"grad_norm": 0.04680655896663666,
"learning_rate": 0.00024304006085914412,
"loss": 2.5751720428466798,
"step": 1880
},
{
"epoch": 0.315,
"grad_norm": 0.050615034997463226,
"learning_rate": 0.0002423991820810207,
"loss": 2.5600002288818358,
"step": 1890
},
{
"epoch": 0.31666666666666665,
"grad_norm": 0.047421351075172424,
"learning_rate": 0.0002417555736267408,
"loss": 2.557647705078125,
"step": 1900
},
{
"epoch": 0.31833333333333336,
"grad_norm": 0.04778824374079704,
"learning_rate": 0.00024110925450992137,
"loss": 2.5525718688964845,
"step": 1910
},
{
"epoch": 0.32,
"grad_norm": 0.04954797402024269,
"learning_rate": 0.0002404602438242583,
"loss": 2.575938034057617,
"step": 1920
},
{
"epoch": 0.32166666666666666,
"grad_norm": 0.050552625209093094,
"learning_rate": 0.00023980856074296236,
"loss": 2.5811349868774416,
"step": 1930
},
{
"epoch": 0.3233333333333333,
"grad_norm": 0.048965174704790115,
"learning_rate": 0.00023915422451819282,
"loss": 2.631545639038086,
"step": 1940
},
{
"epoch": 0.325,
"grad_norm": 0.04841230437159538,
"learning_rate": 0.00023849725448048863,
"loss": 2.5535526275634766,
"step": 1950
},
{
"epoch": 0.32666666666666666,
"grad_norm": 0.04769090935587883,
"learning_rate": 0.00023783767003819747,
"loss": 2.5577981948852537,
"step": 1960
},
{
"epoch": 0.3283333333333333,
"grad_norm": 0.04834979772567749,
"learning_rate": 0.00023717549067690225,
"loss": 2.5483366012573243,
"step": 1970
},
{
"epoch": 0.33,
"grad_norm": 0.048443444073200226,
"learning_rate": 0.0002365107359588455,
"loss": 2.5292953491210937,
"step": 1980
},
{
"epoch": 0.33166666666666667,
"grad_norm": 0.05136331170797348,
"learning_rate": 0.00023584342552235163,
"loss": 2.5718793869018555,
"step": 1990
},
{
"epoch": 0.3333333333333333,
"grad_norm": 0.047627076506614685,
"learning_rate": 0.0002351735790812465,
"loss": 2.577315902709961,
"step": 2000
},
{
"epoch": 0.335,
"grad_norm": 0.04710236191749573,
"learning_rate": 0.00023450121642427506,
"loss": 2.5738367080688476,
"step": 2010
},
{
"epoch": 0.33666666666666667,
"grad_norm": 0.04677637666463852,
"learning_rate": 0.00023382635741451717,
"loss": 2.5813961029052734,
"step": 2020
},
{
"epoch": 0.3383333333333333,
"grad_norm": 0.04876928776502609,
"learning_rate": 0.00023314902198880006,
"loss": 2.543820381164551,
"step": 2030
},
{
"epoch": 0.34,
"grad_norm": 0.04665738344192505,
"learning_rate": 0.00023246923015711005,
"loss": 2.5952043533325195,
"step": 2040
},
{
"epoch": 0.3416666666666667,
"grad_norm": 0.04646483436226845,
"learning_rate": 0.00023178700200200109,
"loss": 2.552678680419922,
"step": 2050
},
{
"epoch": 0.3433333333333333,
"grad_norm": 0.05093228071928024,
"learning_rate": 0.00023110235767800138,
"loss": 2.550699806213379,
"step": 2060
},
{
"epoch": 0.345,
"grad_norm": 0.046919822692871094,
"learning_rate": 0.00023041531741101816,
"loss": 2.5460886001586913,
"step": 2070
},
{
"epoch": 0.3466666666666667,
"grad_norm": 0.04563593491911888,
"learning_rate": 0.00022972590149774021,
"loss": 2.4875654220581054,
"step": 2080
},
{
"epoch": 0.34833333333333333,
"grad_norm": 0.05062221735715866,
"learning_rate": 0.00022903413030503806,
"loss": 2.5220041275024414,
"step": 2090
},
{
"epoch": 0.35,
"grad_norm": 0.04856550693511963,
"learning_rate": 0.00022834002426936237,
"loss": 2.5281932830810545,
"step": 2100
},
{
"epoch": 0.3516666666666667,
"grad_norm": 0.0449577234685421,
"learning_rate": 0.00022764360389614034,
"loss": 2.477060890197754,
"step": 2110
},
{
"epoch": 0.35333333333333333,
"grad_norm": 0.04712613299489021,
"learning_rate": 0.0002269448897591697,
"loss": 2.478282356262207,
"step": 2120
},
{
"epoch": 0.355,
"grad_norm": 0.04585791751742363,
"learning_rate": 0.0002262439025000111,
"loss": 2.5013359069824217,
"step": 2130
},
{
"epoch": 0.3566666666666667,
"grad_norm": 0.044884052127599716,
"learning_rate": 0.0002255406628273783,
"loss": 2.439927101135254,
"step": 2140
},
{
"epoch": 0.35833333333333334,
"grad_norm": 0.04662775993347168,
"learning_rate": 0.00022483519151652616,
"loss": 2.55285530090332,
"step": 2150
},
{
"epoch": 0.36,
"grad_norm": 0.04903047904372215,
"learning_rate": 0.00022412750940863725,
"loss": 2.493204879760742,
"step": 2160
},
{
"epoch": 0.3616666666666667,
"grad_norm": 0.04704448580741882,
"learning_rate": 0.00022341763741020592,
"loss": 2.4445751190185545,
"step": 2170
},
{
"epoch": 0.36333333333333334,
"grad_norm": 0.04714423418045044,
"learning_rate": 0.00022270559649242066,
"loss": 2.5784980773925783,
"step": 2180
},
{
"epoch": 0.365,
"grad_norm": 0.04778430610895157,
"learning_rate": 0.0002219914076905447,
"loss": 2.5525665283203125,
"step": 2190
},
{
"epoch": 0.36666666666666664,
"grad_norm": 0.04864959418773651,
"learning_rate": 0.00022127509210329444,
"loss": 2.5589746475219726,
"step": 2200
},
{
"epoch": 0.36833333333333335,
"grad_norm": 0.0469190813601017,
"learning_rate": 0.00022055667089221638,
"loss": 2.5075405120849608,
"step": 2210
},
{
"epoch": 0.37,
"grad_norm": 0.04603331536054611,
"learning_rate": 0.00021983616528106162,
"loss": 2.5121870040893555,
"step": 2220
},
{
"epoch": 0.37166666666666665,
"grad_norm": 0.049395956099033356,
"learning_rate": 0.00021911359655515925,
"loss": 2.4887548446655274,
"step": 2230
},
{
"epoch": 0.37333333333333335,
"grad_norm": 0.04528217762708664,
"learning_rate": 0.00021838898606078708,
"loss": 2.546308135986328,
"step": 2240
},
{
"epoch": 0.375,
"grad_norm": 0.04689454659819603,
"learning_rate": 0.00021766235520454146,
"loss": 2.51337890625,
"step": 2250
},
{
"epoch": 0.37666666666666665,
"grad_norm": 0.04646513611078262,
"learning_rate": 0.00021693372545270465,
"loss": 2.5064132690429686,
"step": 2260
},
{
"epoch": 0.37833333333333335,
"grad_norm": 0.046086180955171585,
"learning_rate": 0.00021620311833061073,
"loss": 2.459269714355469,
"step": 2270
},
{
"epoch": 0.38,
"grad_norm": 0.04597856104373932,
"learning_rate": 0.00021547055542200962,
"loss": 2.4114471435546876,
"step": 2280
},
{
"epoch": 0.38166666666666665,
"grad_norm": 0.04976482689380646,
"learning_rate": 0.00021473605836842951,
"loss": 2.517044448852539,
"step": 2290
},
{
"epoch": 0.38333333333333336,
"grad_norm": 0.0472680926322937,
"learning_rate": 0.00021399964886853752,
"loss": 2.4628728866577148,
"step": 2300
},
{
"epoch": 0.385,
"grad_norm": 0.04661698266863823,
"learning_rate": 0.00021326134867749865,
"loss": 2.4527189254760744,
"step": 2310
},
{
"epoch": 0.38666666666666666,
"grad_norm": 0.048806458711624146,
"learning_rate": 0.00021252117960633316,
"loss": 2.5331987380981444,
"step": 2320
},
{
"epoch": 0.3883333333333333,
"grad_norm": 0.04546506330370903,
"learning_rate": 0.0002117791635212721,
"loss": 2.4684768676757813,
"step": 2330
},
{
"epoch": 0.39,
"grad_norm": 0.047199103981256485,
"learning_rate": 0.00021103532234311137,
"loss": 2.4765689849853514,
"step": 2340
},
{
"epoch": 0.39166666666666666,
"grad_norm": 0.04428820312023163,
"learning_rate": 0.00021028967804656416,
"loss": 2.484756088256836,
"step": 2350
},
{
"epoch": 0.3933333333333333,
"grad_norm": 0.04644942283630371,
"learning_rate": 0.00020954225265961185,
"loss": 2.4731876373291017,
"step": 2360
},
{
"epoch": 0.395,
"grad_norm": 0.07739172875881195,
"learning_rate": 0.0002087930682628532,
"loss": 2.5205495834350584,
"step": 2370
},
{
"epoch": 0.39666666666666667,
"grad_norm": 0.04783055931329727,
"learning_rate": 0.00020804214698885178,
"loss": 2.419384002685547,
"step": 2380
},
{
"epoch": 0.3983333333333333,
"grad_norm": 0.04736848548054695,
"learning_rate": 0.0002072895110214826,
"loss": 2.4492137908935545,
"step": 2390
},
{
"epoch": 0.4,
"grad_norm": 0.046206265687942505,
"learning_rate": 0.0002065351825952763,
"loss": 2.541931915283203,
"step": 2400
},
{
"epoch": 0.40166666666666667,
"grad_norm": 0.04697568714618683,
"learning_rate": 0.00020577918399476269,
"loss": 2.4992557525634767,
"step": 2410
},
{
"epoch": 0.4033333333333333,
"grad_norm": 0.047801993787288666,
"learning_rate": 0.00020502153755381207,
"loss": 2.5004581451416015,
"step": 2420
},
{
"epoch": 0.405,
"grad_norm": 0.044472649693489075,
"learning_rate": 0.0002042622656549757,
"loss": 2.412652587890625,
"step": 2430
},
{
"epoch": 0.4066666666666667,
"grad_norm": 0.046403296291828156,
"learning_rate": 0.00020350139072882446,
"loss": 2.398054504394531,
"step": 2440
},
{
"epoch": 0.4083333333333333,
"grad_norm": 0.043542440980672836,
"learning_rate": 0.000202738935253286,
"loss": 2.4214170455932615,
"step": 2450
},
{
"epoch": 0.41,
"grad_norm": 0.047896455973386765,
"learning_rate": 0.00020197492175298115,
"loss": 2.5215213775634764,
"step": 2460
},
{
"epoch": 0.4116666666666667,
"grad_norm": 0.04632239043712616,
"learning_rate": 0.00020120937279855815,
"loss": 2.4218860626220704,
"step": 2470
},
{
"epoch": 0.41333333333333333,
"grad_norm": 0.04408172145485878,
"learning_rate": 0.00020044231100602595,
"loss": 2.43825740814209,
"step": 2480
},
{
"epoch": 0.415,
"grad_norm": 0.044197119772434235,
"learning_rate": 0.00019967375903608595,
"loss": 2.453116607666016,
"step": 2490
},
{
"epoch": 0.4166666666666667,
"grad_norm": 0.04552914947271347,
"learning_rate": 0.00019890373959346295,
"loss": 2.4558712005615235,
"step": 2500
},
{
"epoch": 0.41833333333333333,
"grad_norm": 0.04537361487746239,
"learning_rate": 0.00019813227542623386,
"loss": 2.410854148864746,
"step": 2510
},
{
"epoch": 0.42,
"grad_norm": 0.04683098942041397,
"learning_rate": 0.00019735938932515613,
"loss": 2.468762969970703,
"step": 2520
},
{
"epoch": 0.4216666666666667,
"grad_norm": 0.04723796620965004,
"learning_rate": 0.00019658510412299423,
"loss": 2.4386947631835936,
"step": 2530
},
{
"epoch": 0.42333333333333334,
"grad_norm": 0.04872257262468338,
"learning_rate": 0.00019580944269384528,
"loss": 2.446548843383789,
"step": 2540
},
{
"epoch": 0.425,
"grad_norm": 0.04530220106244087,
"learning_rate": 0.0001950324279524629,
"loss": 2.3962860107421875,
"step": 2550
},
{
"epoch": 0.4266666666666667,
"grad_norm": 0.0464116670191288,
"learning_rate": 0.0001942540828535808,
"loss": 2.4241104125976562,
"step": 2560
},
{
"epoch": 0.42833333333333334,
"grad_norm": 0.04835973307490349,
"learning_rate": 0.00019347443039123433,
"loss": 2.489682197570801,
"step": 2570
},
{
"epoch": 0.43,
"grad_norm": 0.04714079201221466,
"learning_rate": 0.0001926934935980813,
"loss": 2.4189998626708986,
"step": 2580
},
{
"epoch": 0.43166666666666664,
"grad_norm": 0.0473017580807209,
"learning_rate": 0.00019191129554472128,
"loss": 2.450688934326172,
"step": 2590
},
{
"epoch": 0.43333333333333335,
"grad_norm": 0.044971223920583725,
"learning_rate": 0.0001911278593390145,
"loss": 2.4232696533203124,
"step": 2600
},
{
"epoch": 0.435,
"grad_norm": 0.04822346568107605,
"learning_rate": 0.00019034320812539885,
"loss": 2.38757209777832,
"step": 2610
},
{
"epoch": 0.43666666666666665,
"grad_norm": 0.04403518885374069,
"learning_rate": 0.00018955736508420617,
"loss": 2.400294876098633,
"step": 2620
},
{
"epoch": 0.43833333333333335,
"grad_norm": 0.04422234743833542,
"learning_rate": 0.00018877035343097765,
"loss": 2.395349884033203,
"step": 2630
},
{
"epoch": 0.44,
"grad_norm": 0.05023488029837608,
"learning_rate": 0.00018798219641577785,
"loss": 2.4216394424438477,
"step": 2640
},
{
"epoch": 0.44166666666666665,
"grad_norm": 0.04575344920158386,
"learning_rate": 0.00018719291732250773,
"loss": 2.4583833694458006,
"step": 2650
},
{
"epoch": 0.44333333333333336,
"grad_norm": 0.044867198914289474,
"learning_rate": 0.000186402539468217,
"loss": 2.495341682434082,
"step": 2660
},
{
"epoch": 0.445,
"grad_norm": 0.04729311540722847,
"learning_rate": 0.00018561108620241524,
"loss": 2.3960248947143556,
"step": 2670
},
{
"epoch": 0.44666666666666666,
"grad_norm": 0.044369276612997055,
"learning_rate": 0.000184818580906382,
"loss": 2.3665014266967774,
"step": 2680
},
{
"epoch": 0.4483333333333333,
"grad_norm": 0.04449554532766342,
"learning_rate": 0.00018402504699247625,
"loss": 2.4309972763061523,
"step": 2690
},
{
"epoch": 0.45,
"grad_norm": 0.05088217183947563,
"learning_rate": 0.0001832305079034443,
"loss": 2.4841537475585938,
"step": 2700
},
{
"epoch": 0.45166666666666666,
"grad_norm": 0.04597931355237961,
"learning_rate": 0.00018243498711172803,
"loss": 2.4378997802734377,
"step": 2710
},
{
"epoch": 0.4533333333333333,
"grad_norm": 0.04585069790482521,
"learning_rate": 0.00018163850811877047,
"loss": 2.3535308837890625,
"step": 2720
},
{
"epoch": 0.455,
"grad_norm": 0.04481475055217743,
"learning_rate": 0.00018084109445432245,
"loss": 2.38321533203125,
"step": 2730
},
{
"epoch": 0.45666666666666667,
"grad_norm": 0.045594822615385056,
"learning_rate": 0.00018004276967574682,
"loss": 2.357186126708984,
"step": 2740
},
{
"epoch": 0.4583333333333333,
"grad_norm": 0.04671576991677284,
"learning_rate": 0.00017924355736732294,
"loss": 2.3952842712402345,
"step": 2750
},
{
"epoch": 0.46,
"grad_norm": 0.047669801861047745,
"learning_rate": 0.0001784434811395495,
"loss": 2.3996456146240233,
"step": 2760
},
{
"epoch": 0.46166666666666667,
"grad_norm": 0.043536290526390076,
"learning_rate": 0.00017764256462844756,
"loss": 2.433817672729492,
"step": 2770
},
{
"epoch": 0.4633333333333333,
"grad_norm": 0.04813670367002487,
"learning_rate": 0.00017684083149486186,
"loss": 2.4222438812255858,
"step": 2780
},
{
"epoch": 0.465,
"grad_norm": 0.04439646378159523,
"learning_rate": 0.000176038305423762,
"loss": 2.380870056152344,
"step": 2790
},
{
"epoch": 0.4666666666666667,
"grad_norm": 0.04823291301727295,
"learning_rate": 0.00017523501012354264,
"loss": 2.3966320037841795,
"step": 2800
},
{
"epoch": 0.4683333333333333,
"grad_norm": 0.047504037618637085,
"learning_rate": 0.00017443096932532335,
"loss": 2.3766799926757813,
"step": 2810
},
{
"epoch": 0.47,
"grad_norm": 0.046188633888959885,
"learning_rate": 0.0001736262067822471,
"loss": 2.3464776992797853,
"step": 2820
},
{
"epoch": 0.4716666666666667,
"grad_norm": 0.045701149851083755,
"learning_rate": 0.0001728207462687791,
"loss": 2.410634994506836,
"step": 2830
},
{
"epoch": 0.47333333333333333,
"grad_norm": 0.04649294540286064,
"learning_rate": 0.00017201461158000394,
"loss": 2.3622270584106446,
"step": 2840
},
{
"epoch": 0.475,
"grad_norm": 0.044418223202228546,
"learning_rate": 0.00017120782653092282,
"loss": 2.3322967529296874,
"step": 2850
},
{
"epoch": 0.4766666666666667,
"grad_norm": 0.04588953033089638,
"learning_rate": 0.0001704004149557502,
"loss": 2.3850997924804687,
"step": 2860
},
{
"epoch": 0.47833333333333333,
"grad_norm": 0.045951224863529205,
"learning_rate": 0.00016959240070720931,
"loss": 2.3232908248901367,
"step": 2870
},
{
"epoch": 0.48,
"grad_norm": 0.04799751937389374,
"learning_rate": 0.0001687838076558278,
"loss": 2.394255828857422,
"step": 2880
},
{
"epoch": 0.4816666666666667,
"grad_norm": 0.04349227622151375,
"learning_rate": 0.00016797465968923248,
"loss": 2.3627696990966798,
"step": 2890
},
{
"epoch": 0.48333333333333334,
"grad_norm": 0.04931052029132843,
"learning_rate": 0.00016716498071144345,
"loss": 2.2932670593261717,
"step": 2900
},
{
"epoch": 0.485,
"grad_norm": 0.046034786850214005,
"learning_rate": 0.00016635479464216808,
"loss": 2.3476810455322266,
"step": 2910
},
{
"epoch": 0.4866666666666667,
"grad_norm": 0.04429607465863228,
"learning_rate": 0.00016554412541609445,
"loss": 2.372750473022461,
"step": 2920
},
{
"epoch": 0.48833333333333334,
"grad_norm": 0.04294951632618904,
"learning_rate": 0.00016473299698218405,
"loss": 2.364425277709961,
"step": 2930
},
{
"epoch": 0.49,
"grad_norm": 0.04650357365608215,
"learning_rate": 0.0001639214333029645,
"loss": 2.416010093688965,
"step": 2940
},
{
"epoch": 0.49166666666666664,
"grad_norm": 0.04426836222410202,
"learning_rate": 0.00016310945835382133,
"loss": 2.37786865234375,
"step": 2950
},
{
"epoch": 0.49333333333333335,
"grad_norm": 0.04512490704655647,
"learning_rate": 0.00016229709612229014,
"loss": 2.278778839111328,
"step": 2960
},
{
"epoch": 0.495,
"grad_norm": 0.04730796068906784,
"learning_rate": 0.00016148437060734753,
"loss": 2.3443241119384766,
"step": 2970
},
{
"epoch": 0.49666666666666665,
"grad_norm": 0.04488737881183624,
"learning_rate": 0.00016067130581870232,
"loss": 2.3536972045898437,
"step": 2980
},
{
"epoch": 0.49833333333333335,
"grad_norm": 0.04450669884681702,
"learning_rate": 0.00015985792577608628,
"loss": 2.2811954498291014,
"step": 2990
},
{
"epoch": 0.5,
"grad_norm": 0.04698580875992775,
"learning_rate": 0.00015904425450854453,
"loss": 2.3730819702148436,
"step": 3000
},
{
"epoch": 0.5016666666666667,
"grad_norm": 0.04636741429567337,
"learning_rate": 0.0001582303160537254,
"loss": 2.3249029159545898,
"step": 3010
},
{
"epoch": 0.5033333333333333,
"grad_norm": 0.04602331295609474,
"learning_rate": 0.00015741613445717078,
"loss": 2.3067893981933594,
"step": 3020
},
{
"epoch": 0.505,
"grad_norm": 0.04617249593138695,
"learning_rate": 0.00015660173377160538,
"loss": 2.283009719848633,
"step": 3030
},
{
"epoch": 0.5066666666666667,
"grad_norm": 0.04522259905934334,
"learning_rate": 0.00015578713805622629,
"loss": 2.3601354598999023,
"step": 3040
},
{
"epoch": 0.5083333333333333,
"grad_norm": 0.046779610216617584,
"learning_rate": 0.00015497237137599215,
"loss": 2.3319862365722654,
"step": 3050
},
{
"epoch": 0.51,
"grad_norm": 0.04515037685632706,
"learning_rate": 0.00015415745780091245,
"loss": 2.3663728713989256,
"step": 3060
},
{
"epoch": 0.5116666666666667,
"grad_norm": 0.04575490206480026,
"learning_rate": 0.00015334242140533613,
"loss": 2.3500614166259766,
"step": 3070
},
{
"epoch": 0.5133333333333333,
"grad_norm": 0.04535854235291481,
"learning_rate": 0.00015252728626724053,
"loss": 2.393706512451172,
"step": 3080
},
{
"epoch": 0.515,
"grad_norm": 0.045921266078948975,
"learning_rate": 0.00015171207646752011,
"loss": 2.3695343017578123,
"step": 3090
},
{
"epoch": 0.5166666666666667,
"grad_norm": 0.04730748385190964,
"learning_rate": 0.00015089681608927504,
"loss": 2.3386932373046876,
"step": 3100
},
{
"epoch": 0.5183333333333333,
"grad_norm": 0.04488634318113327,
"learning_rate": 0.00015008152921709966,
"loss": 2.341836166381836,
"step": 3110
},
{
"epoch": 0.52,
"grad_norm": 0.04656840115785599,
"learning_rate": 0.0001492662399363709,
"loss": 2.3573772430419924,
"step": 3120
},
{
"epoch": 0.5216666666666666,
"grad_norm": 0.04529151692986488,
"learning_rate": 0.0001484509723325369,
"loss": 2.3019832611083983,
"step": 3130
},
{
"epoch": 0.5233333333333333,
"grad_norm": 0.04620906710624695,
"learning_rate": 0.0001476357504904055,
"loss": 2.2781230926513674,
"step": 3140
},
{
"epoch": 0.525,
"grad_norm": 0.04393769055604935,
"learning_rate": 0.00014682059849343255,
"loss": 2.3518104553222656,
"step": 3150
},
{
"epoch": 0.5266666666666666,
"grad_norm": 0.0452096126973629,
"learning_rate": 0.00014600554042301065,
"loss": 2.2971092224121095,
"step": 3160
},
{
"epoch": 0.5283333333333333,
"grad_norm": 0.049306049942970276,
"learning_rate": 0.00014519060035775733,
"loss": 2.3017501831054688,
"step": 3170
},
{
"epoch": 0.53,
"grad_norm": 0.04568931460380554,
"learning_rate": 0.0001443758023728042,
"loss": 2.2911956787109373,
"step": 3180
},
{
"epoch": 0.5316666666666666,
"grad_norm": 0.048901692032814026,
"learning_rate": 0.00014356117053908552,
"loss": 2.341995620727539,
"step": 3190
},
{
"epoch": 0.5333333333333333,
"grad_norm": 0.04323117807507515,
"learning_rate": 0.00014274672892262706,
"loss": 2.363936996459961,
"step": 3200
},
{
"epoch": 0.535,
"grad_norm": 0.04628647118806839,
"learning_rate": 0.00014193250158383493,
"loss": 2.334271240234375,
"step": 3210
},
{
"epoch": 0.5366666666666666,
"grad_norm": 0.04922735318541527,
"learning_rate": 0.0001411185125767853,
"loss": 2.305469512939453,
"step": 3220
},
{
"epoch": 0.5383333333333333,
"grad_norm": 0.04770927503705025,
"learning_rate": 0.00014030478594851336,
"loss": 2.3782272338867188,
"step": 3230
},
{
"epoch": 0.54,
"grad_norm": 0.0444621704518795,
"learning_rate": 0.00013949134573830308,
"loss": 2.302769088745117,
"step": 3240
},
{
"epoch": 0.5416666666666666,
"grad_norm": 0.04581739008426666,
"learning_rate": 0.0001386782159769769,
"loss": 2.2403369903564454,
"step": 3250
},
{
"epoch": 0.5433333333333333,
"grad_norm": 0.04609629139304161,
"learning_rate": 0.0001378654206861861,
"loss": 2.365464782714844,
"step": 3260
},
{
"epoch": 0.545,
"grad_norm": 0.04579797014594078,
"learning_rate": 0.00013705298387770083,
"loss": 2.3029930114746096,
"step": 3270
},
{
"epoch": 0.5466666666666666,
"grad_norm": 0.04666126146912575,
"learning_rate": 0.0001362409295527009,
"loss": 2.3250484466552734,
"step": 3280
},
{
"epoch": 0.5483333333333333,
"grad_norm": 0.046123698353767395,
"learning_rate": 0.00013542928170106675,
"loss": 2.315472412109375,
"step": 3290
},
{
"epoch": 0.55,
"grad_norm": 0.04441944509744644,
"learning_rate": 0.00013461806430067067,
"loss": 2.2456735610961913,
"step": 3300
},
{
"epoch": 0.5516666666666666,
"grad_norm": 0.04268110916018486,
"learning_rate": 0.00013380730131666848,
"loss": 2.2688373565673827,
"step": 3310
},
{
"epoch": 0.5533333333333333,
"grad_norm": 0.043934620916843414,
"learning_rate": 0.00013299701670079148,
"loss": 2.2969030380249023,
"step": 3320
},
{
"epoch": 0.555,
"grad_norm": 0.04863844811916351,
"learning_rate": 0.00013218723439063906,
"loss": 2.330823516845703,
"step": 3330
},
{
"epoch": 0.5566666666666666,
"grad_norm": 0.044768016785383224,
"learning_rate": 0.00013137797830897117,
"loss": 2.2624046325683596,
"step": 3340
},
{
"epoch": 0.5583333333333333,
"grad_norm": 0.04282069951295853,
"learning_rate": 0.000130569272363002,
"loss": 2.2892608642578125,
"step": 3350
},
{
"epoch": 0.56,
"grad_norm": 0.04653938114643097,
"learning_rate": 0.00012976114044369348,
"loss": 2.2605030059814455,
"step": 3360
},
{
"epoch": 0.5616666666666666,
"grad_norm": 0.042660586535930634,
"learning_rate": 0.00012895360642504948,
"loss": 2.3623306274414064,
"step": 3370
},
{
"epoch": 0.5633333333333334,
"grad_norm": 0.04504585638642311,
"learning_rate": 0.0001281466941634105,
"loss": 2.285787582397461,
"step": 3380
},
{
"epoch": 0.565,
"grad_norm": 0.04642009362578392,
"learning_rate": 0.00012734042749674903,
"loss": 2.292758560180664,
"step": 3390
},
{
"epoch": 0.5666666666666667,
"grad_norm": 0.04223250225186348,
"learning_rate": 0.00012653483024396533,
"loss": 2.320182991027832,
"step": 3400
},
{
"epoch": 0.5683333333333334,
"grad_norm": 0.05031217634677887,
"learning_rate": 0.00012572992620418368,
"loss": 2.3236270904541017,
"step": 3410
},
{
"epoch": 0.57,
"grad_norm": 0.043384041637182236,
"learning_rate": 0.00012492573915604913,
"loss": 2.294050598144531,
"step": 3420
},
{
"epoch": 0.5716666666666667,
"grad_norm": 0.04652535542845726,
"learning_rate": 0.00012412229285702536,
"loss": 2.2717113494873047,
"step": 3430
},
{
"epoch": 0.5733333333333334,
"grad_norm": 0.04482412710785866,
"learning_rate": 0.00012331961104269272,
"loss": 2.2652692794799805,
"step": 3440
},
{
"epoch": 0.575,
"grad_norm": 0.044176436960697174,
"learning_rate": 0.00012251771742604695,
"loss": 2.3280864715576173,
"step": 3450
},
{
"epoch": 0.5766666666666667,
"grad_norm": 0.045799173414707184,
"learning_rate": 0.0001217166356967986,
"loss": 2.2347755432128906,
"step": 3460
},
{
"epoch": 0.5783333333333334,
"grad_norm": 0.04302337020635605,
"learning_rate": 0.00012091638952067339,
"loss": 2.2540973663330077,
"step": 3470
},
{
"epoch": 0.58,
"grad_norm": 0.046573374420404434,
"learning_rate": 0.00012011700253871287,
"loss": 2.313714599609375,
"step": 3480
},
{
"epoch": 0.5816666666666667,
"grad_norm": 0.045841339975595474,
"learning_rate": 0.00011931849836657621,
"loss": 2.279231643676758,
"step": 3490
},
{
"epoch": 0.5833333333333334,
"grad_norm": 0.04207322746515274,
"learning_rate": 0.0001185209005938423,
"loss": 2.3070388793945313,
"step": 3500
},
{
"epoch": 0.585,
"grad_norm": 0.04581030458211899,
"learning_rate": 0.000117724232783313,
"loss": 2.322564697265625,
"step": 3510
},
{
"epoch": 0.5866666666666667,
"grad_norm": 0.04599674418568611,
"learning_rate": 0.0001169285184703171,
"loss": 2.2512928009033204,
"step": 3520
},
{
"epoch": 0.5883333333333334,
"grad_norm": 0.04576753452420235,
"learning_rate": 0.00011613378116201498,
"loss": 2.2783023834228517,
"step": 3530
},
{
"epoch": 0.59,
"grad_norm": 0.04758539795875549,
"learning_rate": 0.000115340044336704,
"loss": 2.2361690521240236,
"step": 3540
},
{
"epoch": 0.5916666666666667,
"grad_norm": 0.0449649915099144,
"learning_rate": 0.0001145473314431252,
"loss": 2.3314971923828125,
"step": 3550
},
{
"epoch": 0.5933333333333334,
"grad_norm": 0.044728368520736694,
"learning_rate": 0.00011375566589977027,
"loss": 2.2693477630615235,
"step": 3560
},
{
"epoch": 0.595,
"grad_norm": 0.04283273592591286,
"learning_rate": 0.00011296507109419001,
"loss": 2.2808258056640627,
"step": 3570
},
{
"epoch": 0.5966666666666667,
"grad_norm": 0.04367575794458389,
"learning_rate": 0.00011217557038230321,
"loss": 2.2483858108520507,
"step": 3580
},
{
"epoch": 0.5983333333333334,
"grad_norm": 0.0444260872900486,
"learning_rate": 0.00011138718708770652,
"loss": 2.314860534667969,
"step": 3590
},
{
"epoch": 0.6,
"grad_norm": 0.04368910938501358,
"learning_rate": 0.00011059994450098592,
"loss": 2.2928840637207033,
"step": 3600
},
{
"epoch": 0.6016666666666667,
"grad_norm": 0.04608900472521782,
"learning_rate": 0.00010981386587902815,
"loss": 2.2551433563232424,
"step": 3610
},
{
"epoch": 0.6033333333333334,
"grad_norm": 0.046781111508607864,
"learning_rate": 0.00010902897444433402,
"loss": 2.271870803833008,
"step": 3620
},
{
"epoch": 0.605,
"grad_norm": 0.046633753925561905,
"learning_rate": 0.00010824529338433196,
"loss": 2.2948326110839843,
"step": 3630
},
{
"epoch": 0.6066666666666667,
"grad_norm": 0.04348091781139374,
"learning_rate": 0.00010746284585069346,
"loss": 2.2265501022338867,
"step": 3640
},
{
"epoch": 0.6083333333333333,
"grad_norm": 0.04466954246163368,
"learning_rate": 0.00010668165495864886,
"loss": 2.216339874267578,
"step": 3650
},
{
"epoch": 0.61,
"grad_norm": 0.04601574316620827,
"learning_rate": 0.00010590174378630452,
"loss": 2.222498893737793,
"step": 3660
},
{
"epoch": 0.6116666666666667,
"grad_norm": 0.04669777676463127,
"learning_rate": 0.00010512313537396103,
"loss": 2.2816734313964844,
"step": 3670
},
{
"epoch": 0.6133333333333333,
"grad_norm": 0.0460570827126503,
"learning_rate": 0.00010434585272343259,
"loss": 2.2401283264160154,
"step": 3680
},
{
"epoch": 0.615,
"grad_norm": 0.046909622848033905,
"learning_rate": 0.00010356991879736749,
"loss": 2.266475296020508,
"step": 3690
},
{
"epoch": 0.6166666666666667,
"grad_norm": 0.04723437875509262,
"learning_rate": 0.00010279535651856969,
"loss": 2.2393699645996095,
"step": 3700
},
{
"epoch": 0.6183333333333333,
"grad_norm": 0.04490575194358826,
"learning_rate": 0.00010202218876932163,
"loss": 2.223342514038086,
"step": 3710
},
{
"epoch": 0.62,
"grad_norm": 0.04225336015224457,
"learning_rate": 0.0001012504383907083,
"loss": 2.1646907806396483,
"step": 3720
},
{
"epoch": 0.6216666666666667,
"grad_norm": 0.046740125864744186,
"learning_rate": 0.00010048012818194242,
"loss": 2.3001195907592775,
"step": 3730
},
{
"epoch": 0.6233333333333333,
"grad_norm": 0.04719153791666031,
"learning_rate": 9.971128089969095e-05,
"loss": 2.232859420776367,
"step": 3740
},
{
"epoch": 0.625,
"grad_norm": 0.04699334874749184,
"learning_rate": 9.894391925740264e-05,
"loss": 2.250790023803711,
"step": 3750
},
{
"epoch": 0.6266666666666667,
"grad_norm": 0.04357234388589859,
"learning_rate": 9.817806592463727e-05,
"loss": 2.2239524841308596,
"step": 3760
},
{
"epoch": 0.6283333333333333,
"grad_norm": 0.04547634348273277,
"learning_rate": 9.741374352639579e-05,
"loss": 2.290673828125,
"step": 3770
},
{
"epoch": 0.63,
"grad_norm": 0.04525672644376755,
"learning_rate": 9.665097464245195e-05,
"loss": 2.2089996337890625,
"step": 3780
},
{
"epoch": 0.6316666666666667,
"grad_norm": 0.04538796842098236,
"learning_rate": 9.588978180668531e-05,
"loss": 2.321030044555664,
"step": 3790
},
{
"epoch": 0.6333333333333333,
"grad_norm": 0.045243460685014725,
"learning_rate": 9.513018750641531e-05,
"loss": 2.2524177551269533,
"step": 3800
}
],
"logging_steps": 10,
"max_steps": 6000,
"num_input_tokens_seen": 0,
"num_train_epochs": 9223372036854775807,
"save_steps": 100,
"stateful_callbacks": {
"TrainerControl": {
"args": {
"should_epoch_stop": false,
"should_evaluate": false,
"should_log": false,
"should_save": true,
"should_training_stop": false
},
"attributes": {}
}
},
"total_flos": 3.346714148732928e+17,
"train_batch_size": 8,
"trial_name": null,
"trial_params": null
}