Upload folder using huggingface_hub

a73ae90 verified 11 days ago

70.3 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.6333333333333333,
	"eval_steps": 500,
	"global_step": 3800,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0016666666666666668,
	"grad_norm": 0.3210105299949646,
	"learning_rate": 1.2272727272727271e-05,
	"loss": 10.294613647460938,
	"step": 10
	},
	{
	"epoch": 0.0033333333333333335,
	"grad_norm": 0.2156638205051422,
	"learning_rate": 2.5909090909090906e-05,
	"loss": 9.713479614257812,
	"step": 20
	},
	{
	"epoch": 0.005,
	"grad_norm": 0.15897703170776367,
	"learning_rate": 3.954545454545454e-05,
	"loss": 9.326141357421875,
	"step": 30
	},
	{
	"epoch": 0.006666666666666667,
	"grad_norm": 0.13951502740383148,
	"learning_rate": 5.318181818181818e-05,
	"loss": 9.020196533203125,
	"step": 40
	},
	{
	"epoch": 0.008333333333333333,
	"grad_norm": 0.12026762217283249,
	"learning_rate": 6.68181818181818e-05,
	"loss": 8.668742370605468,
	"step": 50
	},
	{
	"epoch": 0.01,
	"grad_norm": 0.09609497338533401,
	"learning_rate": 8.045454545454545e-05,
	"loss": 8.326473999023438,
	"step": 60
	},
	{
	"epoch": 0.011666666666666667,
	"grad_norm": 0.10631376504898071,
	"learning_rate": 9.40909090909091e-05,
	"loss": 7.9658042907714846,
	"step": 70
	},
	{
	"epoch": 0.013333333333333334,
	"grad_norm": 0.10316690802574158,
	"learning_rate": 0.00010772727272727271,
	"loss": 7.733299255371094,
	"step": 80
	},
	{
	"epoch": 0.015,
	"grad_norm": 0.09529491513967514,
	"learning_rate": 0.00012136363636363636,
	"loss": 7.559881591796875,
	"step": 90
	},
	{
	"epoch": 0.016666666666666666,
	"grad_norm": 0.08692844212055206,
	"learning_rate": 0.000135,
	"loss": 7.423441314697266,
	"step": 100
	},
	{
	"epoch": 0.018333333333333333,
	"grad_norm": 0.13299672305583954,
	"learning_rate": 0.00014863636363636362,
	"loss": 7.203767395019531,
	"step": 110
	},
	{
	"epoch": 0.02,
	"grad_norm": 0.10762651264667511,
	"learning_rate": 0.00016227272727272726,
	"loss": 6.991656494140625,
	"step": 120
	},
	{
	"epoch": 0.021666666666666667,
	"grad_norm": 0.15066272020339966,
	"learning_rate": 0.00017590909090909088,
	"loss": 6.775782775878906,
	"step": 130
	},
	{
	"epoch": 0.023333333333333334,
	"grad_norm": 0.16522859036922455,
	"learning_rate": 0.00018954545454545453,
	"loss": 6.557352447509766,
	"step": 140
	},
	{
	"epoch": 0.025,
	"grad_norm": 0.12791681289672852,
	"learning_rate": 0.00020318181818181815,
	"loss": 6.374400329589844,
	"step": 150
	},
	{
	"epoch": 0.02666666666666667,
	"grad_norm": 0.14518573880195618,
	"learning_rate": 0.00021681818181818182,
	"loss": 6.167789459228516,
	"step": 160
	},
	{
	"epoch": 0.028333333333333332,
	"grad_norm": 0.11279226839542389,
	"learning_rate": 0.00023045454545454544,
	"loss": 5.949956893920898,
	"step": 170
	},
	{
	"epoch": 0.03,
	"grad_norm": 0.10456318408250809,
	"learning_rate": 0.00024409090909090905,
	"loss": 5.898213958740234,
	"step": 180
	},
	{
	"epoch": 0.03166666666666667,
	"grad_norm": 0.08588645607233047,
	"learning_rate": 0.0002577272727272727,
	"loss": 5.692521667480468,
	"step": 190
	},
	{
	"epoch": 0.03333333333333333,
	"grad_norm": 0.09524291008710861,
	"learning_rate": 0.0002713636363636363,
	"loss": 5.620618057250977,
	"step": 200
	},
	{
	"epoch": 0.035,
	"grad_norm": 0.10834430158138275,
	"learning_rate": 0.000285,
	"loss": 5.490602111816406,
	"step": 210
	},
	{
	"epoch": 0.03666666666666667,
	"grad_norm": 0.13813409209251404,
	"learning_rate": 0.0002986363636363636,
	"loss": 5.307170867919922,
	"step": 220
	},
	{
	"epoch": 0.03833333333333333,
	"grad_norm": 0.07976827025413513,
	"learning_rate": 0.000299998205309827,
	"loss": 5.349527740478516,
	"step": 230
	},
	{
	"epoch": 0.04,
	"grad_norm": 0.09545526653528214,
	"learning_rate": 0.00029999200149769797,
	"loss": 5.204251861572265,
	"step": 240
	},
	{
	"epoch": 0.041666666666666664,
	"grad_norm": 0.10047531872987747,
	"learning_rate": 0.0002999813665901747,
	"loss": 5.08880615234375,
	"step": 250
	},
	{
	"epoch": 0.043333333333333335,
	"grad_norm": 0.08607863634824753,
	"learning_rate": 0.00029996630090143596,
	"loss": 4.946316528320312,
	"step": 260
	},
	{
	"epoch": 0.045,
	"grad_norm": 0.0853164866566658,
	"learning_rate": 0.0002999468048765554,
	"loss": 4.971838760375976,
	"step": 270
	},
	{
	"epoch": 0.04666666666666667,
	"grad_norm": 0.08899261802434921,
	"learning_rate": 0.0002999228790914889,
	"loss": 4.88647232055664,
	"step": 280
	},
	{
	"epoch": 0.04833333333333333,
	"grad_norm": 0.09347144514322281,
	"learning_rate": 0.0002998945242530568,
	"loss": 4.86058235168457,
	"step": 290
	},
	{
	"epoch": 0.05,
	"grad_norm": 0.08826533704996109,
	"learning_rate": 0.0002998617411989239,
	"loss": 4.7169921875,
	"step": 300
	},
	{
	"epoch": 0.051666666666666666,
	"grad_norm": 0.08748706430196762,
	"learning_rate": 0.00029982453089757413,
	"loss": 4.6202129364013675,
	"step": 310
	},
	{
	"epoch": 0.05333333333333334,
	"grad_norm": 0.08179391920566559,
	"learning_rate": 0.00029978289444828194,
	"loss": 4.677961730957032,
	"step": 320
	},
	{
	"epoch": 0.055,
	"grad_norm": 0.07042308896780014,
	"learning_rate": 0.0002997368330810802,
	"loss": 4.629831314086914,
	"step": 330
	},
	{
	"epoch": 0.056666666666666664,
	"grad_norm": 0.07931150496006012,
	"learning_rate": 0.0002996863481567235,
	"loss": 4.574167633056641,
	"step": 340
	},
	{
	"epoch": 0.058333333333333334,
	"grad_norm": 0.08005540817975998,
	"learning_rate": 0.0002996314411666482,
	"loss": 4.560203933715821,
	"step": 350
	},
	{
	"epoch": 0.06,
	"grad_norm": 0.08955864608287811,
	"learning_rate": 0.0002995721137329282,
	"loss": 4.448336410522461,
	"step": 360
	},
	{
	"epoch": 0.06166666666666667,
	"grad_norm": 0.08118876814842224,
	"learning_rate": 0.00029950836760822704,
	"loss": 4.408453750610351,
	"step": 370
	},
	{
	"epoch": 0.06333333333333334,
	"grad_norm": 0.08658885210752487,
	"learning_rate": 0.0002994402046757462,
	"loss": 4.47790298461914,
	"step": 380
	},
	{
	"epoch": 0.065,
	"grad_norm": 0.07376985251903534,
	"learning_rate": 0.0002993676269491695,
	"loss": 4.35412368774414,
	"step": 390
	},
	{
	"epoch": 0.06666666666666667,
	"grad_norm": 0.07317084819078445,
	"learning_rate": 0.0002992906365726033,
	"loss": 4.305249404907227,
	"step": 400
	},
	{
	"epoch": 0.06833333333333333,
	"grad_norm": 0.07801658660173416,
	"learning_rate": 0.00029920923582051377,
	"loss": 4.281742095947266,
	"step": 410
	},
	{
	"epoch": 0.07,
	"grad_norm": 0.08093922585248947,
	"learning_rate": 0.00029912342709765904,
	"loss": 4.267349624633789,
	"step": 420
	},
	{
	"epoch": 0.07166666666666667,
	"grad_norm": 0.06816517561674118,
	"learning_rate": 0.0002990332129390185,
	"loss": 4.211469268798828,
	"step": 430
	},
	{
	"epoch": 0.07333333333333333,
	"grad_norm": 0.07379963248968124,
	"learning_rate": 0.00029893859600971793,
	"loss": 4.209768676757813,
	"step": 440
	},
	{
	"epoch": 0.075,
	"grad_norm": 0.06909876316785812,
	"learning_rate": 0.0002988395791049506,
	"loss": 4.091614532470703,
	"step": 450
	},
	{
	"epoch": 0.07666666666666666,
	"grad_norm": 0.07152755558490753,
	"learning_rate": 0.00029873616514989487,
	"loss": 4.098369598388672,
	"step": 460
	},
	{
	"epoch": 0.07833333333333334,
	"grad_norm": 0.07937711477279663,
	"learning_rate": 0.00029862835719962757,
	"loss": 4.143830108642578,
	"step": 470
	},
	{
	"epoch": 0.08,
	"grad_norm": 0.06548741459846497,
	"learning_rate": 0.00029851615843903405,
	"loss": 4.0632171630859375,
	"step": 480
	},
	{
	"epoch": 0.08166666666666667,
	"grad_norm": 0.18737898766994476,
	"learning_rate": 0.0002983995721827137,
	"loss": 4.063528060913086,
	"step": 490
	},
	{
	"epoch": 0.08333333333333333,
	"grad_norm": 0.07438868284225464,
	"learning_rate": 0.00029827860187488247,
	"loss": 3.988648223876953,
	"step": 500
	},
	{
	"epoch": 0.085,
	"grad_norm": 0.0689290389418602,
	"learning_rate": 0.00029815325108927063,
	"loss": 4.0566871643066404,
	"step": 510
	},
	{
	"epoch": 0.08666666666666667,
	"grad_norm": 0.10340748727321625,
	"learning_rate": 0.00029802352352901757,
	"loss": 3.994831085205078,
	"step": 520
	},
	{
	"epoch": 0.08833333333333333,
	"grad_norm": 0.06787977367639542,
	"learning_rate": 0.0002978894230265623,
	"loss": 3.935833740234375,
	"step": 530
	},
	{
	"epoch": 0.09,
	"grad_norm": 0.07975687086582184,
	"learning_rate": 0.0002977509535435302,
	"loss": 3.921863555908203,
	"step": 540
	},
	{
	"epoch": 0.09166666666666666,
	"grad_norm": 0.06528890132904053,
	"learning_rate": 0.00029760811917061607,
	"loss": 3.9329925537109376,
	"step": 550
	},
	{
	"epoch": 0.09333333333333334,
	"grad_norm": 0.0730508416891098,
	"learning_rate": 0.00029746092412746296,
	"loss": 3.9105804443359373,
	"step": 560
	},
	{
	"epoch": 0.095,
	"grad_norm": 0.07522772252559662,
	"learning_rate": 0.000297309372762538,
	"loss": 3.8793365478515627,
	"step": 570
	},
	{
	"epoch": 0.09666666666666666,
	"grad_norm": 0.0628182664513588,
	"learning_rate": 0.0002971534695530037,
	"loss": 3.8207466125488283,
	"step": 580
	},
	{
	"epoch": 0.09833333333333333,
	"grad_norm": 0.06575705111026764,
	"learning_rate": 0.00029699321910458556,
	"loss": 3.7580352783203126,
	"step": 590
	},
	{
	"epoch": 0.1,
	"grad_norm": 0.07698246836662292,
	"learning_rate": 0.00029682862615143616,
	"loss": 3.741848373413086,
	"step": 600
	},
	{
	"epoch": 0.10166666666666667,
	"grad_norm": 0.06195211783051491,
	"learning_rate": 0.00029665969555599535,
	"loss": 3.8356746673583983,
	"step": 610
	},
	{
	"epoch": 0.10333333333333333,
	"grad_norm": 0.06386427581310272,
	"learning_rate": 0.0002964864323088464,
	"loss": 3.7516510009765627,
	"step": 620
	},
	{
	"epoch": 0.105,
	"grad_norm": 0.06469837576150894,
	"learning_rate": 0.00029630884152856874,
	"loss": 3.7427322387695314,
	"step": 630
	},
	{
	"epoch": 0.10666666666666667,
	"grad_norm": 0.0628240630030632,
	"learning_rate": 0.00029612692846158676,
	"loss": 3.727589416503906,
	"step": 640
	},
	{
	"epoch": 0.10833333333333334,
	"grad_norm": 0.06488772481679916,
	"learning_rate": 0.00029594069848201476,
	"loss": 3.6941436767578124,
	"step": 650
	},
	{
	"epoch": 0.11,
	"grad_norm": 0.06034167483448982,
	"learning_rate": 0.00029575015709149813,
	"loss": 3.621521759033203,
	"step": 660
	},
	{
	"epoch": 0.11166666666666666,
	"grad_norm": 0.06813275068998337,
	"learning_rate": 0.0002955553099190508,
	"loss": 3.5790252685546875,
	"step": 670
	},
	{
	"epoch": 0.11333333333333333,
	"grad_norm": 0.06076318025588989,
	"learning_rate": 0.0002953561627208891,
	"loss": 3.6731422424316404,
	"step": 680
	},
	{
	"epoch": 0.115,
	"grad_norm": 0.05848376452922821,
	"learning_rate": 0.0002951527213802617,
	"loss": 3.594041442871094,
	"step": 690
	},
	{
	"epoch": 0.11666666666666667,
	"grad_norm": 0.05992190167307854,
	"learning_rate": 0.00029494499190727566,
	"loss": 3.5415718078613283,
	"step": 700
	},
	{
	"epoch": 0.11833333333333333,
	"grad_norm": 0.06422701478004456,
	"learning_rate": 0.000294732980438719,
	"loss": 3.462107849121094,
	"step": 710
	},
	{
	"epoch": 0.12,
	"grad_norm": 0.06403794884681702,
	"learning_rate": 0.00029451669323787914,
	"loss": 3.475952911376953,
	"step": 720
	},
	{
	"epoch": 0.12166666666666667,
	"grad_norm": 0.06811420619487762,
	"learning_rate": 0.00029429613669435835,
	"loss": 3.537554931640625,
	"step": 730
	},
	{
	"epoch": 0.12333333333333334,
	"grad_norm": 0.06232806295156479,
	"learning_rate": 0.0002940713173238847,
	"loss": 3.438762664794922,
	"step": 740
	},
	{
	"epoch": 0.125,
	"grad_norm": 0.06179925426840782,
	"learning_rate": 0.00029384224176811946,
	"loss": 3.506423568725586,
	"step": 750
	},
	{
	"epoch": 0.12666666666666668,
	"grad_norm": 0.06174364313483238,
	"learning_rate": 0.0002936089167944611,
	"loss": 3.457561492919922,
	"step": 760
	},
	{
	"epoch": 0.12833333333333333,
	"grad_norm": 0.06338968873023987,
	"learning_rate": 0.00029337134929584524,
	"loss": 3.4751319885253906,
	"step": 770
	},
	{
	"epoch": 0.13,
	"grad_norm": 0.06177922338247299,
	"learning_rate": 0.00029312954629054117,
	"loss": 3.382034683227539,
	"step": 780
	},
	{
	"epoch": 0.13166666666666665,
	"grad_norm": 0.06135409325361252,
	"learning_rate": 0.00029288351492194435,
	"loss": 3.421039581298828,
	"step": 790
	},
	{
	"epoch": 0.13333333333333333,
	"grad_norm": 0.06828232109546661,
	"learning_rate": 0.00029263326245836536,
	"loss": 3.3520431518554688,
	"step": 800
	},
	{
	"epoch": 0.135,
	"grad_norm": 0.06002147123217583,
	"learning_rate": 0.00029237879629281547,
	"loss": 3.397780990600586,
	"step": 810
	},
	{
	"epoch": 0.13666666666666666,
	"grad_norm": 0.058005087077617645,
	"learning_rate": 0.0002921201239427879,
	"loss": 3.3631446838378904,
	"step": 820
	},
	{
	"epoch": 0.13833333333333334,
	"grad_norm": 0.061771899461746216,
	"learning_rate": 0.0002918572530500357,
	"loss": 3.3797203063964845,
	"step": 830
	},
	{
	"epoch": 0.14,
	"grad_norm": 0.057705093175172806,
	"learning_rate": 0.00029159019138034646,
	"loss": 3.2709060668945313,
	"step": 840
	},
	{
	"epoch": 0.14166666666666666,
	"grad_norm": 0.05799249932169914,
	"learning_rate": 0.0002913189468233124,
	"loss": 3.2947540283203125,
	"step": 850
	},
	{
	"epoch": 0.14333333333333334,
	"grad_norm": 0.059474553912878036,
	"learning_rate": 0.00029104352739209755,
	"loss": 3.4007835388183594,
	"step": 860
	},
	{
	"epoch": 0.145,
	"grad_norm": 0.062213234603405,
	"learning_rate": 0.00029076394122320087,
	"loss": 3.344309997558594,
	"step": 870
	},
	{
	"epoch": 0.14666666666666667,
	"grad_norm": 0.05876784771680832,
	"learning_rate": 0.00029048019657621605,
	"loss": 3.2779945373535155,
	"step": 880
	},
	{
	"epoch": 0.14833333333333334,
	"grad_norm": 0.06091905012726784,
	"learning_rate": 0.00029019230183358746,
	"loss": 3.178348159790039,
	"step": 890
	},
	{
	"epoch": 0.15,
	"grad_norm": 0.05918685719370842,
	"learning_rate": 0.0002899002655003623,
	"loss": 3.295793914794922,
	"step": 900
	},
	{
	"epoch": 0.15166666666666667,
	"grad_norm": 0.06123294681310654,
	"learning_rate": 0.00028960409620393967,
	"loss": 3.290731430053711,
	"step": 910
	},
	{
	"epoch": 0.15333333333333332,
	"grad_norm": 0.05882183462381363,
	"learning_rate": 0.00028930380269381553,
	"loss": 3.2458755493164064,
	"step": 920
	},
	{
	"epoch": 0.155,
	"grad_norm": 0.06071766838431358,
	"learning_rate": 0.0002889993938413241,
	"loss": 3.172679138183594,
	"step": 930
	},
	{
	"epoch": 0.15666666666666668,
	"grad_norm": 0.05640798434615135,
	"learning_rate": 0.0002886908786393761,
	"loss": 3.147473907470703,
	"step": 940
	},
	{
	"epoch": 0.15833333333333333,
	"grad_norm": 0.06143854558467865,
	"learning_rate": 0.0002883782662021927,
	"loss": 3.0966817855834963,
	"step": 950
	},
	{
	"epoch": 0.16,
	"grad_norm": 0.057186760008335114,
	"learning_rate": 0.00028806156576503665,
	"loss": 3.157902717590332,
	"step": 960
	},
	{
	"epoch": 0.16166666666666665,
	"grad_norm": 0.055310387164354324,
	"learning_rate": 0.0002877407866839391,
	"loss": 3.1260229110717774,
	"step": 970
	},
	{
	"epoch": 0.16333333333333333,
	"grad_norm": 0.05496911332011223,
	"learning_rate": 0.0002874159384354235,
	"loss": 3.158992576599121,
	"step": 980
	},
	{
	"epoch": 0.165,
	"grad_norm": 0.059410616755485535,
	"learning_rate": 0.00028708703061622537,
	"loss": 3.154488182067871,
	"step": 990
	},
	{
	"epoch": 0.16666666666666666,
	"grad_norm": 0.055123843252658844,
	"learning_rate": 0.00028675407294300907,
	"loss": 3.0926492691040037,
	"step": 1000
	},
	{
	"epoch": 0.16833333333333333,
	"grad_norm": 0.05329408124089241,
	"learning_rate": 0.0002864170752520804,
	"loss": 3.0617744445800783,
	"step": 1010
	},
	{
	"epoch": 0.17,
	"grad_norm": 0.056044623255729675,
	"learning_rate": 0.0002860760474990964,
	"loss": 3.087516212463379,
	"step": 1020
	},
	{
	"epoch": 0.17166666666666666,
	"grad_norm": 0.05408351868391037,
	"learning_rate": 0.00028573099975877104,
	"loss": 3.1055776596069338,
	"step": 1030
	},
	{
	"epoch": 0.17333333333333334,
	"grad_norm": 0.05544357746839523,
	"learning_rate": 0.00028538194222457746,
	"loss": 3.1246124267578126,
	"step": 1040
	},
	{
	"epoch": 0.175,
	"grad_norm": 0.05382883921265602,
	"learning_rate": 0.0002850288852084472,
	"loss": 3.090876007080078,
	"step": 1050
	},
	{
	"epoch": 0.17666666666666667,
	"grad_norm": 0.051369842141866684,
	"learning_rate": 0.000284671839140465,
	"loss": 3.0661289215087892,
	"step": 1060
	},
	{
	"epoch": 0.17833333333333334,
	"grad_norm": 0.13640367984771729,
	"learning_rate": 0.00028431081456856144,
	"loss": 3.02095947265625,
	"step": 1070
	},
	{
	"epoch": 0.18,
	"grad_norm": 0.057216331362724304,
	"learning_rate": 0.0002839458221582006,
	"loss": 2.9973451614379885,
	"step": 1080
	},
	{
	"epoch": 0.18166666666666667,
	"grad_norm": 0.05637884512543678,
	"learning_rate": 0.0002835768726920654,
	"loss": 3.0164566040039062,
	"step": 1090
	},
	{
	"epoch": 0.18333333333333332,
	"grad_norm": 0.05454772338271141,
	"learning_rate": 0.00028320397706973886,
	"loss": 3.016462707519531,
	"step": 1100
	},
	{
	"epoch": 0.185,
	"grad_norm": 0.057879574596881866,
	"learning_rate": 0.00028282714630738226,
	"loss": 3.0435638427734375,
	"step": 1110
	},
	{
	"epoch": 0.18666666666666668,
	"grad_norm": 0.05154268071055412,
	"learning_rate": 0.0002824463915374096,
	"loss": 3.0233779907226563,
	"step": 1120
	},
	{
	"epoch": 0.18833333333333332,
	"grad_norm": 0.056277673691511154,
	"learning_rate": 0.0002820617240081587,
	"loss": 2.926067924499512,
	"step": 1130
	},
	{
	"epoch": 0.19,
	"grad_norm": 0.05215265601873398,
	"learning_rate": 0.00028167315508355903,
	"loss": 2.990224075317383,
	"step": 1140
	},
	{
	"epoch": 0.19166666666666668,
	"grad_norm": 0.054222747683525085,
	"learning_rate": 0.00028128069624279575,
	"loss": 2.9995689392089844,
	"step": 1150
	},
	{
	"epoch": 0.19333333333333333,
	"grad_norm": 0.05429333448410034,
	"learning_rate": 0.0002808843590799709,
	"loss": 2.9959491729736327,
	"step": 1160
	},
	{
	"epoch": 0.195,
	"grad_norm": 0.05494142323732376,
	"learning_rate": 0.0002804841553037607,
	"loss": 3.0259002685546874,
	"step": 1170
	},
	{
	"epoch": 0.19666666666666666,
	"grad_norm": 0.0551028698682785,
	"learning_rate": 0.00028008009673706957,
	"loss": 2.992669677734375,
	"step": 1180
	},
	{
	"epoch": 0.19833333333333333,
	"grad_norm": 0.05398095026612282,
	"learning_rate": 0.00027967219531668114,
	"loss": 2.932081604003906,
	"step": 1190
	},
	{
	"epoch": 0.2,
	"grad_norm": 0.05642660707235336,
	"learning_rate": 0.0002792604630929053,
	"loss": 2.9109691619873046,
	"step": 1200
	},
	{
	"epoch": 0.20166666666666666,
	"grad_norm": 0.05668719485402107,
	"learning_rate": 0.0002788449122292223,
	"loss": 2.938386154174805,
	"step": 1210
	},
	{
	"epoch": 0.20333333333333334,
	"grad_norm": 0.05754353851079941,
	"learning_rate": 0.0002784255550019237,
	"loss": 2.9342037200927735,
	"step": 1220
	},
	{
	"epoch": 0.205,
	"grad_norm": 0.05338355898857117,
	"learning_rate": 0.0002780024037997492,
	"loss": 2.96917781829834,
	"step": 1230
	},
	{
	"epoch": 0.20666666666666667,
	"grad_norm": 0.051635079085826874,
	"learning_rate": 0.00027757547112352096,
	"loss": 2.86716365814209,
	"step": 1240
	},
	{
	"epoch": 0.20833333333333334,
	"grad_norm": 0.05334772914648056,
	"learning_rate": 0.00027714476958577445,
	"loss": 2.945565605163574,
	"step": 1250
	},
	{
	"epoch": 0.21,
	"grad_norm": 0.052452776581048965,
	"learning_rate": 0.00027671031191038527,
	"loss": 2.941428375244141,
	"step": 1260
	},
	{
	"epoch": 0.21166666666666667,
	"grad_norm": 0.0512646809220314,
	"learning_rate": 0.00027627211093219403,
	"loss": 2.8494869232177735,
	"step": 1270
	},
	{
	"epoch": 0.21333333333333335,
	"grad_norm": 0.056696198880672455,
	"learning_rate": 0.00027583017959662655,
	"loss": 2.886400032043457,
	"step": 1280
	},
	{
	"epoch": 0.215,
	"grad_norm": 0.05387052148580551,
	"learning_rate": 0.0002753845309593116,
	"loss": 2.9645118713378906,
	"step": 1290
	},
	{
	"epoch": 0.21666666666666667,
	"grad_norm": 0.05135899782180786,
	"learning_rate": 0.0002749351781856955,
	"loss": 2.9441659927368162,
	"step": 1300
	},
	{
	"epoch": 0.21833333333333332,
	"grad_norm": 0.056282345205545425,
	"learning_rate": 0.00027448213455065273,
	"loss": 2.8547969818115235,
	"step": 1310
	},
	{
	"epoch": 0.22,
	"grad_norm": 0.05254548415541649,
	"learning_rate": 0.00027402541343809415,
	"loss": 2.847319412231445,
	"step": 1320
	},
	{
	"epoch": 0.22166666666666668,
	"grad_norm": 0.05182240530848503,
	"learning_rate": 0.0002735650283405713,
	"loss": 2.7736480712890623,
	"step": 1330
	},
	{
	"epoch": 0.22333333333333333,
	"grad_norm": 0.05136930197477341,
	"learning_rate": 0.000273100992858878,
	"loss": 2.7611309051513673,
	"step": 1340
	},
	{
	"epoch": 0.225,
	"grad_norm": 0.052184589207172394,
	"learning_rate": 0.0002726333207016484,
	"loss": 2.841841125488281,
	"step": 1350
	},
	{
	"epoch": 0.22666666666666666,
	"grad_norm": 0.05014161020517349,
	"learning_rate": 0.0002721620256849522,
	"loss": 2.8447540283203123,
	"step": 1360
	},
	{
	"epoch": 0.22833333333333333,
	"grad_norm": 0.05224721133708954,
	"learning_rate": 0.00027168712173188646,
	"loss": 2.802615928649902,
	"step": 1370
	},
	{
	"epoch": 0.23,
	"grad_norm": 0.052749648690223694,
	"learning_rate": 0.000271208622872164,
	"loss": 2.801313781738281,
	"step": 1380
	},
	{
	"epoch": 0.23166666666666666,
	"grad_norm": 0.04991906136274338,
	"learning_rate": 0.0002707265432416991,
	"loss": 2.7495779037475585,
	"step": 1390
	},
	{
	"epoch": 0.23333333333333334,
	"grad_norm": 0.050237707793712616,
	"learning_rate": 0.0002702408970821903,
	"loss": 2.8282100677490236,
	"step": 1400
	},
	{
	"epoch": 0.235,
	"grad_norm": 0.05390395596623421,
	"learning_rate": 0.0002697516987406988,
	"loss": 2.7946498870849608,
	"step": 1410
	},
	{
	"epoch": 0.23666666666666666,
	"grad_norm": 0.0502890981733799,
	"learning_rate": 0.0002692589626692255,
	"loss": 2.825344467163086,
	"step": 1420
	},
	{
	"epoch": 0.23833333333333334,
	"grad_norm": 0.04883512109518051,
	"learning_rate": 0.0002687627034242834,
	"loss": 2.7205974578857424,
	"step": 1430
	},
	{
	"epoch": 0.24,
	"grad_norm": 0.052392296493053436,
	"learning_rate": 0.00026826293566646804,
	"loss": 2.8439666748046877,
	"step": 1440
	},
	{
	"epoch": 0.24166666666666667,
	"grad_norm": 0.05233413726091385,
	"learning_rate": 0.00026775967416002404,
	"loss": 2.724414253234863,
	"step": 1450
	},
	{
	"epoch": 0.24333333333333335,
	"grad_norm": 0.050031282007694244,
	"learning_rate": 0.0002672529337724092,
	"loss": 2.7721183776855467,
	"step": 1460
	},
	{
	"epoch": 0.245,
	"grad_norm": 0.050909098237752914,
	"learning_rate": 0.00026674272947385506,
	"loss": 2.732928466796875,
	"step": 1470
	},
	{
	"epoch": 0.24666666666666667,
	"grad_norm": 0.05034490302205086,
	"learning_rate": 0.00026622907633692483,
	"loss": 2.7958042144775392,
	"step": 1480
	},
	{
	"epoch": 0.24833333333333332,
	"grad_norm": 0.04935199022293091,
	"learning_rate": 0.0002657119895360679,
	"loss": 2.7595340728759767,
	"step": 1490
	},
	{
	"epoch": 0.25,
	"grad_norm": 0.05351424962282181,
	"learning_rate": 0.0002651914843471718,
	"loss": 2.759909439086914,
	"step": 1500
	},
	{
	"epoch": 0.25166666666666665,
	"grad_norm": 0.05047458037734032,
	"learning_rate": 0.0002646675761471109,
	"loss": 2.7807662963867186,
	"step": 1510
	},
	{
	"epoch": 0.25333333333333335,
	"grad_norm": 0.05166192352771759,
	"learning_rate": 0.0002641402804132917,
	"loss": 2.7948539733886717,
	"step": 1520
	},
	{
	"epoch": 0.255,
	"grad_norm": 0.05240360647439957,
	"learning_rate": 0.0002636096127231964,
	"loss": 2.758434295654297,
	"step": 1530
	},
	{
	"epoch": 0.25666666666666665,
	"grad_norm": 0.0527547188103199,
	"learning_rate": 0.00026307558875392185,
	"loss": 2.696501541137695,
	"step": 1540
	},
	{
	"epoch": 0.25833333333333336,
	"grad_norm": 0.04855458065867424,
	"learning_rate": 0.00026253822428171704,
	"loss": 2.7219696044921875,
	"step": 1550
	},
	{
	"epoch": 0.26,
	"grad_norm": 0.050831303000450134,
	"learning_rate": 0.00026199753518151665,
	"loss": 2.6843378067016603,
	"step": 1560
	},
	{
	"epoch": 0.26166666666666666,
	"grad_norm": 0.04829718917608261,
	"learning_rate": 0.00026145353742647234,
	"loss": 2.7331058502197267,
	"step": 1570
	},
	{
	"epoch": 0.2633333333333333,
	"grad_norm": 0.05254271253943443,
	"learning_rate": 0.0002609062470874807,
	"loss": 2.697750473022461,
	"step": 1580
	},
	{
	"epoch": 0.265,
	"grad_norm": 0.05015081539750099,
	"learning_rate": 0.0002603556803327086,
	"loss": 2.7325275421142576,
	"step": 1590
	},
	{
	"epoch": 0.26666666666666666,
	"grad_norm": 0.049517519772052765,
	"learning_rate": 0.00025980185342711537,
	"loss": 2.692926025390625,
	"step": 1600
	},
	{
	"epoch": 0.2683333333333333,
	"grad_norm": 0.04981537163257599,
	"learning_rate": 0.00025924478273197244,
	"loss": 2.696280860900879,
	"step": 1610
	},
	{
	"epoch": 0.27,
	"grad_norm": 0.04821797460317612,
	"learning_rate": 0.00025868448470438,
	"loss": 2.742702102661133,
	"step": 1620
	},
	{
	"epoch": 0.27166666666666667,
	"grad_norm": 0.04918017238378525,
	"learning_rate": 0.0002581209758967807,
	"loss": 2.7045921325683593,
	"step": 1630
	},
	{
	"epoch": 0.2733333333333333,
	"grad_norm": 0.046356577426195145,
	"learning_rate": 0.0002575542729564708,
	"loss": 2.740824317932129,
	"step": 1640
	},
	{
	"epoch": 0.275,
	"grad_norm": 0.05072147026658058,
	"learning_rate": 0.00025698439262510824,
	"loss": 2.6823020935058595,
	"step": 1650
	},
	{
	"epoch": 0.27666666666666667,
	"grad_norm": 0.04926977679133415,
	"learning_rate": 0.00025641135173821826,
	"loss": 2.684683609008789,
	"step": 1660
	},
	{
	"epoch": 0.2783333333333333,
	"grad_norm": 0.04812793433666229,
	"learning_rate": 0.0002558351672246957,
	"loss": 2.6484798431396483,
	"step": 1670
	},
	{
	"epoch": 0.28,
	"grad_norm": 0.05095838010311127,
	"learning_rate": 0.00025525585610630517,
	"loss": 2.598258209228516,
	"step": 1680
	},
	{
	"epoch": 0.2816666666666667,
	"grad_norm": 0.04753347486257553,
	"learning_rate": 0.0002546734354971782,
	"loss": 2.7237998962402346,
	"step": 1690
	},
	{
	"epoch": 0.2833333333333333,
	"grad_norm": 0.04822186380624771,
	"learning_rate": 0.00025408792260330745,
	"loss": 2.6640552520751952,
	"step": 1700
	},
	{
	"epoch": 0.285,
	"grad_norm": 0.04903876781463623,
	"learning_rate": 0.0002534993347220384,
	"loss": 2.6676206588745117,
	"step": 1710
	},
	{
	"epoch": 0.2866666666666667,
	"grad_norm": 0.05019659548997879,
	"learning_rate": 0.0002529076892415587,
	"loss": 2.702348327636719,
	"step": 1720
	},
	{
	"epoch": 0.28833333333333333,
	"grad_norm": 0.0495338961482048,
	"learning_rate": 0.0002523130036403841,
	"loss": 2.708498001098633,
	"step": 1730
	},
	{
	"epoch": 0.29,
	"grad_norm": 0.0475877970457077,
	"learning_rate": 0.0002517152954868422,
	"loss": 2.687460517883301,
	"step": 1740
	},
	{
	"epoch": 0.2916666666666667,
	"grad_norm": 0.05122576653957367,
	"learning_rate": 0.0002511145824385536,
	"loss": 2.6367557525634764,
	"step": 1750
	},
	{
	"epoch": 0.29333333333333333,
	"grad_norm": 0.04755600541830063,
	"learning_rate": 0.00025051088224191,
	"loss": 2.6142791748046874,
	"step": 1760
	},
	{
	"epoch": 0.295,
	"grad_norm": 0.04830149933695793,
	"learning_rate": 0.0002499042127315502,
	"loss": 2.6434532165527345,
	"step": 1770
	},
	{
	"epoch": 0.2966666666666667,
	"grad_norm": 0.05104847997426987,
	"learning_rate": 0.0002492945918298331,
	"loss": 2.651753044128418,
	"step": 1780
	},
	{
	"epoch": 0.29833333333333334,
	"grad_norm": 0.04865805059671402,
	"learning_rate": 0.00024868203754630804,
	"loss": 2.5990322113037108,
	"step": 1790
	},
	{
	"epoch": 0.3,
	"grad_norm": 0.04887863248586655,
	"learning_rate": 0.00024806656797718316,
	"loss": 2.6493152618408202,
	"step": 1800
	},
	{
	"epoch": 0.3016666666666667,
	"grad_norm": 0.05229433625936508,
	"learning_rate": 0.0002474482013047904,
	"loss": 2.5940528869628907,
	"step": 1810
	},
	{
	"epoch": 0.30333333333333334,
	"grad_norm": 0.04907260835170746,
	"learning_rate": 0.00024682695579704867,
	"loss": 2.5858959197998046,
	"step": 1820
	},
	{
	"epoch": 0.305,
	"grad_norm": 0.04654543846845627,
	"learning_rate": 0.00024620284980692394,
	"loss": 2.655795860290527,
	"step": 1830
	},
	{
	"epoch": 0.30666666666666664,
	"grad_norm": 0.04603976756334305,
	"learning_rate": 0.00024557590177188735,
	"loss": 2.6598703384399416,
	"step": 1840
	},
	{
	"epoch": 0.30833333333333335,
	"grad_norm": 0.04806356877088547,
	"learning_rate": 0.0002449461302133701,
	"loss": 2.5390226364135744,
	"step": 1850
	},
	{
	"epoch": 0.31,
	"grad_norm": 0.05908679962158203,
	"learning_rate": 0.0002443135537362166,
	"loss": 2.6288856506347655,
	"step": 1860
	},
	{
	"epoch": 0.31166666666666665,
	"grad_norm": 0.04684751480817795,
	"learning_rate": 0.00024367819102813487,
	"loss": 2.5432594299316404,
	"step": 1870
	},
	{
	"epoch": 0.31333333333333335,
	"grad_norm": 0.04680655896663666,
	"learning_rate": 0.00024304006085914412,
	"loss": 2.5751720428466798,
	"step": 1880
	},
	{
	"epoch": 0.315,
	"grad_norm": 0.050615034997463226,
	"learning_rate": 0.0002423991820810207,
	"loss": 2.5600002288818358,
	"step": 1890
	},
	{
	"epoch": 0.31666666666666665,
	"grad_norm": 0.047421351075172424,
	"learning_rate": 0.0002417555736267408,
	"loss": 2.557647705078125,
	"step": 1900
	},
	{
	"epoch": 0.31833333333333336,
	"grad_norm": 0.04778824374079704,
	"learning_rate": 0.00024110925450992137,
	"loss": 2.5525718688964845,
	"step": 1910
	},
	{
	"epoch": 0.32,
	"grad_norm": 0.04954797402024269,
	"learning_rate": 0.0002404602438242583,
	"loss": 2.575938034057617,
	"step": 1920
	},
	{
	"epoch": 0.32166666666666666,
	"grad_norm": 0.050552625209093094,
	"learning_rate": 0.00023980856074296236,
	"loss": 2.5811349868774416,
	"step": 1930
	},
	{
	"epoch": 0.3233333333333333,
	"grad_norm": 0.048965174704790115,
	"learning_rate": 0.00023915422451819282,
	"loss": 2.631545639038086,
	"step": 1940
	},
	{
	"epoch": 0.325,
	"grad_norm": 0.04841230437159538,
	"learning_rate": 0.00023849725448048863,
	"loss": 2.5535526275634766,
	"step": 1950
	},
	{
	"epoch": 0.32666666666666666,
	"grad_norm": 0.04769090935587883,
	"learning_rate": 0.00023783767003819747,
	"loss": 2.5577981948852537,
	"step": 1960
	},
	{
	"epoch": 0.3283333333333333,
	"grad_norm": 0.04834979772567749,
	"learning_rate": 0.00023717549067690225,
	"loss": 2.5483366012573243,
	"step": 1970
	},
	{
	"epoch": 0.33,
	"grad_norm": 0.048443444073200226,
	"learning_rate": 0.0002365107359588455,
	"loss": 2.5292953491210937,
	"step": 1980
	},
	{
	"epoch": 0.33166666666666667,
	"grad_norm": 0.05136331170797348,
	"learning_rate": 0.00023584342552235163,
	"loss": 2.5718793869018555,
	"step": 1990
	},
	{
	"epoch": 0.3333333333333333,
	"grad_norm": 0.047627076506614685,
	"learning_rate": 0.0002351735790812465,
	"loss": 2.577315902709961,
	"step": 2000
	},
	{
	"epoch": 0.335,
	"grad_norm": 0.04710236191749573,
	"learning_rate": 0.00023450121642427506,
	"loss": 2.5738367080688476,
	"step": 2010
	},
	{
	"epoch": 0.33666666666666667,
	"grad_norm": 0.04677637666463852,
	"learning_rate": 0.00023382635741451717,
	"loss": 2.5813961029052734,
	"step": 2020
	},
	{
	"epoch": 0.3383333333333333,
	"grad_norm": 0.04876928776502609,
	"learning_rate": 0.00023314902198880006,
	"loss": 2.543820381164551,
	"step": 2030
	},
	{
	"epoch": 0.34,
	"grad_norm": 0.04665738344192505,
	"learning_rate": 0.00023246923015711005,
	"loss": 2.5952043533325195,
	"step": 2040
	},
	{
	"epoch": 0.3416666666666667,
	"grad_norm": 0.04646483436226845,
	"learning_rate": 0.00023178700200200109,
	"loss": 2.552678680419922,
	"step": 2050
	},
	{
	"epoch": 0.3433333333333333,
	"grad_norm": 0.05093228071928024,
	"learning_rate": 0.00023110235767800138,
	"loss": 2.550699806213379,
	"step": 2060
	},
	{
	"epoch": 0.345,
	"grad_norm": 0.046919822692871094,
	"learning_rate": 0.00023041531741101816,
	"loss": 2.5460886001586913,
	"step": 2070
	},
	{
	"epoch": 0.3466666666666667,
	"grad_norm": 0.04563593491911888,
	"learning_rate": 0.00022972590149774021,
	"loss": 2.4875654220581054,
	"step": 2080
	},
	{
	"epoch": 0.34833333333333333,
	"grad_norm": 0.05062221735715866,
	"learning_rate": 0.00022903413030503806,
	"loss": 2.5220041275024414,
	"step": 2090
	},
	{
	"epoch": 0.35,
	"grad_norm": 0.04856550693511963,
	"learning_rate": 0.00022834002426936237,
	"loss": 2.5281932830810545,
	"step": 2100
	},
	{
	"epoch": 0.3516666666666667,
	"grad_norm": 0.0449577234685421,
	"learning_rate": 0.00022764360389614034,
	"loss": 2.477060890197754,
	"step": 2110
	},
	{
	"epoch": 0.35333333333333333,
	"grad_norm": 0.04712613299489021,
	"learning_rate": 0.0002269448897591697,
	"loss": 2.478282356262207,
	"step": 2120
	},
	{
	"epoch": 0.355,
	"grad_norm": 0.04585791751742363,
	"learning_rate": 0.0002262439025000111,
	"loss": 2.5013359069824217,
	"step": 2130
	},
	{
	"epoch": 0.3566666666666667,
	"grad_norm": 0.044884052127599716,
	"learning_rate": 0.0002255406628273783,
	"loss": 2.439927101135254,
	"step": 2140
	},
	{
	"epoch": 0.35833333333333334,
	"grad_norm": 0.04662775993347168,
	"learning_rate": 0.00022483519151652616,
	"loss": 2.55285530090332,
	"step": 2150
	},
	{
	"epoch": 0.36,
	"grad_norm": 0.04903047904372215,
	"learning_rate": 0.00022412750940863725,
	"loss": 2.493204879760742,
	"step": 2160
	},
	{
	"epoch": 0.3616666666666667,
	"grad_norm": 0.04704448580741882,
	"learning_rate": 0.00022341763741020592,
	"loss": 2.4445751190185545,
	"step": 2170
	},
	{
	"epoch": 0.36333333333333334,
	"grad_norm": 0.04714423418045044,
	"learning_rate": 0.00022270559649242066,
	"loss": 2.5784980773925783,
	"step": 2180
	},
	{
	"epoch": 0.365,
	"grad_norm": 0.04778430610895157,
	"learning_rate": 0.0002219914076905447,
	"loss": 2.5525665283203125,
	"step": 2190
	},
	{
	"epoch": 0.36666666666666664,
	"grad_norm": 0.04864959418773651,
	"learning_rate": 0.00022127509210329444,
	"loss": 2.5589746475219726,
	"step": 2200
	},
	{
	"epoch": 0.36833333333333335,
	"grad_norm": 0.0469190813601017,
	"learning_rate": 0.00022055667089221638,
	"loss": 2.5075405120849608,
	"step": 2210
	},
	{
	"epoch": 0.37,
	"grad_norm": 0.04603331536054611,
	"learning_rate": 0.00021983616528106162,
	"loss": 2.5121870040893555,
	"step": 2220
	},
	{
	"epoch": 0.37166666666666665,
	"grad_norm": 0.049395956099033356,
	"learning_rate": 0.00021911359655515925,
	"loss": 2.4887548446655274,
	"step": 2230
	},
	{
	"epoch": 0.37333333333333335,
	"grad_norm": 0.04528217762708664,
	"learning_rate": 0.00021838898606078708,
	"loss": 2.546308135986328,
	"step": 2240
	},
	{
	"epoch": 0.375,
	"grad_norm": 0.04689454659819603,
	"learning_rate": 0.00021766235520454146,
	"loss": 2.51337890625,
	"step": 2250
	},
	{
	"epoch": 0.37666666666666665,
	"grad_norm": 0.04646513611078262,
	"learning_rate": 0.00021693372545270465,
	"loss": 2.5064132690429686,
	"step": 2260
	},
	{
	"epoch": 0.37833333333333335,
	"grad_norm": 0.046086180955171585,
	"learning_rate": 0.00021620311833061073,
	"loss": 2.459269714355469,
	"step": 2270
	},
	{
	"epoch": 0.38,
	"grad_norm": 0.04597856104373932,
	"learning_rate": 0.00021547055542200962,
	"loss": 2.4114471435546876,
	"step": 2280
	},
	{
	"epoch": 0.38166666666666665,
	"grad_norm": 0.04976482689380646,
	"learning_rate": 0.00021473605836842951,
	"loss": 2.517044448852539,
	"step": 2290
	},
	{
	"epoch": 0.38333333333333336,
	"grad_norm": 0.0472680926322937,
	"learning_rate": 0.00021399964886853752,
	"loss": 2.4628728866577148,
	"step": 2300
	},
	{
	"epoch": 0.385,
	"grad_norm": 0.04661698266863823,
	"learning_rate": 0.00021326134867749865,
	"loss": 2.4527189254760744,
	"step": 2310
	},
	{
	"epoch": 0.38666666666666666,
	"grad_norm": 0.048806458711624146,
	"learning_rate": 0.00021252117960633316,
	"loss": 2.5331987380981444,
	"step": 2320
	},
	{
	"epoch": 0.3883333333333333,
	"grad_norm": 0.04546506330370903,
	"learning_rate": 0.0002117791635212721,
	"loss": 2.4684768676757813,
	"step": 2330
	},
	{
	"epoch": 0.39,
	"grad_norm": 0.047199103981256485,
	"learning_rate": 0.00021103532234311137,
	"loss": 2.4765689849853514,
	"step": 2340
	},
	{
	"epoch": 0.39166666666666666,
	"grad_norm": 0.04428820312023163,
	"learning_rate": 0.00021028967804656416,
	"loss": 2.484756088256836,
	"step": 2350
	},
	{
	"epoch": 0.3933333333333333,
	"grad_norm": 0.04644942283630371,
	"learning_rate": 0.00020954225265961185,
	"loss": 2.4731876373291017,
	"step": 2360
	},
	{
	"epoch": 0.395,
	"grad_norm": 0.07739172875881195,
	"learning_rate": 0.0002087930682628532,
	"loss": 2.5205495834350584,
	"step": 2370
	},
	{
	"epoch": 0.39666666666666667,
	"grad_norm": 0.04783055931329727,
	"learning_rate": 0.00020804214698885178,
	"loss": 2.419384002685547,
	"step": 2380
	},
	{
	"epoch": 0.3983333333333333,
	"grad_norm": 0.04736848548054695,
	"learning_rate": 0.0002072895110214826,
	"loss": 2.4492137908935545,
	"step": 2390
	},
	{
	"epoch": 0.4,
	"grad_norm": 0.046206265687942505,
	"learning_rate": 0.0002065351825952763,
	"loss": 2.541931915283203,
	"step": 2400
	},
	{
	"epoch": 0.40166666666666667,
	"grad_norm": 0.04697568714618683,
	"learning_rate": 0.00020577918399476269,
	"loss": 2.4992557525634767,
	"step": 2410
	},
	{
	"epoch": 0.4033333333333333,
	"grad_norm": 0.047801993787288666,
	"learning_rate": 0.00020502153755381207,
	"loss": 2.5004581451416015,
	"step": 2420
	},
	{
	"epoch": 0.405,
	"grad_norm": 0.044472649693489075,
	"learning_rate": 0.0002042622656549757,
	"loss": 2.412652587890625,
	"step": 2430
	},
	{
	"epoch": 0.4066666666666667,
	"grad_norm": 0.046403296291828156,
	"learning_rate": 0.00020350139072882446,
	"loss": 2.398054504394531,
	"step": 2440
	},
	{
	"epoch": 0.4083333333333333,
	"grad_norm": 0.043542440980672836,
	"learning_rate": 0.000202738935253286,
	"loss": 2.4214170455932615,
	"step": 2450
	},
	{
	"epoch": 0.41,
	"grad_norm": 0.047896455973386765,
	"learning_rate": 0.00020197492175298115,
	"loss": 2.5215213775634764,
	"step": 2460
	},
	{
	"epoch": 0.4116666666666667,
	"grad_norm": 0.04632239043712616,
	"learning_rate": 0.00020120937279855815,
	"loss": 2.4218860626220704,
	"step": 2470
	},
	{
	"epoch": 0.41333333333333333,
	"grad_norm": 0.04408172145485878,
	"learning_rate": 0.00020044231100602595,
	"loss": 2.43825740814209,
	"step": 2480
	},
	{
	"epoch": 0.415,
	"grad_norm": 0.044197119772434235,
	"learning_rate": 0.00019967375903608595,
	"loss": 2.453116607666016,
	"step": 2490
	},
	{
	"epoch": 0.4166666666666667,
	"grad_norm": 0.04552914947271347,
	"learning_rate": 0.00019890373959346295,
	"loss": 2.4558712005615235,
	"step": 2500
	},
	{
	"epoch": 0.41833333333333333,
	"grad_norm": 0.04537361487746239,
	"learning_rate": 0.00019813227542623386,
	"loss": 2.410854148864746,
	"step": 2510
	},
	{
	"epoch": 0.42,
	"grad_norm": 0.04683098942041397,
	"learning_rate": 0.00019735938932515613,
	"loss": 2.468762969970703,
	"step": 2520
	},
	{
	"epoch": 0.4216666666666667,
	"grad_norm": 0.04723796620965004,
	"learning_rate": 0.00019658510412299423,
	"loss": 2.4386947631835936,
	"step": 2530
	},
	{
	"epoch": 0.42333333333333334,
	"grad_norm": 0.04872257262468338,
	"learning_rate": 0.00019580944269384528,
	"loss": 2.446548843383789,
	"step": 2540
	},
	{
	"epoch": 0.425,
	"grad_norm": 0.04530220106244087,
	"learning_rate": 0.0001950324279524629,
	"loss": 2.3962860107421875,
	"step": 2550
	},
	{
	"epoch": 0.4266666666666667,
	"grad_norm": 0.0464116670191288,
	"learning_rate": 0.0001942540828535808,
	"loss": 2.4241104125976562,
	"step": 2560
	},
	{
	"epoch": 0.42833333333333334,
	"grad_norm": 0.04835973307490349,
	"learning_rate": 0.00019347443039123433,
	"loss": 2.489682197570801,
	"step": 2570
	},
	{
	"epoch": 0.43,
	"grad_norm": 0.04714079201221466,
	"learning_rate": 0.0001926934935980813,
	"loss": 2.4189998626708986,
	"step": 2580
	},
	{
	"epoch": 0.43166666666666664,
	"grad_norm": 0.0473017580807209,
	"learning_rate": 0.00019191129554472128,
	"loss": 2.450688934326172,
	"step": 2590
	},
	{
	"epoch": 0.43333333333333335,
	"grad_norm": 0.044971223920583725,
	"learning_rate": 0.0001911278593390145,
	"loss": 2.4232696533203124,
	"step": 2600
	},
	{
	"epoch": 0.435,
	"grad_norm": 0.04822346568107605,
	"learning_rate": 0.00019034320812539885,
	"loss": 2.38757209777832,
	"step": 2610
	},
	{
	"epoch": 0.43666666666666665,
	"grad_norm": 0.04403518885374069,
	"learning_rate": 0.00018955736508420617,
	"loss": 2.400294876098633,
	"step": 2620
	},
	{
	"epoch": 0.43833333333333335,
	"grad_norm": 0.04422234743833542,
	"learning_rate": 0.00018877035343097765,
	"loss": 2.395349884033203,
	"step": 2630
	},
	{
	"epoch": 0.44,
	"grad_norm": 0.05023488029837608,
	"learning_rate": 0.00018798219641577785,
	"loss": 2.4216394424438477,
	"step": 2640
	},
	{
	"epoch": 0.44166666666666665,
	"grad_norm": 0.04575344920158386,
	"learning_rate": 0.00018719291732250773,
	"loss": 2.4583833694458006,
	"step": 2650
	},
	{
	"epoch": 0.44333333333333336,
	"grad_norm": 0.044867198914289474,
	"learning_rate": 0.000186402539468217,
	"loss": 2.495341682434082,
	"step": 2660
	},
	{
	"epoch": 0.445,
	"grad_norm": 0.04729311540722847,
	"learning_rate": 0.00018561108620241524,
	"loss": 2.3960248947143556,
	"step": 2670
	},
	{
	"epoch": 0.44666666666666666,
	"grad_norm": 0.044369276612997055,
	"learning_rate": 0.000184818580906382,
	"loss": 2.3665014266967774,
	"step": 2680
	},
	{
	"epoch": 0.4483333333333333,
	"grad_norm": 0.04449554532766342,
	"learning_rate": 0.00018402504699247625,
	"loss": 2.4309972763061523,
	"step": 2690
	},
	{
	"epoch": 0.45,
	"grad_norm": 0.05088217183947563,
	"learning_rate": 0.0001832305079034443,
	"loss": 2.4841537475585938,
	"step": 2700
	},
	{
	"epoch": 0.45166666666666666,
	"grad_norm": 0.04597931355237961,
	"learning_rate": 0.00018243498711172803,
	"loss": 2.4378997802734377,
	"step": 2710
	},
	{
	"epoch": 0.4533333333333333,
	"grad_norm": 0.04585069790482521,
	"learning_rate": 0.00018163850811877047,
	"loss": 2.3535308837890625,
	"step": 2720
	},
	{
	"epoch": 0.455,
	"grad_norm": 0.04481475055217743,
	"learning_rate": 0.00018084109445432245,
	"loss": 2.38321533203125,
	"step": 2730
	},
	{
	"epoch": 0.45666666666666667,
	"grad_norm": 0.045594822615385056,
	"learning_rate": 0.00018004276967574682,
	"loss": 2.357186126708984,
	"step": 2740
	},
	{
	"epoch": 0.4583333333333333,
	"grad_norm": 0.04671576991677284,
	"learning_rate": 0.00017924355736732294,
	"loss": 2.3952842712402345,
	"step": 2750
	},
	{
	"epoch": 0.46,
	"grad_norm": 0.047669801861047745,
	"learning_rate": 0.0001784434811395495,
	"loss": 2.3996456146240233,
	"step": 2760
	},
	{
	"epoch": 0.46166666666666667,
	"grad_norm": 0.043536290526390076,
	"learning_rate": 0.00017764256462844756,
	"loss": 2.433817672729492,
	"step": 2770
	},
	{
	"epoch": 0.4633333333333333,
	"grad_norm": 0.04813670367002487,
	"learning_rate": 0.00017684083149486186,
	"loss": 2.4222438812255858,
	"step": 2780
	},
	{
	"epoch": 0.465,
	"grad_norm": 0.04439646378159523,
	"learning_rate": 0.000176038305423762,
	"loss": 2.380870056152344,
	"step": 2790
	},
	{
	"epoch": 0.4666666666666667,
	"grad_norm": 0.04823291301727295,
	"learning_rate": 0.00017523501012354264,
	"loss": 2.3966320037841795,
	"step": 2800
	},
	{
	"epoch": 0.4683333333333333,
	"grad_norm": 0.047504037618637085,
	"learning_rate": 0.00017443096932532335,
	"loss": 2.3766799926757813,
	"step": 2810
	},
	{
	"epoch": 0.47,
	"grad_norm": 0.046188633888959885,
	"learning_rate": 0.0001736262067822471,
	"loss": 2.3464776992797853,
	"step": 2820
	},
	{
	"epoch": 0.4716666666666667,
	"grad_norm": 0.045701149851083755,
	"learning_rate": 0.0001728207462687791,
	"loss": 2.410634994506836,
	"step": 2830
	},
	{
	"epoch": 0.47333333333333333,
	"grad_norm": 0.04649294540286064,
	"learning_rate": 0.00017201461158000394,
	"loss": 2.3622270584106446,
	"step": 2840
	},
	{
	"epoch": 0.475,
	"grad_norm": 0.044418223202228546,
	"learning_rate": 0.00017120782653092282,
	"loss": 2.3322967529296874,
	"step": 2850
	},
	{
	"epoch": 0.4766666666666667,
	"grad_norm": 0.04588953033089638,
	"learning_rate": 0.0001704004149557502,
	"loss": 2.3850997924804687,
	"step": 2860
	},
	{
	"epoch": 0.47833333333333333,
	"grad_norm": 0.045951224863529205,
	"learning_rate": 0.00016959240070720931,
	"loss": 2.3232908248901367,
	"step": 2870
	},
	{
	"epoch": 0.48,
	"grad_norm": 0.04799751937389374,
	"learning_rate": 0.0001687838076558278,
	"loss": 2.394255828857422,
	"step": 2880
	},
	{
	"epoch": 0.4816666666666667,
	"grad_norm": 0.04349227622151375,
	"learning_rate": 0.00016797465968923248,
	"loss": 2.3627696990966798,
	"step": 2890
	},
	{
	"epoch": 0.48333333333333334,
	"grad_norm": 0.04931052029132843,
	"learning_rate": 0.00016716498071144345,
	"loss": 2.2932670593261717,
	"step": 2900
	},
	{
	"epoch": 0.485,
	"grad_norm": 0.046034786850214005,
	"learning_rate": 0.00016635479464216808,
	"loss": 2.3476810455322266,
	"step": 2910
	},
	{
	"epoch": 0.4866666666666667,
	"grad_norm": 0.04429607465863228,
	"learning_rate": 0.00016554412541609445,
	"loss": 2.372750473022461,
	"step": 2920
	},
	{
	"epoch": 0.48833333333333334,
	"grad_norm": 0.04294951632618904,
	"learning_rate": 0.00016473299698218405,
	"loss": 2.364425277709961,
	"step": 2930
	},
	{
	"epoch": 0.49,
	"grad_norm": 0.04650357365608215,
	"learning_rate": 0.0001639214333029645,
	"loss": 2.416010093688965,
	"step": 2940
	},
	{
	"epoch": 0.49166666666666664,
	"grad_norm": 0.04426836222410202,
	"learning_rate": 0.00016310945835382133,
	"loss": 2.37786865234375,
	"step": 2950
	},
	{
	"epoch": 0.49333333333333335,
	"grad_norm": 0.04512490704655647,
	"learning_rate": 0.00016229709612229014,
	"loss": 2.278778839111328,
	"step": 2960
	},
	{
	"epoch": 0.495,
	"grad_norm": 0.04730796068906784,
	"learning_rate": 0.00016148437060734753,
	"loss": 2.3443241119384766,
	"step": 2970
	},
	{
	"epoch": 0.49666666666666665,
	"grad_norm": 0.04488737881183624,
	"learning_rate": 0.00016067130581870232,
	"loss": 2.3536972045898437,
	"step": 2980
	},
	{
	"epoch": 0.49833333333333335,
	"grad_norm": 0.04450669884681702,
	"learning_rate": 0.00015985792577608628,
	"loss": 2.2811954498291014,
	"step": 2990
	},
	{
	"epoch": 0.5,
	"grad_norm": 0.04698580875992775,
	"learning_rate": 0.00015904425450854453,
	"loss": 2.3730819702148436,
	"step": 3000
	},
	{
	"epoch": 0.5016666666666667,
	"grad_norm": 0.04636741429567337,
	"learning_rate": 0.0001582303160537254,
	"loss": 2.3249029159545898,
	"step": 3010
	},
	{
	"epoch": 0.5033333333333333,
	"grad_norm": 0.04602331295609474,
	"learning_rate": 0.00015741613445717078,
	"loss": 2.3067893981933594,
	"step": 3020
	},
	{
	"epoch": 0.505,
	"grad_norm": 0.04617249593138695,
	"learning_rate": 0.00015660173377160538,
	"loss": 2.283009719848633,
	"step": 3030
	},
	{
	"epoch": 0.5066666666666667,
	"grad_norm": 0.04522259905934334,
	"learning_rate": 0.00015578713805622629,
	"loss": 2.3601354598999023,
	"step": 3040
	},
	{
	"epoch": 0.5083333333333333,
	"grad_norm": 0.046779610216617584,
	"learning_rate": 0.00015497237137599215,
	"loss": 2.3319862365722654,
	"step": 3050
	},
	{
	"epoch": 0.51,
	"grad_norm": 0.04515037685632706,
	"learning_rate": 0.00015415745780091245,
	"loss": 2.3663728713989256,
	"step": 3060
	},
	{
	"epoch": 0.5116666666666667,
	"grad_norm": 0.04575490206480026,
	"learning_rate": 0.00015334242140533613,
	"loss": 2.3500614166259766,
	"step": 3070
	},
	{
	"epoch": 0.5133333333333333,
	"grad_norm": 0.04535854235291481,
	"learning_rate": 0.00015252728626724053,
	"loss": 2.393706512451172,
	"step": 3080
	},
	{
	"epoch": 0.515,
	"grad_norm": 0.045921266078948975,
	"learning_rate": 0.00015171207646752011,
	"loss": 2.3695343017578123,
	"step": 3090
	},
	{
	"epoch": 0.5166666666666667,
	"grad_norm": 0.04730748385190964,
	"learning_rate": 0.00015089681608927504,
	"loss": 2.3386932373046876,
	"step": 3100
	},
	{
	"epoch": 0.5183333333333333,
	"grad_norm": 0.04488634318113327,
	"learning_rate": 0.00015008152921709966,
	"loss": 2.341836166381836,
	"step": 3110
	},
	{
	"epoch": 0.52,
	"grad_norm": 0.04656840115785599,
	"learning_rate": 0.0001492662399363709,
	"loss": 2.3573772430419924,
	"step": 3120
	},
	{
	"epoch": 0.5216666666666666,
	"grad_norm": 0.04529151692986488,
	"learning_rate": 0.0001484509723325369,
	"loss": 2.3019832611083983,
	"step": 3130
	},
	{
	"epoch": 0.5233333333333333,
	"grad_norm": 0.04620906710624695,
	"learning_rate": 0.0001476357504904055,
	"loss": 2.2781230926513674,
	"step": 3140
	},
	{
	"epoch": 0.525,
	"grad_norm": 0.04393769055604935,
	"learning_rate": 0.00014682059849343255,
	"loss": 2.3518104553222656,
	"step": 3150
	},
	{
	"epoch": 0.5266666666666666,
	"grad_norm": 0.0452096126973629,
	"learning_rate": 0.00014600554042301065,
	"loss": 2.2971092224121095,
	"step": 3160
	},
	{
	"epoch": 0.5283333333333333,
	"grad_norm": 0.049306049942970276,
	"learning_rate": 0.00014519060035775733,
	"loss": 2.3017501831054688,
	"step": 3170
	},
	{
	"epoch": 0.53,
	"grad_norm": 0.04568931460380554,
	"learning_rate": 0.0001443758023728042,
	"loss": 2.2911956787109373,
	"step": 3180
	},
	{
	"epoch": 0.5316666666666666,
	"grad_norm": 0.048901692032814026,
	"learning_rate": 0.00014356117053908552,
	"loss": 2.341995620727539,
	"step": 3190
	},
	{
	"epoch": 0.5333333333333333,
	"grad_norm": 0.04323117807507515,
	"learning_rate": 0.00014274672892262706,
	"loss": 2.363936996459961,
	"step": 3200
	},
	{
	"epoch": 0.535,
	"grad_norm": 0.04628647118806839,
	"learning_rate": 0.00014193250158383493,
	"loss": 2.334271240234375,
	"step": 3210
	},
	{
	"epoch": 0.5366666666666666,
	"grad_norm": 0.04922735318541527,
	"learning_rate": 0.0001411185125767853,
	"loss": 2.305469512939453,
	"step": 3220
	},
	{
	"epoch": 0.5383333333333333,
	"grad_norm": 0.04770927503705025,
	"learning_rate": 0.00014030478594851336,
	"loss": 2.3782272338867188,
	"step": 3230
	},
	{
	"epoch": 0.54,
	"grad_norm": 0.0444621704518795,
	"learning_rate": 0.00013949134573830308,
	"loss": 2.302769088745117,
	"step": 3240
	},
	{
	"epoch": 0.5416666666666666,
	"grad_norm": 0.04581739008426666,
	"learning_rate": 0.0001386782159769769,
	"loss": 2.2403369903564454,
	"step": 3250
	},
	{
	"epoch": 0.5433333333333333,
	"grad_norm": 0.04609629139304161,
	"learning_rate": 0.0001378654206861861,
	"loss": 2.365464782714844,
	"step": 3260
	},
	{
	"epoch": 0.545,
	"grad_norm": 0.04579797014594078,
	"learning_rate": 0.00013705298387770083,
	"loss": 2.3029930114746096,
	"step": 3270
	},
	{
	"epoch": 0.5466666666666666,
	"grad_norm": 0.04666126146912575,
	"learning_rate": 0.0001362409295527009,
	"loss": 2.3250484466552734,
	"step": 3280
	},
	{
	"epoch": 0.5483333333333333,
	"grad_norm": 0.046123698353767395,
	"learning_rate": 0.00013542928170106675,
	"loss": 2.315472412109375,
	"step": 3290
	},
	{
	"epoch": 0.55,
	"grad_norm": 0.04441944509744644,
	"learning_rate": 0.00013461806430067067,
	"loss": 2.2456735610961913,
	"step": 3300
	},
	{
	"epoch": 0.5516666666666666,
	"grad_norm": 0.04268110916018486,
	"learning_rate": 0.00013380730131666848,
	"loss": 2.2688373565673827,
	"step": 3310
	},
	{
	"epoch": 0.5533333333333333,
	"grad_norm": 0.043934620916843414,
	"learning_rate": 0.00013299701670079148,
	"loss": 2.2969030380249023,
	"step": 3320
	},
	{
	"epoch": 0.555,
	"grad_norm": 0.04863844811916351,
	"learning_rate": 0.00013218723439063906,
	"loss": 2.330823516845703,
	"step": 3330
	},
	{
	"epoch": 0.5566666666666666,
	"grad_norm": 0.044768016785383224,
	"learning_rate": 0.00013137797830897117,
	"loss": 2.2624046325683596,
	"step": 3340
	},
	{
	"epoch": 0.5583333333333333,
	"grad_norm": 0.04282069951295853,
	"learning_rate": 0.000130569272363002,
	"loss": 2.2892608642578125,
	"step": 3350
	},
	{
	"epoch": 0.56,
	"grad_norm": 0.04653938114643097,
	"learning_rate": 0.00012976114044369348,
	"loss": 2.2605030059814455,
	"step": 3360
	},
	{
	"epoch": 0.5616666666666666,
	"grad_norm": 0.042660586535930634,
	"learning_rate": 0.00012895360642504948,
	"loss": 2.3623306274414064,
	"step": 3370
	},
	{
	"epoch": 0.5633333333333334,
	"grad_norm": 0.04504585638642311,
	"learning_rate": 0.0001281466941634105,
	"loss": 2.285787582397461,
	"step": 3380
	},
	{
	"epoch": 0.565,
	"grad_norm": 0.04642009362578392,
	"learning_rate": 0.00012734042749674903,
	"loss": 2.292758560180664,
	"step": 3390
	},
	{
	"epoch": 0.5666666666666667,
	"grad_norm": 0.04223250225186348,
	"learning_rate": 0.00012653483024396533,
	"loss": 2.320182991027832,
	"step": 3400
	},
	{
	"epoch": 0.5683333333333334,
	"grad_norm": 0.05031217634677887,
	"learning_rate": 0.00012572992620418368,
	"loss": 2.3236270904541017,
	"step": 3410
	},
	{
	"epoch": 0.57,
	"grad_norm": 0.043384041637182236,
	"learning_rate": 0.00012492573915604913,
	"loss": 2.294050598144531,
	"step": 3420
	},
	{
	"epoch": 0.5716666666666667,
	"grad_norm": 0.04652535542845726,
	"learning_rate": 0.00012412229285702536,
	"loss": 2.2717113494873047,
	"step": 3430
	},
	{
	"epoch": 0.5733333333333334,
	"grad_norm": 0.04482412710785866,
	"learning_rate": 0.00012331961104269272,
	"loss": 2.2652692794799805,
	"step": 3440
	},
	{
	"epoch": 0.575,
	"grad_norm": 0.044176436960697174,
	"learning_rate": 0.00012251771742604695,
	"loss": 2.3280864715576173,
	"step": 3450
	},
	{
	"epoch": 0.5766666666666667,
	"grad_norm": 0.045799173414707184,
	"learning_rate": 0.0001217166356967986,
	"loss": 2.2347755432128906,
	"step": 3460
	},
	{
	"epoch": 0.5783333333333334,
	"grad_norm": 0.04302337020635605,
	"learning_rate": 0.00012091638952067339,
	"loss": 2.2540973663330077,
	"step": 3470
	},
	{
	"epoch": 0.58,
	"grad_norm": 0.046573374420404434,
	"learning_rate": 0.00012011700253871287,
	"loss": 2.313714599609375,
	"step": 3480
	},
	{
	"epoch": 0.5816666666666667,
	"grad_norm": 0.045841339975595474,
	"learning_rate": 0.00011931849836657621,
	"loss": 2.279231643676758,
	"step": 3490
	},
	{
	"epoch": 0.5833333333333334,
	"grad_norm": 0.04207322746515274,
	"learning_rate": 0.0001185209005938423,
	"loss": 2.3070388793945313,
	"step": 3500
	},
	{
	"epoch": 0.585,
	"grad_norm": 0.04581030458211899,
	"learning_rate": 0.000117724232783313,
	"loss": 2.322564697265625,
	"step": 3510
	},
	{
	"epoch": 0.5866666666666667,
	"grad_norm": 0.04599674418568611,
	"learning_rate": 0.0001169285184703171,
	"loss": 2.2512928009033204,
	"step": 3520
	},
	{
	"epoch": 0.5883333333333334,
	"grad_norm": 0.04576753452420235,
	"learning_rate": 0.00011613378116201498,
	"loss": 2.2783023834228517,
	"step": 3530
	},
	{
	"epoch": 0.59,
	"grad_norm": 0.04758539795875549,
	"learning_rate": 0.000115340044336704,
	"loss": 2.2361690521240236,
	"step": 3540
	},
	{
	"epoch": 0.5916666666666667,
	"grad_norm": 0.0449649915099144,
	"learning_rate": 0.0001145473314431252,
	"loss": 2.3314971923828125,
	"step": 3550
	},
	{
	"epoch": 0.5933333333333334,
	"grad_norm": 0.044728368520736694,
	"learning_rate": 0.00011375566589977027,
	"loss": 2.2693477630615235,
	"step": 3560
	},
	{
	"epoch": 0.595,
	"grad_norm": 0.04283273592591286,
	"learning_rate": 0.00011296507109419001,
	"loss": 2.2808258056640627,
	"step": 3570
	},
	{
	"epoch": 0.5966666666666667,
	"grad_norm": 0.04367575794458389,
	"learning_rate": 0.00011217557038230321,
	"loss": 2.2483858108520507,
	"step": 3580
	},
	{
	"epoch": 0.5983333333333334,
	"grad_norm": 0.0444260872900486,
	"learning_rate": 0.00011138718708770652,
	"loss": 2.314860534667969,
	"step": 3590
	},
	{
	"epoch": 0.6,
	"grad_norm": 0.04368910938501358,
	"learning_rate": 0.00011059994450098592,
	"loss": 2.2928840637207033,
	"step": 3600
	},
	{
	"epoch": 0.6016666666666667,
	"grad_norm": 0.04608900472521782,
	"learning_rate": 0.00010981386587902815,
	"loss": 2.2551433563232424,
	"step": 3610
	},
	{
	"epoch": 0.6033333333333334,
	"grad_norm": 0.046781111508607864,
	"learning_rate": 0.00010902897444433402,
	"loss": 2.271870803833008,
	"step": 3620
	},
	{
	"epoch": 0.605,
	"grad_norm": 0.046633753925561905,
	"learning_rate": 0.00010824529338433196,
	"loss": 2.2948326110839843,
	"step": 3630
	},
	{
	"epoch": 0.6066666666666667,
	"grad_norm": 0.04348091781139374,
	"learning_rate": 0.00010746284585069346,
	"loss": 2.2265501022338867,
	"step": 3640
	},
	{
	"epoch": 0.6083333333333333,
	"grad_norm": 0.04466954246163368,
	"learning_rate": 0.00010668165495864886,
	"loss": 2.216339874267578,
	"step": 3650
	},
	{
	"epoch": 0.61,
	"grad_norm": 0.04601574316620827,
	"learning_rate": 0.00010590174378630452,
	"loss": 2.222498893737793,
	"step": 3660
	},
	{
	"epoch": 0.6116666666666667,
	"grad_norm": 0.04669777676463127,
	"learning_rate": 0.00010512313537396103,
	"loss": 2.2816734313964844,
	"step": 3670
	},
	{
	"epoch": 0.6133333333333333,
	"grad_norm": 0.0460570827126503,
	"learning_rate": 0.00010434585272343259,
	"loss": 2.2401283264160154,
	"step": 3680
	},
	{
	"epoch": 0.615,
	"grad_norm": 0.046909622848033905,
	"learning_rate": 0.00010356991879736749,
	"loss": 2.266475296020508,
	"step": 3690
	},
	{
	"epoch": 0.6166666666666667,
	"grad_norm": 0.04723437875509262,
	"learning_rate": 0.00010279535651856969,
	"loss": 2.2393699645996095,
	"step": 3700
	},
	{
	"epoch": 0.6183333333333333,
	"grad_norm": 0.04490575194358826,
	"learning_rate": 0.00010202218876932163,
	"loss": 2.223342514038086,
	"step": 3710
	},
	{
	"epoch": 0.62,
	"grad_norm": 0.04225336015224457,
	"learning_rate": 0.0001012504383907083,
	"loss": 2.1646907806396483,
	"step": 3720
	},
	{
	"epoch": 0.6216666666666667,
	"grad_norm": 0.046740125864744186,
	"learning_rate": 0.00010048012818194242,
	"loss": 2.3001195907592775,
	"step": 3730
	},
	{
	"epoch": 0.6233333333333333,
	"grad_norm": 0.04719153791666031,
	"learning_rate": 9.971128089969095e-05,
	"loss": 2.232859420776367,
	"step": 3740
	},
	{
	"epoch": 0.625,
	"grad_norm": 0.04699334874749184,
	"learning_rate": 9.894391925740264e-05,
	"loss": 2.250790023803711,
	"step": 3750
	},
	{
	"epoch": 0.6266666666666667,
	"grad_norm": 0.04357234388589859,
	"learning_rate": 9.817806592463727e-05,
	"loss": 2.2239524841308596,
	"step": 3760
	},
	{
	"epoch": 0.6283333333333333,
	"grad_norm": 0.04547634348273277,
	"learning_rate": 9.741374352639579e-05,
	"loss": 2.290673828125,
	"step": 3770
	},
	{
	"epoch": 0.63,
	"grad_norm": 0.04525672644376755,
	"learning_rate": 9.665097464245195e-05,
	"loss": 2.2089996337890625,
	"step": 3780
	},
	{
	"epoch": 0.6316666666666667,
	"grad_norm": 0.04538796842098236,
	"learning_rate": 9.588978180668531e-05,
	"loss": 2.321030044555664,
	"step": 3790
	},
	{
	"epoch": 0.6333333333333333,
	"grad_norm": 0.045243460685014725,
	"learning_rate": 9.513018750641531e-05,
	"loss": 2.2524177551269533,
	"step": 3800
	}
	],
	"logging_steps": 10,
	"max_steps": 6000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 9223372036854775807,
	"save_steps": 100,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 3.346714148732928e+17,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}