VerifiedPrompts's picture
Upload folder using huggingface_hub
9315bd7 verified
{
"best_metric": 0.0,
"best_model_checkpoint": "autotrain-8z0a6-ohqum/checkpoint-22500",
"epoch": 1.0,
"eval_steps": 500,
"global_step": 22500,
"is_hyper_param_search": false,
"is_local_process_zero": true,
"is_world_process_zero": true,
"log_history": [
{
"epoch": 0.0011111111111111111,
"grad_norm": 3.386683225631714,
"learning_rate": 1.851851851851852e-07,
"loss": 1.0899,
"step": 25
},
{
"epoch": 0.0022222222222222222,
"grad_norm": 2.563768148422241,
"learning_rate": 3.703703703703704e-07,
"loss": 1.0839,
"step": 50
},
{
"epoch": 0.0033333333333333335,
"grad_norm": 3.3596715927124023,
"learning_rate": 5.555555555555556e-07,
"loss": 1.0749,
"step": 75
},
{
"epoch": 0.0044444444444444444,
"grad_norm": 3.2093076705932617,
"learning_rate": 7.407407407407408e-07,
"loss": 1.0443,
"step": 100
},
{
"epoch": 0.005555555555555556,
"grad_norm": 2.2350594997406006,
"learning_rate": 9.259259259259259e-07,
"loss": 1.0215,
"step": 125
},
{
"epoch": 0.006666666666666667,
"grad_norm": 3.826423168182373,
"learning_rate": 1.1111111111111112e-06,
"loss": 0.9492,
"step": 150
},
{
"epoch": 0.0077777777777777776,
"grad_norm": 3.8876397609710693,
"learning_rate": 1.2962962962962962e-06,
"loss": 0.8637,
"step": 175
},
{
"epoch": 0.008888888888888889,
"grad_norm": 3.505671977996826,
"learning_rate": 1.4814814814814817e-06,
"loss": 0.714,
"step": 200
},
{
"epoch": 0.01,
"grad_norm": 2.9862611293792725,
"learning_rate": 1.6666666666666667e-06,
"loss": 0.5482,
"step": 225
},
{
"epoch": 0.011111111111111112,
"grad_norm": 2.876485824584961,
"learning_rate": 1.8518518518518519e-06,
"loss": 0.4489,
"step": 250
},
{
"epoch": 0.012222222222222223,
"grad_norm": 2.172851800918579,
"learning_rate": 2.0370370370370375e-06,
"loss": 0.3667,
"step": 275
},
{
"epoch": 0.013333333333333334,
"grad_norm": 1.3631432056427002,
"learning_rate": 2.2222222222222225e-06,
"loss": 0.2851,
"step": 300
},
{
"epoch": 0.014444444444444444,
"grad_norm": 1.3054063320159912,
"learning_rate": 2.4074074074074075e-06,
"loss": 0.2129,
"step": 325
},
{
"epoch": 0.015555555555555555,
"grad_norm": 1.4375499486923218,
"learning_rate": 2.5925925925925925e-06,
"loss": 0.1966,
"step": 350
},
{
"epoch": 0.016666666666666666,
"grad_norm": 0.7695980668067932,
"learning_rate": 2.777777777777778e-06,
"loss": 0.1613,
"step": 375
},
{
"epoch": 0.017777777777777778,
"grad_norm": 1.0458544492721558,
"learning_rate": 2.9629629629629633e-06,
"loss": 0.0748,
"step": 400
},
{
"epoch": 0.01888888888888889,
"grad_norm": 0.9082356095314026,
"learning_rate": 3.148148148148148e-06,
"loss": 0.0579,
"step": 425
},
{
"epoch": 0.02,
"grad_norm": 0.4023597240447998,
"learning_rate": 3.3333333333333333e-06,
"loss": 0.0557,
"step": 450
},
{
"epoch": 0.021111111111111112,
"grad_norm": 0.3830346167087555,
"learning_rate": 3.5185185185185187e-06,
"loss": 0.0459,
"step": 475
},
{
"epoch": 0.022222222222222223,
"grad_norm": 0.2851133644580841,
"learning_rate": 3.7037037037037037e-06,
"loss": 0.0388,
"step": 500
},
{
"epoch": 0.023333333333333334,
"grad_norm": 0.20891113579273224,
"learning_rate": 3.888888888888889e-06,
"loss": 0.0285,
"step": 525
},
{
"epoch": 0.024444444444444446,
"grad_norm": 0.22553691267967224,
"learning_rate": 4.074074074074075e-06,
"loss": 0.0212,
"step": 550
},
{
"epoch": 0.025555555555555557,
"grad_norm": 0.400623083114624,
"learning_rate": 4.2592592592592596e-06,
"loss": 0.0192,
"step": 575
},
{
"epoch": 0.02666666666666667,
"grad_norm": 0.4709663689136505,
"learning_rate": 4.444444444444445e-06,
"loss": 0.0225,
"step": 600
},
{
"epoch": 0.027777777777777776,
"grad_norm": 0.1256396770477295,
"learning_rate": 4.6296296296296296e-06,
"loss": 0.0164,
"step": 625
},
{
"epoch": 0.028888888888888888,
"grad_norm": 0.45524996519088745,
"learning_rate": 4.814814814814815e-06,
"loss": 0.0152,
"step": 650
},
{
"epoch": 0.03,
"grad_norm": 0.13068588078022003,
"learning_rate": 5e-06,
"loss": 0.0127,
"step": 675
},
{
"epoch": 0.03111111111111111,
"grad_norm": 0.092658631503582,
"learning_rate": 5.185185185185185e-06,
"loss": 0.0109,
"step": 700
},
{
"epoch": 0.03222222222222222,
"grad_norm": 0.2357322722673416,
"learning_rate": 5.37037037037037e-06,
"loss": 0.0138,
"step": 725
},
{
"epoch": 0.03333333333333333,
"grad_norm": 0.13298484683036804,
"learning_rate": 5.555555555555556e-06,
"loss": 0.0116,
"step": 750
},
{
"epoch": 0.034444444444444444,
"grad_norm": 0.2124181091785431,
"learning_rate": 5.740740740740741e-06,
"loss": 0.0094,
"step": 775
},
{
"epoch": 0.035555555555555556,
"grad_norm": 0.10682887583971024,
"learning_rate": 5.925925925925927e-06,
"loss": 0.0074,
"step": 800
},
{
"epoch": 0.03666666666666667,
"grad_norm": 0.07791190594434738,
"learning_rate": 6.111111111111111e-06,
"loss": 0.0065,
"step": 825
},
{
"epoch": 0.03777777777777778,
"grad_norm": 0.08094919472932816,
"learning_rate": 6.296296296296296e-06,
"loss": 0.0061,
"step": 850
},
{
"epoch": 0.03888888888888889,
"grad_norm": 0.059410784393548965,
"learning_rate": 6.481481481481481e-06,
"loss": 0.0056,
"step": 875
},
{
"epoch": 0.04,
"grad_norm": 0.0897708460688591,
"learning_rate": 6.666666666666667e-06,
"loss": 0.006,
"step": 900
},
{
"epoch": 0.04111111111111111,
"grad_norm": 0.08869366347789764,
"learning_rate": 6.851851851851852e-06,
"loss": 0.0053,
"step": 925
},
{
"epoch": 0.042222222222222223,
"grad_norm": 0.06132914870977402,
"learning_rate": 7.0370370370370375e-06,
"loss": 0.0043,
"step": 950
},
{
"epoch": 0.043333333333333335,
"grad_norm": 0.05427807569503784,
"learning_rate": 7.222222222222222e-06,
"loss": 0.0044,
"step": 975
},
{
"epoch": 0.044444444444444446,
"grad_norm": 0.08502664417028427,
"learning_rate": 7.4074074074074075e-06,
"loss": 0.0041,
"step": 1000
},
{
"epoch": 0.04555555555555556,
"grad_norm": 0.07636979222297668,
"learning_rate": 7.592592592592593e-06,
"loss": 0.0036,
"step": 1025
},
{
"epoch": 0.04666666666666667,
"grad_norm": 0.06684272736310959,
"learning_rate": 7.777777777777777e-06,
"loss": 0.0035,
"step": 1050
},
{
"epoch": 0.04777777777777778,
"grad_norm": 0.03364252299070358,
"learning_rate": 7.962962962962963e-06,
"loss": 0.0031,
"step": 1075
},
{
"epoch": 0.04888888888888889,
"grad_norm": 0.030458929017186165,
"learning_rate": 8.14814814814815e-06,
"loss": 0.0031,
"step": 1100
},
{
"epoch": 0.05,
"grad_norm": 0.03163473308086395,
"learning_rate": 8.333333333333334e-06,
"loss": 0.0029,
"step": 1125
},
{
"epoch": 0.051111111111111114,
"grad_norm": 0.03549908101558685,
"learning_rate": 8.518518518518519e-06,
"loss": 0.0027,
"step": 1150
},
{
"epoch": 0.052222222222222225,
"grad_norm": 0.039791908115148544,
"learning_rate": 8.703703703703705e-06,
"loss": 0.0023,
"step": 1175
},
{
"epoch": 0.05333333333333334,
"grad_norm": 0.06404013931751251,
"learning_rate": 8.88888888888889e-06,
"loss": 0.0022,
"step": 1200
},
{
"epoch": 0.05444444444444444,
"grad_norm": 0.03636118397116661,
"learning_rate": 9.074074074074075e-06,
"loss": 0.0018,
"step": 1225
},
{
"epoch": 0.05555555555555555,
"grad_norm": 0.026240749284625053,
"learning_rate": 9.259259259259259e-06,
"loss": 0.0021,
"step": 1250
},
{
"epoch": 0.056666666666666664,
"grad_norm": 0.023276548832654953,
"learning_rate": 9.444444444444445e-06,
"loss": 0.0019,
"step": 1275
},
{
"epoch": 0.057777777777777775,
"grad_norm": 0.02458854578435421,
"learning_rate": 9.62962962962963e-06,
"loss": 0.0017,
"step": 1300
},
{
"epoch": 0.058888888888888886,
"grad_norm": 0.03165684640407562,
"learning_rate": 9.814814814814815e-06,
"loss": 0.0015,
"step": 1325
},
{
"epoch": 0.06,
"grad_norm": 0.01748719811439514,
"learning_rate": 1e-05,
"loss": 0.0015,
"step": 1350
},
{
"epoch": 0.06111111111111111,
"grad_norm": 0.044647298753261566,
"learning_rate": 1.0185185185185185e-05,
"loss": 0.0016,
"step": 1375
},
{
"epoch": 0.06222222222222222,
"grad_norm": 0.01623469591140747,
"learning_rate": 1.037037037037037e-05,
"loss": 0.0013,
"step": 1400
},
{
"epoch": 0.06333333333333334,
"grad_norm": 0.04618322104215622,
"learning_rate": 1.0555555555555555e-05,
"loss": 0.0012,
"step": 1425
},
{
"epoch": 0.06444444444444444,
"grad_norm": 0.029844891279935837,
"learning_rate": 1.074074074074074e-05,
"loss": 0.0013,
"step": 1450
},
{
"epoch": 0.06555555555555556,
"grad_norm": 0.015924174338579178,
"learning_rate": 1.0925925925925926e-05,
"loss": 0.0011,
"step": 1475
},
{
"epoch": 0.06666666666666667,
"grad_norm": 0.01649516262114048,
"learning_rate": 1.1111111111111112e-05,
"loss": 0.001,
"step": 1500
},
{
"epoch": 0.06777777777777778,
"grad_norm": 0.012179471552371979,
"learning_rate": 1.1296296296296297e-05,
"loss": 0.0011,
"step": 1525
},
{
"epoch": 0.06888888888888889,
"grad_norm": 0.015302036888897419,
"learning_rate": 1.1481481481481482e-05,
"loss": 0.0011,
"step": 1550
},
{
"epoch": 0.07,
"grad_norm": 0.04366496950387955,
"learning_rate": 1.1666666666666668e-05,
"loss": 0.001,
"step": 1575
},
{
"epoch": 0.07111111111111111,
"grad_norm": 0.011177003383636475,
"learning_rate": 1.1851851851851853e-05,
"loss": 0.0009,
"step": 1600
},
{
"epoch": 0.07222222222222222,
"grad_norm": 0.015038327313959599,
"learning_rate": 1.2037037037037037e-05,
"loss": 0.0007,
"step": 1625
},
{
"epoch": 0.07333333333333333,
"grad_norm": 0.01230304129421711,
"learning_rate": 1.2222222222222222e-05,
"loss": 0.0007,
"step": 1650
},
{
"epoch": 0.07444444444444444,
"grad_norm": 0.008268430829048157,
"learning_rate": 1.2407407407407408e-05,
"loss": 0.0008,
"step": 1675
},
{
"epoch": 0.07555555555555556,
"grad_norm": 0.01717974990606308,
"learning_rate": 1.2592592592592592e-05,
"loss": 0.0007,
"step": 1700
},
{
"epoch": 0.07666666666666666,
"grad_norm": 0.010281005874276161,
"learning_rate": 1.2777777777777777e-05,
"loss": 0.0007,
"step": 1725
},
{
"epoch": 0.07777777777777778,
"grad_norm": 0.008127022534608841,
"learning_rate": 1.2962962962962962e-05,
"loss": 0.0006,
"step": 1750
},
{
"epoch": 0.07888888888888888,
"grad_norm": 0.01046066079288721,
"learning_rate": 1.3148148148148148e-05,
"loss": 0.0007,
"step": 1775
},
{
"epoch": 0.08,
"grad_norm": 0.015253646299242973,
"learning_rate": 1.3333333333333333e-05,
"loss": 0.0006,
"step": 1800
},
{
"epoch": 0.0811111111111111,
"grad_norm": 0.009954012930393219,
"learning_rate": 1.3518518518518519e-05,
"loss": 0.0006,
"step": 1825
},
{
"epoch": 0.08222222222222222,
"grad_norm": 0.006590055767446756,
"learning_rate": 1.3703703703703704e-05,
"loss": 0.0006,
"step": 1850
},
{
"epoch": 0.08333333333333333,
"grad_norm": 0.00894659198820591,
"learning_rate": 1.388888888888889e-05,
"loss": 0.0005,
"step": 1875
},
{
"epoch": 0.08444444444444445,
"grad_norm": 0.012145236134529114,
"learning_rate": 1.4074074074074075e-05,
"loss": 0.0006,
"step": 1900
},
{
"epoch": 0.08555555555555555,
"grad_norm": 0.007682374212890863,
"learning_rate": 1.425925925925926e-05,
"loss": 0.0005,
"step": 1925
},
{
"epoch": 0.08666666666666667,
"grad_norm": 0.009473989717662334,
"learning_rate": 1.4444444444444444e-05,
"loss": 0.0005,
"step": 1950
},
{
"epoch": 0.08777777777777777,
"grad_norm": 0.006489594001322985,
"learning_rate": 1.462962962962963e-05,
"loss": 0.0004,
"step": 1975
},
{
"epoch": 0.08888888888888889,
"grad_norm": 0.006753266789019108,
"learning_rate": 1.4814814814814815e-05,
"loss": 0.0004,
"step": 2000
},
{
"epoch": 0.09,
"grad_norm": 0.009055749513208866,
"learning_rate": 1.5e-05,
"loss": 0.0004,
"step": 2025
},
{
"epoch": 0.09111111111111111,
"grad_norm": 0.013759450055658817,
"learning_rate": 1.5185185185185186e-05,
"loss": 0.0004,
"step": 2050
},
{
"epoch": 0.09222222222222222,
"grad_norm": 0.00638122484087944,
"learning_rate": 1.537037037037037e-05,
"loss": 0.0004,
"step": 2075
},
{
"epoch": 0.09333333333333334,
"grad_norm": 0.004425277467817068,
"learning_rate": 1.5555555555555555e-05,
"loss": 0.0004,
"step": 2100
},
{
"epoch": 0.09444444444444444,
"grad_norm": 0.004774888511747122,
"learning_rate": 1.574074074074074e-05,
"loss": 0.0003,
"step": 2125
},
{
"epoch": 0.09555555555555556,
"grad_norm": 0.005348722450435162,
"learning_rate": 1.5925925925925926e-05,
"loss": 0.0003,
"step": 2150
},
{
"epoch": 0.09666666666666666,
"grad_norm": 0.004725703038275242,
"learning_rate": 1.6111111111111115e-05,
"loss": 0.0003,
"step": 2175
},
{
"epoch": 0.09777777777777778,
"grad_norm": 0.005654098000377417,
"learning_rate": 1.62962962962963e-05,
"loss": 0.0003,
"step": 2200
},
{
"epoch": 0.09888888888888889,
"grad_norm": 0.0047216350212693214,
"learning_rate": 1.6481481481481482e-05,
"loss": 0.0003,
"step": 2225
},
{
"epoch": 0.1,
"grad_norm": 0.009037966839969158,
"learning_rate": 1.6666666666666667e-05,
"loss": 0.0003,
"step": 2250
},
{
"epoch": 0.10111111111111111,
"grad_norm": 0.004060238134115934,
"learning_rate": 1.6851851851851853e-05,
"loss": 0.0003,
"step": 2275
},
{
"epoch": 0.10222222222222223,
"grad_norm": 0.003636434441432357,
"learning_rate": 1.7037037037037038e-05,
"loss": 0.0002,
"step": 2300
},
{
"epoch": 0.10333333333333333,
"grad_norm": 0.0036698319017887115,
"learning_rate": 1.7222222222222224e-05,
"loss": 0.0002,
"step": 2325
},
{
"epoch": 0.10444444444444445,
"grad_norm": 0.004500136710703373,
"learning_rate": 1.740740740740741e-05,
"loss": 0.0002,
"step": 2350
},
{
"epoch": 0.10555555555555556,
"grad_norm": 0.009176488034427166,
"learning_rate": 1.7592592592592595e-05,
"loss": 0.0002,
"step": 2375
},
{
"epoch": 0.10666666666666667,
"grad_norm": 0.003553111804649234,
"learning_rate": 1.777777777777778e-05,
"loss": 0.0002,
"step": 2400
},
{
"epoch": 0.10777777777777778,
"grad_norm": 0.00351758673787117,
"learning_rate": 1.7962962962962965e-05,
"loss": 0.0002,
"step": 2425
},
{
"epoch": 0.10888888888888888,
"grad_norm": 0.0031746120657771826,
"learning_rate": 1.814814814814815e-05,
"loss": 0.0002,
"step": 2450
},
{
"epoch": 0.11,
"grad_norm": 0.00300974422134459,
"learning_rate": 1.8333333333333333e-05,
"loss": 0.0002,
"step": 2475
},
{
"epoch": 0.1111111111111111,
"grad_norm": 0.004017593804746866,
"learning_rate": 1.8518518518518518e-05,
"loss": 0.0002,
"step": 2500
},
{
"epoch": 0.11222222222222222,
"grad_norm": 0.004373985808342695,
"learning_rate": 1.8703703703703704e-05,
"loss": 0.0002,
"step": 2525
},
{
"epoch": 0.11333333333333333,
"grad_norm": 0.0019937478937208652,
"learning_rate": 1.888888888888889e-05,
"loss": 0.0002,
"step": 2550
},
{
"epoch": 0.11444444444444445,
"grad_norm": 0.006959665101021528,
"learning_rate": 1.9074074074074075e-05,
"loss": 0.0002,
"step": 2575
},
{
"epoch": 0.11555555555555555,
"grad_norm": 0.00168511550873518,
"learning_rate": 1.925925925925926e-05,
"loss": 0.0002,
"step": 2600
},
{
"epoch": 0.11666666666666667,
"grad_norm": 0.0025156347546726465,
"learning_rate": 1.9444444444444445e-05,
"loss": 0.0001,
"step": 2625
},
{
"epoch": 0.11777777777777777,
"grad_norm": 0.0021286376286298037,
"learning_rate": 1.962962962962963e-05,
"loss": 0.0001,
"step": 2650
},
{
"epoch": 0.11888888888888889,
"grad_norm": 0.003399479668587446,
"learning_rate": 1.9814814814814816e-05,
"loss": 0.0002,
"step": 2675
},
{
"epoch": 0.12,
"grad_norm": 0.0021721466910094023,
"learning_rate": 2e-05,
"loss": 0.0002,
"step": 2700
},
{
"epoch": 0.12111111111111111,
"grad_norm": 0.0027615276630967855,
"learning_rate": 2.0185185185185187e-05,
"loss": 0.0001,
"step": 2725
},
{
"epoch": 0.12222222222222222,
"grad_norm": 0.002929729176685214,
"learning_rate": 2.037037037037037e-05,
"loss": 0.0001,
"step": 2750
},
{
"epoch": 0.12333333333333334,
"grad_norm": 0.0041197240352630615,
"learning_rate": 2.0555555555555555e-05,
"loss": 0.0001,
"step": 2775
},
{
"epoch": 0.12444444444444444,
"grad_norm": 0.0015853993827477098,
"learning_rate": 2.074074074074074e-05,
"loss": 0.0001,
"step": 2800
},
{
"epoch": 0.12555555555555556,
"grad_norm": 0.0030455116648226976,
"learning_rate": 2.0925925925925925e-05,
"loss": 0.0001,
"step": 2825
},
{
"epoch": 0.12666666666666668,
"grad_norm": 0.0014197429409250617,
"learning_rate": 2.111111111111111e-05,
"loss": 0.0001,
"step": 2850
},
{
"epoch": 0.12777777777777777,
"grad_norm": 0.0016670431941747665,
"learning_rate": 2.1296296296296296e-05,
"loss": 0.0001,
"step": 2875
},
{
"epoch": 0.1288888888888889,
"grad_norm": 0.0025134850293397903,
"learning_rate": 2.148148148148148e-05,
"loss": 0.0001,
"step": 2900
},
{
"epoch": 0.13,
"grad_norm": 0.0018734446493908763,
"learning_rate": 2.1666666666666667e-05,
"loss": 0.0001,
"step": 2925
},
{
"epoch": 0.13111111111111112,
"grad_norm": 0.0031379444990307093,
"learning_rate": 2.1851851851851852e-05,
"loss": 0.0001,
"step": 2950
},
{
"epoch": 0.1322222222222222,
"grad_norm": 0.0014984890585765243,
"learning_rate": 2.2037037037037038e-05,
"loss": 0.0001,
"step": 2975
},
{
"epoch": 0.13333333333333333,
"grad_norm": 0.003085116855800152,
"learning_rate": 2.2222222222222223e-05,
"loss": 0.0001,
"step": 3000
},
{
"epoch": 0.13444444444444445,
"grad_norm": 0.0013790682423859835,
"learning_rate": 2.240740740740741e-05,
"loss": 0.0001,
"step": 3025
},
{
"epoch": 0.13555555555555557,
"grad_norm": 0.0013970975996926427,
"learning_rate": 2.2592592592592594e-05,
"loss": 0.0001,
"step": 3050
},
{
"epoch": 0.13666666666666666,
"grad_norm": 0.001308850129134953,
"learning_rate": 2.277777777777778e-05,
"loss": 0.0001,
"step": 3075
},
{
"epoch": 0.13777777777777778,
"grad_norm": 0.001676020328886807,
"learning_rate": 2.2962962962962965e-05,
"loss": 0.0001,
"step": 3100
},
{
"epoch": 0.1388888888888889,
"grad_norm": 0.0010640453547239304,
"learning_rate": 2.314814814814815e-05,
"loss": 0.0001,
"step": 3125
},
{
"epoch": 0.14,
"grad_norm": 0.0009444669121876359,
"learning_rate": 2.3333333333333336e-05,
"loss": 0.0001,
"step": 3150
},
{
"epoch": 0.1411111111111111,
"grad_norm": 0.0012150831753388047,
"learning_rate": 2.351851851851852e-05,
"loss": 0.0001,
"step": 3175
},
{
"epoch": 0.14222222222222222,
"grad_norm": 0.0009749003802426159,
"learning_rate": 2.3703703703703707e-05,
"loss": 0.0001,
"step": 3200
},
{
"epoch": 0.14333333333333334,
"grad_norm": 0.0011549906339496374,
"learning_rate": 2.3888888888888892e-05,
"loss": 0.0001,
"step": 3225
},
{
"epoch": 0.14444444444444443,
"grad_norm": 0.001151908072642982,
"learning_rate": 2.4074074074074074e-05,
"loss": 0.0001,
"step": 3250
},
{
"epoch": 0.14555555555555555,
"grad_norm": 0.004649221897125244,
"learning_rate": 2.425925925925926e-05,
"loss": 0.0001,
"step": 3275
},
{
"epoch": 0.14666666666666667,
"grad_norm": 0.0007568440050818026,
"learning_rate": 2.4444444444444445e-05,
"loss": 0.0001,
"step": 3300
},
{
"epoch": 0.14777777777777779,
"grad_norm": 0.0008917115046642721,
"learning_rate": 2.462962962962963e-05,
"loss": 0.0001,
"step": 3325
},
{
"epoch": 0.14888888888888888,
"grad_norm": 0.0015353616327047348,
"learning_rate": 2.4814814814814816e-05,
"loss": 0.0001,
"step": 3350
},
{
"epoch": 0.15,
"grad_norm": 0.0008757731411606073,
"learning_rate": 2.5e-05,
"loss": 0.0001,
"step": 3375
},
{
"epoch": 0.1511111111111111,
"grad_norm": 0.000737824768293649,
"learning_rate": 2.5185185185185183e-05,
"loss": 0.0001,
"step": 3400
},
{
"epoch": 0.15222222222222223,
"grad_norm": 0.0007458069012500346,
"learning_rate": 2.5370370370370372e-05,
"loss": 0.0001,
"step": 3425
},
{
"epoch": 0.15333333333333332,
"grad_norm": 0.0009020909201353788,
"learning_rate": 2.5555555555555554e-05,
"loss": 0.0,
"step": 3450
},
{
"epoch": 0.15444444444444444,
"grad_norm": 0.0007310903747566044,
"learning_rate": 2.5740740740740743e-05,
"loss": 0.0001,
"step": 3475
},
{
"epoch": 0.15555555555555556,
"grad_norm": 0.0008914655772969127,
"learning_rate": 2.5925925925925925e-05,
"loss": 0.0,
"step": 3500
},
{
"epoch": 0.15666666666666668,
"grad_norm": 0.0008292867569252849,
"learning_rate": 2.6111111111111114e-05,
"loss": 0.0001,
"step": 3525
},
{
"epoch": 0.15777777777777777,
"grad_norm": 0.0021750126034021378,
"learning_rate": 2.6296296296296296e-05,
"loss": 0.0,
"step": 3550
},
{
"epoch": 0.15888888888888889,
"grad_norm": 0.0011622071033343673,
"learning_rate": 2.6481481481481485e-05,
"loss": 0.0001,
"step": 3575
},
{
"epoch": 0.16,
"grad_norm": 0.0006495203706435859,
"learning_rate": 2.6666666666666667e-05,
"loss": 0.0,
"step": 3600
},
{
"epoch": 0.16111111111111112,
"grad_norm": 0.0005309400730766356,
"learning_rate": 2.6851851851851855e-05,
"loss": 0.0,
"step": 3625
},
{
"epoch": 0.1622222222222222,
"grad_norm": 0.0008517010719515383,
"learning_rate": 2.7037037037037037e-05,
"loss": 0.0,
"step": 3650
},
{
"epoch": 0.16333333333333333,
"grad_norm": 0.000685730017721653,
"learning_rate": 2.7222222222222223e-05,
"loss": 0.0,
"step": 3675
},
{
"epoch": 0.16444444444444445,
"grad_norm": 0.00043462106259539723,
"learning_rate": 2.7407407407407408e-05,
"loss": 0.0,
"step": 3700
},
{
"epoch": 0.16555555555555557,
"grad_norm": 0.0004385845095384866,
"learning_rate": 2.7592592592592594e-05,
"loss": 0.0,
"step": 3725
},
{
"epoch": 0.16666666666666666,
"grad_norm": 0.0009046380873769522,
"learning_rate": 2.777777777777778e-05,
"loss": 0.0,
"step": 3750
},
{
"epoch": 0.16777777777777778,
"grad_norm": 0.0005887980223633349,
"learning_rate": 2.7962962962962965e-05,
"loss": 0.0,
"step": 3775
},
{
"epoch": 0.1688888888888889,
"grad_norm": 0.00096166628645733,
"learning_rate": 2.814814814814815e-05,
"loss": 0.0,
"step": 3800
},
{
"epoch": 0.17,
"grad_norm": 0.0005950740305706859,
"learning_rate": 2.8333333333333335e-05,
"loss": 0.0,
"step": 3825
},
{
"epoch": 0.1711111111111111,
"grad_norm": 0.0003768298774957657,
"learning_rate": 2.851851851851852e-05,
"loss": 0.0,
"step": 3850
},
{
"epoch": 0.17222222222222222,
"grad_norm": 0.0007654073415324092,
"learning_rate": 2.8703703703703706e-05,
"loss": 0.0,
"step": 3875
},
{
"epoch": 0.17333333333333334,
"grad_norm": 0.00067830306943506,
"learning_rate": 2.8888888888888888e-05,
"loss": 0.0,
"step": 3900
},
{
"epoch": 0.17444444444444446,
"grad_norm": 0.0011235119309276342,
"learning_rate": 2.9074074074074077e-05,
"loss": 0.0,
"step": 3925
},
{
"epoch": 0.17555555555555555,
"grad_norm": 0.00033492891816422343,
"learning_rate": 2.925925925925926e-05,
"loss": 0.0,
"step": 3950
},
{
"epoch": 0.17666666666666667,
"grad_norm": 0.0005491938209161162,
"learning_rate": 2.9444444444444448e-05,
"loss": 0.0,
"step": 3975
},
{
"epoch": 0.17777777777777778,
"grad_norm": 0.0008462965488433838,
"learning_rate": 2.962962962962963e-05,
"loss": 0.0,
"step": 4000
},
{
"epoch": 0.17888888888888888,
"grad_norm": 0.0013159062946215272,
"learning_rate": 2.981481481481482e-05,
"loss": 0.0,
"step": 4025
},
{
"epoch": 0.18,
"grad_norm": 0.000479961367091164,
"learning_rate": 3e-05,
"loss": 0.0,
"step": 4050
},
{
"epoch": 0.1811111111111111,
"grad_norm": 0.0003816479875240475,
"learning_rate": 3.018518518518519e-05,
"loss": 0.0,
"step": 4075
},
{
"epoch": 0.18222222222222223,
"grad_norm": 0.0007520723738707602,
"learning_rate": 3.037037037037037e-05,
"loss": 0.0,
"step": 4100
},
{
"epoch": 0.18333333333333332,
"grad_norm": 0.0004789358645211905,
"learning_rate": 3.055555555555556e-05,
"loss": 0.0,
"step": 4125
},
{
"epoch": 0.18444444444444444,
"grad_norm": 0.00032780482433736324,
"learning_rate": 3.074074074074074e-05,
"loss": 0.0,
"step": 4150
},
{
"epoch": 0.18555555555555556,
"grad_norm": 0.0004786641802638769,
"learning_rate": 3.0925925925925924e-05,
"loss": 0.0,
"step": 4175
},
{
"epoch": 0.18666666666666668,
"grad_norm": 0.0019827070645987988,
"learning_rate": 3.111111111111111e-05,
"loss": 0.0,
"step": 4200
},
{
"epoch": 0.18777777777777777,
"grad_norm": 0.00040625614929012954,
"learning_rate": 3.1296296296296295e-05,
"loss": 0.0,
"step": 4225
},
{
"epoch": 0.18888888888888888,
"grad_norm": 0.00027543201576918364,
"learning_rate": 3.148148148148148e-05,
"loss": 0.0,
"step": 4250
},
{
"epoch": 0.19,
"grad_norm": 0.00037998484913259745,
"learning_rate": 3.1666666666666666e-05,
"loss": 0.0,
"step": 4275
},
{
"epoch": 0.19111111111111112,
"grad_norm": 0.0005028975429013371,
"learning_rate": 3.185185185185185e-05,
"loss": 0.0,
"step": 4300
},
{
"epoch": 0.1922222222222222,
"grad_norm": 0.00035194336669519544,
"learning_rate": 3.203703703703704e-05,
"loss": 0.0,
"step": 4325
},
{
"epoch": 0.19333333333333333,
"grad_norm": 0.0003673199680633843,
"learning_rate": 3.222222222222223e-05,
"loss": 0.0,
"step": 4350
},
{
"epoch": 0.19444444444444445,
"grad_norm": 0.0002665006322786212,
"learning_rate": 3.240740740740741e-05,
"loss": 0.0,
"step": 4375
},
{
"epoch": 0.19555555555555557,
"grad_norm": 0.0007432136335410178,
"learning_rate": 3.25925925925926e-05,
"loss": 0.0,
"step": 4400
},
{
"epoch": 0.19666666666666666,
"grad_norm": 0.0004914160817861557,
"learning_rate": 3.277777777777778e-05,
"loss": 0.0,
"step": 4425
},
{
"epoch": 0.19777777777777777,
"grad_norm": 0.00024397084780503064,
"learning_rate": 3.2962962962962964e-05,
"loss": 0.0,
"step": 4450
},
{
"epoch": 0.1988888888888889,
"grad_norm": 0.00029452514718286693,
"learning_rate": 3.314814814814815e-05,
"loss": 0.0,
"step": 4475
},
{
"epoch": 0.2,
"grad_norm": 0.000297211401630193,
"learning_rate": 3.3333333333333335e-05,
"loss": 0.0,
"step": 4500
},
{
"epoch": 0.2011111111111111,
"grad_norm": 0.00023153831716626883,
"learning_rate": 3.351851851851852e-05,
"loss": 0.0,
"step": 4525
},
{
"epoch": 0.20222222222222222,
"grad_norm": 0.00023439385404344648,
"learning_rate": 3.3703703703703706e-05,
"loss": 0.0,
"step": 4550
},
{
"epoch": 0.20333333333333334,
"grad_norm": 0.0003601511416491121,
"learning_rate": 3.388888888888889e-05,
"loss": 0.0,
"step": 4575
},
{
"epoch": 0.20444444444444446,
"grad_norm": 0.00034437543945387006,
"learning_rate": 3.4074074074074077e-05,
"loss": 0.0,
"step": 4600
},
{
"epoch": 0.20555555555555555,
"grad_norm": 0.00034353925730101764,
"learning_rate": 3.425925925925926e-05,
"loss": 0.0,
"step": 4625
},
{
"epoch": 0.20666666666666667,
"grad_norm": 0.0005792040028609335,
"learning_rate": 3.444444444444445e-05,
"loss": 0.0,
"step": 4650
},
{
"epoch": 0.20777777777777778,
"grad_norm": 0.0003140148473903537,
"learning_rate": 3.4629629629629626e-05,
"loss": 0.0,
"step": 4675
},
{
"epoch": 0.2088888888888889,
"grad_norm": 0.0003926446952391416,
"learning_rate": 3.481481481481482e-05,
"loss": 0.0,
"step": 4700
},
{
"epoch": 0.21,
"grad_norm": 0.0002806528646033257,
"learning_rate": 3.5e-05,
"loss": 0.0,
"step": 4725
},
{
"epoch": 0.2111111111111111,
"grad_norm": 0.00017912751354742795,
"learning_rate": 3.518518518518519e-05,
"loss": 0.0,
"step": 4750
},
{
"epoch": 0.21222222222222223,
"grad_norm": 0.0001631277409614995,
"learning_rate": 3.537037037037037e-05,
"loss": 0.0,
"step": 4775
},
{
"epoch": 0.21333333333333335,
"grad_norm": 0.0005713306018151343,
"learning_rate": 3.555555555555556e-05,
"loss": 0.0,
"step": 4800
},
{
"epoch": 0.21444444444444444,
"grad_norm": 0.0001333543477812782,
"learning_rate": 3.574074074074074e-05,
"loss": 0.0,
"step": 4825
},
{
"epoch": 0.21555555555555556,
"grad_norm": 0.0008553456864319742,
"learning_rate": 3.592592592592593e-05,
"loss": 0.0,
"step": 4850
},
{
"epoch": 0.21666666666666667,
"grad_norm": 0.00020327905076555908,
"learning_rate": 3.611111111111111e-05,
"loss": 0.0,
"step": 4875
},
{
"epoch": 0.21777777777777776,
"grad_norm": 0.00013671640772372484,
"learning_rate": 3.62962962962963e-05,
"loss": 0.0,
"step": 4900
},
{
"epoch": 0.21888888888888888,
"grad_norm": 0.00018920267757494003,
"learning_rate": 3.648148148148148e-05,
"loss": 0.0,
"step": 4925
},
{
"epoch": 0.22,
"grad_norm": 0.00039989870856516063,
"learning_rate": 3.6666666666666666e-05,
"loss": 0.0,
"step": 4950
},
{
"epoch": 0.22111111111111112,
"grad_norm": 0.0003007302584592253,
"learning_rate": 3.685185185185185e-05,
"loss": 0.0,
"step": 4975
},
{
"epoch": 0.2222222222222222,
"grad_norm": 0.0007603640551678836,
"learning_rate": 3.7037037037037037e-05,
"loss": 0.0,
"step": 5000
},
{
"epoch": 0.22333333333333333,
"grad_norm": 0.00015610907576046884,
"learning_rate": 3.722222222222222e-05,
"loss": 0.0,
"step": 5025
},
{
"epoch": 0.22444444444444445,
"grad_norm": 0.00019231459009461105,
"learning_rate": 3.740740740740741e-05,
"loss": 0.0,
"step": 5050
},
{
"epoch": 0.22555555555555556,
"grad_norm": 0.0003146059170830995,
"learning_rate": 3.759259259259259e-05,
"loss": 0.0,
"step": 5075
},
{
"epoch": 0.22666666666666666,
"grad_norm": 0.00013795519771520048,
"learning_rate": 3.777777777777778e-05,
"loss": 0.0,
"step": 5100
},
{
"epoch": 0.22777777777777777,
"grad_norm": 0.00015872673247940838,
"learning_rate": 3.7962962962962964e-05,
"loss": 0.0,
"step": 5125
},
{
"epoch": 0.2288888888888889,
"grad_norm": 0.0001416594022884965,
"learning_rate": 3.814814814814815e-05,
"loss": 0.0,
"step": 5150
},
{
"epoch": 0.23,
"grad_norm": 0.0001443991350242868,
"learning_rate": 3.8333333333333334e-05,
"loss": 0.0,
"step": 5175
},
{
"epoch": 0.2311111111111111,
"grad_norm": 0.0002540118002798408,
"learning_rate": 3.851851851851852e-05,
"loss": 0.0,
"step": 5200
},
{
"epoch": 0.23222222222222222,
"grad_norm": 0.0003876437258441001,
"learning_rate": 3.8703703703703705e-05,
"loss": 0.0,
"step": 5225
},
{
"epoch": 0.23333333333333334,
"grad_norm": 0.00018251290020998567,
"learning_rate": 3.888888888888889e-05,
"loss": 0.0,
"step": 5250
},
{
"epoch": 0.23444444444444446,
"grad_norm": 0.00016606478311587125,
"learning_rate": 3.9074074074074076e-05,
"loss": 0.0,
"step": 5275
},
{
"epoch": 0.23555555555555555,
"grad_norm": 0.00022203841945156455,
"learning_rate": 3.925925925925926e-05,
"loss": 0.0,
"step": 5300
},
{
"epoch": 0.23666666666666666,
"grad_norm": 0.00011153859668411314,
"learning_rate": 3.944444444444445e-05,
"loss": 0.0,
"step": 5325
},
{
"epoch": 0.23777777777777778,
"grad_norm": 0.0001974932529265061,
"learning_rate": 3.962962962962963e-05,
"loss": 0.0,
"step": 5350
},
{
"epoch": 0.2388888888888889,
"grad_norm": 0.00015782282571308315,
"learning_rate": 3.981481481481482e-05,
"loss": 0.0,
"step": 5375
},
{
"epoch": 0.24,
"grad_norm": 0.00018851501226890832,
"learning_rate": 4e-05,
"loss": 0.0,
"step": 5400
},
{
"epoch": 0.2411111111111111,
"grad_norm": 0.00011722772615030408,
"learning_rate": 4.018518518518519e-05,
"loss": 0.0,
"step": 5425
},
{
"epoch": 0.24222222222222223,
"grad_norm": 7.547857967438176e-05,
"learning_rate": 4.0370370370370374e-05,
"loss": 0.0,
"step": 5450
},
{
"epoch": 0.24333333333333335,
"grad_norm": 0.0001248365588253364,
"learning_rate": 4.055555555555556e-05,
"loss": 0.0,
"step": 5475
},
{
"epoch": 0.24444444444444444,
"grad_norm": 0.00011660916788969189,
"learning_rate": 4.074074074074074e-05,
"loss": 0.0,
"step": 5500
},
{
"epoch": 0.24555555555555555,
"grad_norm": 0.00015094850095920265,
"learning_rate": 4.092592592592593e-05,
"loss": 0.0,
"step": 5525
},
{
"epoch": 0.24666666666666667,
"grad_norm": 0.00011476501822471619,
"learning_rate": 4.111111111111111e-05,
"loss": 0.0,
"step": 5550
},
{
"epoch": 0.2477777777777778,
"grad_norm": 0.00010171511530643329,
"learning_rate": 4.12962962962963e-05,
"loss": 0.0,
"step": 5575
},
{
"epoch": 0.24888888888888888,
"grad_norm": 0.00010743678285507485,
"learning_rate": 4.148148148148148e-05,
"loss": 0.0,
"step": 5600
},
{
"epoch": 0.25,
"grad_norm": 6.62771490169689e-05,
"learning_rate": 4.166666666666667e-05,
"loss": 0.0,
"step": 5625
},
{
"epoch": 0.2511111111111111,
"grad_norm": 6.39555073576048e-05,
"learning_rate": 4.185185185185185e-05,
"loss": 0.0,
"step": 5650
},
{
"epoch": 0.25222222222222224,
"grad_norm": 8.671484101796523e-05,
"learning_rate": 4.203703703703704e-05,
"loss": 0.0,
"step": 5675
},
{
"epoch": 0.25333333333333335,
"grad_norm": 0.00010279325215378776,
"learning_rate": 4.222222222222222e-05,
"loss": 0.0,
"step": 5700
},
{
"epoch": 0.2544444444444444,
"grad_norm": 0.0001341535389656201,
"learning_rate": 4.240740740740741e-05,
"loss": 0.0,
"step": 5725
},
{
"epoch": 0.25555555555555554,
"grad_norm": 0.0001001319833449088,
"learning_rate": 4.259259259259259e-05,
"loss": 0.0,
"step": 5750
},
{
"epoch": 0.25666666666666665,
"grad_norm": 8.330161654157564e-05,
"learning_rate": 4.277777777777778e-05,
"loss": 0.0,
"step": 5775
},
{
"epoch": 0.2577777777777778,
"grad_norm": 0.0003465347981546074,
"learning_rate": 4.296296296296296e-05,
"loss": 0.0,
"step": 5800
},
{
"epoch": 0.2588888888888889,
"grad_norm": 9.529511589789763e-05,
"learning_rate": 4.314814814814815e-05,
"loss": 0.0,
"step": 5825
},
{
"epoch": 0.26,
"grad_norm": 5.540845813811757e-05,
"learning_rate": 4.3333333333333334e-05,
"loss": 0.0,
"step": 5850
},
{
"epoch": 0.2611111111111111,
"grad_norm": 0.00013780576409772038,
"learning_rate": 4.351851851851852e-05,
"loss": 0.0,
"step": 5875
},
{
"epoch": 0.26222222222222225,
"grad_norm": 9.906753257382661e-05,
"learning_rate": 4.3703703703703705e-05,
"loss": 0.0,
"step": 5900
},
{
"epoch": 0.2633333333333333,
"grad_norm": 0.00010535182809690014,
"learning_rate": 4.388888888888889e-05,
"loss": 0.0,
"step": 5925
},
{
"epoch": 0.2644444444444444,
"grad_norm": 4.6930141252232715e-05,
"learning_rate": 4.4074074074074076e-05,
"loss": 0.0,
"step": 5950
},
{
"epoch": 0.26555555555555554,
"grad_norm": 7.371820538537577e-05,
"learning_rate": 4.425925925925926e-05,
"loss": 0.0,
"step": 5975
},
{
"epoch": 0.26666666666666666,
"grad_norm": 8.29477867227979e-05,
"learning_rate": 4.4444444444444447e-05,
"loss": 0.0,
"step": 6000
},
{
"epoch": 0.2677777777777778,
"grad_norm": 0.00028537207981571555,
"learning_rate": 4.4622222222222226e-05,
"loss": 0.0,
"step": 6025
},
{
"epoch": 0.2688888888888889,
"grad_norm": 3.685216142912395e-05,
"learning_rate": 4.480740740740741e-05,
"loss": 0.0,
"step": 6050
},
{
"epoch": 0.27,
"grad_norm": 6.191804277477786e-05,
"learning_rate": 4.4992592592592597e-05,
"loss": 0.0,
"step": 6075
},
{
"epoch": 0.27111111111111114,
"grad_norm": 5.743051951867528e-05,
"learning_rate": 4.517777777777778e-05,
"loss": 0.0,
"step": 6100
},
{
"epoch": 0.2722222222222222,
"grad_norm": 8.179164433386177e-05,
"learning_rate": 4.536296296296296e-05,
"loss": 0.0,
"step": 6125
},
{
"epoch": 0.2733333333333333,
"grad_norm": 0.00013445696095004678,
"learning_rate": 4.554814814814815e-05,
"loss": 0.0,
"step": 6150
},
{
"epoch": 0.27444444444444444,
"grad_norm": 6.727175059495494e-05,
"learning_rate": 4.573333333333333e-05,
"loss": 0.0,
"step": 6175
},
{
"epoch": 0.27555555555555555,
"grad_norm": 0.00010029695113189518,
"learning_rate": 4.5918518518518524e-05,
"loss": 0.0,
"step": 6200
},
{
"epoch": 0.27666666666666667,
"grad_norm": 8.836417691782117e-05,
"learning_rate": 4.61037037037037e-05,
"loss": 0.0,
"step": 6225
},
{
"epoch": 0.2777777777777778,
"grad_norm": 8.15212624729611e-05,
"learning_rate": 4.6288888888888894e-05,
"loss": 0.0,
"step": 6250
},
{
"epoch": 0.2788888888888889,
"grad_norm": 7.330432708840817e-05,
"learning_rate": 4.647407407407407e-05,
"loss": 0.0,
"step": 6275
},
{
"epoch": 0.28,
"grad_norm": 5.043514829594642e-05,
"learning_rate": 4.6659259259259265e-05,
"loss": 0.0,
"step": 6300
},
{
"epoch": 0.2811111111111111,
"grad_norm": 4.743515819427557e-05,
"learning_rate": 4.6844444444444444e-05,
"loss": 0.0,
"step": 6325
},
{
"epoch": 0.2822222222222222,
"grad_norm": 8.319742482854053e-05,
"learning_rate": 4.7029629629629636e-05,
"loss": 0.0,
"step": 6350
},
{
"epoch": 0.2833333333333333,
"grad_norm": 8.122144936351106e-05,
"learning_rate": 4.7214814814814815e-05,
"loss": 0.0,
"step": 6375
},
{
"epoch": 0.28444444444444444,
"grad_norm": 4.8509180487599224e-05,
"learning_rate": 4.74e-05,
"loss": 0.0,
"step": 6400
},
{
"epoch": 0.28555555555555556,
"grad_norm": 0.00010799942538142204,
"learning_rate": 4.7585185185185186e-05,
"loss": 0.0,
"step": 6425
},
{
"epoch": 0.2866666666666667,
"grad_norm": 7.794015982653946e-05,
"learning_rate": 4.777037037037037e-05,
"loss": 0.0,
"step": 6450
},
{
"epoch": 0.2877777777777778,
"grad_norm": 3.870702857966535e-05,
"learning_rate": 4.7955555555555556e-05,
"loss": 0.0,
"step": 6475
},
{
"epoch": 0.28888888888888886,
"grad_norm": 0.000109027125290595,
"learning_rate": 4.814074074074074e-05,
"loss": 0.0,
"step": 6500
},
{
"epoch": 0.29,
"grad_norm": 3.4669723390834406e-05,
"learning_rate": 4.832592592592593e-05,
"loss": 0.0,
"step": 6525
},
{
"epoch": 0.2911111111111111,
"grad_norm": 3.9730432035867125e-05,
"learning_rate": 4.851111111111111e-05,
"loss": 0.0,
"step": 6550
},
{
"epoch": 0.2922222222222222,
"grad_norm": 4.72697829536628e-05,
"learning_rate": 4.86962962962963e-05,
"loss": 0.0,
"step": 6575
},
{
"epoch": 0.29333333333333333,
"grad_norm": 0.00010319456487195566,
"learning_rate": 4.8881481481481484e-05,
"loss": 0.0,
"step": 6600
},
{
"epoch": 0.29444444444444445,
"grad_norm": 7.106039993232116e-05,
"learning_rate": 4.906666666666667e-05,
"loss": 0.0,
"step": 6625
},
{
"epoch": 0.29555555555555557,
"grad_norm": 2.4379643946303986e-05,
"learning_rate": 4.9251851851851854e-05,
"loss": 0.0,
"step": 6650
},
{
"epoch": 0.2966666666666667,
"grad_norm": 2.510284866730217e-05,
"learning_rate": 4.943703703703704e-05,
"loss": 0.0,
"step": 6675
},
{
"epoch": 0.29777777777777775,
"grad_norm": 0.0001372645201627165,
"learning_rate": 4.9622222222222225e-05,
"loss": 0.0,
"step": 6700
},
{
"epoch": 0.29888888888888887,
"grad_norm": 3.705649578478187e-05,
"learning_rate": 4.980740740740741e-05,
"loss": 0.0,
"step": 6725
},
{
"epoch": 0.3,
"grad_norm": 8.572530350647867e-05,
"learning_rate": 4.9992592592592596e-05,
"loss": 0.0,
"step": 6750
},
{
"epoch": 0.3011111111111111,
"grad_norm": 5.453641642816365e-05,
"learning_rate": 4.9980246913580245e-05,
"loss": 0.0,
"step": 6775
},
{
"epoch": 0.3022222222222222,
"grad_norm": 3.7285870348569006e-05,
"learning_rate": 4.995967078189301e-05,
"loss": 0.0,
"step": 6800
},
{
"epoch": 0.30333333333333334,
"grad_norm": 4.604971763910726e-05,
"learning_rate": 4.993909465020576e-05,
"loss": 0.0,
"step": 6825
},
{
"epoch": 0.30444444444444446,
"grad_norm": 5.983166192891076e-05,
"learning_rate": 4.991851851851852e-05,
"loss": 0.0,
"step": 6850
},
{
"epoch": 0.3055555555555556,
"grad_norm": 3.90316745324526e-05,
"learning_rate": 4.989794238683128e-05,
"loss": 0.0,
"step": 6875
},
{
"epoch": 0.30666666666666664,
"grad_norm": 2.535378916945774e-05,
"learning_rate": 4.9877366255144035e-05,
"loss": 0.0,
"step": 6900
},
{
"epoch": 0.30777777777777776,
"grad_norm": 0.00014265246863942593,
"learning_rate": 4.985679012345679e-05,
"loss": 0.0,
"step": 6925
},
{
"epoch": 0.3088888888888889,
"grad_norm": 5.419486842583865e-05,
"learning_rate": 4.983621399176955e-05,
"loss": 0.0,
"step": 6950
},
{
"epoch": 0.31,
"grad_norm": 3.310285319457762e-05,
"learning_rate": 4.981563786008231e-05,
"loss": 0.0,
"step": 6975
},
{
"epoch": 0.3111111111111111,
"grad_norm": 2.3122955099097453e-05,
"learning_rate": 4.979506172839507e-05,
"loss": 0.0,
"step": 7000
},
{
"epoch": 0.31222222222222223,
"grad_norm": 2.0926969227730297e-05,
"learning_rate": 4.977448559670782e-05,
"loss": 0.0,
"step": 7025
},
{
"epoch": 0.31333333333333335,
"grad_norm": 3.0121851523290388e-05,
"learning_rate": 4.9753909465020576e-05,
"loss": 0.0,
"step": 7050
},
{
"epoch": 0.31444444444444447,
"grad_norm": 2.6248262656736188e-05,
"learning_rate": 4.973333333333334e-05,
"loss": 0.0,
"step": 7075
},
{
"epoch": 0.31555555555555553,
"grad_norm": 0.00011922627163585275,
"learning_rate": 4.971275720164609e-05,
"loss": 0.0,
"step": 7100
},
{
"epoch": 0.31666666666666665,
"grad_norm": 3.880875010509044e-05,
"learning_rate": 4.969218106995885e-05,
"loss": 0.0,
"step": 7125
},
{
"epoch": 0.31777777777777777,
"grad_norm": 5.0680566346272826e-05,
"learning_rate": 4.967160493827161e-05,
"loss": 0.0,
"step": 7150
},
{
"epoch": 0.3188888888888889,
"grad_norm": 6.177511386340484e-05,
"learning_rate": 4.9651028806584365e-05,
"loss": 0.0,
"step": 7175
},
{
"epoch": 0.32,
"grad_norm": 6.085685163270682e-05,
"learning_rate": 4.9630452674897123e-05,
"loss": 0.0,
"step": 7200
},
{
"epoch": 0.3211111111111111,
"grad_norm": 2.860545282601379e-05,
"learning_rate": 4.9609876543209875e-05,
"loss": 0.0,
"step": 7225
},
{
"epoch": 0.32222222222222224,
"grad_norm": 1.4948897842259612e-05,
"learning_rate": 4.958930041152264e-05,
"loss": 0.0,
"step": 7250
},
{
"epoch": 0.3233333333333333,
"grad_norm": 1.2760516256093979e-05,
"learning_rate": 4.956872427983539e-05,
"loss": 0.0,
"step": 7275
},
{
"epoch": 0.3244444444444444,
"grad_norm": 4.602913395501673e-05,
"learning_rate": 4.954814814814815e-05,
"loss": 0.0,
"step": 7300
},
{
"epoch": 0.32555555555555554,
"grad_norm": 3.330594699946232e-05,
"learning_rate": 4.952757201646091e-05,
"loss": 0.0,
"step": 7325
},
{
"epoch": 0.32666666666666666,
"grad_norm": 3.1269803002942353e-05,
"learning_rate": 4.9506995884773664e-05,
"loss": 0.0,
"step": 7350
},
{
"epoch": 0.3277777777777778,
"grad_norm": 2.0696214050985873e-05,
"learning_rate": 4.948641975308642e-05,
"loss": 0.0,
"step": 7375
},
{
"epoch": 0.3288888888888889,
"grad_norm": 4.611088297679089e-05,
"learning_rate": 4.946584362139918e-05,
"loss": 0.0,
"step": 7400
},
{
"epoch": 0.33,
"grad_norm": 5.298698670230806e-05,
"learning_rate": 4.944526748971194e-05,
"loss": 0.0,
"step": 7425
},
{
"epoch": 0.33111111111111113,
"grad_norm": 4.6458000724669546e-05,
"learning_rate": 4.9424691358024696e-05,
"loss": 0.0,
"step": 7450
},
{
"epoch": 0.3322222222222222,
"grad_norm": 6.937633588677272e-05,
"learning_rate": 4.940411522633745e-05,
"loss": 0.0,
"step": 7475
},
{
"epoch": 0.3333333333333333,
"grad_norm": 7.97714528744109e-05,
"learning_rate": 4.938353909465021e-05,
"loss": 0.0,
"step": 7500
},
{
"epoch": 0.33444444444444443,
"grad_norm": 1.6251618944806978e-05,
"learning_rate": 4.936296296296297e-05,
"loss": 0.0,
"step": 7525
},
{
"epoch": 0.33555555555555555,
"grad_norm": 2.559417589509394e-05,
"learning_rate": 4.934238683127572e-05,
"loss": 0.0,
"step": 7550
},
{
"epoch": 0.33666666666666667,
"grad_norm": 3.42002822435461e-05,
"learning_rate": 4.932181069958848e-05,
"loss": 0.0,
"step": 7575
},
{
"epoch": 0.3377777777777778,
"grad_norm": 3.932703475584276e-05,
"learning_rate": 4.930123456790124e-05,
"loss": 0.0,
"step": 7600
},
{
"epoch": 0.3388888888888889,
"grad_norm": 5.888443047297187e-05,
"learning_rate": 4.9280658436213995e-05,
"loss": 0.0,
"step": 7625
},
{
"epoch": 0.34,
"grad_norm": 0.00010892499994952232,
"learning_rate": 4.926008230452675e-05,
"loss": 0.0,
"step": 7650
},
{
"epoch": 0.3411111111111111,
"grad_norm": 1.6265807062154636e-05,
"learning_rate": 4.923950617283951e-05,
"loss": 0.0,
"step": 7675
},
{
"epoch": 0.3422222222222222,
"grad_norm": 1.1056032235501334e-05,
"learning_rate": 4.921893004115227e-05,
"loss": 0.0,
"step": 7700
},
{
"epoch": 0.3433333333333333,
"grad_norm": 4.702447768067941e-05,
"learning_rate": 4.919835390946502e-05,
"loss": 0.0,
"step": 7725
},
{
"epoch": 0.34444444444444444,
"grad_norm": 4.50071383966133e-05,
"learning_rate": 4.917777777777778e-05,
"loss": 0.0,
"step": 7750
},
{
"epoch": 0.34555555555555556,
"grad_norm": 2.100879282807e-05,
"learning_rate": 4.915720164609054e-05,
"loss": 0.0,
"step": 7775
},
{
"epoch": 0.3466666666666667,
"grad_norm": 1.837060335674323e-05,
"learning_rate": 4.913662551440329e-05,
"loss": 0.0,
"step": 7800
},
{
"epoch": 0.3477777777777778,
"grad_norm": 1.6995354599202983e-05,
"learning_rate": 4.911604938271605e-05,
"loss": 0.0,
"step": 7825
},
{
"epoch": 0.3488888888888889,
"grad_norm": 3.332683627377264e-05,
"learning_rate": 4.909547325102881e-05,
"loss": 0.0,
"step": 7850
},
{
"epoch": 0.35,
"grad_norm": 2.1957508579362184e-05,
"learning_rate": 4.907489711934157e-05,
"loss": 0.0,
"step": 7875
},
{
"epoch": 0.3511111111111111,
"grad_norm": 1.9631053874036297e-05,
"learning_rate": 4.9054320987654325e-05,
"loss": 0.0,
"step": 7900
},
{
"epoch": 0.3522222222222222,
"grad_norm": 3.14349599648267e-05,
"learning_rate": 4.9033744855967076e-05,
"loss": 0.0,
"step": 7925
},
{
"epoch": 0.35333333333333333,
"grad_norm": 1.1541296771611087e-05,
"learning_rate": 4.901316872427984e-05,
"loss": 0.0,
"step": 7950
},
{
"epoch": 0.35444444444444445,
"grad_norm": 2.1934287360636517e-05,
"learning_rate": 4.89925925925926e-05,
"loss": 0.0,
"step": 7975
},
{
"epoch": 0.35555555555555557,
"grad_norm": 1.2293928193685133e-05,
"learning_rate": 4.897201646090535e-05,
"loss": 0.0,
"step": 8000
},
{
"epoch": 0.3566666666666667,
"grad_norm": 1.0795234629767947e-05,
"learning_rate": 4.895226337448559e-05,
"loss": 0.0,
"step": 8025
},
{
"epoch": 0.35777777777777775,
"grad_norm": 2.3934106138767675e-05,
"learning_rate": 4.893168724279836e-05,
"loss": 0.0,
"step": 8050
},
{
"epoch": 0.35888888888888887,
"grad_norm": 1.9683931895997375e-05,
"learning_rate": 4.8911111111111116e-05,
"loss": 0.0,
"step": 8075
},
{
"epoch": 0.36,
"grad_norm": 6.1004302551737055e-05,
"learning_rate": 4.889053497942387e-05,
"loss": 0.0,
"step": 8100
},
{
"epoch": 0.3611111111111111,
"grad_norm": 2.0431874872883782e-05,
"learning_rate": 4.886995884773663e-05,
"loss": 0.0,
"step": 8125
},
{
"epoch": 0.3622222222222222,
"grad_norm": 1.7730289982864633e-05,
"learning_rate": 4.884938271604938e-05,
"loss": 0.0,
"step": 8150
},
{
"epoch": 0.36333333333333334,
"grad_norm": 2.703631980693899e-05,
"learning_rate": 4.882880658436214e-05,
"loss": 0.0,
"step": 8175
},
{
"epoch": 0.36444444444444446,
"grad_norm": 2.2555481336894445e-05,
"learning_rate": 4.88082304526749e-05,
"loss": 0.0,
"step": 8200
},
{
"epoch": 0.3655555555555556,
"grad_norm": 1.1205183909623884e-05,
"learning_rate": 4.8787654320987656e-05,
"loss": 0.0,
"step": 8225
},
{
"epoch": 0.36666666666666664,
"grad_norm": 1.0110710718436167e-05,
"learning_rate": 4.8767078189300414e-05,
"loss": 0.0,
"step": 8250
},
{
"epoch": 0.36777777777777776,
"grad_norm": 2.4590701286797412e-05,
"learning_rate": 4.874650205761317e-05,
"loss": 0.0,
"step": 8275
},
{
"epoch": 0.3688888888888889,
"grad_norm": 1.2190839697723277e-05,
"learning_rate": 4.872592592592593e-05,
"loss": 0.0,
"step": 8300
},
{
"epoch": 0.37,
"grad_norm": 1.2320124369580299e-05,
"learning_rate": 4.870534979423869e-05,
"loss": 0.0,
"step": 8325
},
{
"epoch": 0.3711111111111111,
"grad_norm": 1.392321428284049e-05,
"learning_rate": 4.868477366255144e-05,
"loss": 0.0,
"step": 8350
},
{
"epoch": 0.37222222222222223,
"grad_norm": 1.2961753782292362e-05,
"learning_rate": 4.86641975308642e-05,
"loss": 0.0,
"step": 8375
},
{
"epoch": 0.37333333333333335,
"grad_norm": 2.613424658193253e-05,
"learning_rate": 4.8643621399176955e-05,
"loss": 0.0,
"step": 8400
},
{
"epoch": 0.37444444444444447,
"grad_norm": 1.7888192815007642e-05,
"learning_rate": 4.862304526748971e-05,
"loss": 0.0,
"step": 8425
},
{
"epoch": 0.37555555555555553,
"grad_norm": 8.296377018268686e-06,
"learning_rate": 4.860246913580247e-05,
"loss": 0.0,
"step": 8450
},
{
"epoch": 0.37666666666666665,
"grad_norm": 1.1116044333903119e-05,
"learning_rate": 4.858189300411523e-05,
"loss": 0.0,
"step": 8475
},
{
"epoch": 0.37777777777777777,
"grad_norm": 2.385837069596164e-05,
"learning_rate": 4.856131687242799e-05,
"loss": 0.0,
"step": 8500
},
{
"epoch": 0.3788888888888889,
"grad_norm": 1.2518356015789323e-05,
"learning_rate": 4.8540740740740745e-05,
"loss": 0.0,
"step": 8525
},
{
"epoch": 0.38,
"grad_norm": 1.0318779459339567e-05,
"learning_rate": 4.8520164609053496e-05,
"loss": 0.0,
"step": 8550
},
{
"epoch": 0.3811111111111111,
"grad_norm": 8.46498369355686e-06,
"learning_rate": 4.849958847736626e-05,
"loss": 0.0,
"step": 8575
},
{
"epoch": 0.38222222222222224,
"grad_norm": 1.2571003935590852e-05,
"learning_rate": 4.847901234567901e-05,
"loss": 0.0,
"step": 8600
},
{
"epoch": 0.38333333333333336,
"grad_norm": 4.400196303322446e-06,
"learning_rate": 4.845843621399177e-05,
"loss": 0.0,
"step": 8625
},
{
"epoch": 0.3844444444444444,
"grad_norm": 1.4428655049414374e-05,
"learning_rate": 4.8437860082304534e-05,
"loss": 0.0,
"step": 8650
},
{
"epoch": 0.38555555555555554,
"grad_norm": 1.6312709703925066e-05,
"learning_rate": 4.8417283950617286e-05,
"loss": 0.0,
"step": 8675
},
{
"epoch": 0.38666666666666666,
"grad_norm": 5.266796506475657e-06,
"learning_rate": 4.8396707818930044e-05,
"loss": 0.0,
"step": 8700
},
{
"epoch": 0.3877777777777778,
"grad_norm": 1.8769829694065265e-05,
"learning_rate": 4.83761316872428e-05,
"loss": 0.0,
"step": 8725
},
{
"epoch": 0.3888888888888889,
"grad_norm": 3.125673902104609e-05,
"learning_rate": 4.835555555555556e-05,
"loss": 0.0,
"step": 8750
},
{
"epoch": 0.39,
"grad_norm": 1.5230973076540977e-05,
"learning_rate": 4.833497942386832e-05,
"loss": 0.0,
"step": 8775
},
{
"epoch": 0.39111111111111113,
"grad_norm": 6.782939635741059e-06,
"learning_rate": 4.831440329218107e-05,
"loss": 0.0,
"step": 8800
},
{
"epoch": 0.39222222222222225,
"grad_norm": 1.4727511370438151e-05,
"learning_rate": 4.829382716049383e-05,
"loss": 0.0,
"step": 8825
},
{
"epoch": 0.3933333333333333,
"grad_norm": 9.455272447667085e-06,
"learning_rate": 4.8273251028806584e-05,
"loss": 0.0,
"step": 8850
},
{
"epoch": 0.39444444444444443,
"grad_norm": 7.378663212875836e-06,
"learning_rate": 4.825267489711934e-05,
"loss": 0.0,
"step": 8875
},
{
"epoch": 0.39555555555555555,
"grad_norm": 3.036719499505125e-05,
"learning_rate": 4.82320987654321e-05,
"loss": 0.0,
"step": 8900
},
{
"epoch": 0.39666666666666667,
"grad_norm": 1.205599164677551e-05,
"learning_rate": 4.821152263374486e-05,
"loss": 0.0,
"step": 8925
},
{
"epoch": 0.3977777777777778,
"grad_norm": 3.439577267272398e-05,
"learning_rate": 4.8190946502057616e-05,
"loss": 0.0,
"step": 8950
},
{
"epoch": 0.3988888888888889,
"grad_norm": 9.072386092157103e-06,
"learning_rate": 4.8170370370370374e-05,
"loss": 0.0,
"step": 8975
},
{
"epoch": 0.4,
"grad_norm": 1.1350827662681695e-05,
"learning_rate": 4.814979423868313e-05,
"loss": 0.0,
"step": 9000
},
{
"epoch": 0.4011111111111111,
"grad_norm": 1.7779731933842413e-05,
"learning_rate": 4.812921810699589e-05,
"loss": 0.0,
"step": 9025
},
{
"epoch": 0.4022222222222222,
"grad_norm": 6.806418241467327e-06,
"learning_rate": 4.810864197530864e-05,
"loss": 0.0,
"step": 9050
},
{
"epoch": 0.4033333333333333,
"grad_norm": 6.863742783025373e-06,
"learning_rate": 4.80880658436214e-05,
"loss": 0.0,
"step": 9075
},
{
"epoch": 0.40444444444444444,
"grad_norm": 1.1203325811948162e-05,
"learning_rate": 4.8067489711934164e-05,
"loss": 0.0,
"step": 9100
},
{
"epoch": 0.40555555555555556,
"grad_norm": 1.904854980239179e-05,
"learning_rate": 4.8046913580246915e-05,
"loss": 0.0,
"step": 9125
},
{
"epoch": 0.4066666666666667,
"grad_norm": 2.202028554165736e-05,
"learning_rate": 4.802633744855967e-05,
"loss": 0.0,
"step": 9150
},
{
"epoch": 0.4077777777777778,
"grad_norm": 4.742762484966079e-06,
"learning_rate": 4.800576131687243e-05,
"loss": 0.0,
"step": 9175
},
{
"epoch": 0.4088888888888889,
"grad_norm": 6.805426892242394e-06,
"learning_rate": 4.798518518518519e-05,
"loss": 0.0,
"step": 9200
},
{
"epoch": 0.41,
"grad_norm": 8.710866495675873e-06,
"learning_rate": 4.7964609053497946e-05,
"loss": 0.0,
"step": 9225
},
{
"epoch": 0.4111111111111111,
"grad_norm": 4.461071512196213e-06,
"learning_rate": 4.79440329218107e-05,
"loss": 0.0,
"step": 9250
},
{
"epoch": 0.4122222222222222,
"grad_norm": 1.6042451534303837e-05,
"learning_rate": 4.792345679012346e-05,
"loss": 0.0,
"step": 9275
},
{
"epoch": 0.41333333333333333,
"grad_norm": 9.189521733787842e-06,
"learning_rate": 4.7902880658436213e-05,
"loss": 0.0,
"step": 9300
},
{
"epoch": 0.41444444444444445,
"grad_norm": 6.1904538597445935e-06,
"learning_rate": 4.788230452674897e-05,
"loss": 0.0,
"step": 9325
},
{
"epoch": 0.41555555555555557,
"grad_norm": 3.749845973288757e-06,
"learning_rate": 4.7861728395061736e-05,
"loss": 0.0,
"step": 9350
},
{
"epoch": 0.4166666666666667,
"grad_norm": 7.75433818489546e-06,
"learning_rate": 4.784115226337449e-05,
"loss": 0.0,
"step": 9375
},
{
"epoch": 0.4177777777777778,
"grad_norm": 6.6034099290845916e-06,
"learning_rate": 4.7820576131687245e-05,
"loss": 0.0,
"step": 9400
},
{
"epoch": 0.41888888888888887,
"grad_norm": 4.569227257888997e-06,
"learning_rate": 4.78e-05,
"loss": 0.0,
"step": 9425
},
{
"epoch": 0.42,
"grad_norm": 7.362362339335959e-06,
"learning_rate": 4.777942386831276e-05,
"loss": 0.0,
"step": 9450
},
{
"epoch": 0.4211111111111111,
"grad_norm": 5.023977792006917e-06,
"learning_rate": 4.775884773662552e-05,
"loss": 0.0,
"step": 9475
},
{
"epoch": 0.4222222222222222,
"grad_norm": 7.216946869448293e-06,
"learning_rate": 4.773827160493827e-05,
"loss": 0.0,
"step": 9500
},
{
"epoch": 0.42333333333333334,
"grad_norm": 5.415383839135757e-06,
"learning_rate": 4.771769547325103e-05,
"loss": 0.0,
"step": 9525
},
{
"epoch": 0.42444444444444446,
"grad_norm": 4.124377483094577e-06,
"learning_rate": 4.769711934156379e-05,
"loss": 0.0,
"step": 9550
},
{
"epoch": 0.4255555555555556,
"grad_norm": 9.787775525182951e-06,
"learning_rate": 4.7676543209876544e-05,
"loss": 0.0,
"step": 9575
},
{
"epoch": 0.4266666666666667,
"grad_norm": 5.280126970319543e-06,
"learning_rate": 4.76559670781893e-05,
"loss": 0.0,
"step": 9600
},
{
"epoch": 0.42777777777777776,
"grad_norm": 9.278865945816506e-06,
"learning_rate": 4.763539094650206e-05,
"loss": 0.0,
"step": 9625
},
{
"epoch": 0.4288888888888889,
"grad_norm": 7.751371413178276e-06,
"learning_rate": 4.761481481481482e-05,
"loss": 0.0,
"step": 9650
},
{
"epoch": 0.43,
"grad_norm": 3.949484835175099e-06,
"learning_rate": 4.7594238683127576e-05,
"loss": 0.0,
"step": 9675
},
{
"epoch": 0.4311111111111111,
"grad_norm": 1.1599092431424651e-05,
"learning_rate": 4.757366255144033e-05,
"loss": 0.0,
"step": 9700
},
{
"epoch": 0.43222222222222223,
"grad_norm": 6.405813110177405e-06,
"learning_rate": 4.755308641975309e-05,
"loss": 0.0,
"step": 9725
},
{
"epoch": 0.43333333333333335,
"grad_norm": 5.140179837326286e-06,
"learning_rate": 4.753251028806584e-05,
"loss": 0.0,
"step": 9750
},
{
"epoch": 0.43444444444444447,
"grad_norm": 3.408478278288385e-06,
"learning_rate": 4.75119341563786e-05,
"loss": 0.0,
"step": 9775
},
{
"epoch": 0.43555555555555553,
"grad_norm": 5.112978215038311e-06,
"learning_rate": 4.7491358024691365e-05,
"loss": 0.0,
"step": 9800
},
{
"epoch": 0.43666666666666665,
"grad_norm": 8.64276535139652e-06,
"learning_rate": 4.7470781893004116e-05,
"loss": 0.0,
"step": 9825
},
{
"epoch": 0.43777777777777777,
"grad_norm": 7.288152573892148e-06,
"learning_rate": 4.7450205761316874e-05,
"loss": 0.0,
"step": 9850
},
{
"epoch": 0.4388888888888889,
"grad_norm": 1.2658803825615905e-05,
"learning_rate": 4.742962962962963e-05,
"loss": 0.0,
"step": 9875
},
{
"epoch": 0.44,
"grad_norm": 6.058906365069561e-06,
"learning_rate": 4.740905349794239e-05,
"loss": 0.0,
"step": 9900
},
{
"epoch": 0.4411111111111111,
"grad_norm": 8.9222321548732e-06,
"learning_rate": 4.738847736625515e-05,
"loss": 0.0,
"step": 9925
},
{
"epoch": 0.44222222222222224,
"grad_norm": 3.846538220386719e-06,
"learning_rate": 4.73679012345679e-05,
"loss": 0.0,
"step": 9950
},
{
"epoch": 0.44333333333333336,
"grad_norm": 6.5648710005916655e-06,
"learning_rate": 4.7347325102880664e-05,
"loss": 0.0,
"step": 9975
},
{
"epoch": 0.4444444444444444,
"grad_norm": 3.356251227160101e-06,
"learning_rate": 4.732674897119342e-05,
"loss": 0.0,
"step": 10000
},
{
"epoch": 0.44555555555555554,
"grad_norm": 6.9105258262425195e-06,
"learning_rate": 4.7306995884773665e-05,
"loss": 0.0,
"step": 10025
},
{
"epoch": 0.44666666666666666,
"grad_norm": 1.0301918337063398e-05,
"learning_rate": 4.7286419753086416e-05,
"loss": 0.0,
"step": 10050
},
{
"epoch": 0.4477777777777778,
"grad_norm": 9.020444849738851e-06,
"learning_rate": 4.726584362139918e-05,
"loss": 0.0,
"step": 10075
},
{
"epoch": 0.4488888888888889,
"grad_norm": 3.4157528716605157e-06,
"learning_rate": 4.724526748971194e-05,
"loss": 0.0,
"step": 10100
},
{
"epoch": 0.45,
"grad_norm": 3.1434331049240427e-06,
"learning_rate": 4.722469135802469e-05,
"loss": 0.0,
"step": 10125
},
{
"epoch": 0.45111111111111113,
"grad_norm": 5.961044735158794e-06,
"learning_rate": 4.7204115226337455e-05,
"loss": 0.0,
"step": 10150
},
{
"epoch": 0.45222222222222225,
"grad_norm": 2.0382813090691343e-06,
"learning_rate": 4.7183539094650206e-05,
"loss": 0.0,
"step": 10175
},
{
"epoch": 0.4533333333333333,
"grad_norm": 7.845790605642833e-06,
"learning_rate": 4.7162962962962964e-05,
"loss": 0.0,
"step": 10200
},
{
"epoch": 0.45444444444444443,
"grad_norm": 3.069884405704215e-05,
"learning_rate": 4.714238683127572e-05,
"loss": 0.0,
"step": 10225
},
{
"epoch": 0.45555555555555555,
"grad_norm": 1.406945739290677e-05,
"learning_rate": 4.712181069958848e-05,
"loss": 0.0,
"step": 10250
},
{
"epoch": 0.45666666666666667,
"grad_norm": 2.8438371373340487e-06,
"learning_rate": 4.710123456790124e-05,
"loss": 0.0,
"step": 10275
},
{
"epoch": 0.4577777777777778,
"grad_norm": 3.8919097278267145e-06,
"learning_rate": 4.7080658436213995e-05,
"loss": 0.0,
"step": 10300
},
{
"epoch": 0.4588888888888889,
"grad_norm": 4.895865913567832e-06,
"learning_rate": 4.706008230452675e-05,
"loss": 0.0,
"step": 10325
},
{
"epoch": 0.46,
"grad_norm": 3.1383247005578596e-06,
"learning_rate": 4.703950617283951e-05,
"loss": 0.0,
"step": 10350
},
{
"epoch": 0.46111111111111114,
"grad_norm": 1.2430269634933211e-05,
"learning_rate": 4.701893004115226e-05,
"loss": 0.0,
"step": 10375
},
{
"epoch": 0.4622222222222222,
"grad_norm": 3.7925208289379952e-06,
"learning_rate": 4.699835390946502e-05,
"loss": 0.0,
"step": 10400
},
{
"epoch": 0.4633333333333333,
"grad_norm": 2.8811550691898447e-06,
"learning_rate": 4.6977777777777785e-05,
"loss": 0.0,
"step": 10425
},
{
"epoch": 0.46444444444444444,
"grad_norm": 9.991228580474854e-06,
"learning_rate": 4.6957201646090536e-05,
"loss": 0.0,
"step": 10450
},
{
"epoch": 0.46555555555555556,
"grad_norm": 3.259323420934379e-05,
"learning_rate": 4.6936625514403294e-05,
"loss": 0.0,
"step": 10475
},
{
"epoch": 0.4666666666666667,
"grad_norm": 6.970301910769194e-06,
"learning_rate": 4.691604938271605e-05,
"loss": 0.0,
"step": 10500
},
{
"epoch": 0.4677777777777778,
"grad_norm": 3.2475406896992354e-06,
"learning_rate": 4.689547325102881e-05,
"loss": 0.0,
"step": 10525
},
{
"epoch": 0.4688888888888889,
"grad_norm": 6.2833651099936105e-06,
"learning_rate": 4.687489711934157e-05,
"loss": 0.0,
"step": 10550
},
{
"epoch": 0.47,
"grad_norm": 4.662441369873704e-06,
"learning_rate": 4.685432098765432e-05,
"loss": 0.0,
"step": 10575
},
{
"epoch": 0.4711111111111111,
"grad_norm": 2.291957798661315e-06,
"learning_rate": 4.6833744855967084e-05,
"loss": 0.0,
"step": 10600
},
{
"epoch": 0.4722222222222222,
"grad_norm": 4.2553242565190885e-06,
"learning_rate": 4.6813168724279835e-05,
"loss": 0.0,
"step": 10625
},
{
"epoch": 0.47333333333333333,
"grad_norm": 3.0765334031457314e-06,
"learning_rate": 4.679259259259259e-05,
"loss": 0.0,
"step": 10650
},
{
"epoch": 0.47444444444444445,
"grad_norm": 1.7676381958153797e-06,
"learning_rate": 4.677201646090536e-05,
"loss": 0.0,
"step": 10675
},
{
"epoch": 0.47555555555555556,
"grad_norm": 7.142313279473456e-06,
"learning_rate": 4.675144032921811e-05,
"loss": 0.0,
"step": 10700
},
{
"epoch": 0.4766666666666667,
"grad_norm": 1.218548845827172e-06,
"learning_rate": 4.6730864197530867e-05,
"loss": 0.0,
"step": 10725
},
{
"epoch": 0.4777777777777778,
"grad_norm": 2.9100629035383463e-06,
"learning_rate": 4.6710288065843625e-05,
"loss": 0.0,
"step": 10750
},
{
"epoch": 0.47888888888888886,
"grad_norm": 2.0084519292140612e-06,
"learning_rate": 4.668971193415638e-05,
"loss": 0.0,
"step": 10775
},
{
"epoch": 0.48,
"grad_norm": 2.3679729110881453e-06,
"learning_rate": 4.666913580246914e-05,
"loss": 0.0,
"step": 10800
},
{
"epoch": 0.4811111111111111,
"grad_norm": 6.167888841446256e-06,
"learning_rate": 4.664855967078189e-05,
"loss": 0.0,
"step": 10825
},
{
"epoch": 0.4822222222222222,
"grad_norm": 2.0017882889078464e-06,
"learning_rate": 4.6627983539094656e-05,
"loss": 0.0,
"step": 10850
},
{
"epoch": 0.48333333333333334,
"grad_norm": 5.014261205360526e-06,
"learning_rate": 4.660740740740741e-05,
"loss": 0.0,
"step": 10875
},
{
"epoch": 0.48444444444444446,
"grad_norm": 3.5055691114393994e-06,
"learning_rate": 4.6586831275720165e-05,
"loss": 0.0,
"step": 10900
},
{
"epoch": 0.4855555555555556,
"grad_norm": 9.858320026978618e-07,
"learning_rate": 4.656625514403292e-05,
"loss": 0.0,
"step": 10925
},
{
"epoch": 0.4866666666666667,
"grad_norm": 6.58631643091212e-06,
"learning_rate": 4.654567901234568e-05,
"loss": 0.0,
"step": 10950
},
{
"epoch": 0.48777777777777775,
"grad_norm": 1.9263232388766482e-05,
"learning_rate": 4.652510288065844e-05,
"loss": 0.0,
"step": 10975
},
{
"epoch": 0.4888888888888889,
"grad_norm": 3.57924250238284e-06,
"learning_rate": 4.65045267489712e-05,
"loss": 0.0,
"step": 11000
},
{
"epoch": 0.49,
"grad_norm": 2.3225404675031314e-06,
"learning_rate": 4.6483950617283955e-05,
"loss": 0.0,
"step": 11025
},
{
"epoch": 0.4911111111111111,
"grad_norm": 2.1273699530865997e-06,
"learning_rate": 4.646337448559671e-05,
"loss": 0.0,
"step": 11050
},
{
"epoch": 0.4922222222222222,
"grad_norm": 9.383206815982703e-07,
"learning_rate": 4.6442798353909464e-05,
"loss": 0.0,
"step": 11075
},
{
"epoch": 0.49333333333333335,
"grad_norm": 3.2572197596891783e-06,
"learning_rate": 4.642222222222222e-05,
"loss": 0.0,
"step": 11100
},
{
"epoch": 0.49444444444444446,
"grad_norm": 5.9037574828835204e-06,
"learning_rate": 4.640164609053499e-05,
"loss": 0.0,
"step": 11125
},
{
"epoch": 0.4955555555555556,
"grad_norm": 4.1290927583759185e-06,
"learning_rate": 4.638106995884774e-05,
"loss": 0.0,
"step": 11150
},
{
"epoch": 0.49666666666666665,
"grad_norm": 1.1697014997480437e-05,
"learning_rate": 4.6360493827160496e-05,
"loss": 0.0,
"step": 11175
},
{
"epoch": 0.49777777777777776,
"grad_norm": 3.332785126985982e-06,
"learning_rate": 4.6339917695473254e-05,
"loss": 0.0,
"step": 11200
},
{
"epoch": 0.4988888888888889,
"grad_norm": 4.559369699563831e-06,
"learning_rate": 4.631934156378601e-05,
"loss": 0.0,
"step": 11225
},
{
"epoch": 0.5,
"grad_norm": 1.6357404319933266e-06,
"learning_rate": 4.629876543209877e-05,
"loss": 0.0,
"step": 11250
},
{
"epoch": 0.5011111111111111,
"grad_norm": 1.047314981406089e-06,
"learning_rate": 4.627818930041152e-05,
"loss": 0.0,
"step": 11275
},
{
"epoch": 0.5022222222222222,
"grad_norm": 2.3157167561294045e-06,
"learning_rate": 4.6257613168724285e-05,
"loss": 0.0,
"step": 11300
},
{
"epoch": 0.5033333333333333,
"grad_norm": 2.3914224129839567e-06,
"learning_rate": 4.6237037037037037e-05,
"loss": 0.0,
"step": 11325
},
{
"epoch": 0.5044444444444445,
"grad_norm": 1.002529415927711e-06,
"learning_rate": 4.6216460905349794e-05,
"loss": 0.0,
"step": 11350
},
{
"epoch": 0.5055555555555555,
"grad_norm": 1.9927999801439e-06,
"learning_rate": 4.619588477366255e-05,
"loss": 0.0,
"step": 11375
},
{
"epoch": 0.5066666666666667,
"grad_norm": 2.75726301879331e-06,
"learning_rate": 4.617530864197531e-05,
"loss": 0.0,
"step": 11400
},
{
"epoch": 0.5077777777777778,
"grad_norm": 1.0203843885392416e-06,
"learning_rate": 4.615473251028807e-05,
"loss": 0.0,
"step": 11425
},
{
"epoch": 0.5088888888888888,
"grad_norm": 9.400907856615959e-07,
"learning_rate": 4.6134156378600826e-05,
"loss": 0.0,
"step": 11450
},
{
"epoch": 0.51,
"grad_norm": 1.2264329143363284e-06,
"learning_rate": 4.6113580246913584e-05,
"loss": 0.0,
"step": 11475
},
{
"epoch": 0.5111111111111111,
"grad_norm": 2.28714088734705e-06,
"learning_rate": 4.609300411522634e-05,
"loss": 0.0,
"step": 11500
},
{
"epoch": 0.5122222222222222,
"grad_norm": 2.661820190041908e-06,
"learning_rate": 4.607242798353909e-05,
"loss": 0.0,
"step": 11525
},
{
"epoch": 0.5133333333333333,
"grad_norm": 1.697481275186874e-05,
"learning_rate": 4.605185185185185e-05,
"loss": 0.0,
"step": 11550
},
{
"epoch": 0.5144444444444445,
"grad_norm": 6.7703040258493274e-06,
"learning_rate": 4.6031275720164616e-05,
"loss": 0.0,
"step": 11575
},
{
"epoch": 0.5155555555555555,
"grad_norm": 9.329677936875669e-07,
"learning_rate": 4.601069958847737e-05,
"loss": 0.0,
"step": 11600
},
{
"epoch": 0.5166666666666667,
"grad_norm": 1.2641468174479087e-06,
"learning_rate": 4.5990123456790125e-05,
"loss": 0.0,
"step": 11625
},
{
"epoch": 0.5177777777777778,
"grad_norm": 1.390080115015735e-06,
"learning_rate": 4.596954732510288e-05,
"loss": 0.0,
"step": 11650
},
{
"epoch": 0.5188888888888888,
"grad_norm": 3.861812729155645e-06,
"learning_rate": 4.594897119341564e-05,
"loss": 0.0,
"step": 11675
},
{
"epoch": 0.52,
"grad_norm": 3.1635540835850406e-06,
"learning_rate": 4.59283950617284e-05,
"loss": 0.0,
"step": 11700
},
{
"epoch": 0.5211111111111111,
"grad_norm": 2.877781753340969e-06,
"learning_rate": 4.590781893004115e-05,
"loss": 0.0,
"step": 11725
},
{
"epoch": 0.5222222222222223,
"grad_norm": 1.347880015600822e-06,
"learning_rate": 4.5887242798353915e-05,
"loss": 0.0,
"step": 11750
},
{
"epoch": 0.5233333333333333,
"grad_norm": 1.474578311899677e-06,
"learning_rate": 4.5866666666666666e-05,
"loss": 0.0,
"step": 11775
},
{
"epoch": 0.5244444444444445,
"grad_norm": 1.6125100046338048e-06,
"learning_rate": 4.5846090534979424e-05,
"loss": 0.0,
"step": 11800
},
{
"epoch": 0.5255555555555556,
"grad_norm": 4.022164830530528e-06,
"learning_rate": 4.582551440329219e-05,
"loss": 0.0,
"step": 11825
},
{
"epoch": 0.5266666666666666,
"grad_norm": 1.642525944589579e-06,
"learning_rate": 4.580493827160494e-05,
"loss": 0.0,
"step": 11850
},
{
"epoch": 0.5277777777777778,
"grad_norm": 7.073440428939648e-06,
"learning_rate": 4.57843621399177e-05,
"loss": 0.0,
"step": 11875
},
{
"epoch": 0.5288888888888889,
"grad_norm": 1.196023390548362e-06,
"learning_rate": 4.5763786008230455e-05,
"loss": 0.0,
"step": 11900
},
{
"epoch": 0.53,
"grad_norm": 7.703138180659153e-07,
"learning_rate": 4.574320987654321e-05,
"loss": 0.0,
"step": 11925
},
{
"epoch": 0.5311111111111111,
"grad_norm": 1.3850628874934046e-06,
"learning_rate": 4.572263374485597e-05,
"loss": 0.0,
"step": 11950
},
{
"epoch": 0.5322222222222223,
"grad_norm": 1.1885379080922576e-06,
"learning_rate": 4.570205761316872e-05,
"loss": 0.0,
"step": 11975
},
{
"epoch": 0.5333333333333333,
"grad_norm": 9.10244182250608e-07,
"learning_rate": 4.568148148148149e-05,
"loss": 0.0,
"step": 12000
},
{
"epoch": 0.5344444444444445,
"grad_norm": 9.835825949267019e-07,
"learning_rate": 4.566172839506173e-05,
"loss": 0.0,
"step": 12025
},
{
"epoch": 0.5355555555555556,
"grad_norm": 2.120251338055823e-06,
"learning_rate": 4.564115226337449e-05,
"loss": 0.0,
"step": 12050
},
{
"epoch": 0.5366666666666666,
"grad_norm": 4.792908612216706e-07,
"learning_rate": 4.5620576131687246e-05,
"loss": 0.0,
"step": 12075
},
{
"epoch": 0.5377777777777778,
"grad_norm": 1.099000087378954e-06,
"learning_rate": 4.5600000000000004e-05,
"loss": 0.0,
"step": 12100
},
{
"epoch": 0.5388888888888889,
"grad_norm": 1.479555635341967e-06,
"learning_rate": 4.557942386831276e-05,
"loss": 0.0,
"step": 12125
},
{
"epoch": 0.54,
"grad_norm": 2.3477143713535042e-06,
"learning_rate": 4.555884773662551e-05,
"loss": 0.0,
"step": 12150
},
{
"epoch": 0.5411111111111111,
"grad_norm": 1.981150035135215e-06,
"learning_rate": 4.553827160493828e-05,
"loss": 0.0,
"step": 12175
},
{
"epoch": 0.5422222222222223,
"grad_norm": 2.0858246898569632e-06,
"learning_rate": 4.551769547325103e-05,
"loss": 0.0,
"step": 12200
},
{
"epoch": 0.5433333333333333,
"grad_norm": 3.848246706184e-06,
"learning_rate": 4.549711934156379e-05,
"loss": 0.0,
"step": 12225
},
{
"epoch": 0.5444444444444444,
"grad_norm": 3.6719845297739084e-07,
"learning_rate": 4.5476543209876545e-05,
"loss": 0.0,
"step": 12250
},
{
"epoch": 0.5455555555555556,
"grad_norm": 1.372593146697909e-06,
"learning_rate": 4.54559670781893e-05,
"loss": 0.0,
"step": 12275
},
{
"epoch": 0.5466666666666666,
"grad_norm": 7.869608111832349e-07,
"learning_rate": 4.543539094650206e-05,
"loss": 0.0,
"step": 12300
},
{
"epoch": 0.5477777777777778,
"grad_norm": 1.3170697457098868e-05,
"learning_rate": 4.541481481481482e-05,
"loss": 0.0,
"step": 12325
},
{
"epoch": 0.5488888888888889,
"grad_norm": 1.6573716266066185e-06,
"learning_rate": 4.5394238683127576e-05,
"loss": 0.0,
"step": 12350
},
{
"epoch": 0.55,
"grad_norm": 2.29087027037167e-06,
"learning_rate": 4.5373662551440334e-05,
"loss": 0.0,
"step": 12375
},
{
"epoch": 0.5511111111111111,
"grad_norm": 3.127025820504059e-06,
"learning_rate": 4.5353086419753085e-05,
"loss": 0.0,
"step": 12400
},
{
"epoch": 0.5522222222222222,
"grad_norm": 1.0924188245553523e-05,
"learning_rate": 4.533251028806584e-05,
"loss": 0.0,
"step": 12425
},
{
"epoch": 0.5533333333333333,
"grad_norm": 1.0014359759225044e-05,
"learning_rate": 4.531193415637861e-05,
"loss": 0.0,
"step": 12450
},
{
"epoch": 0.5544444444444444,
"grad_norm": 2.4238099740614416e-06,
"learning_rate": 4.529135802469136e-05,
"loss": 0.0,
"step": 12475
},
{
"epoch": 0.5555555555555556,
"grad_norm": 2.128540700141457e-06,
"learning_rate": 4.527078189300412e-05,
"loss": 0.0,
"step": 12500
},
{
"epoch": 0.5566666666666666,
"grad_norm": 9.061051855496771e-07,
"learning_rate": 4.5250205761316875e-05,
"loss": 0.0,
"step": 12525
},
{
"epoch": 0.5577777777777778,
"grad_norm": 2.5818396807153476e-06,
"learning_rate": 4.522962962962963e-05,
"loss": 0.0,
"step": 12550
},
{
"epoch": 0.5588888888888889,
"grad_norm": 3.7087346527187037e-07,
"learning_rate": 4.520905349794239e-05,
"loss": 0.0,
"step": 12575
},
{
"epoch": 0.56,
"grad_norm": 1.222528567268455e-06,
"learning_rate": 4.518847736625514e-05,
"loss": 0.0,
"step": 12600
},
{
"epoch": 0.5611111111111111,
"grad_norm": 8.020438713174372e-07,
"learning_rate": 4.516790123456791e-05,
"loss": 0.0,
"step": 12625
},
{
"epoch": 0.5622222222222222,
"grad_norm": 8.51862807849102e-07,
"learning_rate": 4.514732510288066e-05,
"loss": 0.0,
"step": 12650
},
{
"epoch": 0.5633333333333334,
"grad_norm": 6.434458555304445e-06,
"learning_rate": 4.5126748971193416e-05,
"loss": 0.0,
"step": 12675
},
{
"epoch": 0.5644444444444444,
"grad_norm": 3.535533039666916e-07,
"learning_rate": 4.5106172839506174e-05,
"loss": 0.0,
"step": 12700
},
{
"epoch": 0.5655555555555556,
"grad_norm": 2.4329435177605774e-07,
"learning_rate": 4.508559670781893e-05,
"loss": 0.0,
"step": 12725
},
{
"epoch": 0.5666666666666667,
"grad_norm": 1.952031652763253e-06,
"learning_rate": 4.506502057613169e-05,
"loss": 0.0,
"step": 12750
},
{
"epoch": 0.5677777777777778,
"grad_norm": 1.737733555273735e-06,
"learning_rate": 4.504444444444445e-05,
"loss": 0.0,
"step": 12775
},
{
"epoch": 0.5688888888888889,
"grad_norm": 2.1233142888377188e-06,
"learning_rate": 4.5023868312757206e-05,
"loss": 0.0,
"step": 12800
},
{
"epoch": 0.57,
"grad_norm": 1.556524921397795e-06,
"learning_rate": 4.5003292181069963e-05,
"loss": 0.0,
"step": 12825
},
{
"epoch": 0.5711111111111111,
"grad_norm": 2.8549407034006435e-06,
"learning_rate": 4.4982716049382715e-05,
"loss": 0.0,
"step": 12850
},
{
"epoch": 0.5722222222222222,
"grad_norm": 1.656042172726302e-06,
"learning_rate": 4.496213991769547e-05,
"loss": 0.0,
"step": 12875
},
{
"epoch": 0.5733333333333334,
"grad_norm": 2.732438360908418e-06,
"learning_rate": 4.494156378600824e-05,
"loss": 0.0,
"step": 12900
},
{
"epoch": 0.5744444444444444,
"grad_norm": 6.8981012191216e-07,
"learning_rate": 4.492098765432099e-05,
"loss": 0.0,
"step": 12925
},
{
"epoch": 0.5755555555555556,
"grad_norm": 5.614095698547317e-06,
"learning_rate": 4.4900411522633746e-05,
"loss": 0.0,
"step": 12950
},
{
"epoch": 0.5766666666666667,
"grad_norm": 3.200501907940634e-07,
"learning_rate": 4.4879835390946504e-05,
"loss": 0.0,
"step": 12975
},
{
"epoch": 0.5777777777777777,
"grad_norm": 7.23612231467996e-07,
"learning_rate": 4.485925925925926e-05,
"loss": 0.0,
"step": 13000
},
{
"epoch": 0.5788888888888889,
"grad_norm": 2.095796617140877e-06,
"learning_rate": 4.483868312757202e-05,
"loss": 0.0,
"step": 13025
},
{
"epoch": 0.58,
"grad_norm": 1.3688561750768713e-07,
"learning_rate": 4.481810699588477e-05,
"loss": 0.0,
"step": 13050
},
{
"epoch": 0.5811111111111111,
"grad_norm": 4.316835315876233e-07,
"learning_rate": 4.4797530864197536e-05,
"loss": 0.0,
"step": 13075
},
{
"epoch": 0.5822222222222222,
"grad_norm": 8.363484994333703e-06,
"learning_rate": 4.477695473251029e-05,
"loss": 0.0,
"step": 13100
},
{
"epoch": 0.5833333333333334,
"grad_norm": 8.573680929657712e-07,
"learning_rate": 4.4756378600823045e-05,
"loss": 0.0,
"step": 13125
},
{
"epoch": 0.5844444444444444,
"grad_norm": 8.409183465118986e-07,
"learning_rate": 4.473580246913581e-05,
"loss": 0.0,
"step": 13150
},
{
"epoch": 0.5855555555555556,
"grad_norm": 1.3688784292753553e-06,
"learning_rate": 4.471522633744856e-05,
"loss": 0.0,
"step": 13175
},
{
"epoch": 0.5866666666666667,
"grad_norm": 5.302320914779557e-06,
"learning_rate": 4.469465020576132e-05,
"loss": 0.0,
"step": 13200
},
{
"epoch": 0.5877777777777777,
"grad_norm": 8.296588930534199e-06,
"learning_rate": 4.467407407407408e-05,
"loss": 0.0,
"step": 13225
},
{
"epoch": 0.5888888888888889,
"grad_norm": 1.8276839455211302e-06,
"learning_rate": 4.4653497942386835e-05,
"loss": 0.0,
"step": 13250
},
{
"epoch": 0.59,
"grad_norm": 7.81135611305217e-07,
"learning_rate": 4.463292181069959e-05,
"loss": 0.0,
"step": 13275
},
{
"epoch": 0.5911111111111111,
"grad_norm": 8.502359492013056e-07,
"learning_rate": 4.4612345679012344e-05,
"loss": 0.0,
"step": 13300
},
{
"epoch": 0.5922222222222222,
"grad_norm": 8.507216193720524e-07,
"learning_rate": 4.459176954732511e-05,
"loss": 0.0,
"step": 13325
},
{
"epoch": 0.5933333333333334,
"grad_norm": 2.3740067263133824e-06,
"learning_rate": 4.457119341563786e-05,
"loss": 0.0,
"step": 13350
},
{
"epoch": 0.5944444444444444,
"grad_norm": 1.5857756807236e-05,
"learning_rate": 4.455061728395062e-05,
"loss": 0.0,
"step": 13375
},
{
"epoch": 0.5955555555555555,
"grad_norm": 7.564545967397862e-07,
"learning_rate": 4.4530041152263375e-05,
"loss": 0.0,
"step": 13400
},
{
"epoch": 0.5966666666666667,
"grad_norm": 1.8991647721122717e-07,
"learning_rate": 4.4509465020576133e-05,
"loss": 0.0,
"step": 13425
},
{
"epoch": 0.5977777777777777,
"grad_norm": 3.3122171316790627e-06,
"learning_rate": 4.448888888888889e-05,
"loss": 0.0,
"step": 13450
},
{
"epoch": 0.5988888888888889,
"grad_norm": 7.808293958078139e-07,
"learning_rate": 4.446831275720165e-05,
"loss": 0.0,
"step": 13475
},
{
"epoch": 0.6,
"grad_norm": 4.4887860894959886e-07,
"learning_rate": 4.444773662551441e-05,
"loss": 0.0,
"step": 13500
},
{
"epoch": 0.6011111111111112,
"grad_norm": 4.256822307979746e-07,
"learning_rate": 4.4427160493827165e-05,
"loss": 0.0,
"step": 13525
},
{
"epoch": 0.6022222222222222,
"grad_norm": 3.8279392811091384e-07,
"learning_rate": 4.4406584362139916e-05,
"loss": 0.0,
"step": 13550
},
{
"epoch": 0.6033333333333334,
"grad_norm": 3.7735236446678755e-07,
"learning_rate": 4.4386008230452674e-05,
"loss": 0.0,
"step": 13575
},
{
"epoch": 0.6044444444444445,
"grad_norm": 8.649790288473014e-07,
"learning_rate": 4.436543209876544e-05,
"loss": 0.0,
"step": 13600
},
{
"epoch": 0.6055555555555555,
"grad_norm": 2.8577446187227906e-07,
"learning_rate": 4.434485596707819e-05,
"loss": 0.0,
"step": 13625
},
{
"epoch": 0.6066666666666667,
"grad_norm": 1.5396573189718765e-06,
"learning_rate": 4.432427983539095e-05,
"loss": 0.0,
"step": 13650
},
{
"epoch": 0.6077777777777778,
"grad_norm": 1.4140484836389078e-06,
"learning_rate": 4.4303703703703706e-05,
"loss": 0.0,
"step": 13675
},
{
"epoch": 0.6088888888888889,
"grad_norm": 3.147155780425237e-07,
"learning_rate": 4.4283127572016464e-05,
"loss": 0.0,
"step": 13700
},
{
"epoch": 0.61,
"grad_norm": 1.182464302473818e-06,
"learning_rate": 4.426255144032922e-05,
"loss": 0.0,
"step": 13725
},
{
"epoch": 0.6111111111111112,
"grad_norm": 1.0480607670615427e-06,
"learning_rate": 4.424197530864197e-05,
"loss": 0.0,
"step": 13750
},
{
"epoch": 0.6122222222222222,
"grad_norm": 8.395163035856967e-07,
"learning_rate": 4.422139917695474e-05,
"loss": 0.0,
"step": 13775
},
{
"epoch": 0.6133333333333333,
"grad_norm": 2.8341847269075515e-07,
"learning_rate": 4.420082304526749e-05,
"loss": 0.0,
"step": 13800
},
{
"epoch": 0.6144444444444445,
"grad_norm": 1.0584925576040405e-06,
"learning_rate": 4.418024691358025e-05,
"loss": 0.0,
"step": 13825
},
{
"epoch": 0.6155555555555555,
"grad_norm": 4.1941245854104636e-07,
"learning_rate": 4.415967078189301e-05,
"loss": 0.0,
"step": 13850
},
{
"epoch": 0.6166666666666667,
"grad_norm": 1.4477893728326308e-06,
"learning_rate": 4.413909465020576e-05,
"loss": 0.0,
"step": 13875
},
{
"epoch": 0.6177777777777778,
"grad_norm": 3.737382883173268e-07,
"learning_rate": 4.411851851851852e-05,
"loss": 0.0,
"step": 13900
},
{
"epoch": 0.6188888888888889,
"grad_norm": 2.694224008337187e-07,
"learning_rate": 4.409794238683128e-05,
"loss": 0.0,
"step": 13925
},
{
"epoch": 0.62,
"grad_norm": 8.582859436501167e-07,
"learning_rate": 4.4077366255144036e-05,
"loss": 0.0,
"step": 13950
},
{
"epoch": 0.6211111111111111,
"grad_norm": 1.44613329666754e-06,
"learning_rate": 4.4056790123456794e-05,
"loss": 0.0,
"step": 13975
},
{
"epoch": 0.6222222222222222,
"grad_norm": 2.490824329015595e-07,
"learning_rate": 4.4036213991769545e-05,
"loss": 0.0,
"step": 14000
},
{
"epoch": 0.6233333333333333,
"grad_norm": 4.2954260948135925e-07,
"learning_rate": 4.40164609053498e-05,
"loss": 0.0,
"step": 14025
},
{
"epoch": 0.6244444444444445,
"grad_norm": 1.1091145779573708e-06,
"learning_rate": 4.399588477366255e-05,
"loss": 0.0,
"step": 14050
},
{
"epoch": 0.6255555555555555,
"grad_norm": 4.052676558785606e-07,
"learning_rate": 4.397530864197531e-05,
"loss": 0.0,
"step": 14075
},
{
"epoch": 0.6266666666666667,
"grad_norm": 5.640138169837883e-07,
"learning_rate": 4.395473251028807e-05,
"loss": 0.0,
"step": 14100
},
{
"epoch": 0.6277777777777778,
"grad_norm": 9.713122608445701e-07,
"learning_rate": 4.393415637860083e-05,
"loss": 0.0,
"step": 14125
},
{
"epoch": 0.6288888888888889,
"grad_norm": 6.414668973775406e-07,
"learning_rate": 4.3913580246913585e-05,
"loss": 0.0,
"step": 14150
},
{
"epoch": 0.63,
"grad_norm": 9.575338708600611e-07,
"learning_rate": 4.3893004115226336e-05,
"loss": 0.0,
"step": 14175
},
{
"epoch": 0.6311111111111111,
"grad_norm": 1.7228209117092774e-06,
"learning_rate": 4.38724279835391e-05,
"loss": 0.0,
"step": 14200
},
{
"epoch": 0.6322222222222222,
"grad_norm": 2.6251200324622914e-07,
"learning_rate": 4.385185185185185e-05,
"loss": 0.0,
"step": 14225
},
{
"epoch": 0.6333333333333333,
"grad_norm": 3.912421675522637e-07,
"learning_rate": 4.383127572016461e-05,
"loss": 0.0,
"step": 14250
},
{
"epoch": 0.6344444444444445,
"grad_norm": 1.9347581314832496e-07,
"learning_rate": 4.381069958847737e-05,
"loss": 0.0,
"step": 14275
},
{
"epoch": 0.6355555555555555,
"grad_norm": 1.3690956848222413e-06,
"learning_rate": 4.3790123456790126e-05,
"loss": 0.0,
"step": 14300
},
{
"epoch": 0.6366666666666667,
"grad_norm": 2.086786281552122e-07,
"learning_rate": 4.3769547325102884e-05,
"loss": 0.0,
"step": 14325
},
{
"epoch": 0.6377777777777778,
"grad_norm": 2.555111393576226e-07,
"learning_rate": 4.374897119341564e-05,
"loss": 0.0,
"step": 14350
},
{
"epoch": 0.6388888888888888,
"grad_norm": 1.2012651495751925e-06,
"learning_rate": 4.372839506172839e-05,
"loss": 0.0,
"step": 14375
},
{
"epoch": 0.64,
"grad_norm": 1.7951593633824814e-07,
"learning_rate": 4.370781893004116e-05,
"loss": 0.0,
"step": 14400
},
{
"epoch": 0.6411111111111111,
"grad_norm": 7.988931542968203e-07,
"learning_rate": 4.368724279835391e-05,
"loss": 0.0,
"step": 14425
},
{
"epoch": 0.6422222222222222,
"grad_norm": 1.6214741549447353e-07,
"learning_rate": 4.3666666666666666e-05,
"loss": 0.0,
"step": 14450
},
{
"epoch": 0.6433333333333333,
"grad_norm": 6.482297294496675e-07,
"learning_rate": 4.364609053497943e-05,
"loss": 0.0,
"step": 14475
},
{
"epoch": 0.6444444444444445,
"grad_norm": 1.2368182922273263e-07,
"learning_rate": 4.362551440329218e-05,
"loss": 0.0,
"step": 14500
},
{
"epoch": 0.6455555555555555,
"grad_norm": 1.9336567902428214e-07,
"learning_rate": 4.360493827160494e-05,
"loss": 0.0,
"step": 14525
},
{
"epoch": 0.6466666666666666,
"grad_norm": 1.0954790923278779e-06,
"learning_rate": 4.35843621399177e-05,
"loss": 0.0,
"step": 14550
},
{
"epoch": 0.6477777777777778,
"grad_norm": 2.3735485399356548e-07,
"learning_rate": 4.3563786008230456e-05,
"loss": 0.0,
"step": 14575
},
{
"epoch": 0.6488888888888888,
"grad_norm": 1.1897606810862271e-07,
"learning_rate": 4.3543209876543214e-05,
"loss": 0.0,
"step": 14600
},
{
"epoch": 0.65,
"grad_norm": 2.155570200557122e-06,
"learning_rate": 4.3522633744855965e-05,
"loss": 0.0,
"step": 14625
},
{
"epoch": 0.6511111111111111,
"grad_norm": 3.156632715217711e-07,
"learning_rate": 4.350205761316873e-05,
"loss": 0.0,
"step": 14650
},
{
"epoch": 0.6522222222222223,
"grad_norm": 7.862913093958923e-07,
"learning_rate": 4.348148148148148e-05,
"loss": 0.0,
"step": 14675
},
{
"epoch": 0.6533333333333333,
"grad_norm": 8.020257951102394e-07,
"learning_rate": 4.346090534979424e-05,
"loss": 0.0,
"step": 14700
},
{
"epoch": 0.6544444444444445,
"grad_norm": 2.6604024583321007e-07,
"learning_rate": 4.3440329218107e-05,
"loss": 0.0,
"step": 14725
},
{
"epoch": 0.6555555555555556,
"grad_norm": 2.769049842754612e-07,
"learning_rate": 4.3419753086419755e-05,
"loss": 0.0,
"step": 14750
},
{
"epoch": 0.6566666666666666,
"grad_norm": 1.3414572777037392e-06,
"learning_rate": 4.339917695473251e-05,
"loss": 0.0,
"step": 14775
},
{
"epoch": 0.6577777777777778,
"grad_norm": 6.437888941945857e-07,
"learning_rate": 4.337860082304527e-05,
"loss": 0.0,
"step": 14800
},
{
"epoch": 0.6588888888888889,
"grad_norm": 2.3374536795017775e-07,
"learning_rate": 4.335802469135803e-05,
"loss": 0.0,
"step": 14825
},
{
"epoch": 0.66,
"grad_norm": 6.684410891466541e-07,
"learning_rate": 4.3337448559670787e-05,
"loss": 0.0,
"step": 14850
},
{
"epoch": 0.6611111111111111,
"grad_norm": 1.9574262921651098e-07,
"learning_rate": 4.331687242798354e-05,
"loss": 0.0,
"step": 14875
},
{
"epoch": 0.6622222222222223,
"grad_norm": 2.2634134211330093e-07,
"learning_rate": 4.3296296296296296e-05,
"loss": 0.0,
"step": 14900
},
{
"epoch": 0.6633333333333333,
"grad_norm": 2.4459748715344176e-07,
"learning_rate": 4.327572016460906e-05,
"loss": 0.0,
"step": 14925
},
{
"epoch": 0.6644444444444444,
"grad_norm": 6.909834269208659e-07,
"learning_rate": 4.325514403292181e-05,
"loss": 0.0,
"step": 14950
},
{
"epoch": 0.6655555555555556,
"grad_norm": 1.1381995363990427e-06,
"learning_rate": 4.323456790123457e-05,
"loss": 0.0,
"step": 14975
},
{
"epoch": 0.6666666666666666,
"grad_norm": 2.2842229441266682e-07,
"learning_rate": 4.321399176954733e-05,
"loss": 0.0,
"step": 15000
},
{
"epoch": 0.6677777777777778,
"grad_norm": 1.869858010650205e-06,
"learning_rate": 4.3193415637860085e-05,
"loss": 0.0,
"step": 15025
},
{
"epoch": 0.6688888888888889,
"grad_norm": 4.693400512678636e-07,
"learning_rate": 4.317283950617284e-05,
"loss": 0.0,
"step": 15050
},
{
"epoch": 0.67,
"grad_norm": 6.760940323147224e-07,
"learning_rate": 4.3152263374485594e-05,
"loss": 0.0,
"step": 15075
},
{
"epoch": 0.6711111111111111,
"grad_norm": 1.3130738807376474e-06,
"learning_rate": 4.313168724279836e-05,
"loss": 0.0,
"step": 15100
},
{
"epoch": 0.6722222222222223,
"grad_norm": 8.275517302536173e-07,
"learning_rate": 4.311111111111111e-05,
"loss": 0.0,
"step": 15125
},
{
"epoch": 0.6733333333333333,
"grad_norm": 1.708458938765034e-07,
"learning_rate": 4.309053497942387e-05,
"loss": 0.0,
"step": 15150
},
{
"epoch": 0.6744444444444444,
"grad_norm": 1.1989592962891038e-07,
"learning_rate": 4.306995884773663e-05,
"loss": 0.0,
"step": 15175
},
{
"epoch": 0.6755555555555556,
"grad_norm": 6.775456995455897e-08,
"learning_rate": 4.3049382716049384e-05,
"loss": 0.0,
"step": 15200
},
{
"epoch": 0.6766666666666666,
"grad_norm": 2.936818930265872e-07,
"learning_rate": 4.302880658436214e-05,
"loss": 0.0,
"step": 15225
},
{
"epoch": 0.6777777777777778,
"grad_norm": 1.78354866875452e-07,
"learning_rate": 4.30082304526749e-05,
"loss": 0.0,
"step": 15250
},
{
"epoch": 0.6788888888888889,
"grad_norm": 7.156854735512752e-07,
"learning_rate": 4.298765432098766e-05,
"loss": 0.0,
"step": 15275
},
{
"epoch": 0.68,
"grad_norm": 7.66353025483113e-07,
"learning_rate": 4.2967078189300416e-05,
"loss": 0.0,
"step": 15300
},
{
"epoch": 0.6811111111111111,
"grad_norm": 6.983875096011616e-07,
"learning_rate": 4.294650205761317e-05,
"loss": 0.0,
"step": 15325
},
{
"epoch": 0.6822222222222222,
"grad_norm": 4.5559514205706364e-07,
"learning_rate": 4.292592592592593e-05,
"loss": 0.0,
"step": 15350
},
{
"epoch": 0.6833333333333333,
"grad_norm": 8.220304152928293e-07,
"learning_rate": 4.290534979423869e-05,
"loss": 0.0,
"step": 15375
},
{
"epoch": 0.6844444444444444,
"grad_norm": 9.073489309230354e-06,
"learning_rate": 4.288477366255144e-05,
"loss": 0.0,
"step": 15400
},
{
"epoch": 0.6855555555555556,
"grad_norm": 3.1479780204790586e-07,
"learning_rate": 4.28641975308642e-05,
"loss": 0.0,
"step": 15425
},
{
"epoch": 0.6866666666666666,
"grad_norm": 1.1140688371824581e-07,
"learning_rate": 4.2843621399176956e-05,
"loss": 0.0,
"step": 15450
},
{
"epoch": 0.6877777777777778,
"grad_norm": 1.9453406707725662e-07,
"learning_rate": 4.2823045267489714e-05,
"loss": 0.0,
"step": 15475
},
{
"epoch": 0.6888888888888889,
"grad_norm": 1.547858232697763e-07,
"learning_rate": 4.280246913580247e-05,
"loss": 0.0,
"step": 15500
},
{
"epoch": 0.69,
"grad_norm": 1.2652584473471506e-06,
"learning_rate": 4.278189300411523e-05,
"loss": 0.0,
"step": 15525
},
{
"epoch": 0.6911111111111111,
"grad_norm": 6.694964440612239e-07,
"learning_rate": 4.276131687242799e-05,
"loss": 0.0,
"step": 15550
},
{
"epoch": 0.6922222222222222,
"grad_norm": 7.787272693349223e-07,
"learning_rate": 4.274074074074074e-05,
"loss": 0.0,
"step": 15575
},
{
"epoch": 0.6933333333333334,
"grad_norm": 1.9268054529675283e-07,
"learning_rate": 4.27201646090535e-05,
"loss": 0.0,
"step": 15600
},
{
"epoch": 0.6944444444444444,
"grad_norm": 1.0812985351549287e-07,
"learning_rate": 4.269958847736626e-05,
"loss": 0.0,
"step": 15625
},
{
"epoch": 0.6955555555555556,
"grad_norm": 1.996240598600707e-06,
"learning_rate": 4.267901234567901e-05,
"loss": 0.0,
"step": 15650
},
{
"epoch": 0.6966666666666667,
"grad_norm": 1.0645366188555272e-07,
"learning_rate": 4.265843621399177e-05,
"loss": 0.0,
"step": 15675
},
{
"epoch": 0.6977777777777778,
"grad_norm": 1.503018722814886e-07,
"learning_rate": 4.263786008230453e-05,
"loss": 0.0,
"step": 15700
},
{
"epoch": 0.6988888888888889,
"grad_norm": 1.6967987903626636e-07,
"learning_rate": 4.261728395061729e-05,
"loss": 0.0,
"step": 15725
},
{
"epoch": 0.7,
"grad_norm": 2.51759587399647e-07,
"learning_rate": 4.2596707818930045e-05,
"loss": 0.0,
"step": 15750
},
{
"epoch": 0.7011111111111111,
"grad_norm": 6.234875513655425e-07,
"learning_rate": 4.2576131687242796e-05,
"loss": 0.0,
"step": 15775
},
{
"epoch": 0.7022222222222222,
"grad_norm": 8.101607704702474e-07,
"learning_rate": 4.255555555555556e-05,
"loss": 0.0,
"step": 15800
},
{
"epoch": 0.7033333333333334,
"grad_norm": 2.1262711413783109e-07,
"learning_rate": 4.253497942386831e-05,
"loss": 0.0,
"step": 15825
},
{
"epoch": 0.7044444444444444,
"grad_norm": 1.1418053418310592e-06,
"learning_rate": 4.251440329218107e-05,
"loss": 0.0,
"step": 15850
},
{
"epoch": 0.7055555555555556,
"grad_norm": 1.7519913342312066e-07,
"learning_rate": 4.249382716049383e-05,
"loss": 0.0,
"step": 15875
},
{
"epoch": 0.7066666666666667,
"grad_norm": 1.3508473273304844e-07,
"learning_rate": 4.2473251028806586e-05,
"loss": 0.0,
"step": 15900
},
{
"epoch": 0.7077777777777777,
"grad_norm": 1.6522255918971496e-07,
"learning_rate": 4.2452674897119344e-05,
"loss": 0.0,
"step": 15925
},
{
"epoch": 0.7088888888888889,
"grad_norm": 6.310106641649327e-07,
"learning_rate": 4.24320987654321e-05,
"loss": 0.0,
"step": 15950
},
{
"epoch": 0.71,
"grad_norm": 1.6793724455510528e-07,
"learning_rate": 4.241152263374486e-05,
"loss": 0.0,
"step": 15975
},
{
"epoch": 0.7111111111111111,
"grad_norm": 2.044463087713666e-07,
"learning_rate": 4.239094650205762e-05,
"loss": 0.0,
"step": 16000
},
{
"epoch": 0.7122222222222222,
"grad_norm": 7.893184488239058e-07,
"learning_rate": 4.237119341563786e-05,
"loss": 0.0,
"step": 16025
},
{
"epoch": 0.7133333333333334,
"grad_norm": 1.7695488452318386e-07,
"learning_rate": 4.235061728395062e-05,
"loss": 0.0,
"step": 16050
},
{
"epoch": 0.7144444444444444,
"grad_norm": 2.0642579556806595e-07,
"learning_rate": 4.2330041152263376e-05,
"loss": 0.0,
"step": 16075
},
{
"epoch": 0.7155555555555555,
"grad_norm": 1.9081880964222364e-07,
"learning_rate": 4.2309465020576134e-05,
"loss": 0.0,
"step": 16100
},
{
"epoch": 0.7166666666666667,
"grad_norm": 2.7748100706048717e-07,
"learning_rate": 4.228888888888889e-05,
"loss": 0.0,
"step": 16125
},
{
"epoch": 0.7177777777777777,
"grad_norm": 1.550934740635057e-07,
"learning_rate": 4.226831275720165e-05,
"loss": 0.0,
"step": 16150
},
{
"epoch": 0.7188888888888889,
"grad_norm": 1.8456137240718817e-06,
"learning_rate": 4.224773662551441e-05,
"loss": 0.0,
"step": 16175
},
{
"epoch": 0.72,
"grad_norm": 7.061050411039105e-08,
"learning_rate": 4.222716049382716e-05,
"loss": 0.0,
"step": 16200
},
{
"epoch": 0.7211111111111111,
"grad_norm": 3.995733948158886e-07,
"learning_rate": 4.220658436213992e-05,
"loss": 0.0,
"step": 16225
},
{
"epoch": 0.7222222222222222,
"grad_norm": 2.41627844843606e-07,
"learning_rate": 4.2186008230452675e-05,
"loss": 0.0,
"step": 16250
},
{
"epoch": 0.7233333333333334,
"grad_norm": 1.271188807550061e-07,
"learning_rate": 4.216543209876543e-05,
"loss": 0.0,
"step": 16275
},
{
"epoch": 0.7244444444444444,
"grad_norm": 1.2078356803613133e-07,
"learning_rate": 4.214485596707819e-05,
"loss": 0.0,
"step": 16300
},
{
"epoch": 0.7255555555555555,
"grad_norm": 1.2353814327070722e-06,
"learning_rate": 4.212427983539095e-05,
"loss": 0.0,
"step": 16325
},
{
"epoch": 0.7266666666666667,
"grad_norm": 5.9518161066307584e-08,
"learning_rate": 4.210370370370371e-05,
"loss": 0.0,
"step": 16350
},
{
"epoch": 0.7277777777777777,
"grad_norm": 1.5454214974397473e-07,
"learning_rate": 4.2083127572016465e-05,
"loss": 0.0,
"step": 16375
},
{
"epoch": 0.7288888888888889,
"grad_norm": 2.765199553778075e-07,
"learning_rate": 4.2062551440329216e-05,
"loss": 0.0,
"step": 16400
},
{
"epoch": 0.73,
"grad_norm": 1.7808690699894214e-07,
"learning_rate": 4.204197530864198e-05,
"loss": 0.0,
"step": 16425
},
{
"epoch": 0.7311111111111112,
"grad_norm": 2.0311946968831762e-07,
"learning_rate": 4.202139917695473e-05,
"loss": 0.0,
"step": 16450
},
{
"epoch": 0.7322222222222222,
"grad_norm": 6.834238774899859e-07,
"learning_rate": 4.200082304526749e-05,
"loss": 0.0,
"step": 16475
},
{
"epoch": 0.7333333333333333,
"grad_norm": 6.605114890589903e-07,
"learning_rate": 4.1980246913580254e-05,
"loss": 0.0,
"step": 16500
},
{
"epoch": 0.7344444444444445,
"grad_norm": 2.290396281523499e-07,
"learning_rate": 4.1959670781893005e-05,
"loss": 0.0,
"step": 16525
},
{
"epoch": 0.7355555555555555,
"grad_norm": 2.3497649692671985e-07,
"learning_rate": 4.193909465020576e-05,
"loss": 0.0,
"step": 16550
},
{
"epoch": 0.7366666666666667,
"grad_norm": 6.418382980655224e-08,
"learning_rate": 4.191851851851852e-05,
"loss": 0.0,
"step": 16575
},
{
"epoch": 0.7377777777777778,
"grad_norm": 7.681778413370921e-08,
"learning_rate": 4.189794238683128e-05,
"loss": 0.0,
"step": 16600
},
{
"epoch": 0.7388888888888889,
"grad_norm": 6.351689307848574e-08,
"learning_rate": 4.187736625514404e-05,
"loss": 0.0,
"step": 16625
},
{
"epoch": 0.74,
"grad_norm": 2.3105998536721017e-07,
"learning_rate": 4.185679012345679e-05,
"loss": 0.0,
"step": 16650
},
{
"epoch": 0.7411111111111112,
"grad_norm": 8.6220900641365e-08,
"learning_rate": 4.183621399176955e-05,
"loss": 0.0,
"step": 16675
},
{
"epoch": 0.7422222222222222,
"grad_norm": 1.3463547077208204e-07,
"learning_rate": 4.1815637860082304e-05,
"loss": 0.0,
"step": 16700
},
{
"epoch": 0.7433333333333333,
"grad_norm": 2.1635048597090645e-07,
"learning_rate": 4.179506172839506e-05,
"loss": 0.0,
"step": 16725
},
{
"epoch": 0.7444444444444445,
"grad_norm": 3.3596728599150083e-07,
"learning_rate": 4.177448559670782e-05,
"loss": 0.0,
"step": 16750
},
{
"epoch": 0.7455555555555555,
"grad_norm": 1.1805027497757692e-06,
"learning_rate": 4.175390946502058e-05,
"loss": 0.0,
"step": 16775
},
{
"epoch": 0.7466666666666667,
"grad_norm": 2.84891967794465e-07,
"learning_rate": 4.1733333333333336e-05,
"loss": 0.0,
"step": 16800
},
{
"epoch": 0.7477777777777778,
"grad_norm": 2.3759186262850562e-07,
"learning_rate": 4.1712757201646094e-05,
"loss": 0.0,
"step": 16825
},
{
"epoch": 0.7488888888888889,
"grad_norm": 4.116406771004222e-08,
"learning_rate": 4.169218106995885e-05,
"loss": 0.0,
"step": 16850
},
{
"epoch": 0.75,
"grad_norm": 2.6620895710038894e-07,
"learning_rate": 4.167160493827161e-05,
"loss": 0.0,
"step": 16875
},
{
"epoch": 0.7511111111111111,
"grad_norm": 1.364595902941801e-07,
"learning_rate": 4.165102880658436e-05,
"loss": 0.0,
"step": 16900
},
{
"epoch": 0.7522222222222222,
"grad_norm": 1.0628337321350045e-07,
"learning_rate": 4.163045267489712e-05,
"loss": 0.0,
"step": 16925
},
{
"epoch": 0.7533333333333333,
"grad_norm": 6.200441475812113e-07,
"learning_rate": 4.1609876543209883e-05,
"loss": 0.0,
"step": 16950
},
{
"epoch": 0.7544444444444445,
"grad_norm": 1.837317711306241e-07,
"learning_rate": 4.1589300411522635e-05,
"loss": 0.0,
"step": 16975
},
{
"epoch": 0.7555555555555555,
"grad_norm": 1.5892375415660354e-07,
"learning_rate": 4.156872427983539e-05,
"loss": 0.0,
"step": 17000
},
{
"epoch": 0.7566666666666667,
"grad_norm": 1.311047839180901e-07,
"learning_rate": 4.154814814814815e-05,
"loss": 0.0,
"step": 17025
},
{
"epoch": 0.7577777777777778,
"grad_norm": 3.812051829754637e-08,
"learning_rate": 4.152757201646091e-05,
"loss": 0.0,
"step": 17050
},
{
"epoch": 0.7588888888888888,
"grad_norm": 7.933849843766438e-08,
"learning_rate": 4.1506995884773666e-05,
"loss": 0.0,
"step": 17075
},
{
"epoch": 0.76,
"grad_norm": 2.3112065150598937e-07,
"learning_rate": 4.148641975308642e-05,
"loss": 0.0,
"step": 17100
},
{
"epoch": 0.7611111111111111,
"grad_norm": 1.2828304818413017e-07,
"learning_rate": 4.146584362139918e-05,
"loss": 0.0,
"step": 17125
},
{
"epoch": 0.7622222222222222,
"grad_norm": 3.5283273973618634e-06,
"learning_rate": 4.144526748971193e-05,
"loss": 0.0,
"step": 17150
},
{
"epoch": 0.7633333333333333,
"grad_norm": 3.4567282369835084e-08,
"learning_rate": 4.142469135802469e-05,
"loss": 0.0,
"step": 17175
},
{
"epoch": 0.7644444444444445,
"grad_norm": 1.865073961937469e-08,
"learning_rate": 4.1404115226337456e-05,
"loss": 0.0,
"step": 17200
},
{
"epoch": 0.7655555555555555,
"grad_norm": 1.2435268104127317e-07,
"learning_rate": 4.138353909465021e-05,
"loss": 0.0,
"step": 17225
},
{
"epoch": 0.7666666666666667,
"grad_norm": 1.1260398480317235e-07,
"learning_rate": 4.1362962962962965e-05,
"loss": 0.0,
"step": 17250
},
{
"epoch": 0.7677777777777778,
"grad_norm": 1.5384321727651695e-07,
"learning_rate": 4.134238683127572e-05,
"loss": 0.0,
"step": 17275
},
{
"epoch": 0.7688888888888888,
"grad_norm": 3.32794712676332e-07,
"learning_rate": 4.132181069958848e-05,
"loss": 0.0,
"step": 17300
},
{
"epoch": 0.77,
"grad_norm": 1.8359732223416358e-07,
"learning_rate": 4.130123456790124e-05,
"loss": 0.0,
"step": 17325
},
{
"epoch": 0.7711111111111111,
"grad_norm": 2.1158383844976925e-07,
"learning_rate": 4.128065843621399e-05,
"loss": 0.0,
"step": 17350
},
{
"epoch": 0.7722222222222223,
"grad_norm": 1.2675806715378712e-07,
"learning_rate": 4.1260082304526755e-05,
"loss": 0.0,
"step": 17375
},
{
"epoch": 0.7733333333333333,
"grad_norm": 9.685437873940828e-08,
"learning_rate": 4.123950617283951e-05,
"loss": 0.0,
"step": 17400
},
{
"epoch": 0.7744444444444445,
"grad_norm": 6.725764478687779e-07,
"learning_rate": 4.1218930041152264e-05,
"loss": 0.0,
"step": 17425
},
{
"epoch": 0.7755555555555556,
"grad_norm": 1.9257448968801327e-07,
"learning_rate": 4.119835390946502e-05,
"loss": 0.0,
"step": 17450
},
{
"epoch": 0.7766666666666666,
"grad_norm": 1.34586173317075e-06,
"learning_rate": 4.117777777777778e-05,
"loss": 0.0,
"step": 17475
},
{
"epoch": 0.7777777777777778,
"grad_norm": 6.642077892138332e-07,
"learning_rate": 4.115720164609054e-05,
"loss": 0.0,
"step": 17500
},
{
"epoch": 0.7788888888888889,
"grad_norm": 4.022380650781088e-08,
"learning_rate": 4.1136625514403295e-05,
"loss": 0.0,
"step": 17525
},
{
"epoch": 0.78,
"grad_norm": 2.721791361182113e-07,
"learning_rate": 4.1116049382716047e-05,
"loss": 0.0,
"step": 17550
},
{
"epoch": 0.7811111111111111,
"grad_norm": 7.130137191779795e-08,
"learning_rate": 4.109547325102881e-05,
"loss": 0.0,
"step": 17575
},
{
"epoch": 0.7822222222222223,
"grad_norm": 1.3105491234455258e-06,
"learning_rate": 4.107489711934156e-05,
"loss": 0.0,
"step": 17600
},
{
"epoch": 0.7833333333333333,
"grad_norm": 2.0609236628388317e-07,
"learning_rate": 4.105432098765432e-05,
"loss": 0.0,
"step": 17625
},
{
"epoch": 0.7844444444444445,
"grad_norm": 8.541574914033845e-08,
"learning_rate": 4.1033744855967085e-05,
"loss": 0.0,
"step": 17650
},
{
"epoch": 0.7855555555555556,
"grad_norm": 1.3749074412316986e-07,
"learning_rate": 4.1013168724279836e-05,
"loss": 0.0,
"step": 17675
},
{
"epoch": 0.7866666666666666,
"grad_norm": 5.34517567984949e-08,
"learning_rate": 4.0992592592592594e-05,
"loss": 0.0,
"step": 17700
},
{
"epoch": 0.7877777777777778,
"grad_norm": 1.5909523654045188e-07,
"learning_rate": 4.097201646090535e-05,
"loss": 0.0,
"step": 17725
},
{
"epoch": 0.7888888888888889,
"grad_norm": 9.275804302433244e-08,
"learning_rate": 4.095144032921811e-05,
"loss": 0.0,
"step": 17750
},
{
"epoch": 0.79,
"grad_norm": 1.7962072718091804e-07,
"learning_rate": 4.093086419753087e-05,
"loss": 0.0,
"step": 17775
},
{
"epoch": 0.7911111111111111,
"grad_norm": 2.381077592872316e-07,
"learning_rate": 4.091028806584362e-05,
"loss": 0.0,
"step": 17800
},
{
"epoch": 0.7922222222222223,
"grad_norm": 3.979031504286468e-08,
"learning_rate": 4.0889711934156384e-05,
"loss": 0.0,
"step": 17825
},
{
"epoch": 0.7933333333333333,
"grad_norm": 1.5142491349706688e-07,
"learning_rate": 4.086913580246914e-05,
"loss": 0.0,
"step": 17850
},
{
"epoch": 0.7944444444444444,
"grad_norm": 3.0703185416314227e-07,
"learning_rate": 4.084855967078189e-05,
"loss": 0.0,
"step": 17875
},
{
"epoch": 0.7955555555555556,
"grad_norm": 9.710272053098379e-08,
"learning_rate": 4.082798353909465e-05,
"loss": 0.0,
"step": 17900
},
{
"epoch": 0.7966666666666666,
"grad_norm": 9.817106416676324e-08,
"learning_rate": 4.080740740740741e-05,
"loss": 0.0,
"step": 17925
},
{
"epoch": 0.7977777777777778,
"grad_norm": 1.1524888066105632e-07,
"learning_rate": 4.078683127572017e-05,
"loss": 0.0,
"step": 17950
},
{
"epoch": 0.7988888888888889,
"grad_norm": 1.3456376564136008e-06,
"learning_rate": 4.0766255144032925e-05,
"loss": 0.0,
"step": 17975
},
{
"epoch": 0.8,
"grad_norm": 8.288744623996536e-08,
"learning_rate": 4.074567901234568e-05,
"loss": 0.0,
"step": 18000
},
{
"epoch": 0.8011111111111111,
"grad_norm": 4.891197846745854e-08,
"learning_rate": 4.0725925925925926e-05,
"loss": 0.0,
"step": 18025
},
{
"epoch": 0.8022222222222222,
"grad_norm": 7.510957971135213e-07,
"learning_rate": 4.0705349794238683e-05,
"loss": 0.0,
"step": 18050
},
{
"epoch": 0.8033333333333333,
"grad_norm": 6.862352819325679e-08,
"learning_rate": 4.068477366255144e-05,
"loss": 0.0,
"step": 18075
},
{
"epoch": 0.8044444444444444,
"grad_norm": 8.81375683547958e-08,
"learning_rate": 4.06641975308642e-05,
"loss": 0.0,
"step": 18100
},
{
"epoch": 0.8055555555555556,
"grad_norm": 1.0784353321469098e-07,
"learning_rate": 4.064362139917696e-05,
"loss": 0.0,
"step": 18125
},
{
"epoch": 0.8066666666666666,
"grad_norm": 5.996189145207609e-08,
"learning_rate": 4.0623045267489715e-05,
"loss": 0.0,
"step": 18150
},
{
"epoch": 0.8077777777777778,
"grad_norm": 5.1186916039114294e-08,
"learning_rate": 4.060246913580247e-05,
"loss": 0.0,
"step": 18175
},
{
"epoch": 0.8088888888888889,
"grad_norm": 1.3724070413445588e-07,
"learning_rate": 4.058189300411523e-05,
"loss": 0.0,
"step": 18200
},
{
"epoch": 0.81,
"grad_norm": 8.716475008441193e-08,
"learning_rate": 4.056131687242798e-05,
"loss": 0.0,
"step": 18225
},
{
"epoch": 0.8111111111111111,
"grad_norm": 1.4221980393358535e-07,
"learning_rate": 4.054074074074074e-05,
"loss": 0.0,
"step": 18250
},
{
"epoch": 0.8122222222222222,
"grad_norm": 2.2837893354221706e-08,
"learning_rate": 4.0520164609053505e-05,
"loss": 0.0,
"step": 18275
},
{
"epoch": 0.8133333333333334,
"grad_norm": 1.546926142736993e-07,
"learning_rate": 4.0499588477366256e-05,
"loss": 0.0,
"step": 18300
},
{
"epoch": 0.8144444444444444,
"grad_norm": 2.5556799343462444e-08,
"learning_rate": 4.0479012345679014e-05,
"loss": 0.0,
"step": 18325
},
{
"epoch": 0.8155555555555556,
"grad_norm": 1.7456945045069006e-07,
"learning_rate": 4.045843621399177e-05,
"loss": 0.0,
"step": 18350
},
{
"epoch": 0.8166666666666667,
"grad_norm": 2.1472280309353664e-07,
"learning_rate": 4.043786008230453e-05,
"loss": 0.0,
"step": 18375
},
{
"epoch": 0.8177777777777778,
"grad_norm": 2.2142235422961676e-07,
"learning_rate": 4.041728395061729e-05,
"loss": 0.0,
"step": 18400
},
{
"epoch": 0.8188888888888889,
"grad_norm": 5.408443115584305e-08,
"learning_rate": 4.039670781893004e-05,
"loss": 0.0,
"step": 18425
},
{
"epoch": 0.82,
"grad_norm": 5.613863507392125e-08,
"learning_rate": 4.0376131687242804e-05,
"loss": 0.0,
"step": 18450
},
{
"epoch": 0.8211111111111111,
"grad_norm": 9.596029570957398e-08,
"learning_rate": 4.0355555555555555e-05,
"loss": 0.0,
"step": 18475
},
{
"epoch": 0.8222222222222222,
"grad_norm": 2.1405883288139194e-08,
"learning_rate": 4.033497942386831e-05,
"loss": 0.0,
"step": 18500
},
{
"epoch": 0.8233333333333334,
"grad_norm": 6.747659426764585e-07,
"learning_rate": 4.031440329218108e-05,
"loss": 0.0,
"step": 18525
},
{
"epoch": 0.8244444444444444,
"grad_norm": 2.1127279481447658e-08,
"learning_rate": 4.029382716049383e-05,
"loss": 0.0,
"step": 18550
},
{
"epoch": 0.8255555555555556,
"grad_norm": 2.2696335122418532e-07,
"learning_rate": 4.0273251028806586e-05,
"loss": 0.0,
"step": 18575
},
{
"epoch": 0.8266666666666667,
"grad_norm": 1.1106653801107313e-06,
"learning_rate": 4.0252674897119344e-05,
"loss": 0.0,
"step": 18600
},
{
"epoch": 0.8277777777777777,
"grad_norm": 6.238992682483513e-07,
"learning_rate": 4.02320987654321e-05,
"loss": 0.0,
"step": 18625
},
{
"epoch": 0.8288888888888889,
"grad_norm": 5.953022252924711e-08,
"learning_rate": 4.021152263374486e-05,
"loss": 0.0,
"step": 18650
},
{
"epoch": 0.83,
"grad_norm": 4.2105284592253156e-08,
"learning_rate": 4.019094650205761e-05,
"loss": 0.0,
"step": 18675
},
{
"epoch": 0.8311111111111111,
"grad_norm": 5.1640551390619294e-08,
"learning_rate": 4.0170370370370376e-05,
"loss": 0.0,
"step": 18700
},
{
"epoch": 0.8322222222222222,
"grad_norm": 2.7465003427096235e-07,
"learning_rate": 4.014979423868313e-05,
"loss": 0.0,
"step": 18725
},
{
"epoch": 0.8333333333333334,
"grad_norm": 2.6216623538743988e-08,
"learning_rate": 4.0129218106995885e-05,
"loss": 0.0,
"step": 18750
},
{
"epoch": 0.8344444444444444,
"grad_norm": 3.4971122886418016e-08,
"learning_rate": 4.010864197530864e-05,
"loss": 0.0,
"step": 18775
},
{
"epoch": 0.8355555555555556,
"grad_norm": 1.1908077368616432e-07,
"learning_rate": 4.00880658436214e-05,
"loss": 0.0,
"step": 18800
},
{
"epoch": 0.8366666666666667,
"grad_norm": 1.602541175316219e-07,
"learning_rate": 4.006748971193416e-05,
"loss": 0.0,
"step": 18825
},
{
"epoch": 0.8377777777777777,
"grad_norm": 1.7420974884885254e-08,
"learning_rate": 4.004691358024692e-05,
"loss": 0.0,
"step": 18850
},
{
"epoch": 0.8388888888888889,
"grad_norm": 5.6299505502011016e-08,
"learning_rate": 4.0026337448559675e-05,
"loss": 0.0,
"step": 18875
},
{
"epoch": 0.84,
"grad_norm": 7.50843227592668e-08,
"learning_rate": 4.000576131687243e-05,
"loss": 0.0,
"step": 18900
},
{
"epoch": 0.8411111111111111,
"grad_norm": 3.9959406450407187e-08,
"learning_rate": 3.9985185185185184e-05,
"loss": 0.0,
"step": 18925
},
{
"epoch": 0.8422222222222222,
"grad_norm": 2.86921508774185e-08,
"learning_rate": 3.996460905349794e-05,
"loss": 0.0,
"step": 18950
},
{
"epoch": 0.8433333333333334,
"grad_norm": 7.228687337601514e-08,
"learning_rate": 3.9944032921810706e-05,
"loss": 0.0,
"step": 18975
},
{
"epoch": 0.8444444444444444,
"grad_norm": 5.1904184061868364e-08,
"learning_rate": 3.992345679012346e-05,
"loss": 0.0,
"step": 19000
},
{
"epoch": 0.8455555555555555,
"grad_norm": 7.607641094864448e-08,
"learning_rate": 3.9902880658436216e-05,
"loss": 0.0,
"step": 19025
},
{
"epoch": 0.8466666666666667,
"grad_norm": 2.1305911701574587e-08,
"learning_rate": 3.9882304526748973e-05,
"loss": 0.0,
"step": 19050
},
{
"epoch": 0.8477777777777777,
"grad_norm": 3.2069900157694065e-07,
"learning_rate": 3.986172839506173e-05,
"loss": 0.0,
"step": 19075
},
{
"epoch": 0.8488888888888889,
"grad_norm": 3.823398628810537e-07,
"learning_rate": 3.984115226337449e-05,
"loss": 0.0,
"step": 19100
},
{
"epoch": 0.85,
"grad_norm": 4.744386217225838e-08,
"learning_rate": 3.982057613168724e-05,
"loss": 0.0,
"step": 19125
},
{
"epoch": 0.8511111111111112,
"grad_norm": 4.418669519168361e-08,
"learning_rate": 3.9800000000000005e-05,
"loss": 0.0,
"step": 19150
},
{
"epoch": 0.8522222222222222,
"grad_norm": 1.0017078722057704e-07,
"learning_rate": 3.9779423868312756e-05,
"loss": 0.0,
"step": 19175
},
{
"epoch": 0.8533333333333334,
"grad_norm": 2.721318637100012e-08,
"learning_rate": 3.9758847736625514e-05,
"loss": 0.0,
"step": 19200
},
{
"epoch": 0.8544444444444445,
"grad_norm": 1.0211729772890976e-07,
"learning_rate": 3.973827160493827e-05,
"loss": 0.0,
"step": 19225
},
{
"epoch": 0.8555555555555555,
"grad_norm": 3.518853475270589e-08,
"learning_rate": 3.971769547325103e-05,
"loss": 0.0,
"step": 19250
},
{
"epoch": 0.8566666666666667,
"grad_norm": 2.40841888654586e-08,
"learning_rate": 3.969711934156379e-05,
"loss": 0.0,
"step": 19275
},
{
"epoch": 0.8577777777777778,
"grad_norm": 3.4186037112249323e-08,
"learning_rate": 3.9676543209876546e-05,
"loss": 0.0,
"step": 19300
},
{
"epoch": 0.8588888888888889,
"grad_norm": 7.008900411165087e-07,
"learning_rate": 3.9655967078189304e-05,
"loss": 0.0,
"step": 19325
},
{
"epoch": 0.86,
"grad_norm": 3.088114297611355e-08,
"learning_rate": 3.963539094650206e-05,
"loss": 0.0,
"step": 19350
},
{
"epoch": 0.8611111111111112,
"grad_norm": 1.5293788635517558e-07,
"learning_rate": 3.961481481481481e-05,
"loss": 0.0,
"step": 19375
},
{
"epoch": 0.8622222222222222,
"grad_norm": 2.5831983663238134e-08,
"learning_rate": 3.959423868312757e-05,
"loss": 0.0,
"step": 19400
},
{
"epoch": 0.8633333333333333,
"grad_norm": 3.145752103250743e-08,
"learning_rate": 3.9573662551440336e-05,
"loss": 0.0,
"step": 19425
},
{
"epoch": 0.8644444444444445,
"grad_norm": 4.306505374529479e-08,
"learning_rate": 3.955308641975309e-05,
"loss": 0.0,
"step": 19450
},
{
"epoch": 0.8655555555555555,
"grad_norm": 1.6387922130434163e-07,
"learning_rate": 3.9532510288065845e-05,
"loss": 0.0,
"step": 19475
},
{
"epoch": 0.8666666666666667,
"grad_norm": 2.3762456891063266e-08,
"learning_rate": 3.95119341563786e-05,
"loss": 0.0,
"step": 19500
},
{
"epoch": 0.8677777777777778,
"grad_norm": 1.3711802182569954e-07,
"learning_rate": 3.949135802469136e-05,
"loss": 0.0,
"step": 19525
},
{
"epoch": 0.8688888888888889,
"grad_norm": 1.0624601287645419e-07,
"learning_rate": 3.947078189300412e-05,
"loss": 0.0,
"step": 19550
},
{
"epoch": 0.87,
"grad_norm": 7.308613021450583e-07,
"learning_rate": 3.945020576131687e-05,
"loss": 0.0,
"step": 19575
},
{
"epoch": 0.8711111111111111,
"grad_norm": 2.499114543752512e-06,
"learning_rate": 3.9429629629629634e-05,
"loss": 0.0,
"step": 19600
},
{
"epoch": 0.8722222222222222,
"grad_norm": 6.477984726416253e-08,
"learning_rate": 3.9409053497942385e-05,
"loss": 0.0,
"step": 19625
},
{
"epoch": 0.8733333333333333,
"grad_norm": 8.537972462363541e-08,
"learning_rate": 3.9388477366255143e-05,
"loss": 0.0,
"step": 19650
},
{
"epoch": 0.8744444444444445,
"grad_norm": 1.9858550359685978e-08,
"learning_rate": 3.936790123456791e-05,
"loss": 0.0,
"step": 19675
},
{
"epoch": 0.8755555555555555,
"grad_norm": 4.5879669841042414e-08,
"learning_rate": 3.934732510288066e-05,
"loss": 0.0,
"step": 19700
},
{
"epoch": 0.8766666666666667,
"grad_norm": 1.0514568060671081e-07,
"learning_rate": 3.932674897119342e-05,
"loss": 0.0,
"step": 19725
},
{
"epoch": 0.8777777777777778,
"grad_norm": 1.144682659770524e-08,
"learning_rate": 3.9306172839506175e-05,
"loss": 0.0,
"step": 19750
},
{
"epoch": 0.8788888888888889,
"grad_norm": 2.8756454995004788e-08,
"learning_rate": 3.928559670781893e-05,
"loss": 0.0,
"step": 19775
},
{
"epoch": 0.88,
"grad_norm": 4.4100350038434044e-08,
"learning_rate": 3.926502057613169e-05,
"loss": 0.0,
"step": 19800
},
{
"epoch": 0.8811111111111111,
"grad_norm": 1.7081555725440012e-08,
"learning_rate": 3.924444444444444e-05,
"loss": 0.0,
"step": 19825
},
{
"epoch": 0.8822222222222222,
"grad_norm": 6.385182160784098e-08,
"learning_rate": 3.922386831275721e-05,
"loss": 0.0,
"step": 19850
},
{
"epoch": 0.8833333333333333,
"grad_norm": 5.551220638722043e-08,
"learning_rate": 3.9203292181069965e-05,
"loss": 0.0,
"step": 19875
},
{
"epoch": 0.8844444444444445,
"grad_norm": 3.049133923127556e-08,
"learning_rate": 3.9182716049382716e-05,
"loss": 0.0,
"step": 19900
},
{
"epoch": 0.8855555555555555,
"grad_norm": 8.446400556749722e-08,
"learning_rate": 3.9162139917695474e-05,
"loss": 0.0,
"step": 19925
},
{
"epoch": 0.8866666666666667,
"grad_norm": 1.2771853796778032e-08,
"learning_rate": 3.914156378600823e-05,
"loss": 0.0,
"step": 19950
},
{
"epoch": 0.8877777777777778,
"grad_norm": 4.0204323425996336e-08,
"learning_rate": 3.912098765432099e-05,
"loss": 0.0,
"step": 19975
},
{
"epoch": 0.8888888888888888,
"grad_norm": 1.4432976591649549e-08,
"learning_rate": 3.910041152263375e-05,
"loss": 0.0,
"step": 20000
},
{
"epoch": 0.89,
"grad_norm": 1.2371276625344763e-07,
"learning_rate": 3.9080658436214e-05,
"loss": 0.0,
"step": 20025
},
{
"epoch": 0.8911111111111111,
"grad_norm": 5.894499111036566e-08,
"learning_rate": 3.906008230452675e-05,
"loss": 0.0,
"step": 20050
},
{
"epoch": 0.8922222222222222,
"grad_norm": 1.702962464378288e-07,
"learning_rate": 3.9039506172839507e-05,
"loss": 0.0,
"step": 20075
},
{
"epoch": 0.8933333333333333,
"grad_norm": 3.5387557772992295e-08,
"learning_rate": 3.9018930041152264e-05,
"loss": 0.0,
"step": 20100
},
{
"epoch": 0.8944444444444445,
"grad_norm": 1.9281090501976905e-08,
"learning_rate": 3.899835390946502e-05,
"loss": 0.0,
"step": 20125
},
{
"epoch": 0.8955555555555555,
"grad_norm": 5.5843738522298736e-08,
"learning_rate": 3.897777777777778e-05,
"loss": 0.0,
"step": 20150
},
{
"epoch": 0.8966666666666666,
"grad_norm": 1.1890296036654036e-07,
"learning_rate": 3.895720164609054e-05,
"loss": 0.0,
"step": 20175
},
{
"epoch": 0.8977777777777778,
"grad_norm": 1.4851042351438082e-07,
"learning_rate": 3.8936625514403296e-05,
"loss": 0.0,
"step": 20200
},
{
"epoch": 0.8988888888888888,
"grad_norm": 7.470197260772693e-08,
"learning_rate": 3.8916049382716054e-05,
"loss": 0.0,
"step": 20225
},
{
"epoch": 0.9,
"grad_norm": 3.475415866205367e-08,
"learning_rate": 3.8895473251028805e-05,
"loss": 0.0,
"step": 20250
},
{
"epoch": 0.9011111111111111,
"grad_norm": 1.252883379265768e-07,
"learning_rate": 3.887489711934156e-05,
"loss": 0.0,
"step": 20275
},
{
"epoch": 0.9022222222222223,
"grad_norm": 2.4945748577920313e-08,
"learning_rate": 3.885432098765433e-05,
"loss": 0.0,
"step": 20300
},
{
"epoch": 0.9033333333333333,
"grad_norm": 5.7735789482649125e-08,
"learning_rate": 3.883374485596708e-05,
"loss": 0.0,
"step": 20325
},
{
"epoch": 0.9044444444444445,
"grad_norm": 3.910911416937779e-08,
"learning_rate": 3.881316872427984e-05,
"loss": 0.0,
"step": 20350
},
{
"epoch": 0.9055555555555556,
"grad_norm": 3.3207260941026107e-08,
"learning_rate": 3.8792592592592595e-05,
"loss": 0.0,
"step": 20375
},
{
"epoch": 0.9066666666666666,
"grad_norm": 1.6253990153813902e-08,
"learning_rate": 3.877201646090535e-05,
"loss": 0.0,
"step": 20400
},
{
"epoch": 0.9077777777777778,
"grad_norm": 2.1175987185984013e-08,
"learning_rate": 3.875144032921811e-05,
"loss": 0.0,
"step": 20425
},
{
"epoch": 0.9088888888888889,
"grad_norm": 5.787135748391847e-08,
"learning_rate": 3.873086419753086e-05,
"loss": 0.0,
"step": 20450
},
{
"epoch": 0.91,
"grad_norm": 8.148268193508557e-08,
"learning_rate": 3.8710288065843627e-05,
"loss": 0.0,
"step": 20475
},
{
"epoch": 0.9111111111111111,
"grad_norm": 9.167182568603494e-09,
"learning_rate": 3.868971193415638e-05,
"loss": 0.0,
"step": 20500
},
{
"epoch": 0.9122222222222223,
"grad_norm": 3.269274628792118e-08,
"learning_rate": 3.8669135802469136e-05,
"loss": 0.0,
"step": 20525
},
{
"epoch": 0.9133333333333333,
"grad_norm": 7.458714179620074e-08,
"learning_rate": 3.86485596707819e-05,
"loss": 0.0,
"step": 20550
},
{
"epoch": 0.9144444444444444,
"grad_norm": 9.583666127355173e-08,
"learning_rate": 3.862798353909465e-05,
"loss": 0.0,
"step": 20575
},
{
"epoch": 0.9155555555555556,
"grad_norm": 1.8491519426788727e-08,
"learning_rate": 3.860740740740741e-05,
"loss": 0.0,
"step": 20600
},
{
"epoch": 0.9166666666666666,
"grad_norm": 3.2534579474940983e-08,
"learning_rate": 3.858683127572017e-05,
"loss": 0.0,
"step": 20625
},
{
"epoch": 0.9177777777777778,
"grad_norm": 6.032392718680057e-08,
"learning_rate": 3.8566255144032925e-05,
"loss": 0.0,
"step": 20650
},
{
"epoch": 0.9188888888888889,
"grad_norm": 4.141419651659817e-08,
"learning_rate": 3.854567901234568e-05,
"loss": 0.0,
"step": 20675
},
{
"epoch": 0.92,
"grad_norm": 3.490159272701021e-08,
"learning_rate": 3.8525102880658434e-05,
"loss": 0.0,
"step": 20700
},
{
"epoch": 0.9211111111111111,
"grad_norm": 7.791673795054521e-08,
"learning_rate": 3.850452674897119e-05,
"loss": 0.0,
"step": 20725
},
{
"epoch": 0.9222222222222223,
"grad_norm": 4.0457379668623616e-08,
"learning_rate": 3.848395061728396e-05,
"loss": 0.0,
"step": 20750
},
{
"epoch": 0.9233333333333333,
"grad_norm": 2.980848634592803e-08,
"learning_rate": 3.846337448559671e-05,
"loss": 0.0,
"step": 20775
},
{
"epoch": 0.9244444444444444,
"grad_norm": 3.1338174721895484e-08,
"learning_rate": 3.8442798353909466e-05,
"loss": 0.0,
"step": 20800
},
{
"epoch": 0.9255555555555556,
"grad_norm": 9.640140063993385e-08,
"learning_rate": 3.8422222222222224e-05,
"loss": 0.0,
"step": 20825
},
{
"epoch": 0.9266666666666666,
"grad_norm": 6.023613252637006e-08,
"learning_rate": 3.840164609053498e-05,
"loss": 0.0,
"step": 20850
},
{
"epoch": 0.9277777777777778,
"grad_norm": 5.572548644749986e-08,
"learning_rate": 3.838106995884774e-05,
"loss": 0.0,
"step": 20875
},
{
"epoch": 0.9288888888888889,
"grad_norm": 2.7882661512990126e-08,
"learning_rate": 3.836049382716049e-05,
"loss": 0.0,
"step": 20900
},
{
"epoch": 0.93,
"grad_norm": 1.9790975969158353e-08,
"learning_rate": 3.8339917695473256e-05,
"loss": 0.0,
"step": 20925
},
{
"epoch": 0.9311111111111111,
"grad_norm": 4.5308805596278034e-08,
"learning_rate": 3.831934156378601e-05,
"loss": 0.0,
"step": 20950
},
{
"epoch": 0.9322222222222222,
"grad_norm": 3.3255190601266804e-08,
"learning_rate": 3.8298765432098765e-05,
"loss": 0.0,
"step": 20975
},
{
"epoch": 0.9333333333333333,
"grad_norm": 4.8820798070892124e-08,
"learning_rate": 3.827818930041153e-05,
"loss": 0.0,
"step": 21000
},
{
"epoch": 0.9344444444444444,
"grad_norm": 1.82097554812799e-08,
"learning_rate": 3.825761316872428e-05,
"loss": 0.0,
"step": 21025
},
{
"epoch": 0.9355555555555556,
"grad_norm": 2.295763046333832e-08,
"learning_rate": 3.823703703703704e-05,
"loss": 0.0,
"step": 21050
},
{
"epoch": 0.9366666666666666,
"grad_norm": 4.2483367934664784e-08,
"learning_rate": 3.8216460905349797e-05,
"loss": 0.0,
"step": 21075
},
{
"epoch": 0.9377777777777778,
"grad_norm": 6.7407439630073895e-09,
"learning_rate": 3.8195884773662554e-05,
"loss": 0.0,
"step": 21100
},
{
"epoch": 0.9388888888888889,
"grad_norm": 2.6552733345397428e-08,
"learning_rate": 3.817530864197531e-05,
"loss": 0.0,
"step": 21125
},
{
"epoch": 0.94,
"grad_norm": 7.107109212256546e-08,
"learning_rate": 3.8154732510288064e-05,
"loss": 0.0,
"step": 21150
},
{
"epoch": 0.9411111111111111,
"grad_norm": 5.6223212752115614e-09,
"learning_rate": 3.813415637860083e-05,
"loss": 0.0,
"step": 21175
},
{
"epoch": 0.9422222222222222,
"grad_norm": 3.006966409202505e-08,
"learning_rate": 3.811358024691358e-05,
"loss": 0.0,
"step": 21200
},
{
"epoch": 0.9433333333333334,
"grad_norm": 3.6611034204270254e-08,
"learning_rate": 3.809300411522634e-05,
"loss": 0.0,
"step": 21225
},
{
"epoch": 0.9444444444444444,
"grad_norm": 1.836755636475118e-08,
"learning_rate": 3.8072427983539095e-05,
"loss": 0.0,
"step": 21250
},
{
"epoch": 0.9455555555555556,
"grad_norm": 6.027551791021324e-08,
"learning_rate": 3.805185185185185e-05,
"loss": 0.0,
"step": 21275
},
{
"epoch": 0.9466666666666667,
"grad_norm": 1.4414903048987071e-08,
"learning_rate": 3.803127572016461e-05,
"loss": 0.0,
"step": 21300
},
{
"epoch": 0.9477777777777778,
"grad_norm": 5.0708489851558625e-08,
"learning_rate": 3.801069958847737e-05,
"loss": 0.0,
"step": 21325
},
{
"epoch": 0.9488888888888889,
"grad_norm": 2.1980559594680926e-08,
"learning_rate": 3.799012345679013e-05,
"loss": 0.0,
"step": 21350
},
{
"epoch": 0.95,
"grad_norm": 1.6549771331142438e-08,
"learning_rate": 3.7969547325102885e-05,
"loss": 0.0,
"step": 21375
},
{
"epoch": 0.9511111111111111,
"grad_norm": 1.5712142698021125e-08,
"learning_rate": 3.7948971193415636e-05,
"loss": 0.0,
"step": 21400
},
{
"epoch": 0.9522222222222222,
"grad_norm": 2.3586942177189485e-08,
"learning_rate": 3.7928395061728394e-05,
"loss": 0.0,
"step": 21425
},
{
"epoch": 0.9533333333333334,
"grad_norm": 2.5959911553741222e-08,
"learning_rate": 3.790781893004116e-05,
"loss": 0.0,
"step": 21450
},
{
"epoch": 0.9544444444444444,
"grad_norm": 6.923404072267658e-08,
"learning_rate": 3.788724279835391e-05,
"loss": 0.0,
"step": 21475
},
{
"epoch": 0.9555555555555556,
"grad_norm": 2.379858266010615e-08,
"learning_rate": 3.786666666666667e-05,
"loss": 0.0,
"step": 21500
},
{
"epoch": 0.9566666666666667,
"grad_norm": 1.5855077251103467e-08,
"learning_rate": 3.7846090534979426e-05,
"loss": 0.0,
"step": 21525
},
{
"epoch": 0.9577777777777777,
"grad_norm": 1.3608853066671145e-07,
"learning_rate": 3.7825514403292184e-05,
"loss": 0.0,
"step": 21550
},
{
"epoch": 0.9588888888888889,
"grad_norm": 1.2457680220734346e-08,
"learning_rate": 3.780493827160494e-05,
"loss": 0.0,
"step": 21575
},
{
"epoch": 0.96,
"grad_norm": 1.7862140211377664e-08,
"learning_rate": 3.778436213991769e-05,
"loss": 0.0,
"step": 21600
},
{
"epoch": 0.9611111111111111,
"grad_norm": 7.448067496085287e-09,
"learning_rate": 3.776378600823046e-05,
"loss": 0.0,
"step": 21625
},
{
"epoch": 0.9622222222222222,
"grad_norm": 5.747939901823429e-09,
"learning_rate": 3.774320987654321e-05,
"loss": 0.0,
"step": 21650
},
{
"epoch": 0.9633333333333334,
"grad_norm": 2.2290461032525855e-08,
"learning_rate": 3.7722633744855966e-05,
"loss": 0.0,
"step": 21675
},
{
"epoch": 0.9644444444444444,
"grad_norm": 2.0286242374822905e-07,
"learning_rate": 3.770205761316873e-05,
"loss": 0.0,
"step": 21700
},
{
"epoch": 0.9655555555555555,
"grad_norm": 7.90263943173386e-09,
"learning_rate": 3.768148148148148e-05,
"loss": 0.0,
"step": 21725
},
{
"epoch": 0.9666666666666667,
"grad_norm": 5.981634387808299e-08,
"learning_rate": 3.766090534979424e-05,
"loss": 0.0,
"step": 21750
},
{
"epoch": 0.9677777777777777,
"grad_norm": 6.4765219853768485e-09,
"learning_rate": 3.7640329218107e-05,
"loss": 0.0,
"step": 21775
},
{
"epoch": 0.9688888888888889,
"grad_norm": 1.433678846751718e-07,
"learning_rate": 3.7619753086419756e-05,
"loss": 0.0,
"step": 21800
},
{
"epoch": 0.97,
"grad_norm": 1.5478752501962845e-08,
"learning_rate": 3.7599176954732514e-05,
"loss": 0.0,
"step": 21825
},
{
"epoch": 0.9711111111111111,
"grad_norm": 3.469119036481061e-08,
"learning_rate": 3.7578600823045265e-05,
"loss": 0.0,
"step": 21850
},
{
"epoch": 0.9722222222222222,
"grad_norm": 3.6243910983557726e-08,
"learning_rate": 3.755802469135803e-05,
"loss": 0.0,
"step": 21875
},
{
"epoch": 0.9733333333333334,
"grad_norm": 2.266932419558998e-08,
"learning_rate": 3.753744855967079e-05,
"loss": 0.0,
"step": 21900
},
{
"epoch": 0.9744444444444444,
"grad_norm": 1.2376703217853446e-08,
"learning_rate": 3.751687242798354e-05,
"loss": 0.0,
"step": 21925
},
{
"epoch": 0.9755555555555555,
"grad_norm": 5.250441414972329e-09,
"learning_rate": 3.74962962962963e-05,
"loss": 0.0,
"step": 21950
},
{
"epoch": 0.9766666666666667,
"grad_norm": 9.76529506147017e-08,
"learning_rate": 3.7475720164609055e-05,
"loss": 0.0,
"step": 21975
},
{
"epoch": 0.9777777777777777,
"grad_norm": 3.0893893665506766e-08,
"learning_rate": 3.745514403292181e-05,
"loss": 0.0,
"step": 22000
},
{
"epoch": 0.9788888888888889,
"grad_norm": 9.534746681083561e-08,
"learning_rate": 3.7435390946502056e-05,
"loss": 0.0,
"step": 22025
},
{
"epoch": 0.98,
"grad_norm": 5.265806279908247e-08,
"learning_rate": 3.741481481481482e-05,
"loss": 0.0,
"step": 22050
},
{
"epoch": 0.9811111111111112,
"grad_norm": 6.565467458585772e-08,
"learning_rate": 3.739423868312757e-05,
"loss": 0.0,
"step": 22075
},
{
"epoch": 0.9822222222222222,
"grad_norm": 3.60783580788393e-08,
"learning_rate": 3.737366255144033e-05,
"loss": 0.0,
"step": 22100
},
{
"epoch": 0.9833333333333333,
"grad_norm": 8.53501980202509e-09,
"learning_rate": 3.735308641975309e-05,
"loss": 0.0,
"step": 22125
},
{
"epoch": 0.9844444444444445,
"grad_norm": 1.4012258908735475e-08,
"learning_rate": 3.7332510288065845e-05,
"loss": 0.0,
"step": 22150
},
{
"epoch": 0.9855555555555555,
"grad_norm": 6.121535278680312e-08,
"learning_rate": 3.73119341563786e-05,
"loss": 0.0,
"step": 22175
},
{
"epoch": 0.9866666666666667,
"grad_norm": 2.3274740357237533e-08,
"learning_rate": 3.729135802469136e-05,
"loss": 0.0,
"step": 22200
},
{
"epoch": 0.9877777777777778,
"grad_norm": 1.7912750394089016e-08,
"learning_rate": 3.727078189300412e-05,
"loss": 0.0,
"step": 22225
},
{
"epoch": 0.9888888888888889,
"grad_norm": 4.257301000620828e-08,
"learning_rate": 3.725020576131688e-05,
"loss": 0.0,
"step": 22250
},
{
"epoch": 0.99,
"grad_norm": 1.084113065985548e-08,
"learning_rate": 3.722962962962963e-05,
"loss": 0.0,
"step": 22275
},
{
"epoch": 0.9911111111111112,
"grad_norm": 4.771711559214964e-08,
"learning_rate": 3.7209053497942386e-05,
"loss": 0.0,
"step": 22300
},
{
"epoch": 0.9922222222222222,
"grad_norm": 2.7190802498466837e-08,
"learning_rate": 3.718847736625515e-05,
"loss": 0.0,
"step": 22325
},
{
"epoch": 0.9933333333333333,
"grad_norm": 1.0970071073757026e-08,
"learning_rate": 3.71679012345679e-05,
"loss": 0.0,
"step": 22350
},
{
"epoch": 0.9944444444444445,
"grad_norm": 1.2168166563242266e-07,
"learning_rate": 3.714732510288066e-05,
"loss": 0.0,
"step": 22375
},
{
"epoch": 0.9955555555555555,
"grad_norm": 1.0501924663230966e-07,
"learning_rate": 3.712674897119342e-05,
"loss": 0.0,
"step": 22400
},
{
"epoch": 0.9966666666666667,
"grad_norm": 1.0621900692342479e-08,
"learning_rate": 3.7106172839506176e-05,
"loss": 0.0,
"step": 22425
},
{
"epoch": 0.9977777777777778,
"grad_norm": 1.124675463870517e-08,
"learning_rate": 3.7085596707818934e-05,
"loss": 0.0,
"step": 22450
},
{
"epoch": 0.9988888888888889,
"grad_norm": 2.3832901874243362e-08,
"learning_rate": 3.7065020576131685e-05,
"loss": 0.0,
"step": 22475
},
{
"epoch": 1.0,
"grad_norm": 3.799878456334227e-08,
"learning_rate": 3.704444444444445e-05,
"loss": 0.0,
"step": 22500
},
{
"epoch": 1.0,
"eval_accuracy": 1.0,
"eval_f1_macro": 1.0,
"eval_f1_micro": 1.0,
"eval_f1_weighted": 1.0,
"eval_loss": 0.0,
"eval_precision_macro": 1.0,
"eval_precision_micro": 1.0,
"eval_precision_weighted": 1.0,
"eval_recall_macro": 1.0,
"eval_recall_micro": 1.0,
"eval_recall_weighted": 1.0,
"eval_runtime": 22.5265,
"eval_samples_per_second": 887.844,
"eval_steps_per_second": 55.49,
"step": 22500
}
],
"logging_steps": 25,
"max_steps": 67500,
"num_input_tokens_seen": 0,
"num_train_epochs": 3,
"save_steps": 500,
"stateful_callbacks": {
"EarlyStoppingCallback": {
"args": {
"early_stopping_patience": 5,
"early_stopping_threshold": 0.01
},
"attributes": {
"early_stopping_patience_counter": 0
}
},
"TrainerControl": {
"args": {
"should_epoch_stop": false,
"should_evaluate": false,
"should_log": false,
"should_save": true,
"should_training_stop": false
},
"attributes": {}
}
},
"total_flos": 5961139246080000.0,
"train_batch_size": 8,
"trial_name": null,
"trial_params": null
}