Upload 3 files

b16aec2 over 3 years ago

39.2 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 9.515237104206927,
	"global_step": 32000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.03,
	"learning_rate": 5e-05,
	"loss": 3.5407,
	"step": 100
	},
	{
	"epoch": 0.06,
	"learning_rate": 0.0001,
	"loss": 3.2075,
	"step": 200
	},
	{
	"epoch": 0.09,
	"learning_rate": 0.00015,
	"loss": 3.0286,
	"step": 300
	},
	{
	"epoch": 0.12,
	"learning_rate": 0.0002,
	"loss": 2.8212,
	"step": 400
	},
	{
	"epoch": 0.15,
	"learning_rate": 0.00025,
	"loss": 2.3586,
	"step": 500
	},
	{
	"epoch": 0.18,
	"learning_rate": 0.0003,
	"loss": 1.676,
	"step": 600
	},
	{
	"epoch": 0.21,
	"learning_rate": 0.00035,
	"loss": 1.3696,
	"step": 700
	},
	{
	"epoch": 0.24,
	"learning_rate": 0.0004,
	"loss": 1.2677,
	"step": 800
	},
	{
	"epoch": 0.27,
	"learning_rate": 0.00045000000000000004,
	"loss": 1.2271,
	"step": 900
	},
	{
	"epoch": 0.3,
	"learning_rate": 0.0005,
	"loss": 1.2006,
	"step": 1000
	},
	{
	"epoch": 0.33,
	"learning_rate": 0.000498467667790377,
	"loss": 1.1846,
	"step": 1100
	},
	{
	"epoch": 0.36,
	"learning_rate": 0.0004969353355807539,
	"loss": 1.1663,
	"step": 1200
	},
	{
	"epoch": 0.39,
	"learning_rate": 0.0004954030033711309,
	"loss": 1.1429,
	"step": 1300
	},
	{
	"epoch": 0.42,
	"learning_rate": 0.0004938706711615078,
	"loss": 1.1384,
	"step": 1400
	},
	{
	"epoch": 0.45,
	"learning_rate": 0.0004923383389518848,
	"loss": 1.1353,
	"step": 1500
	},
	{
	"epoch": 0.48,
	"learning_rate": 0.0004908060067422617,
	"loss": 1.1384,
	"step": 1600
	},
	{
	"epoch": 0.51,
	"learning_rate": 0.0004892736745326388,
	"loss": 1.1461,
	"step": 1700
	},
	{
	"epoch": 0.54,
	"learning_rate": 0.00048774134232301567,
	"loss": 1.1333,
	"step": 1800
	},
	{
	"epoch": 0.56,
	"learning_rate": 0.0004862090101133926,
	"loss": 1.1205,
	"step": 1900
	},
	{
	"epoch": 0.59,
	"learning_rate": 0.00048467667790376954,
	"loss": 1.1141,
	"step": 2000
	},
	{
	"epoch": 0.62,
	"learning_rate": 0.0004831443456941465,
	"loss": 1.1078,
	"step": 2100
	},
	{
	"epoch": 0.65,
	"learning_rate": 0.0004816120134845234,
	"loss": 1.1006,
	"step": 2200
	},
	{
	"epoch": 0.68,
	"learning_rate": 0.00048007968127490044,
	"loss": 1.0978,
	"step": 2300
	},
	{
	"epoch": 0.71,
	"learning_rate": 0.00047854734906527735,
	"loss": 1.0894,
	"step": 2400
	},
	{
	"epoch": 0.74,
	"learning_rate": 0.0004770150168556543,
	"loss": 1.0861,
	"step": 2500
	},
	{
	"epoch": 0.77,
	"learning_rate": 0.0004754826846460313,
	"loss": 1.083,
	"step": 2600
	},
	{
	"epoch": 0.8,
	"learning_rate": 0.00047395035243640824,
	"loss": 1.0758,
	"step": 2700
	},
	{
	"epoch": 0.83,
	"learning_rate": 0.00047241802022678515,
	"loss": 1.076,
	"step": 2800
	},
	{
	"epoch": 0.86,
	"learning_rate": 0.00047088568801716217,
	"loss": 1.0794,
	"step": 2900
	},
	{
	"epoch": 0.89,
	"learning_rate": 0.0004693533558075391,
	"loss": 1.0706,
	"step": 3000
	},
	{
	"epoch": 0.92,
	"learning_rate": 0.00046782102359791604,
	"loss": 1.0725,
	"step": 3100
	},
	{
	"epoch": 0.95,
	"learning_rate": 0.000466288691388293,
	"loss": 1.069,
	"step": 3200
	},
	{
	"epoch": 0.98,
	"learning_rate": 0.0004647563591786699,
	"loss": 1.0674,
	"step": 3300
	},
	{
	"epoch": 1.01,
	"learning_rate": 0.00046322402696904693,
	"loss": 1.066,
	"step": 3400
	},
	{
	"epoch": 1.04,
	"learning_rate": 0.00046169169475942384,
	"loss": 1.0569,
	"step": 3500
	},
	{
	"epoch": 1.07,
	"learning_rate": 0.0004601593625498008,
	"loss": 1.0579,
	"step": 3600
	},
	{
	"epoch": 1.1,
	"learning_rate": 0.00045862703034017777,
	"loss": 1.0615,
	"step": 3700
	},
	{
	"epoch": 1.13,
	"learning_rate": 0.00045709469813055473,
	"loss": 1.055,
	"step": 3800
	},
	{
	"epoch": 1.16,
	"learning_rate": 0.00045556236592093164,
	"loss": 1.0583,
	"step": 3900
	},
	{
	"epoch": 1.19,
	"learning_rate": 0.0004540300337113086,
	"loss": 1.0537,
	"step": 4000
	},
	{
	"epoch": 1.22,
	"learning_rate": 0.00045249770150168557,
	"loss": 1.0531,
	"step": 4100
	},
	{
	"epoch": 1.25,
	"learning_rate": 0.00045096536929206254,
	"loss": 1.0507,
	"step": 4200
	},
	{
	"epoch": 1.28,
	"learning_rate": 0.0004494330370824395,
	"loss": 1.0449,
	"step": 4300
	},
	{
	"epoch": 1.31,
	"learning_rate": 0.0004479007048728164,
	"loss": 1.0463,
	"step": 4400
	},
	{
	"epoch": 1.34,
	"learning_rate": 0.00044636837266319343,
	"loss": 1.0495,
	"step": 4500
	},
	{
	"epoch": 1.37,
	"learning_rate": 0.00044483604045357034,
	"loss": 1.0489,
	"step": 4600
	},
	{
	"epoch": 1.4,
	"learning_rate": 0.0004433037082439473,
	"loss": 1.043,
	"step": 4700
	},
	{
	"epoch": 1.43,
	"learning_rate": 0.00044177137603432427,
	"loss": 1.0404,
	"step": 4800
	},
	{
	"epoch": 1.46,
	"learning_rate": 0.0004402390438247012,
	"loss": 1.0448,
	"step": 4900
	},
	{
	"epoch": 1.49,
	"learning_rate": 0.00043870671161507814,
	"loss": 1.0378,
	"step": 5000
	},
	{
	"epoch": 1.52,
	"learning_rate": 0.0004371743794054551,
	"loss": 1.0359,
	"step": 5100
	},
	{
	"epoch": 1.55,
	"learning_rate": 0.00043564204719583207,
	"loss": 1.0419,
	"step": 5200
	},
	{
	"epoch": 1.58,
	"learning_rate": 0.000434109714986209,
	"loss": 1.0332,
	"step": 5300
	},
	{
	"epoch": 1.61,
	"learning_rate": 0.000432577382776586,
	"loss": 1.0382,
	"step": 5400
	},
	{
	"epoch": 1.64,
	"learning_rate": 0.0004310450505669629,
	"loss": 1.0312,
	"step": 5500
	},
	{
	"epoch": 1.67,
	"learning_rate": 0.0004295127183573399,
	"loss": 1.0377,
	"step": 5600
	},
	{
	"epoch": 1.69,
	"learning_rate": 0.00042798038614771683,
	"loss": 1.0296,
	"step": 5700
	},
	{
	"epoch": 1.72,
	"learning_rate": 0.00042644805393809374,
	"loss": 1.0316,
	"step": 5800
	},
	{
	"epoch": 1.75,
	"learning_rate": 0.00042491572172847076,
	"loss": 1.0322,
	"step": 5900
	},
	{
	"epoch": 1.78,
	"learning_rate": 0.0004233833895188477,
	"loss": 1.0325,
	"step": 6000
	},
	{
	"epoch": 1.81,
	"learning_rate": 0.00042185105730922464,
	"loss": 1.0307,
	"step": 6100
	},
	{
	"epoch": 1.84,
	"learning_rate": 0.0004203187250996016,
	"loss": 1.0297,
	"step": 6200
	},
	{
	"epoch": 1.87,
	"learning_rate": 0.00041878639288997857,
	"loss": 1.031,
	"step": 6300
	},
	{
	"epoch": 1.9,
	"learning_rate": 0.0004172540606803555,
	"loss": 1.0304,
	"step": 6400
	},
	{
	"epoch": 1.93,
	"learning_rate": 0.0004157217284707325,
	"loss": 1.0278,
	"step": 6500
	},
	{
	"epoch": 1.96,
	"learning_rate": 0.0004141893962611094,
	"loss": 1.0211,
	"step": 6600
	},
	{
	"epoch": 1.99,
	"learning_rate": 0.0004126570640514864,
	"loss": 1.0248,
	"step": 6700
	},
	{
	"epoch": 2.02,
	"learning_rate": 0.00041112473184186333,
	"loss": 1.0319,
	"step": 6800
	},
	{
	"epoch": 2.05,
	"learning_rate": 0.00040959239963224024,
	"loss": 1.0301,
	"step": 6900
	},
	{
	"epoch": 2.08,
	"learning_rate": 0.00040806006742261726,
	"loss": 1.0295,
	"step": 7000
	},
	{
	"epoch": 2.11,
	"learning_rate": 0.00040652773521299417,
	"loss": 1.0247,
	"step": 7100
	},
	{
	"epoch": 2.14,
	"learning_rate": 0.00040499540300337113,
	"loss": 1.0205,
	"step": 7200
	},
	{
	"epoch": 2.17,
	"learning_rate": 0.0004034630707937481,
	"loss": 1.0221,
	"step": 7300
	},
	{
	"epoch": 2.2,
	"learning_rate": 0.00040193073858412506,
	"loss": 1.0251,
	"step": 7400
	},
	{
	"epoch": 2.23,
	"learning_rate": 0.00040039840637450197,
	"loss": 1.0164,
	"step": 7500
	},
	{
	"epoch": 2.26,
	"learning_rate": 0.000398866074164879,
	"loss": 1.019,
	"step": 7600
	},
	{
	"epoch": 2.29,
	"learning_rate": 0.0003973337419552559,
	"loss": 1.0167,
	"step": 7700
	},
	{
	"epoch": 2.32,
	"learning_rate": 0.0003958014097456328,
	"loss": 1.0202,
	"step": 7800
	},
	{
	"epoch": 2.35,
	"learning_rate": 0.00039426907753600983,
	"loss": 1.0183,
	"step": 7900
	},
	{
	"epoch": 2.38,
	"learning_rate": 0.00039273674532638674,
	"loss": 1.0234,
	"step": 8000
	},
	{
	"epoch": 2.41,
	"learning_rate": 0.00039120441311676376,
	"loss": 1.0103,
	"step": 8100
	},
	{
	"epoch": 2.44,
	"learning_rate": 0.00038967208090714067,
	"loss": 1.0196,
	"step": 8200
	},
	{
	"epoch": 2.47,
	"learning_rate": 0.00038813974869751763,
	"loss": 1.0147,
	"step": 8300
	},
	{
	"epoch": 2.5,
	"learning_rate": 0.0003866074164878946,
	"loss": 1.0138,
	"step": 8400
	},
	{
	"epoch": 2.53,
	"learning_rate": 0.00038507508427827156,
	"loss": 1.0151,
	"step": 8500
	},
	{
	"epoch": 2.56,
	"learning_rate": 0.00038354275206864847,
	"loss": 1.0118,
	"step": 8600
	},
	{
	"epoch": 2.59,
	"learning_rate": 0.0003820104198590255,
	"loss": 1.014,
	"step": 8700
	},
	{
	"epoch": 2.62,
	"learning_rate": 0.0003804780876494024,
	"loss": 1.0096,
	"step": 8800
	},
	{
	"epoch": 2.65,
	"learning_rate": 0.0003789457554397793,
	"loss": 1.0092,
	"step": 8900
	},
	{
	"epoch": 2.68,
	"learning_rate": 0.0003774134232301563,
	"loss": 1.0096,
	"step": 9000
	},
	{
	"epoch": 2.71,
	"learning_rate": 0.00037588109102053323,
	"loss": 1.0148,
	"step": 9100
	},
	{
	"epoch": 2.74,
	"learning_rate": 0.00037434875881091025,
	"loss": 1.0102,
	"step": 9200
	},
	{
	"epoch": 2.77,
	"learning_rate": 0.00037281642660128716,
	"loss": 1.0095,
	"step": 9300
	},
	{
	"epoch": 2.8,
	"learning_rate": 0.0003712840943916641,
	"loss": 1.0099,
	"step": 9400
	},
	{
	"epoch": 2.82,
	"learning_rate": 0.0003697517621820411,
	"loss": 1.0083,
	"step": 9500
	},
	{
	"epoch": 2.85,
	"learning_rate": 0.00036821942997241805,
	"loss": 1.0093,
	"step": 9600
	},
	{
	"epoch": 2.88,
	"learning_rate": 0.00036668709776279496,
	"loss": 1.0023,
	"step": 9700
	},
	{
	"epoch": 2.91,
	"learning_rate": 0.00036515476555317193,
	"loss": 1.0058,
	"step": 9800
	},
	{
	"epoch": 2.94,
	"learning_rate": 0.0003636224333435489,
	"loss": 1.0088,
	"step": 9900
	},
	{
	"epoch": 2.97,
	"learning_rate": 0.0003620901011339258,
	"loss": 1.0046,
	"step": 10000
	},
	{
	"epoch": 3.0,
	"learning_rate": 0.0003605577689243028,
	"loss": 1.0142,
	"step": 10100
	},
	{
	"epoch": 3.03,
	"learning_rate": 0.00035902543671467973,
	"loss": 1.0031,
	"step": 10200
	},
	{
	"epoch": 3.06,
	"learning_rate": 0.0003574931045050567,
	"loss": 1.006,
	"step": 10300
	},
	{
	"epoch": 3.09,
	"learning_rate": 0.00035596077229543366,
	"loss": 1.0019,
	"step": 10400
	},
	{
	"epoch": 3.12,
	"learning_rate": 0.0003544284400858106,
	"loss": 1.0023,
	"step": 10500
	},
	{
	"epoch": 3.15,
	"learning_rate": 0.0003528961078761876,
	"loss": 0.9993,
	"step": 10600
	},
	{
	"epoch": 3.18,
	"learning_rate": 0.0003513637756665645,
	"loss": 0.9987,
	"step": 10700
	},
	{
	"epoch": 3.21,
	"learning_rate": 0.00034983144345694146,
	"loss": 0.9987,
	"step": 10800
	},
	{
	"epoch": 3.24,
	"learning_rate": 0.0003482991112473184,
	"loss": 1.005,
	"step": 10900
	},
	{
	"epoch": 3.27,
	"learning_rate": 0.0003467667790376954,
	"loss": 0.9966,
	"step": 11000
	},
	{
	"epoch": 3.3,
	"learning_rate": 0.0003452344468280723,
	"loss": 0.9986,
	"step": 11100
	},
	{
	"epoch": 3.33,
	"learning_rate": 0.0003437021146184493,
	"loss": 0.9973,
	"step": 11200
	},
	{
	"epoch": 3.36,
	"learning_rate": 0.00034216978240882623,
	"loss": 1.0011,
	"step": 11300
	},
	{
	"epoch": 3.39,
	"learning_rate": 0.0003406374501992032,
	"loss": 0.9944,
	"step": 11400
	},
	{
	"epoch": 3.42,
	"learning_rate": 0.00033910511798958016,
	"loss": 0.996,
	"step": 11500
	},
	{
	"epoch": 3.45,
	"learning_rate": 0.00033757278577995707,
	"loss": 0.9976,
	"step": 11600
	},
	{
	"epoch": 3.48,
	"learning_rate": 0.0003360404535703341,
	"loss": 0.9931,
	"step": 11700
	},
	{
	"epoch": 3.51,
	"learning_rate": 0.000334508121360711,
	"loss": 0.9921,
	"step": 11800
	},
	{
	"epoch": 3.54,
	"learning_rate": 0.00033297578915108796,
	"loss": 0.9911,
	"step": 11900
	},
	{
	"epoch": 3.57,
	"learning_rate": 0.0003314434569414649,
	"loss": 0.9916,
	"step": 12000
	},
	{
	"epoch": 3.6,
	"learning_rate": 0.0003299111247318419,
	"loss": 0.9921,
	"step": 12100
	},
	{
	"epoch": 3.63,
	"learning_rate": 0.0003283787925222188,
	"loss": 0.991,
	"step": 12200
	},
	{
	"epoch": 3.66,
	"learning_rate": 0.0003268464603125958,
	"loss": 0.9971,
	"step": 12300
	},
	{
	"epoch": 3.69,
	"learning_rate": 0.0003253141281029727,
	"loss": 0.995,
	"step": 12400
	},
	{
	"epoch": 3.72,
	"learning_rate": 0.0003237817958933497,
	"loss": 0.9891,
	"step": 12500
	},
	{
	"epoch": 3.75,
	"learning_rate": 0.00032224946368372665,
	"loss": 0.9907,
	"step": 12600
	},
	{
	"epoch": 3.78,
	"learning_rate": 0.00032071713147410356,
	"loss": 0.9912,
	"step": 12700
	},
	{
	"epoch": 3.81,
	"learning_rate": 0.0003191847992644805,
	"loss": 0.9873,
	"step": 12800
	},
	{
	"epoch": 3.84,
	"learning_rate": 0.0003176524670548575,
	"loss": 0.9868,
	"step": 12900
	},
	{
	"epoch": 3.87,
	"learning_rate": 0.00031612013484523445,
	"loss": 0.9845,
	"step": 13000
	},
	{
	"epoch": 3.9,
	"learning_rate": 0.0003145878026356114,
	"loss": 0.9836,
	"step": 13100
	},
	{
	"epoch": 3.92,
	"learning_rate": 0.0003130554704259884,
	"loss": 0.986,
	"step": 13200
	},
	{
	"epoch": 3.95,
	"learning_rate": 0.0003115231382163653,
	"loss": 0.9902,
	"step": 13300
	},
	{
	"epoch": 3.98,
	"learning_rate": 0.0003099908060067423,
	"loss": 0.983,
	"step": 13400
	},
	{
	"epoch": 4.01,
	"learning_rate": 0.0003084584737971192,
	"loss": 0.9872,
	"step": 13500
	},
	{
	"epoch": 4.04,
	"learning_rate": 0.00030692614158749613,
	"loss": 0.9844,
	"step": 13600
	},
	{
	"epoch": 4.07,
	"learning_rate": 0.00030539380937787315,
	"loss": 0.9867,
	"step": 13700
	},
	{
	"epoch": 4.1,
	"learning_rate": 0.00030386147716825006,
	"loss": 0.9821,
	"step": 13800
	},
	{
	"epoch": 4.13,
	"learning_rate": 0.000302329144958627,
	"loss": 0.9809,
	"step": 13900
	},
	{
	"epoch": 4.16,
	"learning_rate": 0.000300796812749004,
	"loss": 0.984,
	"step": 14000
	},
	{
	"epoch": 4.19,
	"learning_rate": 0.00029926448053938095,
	"loss": 0.9767,
	"step": 14100
	},
	{
	"epoch": 4.22,
	"learning_rate": 0.0002977321483297579,
	"loss": 0.9819,
	"step": 14200
	},
	{
	"epoch": 4.25,
	"learning_rate": 0.0002961998161201349,
	"loss": 0.9811,
	"step": 14300
	},
	{
	"epoch": 4.28,
	"learning_rate": 0.0002946674839105118,
	"loss": 0.9791,
	"step": 14400
	},
	{
	"epoch": 4.31,
	"learning_rate": 0.00029313515170088875,
	"loss": 0.9783,
	"step": 14500
	},
	{
	"epoch": 4.34,
	"learning_rate": 0.0002916028194912657,
	"loss": 0.9878,
	"step": 14600
	},
	{
	"epoch": 4.37,
	"learning_rate": 0.00029007048728164263,
	"loss": 0.975,
	"step": 14700
	},
	{
	"epoch": 4.4,
	"learning_rate": 0.00028853815507201965,
	"loss": 0.9775,
	"step": 14800
	},
	{
	"epoch": 4.43,
	"learning_rate": 0.00028700582286239656,
	"loss": 0.9775,
	"step": 14900
	},
	{
	"epoch": 4.46,
	"learning_rate": 0.0002854734906527735,
	"loss": 0.9786,
	"step": 15000
	},
	{
	"epoch": 4.49,
	"learning_rate": 0.0002839411584431505,
	"loss": 0.9753,
	"step": 15100
	},
	{
	"epoch": 4.52,
	"learning_rate": 0.00028240882623352745,
	"loss": 0.9841,
	"step": 15200
	},
	{
	"epoch": 4.55,
	"learning_rate": 0.00028087649402390436,
	"loss": 0.9716,
	"step": 15300
	},
	{
	"epoch": 4.58,
	"learning_rate": 0.0002793441618142814,
	"loss": 0.9774,
	"step": 15400
	},
	{
	"epoch": 4.61,
	"learning_rate": 0.0002778118296046583,
	"loss": 0.9723,
	"step": 15500
	},
	{
	"epoch": 4.64,
	"learning_rate": 0.00027627949739503525,
	"loss": 0.9702,
	"step": 15600
	},
	{
	"epoch": 4.67,
	"learning_rate": 0.0002747471651854122,
	"loss": 0.9766,
	"step": 15700
	},
	{
	"epoch": 4.7,
	"learning_rate": 0.0002732148329757891,
	"loss": 0.9843,
	"step": 15800
	},
	{
	"epoch": 4.73,
	"learning_rate": 0.00027168250076616614,
	"loss": 0.9701,
	"step": 15900
	},
	{
	"epoch": 4.76,
	"learning_rate": 0.00027015016855654305,
	"loss": 0.9715,
	"step": 16000
	},
	{
	"epoch": 4.79,
	"learning_rate": 0.00026861783634692,
	"loss": 0.9695,
	"step": 16100
	},
	{
	"epoch": 4.82,
	"learning_rate": 0.000267085504137297,
	"loss": 0.9699,
	"step": 16200
	},
	{
	"epoch": 4.85,
	"learning_rate": 0.00026555317192767394,
	"loss": 0.9665,
	"step": 16300
	},
	{
	"epoch": 4.88,
	"learning_rate": 0.00026402083971805085,
	"loss": 0.9681,
	"step": 16400
	},
	{
	"epoch": 4.91,
	"learning_rate": 0.0002624885075084278,
	"loss": 0.9697,
	"step": 16500
	},
	{
	"epoch": 4.94,
	"learning_rate": 0.0002609561752988048,
	"loss": 0.9662,
	"step": 16600
	},
	{
	"epoch": 4.97,
	"learning_rate": 0.00025942384308918175,
	"loss": 0.965,
	"step": 16700
	},
	{
	"epoch": 5.0,
	"learning_rate": 0.0002578915108795587,
	"loss": 0.9655,
	"step": 16800
	},
	{
	"epoch": 5.03,
	"learning_rate": 0.0002563591786699356,
	"loss": 0.9689,
	"step": 16900
	},
	{
	"epoch": 5.06,
	"learning_rate": 0.00025482684646031264,
	"loss": 0.9641,
	"step": 17000
	},
	{
	"epoch": 5.08,
	"learning_rate": 0.00025329451425068955,
	"loss": 0.9612,
	"step": 17100
	},
	{
	"epoch": 5.11,
	"learning_rate": 0.0002517621820410665,
	"loss": 0.9667,
	"step": 17200
	},
	{
	"epoch": 5.14,
	"learning_rate": 0.0002502298498314435,
	"loss": 0.9623,
	"step": 17300
	},
	{
	"epoch": 5.17,
	"learning_rate": 0.0002486975176218204,
	"loss": 0.9611,
	"step": 17400
	},
	{
	"epoch": 5.2,
	"learning_rate": 0.00024716518541219735,
	"loss": 0.956,
	"step": 17500
	},
	{
	"epoch": 5.23,
	"learning_rate": 0.0002456328532025743,
	"loss": 0.9623,
	"step": 17600
	},
	{
	"epoch": 5.26,
	"learning_rate": 0.00024410052099295128,
	"loss": 0.9577,
	"step": 17700
	},
	{
	"epoch": 5.29,
	"learning_rate": 0.00024256818878332824,
	"loss": 0.9584,
	"step": 17800
	},
	{
	"epoch": 5.32,
	"learning_rate": 0.00024103585657370518,
	"loss": 0.9595,
	"step": 17900
	},
	{
	"epoch": 5.35,
	"learning_rate": 0.00023950352436408212,
	"loss": 0.954,
	"step": 18000
	},
	{
	"epoch": 5.38,
	"learning_rate": 0.00023797119215445908,
	"loss": 0.958,
	"step": 18100
	},
	{
	"epoch": 5.41,
	"learning_rate": 0.00023643885994483605,
	"loss": 0.9575,
	"step": 18200
	},
	{
	"epoch": 5.44,
	"learning_rate": 0.000234906527735213,
	"loss": 0.9499,
	"step": 18300
	},
	{
	"epoch": 5.47,
	"learning_rate": 0.00023337419552558995,
	"loss": 0.9583,
	"step": 18400
	},
	{
	"epoch": 5.5,
	"learning_rate": 0.0002318418633159669,
	"loss": 0.9547,
	"step": 18500
	},
	{
	"epoch": 5.53,
	"learning_rate": 0.00023030953110634387,
	"loss": 0.9531,
	"step": 18600
	},
	{
	"epoch": 5.56,
	"learning_rate": 0.0002287771988967208,
	"loss": 0.9566,
	"step": 18700
	},
	{
	"epoch": 5.59,
	"learning_rate": 0.00022724486668709778,
	"loss": 0.9519,
	"step": 18800
	},
	{
	"epoch": 5.62,
	"learning_rate": 0.0002257125344774747,
	"loss": 0.9473,
	"step": 18900
	},
	{
	"epoch": 5.65,
	"learning_rate": 0.00022418020226785168,
	"loss": 0.9496,
	"step": 19000
	},
	{
	"epoch": 5.68,
	"learning_rate": 0.00022264787005822861,
	"loss": 0.9469,
	"step": 19100
	},
	{
	"epoch": 5.71,
	"learning_rate": 0.00022111553784860558,
	"loss": 0.9509,
	"step": 19200
	},
	{
	"epoch": 5.74,
	"learning_rate": 0.00021958320563898254,
	"loss": 0.9466,
	"step": 19300
	},
	{
	"epoch": 5.77,
	"learning_rate": 0.0002180508734293595,
	"loss": 0.9499,
	"step": 19400
	},
	{
	"epoch": 5.8,
	"learning_rate": 0.00021651854121973644,
	"loss": 0.9498,
	"step": 19500
	},
	{
	"epoch": 5.83,
	"learning_rate": 0.0002149862090101134,
	"loss": 0.9483,
	"step": 19600
	},
	{
	"epoch": 5.86,
	"learning_rate": 0.00021345387680049037,
	"loss": 0.9522,
	"step": 19700
	},
	{
	"epoch": 5.89,
	"learning_rate": 0.00021192154459086728,
	"loss": 0.9441,
	"step": 19800
	},
	{
	"epoch": 5.92,
	"learning_rate": 0.00021038921238124425,
	"loss": 0.9492,
	"step": 19900
	},
	{
	"epoch": 5.95,
	"learning_rate": 0.0002088568801716212,
	"loss": 0.9421,
	"step": 20000
	},
	{
	"epoch": 5.98,
	"learning_rate": 0.00020732454796199817,
	"loss": 0.9432,
	"step": 20100
	},
	{
	"epoch": 6.01,
	"learning_rate": 0.0002057922157523751,
	"loss": 0.9542,
	"step": 20200
	},
	{
	"epoch": 6.04,
	"learning_rate": 0.00020425988354275207,
	"loss": 0.9426,
	"step": 20300
	},
	{
	"epoch": 6.07,
	"learning_rate": 0.00020272755133312904,
	"loss": 0.9484,
	"step": 20400
	},
	{
	"epoch": 6.1,
	"learning_rate": 0.00020119521912350598,
	"loss": 0.9473,
	"step": 20500
	},
	{
	"epoch": 6.13,
	"learning_rate": 0.00019966288691388294,
	"loss": 0.9413,
	"step": 20600
	},
	{
	"epoch": 6.16,
	"learning_rate": 0.0001981305547042599,
	"loss": 0.9438,
	"step": 20700
	},
	{
	"epoch": 6.18,
	"learning_rate": 0.00019659822249463684,
	"loss": 0.9421,
	"step": 20800
	},
	{
	"epoch": 6.21,
	"learning_rate": 0.00019506589028501378,
	"loss": 0.9406,
	"step": 20900
	},
	{
	"epoch": 6.24,
	"learning_rate": 0.00019353355807539074,
	"loss": 0.9384,
	"step": 21000
	},
	{
	"epoch": 6.27,
	"learning_rate": 0.0001920012258657677,
	"loss": 0.9397,
	"step": 21100
	},
	{
	"epoch": 6.3,
	"learning_rate": 0.00019046889365614464,
	"loss": 0.9367,
	"step": 21200
	},
	{
	"epoch": 6.33,
	"learning_rate": 0.0001889365614465216,
	"loss": 0.9402,
	"step": 21300
	},
	{
	"epoch": 6.36,
	"learning_rate": 0.00018740422923689857,
	"loss": 0.9319,
	"step": 21400
	},
	{
	"epoch": 6.39,
	"learning_rate": 0.00018587189702727554,
	"loss": 0.9385,
	"step": 21500
	},
	{
	"epoch": 6.42,
	"learning_rate": 0.00018433956481765247,
	"loss": 0.939,
	"step": 21600
	},
	{
	"epoch": 6.45,
	"learning_rate": 0.0001828072326080294,
	"loss": 0.9399,
	"step": 21700
	},
	{
	"epoch": 6.48,
	"learning_rate": 0.00018127490039840637,
	"loss": 0.9407,
	"step": 21800
	},
	{
	"epoch": 6.51,
	"learning_rate": 0.00017974256818878334,
	"loss": 0.94,
	"step": 21900
	},
	{
	"epoch": 6.54,
	"learning_rate": 0.00017821023597916027,
	"loss": 0.9407,
	"step": 22000
	},
	{
	"epoch": 6.57,
	"learning_rate": 0.00017667790376953724,
	"loss": 0.9353,
	"step": 22100
	},
	{
	"epoch": 6.6,
	"learning_rate": 0.0001751455715599142,
	"loss": 0.9405,
	"step": 22200
	},
	{
	"epoch": 6.63,
	"learning_rate": 0.00017361323935029114,
	"loss": 0.9305,
	"step": 22300
	},
	{
	"epoch": 6.66,
	"learning_rate": 0.0001720809071406681,
	"loss": 0.938,
	"step": 22400
	},
	{
	"epoch": 6.69,
	"learning_rate": 0.00017054857493104507,
	"loss": 0.9311,
	"step": 22500
	},
	{
	"epoch": 6.72,
	"learning_rate": 0.00016901624272142203,
	"loss": 0.9343,
	"step": 22600
	},
	{
	"epoch": 6.75,
	"learning_rate": 0.00016748391051179894,
	"loss": 0.9312,
	"step": 22700
	},
	{
	"epoch": 6.78,
	"learning_rate": 0.0001659515783021759,
	"loss": 0.9353,
	"step": 22800
	},
	{
	"epoch": 6.81,
	"learning_rate": 0.00016441924609255287,
	"loss": 0.9341,
	"step": 22900
	},
	{
	"epoch": 6.84,
	"learning_rate": 0.0001628869138829298,
	"loss": 0.9338,
	"step": 23000
	},
	{
	"epoch": 6.87,
	"learning_rate": 0.00016135458167330677,
	"loss": 0.9318,
	"step": 23100
	},
	{
	"epoch": 6.9,
	"learning_rate": 0.00015982224946368373,
	"loss": 0.9309,
	"step": 23200
	},
	{
	"epoch": 6.93,
	"learning_rate": 0.0001582899172540607,
	"loss": 0.9291,
	"step": 23300
	},
	{
	"epoch": 6.96,
	"learning_rate": 0.00015675758504443764,
	"loss": 0.9307,
	"step": 23400
	},
	{
	"epoch": 6.99,
	"learning_rate": 0.0001552252528348146,
	"loss": 0.9325,
	"step": 23500
	},
	{
	"epoch": 7.02,
	"learning_rate": 0.00015369292062519156,
	"loss": 0.9363,
	"step": 23600
	},
	{
	"epoch": 7.05,
	"learning_rate": 0.00015216058841556847,
	"loss": 0.9325,
	"step": 23700
	},
	{
	"epoch": 7.08,
	"learning_rate": 0.00015062825620594544,
	"loss": 0.9276,
	"step": 23800
	},
	{
	"epoch": 7.11,
	"learning_rate": 0.0001490959239963224,
	"loss": 0.9328,
	"step": 23900
	},
	{
	"epoch": 7.14,
	"learning_rate": 0.00014756359178669937,
	"loss": 0.9304,
	"step": 24000
	},
	{
	"epoch": 7.17,
	"learning_rate": 0.0001460312595770763,
	"loss": 0.9274,
	"step": 24100
	},
	{
	"epoch": 7.2,
	"learning_rate": 0.00014449892736745327,
	"loss": 0.9261,
	"step": 24200
	},
	{
	"epoch": 7.23,
	"learning_rate": 0.00014296659515783023,
	"loss": 0.9245,
	"step": 24300
	},
	{
	"epoch": 7.26,
	"learning_rate": 0.0001414342629482072,
	"loss": 0.9233,
	"step": 24400
	},
	{
	"epoch": 7.29,
	"learning_rate": 0.00013990193073858413,
	"loss": 0.9275,
	"step": 24500
	},
	{
	"epoch": 7.31,
	"learning_rate": 0.00013836959852896107,
	"loss": 0.9265,
	"step": 24600
	},
	{
	"epoch": 7.34,
	"learning_rate": 0.00013683726631933803,
	"loss": 0.9276,
	"step": 24700
	},
	{
	"epoch": 7.37,
	"learning_rate": 0.00013530493410971497,
	"loss": 0.9252,
	"step": 24800
	},
	{
	"epoch": 7.4,
	"learning_rate": 0.00013377260190009193,
	"loss": 0.9224,
	"step": 24900
	},
	{
	"epoch": 7.43,
	"learning_rate": 0.0001322402696904689,
	"loss": 0.9216,
	"step": 25000
	},
	{
	"epoch": 7.46,
	"learning_rate": 0.00013070793748084586,
	"loss": 0.9233,
	"step": 25100
	},
	{
	"epoch": 7.49,
	"learning_rate": 0.0001291756052712228,
	"loss": 0.9275,
	"step": 25200
	},
	{
	"epoch": 7.52,
	"learning_rate": 0.00012764327306159976,
	"loss": 0.9229,
	"step": 25300
	},
	{
	"epoch": 7.55,
	"learning_rate": 0.00012611094085197673,
	"loss": 0.922,
	"step": 25400
	},
	{
	"epoch": 7.58,
	"learning_rate": 0.00012457860864235367,
	"loss": 0.9255,
	"step": 25500
	},
	{
	"epoch": 7.61,
	"learning_rate": 0.0001230462764327306,
	"loss": 0.9196,
	"step": 25600
	},
	{
	"epoch": 7.64,
	"learning_rate": 0.00012151394422310758,
	"loss": 0.9198,
	"step": 25700
	},
	{
	"epoch": 7.67,
	"learning_rate": 0.00011998161201348452,
	"loss": 0.9226,
	"step": 25800
	},
	{
	"epoch": 7.7,
	"learning_rate": 0.00011844927980386148,
	"loss": 0.9174,
	"step": 25900
	},
	{
	"epoch": 7.73,
	"learning_rate": 0.00011691694759423843,
	"loss": 0.9191,
	"step": 26000
	},
	{
	"epoch": 7.76,
	"learning_rate": 0.0001153846153846154,
	"loss": 0.9207,
	"step": 26100
	},
	{
	"epoch": 7.79,
	"learning_rate": 0.00011385228317499235,
	"loss": 0.9225,
	"step": 26200
	},
	{
	"epoch": 7.82,
	"learning_rate": 0.00011231995096536928,
	"loss": 0.9198,
	"step": 26300
	},
	{
	"epoch": 7.85,
	"learning_rate": 0.00011078761875574625,
	"loss": 0.9183,
	"step": 26400
	},
	{
	"epoch": 7.88,
	"learning_rate": 0.0001092552865461232,
	"loss": 0.919,
	"step": 26500
	},
	{
	"epoch": 7.91,
	"learning_rate": 0.00010772295433650016,
	"loss": 0.9193,
	"step": 26600
	},
	{
	"epoch": 7.94,
	"learning_rate": 0.00010619062212687711,
	"loss": 0.9205,
	"step": 26700
	},
	{
	"epoch": 7.97,
	"learning_rate": 0.00010465828991725406,
	"loss": 0.92,
	"step": 26800
	},
	{
	"epoch": 8.0,
	"learning_rate": 0.00010312595770763101,
	"loss": 0.9192,
	"step": 26900
	},
	{
	"epoch": 8.03,
	"learning_rate": 0.00010159362549800798,
	"loss": 0.9186,
	"step": 27000
	},
	{
	"epoch": 8.06,
	"learning_rate": 0.00010006129328838493,
	"loss": 0.9176,
	"step": 27100
	},
	{
	"epoch": 8.09,
	"learning_rate": 9.852896107876188e-05,
	"loss": 0.9136,
	"step": 27200
	},
	{
	"epoch": 8.12,
	"learning_rate": 9.699662886913883e-05,
	"loss": 0.9116,
	"step": 27300
	},
	{
	"epoch": 8.15,
	"learning_rate": 9.546429665951578e-05,
	"loss": 0.9174,
	"step": 27400
	},
	{
	"epoch": 8.18,
	"learning_rate": 9.393196444989274e-05,
	"loss": 0.9156,
	"step": 27500
	},
	{
	"epoch": 8.21,
	"learning_rate": 9.23996322402697e-05,
	"loss": 0.912,
	"step": 27600
	},
	{
	"epoch": 8.24,
	"learning_rate": 9.086730003064666e-05,
	"loss": 0.9142,
	"step": 27700
	},
	{
	"epoch": 8.27,
	"learning_rate": 8.93349678210236e-05,
	"loss": 0.9099,
	"step": 27800
	},
	{
	"epoch": 8.3,
	"learning_rate": 8.780263561140055e-05,
	"loss": 0.9129,
	"step": 27900
	},
	{
	"epoch": 8.33,
	"learning_rate": 8.627030340177751e-05,
	"loss": 0.9145,
	"step": 28000
	},
	{
	"epoch": 8.36,
	"learning_rate": 8.473797119215446e-05,
	"loss": 0.9117,
	"step": 28100
	},
	{
	"epoch": 8.39,
	"learning_rate": 8.320563898253141e-05,
	"loss": 0.9112,
	"step": 28200
	},
	{
	"epoch": 8.42,
	"learning_rate": 8.167330677290836e-05,
	"loss": 0.9128,
	"step": 28300
	},
	{
	"epoch": 8.44,
	"learning_rate": 8.014097456328533e-05,
	"loss": 0.9122,
	"step": 28400
	},
	{
	"epoch": 8.47,
	"learning_rate": 7.860864235366228e-05,
	"loss": 0.9113,
	"step": 28500
	},
	{
	"epoch": 8.5,
	"learning_rate": 7.707631014403924e-05,
	"loss": 0.9115,
	"step": 28600
	},
	{
	"epoch": 8.53,
	"learning_rate": 7.554397793441618e-05,
	"loss": 0.9098,
	"step": 28700
	},
	{
	"epoch": 8.56,
	"learning_rate": 7.401164572479313e-05,
	"loss": 0.9101,
	"step": 28800
	},
	{
	"epoch": 8.59,
	"learning_rate": 7.247931351517009e-05,
	"loss": 0.9063,
	"step": 28900
	},
	{
	"epoch": 8.62,
	"learning_rate": 7.094698130554704e-05,
	"loss": 0.913,
	"step": 29000
	},
	{
	"epoch": 8.65,
	"learning_rate": 6.9414649095924e-05,
	"loss": 0.9092,
	"step": 29100
	},
	{
	"epoch": 8.68,
	"learning_rate": 6.788231688630094e-05,
	"loss": 0.9101,
	"step": 29200
	},
	{
	"epoch": 8.71,
	"learning_rate": 6.634998467667791e-05,
	"loss": 0.9089,
	"step": 29300
	},
	{
	"epoch": 8.74,
	"learning_rate": 6.481765246705486e-05,
	"loss": 0.9108,
	"step": 29400
	},
	{
	"epoch": 8.77,
	"learning_rate": 6.328532025743182e-05,
	"loss": 0.9065,
	"step": 29500
	},
	{
	"epoch": 8.8,
	"learning_rate": 6.175298804780877e-05,
	"loss": 0.9129,
	"step": 29600
	},
	{
	"epoch": 8.83,
	"learning_rate": 6.022065583818572e-05,
	"loss": 0.9097,
	"step": 29700
	},
	{
	"epoch": 8.86,
	"learning_rate": 5.8688323628562674e-05,
	"loss": 0.9115,
	"step": 29800
	},
	{
	"epoch": 8.89,
	"learning_rate": 5.715599141893963e-05,
	"loss": 0.9088,
	"step": 29900
	},
	{
	"epoch": 8.92,
	"learning_rate": 5.5623659209316575e-05,
	"loss": 0.9112,
	"step": 30000
	},
	{
	"epoch": 8.95,
	"learning_rate": 5.409132699969353e-05,
	"loss": 0.9086,
	"step": 30100
	},
	{
	"epoch": 8.98,
	"learning_rate": 5.255899479007049e-05,
	"loss": 0.9106,
	"step": 30200
	},
	{
	"epoch": 9.01,
	"learning_rate": 5.102666258044744e-05,
	"loss": 0.9104,
	"step": 30300
	},
	{
	"epoch": 9.04,
	"learning_rate": 4.94943303708244e-05,
	"loss": 0.9037,
	"step": 30400
	},
	{
	"epoch": 9.07,
	"learning_rate": 4.796199816120135e-05,
	"loss": 0.9082,
	"step": 30500
	},
	{
	"epoch": 9.1,
	"learning_rate": 4.6429665951578305e-05,
	"loss": 0.9041,
	"step": 30600
	},
	{
	"epoch": 9.13,
	"learning_rate": 4.489733374195526e-05,
	"loss": 0.9025,
	"step": 30700
	},
	{
	"epoch": 9.16,
	"learning_rate": 4.3365001532332206e-05,
	"loss": 0.9006,
	"step": 30800
	},
	{
	"epoch": 9.19,
	"learning_rate": 4.1832669322709164e-05,
	"loss": 0.9072,
	"step": 30900
	},
	{
	"epoch": 9.22,
	"learning_rate": 4.0300337113086114e-05,
	"loss": 0.9038,
	"step": 31000
	},
	{
	"epoch": 9.25,
	"learning_rate": 3.876800490346307e-05,
	"loss": 0.9072,
	"step": 31100
	},
	{
	"epoch": 9.28,
	"learning_rate": 3.723567269384002e-05,
	"loss": 0.9017,
	"step": 31200
	},
	{
	"epoch": 9.31,
	"learning_rate": 3.570334048421698e-05,
	"loss": 0.9032,
	"step": 31300
	},
	{
	"epoch": 9.34,
	"learning_rate": 3.4171008274593937e-05,
	"loss": 0.9026,
	"step": 31400
	},
	{
	"epoch": 9.37,
	"learning_rate": 3.263867606497089e-05,
	"loss": 0.9008,
	"step": 31500
	},
	{
	"epoch": 9.4,
	"learning_rate": 3.110634385534784e-05,
	"loss": 0.9065,
	"step": 31600
	},
	{
	"epoch": 9.43,
	"learning_rate": 2.9574011645724795e-05,
	"loss": 0.9026,
	"step": 31700
	},
	{
	"epoch": 9.46,
	"learning_rate": 2.804167943610175e-05,
	"loss": 0.9011,
	"step": 31800
	},
	{
	"epoch": 9.49,
	"learning_rate": 2.65093472264787e-05,
	"loss": 0.9023,
	"step": 31900
	},
	{
	"epoch": 9.52,
	"learning_rate": 2.4977015016855653e-05,
	"loss": 0.9007,
	"step": 32000
	}
	],
	"max_steps": 33630,
	"num_train_epochs": 10,
	"total_flos": 8.418135066885916e+17,
	"trial_name": null,
	"trial_params": null
	}