DexVLA / trainer_state.json

Upload 42 files

8867dbf verified 8 months ago

210 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 6.1715696358773915,
	"eval_steps": 200,
	"global_step": 60000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"action_loss": 0.0698,
	"epoch": 0.0051429746965644925,
	"learning_rate": 2e-05,
	"llm_loss": 0.4221,
	"loss": 0.4918,
	"step": 50
	},
	{
	"action_loss": 0.0388,
	"epoch": 0.010285949393128985,
	"learning_rate": 2e-05,
	"llm_loss": 0.0524,
	"loss": 0.0912,
	"step": 100
	},
	{
	"action_loss": 0.0486,
	"epoch": 0.015428924089693478,
	"learning_rate": 2e-05,
	"llm_loss": 0.0371,
	"loss": 0.0857,
	"step": 150
	},
	{
	"action_loss": 0.0387,
	"epoch": 0.02057189878625797,
	"learning_rate": 2e-05,
	"llm_loss": 0.0326,
	"loss": 0.0713,
	"step": 200
	},
	{
	"action_loss": 0.0383,
	"epoch": 0.025714873482822465,
	"learning_rate": 2e-05,
	"llm_loss": 0.0298,
	"loss": 0.0681,
	"step": 250
	},
	{
	"action_loss": 0.0348,
	"epoch": 0.030857848179386957,
	"learning_rate": 2e-05,
	"llm_loss": 0.0263,
	"loss": 0.061,
	"step": 300
	},
	{
	"action_loss": 0.0392,
	"epoch": 0.03600082287595145,
	"learning_rate": 2e-05,
	"llm_loss": 0.0228,
	"loss": 0.0619,
	"step": 350
	},
	{
	"action_loss": 0.0396,
	"epoch": 0.04114379757251594,
	"learning_rate": 2e-05,
	"llm_loss": 0.0239,
	"loss": 0.0636,
	"step": 400
	},
	{
	"action_loss": 0.0338,
	"epoch": 0.046286772269080435,
	"learning_rate": 2e-05,
	"llm_loss": 0.0243,
	"loss": 0.0581,
	"step": 450
	},
	{
	"action_loss": 0.0331,
	"epoch": 0.05142974696564493,
	"learning_rate": 2e-05,
	"llm_loss": 0.0232,
	"loss": 0.0564,
	"step": 500
	},
	{
	"action_loss": 0.042,
	"epoch": 0.05657272166220942,
	"learning_rate": 2e-05,
	"llm_loss": 0.0205,
	"loss": 0.0625,
	"step": 550
	},
	{
	"action_loss": 0.0343,
	"epoch": 0.061715696358773914,
	"learning_rate": 2e-05,
	"llm_loss": 0.018,
	"loss": 0.0523,
	"step": 600
	},
	{
	"action_loss": 0.0285,
	"epoch": 0.06685867105533841,
	"learning_rate": 2e-05,
	"llm_loss": 0.0231,
	"loss": 0.0516,
	"step": 650
	},
	{
	"action_loss": 0.0344,
	"epoch": 0.0720016457519029,
	"learning_rate": 2e-05,
	"llm_loss": 0.0186,
	"loss": 0.053,
	"step": 700
	},
	{
	"action_loss": 0.0294,
	"epoch": 0.0771446204484674,
	"learning_rate": 2e-05,
	"llm_loss": 0.0187,
	"loss": 0.0481,
	"step": 750
	},
	{
	"action_loss": 0.0391,
	"epoch": 0.08228759514503188,
	"learning_rate": 2e-05,
	"llm_loss": 0.0189,
	"loss": 0.058,
	"step": 800
	},
	{
	"action_loss": 0.0321,
	"epoch": 0.08743056984159638,
	"learning_rate": 2e-05,
	"llm_loss": 0.0159,
	"loss": 0.048,
	"step": 850
	},
	{
	"action_loss": 0.0442,
	"epoch": 0.09257354453816087,
	"learning_rate": 2e-05,
	"llm_loss": 0.0176,
	"loss": 0.0617,
	"step": 900
	},
	{
	"action_loss": 0.0435,
	"epoch": 0.09771651923472537,
	"learning_rate": 2e-05,
	"llm_loss": 0.0164,
	"loss": 0.0598,
	"step": 950
	},
	{
	"action_loss": 0.0353,
	"epoch": 0.10285949393128986,
	"learning_rate": 2e-05,
	"llm_loss": 0.0176,
	"loss": 0.0529,
	"step": 1000
	},
	{
	"action_loss": 0.0333,
	"epoch": 0.10800246862785436,
	"learning_rate": 2e-05,
	"llm_loss": 0.0219,
	"loss": 0.0552,
	"step": 1050
	},
	{
	"action_loss": 0.0445,
	"epoch": 0.11314544332441884,
	"learning_rate": 2e-05,
	"llm_loss": 0.0164,
	"loss": 0.0609,
	"step": 1100
	},
	{
	"action_loss": 0.0288,
	"epoch": 0.11828841802098333,
	"learning_rate": 2e-05,
	"llm_loss": 0.0139,
	"loss": 0.0427,
	"step": 1150
	},
	{
	"action_loss": 0.0291,
	"epoch": 0.12343139271754783,
	"learning_rate": 2e-05,
	"llm_loss": 0.0138,
	"loss": 0.0429,
	"step": 1200
	},
	{
	"action_loss": 0.0444,
	"epoch": 0.12857436741411232,
	"learning_rate": 2e-05,
	"llm_loss": 0.0145,
	"loss": 0.0589,
	"step": 1250
	},
	{
	"action_loss": 0.0327,
	"epoch": 0.13371734211067682,
	"learning_rate": 2e-05,
	"llm_loss": 0.015,
	"loss": 0.0477,
	"step": 1300
	},
	{
	"action_loss": 0.0265,
	"epoch": 0.1388603168072413,
	"learning_rate": 2e-05,
	"llm_loss": 0.014,
	"loss": 0.0405,
	"step": 1350
	},
	{
	"action_loss": 0.0353,
	"epoch": 0.1440032915038058,
	"learning_rate": 2e-05,
	"llm_loss": 0.0144,
	"loss": 0.0497,
	"step": 1400
	},
	{
	"action_loss": 0.0288,
	"epoch": 0.1491462662003703,
	"learning_rate": 2e-05,
	"llm_loss": 0.016,
	"loss": 0.0448,
	"step": 1450
	},
	{
	"action_loss": 0.0345,
	"epoch": 0.1542892408969348,
	"learning_rate": 2e-05,
	"llm_loss": 0.0179,
	"loss": 0.0524,
	"step": 1500
	},
	{
	"action_loss": 0.0284,
	"epoch": 0.1594322155934993,
	"learning_rate": 2e-05,
	"llm_loss": 0.014,
	"loss": 0.0424,
	"step": 1550
	},
	{
	"action_loss": 0.0324,
	"epoch": 0.16457519029006376,
	"learning_rate": 2e-05,
	"llm_loss": 0.0135,
	"loss": 0.046,
	"step": 1600
	},
	{
	"action_loss": 0.035,
	"epoch": 0.16971816498662826,
	"learning_rate": 2e-05,
	"llm_loss": 0.0133,
	"loss": 0.0483,
	"step": 1650
	},
	{
	"action_loss": 0.0278,
	"epoch": 0.17486113968319275,
	"learning_rate": 2e-05,
	"llm_loss": 0.0141,
	"loss": 0.0419,
	"step": 1700
	},
	{
	"action_loss": 0.0312,
	"epoch": 0.18000411437975725,
	"learning_rate": 2e-05,
	"llm_loss": 0.0139,
	"loss": 0.0451,
	"step": 1750
	},
	{
	"action_loss": 0.0385,
	"epoch": 0.18514708907632174,
	"learning_rate": 2e-05,
	"llm_loss": 0.0139,
	"loss": 0.0525,
	"step": 1800
	},
	{
	"action_loss": 0.0425,
	"epoch": 0.19029006377288624,
	"learning_rate": 2e-05,
	"llm_loss": 0.0145,
	"loss": 0.057,
	"step": 1850
	},
	{
	"action_loss": 0.0349,
	"epoch": 0.19543303846945073,
	"learning_rate": 2e-05,
	"llm_loss": 0.0147,
	"loss": 0.0497,
	"step": 1900
	},
	{
	"action_loss": 0.0367,
	"epoch": 0.20057601316601523,
	"learning_rate": 2e-05,
	"llm_loss": 0.0138,
	"loss": 0.0505,
	"step": 1950
	},
	{
	"action_loss": 0.0317,
	"epoch": 0.20571898786257972,
	"learning_rate": 2e-05,
	"llm_loss": 0.014,
	"loss": 0.0457,
	"step": 2000
	},
	{
	"action_loss": 0.0357,
	"epoch": 0.21086196255914422,
	"learning_rate": 2e-05,
	"llm_loss": 0.0127,
	"loss": 0.0484,
	"step": 2050
	},
	{
	"action_loss": 0.0354,
	"epoch": 0.2160049372557087,
	"learning_rate": 2e-05,
	"llm_loss": 0.0137,
	"loss": 0.0491,
	"step": 2100
	},
	{
	"action_loss": 0.0332,
	"epoch": 0.2211479119522732,
	"learning_rate": 2e-05,
	"llm_loss": 0.0143,
	"loss": 0.0475,
	"step": 2150
	},
	{
	"action_loss": 0.0328,
	"epoch": 0.22629088664883767,
	"learning_rate": 2e-05,
	"llm_loss": 0.0133,
	"loss": 0.0461,
	"step": 2200
	},
	{
	"action_loss": 0.0268,
	"epoch": 0.23143386134540217,
	"learning_rate": 2e-05,
	"llm_loss": 0.0131,
	"loss": 0.0399,
	"step": 2250
	},
	{
	"action_loss": 0.0321,
	"epoch": 0.23657683604196666,
	"learning_rate": 2e-05,
	"llm_loss": 0.0122,
	"loss": 0.0443,
	"step": 2300
	},
	{
	"action_loss": 0.0304,
	"epoch": 0.24171981073853116,
	"learning_rate": 2e-05,
	"llm_loss": 0.0129,
	"loss": 0.0433,
	"step": 2350
	},
	{
	"action_loss": 0.0391,
	"epoch": 0.24686278543509566,
	"learning_rate": 2e-05,
	"llm_loss": 0.0131,
	"loss": 0.0521,
	"step": 2400
	},
	{
	"action_loss": 0.0304,
	"epoch": 0.25200576013166015,
	"learning_rate": 2e-05,
	"llm_loss": 0.0125,
	"loss": 0.0429,
	"step": 2450
	},
	{
	"action_loss": 0.0262,
	"epoch": 0.25714873482822465,
	"learning_rate": 2e-05,
	"llm_loss": 0.0125,
	"loss": 0.0386,
	"step": 2500
	},
	{
	"action_loss": 0.0301,
	"epoch": 0.26229170952478914,
	"learning_rate": 2e-05,
	"llm_loss": 0.0113,
	"loss": 0.0414,
	"step": 2550
	},
	{
	"action_loss": 0.0395,
	"epoch": 0.26743468422135364,
	"learning_rate": 2e-05,
	"llm_loss": 0.0133,
	"loss": 0.0529,
	"step": 2600
	},
	{
	"action_loss": 0.0281,
	"epoch": 0.27257765891791813,
	"learning_rate": 2e-05,
	"llm_loss": 0.0121,
	"loss": 0.0403,
	"step": 2650
	},
	{
	"action_loss": 0.0406,
	"epoch": 0.2777206336144826,
	"learning_rate": 2e-05,
	"llm_loss": 0.0128,
	"loss": 0.0535,
	"step": 2700
	},
	{
	"action_loss": 0.0369,
	"epoch": 0.2828636083110471,
	"learning_rate": 2e-05,
	"llm_loss": 0.0124,
	"loss": 0.0493,
	"step": 2750
	},
	{
	"action_loss": 0.0302,
	"epoch": 0.2880065830076116,
	"learning_rate": 2e-05,
	"llm_loss": 0.0125,
	"loss": 0.0427,
	"step": 2800
	},
	{
	"action_loss": 0.0272,
	"epoch": 0.2931495577041761,
	"learning_rate": 2e-05,
	"llm_loss": 0.0114,
	"loss": 0.0385,
	"step": 2850
	},
	{
	"action_loss": 0.03,
	"epoch": 0.2982925324007406,
	"learning_rate": 2e-05,
	"llm_loss": 0.0123,
	"loss": 0.0423,
	"step": 2900
	},
	{
	"action_loss": 0.0283,
	"epoch": 0.3034355070973051,
	"learning_rate": 2e-05,
	"llm_loss": 0.0123,
	"loss": 0.0405,
	"step": 2950
	},
	{
	"action_loss": 0.032,
	"epoch": 0.3085784817938696,
	"learning_rate": 2e-05,
	"llm_loss": 0.0115,
	"loss": 0.0435,
	"step": 3000
	},
	{
	"action_loss": 0.0343,
	"epoch": 0.3137214564904341,
	"learning_rate": 2e-05,
	"llm_loss": 0.0123,
	"loss": 0.0466,
	"step": 3050
	},
	{
	"action_loss": 0.0205,
	"epoch": 0.3188644311869986,
	"learning_rate": 2e-05,
	"llm_loss": 0.0119,
	"loss": 0.0324,
	"step": 3100
	},
	{
	"action_loss": 0.0295,
	"epoch": 0.324007405883563,
	"learning_rate": 2e-05,
	"llm_loss": 0.0107,
	"loss": 0.0402,
	"step": 3150
	},
	{
	"action_loss": 0.0319,
	"epoch": 0.3291503805801275,
	"learning_rate": 2e-05,
	"llm_loss": 0.0109,
	"loss": 0.0428,
	"step": 3200
	},
	{
	"action_loss": 0.0255,
	"epoch": 0.334293355276692,
	"learning_rate": 2e-05,
	"llm_loss": 0.0107,
	"loss": 0.0363,
	"step": 3250
	},
	{
	"action_loss": 0.0292,
	"epoch": 0.3394363299732565,
	"learning_rate": 2e-05,
	"llm_loss": 0.0107,
	"loss": 0.0398,
	"step": 3300
	},
	{
	"action_loss": 0.0289,
	"epoch": 0.344579304669821,
	"learning_rate": 2e-05,
	"llm_loss": 0.0123,
	"loss": 0.0412,
	"step": 3350
	},
	{
	"action_loss": 0.024,
	"epoch": 0.3497222793663855,
	"learning_rate": 2e-05,
	"llm_loss": 0.0109,
	"loss": 0.0349,
	"step": 3400
	},
	{
	"action_loss": 0.0328,
	"epoch": 0.35486525406295,
	"learning_rate": 2e-05,
	"llm_loss": 0.0098,
	"loss": 0.0426,
	"step": 3450
	},
	{
	"action_loss": 0.0341,
	"epoch": 0.3600082287595145,
	"learning_rate": 2e-05,
	"llm_loss": 0.0113,
	"loss": 0.0454,
	"step": 3500
	},
	{
	"action_loss": 0.0275,
	"epoch": 0.365151203456079,
	"learning_rate": 2e-05,
	"llm_loss": 0.0118,
	"loss": 0.0393,
	"step": 3550
	},
	{
	"action_loss": 0.025,
	"epoch": 0.3702941781526435,
	"learning_rate": 2e-05,
	"llm_loss": 0.0113,
	"loss": 0.0363,
	"step": 3600
	},
	{
	"action_loss": 0.0297,
	"epoch": 0.375437152849208,
	"learning_rate": 2e-05,
	"llm_loss": 0.0115,
	"loss": 0.0412,
	"step": 3650
	},
	{
	"action_loss": 0.0322,
	"epoch": 0.3805801275457725,
	"learning_rate": 2e-05,
	"llm_loss": 0.0101,
	"loss": 0.0423,
	"step": 3700
	},
	{
	"action_loss": 0.0413,
	"epoch": 0.38572310224233697,
	"learning_rate": 2e-05,
	"llm_loss": 0.0119,
	"loss": 0.0532,
	"step": 3750
	},
	{
	"action_loss": 0.0387,
	"epoch": 0.39086607693890146,
	"learning_rate": 2e-05,
	"llm_loss": 0.0112,
	"loss": 0.0499,
	"step": 3800
	},
	{
	"action_loss": 0.038,
	"epoch": 0.39600905163546596,
	"learning_rate": 2e-05,
	"llm_loss": 0.0108,
	"loss": 0.0488,
	"step": 3850
	},
	{
	"action_loss": 0.0249,
	"epoch": 0.40115202633203045,
	"learning_rate": 2e-05,
	"llm_loss": 0.0111,
	"loss": 0.036,
	"step": 3900
	},
	{
	"action_loss": 0.0392,
	"epoch": 0.40629500102859495,
	"learning_rate": 2e-05,
	"llm_loss": 0.0098,
	"loss": 0.049,
	"step": 3950
	},
	{
	"action_loss": 0.0283,
	"epoch": 0.41143797572515944,
	"learning_rate": 2e-05,
	"llm_loss": 0.0112,
	"loss": 0.0395,
	"step": 4000
	},
	{
	"action_loss": 0.0254,
	"epoch": 0.41658095042172394,
	"learning_rate": 2e-05,
	"llm_loss": 0.011,
	"loss": 0.0365,
	"step": 4050
	},
	{
	"action_loss": 0.0282,
	"epoch": 0.42172392511828843,
	"learning_rate": 2e-05,
	"llm_loss": 0.0109,
	"loss": 0.0391,
	"step": 4100
	},
	{
	"action_loss": 0.0253,
	"epoch": 0.42686689981485293,
	"learning_rate": 2e-05,
	"llm_loss": 0.0102,
	"loss": 0.0355,
	"step": 4150
	},
	{
	"action_loss": 0.0311,
	"epoch": 0.4320098745114174,
	"learning_rate": 2e-05,
	"llm_loss": 0.0094,
	"loss": 0.0404,
	"step": 4200
	},
	{
	"action_loss": 0.0378,
	"epoch": 0.4371528492079819,
	"learning_rate": 2e-05,
	"llm_loss": 0.0099,
	"loss": 0.0477,
	"step": 4250
	},
	{
	"action_loss": 0.0324,
	"epoch": 0.4422958239045464,
	"learning_rate": 2e-05,
	"llm_loss": 0.011,
	"loss": 0.0434,
	"step": 4300
	},
	{
	"action_loss": 0.0344,
	"epoch": 0.4474387986011109,
	"learning_rate": 2e-05,
	"llm_loss": 0.0102,
	"loss": 0.0446,
	"step": 4350
	},
	{
	"action_loss": 0.0272,
	"epoch": 0.45258177329767535,
	"learning_rate": 2e-05,
	"llm_loss": 0.0095,
	"loss": 0.0367,
	"step": 4400
	},
	{
	"action_loss": 0.0405,
	"epoch": 0.45772474799423984,
	"learning_rate": 2e-05,
	"llm_loss": 0.011,
	"loss": 0.0515,
	"step": 4450
	},
	{
	"action_loss": 0.0309,
	"epoch": 0.46286772269080434,
	"learning_rate": 2e-05,
	"llm_loss": 0.0107,
	"loss": 0.0416,
	"step": 4500
	},
	{
	"action_loss": 0.0348,
	"epoch": 0.46801069738736883,
	"learning_rate": 2e-05,
	"llm_loss": 0.0109,
	"loss": 0.0457,
	"step": 4550
	},
	{
	"action_loss": 0.0329,
	"epoch": 0.47315367208393333,
	"learning_rate": 2e-05,
	"llm_loss": 0.0087,
	"loss": 0.0416,
	"step": 4600
	},
	{
	"action_loss": 0.0332,
	"epoch": 0.4782966467804978,
	"learning_rate": 2e-05,
	"llm_loss": 0.0088,
	"loss": 0.042,
	"step": 4650
	},
	{
	"action_loss": 0.0264,
	"epoch": 0.4834396214770623,
	"learning_rate": 2e-05,
	"llm_loss": 0.0089,
	"loss": 0.0353,
	"step": 4700
	},
	{
	"action_loss": 0.0299,
	"epoch": 0.4885825961736268,
	"learning_rate": 2e-05,
	"llm_loss": 0.0095,
	"loss": 0.0394,
	"step": 4750
	},
	{
	"action_loss": 0.0314,
	"epoch": 0.4937255708701913,
	"learning_rate": 2e-05,
	"llm_loss": 0.0091,
	"loss": 0.0406,
	"step": 4800
	},
	{
	"action_loss": 0.0191,
	"epoch": 0.4988685455667558,
	"learning_rate": 2e-05,
	"llm_loss": 0.0093,
	"loss": 0.0284,
	"step": 4850
	},
	{
	"action_loss": 0.0277,
	"epoch": 0.5040115202633203,
	"learning_rate": 2e-05,
	"llm_loss": 0.0099,
	"loss": 0.0375,
	"step": 4900
	},
	{
	"action_loss": 0.025,
	"epoch": 0.5091544949598849,
	"learning_rate": 2e-05,
	"llm_loss": 0.009,
	"loss": 0.034,
	"step": 4950
	},
	{
	"action_loss": 0.0373,
	"epoch": 0.5142974696564493,
	"learning_rate": 2e-05,
	"llm_loss": 0.01,
	"loss": 0.0473,
	"step": 5000
	},
	{
	"action_loss": 0.0326,
	"epoch": 0.5194404443530137,
	"learning_rate": 2e-05,
	"llm_loss": 0.0101,
	"loss": 0.0427,
	"step": 5050
	},
	{
	"action_loss": 0.0252,
	"epoch": 0.5245834190495783,
	"learning_rate": 2e-05,
	"llm_loss": 0.01,
	"loss": 0.0352,
	"step": 5100
	},
	{
	"action_loss": 0.025,
	"epoch": 0.5297263937461427,
	"learning_rate": 2e-05,
	"llm_loss": 0.0089,
	"loss": 0.0339,
	"step": 5150
	},
	{
	"action_loss": 0.0313,
	"epoch": 0.5348693684427073,
	"learning_rate": 2e-05,
	"llm_loss": 0.0097,
	"loss": 0.041,
	"step": 5200
	},
	{
	"action_loss": 0.0293,
	"epoch": 0.5400123431392717,
	"learning_rate": 2e-05,
	"llm_loss": 0.0094,
	"loss": 0.0387,
	"step": 5250
	},
	{
	"action_loss": 0.0258,
	"epoch": 0.5451553178358363,
	"learning_rate": 2e-05,
	"llm_loss": 0.0097,
	"loss": 0.0355,
	"step": 5300
	},
	{
	"action_loss": 0.0238,
	"epoch": 0.5502982925324007,
	"learning_rate": 2e-05,
	"llm_loss": 0.0096,
	"loss": 0.0333,
	"step": 5350
	},
	{
	"action_loss": 0.0287,
	"epoch": 0.5554412672289653,
	"learning_rate": 2e-05,
	"llm_loss": 0.0101,
	"loss": 0.0389,
	"step": 5400
	},
	{
	"action_loss": 0.0294,
	"epoch": 0.5605842419255297,
	"learning_rate": 2e-05,
	"llm_loss": 0.0102,
	"loss": 0.0396,
	"step": 5450
	},
	{
	"action_loss": 0.034,
	"epoch": 0.5657272166220942,
	"learning_rate": 2e-05,
	"llm_loss": 0.0095,
	"loss": 0.0435,
	"step": 5500
	},
	{
	"action_loss": 0.0287,
	"epoch": 0.5708701913186587,
	"learning_rate": 2e-05,
	"llm_loss": 0.0095,
	"loss": 0.0382,
	"step": 5550
	},
	{
	"action_loss": 0.0233,
	"epoch": 0.5760131660152232,
	"learning_rate": 2e-05,
	"llm_loss": 0.0095,
	"loss": 0.0328,
	"step": 5600
	},
	{
	"action_loss": 0.0333,
	"epoch": 0.5811561407117877,
	"learning_rate": 2e-05,
	"llm_loss": 0.0084,
	"loss": 0.0417,
	"step": 5650
	},
	{
	"action_loss": 0.035,
	"epoch": 0.5862991154083522,
	"learning_rate": 2e-05,
	"llm_loss": 0.0117,
	"loss": 0.0468,
	"step": 5700
	},
	{
	"action_loss": 0.0353,
	"epoch": 0.5914420901049167,
	"learning_rate": 2e-05,
	"llm_loss": 0.0081,
	"loss": 0.0434,
	"step": 5750
	},
	{
	"action_loss": 0.0344,
	"epoch": 0.5965850648014812,
	"learning_rate": 2e-05,
	"llm_loss": 0.0078,
	"loss": 0.0422,
	"step": 5800
	},
	{
	"action_loss": 0.0297,
	"epoch": 0.6017280394980457,
	"learning_rate": 2e-05,
	"llm_loss": 0.0083,
	"loss": 0.0381,
	"step": 5850
	},
	{
	"action_loss": 0.0306,
	"epoch": 0.6068710141946102,
	"learning_rate": 2e-05,
	"llm_loss": 0.0089,
	"loss": 0.0395,
	"step": 5900
	},
	{
	"action_loss": 0.034,
	"epoch": 0.6120139888911746,
	"learning_rate": 2e-05,
	"llm_loss": 0.0091,
	"loss": 0.0431,
	"step": 5950
	},
	{
	"action_loss": 0.0337,
	"epoch": 0.6171569635877392,
	"learning_rate": 2e-05,
	"llm_loss": 0.0085,
	"loss": 0.0421,
	"step": 6000
	},
	{
	"action_loss": 0.0251,
	"epoch": 0.6222999382843036,
	"learning_rate": 2e-05,
	"llm_loss": 0.0087,
	"loss": 0.0337,
	"step": 6050
	},
	{
	"action_loss": 0.0223,
	"epoch": 0.6274429129808682,
	"learning_rate": 2e-05,
	"llm_loss": 0.0089,
	"loss": 0.0312,
	"step": 6100
	},
	{
	"action_loss": 0.028,
	"epoch": 0.6325858876774326,
	"learning_rate": 2e-05,
	"llm_loss": 0.0085,
	"loss": 0.0365,
	"step": 6150
	},
	{
	"action_loss": 0.0284,
	"epoch": 0.6377288623739972,
	"learning_rate": 2e-05,
	"llm_loss": 0.008,
	"loss": 0.0364,
	"step": 6200
	},
	{
	"action_loss": 0.0345,
	"epoch": 0.6428718370705616,
	"learning_rate": 2e-05,
	"llm_loss": 0.0086,
	"loss": 0.0431,
	"step": 6250
	},
	{
	"action_loss": 0.0291,
	"epoch": 0.648014811767126,
	"learning_rate": 2e-05,
	"llm_loss": 0.0088,
	"loss": 0.0379,
	"step": 6300
	},
	{
	"action_loss": 0.0355,
	"epoch": 0.6531577864636906,
	"learning_rate": 2e-05,
	"llm_loss": 0.0089,
	"loss": 0.0444,
	"step": 6350
	},
	{
	"action_loss": 0.0392,
	"epoch": 0.658300761160255,
	"learning_rate": 2e-05,
	"llm_loss": 0.0082,
	"loss": 0.0473,
	"step": 6400
	},
	{
	"action_loss": 0.0263,
	"epoch": 0.6634437358568196,
	"learning_rate": 2e-05,
	"llm_loss": 0.0083,
	"loss": 0.0346,
	"step": 6450
	},
	{
	"action_loss": 0.0284,
	"epoch": 0.668586710553384,
	"learning_rate": 2e-05,
	"llm_loss": 0.0087,
	"loss": 0.0372,
	"step": 6500
	},
	{
	"action_loss": 0.0237,
	"epoch": 0.6737296852499486,
	"learning_rate": 2e-05,
	"llm_loss": 0.0093,
	"loss": 0.033,
	"step": 6550
	},
	{
	"action_loss": 0.0292,
	"epoch": 0.678872659946513,
	"learning_rate": 2e-05,
	"llm_loss": 0.0093,
	"loss": 0.0384,
	"step": 6600
	},
	{
	"action_loss": 0.0188,
	"epoch": 0.6840156346430776,
	"learning_rate": 2e-05,
	"llm_loss": 0.0091,
	"loss": 0.0279,
	"step": 6650
	},
	{
	"action_loss": 0.0221,
	"epoch": 0.689158609339642,
	"learning_rate": 2e-05,
	"llm_loss": 0.0079,
	"loss": 0.03,
	"step": 6700
	},
	{
	"action_loss": 0.031,
	"epoch": 0.6943015840362066,
	"learning_rate": 2e-05,
	"llm_loss": 0.0089,
	"loss": 0.0398,
	"step": 6750
	},
	{
	"action_loss": 0.0268,
	"epoch": 0.699444558732771,
	"learning_rate": 2e-05,
	"llm_loss": 0.0078,
	"loss": 0.0346,
	"step": 6800
	},
	{
	"action_loss": 0.0239,
	"epoch": 0.7045875334293356,
	"learning_rate": 2e-05,
	"llm_loss": 0.0083,
	"loss": 0.0322,
	"step": 6850
	},
	{
	"action_loss": 0.0312,
	"epoch": 0.7097305081259,
	"learning_rate": 2e-05,
	"llm_loss": 0.0085,
	"loss": 0.0396,
	"step": 6900
	},
	{
	"action_loss": 0.0227,
	"epoch": 0.7148734828224645,
	"learning_rate": 2e-05,
	"llm_loss": 0.0082,
	"loss": 0.031,
	"step": 6950
	},
	{
	"action_loss": 0.0304,
	"epoch": 0.720016457519029,
	"learning_rate": 2e-05,
	"llm_loss": 0.0085,
	"loss": 0.0389,
	"step": 7000
	},
	{
	"action_loss": 0.0346,
	"epoch": 0.7251594322155935,
	"learning_rate": 2e-05,
	"llm_loss": 0.0078,
	"loss": 0.0424,
	"step": 7050
	},
	{
	"action_loss": 0.0319,
	"epoch": 0.730302406912158,
	"learning_rate": 2e-05,
	"llm_loss": 0.0083,
	"loss": 0.0402,
	"step": 7100
	},
	{
	"action_loss": 0.0288,
	"epoch": 0.7354453816087225,
	"learning_rate": 2e-05,
	"llm_loss": 0.0079,
	"loss": 0.0368,
	"step": 7150
	},
	{
	"action_loss": 0.0289,
	"epoch": 0.740588356305287,
	"learning_rate": 2e-05,
	"llm_loss": 0.0086,
	"loss": 0.0375,
	"step": 7200
	},
	{
	"action_loss": 0.029,
	"epoch": 0.7457313310018515,
	"learning_rate": 2e-05,
	"llm_loss": 0.0087,
	"loss": 0.0378,
	"step": 7250
	},
	{
	"action_loss": 0.0276,
	"epoch": 0.750874305698416,
	"learning_rate": 2e-05,
	"llm_loss": 0.0076,
	"loss": 0.0352,
	"step": 7300
	},
	{
	"action_loss": 0.0329,
	"epoch": 0.7560172803949805,
	"learning_rate": 2e-05,
	"llm_loss": 0.0084,
	"loss": 0.0414,
	"step": 7350
	},
	{
	"action_loss": 0.0313,
	"epoch": 0.761160255091545,
	"learning_rate": 2e-05,
	"llm_loss": 0.0086,
	"loss": 0.0399,
	"step": 7400
	},
	{
	"action_loss": 0.0325,
	"epoch": 0.7663032297881095,
	"learning_rate": 2e-05,
	"llm_loss": 0.0089,
	"loss": 0.0414,
	"step": 7450
	},
	{
	"action_loss": 0.0373,
	"epoch": 0.7714462044846739,
	"learning_rate": 2e-05,
	"llm_loss": 0.0078,
	"loss": 0.0451,
	"step": 7500
	},
	{
	"action_loss": 0.0197,
	"epoch": 0.7765891791812384,
	"learning_rate": 2e-05,
	"llm_loss": 0.0085,
	"loss": 0.0282,
	"step": 7550
	},
	{
	"action_loss": 0.0211,
	"epoch": 0.7817321538778029,
	"learning_rate": 2e-05,
	"llm_loss": 0.0077,
	"loss": 0.0288,
	"step": 7600
	},
	{
	"action_loss": 0.0174,
	"epoch": 0.7868751285743674,
	"learning_rate": 2e-05,
	"llm_loss": 0.0082,
	"loss": 0.0256,
	"step": 7650
	},
	{
	"action_loss": 0.0264,
	"epoch": 0.7920181032709319,
	"learning_rate": 2e-05,
	"llm_loss": 0.0071,
	"loss": 0.0335,
	"step": 7700
	},
	{
	"action_loss": 0.0295,
	"epoch": 0.7971610779674964,
	"learning_rate": 2e-05,
	"llm_loss": 0.0082,
	"loss": 0.0378,
	"step": 7750
	},
	{
	"action_loss": 0.0279,
	"epoch": 0.8023040526640609,
	"learning_rate": 2e-05,
	"llm_loss": 0.007,
	"loss": 0.0349,
	"step": 7800
	},
	{
	"action_loss": 0.0323,
	"epoch": 0.8074470273606253,
	"learning_rate": 2e-05,
	"llm_loss": 0.0082,
	"loss": 0.0405,
	"step": 7850
	},
	{
	"action_loss": 0.034,
	"epoch": 0.8125900020571899,
	"learning_rate": 2e-05,
	"llm_loss": 0.0078,
	"loss": 0.0419,
	"step": 7900
	},
	{
	"action_loss": 0.0271,
	"epoch": 0.8177329767537543,
	"learning_rate": 2e-05,
	"llm_loss": 0.0084,
	"loss": 0.0355,
	"step": 7950
	},
	{
	"action_loss": 0.0391,
	"epoch": 0.8228759514503189,
	"learning_rate": 2e-05,
	"llm_loss": 0.0074,
	"loss": 0.0465,
	"step": 8000
	},
	{
	"action_loss": 0.0313,
	"epoch": 0.8280189261468833,
	"learning_rate": 2e-05,
	"llm_loss": 0.008,
	"loss": 0.0393,
	"step": 8050
	},
	{
	"action_loss": 0.0229,
	"epoch": 0.8331619008434479,
	"learning_rate": 2e-05,
	"llm_loss": 0.0075,
	"loss": 0.0304,
	"step": 8100
	},
	{
	"action_loss": 0.0325,
	"epoch": 0.8383048755400123,
	"learning_rate": 2e-05,
	"llm_loss": 0.0073,
	"loss": 0.0398,
	"step": 8150
	},
	{
	"action_loss": 0.0261,
	"epoch": 0.8434478502365769,
	"learning_rate": 2e-05,
	"llm_loss": 0.0083,
	"loss": 0.0344,
	"step": 8200
	},
	{
	"action_loss": 0.0211,
	"epoch": 0.8485908249331413,
	"learning_rate": 2e-05,
	"llm_loss": 0.0077,
	"loss": 0.0288,
	"step": 8250
	},
	{
	"action_loss": 0.0306,
	"epoch": 0.8537337996297059,
	"learning_rate": 2e-05,
	"llm_loss": 0.0073,
	"loss": 0.0378,
	"step": 8300
	},
	{
	"action_loss": 0.0291,
	"epoch": 0.8588767743262703,
	"learning_rate": 2e-05,
	"llm_loss": 0.0071,
	"loss": 0.0361,
	"step": 8350
	},
	{
	"action_loss": 0.029,
	"epoch": 0.8640197490228348,
	"learning_rate": 2e-05,
	"llm_loss": 0.008,
	"loss": 0.037,
	"step": 8400
	},
	{
	"action_loss": 0.0384,
	"epoch": 0.8691627237193993,
	"learning_rate": 2e-05,
	"llm_loss": 0.0077,
	"loss": 0.0461,
	"step": 8450
	},
	{
	"action_loss": 0.0216,
	"epoch": 0.8743056984159638,
	"learning_rate": 2e-05,
	"llm_loss": 0.0079,
	"loss": 0.0294,
	"step": 8500
	},
	{
	"action_loss": 0.0281,
	"epoch": 0.8794486731125283,
	"learning_rate": 2e-05,
	"llm_loss": 0.0076,
	"loss": 0.0357,
	"step": 8550
	},
	{
	"action_loss": 0.0273,
	"epoch": 0.8845916478090928,
	"learning_rate": 2e-05,
	"llm_loss": 0.0072,
	"loss": 0.0345,
	"step": 8600
	},
	{
	"action_loss": 0.0265,
	"epoch": 0.8897346225056573,
	"learning_rate": 2e-05,
	"llm_loss": 0.0074,
	"loss": 0.0339,
	"step": 8650
	},
	{
	"action_loss": 0.0393,
	"epoch": 0.8948775972022218,
	"learning_rate": 2e-05,
	"llm_loss": 0.0076,
	"loss": 0.0469,
	"step": 8700
	},
	{
	"action_loss": 0.0347,
	"epoch": 0.9000205718987863,
	"learning_rate": 2e-05,
	"llm_loss": 0.0072,
	"loss": 0.0419,
	"step": 8750
	},
	{
	"action_loss": 0.0299,
	"epoch": 0.9051635465953507,
	"learning_rate": 2e-05,
	"llm_loss": 0.0081,
	"loss": 0.038,
	"step": 8800
	},
	{
	"action_loss": 0.0213,
	"epoch": 0.9103065212919152,
	"learning_rate": 2e-05,
	"llm_loss": 0.0071,
	"loss": 0.0283,
	"step": 8850
	},
	{
	"action_loss": 0.0295,
	"epoch": 0.9154494959884797,
	"learning_rate": 2e-05,
	"llm_loss": 0.0071,
	"loss": 0.0366,
	"step": 8900
	},
	{
	"action_loss": 0.0288,
	"epoch": 0.9205924706850442,
	"learning_rate": 2e-05,
	"llm_loss": 0.0071,
	"loss": 0.0359,
	"step": 8950
	},
	{
	"action_loss": 0.0299,
	"epoch": 0.9257354453816087,
	"learning_rate": 2e-05,
	"llm_loss": 0.0069,
	"loss": 0.0368,
	"step": 9000
	},
	{
	"action_loss": 0.0302,
	"epoch": 0.9308784200781732,
	"learning_rate": 2e-05,
	"llm_loss": 0.0073,
	"loss": 0.0375,
	"step": 9050
	},
	{
	"action_loss": 0.028,
	"epoch": 0.9360213947747377,
	"learning_rate": 2e-05,
	"llm_loss": 0.0073,
	"loss": 0.0352,
	"step": 9100
	},
	{
	"action_loss": 0.0411,
	"epoch": 0.9411643694713022,
	"learning_rate": 2e-05,
	"llm_loss": 0.0072,
	"loss": 0.0483,
	"step": 9150
	},
	{
	"action_loss": 0.0338,
	"epoch": 0.9463073441678667,
	"learning_rate": 2e-05,
	"llm_loss": 0.0077,
	"loss": 0.0415,
	"step": 9200
	},
	{
	"action_loss": 0.022,
	"epoch": 0.9514503188644312,
	"learning_rate": 2e-05,
	"llm_loss": 0.0071,
	"loss": 0.0291,
	"step": 9250
	},
	{
	"action_loss": 0.026,
	"epoch": 0.9565932935609957,
	"learning_rate": 2e-05,
	"llm_loss": 0.0081,
	"loss": 0.0341,
	"step": 9300
	},
	{
	"action_loss": 0.0341,
	"epoch": 0.9617362682575602,
	"learning_rate": 2e-05,
	"llm_loss": 0.0068,
	"loss": 0.0408,
	"step": 9350
	},
	{
	"action_loss": 0.024,
	"epoch": 0.9668792429541246,
	"learning_rate": 2e-05,
	"llm_loss": 0.0064,
	"loss": 0.0304,
	"step": 9400
	},
	{
	"action_loss": 0.0207,
	"epoch": 0.9720222176506892,
	"learning_rate": 2e-05,
	"llm_loss": 0.0074,
	"loss": 0.028,
	"step": 9450
	},
	{
	"action_loss": 0.0214,
	"epoch": 0.9771651923472536,
	"learning_rate": 2e-05,
	"llm_loss": 0.0073,
	"loss": 0.0287,
	"step": 9500
	},
	{
	"action_loss": 0.0224,
	"epoch": 0.9823081670438182,
	"learning_rate": 2e-05,
	"llm_loss": 0.0077,
	"loss": 0.0301,
	"step": 9550
	},
	{
	"action_loss": 0.0273,
	"epoch": 0.9874511417403826,
	"learning_rate": 2e-05,
	"llm_loss": 0.0062,
	"loss": 0.0334,
	"step": 9600
	},
	{
	"action_loss": 0.0268,
	"epoch": 0.9925941164369472,
	"learning_rate": 2e-05,
	"llm_loss": 0.007,
	"loss": 0.0337,
	"step": 9650
	},
	{
	"action_loss": 0.0247,
	"epoch": 0.9977370911335116,
	"learning_rate": 2e-05,
	"llm_loss": 0.0075,
	"loss": 0.0321,
	"step": 9700
	},
	{
	"action_loss": 0.0347,
	"epoch": 1.002880065830076,
	"learning_rate": 2e-05,
	"llm_loss": 0.0069,
	"loss": 0.0416,
	"step": 9750
	},
	{
	"action_loss": 0.0347,
	"epoch": 1.0080230405266406,
	"learning_rate": 2e-05,
	"llm_loss": 0.0065,
	"loss": 0.0413,
	"step": 9800
	},
	{
	"action_loss": 0.0226,
	"epoch": 1.0131660152232052,
	"learning_rate": 2e-05,
	"llm_loss": 0.0072,
	"loss": 0.0298,
	"step": 9850
	},
	{
	"action_loss": 0.0193,
	"epoch": 1.0183089899197697,
	"learning_rate": 2e-05,
	"llm_loss": 0.0073,
	"loss": 0.0266,
	"step": 9900
	},
	{
	"action_loss": 0.0296,
	"epoch": 1.023451964616334,
	"learning_rate": 2e-05,
	"llm_loss": 0.0065,
	"loss": 0.0361,
	"step": 9950
	},
	{
	"action_loss": 0.0362,
	"epoch": 1.0285949393128986,
	"learning_rate": 2e-05,
	"llm_loss": 0.0063,
	"loss": 0.0425,
	"step": 10000
	},
	{
	"action_loss": 0.026,
	"epoch": 1.0337379140094631,
	"learning_rate": 2e-05,
	"llm_loss": 0.0071,
	"loss": 0.0331,
	"step": 10050
	},
	{
	"action_loss": 0.0259,
	"epoch": 1.0388808887060275,
	"learning_rate": 2e-05,
	"llm_loss": 0.0057,
	"loss": 0.0316,
	"step": 10100
	},
	{
	"action_loss": 0.0235,
	"epoch": 1.044023863402592,
	"learning_rate": 2e-05,
	"llm_loss": 0.0062,
	"loss": 0.0297,
	"step": 10150
	},
	{
	"action_loss": 0.0309,
	"epoch": 1.0491668380991566,
	"learning_rate": 2e-05,
	"llm_loss": 0.007,
	"loss": 0.0379,
	"step": 10200
	},
	{
	"action_loss": 0.0177,
	"epoch": 1.0543098127957211,
	"learning_rate": 2e-05,
	"llm_loss": 0.0061,
	"loss": 0.0238,
	"step": 10250
	},
	{
	"action_loss": 0.0288,
	"epoch": 1.0594527874922854,
	"learning_rate": 2e-05,
	"llm_loss": 0.0061,
	"loss": 0.0349,
	"step": 10300
	},
	{
	"action_loss": 0.0251,
	"epoch": 1.06459576218885,
	"learning_rate": 2e-05,
	"llm_loss": 0.0057,
	"loss": 0.0308,
	"step": 10350
	},
	{
	"action_loss": 0.0277,
	"epoch": 1.0697387368854145,
	"learning_rate": 2e-05,
	"llm_loss": 0.0066,
	"loss": 0.0343,
	"step": 10400
	},
	{
	"action_loss": 0.0312,
	"epoch": 1.074881711581979,
	"learning_rate": 2e-05,
	"llm_loss": 0.0072,
	"loss": 0.0384,
	"step": 10450
	},
	{
	"action_loss": 0.0254,
	"epoch": 1.0800246862785434,
	"learning_rate": 2e-05,
	"llm_loss": 0.0059,
	"loss": 0.0313,
	"step": 10500
	},
	{
	"action_loss": 0.0282,
	"epoch": 1.085167660975108,
	"learning_rate": 2e-05,
	"llm_loss": 0.0057,
	"loss": 0.0339,
	"step": 10550
	},
	{
	"action_loss": 0.0357,
	"epoch": 1.0903106356716725,
	"learning_rate": 2e-05,
	"llm_loss": 0.0063,
	"loss": 0.042,
	"step": 10600
	},
	{
	"action_loss": 0.028,
	"epoch": 1.095453610368237,
	"learning_rate": 2e-05,
	"llm_loss": 0.0066,
	"loss": 0.0347,
	"step": 10650
	},
	{
	"action_loss": 0.0252,
	"epoch": 1.1005965850648014,
	"learning_rate": 2e-05,
	"llm_loss": 0.0062,
	"loss": 0.0314,
	"step": 10700
	},
	{
	"action_loss": 0.0263,
	"epoch": 1.105739559761366,
	"learning_rate": 2e-05,
	"llm_loss": 0.0062,
	"loss": 0.0325,
	"step": 10750
	},
	{
	"action_loss": 0.023,
	"epoch": 1.1108825344579305,
	"learning_rate": 2e-05,
	"llm_loss": 0.0066,
	"loss": 0.0296,
	"step": 10800
	},
	{
	"action_loss": 0.0303,
	"epoch": 1.116025509154495,
	"learning_rate": 2e-05,
	"llm_loss": 0.0063,
	"loss": 0.0365,
	"step": 10850
	},
	{
	"action_loss": 0.0296,
	"epoch": 1.1211684838510594,
	"learning_rate": 2e-05,
	"llm_loss": 0.0062,
	"loss": 0.0358,
	"step": 10900
	},
	{
	"action_loss": 0.0281,
	"epoch": 1.126311458547624,
	"learning_rate": 2e-05,
	"llm_loss": 0.0057,
	"loss": 0.0338,
	"step": 10950
	},
	{
	"action_loss": 0.0305,
	"epoch": 1.1314544332441885,
	"learning_rate": 2e-05,
	"llm_loss": 0.0056,
	"loss": 0.036,
	"step": 11000
	},
	{
	"action_loss": 0.0304,
	"epoch": 1.1365974079407528,
	"learning_rate": 2e-05,
	"llm_loss": 0.0056,
	"loss": 0.036,
	"step": 11050
	},
	{
	"action_loss": 0.0383,
	"epoch": 1.1417403826373174,
	"learning_rate": 2e-05,
	"llm_loss": 0.0063,
	"loss": 0.0446,
	"step": 11100
	},
	{
	"action_loss": 0.0248,
	"epoch": 1.146883357333882,
	"learning_rate": 2e-05,
	"llm_loss": 0.0064,
	"loss": 0.0312,
	"step": 11150
	},
	{
	"action_loss": 0.0274,
	"epoch": 1.1520263320304465,
	"learning_rate": 2e-05,
	"llm_loss": 0.0065,
	"loss": 0.0339,
	"step": 11200
	},
	{
	"action_loss": 0.0234,
	"epoch": 1.157169306727011,
	"learning_rate": 2e-05,
	"llm_loss": 0.0066,
	"loss": 0.0301,
	"step": 11250
	},
	{
	"action_loss": 0.0244,
	"epoch": 1.1623122814235753,
	"learning_rate": 2e-05,
	"llm_loss": 0.0056,
	"loss": 0.03,
	"step": 11300
	},
	{
	"action_loss": 0.025,
	"epoch": 1.16745525612014,
	"learning_rate": 2e-05,
	"llm_loss": 0.0065,
	"loss": 0.0315,
	"step": 11350
	},
	{
	"action_loss": 0.0268,
	"epoch": 1.1725982308167044,
	"learning_rate": 2e-05,
	"llm_loss": 0.0054,
	"loss": 0.0322,
	"step": 11400
	},
	{
	"action_loss": 0.0209,
	"epoch": 1.1777412055132688,
	"learning_rate": 2e-05,
	"llm_loss": 0.0063,
	"loss": 0.0272,
	"step": 11450
	},
	{
	"action_loss": 0.0294,
	"epoch": 1.1828841802098333,
	"learning_rate": 2e-05,
	"llm_loss": 0.0061,
	"loss": 0.0355,
	"step": 11500
	},
	{
	"action_loss": 0.0234,
	"epoch": 1.1880271549063979,
	"learning_rate": 2e-05,
	"llm_loss": 0.0064,
	"loss": 0.0298,
	"step": 11550
	},
	{
	"action_loss": 0.0306,
	"epoch": 1.1931701296029624,
	"learning_rate": 2e-05,
	"llm_loss": 0.0062,
	"loss": 0.0367,
	"step": 11600
	},
	{
	"action_loss": 0.027,
	"epoch": 1.1983131042995268,
	"learning_rate": 2e-05,
	"llm_loss": 0.0063,
	"loss": 0.0333,
	"step": 11650
	},
	{
	"action_loss": 0.0186,
	"epoch": 1.2034560789960913,
	"learning_rate": 2e-05,
	"llm_loss": 0.0063,
	"loss": 0.0249,
	"step": 11700
	},
	{
	"action_loss": 0.0397,
	"epoch": 1.2085990536926559,
	"learning_rate": 2e-05,
	"llm_loss": 0.0064,
	"loss": 0.0461,
	"step": 11750
	},
	{
	"action_loss": 0.0337,
	"epoch": 1.2137420283892204,
	"learning_rate": 2e-05,
	"llm_loss": 0.0054,
	"loss": 0.0391,
	"step": 11800
	},
	{
	"action_loss": 0.0202,
	"epoch": 1.2188850030857847,
	"learning_rate": 2e-05,
	"llm_loss": 0.006,
	"loss": 0.0262,
	"step": 11850
	},
	{
	"action_loss": 0.0277,
	"epoch": 1.2240279777823493,
	"learning_rate": 2e-05,
	"llm_loss": 0.0059,
	"loss": 0.0336,
	"step": 11900
	},
	{
	"action_loss": 0.0242,
	"epoch": 1.2291709524789138,
	"learning_rate": 2e-05,
	"llm_loss": 0.006,
	"loss": 0.0303,
	"step": 11950
	},
	{
	"action_loss": 0.0324,
	"epoch": 1.2343139271754784,
	"learning_rate": 2e-05,
	"llm_loss": 0.0057,
	"loss": 0.0381,
	"step": 12000
	},
	{
	"action_loss": 0.0206,
	"epoch": 1.2394569018720427,
	"learning_rate": 2e-05,
	"llm_loss": 0.0051,
	"loss": 0.0257,
	"step": 12050
	},
	{
	"action_loss": 0.0252,
	"epoch": 1.2445998765686073,
	"learning_rate": 2e-05,
	"llm_loss": 0.0063,
	"loss": 0.0315,
	"step": 12100
	},
	{
	"action_loss": 0.0256,
	"epoch": 1.2497428512651718,
	"learning_rate": 2e-05,
	"llm_loss": 0.0057,
	"loss": 0.0314,
	"step": 12150
	},
	{
	"action_loss": 0.0322,
	"epoch": 1.2548858259617361,
	"learning_rate": 2e-05,
	"llm_loss": 0.0064,
	"loss": 0.0386,
	"step": 12200
	},
	{
	"action_loss": 0.0276,
	"epoch": 1.2600288006583007,
	"learning_rate": 2e-05,
	"llm_loss": 0.0055,
	"loss": 0.0331,
	"step": 12250
	},
	{
	"action_loss": 0.0267,
	"epoch": 1.2651717753548652,
	"learning_rate": 2e-05,
	"llm_loss": 0.0066,
	"loss": 0.0333,
	"step": 12300
	},
	{
	"action_loss": 0.0276,
	"epoch": 1.2703147500514298,
	"learning_rate": 2e-05,
	"llm_loss": 0.0057,
	"loss": 0.0333,
	"step": 12350
	},
	{
	"action_loss": 0.0336,
	"epoch": 1.2754577247479943,
	"learning_rate": 2e-05,
	"llm_loss": 0.0067,
	"loss": 0.0403,
	"step": 12400
	},
	{
	"action_loss": 0.0257,
	"epoch": 1.2806006994445587,
	"learning_rate": 2e-05,
	"llm_loss": 0.0064,
	"loss": 0.0321,
	"step": 12450
	},
	{
	"action_loss": 0.0227,
	"epoch": 1.2857436741411232,
	"learning_rate": 2e-05,
	"llm_loss": 0.0059,
	"loss": 0.0286,
	"step": 12500
	},
	{
	"action_loss": 0.026,
	"epoch": 1.2908866488376878,
	"learning_rate": 2e-05,
	"llm_loss": 0.0058,
	"loss": 0.0319,
	"step": 12550
	},
	{
	"action_loss": 0.0255,
	"epoch": 1.296029623534252,
	"learning_rate": 2e-05,
	"llm_loss": 0.0062,
	"loss": 0.0317,
	"step": 12600
	},
	{
	"action_loss": 0.0175,
	"epoch": 1.3011725982308167,
	"learning_rate": 2e-05,
	"llm_loss": 0.0054,
	"loss": 0.0229,
	"step": 12650
	},
	{
	"action_loss": 0.0267,
	"epoch": 1.3063155729273812,
	"learning_rate": 2e-05,
	"llm_loss": 0.0057,
	"loss": 0.0324,
	"step": 12700
	},
	{
	"action_loss": 0.0271,
	"epoch": 1.3114585476239458,
	"learning_rate": 2e-05,
	"llm_loss": 0.0053,
	"loss": 0.0324,
	"step": 12750
	},
	{
	"action_loss": 0.0255,
	"epoch": 1.3166015223205103,
	"learning_rate": 2e-05,
	"llm_loss": 0.0062,
	"loss": 0.0316,
	"step": 12800
	},
	{
	"action_loss": 0.0327,
	"epoch": 1.3217444970170746,
	"learning_rate": 2e-05,
	"llm_loss": 0.0057,
	"loss": 0.0384,
	"step": 12850
	},
	{
	"action_loss": 0.0288,
	"epoch": 1.3268874717136392,
	"learning_rate": 2e-05,
	"llm_loss": 0.0066,
	"loss": 0.0353,
	"step": 12900
	},
	{
	"action_loss": 0.035,
	"epoch": 1.3320304464102037,
	"learning_rate": 2e-05,
	"llm_loss": 0.0059,
	"loss": 0.0408,
	"step": 12950
	},
	{
	"action_loss": 0.0178,
	"epoch": 1.337173421106768,
	"learning_rate": 2e-05,
	"llm_loss": 0.006,
	"loss": 0.0238,
	"step": 13000
	},
	{
	"action_loss": 0.0332,
	"epoch": 1.3423163958033326,
	"learning_rate": 2e-05,
	"llm_loss": 0.0057,
	"loss": 0.0389,
	"step": 13050
	},
	{
	"action_loss": 0.0379,
	"epoch": 1.3474593704998972,
	"learning_rate": 2e-05,
	"llm_loss": 0.0052,
	"loss": 0.043,
	"step": 13100
	},
	{
	"action_loss": 0.0306,
	"epoch": 1.3526023451964617,
	"learning_rate": 2e-05,
	"llm_loss": 0.0058,
	"loss": 0.0364,
	"step": 13150
	},
	{
	"action_loss": 0.0181,
	"epoch": 1.357745319893026,
	"learning_rate": 2e-05,
	"llm_loss": 0.0056,
	"loss": 0.0237,
	"step": 13200
	},
	{
	"action_loss": 0.033,
	"epoch": 1.3628882945895906,
	"learning_rate": 2e-05,
	"llm_loss": 0.005,
	"loss": 0.038,
	"step": 13250
	},
	{
	"action_loss": 0.0263,
	"epoch": 1.3680312692861551,
	"learning_rate": 2e-05,
	"llm_loss": 0.0057,
	"loss": 0.032,
	"step": 13300
	},
	{
	"action_loss": 0.0351,
	"epoch": 1.3731742439827195,
	"learning_rate": 2e-05,
	"llm_loss": 0.0058,
	"loss": 0.0409,
	"step": 13350
	},
	{
	"action_loss": 0.0183,
	"epoch": 1.378317218679284,
	"learning_rate": 2e-05,
	"llm_loss": 0.0054,
	"loss": 0.0236,
	"step": 13400
	},
	{
	"action_loss": 0.0322,
	"epoch": 1.3834601933758486,
	"learning_rate": 2e-05,
	"llm_loss": 0.0055,
	"loss": 0.0377,
	"step": 13450
	},
	{
	"action_loss": 0.0276,
	"epoch": 1.3886031680724131,
	"learning_rate": 2e-05,
	"llm_loss": 0.0057,
	"loss": 0.0333,
	"step": 13500
	},
	{
	"action_loss": 0.0344,
	"epoch": 1.3937461427689777,
	"learning_rate": 2e-05,
	"llm_loss": 0.0056,
	"loss": 0.0401,
	"step": 13550
	},
	{
	"action_loss": 0.0307,
	"epoch": 1.398889117465542,
	"learning_rate": 2e-05,
	"llm_loss": 0.0062,
	"loss": 0.0369,
	"step": 13600
	},
	{
	"action_loss": 0.0383,
	"epoch": 1.4040320921621066,
	"learning_rate": 2e-05,
	"llm_loss": 0.006,
	"loss": 0.0443,
	"step": 13650
	},
	{
	"action_loss": 0.0325,
	"epoch": 1.409175066858671,
	"learning_rate": 2e-05,
	"llm_loss": 0.006,
	"loss": 0.0385,
	"step": 13700
	},
	{
	"action_loss": 0.0256,
	"epoch": 1.4143180415552354,
	"learning_rate": 2e-05,
	"llm_loss": 0.0062,
	"loss": 0.0317,
	"step": 13750
	},
	{
	"action_loss": 0.0261,
	"epoch": 1.4194610162518,
	"learning_rate": 2e-05,
	"llm_loss": 0.0055,
	"loss": 0.0316,
	"step": 13800
	},
	{
	"action_loss": 0.0296,
	"epoch": 1.4246039909483645,
	"learning_rate": 2e-05,
	"llm_loss": 0.0066,
	"loss": 0.0361,
	"step": 13850
	},
	{
	"action_loss": 0.03,
	"epoch": 1.429746965644929,
	"learning_rate": 2e-05,
	"llm_loss": 0.0047,
	"loss": 0.0347,
	"step": 13900
	},
	{
	"action_loss": 0.0285,
	"epoch": 1.4348899403414936,
	"learning_rate": 2e-05,
	"llm_loss": 0.0095,
	"loss": 0.038,
	"step": 13950
	},
	{
	"action_loss": 0.0241,
	"epoch": 1.440032915038058,
	"learning_rate": 2e-05,
	"llm_loss": 0.0055,
	"loss": 0.0296,
	"step": 14000
	},
	{
	"action_loss": 0.0291,
	"epoch": 1.4451758897346225,
	"learning_rate": 2e-05,
	"llm_loss": 0.005,
	"loss": 0.0341,
	"step": 14050
	},
	{
	"action_loss": 0.0167,
	"epoch": 1.450318864431187,
	"learning_rate": 2e-05,
	"llm_loss": 0.0053,
	"loss": 0.022,
	"step": 14100
	},
	{
	"action_loss": 0.023,
	"epoch": 1.4554618391277514,
	"learning_rate": 2e-05,
	"llm_loss": 0.005,
	"loss": 0.028,
	"step": 14150
	},
	{
	"action_loss": 0.0237,
	"epoch": 1.460604813824316,
	"learning_rate": 2e-05,
	"llm_loss": 0.006,
	"loss": 0.0297,
	"step": 14200
	},
	{
	"action_loss": 0.0241,
	"epoch": 1.4657477885208805,
	"learning_rate": 2e-05,
	"llm_loss": 0.0048,
	"loss": 0.0288,
	"step": 14250
	},
	{
	"action_loss": 0.0247,
	"epoch": 1.470890763217445,
	"learning_rate": 2e-05,
	"llm_loss": 0.0058,
	"loss": 0.0305,
	"step": 14300
	},
	{
	"action_loss": 0.0244,
	"epoch": 1.4760337379140094,
	"learning_rate": 2e-05,
	"llm_loss": 0.0052,
	"loss": 0.0296,
	"step": 14350
	},
	{
	"action_loss": 0.03,
	"epoch": 1.481176712610574,
	"learning_rate": 2e-05,
	"llm_loss": 0.0058,
	"loss": 0.0358,
	"step": 14400
	},
	{
	"action_loss": 0.0312,
	"epoch": 1.4863196873071385,
	"learning_rate": 2e-05,
	"llm_loss": 0.0054,
	"loss": 0.0366,
	"step": 14450
	},
	{
	"action_loss": 0.0338,
	"epoch": 1.4914626620037028,
	"learning_rate": 2e-05,
	"llm_loss": 0.0054,
	"loss": 0.0392,
	"step": 14500
	},
	{
	"action_loss": 0.0195,
	"epoch": 1.4966056367002674,
	"learning_rate": 2e-05,
	"llm_loss": 0.0053,
	"loss": 0.0248,
	"step": 14550
	},
	{
	"action_loss": 0.023,
	"epoch": 1.501748611396832,
	"learning_rate": 2e-05,
	"llm_loss": 0.0052,
	"loss": 0.0282,
	"step": 14600
	},
	{
	"action_loss": 0.0266,
	"epoch": 1.5068915860933965,
	"learning_rate": 2e-05,
	"llm_loss": 0.0062,
	"loss": 0.0328,
	"step": 14650
	},
	{
	"action_loss": 0.0306,
	"epoch": 1.512034560789961,
	"learning_rate": 2e-05,
	"llm_loss": 0.0055,
	"loss": 0.0361,
	"step": 14700
	},
	{
	"action_loss": 0.0184,
	"epoch": 1.5171775354865256,
	"learning_rate": 2e-05,
	"llm_loss": 0.0051,
	"loss": 0.0235,
	"step": 14750
	},
	{
	"action_loss": 0.0294,
	"epoch": 1.52232051018309,
	"learning_rate": 2e-05,
	"llm_loss": 0.005,
	"loss": 0.0344,
	"step": 14800
	},
	{
	"action_loss": 0.0254,
	"epoch": 1.5274634848796544,
	"learning_rate": 2e-05,
	"llm_loss": 0.0058,
	"loss": 0.0312,
	"step": 14850
	},
	{
	"action_loss": 0.0299,
	"epoch": 1.5326064595762188,
	"learning_rate": 2e-05,
	"llm_loss": 0.0054,
	"loss": 0.0352,
	"step": 14900
	},
	{
	"action_loss": 0.0283,
	"epoch": 1.5377494342727833,
	"learning_rate": 2e-05,
	"llm_loss": 0.0049,
	"loss": 0.0332,
	"step": 14950
	},
	{
	"action_loss": 0.0279,
	"epoch": 1.5428924089693479,
	"learning_rate": 2e-05,
	"llm_loss": 0.006,
	"loss": 0.0339,
	"step": 15000
	},
	{
	"action_loss": 0.0244,
	"epoch": 1.5480353836659124,
	"learning_rate": 2e-05,
	"llm_loss": 0.0055,
	"loss": 0.0299,
	"step": 15050
	},
	{
	"action_loss": 0.0272,
	"epoch": 1.553178358362477,
	"learning_rate": 2e-05,
	"llm_loss": 0.0064,
	"loss": 0.0335,
	"step": 15100
	},
	{
	"action_loss": 0.0339,
	"epoch": 1.5583213330590413,
	"learning_rate": 2e-05,
	"llm_loss": 0.0055,
	"loss": 0.0394,
	"step": 15150
	},
	{
	"action_loss": 0.0192,
	"epoch": 1.5634643077556059,
	"learning_rate": 2e-05,
	"llm_loss": 0.0048,
	"loss": 0.024,
	"step": 15200
	},
	{
	"action_loss": 0.0277,
	"epoch": 1.5686072824521702,
	"learning_rate": 2e-05,
	"llm_loss": 0.0051,
	"loss": 0.0328,
	"step": 15250
	},
	{
	"action_loss": 0.0165,
	"epoch": 1.5737502571487347,
	"learning_rate": 2e-05,
	"llm_loss": 0.0059,
	"loss": 0.0224,
	"step": 15300
	},
	{
	"action_loss": 0.023,
	"epoch": 1.5788932318452993,
	"learning_rate": 2e-05,
	"llm_loss": 0.0063,
	"loss": 0.0293,
	"step": 15350
	},
	{
	"action_loss": 0.0282,
	"epoch": 1.5840362065418638,
	"learning_rate": 2e-05,
	"llm_loss": 0.0055,
	"loss": 0.0338,
	"step": 15400
	},
	{
	"action_loss": 0.0161,
	"epoch": 1.5891791812384284,
	"learning_rate": 2e-05,
	"llm_loss": 0.0059,
	"loss": 0.022,
	"step": 15450
	},
	{
	"action_loss": 0.0333,
	"epoch": 1.594322155934993,
	"learning_rate": 2e-05,
	"llm_loss": 0.0045,
	"loss": 0.0378,
	"step": 15500
	},
	{
	"action_loss": 0.0245,
	"epoch": 1.5994651306315573,
	"learning_rate": 2e-05,
	"llm_loss": 0.0053,
	"loss": 0.0298,
	"step": 15550
	},
	{
	"action_loss": 0.0264,
	"epoch": 1.6046081053281218,
	"learning_rate": 2e-05,
	"llm_loss": 0.0051,
	"loss": 0.0315,
	"step": 15600
	},
	{
	"action_loss": 0.0253,
	"epoch": 1.6097510800246861,
	"learning_rate": 2e-05,
	"llm_loss": 0.0057,
	"loss": 0.031,
	"step": 15650
	},
	{
	"action_loss": 0.021,
	"epoch": 1.6148940547212507,
	"learning_rate": 2e-05,
	"llm_loss": 0.0056,
	"loss": 0.0266,
	"step": 15700
	},
	{
	"action_loss": 0.0276,
	"epoch": 1.6200370294178152,
	"learning_rate": 2e-05,
	"llm_loss": 0.0051,
	"loss": 0.0327,
	"step": 15750
	},
	{
	"action_loss": 0.0385,
	"epoch": 1.6251800041143798,
	"learning_rate": 2e-05,
	"llm_loss": 0.0051,
	"loss": 0.0436,
	"step": 15800
	},
	{
	"action_loss": 0.031,
	"epoch": 1.6303229788109443,
	"learning_rate": 2e-05,
	"llm_loss": 0.0056,
	"loss": 0.0366,
	"step": 15850
	},
	{
	"action_loss": 0.0293,
	"epoch": 1.635465953507509,
	"learning_rate": 2e-05,
	"llm_loss": 0.0053,
	"loss": 0.0346,
	"step": 15900
	},
	{
	"action_loss": 0.022,
	"epoch": 1.6406089282040732,
	"learning_rate": 2e-05,
	"llm_loss": 0.0057,
	"loss": 0.0277,
	"step": 15950
	},
	{
	"action_loss": 0.0242,
	"epoch": 1.6457519029006378,
	"learning_rate": 2e-05,
	"llm_loss": 0.0052,
	"loss": 0.0293,
	"step": 16000
	},
	{
	"action_loss": 0.0229,
	"epoch": 1.650894877597202,
	"learning_rate": 2e-05,
	"llm_loss": 0.0046,
	"loss": 0.0275,
	"step": 16050
	},
	{
	"action_loss": 0.0208,
	"epoch": 1.6560378522937667,
	"learning_rate": 2e-05,
	"llm_loss": 0.0057,
	"loss": 0.0265,
	"step": 16100
	},
	{
	"action_loss": 0.0277,
	"epoch": 1.6611808269903312,
	"learning_rate": 2e-05,
	"llm_loss": 0.0054,
	"loss": 0.0332,
	"step": 16150
	},
	{
	"action_loss": 0.0318,
	"epoch": 1.6663238016868958,
	"learning_rate": 2e-05,
	"llm_loss": 0.0054,
	"loss": 0.0372,
	"step": 16200
	},
	{
	"action_loss": 0.0203,
	"epoch": 1.6714667763834603,
	"learning_rate": 2e-05,
	"llm_loss": 0.0053,
	"loss": 0.0256,
	"step": 16250
	},
	{
	"action_loss": 0.0312,
	"epoch": 1.6766097510800246,
	"learning_rate": 2e-05,
	"llm_loss": 0.0048,
	"loss": 0.0361,
	"step": 16300
	},
	{
	"action_loss": 0.0299,
	"epoch": 1.6817527257765892,
	"learning_rate": 2e-05,
	"llm_loss": 0.0055,
	"loss": 0.0355,
	"step": 16350
	},
	{
	"action_loss": 0.0382,
	"epoch": 1.6868957004731535,
	"learning_rate": 2e-05,
	"llm_loss": 0.005,
	"loss": 0.0432,
	"step": 16400
	},
	{
	"action_loss": 0.0252,
	"epoch": 1.692038675169718,
	"learning_rate": 2e-05,
	"llm_loss": 0.0057,
	"loss": 0.0309,
	"step": 16450
	},
	{
	"action_loss": 0.0303,
	"epoch": 1.6971816498662826,
	"learning_rate": 2e-05,
	"llm_loss": 0.0051,
	"loss": 0.0354,
	"step": 16500
	},
	{
	"action_loss": 0.0346,
	"epoch": 1.7023246245628472,
	"learning_rate": 2e-05,
	"llm_loss": 0.0046,
	"loss": 0.0392,
	"step": 16550
	},
	{
	"action_loss": 0.0225,
	"epoch": 1.7074675992594117,
	"learning_rate": 2e-05,
	"llm_loss": 0.0049,
	"loss": 0.0273,
	"step": 16600
	},
	{
	"action_loss": 0.0243,
	"epoch": 1.7126105739559763,
	"learning_rate": 2e-05,
	"llm_loss": 0.0054,
	"loss": 0.0297,
	"step": 16650
	},
	{
	"action_loss": 0.0231,
	"epoch": 1.7177535486525406,
	"learning_rate": 2e-05,
	"llm_loss": 0.0046,
	"loss": 0.0277,
	"step": 16700
	},
	{
	"action_loss": 0.0267,
	"epoch": 1.7228965233491051,
	"learning_rate": 2e-05,
	"llm_loss": 0.0049,
	"loss": 0.0316,
	"step": 16750
	},
	{
	"action_loss": 0.04,
	"epoch": 1.7280394980456695,
	"learning_rate": 2e-05,
	"llm_loss": 0.0055,
	"loss": 0.0455,
	"step": 16800
	},
	{
	"action_loss": 0.0408,
	"epoch": 1.733182472742234,
	"learning_rate": 2e-05,
	"llm_loss": 0.0049,
	"loss": 0.0457,
	"step": 16850
	},
	{
	"action_loss": 0.028,
	"epoch": 1.7383254474387986,
	"learning_rate": 2e-05,
	"llm_loss": 0.006,
	"loss": 0.034,
	"step": 16900
	},
	{
	"action_loss": 0.0328,
	"epoch": 1.7434684221353631,
	"learning_rate": 2e-05,
	"llm_loss": 0.0054,
	"loss": 0.0382,
	"step": 16950
	},
	{
	"action_loss": 0.0221,
	"epoch": 1.7486113968319277,
	"learning_rate": 2e-05,
	"llm_loss": 0.0053,
	"loss": 0.0274,
	"step": 17000
	},
	{
	"action_loss": 0.0203,
	"epoch": 1.7537543715284922,
	"learning_rate": 2e-05,
	"llm_loss": 0.0049,
	"loss": 0.0252,
	"step": 17050
	},
	{
	"action_loss": 0.0303,
	"epoch": 1.7588973462250566,
	"learning_rate": 2e-05,
	"llm_loss": 0.005,
	"loss": 0.0353,
	"step": 17100
	},
	{
	"action_loss": 0.0194,
	"epoch": 1.764040320921621,
	"learning_rate": 2e-05,
	"llm_loss": 0.0049,
	"loss": 0.0242,
	"step": 17150
	},
	{
	"action_loss": 0.0276,
	"epoch": 1.7691832956181854,
	"learning_rate": 2e-05,
	"llm_loss": 0.0063,
	"loss": 0.0339,
	"step": 17200
	},
	{
	"action_loss": 0.0276,
	"epoch": 1.77432627031475,
	"learning_rate": 2e-05,
	"llm_loss": 0.0111,
	"loss": 0.0387,
	"step": 17250
	},
	{
	"action_loss": 0.0201,
	"epoch": 1.7794692450113145,
	"learning_rate": 2e-05,
	"llm_loss": 0.0048,
	"loss": 0.025,
	"step": 17300
	},
	{
	"action_loss": 0.0224,
	"epoch": 1.784612219707879,
	"learning_rate": 2e-05,
	"llm_loss": 0.0047,
	"loss": 0.027,
	"step": 17350
	},
	{
	"action_loss": 0.0249,
	"epoch": 1.7897551944044436,
	"learning_rate": 2e-05,
	"llm_loss": 0.005,
	"loss": 0.0299,
	"step": 17400
	},
	{
	"action_loss": 0.0217,
	"epoch": 1.794898169101008,
	"learning_rate": 2e-05,
	"llm_loss": 0.0048,
	"loss": 0.0265,
	"step": 17450
	},
	{
	"action_loss": 0.0313,
	"epoch": 1.8000411437975725,
	"learning_rate": 2e-05,
	"llm_loss": 0.0054,
	"loss": 0.0367,
	"step": 17500
	},
	{
	"action_loss": 0.0215,
	"epoch": 1.8051841184941368,
	"learning_rate": 2e-05,
	"llm_loss": 0.0048,
	"loss": 0.0263,
	"step": 17550
	},
	{
	"action_loss": 0.0292,
	"epoch": 1.8103270931907014,
	"learning_rate": 2e-05,
	"llm_loss": 0.0048,
	"loss": 0.034,
	"step": 17600
	},
	{
	"action_loss": 0.0273,
	"epoch": 1.815470067887266,
	"learning_rate": 2e-05,
	"llm_loss": 0.0041,
	"loss": 0.0314,
	"step": 17650
	},
	{
	"action_loss": 0.0331,
	"epoch": 1.8206130425838305,
	"learning_rate": 2e-05,
	"llm_loss": 0.0054,
	"loss": 0.0385,
	"step": 17700
	},
	{
	"action_loss": 0.0261,
	"epoch": 1.825756017280395,
	"learning_rate": 2e-05,
	"llm_loss": 0.005,
	"loss": 0.0311,
	"step": 17750
	},
	{
	"action_loss": 0.0251,
	"epoch": 1.8308989919769596,
	"learning_rate": 2e-05,
	"llm_loss": 0.0056,
	"loss": 0.0306,
	"step": 17800
	},
	{
	"action_loss": 0.0285,
	"epoch": 1.836041966673524,
	"learning_rate": 2e-05,
	"llm_loss": 0.0051,
	"loss": 0.0336,
	"step": 17850
	},
	{
	"action_loss": 0.0328,
	"epoch": 1.8411849413700885,
	"learning_rate": 2e-05,
	"llm_loss": 0.0045,
	"loss": 0.0373,
	"step": 17900
	},
	{
	"action_loss": 0.0333,
	"epoch": 1.8463279160666528,
	"learning_rate": 2e-05,
	"llm_loss": 0.0048,
	"loss": 0.038,
	"step": 17950
	},
	{
	"action_loss": 0.0375,
	"epoch": 1.8514708907632174,
	"learning_rate": 2e-05,
	"llm_loss": 0.0048,
	"loss": 0.0423,
	"step": 18000
	},
	{
	"action_loss": 0.0207,
	"epoch": 1.856613865459782,
	"learning_rate": 2e-05,
	"llm_loss": 0.0047,
	"loss": 0.0254,
	"step": 18050
	},
	{
	"action_loss": 0.0232,
	"epoch": 1.8617568401563465,
	"learning_rate": 2e-05,
	"llm_loss": 0.0055,
	"loss": 0.0287,
	"step": 18100
	},
	{
	"action_loss": 0.0193,
	"epoch": 1.866899814852911,
	"learning_rate": 2e-05,
	"llm_loss": 0.0042,
	"loss": 0.0234,
	"step": 18150
	},
	{
	"action_loss": 0.0217,
	"epoch": 1.8720427895494756,
	"learning_rate": 2e-05,
	"llm_loss": 0.0048,
	"loss": 0.0265,
	"step": 18200
	},
	{
	"action_loss": 0.0297,
	"epoch": 1.87718576424604,
	"learning_rate": 2e-05,
	"llm_loss": 0.006,
	"loss": 0.0356,
	"step": 18250
	},
	{
	"action_loss": 0.025,
	"epoch": 1.8823287389426044,
	"learning_rate": 2e-05,
	"llm_loss": 0.0052,
	"loss": 0.0302,
	"step": 18300
	},
	{
	"action_loss": 0.0275,
	"epoch": 1.8874717136391688,
	"learning_rate": 2e-05,
	"llm_loss": 0.0048,
	"loss": 0.0322,
	"step": 18350
	},
	{
	"action_loss": 0.0236,
	"epoch": 1.8926146883357333,
	"learning_rate": 2e-05,
	"llm_loss": 0.0057,
	"loss": 0.0293,
	"step": 18400
	},
	{
	"action_loss": 0.0347,
	"epoch": 1.8977576630322979,
	"learning_rate": 2e-05,
	"llm_loss": 0.0044,
	"loss": 0.0391,
	"step": 18450
	},
	{
	"action_loss": 0.0294,
	"epoch": 1.9029006377288624,
	"learning_rate": 2e-05,
	"llm_loss": 0.0053,
	"loss": 0.0348,
	"step": 18500
	},
	{
	"action_loss": 0.03,
	"epoch": 1.908043612425427,
	"learning_rate": 2e-05,
	"llm_loss": 0.0048,
	"loss": 0.0347,
	"step": 18550
	},
	{
	"action_loss": 0.025,
	"epoch": 1.9131865871219915,
	"learning_rate": 2e-05,
	"llm_loss": 0.0046,
	"loss": 0.0296,
	"step": 18600
	},
	{
	"action_loss": 0.0282,
	"epoch": 1.9183295618185559,
	"learning_rate": 2e-05,
	"llm_loss": 0.0043,
	"loss": 0.0325,
	"step": 18650
	},
	{
	"action_loss": 0.0301,
	"epoch": 1.9234725365151202,
	"learning_rate": 2e-05,
	"llm_loss": 0.0046,
	"loss": 0.0347,
	"step": 18700
	},
	{
	"action_loss": 0.0309,
	"epoch": 1.9286155112116847,
	"learning_rate": 2e-05,
	"llm_loss": 0.0049,
	"loss": 0.0358,
	"step": 18750
	},
	{
	"action_loss": 0.028,
	"epoch": 1.9337584859082493,
	"learning_rate": 2e-05,
	"llm_loss": 0.0056,
	"loss": 0.0336,
	"step": 18800
	},
	{
	"action_loss": 0.0352,
	"epoch": 1.9389014606048138,
	"learning_rate": 2e-05,
	"llm_loss": 0.0048,
	"loss": 0.04,
	"step": 18850
	},
	{
	"action_loss": 0.027,
	"epoch": 1.9440444353013784,
	"learning_rate": 2e-05,
	"llm_loss": 0.0057,
	"loss": 0.0327,
	"step": 18900
	},
	{
	"action_loss": 0.0214,
	"epoch": 1.949187409997943,
	"learning_rate": 2e-05,
	"llm_loss": 0.0052,
	"loss": 0.0266,
	"step": 18950
	},
	{
	"action_loss": 0.0301,
	"epoch": 1.9543303846945073,
	"learning_rate": 2e-05,
	"llm_loss": 0.0045,
	"loss": 0.0346,
	"step": 19000
	},
	{
	"action_loss": 0.0284,
	"epoch": 1.9594733593910718,
	"learning_rate": 2e-05,
	"llm_loss": 0.0047,
	"loss": 0.0331,
	"step": 19050
	},
	{
	"action_loss": 0.0274,
	"epoch": 1.9646163340876361,
	"learning_rate": 2e-05,
	"llm_loss": 0.0056,
	"loss": 0.0329,
	"step": 19100
	},
	{
	"action_loss": 0.018,
	"epoch": 1.9697593087842007,
	"learning_rate": 2e-05,
	"llm_loss": 0.0049,
	"loss": 0.0229,
	"step": 19150
	},
	{
	"action_loss": 0.0213,
	"epoch": 1.9749022834807652,
	"learning_rate": 2e-05,
	"llm_loss": 0.0048,
	"loss": 0.0261,
	"step": 19200
	},
	{
	"action_loss": 0.027,
	"epoch": 1.9800452581773298,
	"learning_rate": 2e-05,
	"llm_loss": 0.0056,
	"loss": 0.0325,
	"step": 19250
	},
	{
	"action_loss": 0.0204,
	"epoch": 1.9851882328738943,
	"learning_rate": 2e-05,
	"llm_loss": 0.0054,
	"loss": 0.0258,
	"step": 19300
	},
	{
	"action_loss": 0.0371,
	"epoch": 1.990331207570459,
	"learning_rate": 2e-05,
	"llm_loss": 0.0051,
	"loss": 0.0422,
	"step": 19350
	},
	{
	"action_loss": 0.0285,
	"epoch": 1.9954741822670232,
	"learning_rate": 2e-05,
	"llm_loss": 0.0048,
	"loss": 0.0333,
	"step": 19400
	},
	{
	"action_loss": 0.0237,
	"epoch": 2.0006171569635876,
	"learning_rate": 2e-05,
	"llm_loss": 0.0053,
	"loss": 0.029,
	"step": 19450
	},
	{
	"action_loss": 0.0297,
	"epoch": 2.005760131660152,
	"learning_rate": 2e-05,
	"llm_loss": 0.0049,
	"loss": 0.0346,
	"step": 19500
	},
	{
	"action_loss": 0.0239,
	"epoch": 2.0109031063567167,
	"learning_rate": 2e-05,
	"llm_loss": 0.0042,
	"loss": 0.0281,
	"step": 19550
	},
	{
	"action_loss": 0.0337,
	"epoch": 2.016046081053281,
	"learning_rate": 2e-05,
	"llm_loss": 0.004,
	"loss": 0.0378,
	"step": 19600
	},
	{
	"action_loss": 0.0235,
	"epoch": 2.0211890557498458,
	"learning_rate": 2e-05,
	"llm_loss": 0.0043,
	"loss": 0.0277,
	"step": 19650
	},
	{
	"action_loss": 0.0365,
	"epoch": 2.0263320304464103,
	"learning_rate": 2e-05,
	"llm_loss": 0.0045,
	"loss": 0.041,
	"step": 19700
	},
	{
	"action_loss": 0.0303,
	"epoch": 2.031475005142975,
	"learning_rate": 2e-05,
	"llm_loss": 0.005,
	"loss": 0.0353,
	"step": 19750
	},
	{
	"action_loss": 0.0287,
	"epoch": 2.0366179798395394,
	"learning_rate": 2e-05,
	"llm_loss": 0.0045,
	"loss": 0.0332,
	"step": 19800
	},
	{
	"action_loss": 0.0375,
	"epoch": 2.0417609545361035,
	"learning_rate": 2e-05,
	"llm_loss": 0.0042,
	"loss": 0.0417,
	"step": 19850
	},
	{
	"action_loss": 0.0304,
	"epoch": 2.046903929232668,
	"learning_rate": 2e-05,
	"llm_loss": 0.0045,
	"loss": 0.0349,
	"step": 19900
	},
	{
	"action_loss": 0.0246,
	"epoch": 2.0520469039292326,
	"learning_rate": 2e-05,
	"llm_loss": 0.0051,
	"loss": 0.0297,
	"step": 19950
	},
	{
	"action_loss": 0.0256,
	"epoch": 2.057189878625797,
	"learning_rate": 2e-05,
	"llm_loss": 0.0036,
	"loss": 0.0292,
	"step": 20000
	},
	{
	"action_loss": 0.0207,
	"epoch": 2.0623328533223617,
	"learning_rate": 2e-05,
	"llm_loss": 0.0038,
	"loss": 0.0245,
	"step": 20050
	},
	{
	"action_loss": 0.0175,
	"epoch": 2.0674758280189263,
	"learning_rate": 2e-05,
	"llm_loss": 0.0045,
	"loss": 0.022,
	"step": 20100
	},
	{
	"action_loss": 0.0272,
	"epoch": 2.072618802715491,
	"learning_rate": 2e-05,
	"llm_loss": 0.0045,
	"loss": 0.0317,
	"step": 20150
	},
	{
	"action_loss": 0.0309,
	"epoch": 2.077761777412055,
	"learning_rate": 2e-05,
	"llm_loss": 0.0046,
	"loss": 0.0354,
	"step": 20200
	},
	{
	"action_loss": 0.0307,
	"epoch": 2.0829047521086195,
	"learning_rate": 2e-05,
	"llm_loss": 0.004,
	"loss": 0.0347,
	"step": 20250
	},
	{
	"action_loss": 0.025,
	"epoch": 2.088047726805184,
	"learning_rate": 2e-05,
	"llm_loss": 0.0037,
	"loss": 0.0288,
	"step": 20300
	},
	{
	"action_loss": 0.0327,
	"epoch": 2.0931907015017486,
	"learning_rate": 2e-05,
	"llm_loss": 0.0051,
	"loss": 0.0378,
	"step": 20350
	},
	{
	"action_loss": 0.0371,
	"epoch": 2.098333676198313,
	"learning_rate": 2e-05,
	"llm_loss": 0.0043,
	"loss": 0.0414,
	"step": 20400
	},
	{
	"action_loss": 0.019,
	"epoch": 2.1034766508948777,
	"learning_rate": 2e-05,
	"llm_loss": 0.0042,
	"loss": 0.0232,
	"step": 20450
	},
	{
	"action_loss": 0.022,
	"epoch": 2.1086196255914422,
	"learning_rate": 2e-05,
	"llm_loss": 0.0046,
	"loss": 0.0267,
	"step": 20500
	},
	{
	"action_loss": 0.0214,
	"epoch": 2.1137626002880068,
	"learning_rate": 2e-05,
	"llm_loss": 0.0045,
	"loss": 0.026,
	"step": 20550
	},
	{
	"action_loss": 0.0207,
	"epoch": 2.118905574984571,
	"learning_rate": 2e-05,
	"llm_loss": 0.0043,
	"loss": 0.0251,
	"step": 20600
	},
	{
	"action_loss": 0.0358,
	"epoch": 2.1240485496811354,
	"learning_rate": 2e-05,
	"llm_loss": 0.0039,
	"loss": 0.0396,
	"step": 20650
	},
	{
	"action_loss": 0.0233,
	"epoch": 2.1291915243777,
	"learning_rate": 2e-05,
	"llm_loss": 0.0043,
	"loss": 0.0277,
	"step": 20700
	},
	{
	"action_loss": 0.0243,
	"epoch": 2.1343344990742645,
	"learning_rate": 2e-05,
	"llm_loss": 0.0046,
	"loss": 0.0289,
	"step": 20750
	},
	{
	"action_loss": 0.02,
	"epoch": 2.139477473770829,
	"learning_rate": 2e-05,
	"llm_loss": 0.0044,
	"loss": 0.0244,
	"step": 20800
	},
	{
	"action_loss": 0.0209,
	"epoch": 2.1446204484673936,
	"learning_rate": 2e-05,
	"llm_loss": 0.0043,
	"loss": 0.0251,
	"step": 20850
	},
	{
	"action_loss": 0.0207,
	"epoch": 2.149763423163958,
	"learning_rate": 2e-05,
	"llm_loss": 0.0046,
	"loss": 0.0253,
	"step": 20900
	},
	{
	"action_loss": 0.0271,
	"epoch": 2.1549063978605227,
	"learning_rate": 2e-05,
	"llm_loss": 0.0039,
	"loss": 0.0311,
	"step": 20950
	},
	{
	"action_loss": 0.0241,
	"epoch": 2.160049372557087,
	"learning_rate": 2e-05,
	"llm_loss": 0.0043,
	"loss": 0.0285,
	"step": 21000
	},
	{
	"action_loss": 0.0265,
	"epoch": 2.1651923472536514,
	"learning_rate": 2e-05,
	"llm_loss": 0.0036,
	"loss": 0.0301,
	"step": 21050
	},
	{
	"action_loss": 0.0241,
	"epoch": 2.170335321950216,
	"learning_rate": 2e-05,
	"llm_loss": 0.0045,
	"loss": 0.0285,
	"step": 21100
	},
	{
	"action_loss": 0.0343,
	"epoch": 2.1754782966467805,
	"learning_rate": 2e-05,
	"llm_loss": 0.0042,
	"loss": 0.0386,
	"step": 21150
	},
	{
	"action_loss": 0.0229,
	"epoch": 2.180621271343345,
	"learning_rate": 2e-05,
	"llm_loss": 0.004,
	"loss": 0.0268,
	"step": 21200
	},
	{
	"action_loss": 0.0207,
	"epoch": 2.1857642460399096,
	"learning_rate": 2e-05,
	"llm_loss": 0.0042,
	"loss": 0.0249,
	"step": 21250
	},
	{
	"action_loss": 0.0282,
	"epoch": 2.190907220736474,
	"learning_rate": 2e-05,
	"llm_loss": 0.0041,
	"loss": 0.0323,
	"step": 21300
	},
	{
	"action_loss": 0.0174,
	"epoch": 2.1960501954330383,
	"learning_rate": 2e-05,
	"llm_loss": 0.0044,
	"loss": 0.0217,
	"step": 21350
	},
	{
	"action_loss": 0.0249,
	"epoch": 2.201193170129603,
	"learning_rate": 2e-05,
	"llm_loss": 0.0043,
	"loss": 0.0292,
	"step": 21400
	},
	{
	"action_loss": 0.0206,
	"epoch": 2.2063361448261674,
	"learning_rate": 2e-05,
	"llm_loss": 0.0041,
	"loss": 0.0247,
	"step": 21450
	},
	{
	"action_loss": 0.0269,
	"epoch": 2.211479119522732,
	"learning_rate": 2e-05,
	"llm_loss": 0.0052,
	"loss": 0.0321,
	"step": 21500
	},
	{
	"action_loss": 0.0238,
	"epoch": 2.2166220942192965,
	"learning_rate": 2e-05,
	"llm_loss": 0.0041,
	"loss": 0.0279,
	"step": 21550
	},
	{
	"action_loss": 0.0194,
	"epoch": 2.221765068915861,
	"learning_rate": 2e-05,
	"llm_loss": 0.0044,
	"loss": 0.0238,
	"step": 21600
	},
	{
	"action_loss": 0.0324,
	"epoch": 2.2269080436124256,
	"learning_rate": 2e-05,
	"llm_loss": 0.0038,
	"loss": 0.0361,
	"step": 21650
	},
	{
	"action_loss": 0.0299,
	"epoch": 2.23205101830899,
	"learning_rate": 2e-05,
	"llm_loss": 0.0043,
	"loss": 0.0342,
	"step": 21700
	},
	{
	"action_loss": 0.0232,
	"epoch": 2.237193993005554,
	"learning_rate": 2e-05,
	"llm_loss": 0.0049,
	"loss": 0.0281,
	"step": 21750
	},
	{
	"action_loss": 0.0241,
	"epoch": 2.2423369677021188,
	"learning_rate": 2e-05,
	"llm_loss": 0.0043,
	"loss": 0.0284,
	"step": 21800
	},
	{
	"action_loss": 0.037,
	"epoch": 2.2474799423986833,
	"learning_rate": 2e-05,
	"llm_loss": 0.0047,
	"loss": 0.0417,
	"step": 21850
	},
	{
	"action_loss": 0.0283,
	"epoch": 2.252622917095248,
	"learning_rate": 2e-05,
	"llm_loss": 0.0039,
	"loss": 0.0323,
	"step": 21900
	},
	{
	"action_loss": 0.0243,
	"epoch": 2.2577658917918124,
	"learning_rate": 2e-05,
	"llm_loss": 0.0046,
	"loss": 0.029,
	"step": 21950
	},
	{
	"action_loss": 0.0285,
	"epoch": 2.262908866488377,
	"learning_rate": 2e-05,
	"llm_loss": 0.0047,
	"loss": 0.0332,
	"step": 22000
	},
	{
	"action_loss": 0.0272,
	"epoch": 2.2680518411849415,
	"learning_rate": 2e-05,
	"llm_loss": 0.0049,
	"loss": 0.0321,
	"step": 22050
	},
	{
	"action_loss": 0.0327,
	"epoch": 2.2731948158815056,
	"learning_rate": 2e-05,
	"llm_loss": 0.0039,
	"loss": 0.0366,
	"step": 22100
	},
	{
	"action_loss": 0.0305,
	"epoch": 2.27833779057807,
	"learning_rate": 2e-05,
	"llm_loss": 0.005,
	"loss": 0.0354,
	"step": 22150
	},
	{
	"action_loss": 0.023,
	"epoch": 2.2834807652746347,
	"learning_rate": 2e-05,
	"llm_loss": 0.0043,
	"loss": 0.0273,
	"step": 22200
	},
	{
	"action_loss": 0.0318,
	"epoch": 2.2886237399711993,
	"learning_rate": 2e-05,
	"llm_loss": 0.0048,
	"loss": 0.0366,
	"step": 22250
	},
	{
	"action_loss": 0.0236,
	"epoch": 2.293766714667764,
	"learning_rate": 2e-05,
	"llm_loss": 0.0042,
	"loss": 0.0278,
	"step": 22300
	},
	{
	"action_loss": 0.0142,
	"epoch": 2.2989096893643284,
	"learning_rate": 2e-05,
	"llm_loss": 0.0042,
	"loss": 0.0184,
	"step": 22350
	},
	{
	"action_loss": 0.0239,
	"epoch": 2.304052664060893,
	"learning_rate": 2e-05,
	"llm_loss": 0.0044,
	"loss": 0.0283,
	"step": 22400
	},
	{
	"action_loss": 0.0125,
	"epoch": 2.3091956387574575,
	"learning_rate": 2e-05,
	"llm_loss": 0.005,
	"loss": 0.0175,
	"step": 22450
	},
	{
	"action_loss": 0.0285,
	"epoch": 2.314338613454022,
	"learning_rate": 2e-05,
	"llm_loss": 0.004,
	"loss": 0.0326,
	"step": 22500
	},
	{
	"action_loss": 0.0265,
	"epoch": 2.319481588150586,
	"learning_rate": 2e-05,
	"llm_loss": 0.0045,
	"loss": 0.0309,
	"step": 22550
	},
	{
	"action_loss": 0.019,
	"epoch": 2.3246245628471507,
	"learning_rate": 2e-05,
	"llm_loss": 0.0047,
	"loss": 0.0236,
	"step": 22600
	},
	{
	"action_loss": 0.0312,
	"epoch": 2.3297675375437152,
	"learning_rate": 2e-05,
	"llm_loss": 0.0059,
	"loss": 0.0371,
	"step": 22650
	},
	{
	"action_loss": 0.0196,
	"epoch": 2.33491051224028,
	"learning_rate": 2e-05,
	"llm_loss": 0.0037,
	"loss": 0.0233,
	"step": 22700
	},
	{
	"action_loss": 0.0276,
	"epoch": 2.3400534869368443,
	"learning_rate": 2e-05,
	"llm_loss": 0.0047,
	"loss": 0.0323,
	"step": 22750
	},
	{
	"action_loss": 0.034,
	"epoch": 2.345196461633409,
	"learning_rate": 2e-05,
	"llm_loss": 0.0039,
	"loss": 0.0379,
	"step": 22800
	},
	{
	"action_loss": 0.031,
	"epoch": 2.3503394363299734,
	"learning_rate": 2e-05,
	"llm_loss": 0.0038,
	"loss": 0.0348,
	"step": 22850
	},
	{
	"action_loss": 0.0271,
	"epoch": 2.3554824110265375,
	"learning_rate": 2e-05,
	"llm_loss": 0.0042,
	"loss": 0.0312,
	"step": 22900
	},
	{
	"action_loss": 0.0302,
	"epoch": 2.360625385723102,
	"learning_rate": 2e-05,
	"llm_loss": 0.004,
	"loss": 0.0342,
	"step": 22950
	},
	{
	"action_loss": 0.0182,
	"epoch": 2.3657683604196666,
	"learning_rate": 2e-05,
	"llm_loss": 0.0038,
	"loss": 0.022,
	"step": 23000
	},
	{
	"action_loss": 0.0284,
	"epoch": 2.370911335116231,
	"learning_rate": 2e-05,
	"llm_loss": 0.0041,
	"loss": 0.0325,
	"step": 23050
	},
	{
	"action_loss": 0.0282,
	"epoch": 2.3760543098127958,
	"learning_rate": 2e-05,
	"llm_loss": 0.0043,
	"loss": 0.0325,
	"step": 23100
	},
	{
	"action_loss": 0.0213,
	"epoch": 2.3811972845093603,
	"learning_rate": 2e-05,
	"llm_loss": 0.0036,
	"loss": 0.0249,
	"step": 23150
	},
	{
	"action_loss": 0.0248,
	"epoch": 2.386340259205925,
	"learning_rate": 2e-05,
	"llm_loss": 0.0042,
	"loss": 0.0291,
	"step": 23200
	},
	{
	"action_loss": 0.0242,
	"epoch": 2.3914832339024894,
	"learning_rate": 2e-05,
	"llm_loss": 0.0049,
	"loss": 0.029,
	"step": 23250
	},
	{
	"action_loss": 0.0244,
	"epoch": 2.3966262085990535,
	"learning_rate": 2e-05,
	"llm_loss": 0.0045,
	"loss": 0.0289,
	"step": 23300
	},
	{
	"action_loss": 0.0261,
	"epoch": 2.401769183295618,
	"learning_rate": 2e-05,
	"llm_loss": 0.0049,
	"loss": 0.031,
	"step": 23350
	},
	{
	"action_loss": 0.0205,
	"epoch": 2.4069121579921826,
	"learning_rate": 2e-05,
	"llm_loss": 0.0058,
	"loss": 0.0263,
	"step": 23400
	},
	{
	"action_loss": 0.026,
	"epoch": 2.412055132688747,
	"learning_rate": 2e-05,
	"llm_loss": 0.0041,
	"loss": 0.0301,
	"step": 23450
	},
	{
	"action_loss": 0.0317,
	"epoch": 2.4171981073853117,
	"learning_rate": 2e-05,
	"llm_loss": 0.0046,
	"loss": 0.0364,
	"step": 23500
	},
	{
	"action_loss": 0.0256,
	"epoch": 2.4223410820818763,
	"learning_rate": 2e-05,
	"llm_loss": 0.0049,
	"loss": 0.0304,
	"step": 23550
	},
	{
	"action_loss": 0.0208,
	"epoch": 2.427484056778441,
	"learning_rate": 2e-05,
	"llm_loss": 0.0042,
	"loss": 0.025,
	"step": 23600
	},
	{
	"action_loss": 0.0259,
	"epoch": 2.432627031475005,
	"learning_rate": 2e-05,
	"llm_loss": 0.0043,
	"loss": 0.0302,
	"step": 23650
	},
	{
	"action_loss": 0.033,
	"epoch": 2.4377700061715695,
	"learning_rate": 2e-05,
	"llm_loss": 0.0048,
	"loss": 0.0378,
	"step": 23700
	},
	{
	"action_loss": 0.0287,
	"epoch": 2.442912980868134,
	"learning_rate": 2e-05,
	"llm_loss": 0.0043,
	"loss": 0.033,
	"step": 23750
	},
	{
	"action_loss": 0.0298,
	"epoch": 2.4480559555646986,
	"learning_rate": 2e-05,
	"llm_loss": 0.0043,
	"loss": 0.0341,
	"step": 23800
	},
	{
	"action_loss": 0.0235,
	"epoch": 2.453198930261263,
	"learning_rate": 2e-05,
	"llm_loss": 0.0042,
	"loss": 0.0278,
	"step": 23850
	},
	{
	"action_loss": 0.0262,
	"epoch": 2.4583419049578277,
	"learning_rate": 2e-05,
	"llm_loss": 0.0047,
	"loss": 0.0309,
	"step": 23900
	},
	{
	"action_loss": 0.015,
	"epoch": 2.4634848796543922,
	"learning_rate": 2e-05,
	"llm_loss": 0.0045,
	"loss": 0.0195,
	"step": 23950
	},
	{
	"action_loss": 0.0306,
	"epoch": 2.4686278543509568,
	"learning_rate": 2e-05,
	"llm_loss": 0.0045,
	"loss": 0.0351,
	"step": 24000
	},
	{
	"action_loss": 0.0297,
	"epoch": 2.4737708290475213,
	"learning_rate": 2e-05,
	"llm_loss": 0.0037,
	"loss": 0.0334,
	"step": 24050
	},
	{
	"action_loss": 0.0189,
	"epoch": 2.4789138037440854,
	"learning_rate": 2e-05,
	"llm_loss": 0.0044,
	"loss": 0.0233,
	"step": 24100
	},
	{
	"action_loss": 0.0237,
	"epoch": 2.48405677844065,
	"learning_rate": 2e-05,
	"llm_loss": 0.0043,
	"loss": 0.028,
	"step": 24150
	},
	{
	"action_loss": 0.017,
	"epoch": 2.4891997531372145,
	"learning_rate": 2e-05,
	"llm_loss": 0.0046,
	"loss": 0.0217,
	"step": 24200
	},
	{
	"action_loss": 0.0235,
	"epoch": 2.494342727833779,
	"learning_rate": 2e-05,
	"llm_loss": 0.0048,
	"loss": 0.0283,
	"step": 24250
	},
	{
	"action_loss": 0.0258,
	"epoch": 2.4994857025303436,
	"learning_rate": 2e-05,
	"llm_loss": 0.0048,
	"loss": 0.0306,
	"step": 24300
	},
	{
	"action_loss": 0.0309,
	"epoch": 2.504628677226908,
	"learning_rate": 2e-05,
	"llm_loss": 0.004,
	"loss": 0.0349,
	"step": 24350
	},
	{
	"action_loss": 0.0322,
	"epoch": 2.5097716519234723,
	"learning_rate": 2e-05,
	"llm_loss": 0.0042,
	"loss": 0.0364,
	"step": 24400
	},
	{
	"action_loss": 0.028,
	"epoch": 2.514914626620037,
	"learning_rate": 2e-05,
	"llm_loss": 0.0041,
	"loss": 0.032,
	"step": 24450
	},
	{
	"action_loss": 0.0285,
	"epoch": 2.5200576013166014,
	"learning_rate": 2e-05,
	"llm_loss": 0.0044,
	"loss": 0.0329,
	"step": 24500
	},
	{
	"action_loss": 0.0272,
	"epoch": 2.525200576013166,
	"learning_rate": 2e-05,
	"llm_loss": 0.0044,
	"loss": 0.0316,
	"step": 24550
	},
	{
	"action_loss": 0.0304,
	"epoch": 2.5303435507097305,
	"learning_rate": 2e-05,
	"llm_loss": 0.0035,
	"loss": 0.0338,
	"step": 24600
	},
	{
	"action_loss": 0.0302,
	"epoch": 2.535486525406295,
	"learning_rate": 2e-05,
	"llm_loss": 0.0045,
	"loss": 0.0346,
	"step": 24650
	},
	{
	"action_loss": 0.0248,
	"epoch": 2.5406295001028596,
	"learning_rate": 2e-05,
	"llm_loss": 0.0043,
	"loss": 0.0291,
	"step": 24700
	},
	{
	"action_loss": 0.0268,
	"epoch": 2.545772474799424,
	"learning_rate": 2e-05,
	"llm_loss": 0.004,
	"loss": 0.0308,
	"step": 24750
	},
	{
	"action_loss": 0.0387,
	"epoch": 2.5509154494959887,
	"learning_rate": 2e-05,
	"llm_loss": 0.004,
	"loss": 0.0427,
	"step": 24800
	},
	{
	"action_loss": 0.017,
	"epoch": 2.5560584241925532,
	"learning_rate": 2e-05,
	"llm_loss": 0.0047,
	"loss": 0.0217,
	"step": 24850
	},
	{
	"action_loss": 0.0298,
	"epoch": 2.5612013988891174,
	"learning_rate": 2e-05,
	"llm_loss": 0.0047,
	"loss": 0.0344,
	"step": 24900
	},
	{
	"action_loss": 0.0308,
	"epoch": 2.566344373585682,
	"learning_rate": 2e-05,
	"llm_loss": 0.0046,
	"loss": 0.0355,
	"step": 24950
	},
	{
	"action_loss": 0.0221,
	"epoch": 2.5714873482822465,
	"learning_rate": 2e-05,
	"llm_loss": 0.004,
	"loss": 0.0261,
	"step": 25000
	},
	{
	"action_loss": 0.024,
	"epoch": 2.576630322978811,
	"learning_rate": 2e-05,
	"llm_loss": 0.0045,
	"loss": 0.0284,
	"step": 25050
	},
	{
	"action_loss": 0.0131,
	"epoch": 2.5817732976753756,
	"learning_rate": 2e-05,
	"llm_loss": 0.0044,
	"loss": 0.0175,
	"step": 25100
	},
	{
	"action_loss": 0.0251,
	"epoch": 2.5869162723719397,
	"learning_rate": 2e-05,
	"llm_loss": 0.0034,
	"loss": 0.0285,
	"step": 25150
	},
	{
	"action_loss": 0.0301,
	"epoch": 2.592059247068504,
	"learning_rate": 2e-05,
	"llm_loss": 0.0045,
	"loss": 0.0346,
	"step": 25200
	},
	{
	"action_loss": 0.022,
	"epoch": 2.5972022217650688,
	"learning_rate": 2e-05,
	"llm_loss": 0.0041,
	"loss": 0.026,
	"step": 25250
	},
	{
	"action_loss": 0.0351,
	"epoch": 2.6023451964616333,
	"learning_rate": 2e-05,
	"llm_loss": 0.0045,
	"loss": 0.0396,
	"step": 25300
	},
	{
	"action_loss": 0.0274,
	"epoch": 2.607488171158198,
	"learning_rate": 2e-05,
	"llm_loss": 0.0038,
	"loss": 0.0311,
	"step": 25350
	},
	{
	"action_loss": 0.0242,
	"epoch": 2.6126311458547624,
	"learning_rate": 2e-05,
	"llm_loss": 0.0038,
	"loss": 0.028,
	"step": 25400
	},
	{
	"action_loss": 0.0293,
	"epoch": 2.617774120551327,
	"learning_rate": 2e-05,
	"llm_loss": 0.0042,
	"loss": 0.0334,
	"step": 25450
	},
	{
	"action_loss": 0.0289,
	"epoch": 2.6229170952478915,
	"learning_rate": 2e-05,
	"llm_loss": 0.0045,
	"loss": 0.0334,
	"step": 25500
	},
	{
	"action_loss": 0.0293,
	"epoch": 2.628060069944456,
	"learning_rate": 2e-05,
	"llm_loss": 0.0042,
	"loss": 0.0335,
	"step": 25550
	},
	{
	"action_loss": 0.02,
	"epoch": 2.6332030446410206,
	"learning_rate": 2e-05,
	"llm_loss": 0.0046,
	"loss": 0.0246,
	"step": 25600
	},
	{
	"action_loss": 0.0261,
	"epoch": 2.6383460193375847,
	"learning_rate": 2e-05,
	"llm_loss": 0.0042,
	"loss": 0.0302,
	"step": 25650
	},
	{
	"action_loss": 0.0225,
	"epoch": 2.6434889940341493,
	"learning_rate": 2e-05,
	"llm_loss": 0.0038,
	"loss": 0.0262,
	"step": 25700
	},
	{
	"action_loss": 0.0293,
	"epoch": 2.648631968730714,
	"learning_rate": 2e-05,
	"llm_loss": 0.0043,
	"loss": 0.0336,
	"step": 25750
	},
	{
	"action_loss": 0.0185,
	"epoch": 2.6537749434272784,
	"learning_rate": 2e-05,
	"llm_loss": 0.0044,
	"loss": 0.0229,
	"step": 25800
	},
	{
	"action_loss": 0.0335,
	"epoch": 2.658917918123843,
	"learning_rate": 2e-05,
	"llm_loss": 0.0041,
	"loss": 0.0375,
	"step": 25850
	},
	{
	"action_loss": 0.032,
	"epoch": 2.6640608928204075,
	"learning_rate": 2e-05,
	"llm_loss": 0.0039,
	"loss": 0.0359,
	"step": 25900
	},
	{
	"action_loss": 0.02,
	"epoch": 2.6692038675169716,
	"learning_rate": 2e-05,
	"llm_loss": 0.0044,
	"loss": 0.0244,
	"step": 25950
	},
	{
	"action_loss": 0.0226,
	"epoch": 2.674346842213536,
	"learning_rate": 2e-05,
	"llm_loss": 0.0044,
	"loss": 0.0271,
	"step": 26000
	},
	{
	"action_loss": 0.0209,
	"epoch": 2.6794898169101007,
	"learning_rate": 2e-05,
	"llm_loss": 0.0041,
	"loss": 0.025,
	"step": 26050
	},
	{
	"action_loss": 0.0287,
	"epoch": 2.6846327916066652,
	"learning_rate": 2e-05,
	"llm_loss": 0.0042,
	"loss": 0.0329,
	"step": 26100
	},
	{
	"action_loss": 0.0272,
	"epoch": 2.68977576630323,
	"learning_rate": 2e-05,
	"llm_loss": 0.0047,
	"loss": 0.0319,
	"step": 26150
	},
	{
	"action_loss": 0.0324,
	"epoch": 2.6949187409997943,
	"learning_rate": 2e-05,
	"llm_loss": 0.0048,
	"loss": 0.0372,
	"step": 26200
	},
	{
	"action_loss": 0.0295,
	"epoch": 2.700061715696359,
	"learning_rate": 2e-05,
	"llm_loss": 0.0044,
	"loss": 0.0339,
	"step": 26250
	},
	{
	"action_loss": 0.0261,
	"epoch": 2.7052046903929234,
	"learning_rate": 2e-05,
	"llm_loss": 0.0048,
	"loss": 0.0309,
	"step": 26300
	},
	{
	"action_loss": 0.0345,
	"epoch": 2.710347665089488,
	"learning_rate": 2e-05,
	"llm_loss": 0.0041,
	"loss": 0.0387,
	"step": 26350
	},
	{
	"action_loss": 0.0242,
	"epoch": 2.715490639786052,
	"learning_rate": 2e-05,
	"llm_loss": 0.0045,
	"loss": 0.0287,
	"step": 26400
	},
	{
	"action_loss": 0.0262,
	"epoch": 2.7206336144826166,
	"learning_rate": 2e-05,
	"llm_loss": 0.0047,
	"loss": 0.0309,
	"step": 26450
	},
	{
	"action_loss": 0.0192,
	"epoch": 2.725776589179181,
	"learning_rate": 2e-05,
	"llm_loss": 0.0043,
	"loss": 0.0236,
	"step": 26500
	},
	{
	"action_loss": 0.0173,
	"epoch": 2.7309195638757457,
	"learning_rate": 2e-05,
	"llm_loss": 0.004,
	"loss": 0.0213,
	"step": 26550
	},
	{
	"action_loss": 0.0256,
	"epoch": 2.7360625385723103,
	"learning_rate": 2e-05,
	"llm_loss": 0.0048,
	"loss": 0.0304,
	"step": 26600
	},
	{
	"action_loss": 0.0268,
	"epoch": 2.741205513268875,
	"learning_rate": 2e-05,
	"llm_loss": 0.0041,
	"loss": 0.0309,
	"step": 26650
	},
	{
	"action_loss": 0.02,
	"epoch": 2.746348487965439,
	"learning_rate": 2e-05,
	"llm_loss": 0.0038,
	"loss": 0.0238,
	"step": 26700
	},
	{
	"action_loss": 0.03,
	"epoch": 2.7514914626620035,
	"learning_rate": 2e-05,
	"llm_loss": 0.0044,
	"loss": 0.0345,
	"step": 26750
	},
	{
	"action_loss": 0.0189,
	"epoch": 2.756634437358568,
	"learning_rate": 2e-05,
	"llm_loss": 0.0041,
	"loss": 0.023,
	"step": 26800
	},
	{
	"action_loss": 0.0351,
	"epoch": 2.7617774120551326,
	"learning_rate": 2e-05,
	"llm_loss": 0.0043,
	"loss": 0.0394,
	"step": 26850
	},
	{
	"action_loss": 0.0347,
	"epoch": 2.766920386751697,
	"learning_rate": 2e-05,
	"llm_loss": 0.0043,
	"loss": 0.039,
	"step": 26900
	},
	{
	"action_loss": 0.0203,
	"epoch": 2.7720633614482617,
	"learning_rate": 2e-05,
	"llm_loss": 0.0049,
	"loss": 0.0252,
	"step": 26950
	},
	{
	"action_loss": 0.0238,
	"epoch": 2.7772063361448263,
	"learning_rate": 2e-05,
	"llm_loss": 0.0051,
	"loss": 0.0289,
	"step": 27000
	},
	{
	"action_loss": 0.0204,
	"epoch": 2.782349310841391,
	"learning_rate": 2e-05,
	"llm_loss": 0.0034,
	"loss": 0.0238,
	"step": 27050
	},
	{
	"action_loss": 0.0245,
	"epoch": 2.7874922855379554,
	"learning_rate": 2e-05,
	"llm_loss": 0.0043,
	"loss": 0.0288,
	"step": 27100
	},
	{
	"action_loss": 0.0247,
	"epoch": 2.79263526023452,
	"learning_rate": 2e-05,
	"llm_loss": 0.0041,
	"loss": 0.0288,
	"step": 27150
	},
	{
	"action_loss": 0.0202,
	"epoch": 2.797778234931084,
	"learning_rate": 2e-05,
	"llm_loss": 0.0037,
	"loss": 0.0239,
	"step": 27200
	},
	{
	"action_loss": 0.0223,
	"epoch": 2.8029212096276486,
	"learning_rate": 2e-05,
	"llm_loss": 0.0039,
	"loss": 0.0262,
	"step": 27250
	},
	{
	"action_loss": 0.0364,
	"epoch": 2.808064184324213,
	"learning_rate": 2e-05,
	"llm_loss": 0.0046,
	"loss": 0.0411,
	"step": 27300
	},
	{
	"action_loss": 0.0256,
	"epoch": 2.8132071590207777,
	"learning_rate": 2e-05,
	"llm_loss": 0.0034,
	"loss": 0.029,
	"step": 27350
	},
	{
	"action_loss": 0.0214,
	"epoch": 2.818350133717342,
	"learning_rate": 2e-05,
	"llm_loss": 0.005,
	"loss": 0.0264,
	"step": 27400
	},
	{
	"action_loss": 0.0209,
	"epoch": 2.8234931084139063,
	"learning_rate": 2e-05,
	"llm_loss": 0.0044,
	"loss": 0.0253,
	"step": 27450
	},
	{
	"action_loss": 0.0316,
	"epoch": 2.828636083110471,
	"learning_rate": 2e-05,
	"llm_loss": 0.0036,
	"loss": 0.0352,
	"step": 27500
	},
	{
	"action_loss": 0.0256,
	"epoch": 2.8337790578070354,
	"learning_rate": 2e-05,
	"llm_loss": 0.0047,
	"loss": 0.0303,
	"step": 27550
	},
	{
	"action_loss": 0.0195,
	"epoch": 2.8389220325036,
	"learning_rate": 2e-05,
	"llm_loss": 0.0041,
	"loss": 0.0236,
	"step": 27600
	},
	{
	"action_loss": 0.0244,
	"epoch": 2.8440650072001645,
	"learning_rate": 2e-05,
	"llm_loss": 0.0041,
	"loss": 0.0285,
	"step": 27650
	},
	{
	"action_loss": 0.0199,
	"epoch": 2.849207981896729,
	"learning_rate": 2e-05,
	"llm_loss": 0.0046,
	"loss": 0.0245,
	"step": 27700
	},
	{
	"action_loss": 0.0263,
	"epoch": 2.8543509565932936,
	"learning_rate": 2e-05,
	"llm_loss": 0.0043,
	"loss": 0.0306,
	"step": 27750
	},
	{
	"action_loss": 0.0322,
	"epoch": 2.859493931289858,
	"learning_rate": 2e-05,
	"llm_loss": 0.0044,
	"loss": 0.0366,
	"step": 27800
	},
	{
	"action_loss": 0.029,
	"epoch": 2.8646369059864227,
	"learning_rate": 2e-05,
	"llm_loss": 0.004,
	"loss": 0.033,
	"step": 27850
	},
	{
	"action_loss": 0.0335,
	"epoch": 2.8697798806829873,
	"learning_rate": 2e-05,
	"llm_loss": 0.0051,
	"loss": 0.0386,
	"step": 27900
	},
	{
	"action_loss": 0.0277,
	"epoch": 2.8749228553795514,
	"learning_rate": 2e-05,
	"llm_loss": 0.0036,
	"loss": 0.0313,
	"step": 27950
	},
	{
	"action_loss": 0.0247,
	"epoch": 2.880065830076116,
	"learning_rate": 2e-05,
	"llm_loss": 0.0039,
	"loss": 0.0286,
	"step": 28000
	},
	{
	"action_loss": 0.0235,
	"epoch": 2.8852088047726805,
	"learning_rate": 2e-05,
	"llm_loss": 0.0043,
	"loss": 0.0278,
	"step": 28050
	},
	{
	"action_loss": 0.0246,
	"epoch": 2.890351779469245,
	"learning_rate": 2e-05,
	"llm_loss": 0.0035,
	"loss": 0.0281,
	"step": 28100
	},
	{
	"action_loss": 0.0262,
	"epoch": 2.8954947541658096,
	"learning_rate": 2e-05,
	"llm_loss": 0.0044,
	"loss": 0.0306,
	"step": 28150
	},
	{
	"action_loss": 0.0242,
	"epoch": 2.900637728862374,
	"learning_rate": 2e-05,
	"llm_loss": 0.0038,
	"loss": 0.028,
	"step": 28200
	},
	{
	"action_loss": 0.029,
	"epoch": 2.9057807035589382,
	"learning_rate": 2e-05,
	"llm_loss": 0.0042,
	"loss": 0.0332,
	"step": 28250
	},
	{
	"action_loss": 0.0261,
	"epoch": 2.910923678255503,
	"learning_rate": 2e-05,
	"llm_loss": 0.0037,
	"loss": 0.0298,
	"step": 28300
	},
	{
	"action_loss": 0.0325,
	"epoch": 2.9160666529520674,
	"learning_rate": 2e-05,
	"llm_loss": 0.0045,
	"loss": 0.037,
	"step": 28350
	},
	{
	"action_loss": 0.0328,
	"epoch": 2.921209627648632,
	"learning_rate": 2e-05,
	"llm_loss": 0.0043,
	"loss": 0.0372,
	"step": 28400
	},
	{
	"action_loss": 0.0186,
	"epoch": 2.9263526023451965,
	"learning_rate": 2e-05,
	"llm_loss": 0.0043,
	"loss": 0.0229,
	"step": 28450
	},
	{
	"action_loss": 0.0191,
	"epoch": 2.931495577041761,
	"learning_rate": 2e-05,
	"llm_loss": 0.0047,
	"loss": 0.0238,
	"step": 28500
	},
	{
	"action_loss": 0.021,
	"epoch": 2.9366385517383256,
	"learning_rate": 2e-05,
	"llm_loss": 0.0038,
	"loss": 0.0249,
	"step": 28550
	},
	{
	"action_loss": 0.0272,
	"epoch": 2.94178152643489,
	"learning_rate": 2e-05,
	"llm_loss": 0.0043,
	"loss": 0.0315,
	"step": 28600
	},
	{
	"action_loss": 0.0212,
	"epoch": 2.9469245011314547,
	"learning_rate": 2e-05,
	"llm_loss": 0.0044,
	"loss": 0.0255,
	"step": 28650
	},
	{
	"action_loss": 0.0294,
	"epoch": 2.9520674758280188,
	"learning_rate": 2e-05,
	"llm_loss": 0.0038,
	"loss": 0.0331,
	"step": 28700
	},
	{
	"action_loss": 0.026,
	"epoch": 2.9572104505245833,
	"learning_rate": 2e-05,
	"llm_loss": 0.004,
	"loss": 0.03,
	"step": 28750
	},
	{
	"action_loss": 0.0275,
	"epoch": 2.962353425221148,
	"learning_rate": 2e-05,
	"llm_loss": 0.0045,
	"loss": 0.0319,
	"step": 28800
	},
	{
	"action_loss": 0.0266,
	"epoch": 2.9674963999177124,
	"learning_rate": 2e-05,
	"llm_loss": 0.0042,
	"loss": 0.0309,
	"step": 28850
	},
	{
	"action_loss": 0.022,
	"epoch": 2.972639374614277,
	"learning_rate": 2e-05,
	"llm_loss": 0.0045,
	"loss": 0.0265,
	"step": 28900
	},
	{
	"action_loss": 0.0312,
	"epoch": 2.9777823493108415,
	"learning_rate": 2e-05,
	"llm_loss": 0.0041,
	"loss": 0.0353,
	"step": 28950
	},
	{
	"action_loss": 0.0341,
	"epoch": 2.9829253240074056,
	"learning_rate": 2e-05,
	"llm_loss": 0.004,
	"loss": 0.0381,
	"step": 29000
	},
	{
	"action_loss": 0.0316,
	"epoch": 2.98806829870397,
	"learning_rate": 2e-05,
	"llm_loss": 0.0029,
	"loss": 0.0345,
	"step": 29050
	},
	{
	"action_loss": 0.0251,
	"epoch": 2.9932112734005347,
	"learning_rate": 2e-05,
	"llm_loss": 0.004,
	"loss": 0.0291,
	"step": 29100
	},
	{
	"action_loss": 0.031,
	"epoch": 2.9983542480970993,
	"learning_rate": 2e-05,
	"llm_loss": 0.0042,
	"loss": 0.0352,
	"step": 29150
	},
	{
	"action_loss": 0.0266,
	"epoch": 3.003497222793664,
	"learning_rate": 2e-05,
	"llm_loss": 0.0038,
	"loss": 0.0304,
	"step": 29200
	},
	{
	"action_loss": 0.0257,
	"epoch": 3.0086401974902284,
	"learning_rate": 2e-05,
	"llm_loss": 0.0038,
	"loss": 0.0295,
	"step": 29250
	},
	{
	"action_loss": 0.0273,
	"epoch": 3.013783172186793,
	"learning_rate": 2e-05,
	"llm_loss": 0.0034,
	"loss": 0.0307,
	"step": 29300
	},
	{
	"action_loss": 0.0244,
	"epoch": 3.0189261468833575,
	"learning_rate": 2e-05,
	"llm_loss": 0.0038,
	"loss": 0.0282,
	"step": 29350
	},
	{
	"action_loss": 0.0289,
	"epoch": 3.024069121579922,
	"learning_rate": 2e-05,
	"llm_loss": 0.004,
	"loss": 0.033,
	"step": 29400
	},
	{
	"action_loss": 0.0303,
	"epoch": 3.029212096276486,
	"learning_rate": 2e-05,
	"llm_loss": 0.0037,
	"loss": 0.0339,
	"step": 29450
	},
	{
	"action_loss": 0.0259,
	"epoch": 3.0343550709730507,
	"learning_rate": 2e-05,
	"llm_loss": 0.0033,
	"loss": 0.0291,
	"step": 29500
	},
	{
	"action_loss": 0.0266,
	"epoch": 3.0394980456696152,
	"learning_rate": 2e-05,
	"llm_loss": 0.0039,
	"loss": 0.0305,
	"step": 29550
	},
	{
	"action_loss": 0.0118,
	"epoch": 3.04464102036618,
	"learning_rate": 2e-05,
	"llm_loss": 0.004,
	"loss": 0.0159,
	"step": 29600
	},
	{
	"action_loss": 0.0216,
	"epoch": 3.0497839950627443,
	"learning_rate": 2e-05,
	"llm_loss": 0.0037,
	"loss": 0.0254,
	"step": 29650
	},
	{
	"action_loss": 0.0323,
	"epoch": 3.054926969759309,
	"learning_rate": 2e-05,
	"llm_loss": 0.0039,
	"loss": 0.0362,
	"step": 29700
	},
	{
	"action_loss": 0.0308,
	"epoch": 3.0600699444558734,
	"learning_rate": 2e-05,
	"llm_loss": 0.0038,
	"loss": 0.0346,
	"step": 29750
	},
	{
	"action_loss": 0.0312,
	"epoch": 3.0652129191524375,
	"learning_rate": 2e-05,
	"llm_loss": 0.0032,
	"loss": 0.0344,
	"step": 29800
	},
	{
	"action_loss": 0.0345,
	"epoch": 3.070355893849002,
	"learning_rate": 2e-05,
	"llm_loss": 0.0031,
	"loss": 0.0376,
	"step": 29850
	},
	{
	"action_loss": 0.0166,
	"epoch": 3.0754988685455666,
	"learning_rate": 2e-05,
	"llm_loss": 0.0038,
	"loss": 0.0204,
	"step": 29900
	},
	{
	"action_loss": 0.0312,
	"epoch": 3.080641843242131,
	"learning_rate": 2e-05,
	"llm_loss": 0.0035,
	"loss": 0.0347,
	"step": 29950
	},
	{
	"action_loss": 0.0268,
	"epoch": 3.0857848179386957,
	"learning_rate": 2e-05,
	"llm_loss": 0.0033,
	"loss": 0.0301,
	"step": 30000
	},
	{
	"action_loss": 0.0237,
	"epoch": 3.0909277926352603,
	"learning_rate": 2e-05,
	"llm_loss": 0.0033,
	"loss": 0.027,
	"step": 30050
	},
	{
	"action_loss": 0.0285,
	"epoch": 3.096070767331825,
	"learning_rate": 2e-05,
	"llm_loss": 0.0035,
	"loss": 0.032,
	"step": 30100
	},
	{
	"action_loss": 0.0285,
	"epoch": 3.1012137420283894,
	"learning_rate": 2e-05,
	"llm_loss": 0.0037,
	"loss": 0.0322,
	"step": 30150
	},
	{
	"action_loss": 0.0239,
	"epoch": 3.1063567167249535,
	"learning_rate": 2e-05,
	"llm_loss": 0.0033,
	"loss": 0.0272,
	"step": 30200
	},
	{
	"action_loss": 0.0221,
	"epoch": 3.111499691421518,
	"learning_rate": 2e-05,
	"llm_loss": 0.0034,
	"loss": 0.0255,
	"step": 30250
	},
	{
	"action_loss": 0.023,
	"epoch": 3.1166426661180826,
	"learning_rate": 2e-05,
	"llm_loss": 0.0045,
	"loss": 0.0275,
	"step": 30300
	},
	{
	"action_loss": 0.0236,
	"epoch": 3.121785640814647,
	"learning_rate": 2e-05,
	"llm_loss": 0.0037,
	"loss": 0.0272,
	"step": 30350
	},
	{
	"action_loss": 0.0259,
	"epoch": 3.1269286155112117,
	"learning_rate": 2e-05,
	"llm_loss": 0.0038,
	"loss": 0.0296,
	"step": 30400
	},
	{
	"action_loss": 0.0227,
	"epoch": 3.1320715902077763,
	"learning_rate": 2e-05,
	"llm_loss": 0.0036,
	"loss": 0.0263,
	"step": 30450
	},
	{
	"action_loss": 0.0203,
	"epoch": 3.137214564904341,
	"learning_rate": 2e-05,
	"llm_loss": 0.0036,
	"loss": 0.0238,
	"step": 30500
	},
	{
	"action_loss": 0.0245,
	"epoch": 3.1423575396009054,
	"learning_rate": 2e-05,
	"llm_loss": 0.0038,
	"loss": 0.0282,
	"step": 30550
	},
	{
	"action_loss": 0.0306,
	"epoch": 3.1475005142974695,
	"learning_rate": 2e-05,
	"llm_loss": 0.0032,
	"loss": 0.0339,
	"step": 30600
	},
	{
	"action_loss": 0.0182,
	"epoch": 3.152643488994034,
	"learning_rate": 2e-05,
	"llm_loss": 0.0039,
	"loss": 0.022,
	"step": 30650
	},
	{
	"action_loss": 0.0328,
	"epoch": 3.1577864636905986,
	"learning_rate": 2e-05,
	"llm_loss": 0.0036,
	"loss": 0.0363,
	"step": 30700
	},
	{
	"action_loss": 0.0322,
	"epoch": 3.162929438387163,
	"learning_rate": 2e-05,
	"llm_loss": 0.0039,
	"loss": 0.0361,
	"step": 30750
	},
	{
	"action_loss": 0.0197,
	"epoch": 3.1680724130837277,
	"learning_rate": 2e-05,
	"llm_loss": 0.0039,
	"loss": 0.0237,
	"step": 30800
	},
	{
	"action_loss": 0.0288,
	"epoch": 3.173215387780292,
	"learning_rate": 2e-05,
	"llm_loss": 0.0033,
	"loss": 0.0321,
	"step": 30850
	},
	{
	"action_loss": 0.0307,
	"epoch": 3.1783583624768568,
	"learning_rate": 2e-05,
	"llm_loss": 0.0039,
	"loss": 0.0345,
	"step": 30900
	},
	{
	"action_loss": 0.0379,
	"epoch": 3.1835013371734213,
	"learning_rate": 2e-05,
	"llm_loss": 0.0037,
	"loss": 0.0416,
	"step": 30950
	},
	{
	"action_loss": 0.019,
	"epoch": 3.1886443118699854,
	"learning_rate": 2e-05,
	"llm_loss": 0.0041,
	"loss": 0.0231,
	"step": 31000
	},
	{
	"action_loss": 0.0254,
	"epoch": 3.19378728656655,
	"learning_rate": 2e-05,
	"llm_loss": 0.0033,
	"loss": 0.0287,
	"step": 31050
	},
	{
	"action_loss": 0.0238,
	"epoch": 3.1989302612631145,
	"learning_rate": 2e-05,
	"llm_loss": 0.0037,
	"loss": 0.0276,
	"step": 31100
	},
	{
	"action_loss": 0.0233,
	"epoch": 3.204073235959679,
	"learning_rate": 2e-05,
	"llm_loss": 0.0043,
	"loss": 0.0275,
	"step": 31150
	},
	{
	"action_loss": 0.0268,
	"epoch": 3.2092162106562436,
	"learning_rate": 2e-05,
	"llm_loss": 0.0043,
	"loss": 0.0311,
	"step": 31200
	},
	{
	"action_loss": 0.0185,
	"epoch": 3.214359185352808,
	"learning_rate": 2e-05,
	"llm_loss": 0.0041,
	"loss": 0.0227,
	"step": 31250
	},
	{
	"action_loss": 0.0332,
	"epoch": 3.2195021600493727,
	"learning_rate": 2e-05,
	"llm_loss": 0.0048,
	"loss": 0.038,
	"step": 31300
	},
	{
	"action_loss": 0.0227,
	"epoch": 3.224645134745937,
	"learning_rate": 2e-05,
	"llm_loss": 0.0035,
	"loss": 0.0262,
	"step": 31350
	},
	{
	"action_loss": 0.0211,
	"epoch": 3.2297881094425014,
	"learning_rate": 2e-05,
	"llm_loss": 0.0036,
	"loss": 0.0246,
	"step": 31400
	},
	{
	"action_loss": 0.0327,
	"epoch": 3.234931084139066,
	"learning_rate": 2e-05,
	"llm_loss": 0.0036,
	"loss": 0.0363,
	"step": 31450
	},
	{
	"action_loss": 0.0148,
	"epoch": 3.2400740588356305,
	"learning_rate": 2e-05,
	"llm_loss": 0.0033,
	"loss": 0.018,
	"step": 31500
	},
	{
	"action_loss": 0.0303,
	"epoch": 3.245217033532195,
	"learning_rate": 2e-05,
	"llm_loss": 0.0047,
	"loss": 0.035,
	"step": 31550
	},
	{
	"action_loss": 0.0262,
	"epoch": 3.2503600082287596,
	"learning_rate": 2e-05,
	"llm_loss": 0.0034,
	"loss": 0.0296,
	"step": 31600
	},
	{
	"action_loss": 0.0324,
	"epoch": 3.255502982925324,
	"learning_rate": 2e-05,
	"llm_loss": 0.0045,
	"loss": 0.037,
	"step": 31650
	},
	{
	"action_loss": 0.024,
	"epoch": 3.2606459576218887,
	"learning_rate": 2e-05,
	"llm_loss": 0.0039,
	"loss": 0.0279,
	"step": 31700
	},
	{
	"action_loss": 0.0183,
	"epoch": 3.2657889323184532,
	"learning_rate": 2e-05,
	"llm_loss": 0.0036,
	"loss": 0.0219,
	"step": 31750
	},
	{
	"action_loss": 0.0219,
	"epoch": 3.2709319070150173,
	"learning_rate": 2e-05,
	"llm_loss": 0.0036,
	"loss": 0.0254,
	"step": 31800
	},
	{
	"action_loss": 0.0177,
	"epoch": 3.276074881711582,
	"learning_rate": 2e-05,
	"llm_loss": 0.0041,
	"loss": 0.0218,
	"step": 31850
	},
	{
	"action_loss": 0.0168,
	"epoch": 3.2812178564081464,
	"learning_rate": 2e-05,
	"llm_loss": 0.0043,
	"loss": 0.0212,
	"step": 31900
	},
	{
	"action_loss": 0.0345,
	"epoch": 3.286360831104711,
	"learning_rate": 2e-05,
	"llm_loss": 0.0035,
	"loss": 0.0379,
	"step": 31950
	},
	{
	"action_loss": 0.016,
	"epoch": 3.2915038058012756,
	"learning_rate": 2e-05,
	"llm_loss": 0.0037,
	"loss": 0.0198,
	"step": 32000
	},
	{
	"action_loss": 0.0333,
	"epoch": 3.29664678049784,
	"learning_rate": 2e-05,
	"llm_loss": 0.0037,
	"loss": 0.037,
	"step": 32050
	},
	{
	"action_loss": 0.0228,
	"epoch": 3.301789755194404,
	"learning_rate": 2e-05,
	"llm_loss": 0.0035,
	"loss": 0.0263,
	"step": 32100
	},
	{
	"action_loss": 0.0175,
	"epoch": 3.3069327298909688,
	"learning_rate": 2e-05,
	"llm_loss": 0.0039,
	"loss": 0.0213,
	"step": 32150
	},
	{
	"action_loss": 0.0335,
	"epoch": 3.3120757045875333,
	"learning_rate": 2e-05,
	"llm_loss": 0.0036,
	"loss": 0.037,
	"step": 32200
	},
	{
	"action_loss": 0.0223,
	"epoch": 3.317218679284098,
	"learning_rate": 2e-05,
	"llm_loss": 0.0033,
	"loss": 0.0256,
	"step": 32250
	},
	{
	"action_loss": 0.022,
	"epoch": 3.3223616539806624,
	"learning_rate": 2e-05,
	"llm_loss": 0.0039,
	"loss": 0.026,
	"step": 32300
	},
	{
	"action_loss": 0.0269,
	"epoch": 3.327504628677227,
	"learning_rate": 2e-05,
	"llm_loss": 0.0038,
	"loss": 0.0307,
	"step": 32350
	},
	{
	"action_loss": 0.0172,
	"epoch": 3.3326476033737915,
	"learning_rate": 2e-05,
	"llm_loss": 0.0039,
	"loss": 0.021,
	"step": 32400
	},
	{
	"action_loss": 0.018,
	"epoch": 3.337790578070356,
	"learning_rate": 2e-05,
	"llm_loss": 0.0038,
	"loss": 0.0218,
	"step": 32450
	},
	{
	"action_loss": 0.0236,
	"epoch": 3.3429335527669206,
	"learning_rate": 2e-05,
	"llm_loss": 0.0036,
	"loss": 0.0272,
	"step": 32500
	},
	{
	"action_loss": 0.0252,
	"epoch": 3.3480765274634847,
	"learning_rate": 2e-05,
	"llm_loss": 0.0034,
	"loss": 0.0286,
	"step": 32550
	},
	{
	"action_loss": 0.0245,
	"epoch": 3.3532195021600493,
	"learning_rate": 2e-05,
	"llm_loss": 0.0037,
	"loss": 0.0282,
	"step": 32600
	},
	{
	"action_loss": 0.0271,
	"epoch": 3.358362476856614,
	"learning_rate": 2e-05,
	"llm_loss": 0.0035,
	"loss": 0.0306,
	"step": 32650
	},
	{
	"action_loss": 0.0176,
	"epoch": 3.3635054515531784,
	"learning_rate": 2e-05,
	"llm_loss": 0.0038,
	"loss": 0.0214,
	"step": 32700
	},
	{
	"action_loss": 0.0252,
	"epoch": 3.368648426249743,
	"learning_rate": 2e-05,
	"llm_loss": 0.0037,
	"loss": 0.0289,
	"step": 32750
	},
	{
	"action_loss": 0.0189,
	"epoch": 3.3737914009463075,
	"learning_rate": 2e-05,
	"llm_loss": 0.0044,
	"loss": 0.0233,
	"step": 32800
	},
	{
	"action_loss": 0.0215,
	"epoch": 3.378934375642872,
	"learning_rate": 2e-05,
	"llm_loss": 0.0036,
	"loss": 0.0251,
	"step": 32850
	},
	{
	"action_loss": 0.0271,
	"epoch": 3.384077350339436,
	"learning_rate": 2e-05,
	"llm_loss": 0.0039,
	"loss": 0.031,
	"step": 32900
	},
	{
	"action_loss": 0.0275,
	"epoch": 3.3892203250360007,
	"learning_rate": 2e-05,
	"llm_loss": 0.0041,
	"loss": 0.0317,
	"step": 32950
	},
	{
	"action_loss": 0.0198,
	"epoch": 3.3943632997325652,
	"learning_rate": 2e-05,
	"llm_loss": 0.0038,
	"loss": 0.0236,
	"step": 33000
	},
	{
	"action_loss": 0.0256,
	"epoch": 3.39950627442913,
	"learning_rate": 2e-05,
	"llm_loss": 0.0036,
	"loss": 0.0292,
	"step": 33050
	},
	{
	"action_loss": 0.03,
	"epoch": 3.4046492491256943,
	"learning_rate": 2e-05,
	"llm_loss": 0.004,
	"loss": 0.034,
	"step": 33100
	},
	{
	"action_loss": 0.0318,
	"epoch": 3.409792223822259,
	"learning_rate": 2e-05,
	"llm_loss": 0.0029,
	"loss": 0.0347,
	"step": 33150
	},
	{
	"action_loss": 0.0285,
	"epoch": 3.4149351985188234,
	"learning_rate": 2e-05,
	"llm_loss": 0.0031,
	"loss": 0.0316,
	"step": 33200
	},
	{
	"action_loss": 0.0278,
	"epoch": 3.420078173215388,
	"learning_rate": 2e-05,
	"llm_loss": 0.0041,
	"loss": 0.0319,
	"step": 33250
	},
	{
	"action_loss": 0.0304,
	"epoch": 3.425221147911952,
	"learning_rate": 2e-05,
	"llm_loss": 0.0034,
	"loss": 0.0337,
	"step": 33300
	},
	{
	"action_loss": 0.0176,
	"epoch": 3.4303641226085166,
	"learning_rate": 2e-05,
	"llm_loss": 0.0032,
	"loss": 0.0208,
	"step": 33350
	},
	{
	"action_loss": 0.0307,
	"epoch": 3.435507097305081,
	"learning_rate": 2e-05,
	"llm_loss": 0.0035,
	"loss": 0.0341,
	"step": 33400
	},
	{
	"action_loss": 0.0171,
	"epoch": 3.4406500720016457,
	"learning_rate": 2e-05,
	"llm_loss": 0.0033,
	"loss": 0.0204,
	"step": 33450
	},
	{
	"action_loss": 0.0256,
	"epoch": 3.4457930466982103,
	"learning_rate": 2e-05,
	"llm_loss": 0.0038,
	"loss": 0.0293,
	"step": 33500
	},
	{
	"action_loss": 0.0285,
	"epoch": 3.450936021394775,
	"learning_rate": 2e-05,
	"llm_loss": 0.0041,
	"loss": 0.0326,
	"step": 33550
	},
	{
	"action_loss": 0.0193,
	"epoch": 3.4560789960913394,
	"learning_rate": 2e-05,
	"llm_loss": 0.0033,
	"loss": 0.0226,
	"step": 33600
	},
	{
	"action_loss": 0.0214,
	"epoch": 3.4612219707879035,
	"learning_rate": 2e-05,
	"llm_loss": 0.0037,
	"loss": 0.0251,
	"step": 33650
	},
	{
	"action_loss": 0.0231,
	"epoch": 3.466364945484468,
	"learning_rate": 2e-05,
	"llm_loss": 0.0039,
	"loss": 0.027,
	"step": 33700
	},
	{
	"action_loss": 0.0147,
	"epoch": 3.4715079201810326,
	"learning_rate": 2e-05,
	"llm_loss": 0.0036,
	"loss": 0.0182,
	"step": 33750
	},
	{
	"action_loss": 0.0238,
	"epoch": 3.476650894877597,
	"learning_rate": 2e-05,
	"llm_loss": 0.0033,
	"loss": 0.0271,
	"step": 33800
	},
	{
	"action_loss": 0.0167,
	"epoch": 3.4817938695741617,
	"learning_rate": 2e-05,
	"llm_loss": 0.0037,
	"loss": 0.0204,
	"step": 33850
	},
	{
	"action_loss": 0.0288,
	"epoch": 3.4869368442707263,
	"learning_rate": 2e-05,
	"llm_loss": 0.0036,
	"loss": 0.0324,
	"step": 33900
	},
	{
	"action_loss": 0.0308,
	"epoch": 3.492079818967291,
	"learning_rate": 2e-05,
	"llm_loss": 0.0033,
	"loss": 0.0342,
	"step": 33950
	},
	{
	"action_loss": 0.0361,
	"epoch": 3.4972227936638554,
	"learning_rate": 2e-05,
	"llm_loss": 0.0032,
	"loss": 0.0393,
	"step": 34000
	},
	{
	"action_loss": 0.0253,
	"epoch": 3.50236576836042,
	"learning_rate": 2e-05,
	"llm_loss": 0.0036,
	"loss": 0.0289,
	"step": 34050
	},
	{
	"action_loss": 0.0276,
	"epoch": 3.507508743056984,
	"learning_rate": 2e-05,
	"llm_loss": 0.0035,
	"loss": 0.0311,
	"step": 34100
	},
	{
	"action_loss": 0.0277,
	"epoch": 3.5126517177535486,
	"learning_rate": 2e-05,
	"llm_loss": 0.0033,
	"loss": 0.031,
	"step": 34150
	},
	{
	"action_loss": 0.0232,
	"epoch": 3.517794692450113,
	"learning_rate": 2e-05,
	"llm_loss": 0.0036,
	"loss": 0.0268,
	"step": 34200
	},
	{
	"action_loss": 0.0153,
	"epoch": 3.5229376671466777,
	"learning_rate": 2e-05,
	"llm_loss": 0.0032,
	"loss": 0.0186,
	"step": 34250
	},
	{
	"action_loss": 0.0209,
	"epoch": 3.528080641843242,
	"learning_rate": 2e-05,
	"llm_loss": 0.0037,
	"loss": 0.0246,
	"step": 34300
	},
	{
	"action_loss": 0.0139,
	"epoch": 3.5332236165398068,
	"learning_rate": 2e-05,
	"llm_loss": 0.0033,
	"loss": 0.0172,
	"step": 34350
	},
	{
	"action_loss": 0.015,
	"epoch": 3.538366591236371,
	"learning_rate": 2e-05,
	"llm_loss": 0.0041,
	"loss": 0.019,
	"step": 34400
	},
	{
	"action_loss": 0.0266,
	"epoch": 3.5435095659329354,
	"learning_rate": 2e-05,
	"llm_loss": 0.0037,
	"loss": 0.0303,
	"step": 34450
	},
	{
	"action_loss": 0.0237,
	"epoch": 3.5486525406295,
	"learning_rate": 2e-05,
	"llm_loss": 0.0034,
	"loss": 0.0271,
	"step": 34500
	},
	{
	"action_loss": 0.0205,
	"epoch": 3.5537955153260645,
	"learning_rate": 2e-05,
	"llm_loss": 0.0046,
	"loss": 0.0252,
	"step": 34550
	},
	{
	"action_loss": 0.0247,
	"epoch": 3.558938490022629,
	"learning_rate": 2e-05,
	"llm_loss": 0.0044,
	"loss": 0.0291,
	"step": 34600
	},
	{
	"action_loss": 0.0269,
	"epoch": 3.5640814647191936,
	"learning_rate": 2e-05,
	"llm_loss": 0.0033,
	"loss": 0.0302,
	"step": 34650
	},
	{
	"action_loss": 0.0217,
	"epoch": 3.569224439415758,
	"learning_rate": 2e-05,
	"llm_loss": 0.0036,
	"loss": 0.0254,
	"step": 34700
	},
	{
	"action_loss": 0.0187,
	"epoch": 3.5743674141123227,
	"learning_rate": 2e-05,
	"llm_loss": 0.0036,
	"loss": 0.0223,
	"step": 34750
	},
	{
	"action_loss": 0.0258,
	"epoch": 3.5795103888088873,
	"learning_rate": 2e-05,
	"llm_loss": 0.0039,
	"loss": 0.0297,
	"step": 34800
	},
	{
	"action_loss": 0.0277,
	"epoch": 3.584653363505452,
	"learning_rate": 2e-05,
	"llm_loss": 0.0039,
	"loss": 0.0316,
	"step": 34850
	},
	{
	"action_loss": 0.028,
	"epoch": 3.589796338202016,
	"learning_rate": 2e-05,
	"llm_loss": 0.0037,
	"loss": 0.0317,
	"step": 34900
	},
	{
	"action_loss": 0.027,
	"epoch": 3.5949393128985805,
	"learning_rate": 2e-05,
	"llm_loss": 0.0037,
	"loss": 0.0307,
	"step": 34950
	},
	{
	"action_loss": 0.0209,
	"epoch": 3.600082287595145,
	"learning_rate": 2e-05,
	"llm_loss": 0.0035,
	"loss": 0.0244,
	"step": 35000
	},
	{
	"action_loss": 0.0165,
	"epoch": 3.6052252622917096,
	"learning_rate": 2e-05,
	"llm_loss": 0.0039,
	"loss": 0.0203,
	"step": 35050
	},
	{
	"action_loss": 0.0198,
	"epoch": 3.610368236988274,
	"learning_rate": 2e-05,
	"llm_loss": 0.004,
	"loss": 0.0238,
	"step": 35100
	},
	{
	"action_loss": 0.0207,
	"epoch": 3.6155112116848382,
	"learning_rate": 2e-05,
	"llm_loss": 0.0041,
	"loss": 0.0248,
	"step": 35150
	},
	{
	"action_loss": 0.0261,
	"epoch": 3.620654186381403,
	"learning_rate": 2e-05,
	"llm_loss": 0.0034,
	"loss": 0.0295,
	"step": 35200
	},
	{
	"action_loss": 0.03,
	"epoch": 3.6257971610779673,
	"learning_rate": 2e-05,
	"llm_loss": 0.0036,
	"loss": 0.0336,
	"step": 35250
	},
	{
	"action_loss": 0.0282,
	"epoch": 3.630940135774532,
	"learning_rate": 2e-05,
	"llm_loss": 0.0031,
	"loss": 0.0313,
	"step": 35300
	},
	{
	"action_loss": 0.0295,
	"epoch": 3.6360831104710964,
	"learning_rate": 2e-05,
	"llm_loss": 0.0031,
	"loss": 0.0326,
	"step": 35350
	},
	{
	"action_loss": 0.0206,
	"epoch": 3.641226085167661,
	"learning_rate": 2e-05,
	"llm_loss": 0.0033,
	"loss": 0.0239,
	"step": 35400
	},
	{
	"action_loss": 0.0226,
	"epoch": 3.6463690598642255,
	"learning_rate": 2e-05,
	"llm_loss": 0.0035,
	"loss": 0.0261,
	"step": 35450
	},
	{
	"action_loss": 0.0218,
	"epoch": 3.65151203456079,
	"learning_rate": 2e-05,
	"llm_loss": 0.0039,
	"loss": 0.0257,
	"step": 35500
	},
	{
	"action_loss": 0.017,
	"epoch": 3.6566550092573546,
	"learning_rate": 2e-05,
	"llm_loss": 0.004,
	"loss": 0.0209,
	"step": 35550
	},
	{
	"action_loss": 0.0208,
	"epoch": 3.661797983953919,
	"learning_rate": 2e-05,
	"llm_loss": 0.004,
	"loss": 0.0247,
	"step": 35600
	},
	{
	"action_loss": 0.0303,
	"epoch": 3.6669409586504833,
	"learning_rate": 2e-05,
	"llm_loss": 0.0031,
	"loss": 0.0334,
	"step": 35650
	},
	{
	"action_loss": 0.022,
	"epoch": 3.672083933347048,
	"learning_rate": 2e-05,
	"llm_loss": 0.0038,
	"loss": 0.0258,
	"step": 35700
	},
	{
	"action_loss": 0.0239,
	"epoch": 3.6772269080436124,
	"learning_rate": 2e-05,
	"llm_loss": 0.0034,
	"loss": 0.0273,
	"step": 35750
	},
	{
	"action_loss": 0.025,
	"epoch": 3.682369882740177,
	"learning_rate": 2e-05,
	"llm_loss": 0.0033,
	"loss": 0.0283,
	"step": 35800
	},
	{
	"action_loss": 0.0283,
	"epoch": 3.6875128574367415,
	"learning_rate": 2e-05,
	"llm_loss": 0.0041,
	"loss": 0.0323,
	"step": 35850
	},
	{
	"action_loss": 0.021,
	"epoch": 3.692655832133306,
	"learning_rate": 2e-05,
	"llm_loss": 0.0033,
	"loss": 0.0244,
	"step": 35900
	},
	{
	"action_loss": 0.0262,
	"epoch": 3.69779880682987,
	"learning_rate": 2e-05,
	"llm_loss": 0.0038,
	"loss": 0.03,
	"step": 35950
	},
	{
	"action_loss": 0.0361,
	"epoch": 3.7029417815264347,
	"learning_rate": 2e-05,
	"llm_loss": 0.0035,
	"loss": 0.0396,
	"step": 36000
	},
	{
	"action_loss": 0.0286,
	"epoch": 3.7080847562229993,
	"learning_rate": 2e-05,
	"llm_loss": 0.0034,
	"loss": 0.032,
	"step": 36050
	},
	{
	"action_loss": 0.0125,
	"epoch": 3.713227730919564,
	"learning_rate": 2e-05,
	"llm_loss": 0.0041,
	"loss": 0.0167,
	"step": 36100
	},
	{
	"action_loss": 0.0284,
	"epoch": 3.7183707056161284,
	"learning_rate": 2e-05,
	"llm_loss": 0.0034,
	"loss": 0.0318,
	"step": 36150
	},
	{
	"action_loss": 0.0262,
	"epoch": 3.723513680312693,
	"learning_rate": 2e-05,
	"llm_loss": 0.0033,
	"loss": 0.0295,
	"step": 36200
	},
	{
	"action_loss": 0.0234,
	"epoch": 3.7286566550092575,
	"learning_rate": 2e-05,
	"llm_loss": 0.0031,
	"loss": 0.0265,
	"step": 36250
	},
	{
	"action_loss": 0.0292,
	"epoch": 3.733799629705822,
	"learning_rate": 2e-05,
	"llm_loss": 0.0046,
	"loss": 0.0338,
	"step": 36300
	},
	{
	"action_loss": 0.0242,
	"epoch": 3.7389426044023866,
	"learning_rate": 2e-05,
	"llm_loss": 0.0038,
	"loss": 0.0281,
	"step": 36350
	},
	{
	"action_loss": 0.0141,
	"epoch": 3.7440855790989507,
	"learning_rate": 2e-05,
	"llm_loss": 0.0034,
	"loss": 0.0174,
	"step": 36400
	},
	{
	"action_loss": 0.0201,
	"epoch": 3.7492285537955152,
	"learning_rate": 2e-05,
	"llm_loss": 0.0037,
	"loss": 0.0237,
	"step": 36450
	},
	{
	"action_loss": 0.0254,
	"epoch": 3.75437152849208,
	"learning_rate": 2e-05,
	"llm_loss": 0.0036,
	"loss": 0.0289,
	"step": 36500
	},
	{
	"action_loss": 0.0184,
	"epoch": 3.7595145031886443,
	"learning_rate": 2e-05,
	"llm_loss": 0.0039,
	"loss": 0.0222,
	"step": 36550
	},
	{
	"action_loss": 0.0229,
	"epoch": 3.764657477885209,
	"learning_rate": 2e-05,
	"llm_loss": 0.004,
	"loss": 0.027,
	"step": 36600
	},
	{
	"action_loss": 0.024,
	"epoch": 3.7698004525817734,
	"learning_rate": 2e-05,
	"llm_loss": 0.0038,
	"loss": 0.0279,
	"step": 36650
	},
	{
	"action_loss": 0.0215,
	"epoch": 3.7749434272783375,
	"learning_rate": 2e-05,
	"llm_loss": 0.0036,
	"loss": 0.0251,
	"step": 36700
	},
	{
	"action_loss": 0.026,
	"epoch": 3.780086401974902,
	"learning_rate": 2e-05,
	"llm_loss": 0.0039,
	"loss": 0.0298,
	"step": 36750
	},
	{
	"action_loss": 0.034,
	"epoch": 3.7852293766714666,
	"learning_rate": 2e-05,
	"llm_loss": 0.0035,
	"loss": 0.0375,
	"step": 36800
	},
	{
	"action_loss": 0.0289,
	"epoch": 3.790372351368031,
	"learning_rate": 2e-05,
	"llm_loss": 0.0039,
	"loss": 0.0328,
	"step": 36850
	},
	{
	"action_loss": 0.0232,
	"epoch": 3.7955153260645957,
	"learning_rate": 2e-05,
	"llm_loss": 0.003,
	"loss": 0.0262,
	"step": 36900
	},
	{
	"action_loss": 0.0278,
	"epoch": 3.8006583007611603,
	"learning_rate": 2e-05,
	"llm_loss": 0.0038,
	"loss": 0.0316,
	"step": 36950
	},
	{
	"action_loss": 0.0267,
	"epoch": 3.805801275457725,
	"learning_rate": 2e-05,
	"llm_loss": 0.0034,
	"loss": 0.0301,
	"step": 37000
	},
	{
	"action_loss": 0.0323,
	"epoch": 3.8109442501542894,
	"learning_rate": 2e-05,
	"llm_loss": 0.0036,
	"loss": 0.0359,
	"step": 37050
	},
	{
	"action_loss": 0.0258,
	"epoch": 3.816087224850854,
	"learning_rate": 2e-05,
	"llm_loss": 0.0037,
	"loss": 0.0295,
	"step": 37100
	},
	{
	"action_loss": 0.016,
	"epoch": 3.8212301995474185,
	"learning_rate": 2e-05,
	"llm_loss": 0.0044,
	"loss": 0.0205,
	"step": 37150
	},
	{
	"action_loss": 0.0302,
	"epoch": 3.8263731742439826,
	"learning_rate": 2e-05,
	"llm_loss": 0.0032,
	"loss": 0.0334,
	"step": 37200
	},
	{
	"action_loss": 0.028,
	"epoch": 3.831516148940547,
	"learning_rate": 2e-05,
	"llm_loss": 0.003,
	"loss": 0.031,
	"step": 37250
	},
	{
	"action_loss": 0.0228,
	"epoch": 3.8366591236371117,
	"learning_rate": 2e-05,
	"llm_loss": 0.0038,
	"loss": 0.0266,
	"step": 37300
	},
	{
	"action_loss": 0.0205,
	"epoch": 3.8418020983336763,
	"learning_rate": 2e-05,
	"llm_loss": 0.0032,
	"loss": 0.0238,
	"step": 37350
	},
	{
	"action_loss": 0.0248,
	"epoch": 3.846945073030241,
	"learning_rate": 2e-05,
	"llm_loss": 0.0031,
	"loss": 0.0279,
	"step": 37400
	},
	{
	"action_loss": 0.0265,
	"epoch": 3.852088047726805,
	"learning_rate": 2e-05,
	"llm_loss": 0.0035,
	"loss": 0.03,
	"step": 37450
	},
	{
	"action_loss": 0.0319,
	"epoch": 3.8572310224233695,
	"learning_rate": 2e-05,
	"llm_loss": 0.0041,
	"loss": 0.0361,
	"step": 37500
	},
	{
	"action_loss": 0.0313,
	"epoch": 3.862373997119934,
	"learning_rate": 2e-05,
	"llm_loss": 0.0032,
	"loss": 0.0344,
	"step": 37550
	},
	{
	"action_loss": 0.0243,
	"epoch": 3.8675169718164986,
	"learning_rate": 2e-05,
	"llm_loss": 0.0034,
	"loss": 0.0278,
	"step": 37600
	},
	{
	"action_loss": 0.0189,
	"epoch": 3.872659946513063,
	"learning_rate": 2e-05,
	"llm_loss": 0.0036,
	"loss": 0.0225,
	"step": 37650
	},
	{
	"action_loss": 0.0204,
	"epoch": 3.8778029212096277,
	"learning_rate": 2e-05,
	"llm_loss": 0.0037,
	"loss": 0.0241,
	"step": 37700
	},
	{
	"action_loss": 0.0298,
	"epoch": 3.882945895906192,
	"learning_rate": 2e-05,
	"llm_loss": 0.0034,
	"loss": 0.0332,
	"step": 37750
	},
	{
	"action_loss": 0.035,
	"epoch": 3.8880888706027568,
	"learning_rate": 2e-05,
	"llm_loss": 0.0036,
	"loss": 0.0386,
	"step": 37800
	},
	{
	"action_loss": 0.0278,
	"epoch": 3.8932318452993213,
	"learning_rate": 2e-05,
	"llm_loss": 0.0036,
	"loss": 0.0314,
	"step": 37850
	},
	{
	"action_loss": 0.0222,
	"epoch": 3.898374819995886,
	"learning_rate": 2e-05,
	"llm_loss": 0.0046,
	"loss": 0.0268,
	"step": 37900
	},
	{
	"action_loss": 0.0233,
	"epoch": 3.90351779469245,
	"learning_rate": 2e-05,
	"llm_loss": 0.0046,
	"loss": 0.0278,
	"step": 37950
	},
	{
	"action_loss": 0.0196,
	"epoch": 3.9086607693890145,
	"learning_rate": 2e-05,
	"llm_loss": 0.0043,
	"loss": 0.0239,
	"step": 38000
	},
	{
	"action_loss": 0.0228,
	"epoch": 3.913803744085579,
	"learning_rate": 2e-05,
	"llm_loss": 0.0035,
	"loss": 0.0263,
	"step": 38050
	},
	{
	"action_loss": 0.021,
	"epoch": 3.9189467187821436,
	"learning_rate": 2e-05,
	"llm_loss": 0.0036,
	"loss": 0.0246,
	"step": 38100
	},
	{
	"action_loss": 0.0211,
	"epoch": 3.924089693478708,
	"learning_rate": 2e-05,
	"llm_loss": 0.0034,
	"loss": 0.0245,
	"step": 38150
	},
	{
	"action_loss": 0.0324,
	"epoch": 3.9292326681752727,
	"learning_rate": 2e-05,
	"llm_loss": 0.0032,
	"loss": 0.0356,
	"step": 38200
	},
	{
	"action_loss": 0.0231,
	"epoch": 3.934375642871837,
	"learning_rate": 2e-05,
	"llm_loss": 0.0036,
	"loss": 0.0267,
	"step": 38250
	},
	{
	"action_loss": 0.0204,
	"epoch": 3.9395186175684014,
	"learning_rate": 2e-05,
	"llm_loss": 0.0036,
	"loss": 0.024,
	"step": 38300
	},
	{
	"action_loss": 0.0261,
	"epoch": 3.944661592264966,
	"learning_rate": 2e-05,
	"llm_loss": 0.0031,
	"loss": 0.0292,
	"step": 38350
	},
	{
	"action_loss": 0.0196,
	"epoch": 3.9498045669615305,
	"learning_rate": 2e-05,
	"llm_loss": 0.0037,
	"loss": 0.0233,
	"step": 38400
	},
	{
	"action_loss": 0.0341,
	"epoch": 3.954947541658095,
	"learning_rate": 2e-05,
	"llm_loss": 0.0037,
	"loss": 0.0377,
	"step": 38450
	},
	{
	"action_loss": 0.0225,
	"epoch": 3.9600905163546596,
	"learning_rate": 2e-05,
	"llm_loss": 0.0044,
	"loss": 0.0268,
	"step": 38500
	},
	{
	"action_loss": 0.0241,
	"epoch": 3.965233491051224,
	"learning_rate": 2e-05,
	"llm_loss": 0.0032,
	"loss": 0.0273,
	"step": 38550
	},
	{
	"action_loss": 0.0246,
	"epoch": 3.9703764657477887,
	"learning_rate": 2e-05,
	"llm_loss": 0.0033,
	"loss": 0.0278,
	"step": 38600
	},
	{
	"action_loss": 0.0216,
	"epoch": 3.9755194404443532,
	"learning_rate": 2e-05,
	"llm_loss": 0.004,
	"loss": 0.0256,
	"step": 38650
	},
	{
	"action_loss": 0.0315,
	"epoch": 3.9806624151409173,
	"learning_rate": 2e-05,
	"llm_loss": 0.003,
	"loss": 0.0345,
	"step": 38700
	},
	{
	"action_loss": 0.0218,
	"epoch": 3.985805389837482,
	"learning_rate": 2e-05,
	"llm_loss": 0.0031,
	"loss": 0.0249,
	"step": 38750
	},
	{
	"action_loss": 0.0245,
	"epoch": 3.9909483645340464,
	"learning_rate": 2e-05,
	"llm_loss": 0.0037,
	"loss": 0.0282,
	"step": 38800
	},
	{
	"action_loss": 0.0206,
	"epoch": 3.996091339230611,
	"learning_rate": 2e-05,
	"llm_loss": 0.0039,
	"loss": 0.0244,
	"step": 38850
	},
	{
	"action_loss": 0.0231,
	"epoch": 4.001234313927175,
	"learning_rate": 2e-05,
	"llm_loss": 0.0035,
	"loss": 0.0267,
	"step": 38900
	},
	{
	"action_loss": 0.0189,
	"epoch": 4.00637728862374,
	"learning_rate": 2e-05,
	"llm_loss": 0.0032,
	"loss": 0.0222,
	"step": 38950
	},
	{
	"action_loss": 0.0143,
	"epoch": 4.011520263320304,
	"learning_rate": 2e-05,
	"llm_loss": 0.0036,
	"loss": 0.0179,
	"step": 39000
	},
	{
	"action_loss": 0.0197,
	"epoch": 4.016663238016869,
	"learning_rate": 2e-05,
	"llm_loss": 0.003,
	"loss": 0.0227,
	"step": 39050
	},
	{
	"action_loss": 0.0262,
	"epoch": 4.021806212713433,
	"learning_rate": 2e-05,
	"llm_loss": 0.0036,
	"loss": 0.0297,
	"step": 39100
	},
	{
	"action_loss": 0.0347,
	"epoch": 4.026949187409998,
	"learning_rate": 2e-05,
	"llm_loss": 0.003,
	"loss": 0.0377,
	"step": 39150
	},
	{
	"action_loss": 0.0248,
	"epoch": 4.032092162106562,
	"learning_rate": 2e-05,
	"llm_loss": 0.0035,
	"loss": 0.0283,
	"step": 39200
	},
	{
	"action_loss": 0.0122,
	"epoch": 4.037235136803127,
	"learning_rate": 2e-05,
	"llm_loss": 0.0029,
	"loss": 0.0151,
	"step": 39250
	},
	{
	"action_loss": 0.0288,
	"epoch": 4.0423781114996915,
	"learning_rate": 2e-05,
	"llm_loss": 0.003,
	"loss": 0.0319,
	"step": 39300
	},
	{
	"action_loss": 0.0262,
	"epoch": 4.047521086196256,
	"learning_rate": 2e-05,
	"llm_loss": 0.0027,
	"loss": 0.0289,
	"step": 39350
	},
	{
	"action_loss": 0.0317,
	"epoch": 4.052664060892821,
	"learning_rate": 2e-05,
	"llm_loss": 0.0039,
	"loss": 0.0356,
	"step": 39400
	},
	{
	"action_loss": 0.0236,
	"epoch": 4.057807035589385,
	"learning_rate": 2e-05,
	"llm_loss": 0.0032,
	"loss": 0.0268,
	"step": 39450
	},
	{
	"action_loss": 0.039,
	"epoch": 4.06295001028595,
	"learning_rate": 2e-05,
	"llm_loss": 0.003,
	"loss": 0.042,
	"step": 39500
	},
	{
	"action_loss": 0.0253,
	"epoch": 4.068092984982514,
	"learning_rate": 2e-05,
	"llm_loss": 0.0034,
	"loss": 0.0287,
	"step": 39550
	},
	{
	"action_loss": 0.0355,
	"epoch": 4.073235959679079,
	"learning_rate": 2e-05,
	"llm_loss": 0.0034,
	"loss": 0.039,
	"step": 39600
	},
	{
	"action_loss": 0.0288,
	"epoch": 4.0783789343756425,
	"learning_rate": 2e-05,
	"llm_loss": 0.0032,
	"loss": 0.032,
	"step": 39650
	},
	{
	"action_loss": 0.0185,
	"epoch": 4.083521909072207,
	"learning_rate": 2e-05,
	"llm_loss": 0.003,
	"loss": 0.0215,
	"step": 39700
	},
	{
	"action_loss": 0.0246,
	"epoch": 4.088664883768772,
	"learning_rate": 2e-05,
	"llm_loss": 0.0039,
	"loss": 0.0285,
	"step": 39750
	},
	{
	"action_loss": 0.0314,
	"epoch": 4.093807858465336,
	"learning_rate": 2e-05,
	"llm_loss": 0.0033,
	"loss": 0.0347,
	"step": 39800
	},
	{
	"action_loss": 0.0235,
	"epoch": 4.098950833161901,
	"learning_rate": 2e-05,
	"llm_loss": 0.0027,
	"loss": 0.0263,
	"step": 39850
	},
	{
	"action_loss": 0.0275,
	"epoch": 4.104093807858465,
	"learning_rate": 2e-05,
	"llm_loss": 0.0033,
	"loss": 0.0307,
	"step": 39900
	},
	{
	"action_loss": 0.0346,
	"epoch": 4.10923678255503,
	"learning_rate": 2e-05,
	"llm_loss": 0.0033,
	"loss": 0.0379,
	"step": 39950
	},
	{
	"action_loss": 0.0255,
	"epoch": 4.114379757251594,
	"learning_rate": 2e-05,
	"llm_loss": 0.0027,
	"loss": 0.0282,
	"step": 40000
	},
	{
	"action_loss": 0.0146,
	"epoch": 4.119522731948159,
	"learning_rate": 2e-05,
	"llm_loss": 0.0031,
	"loss": 0.0177,
	"step": 40050
	},
	{
	"action_loss": 0.0309,
	"epoch": 4.124665706644723,
	"learning_rate": 2e-05,
	"llm_loss": 0.0031,
	"loss": 0.0339,
	"step": 40100
	},
	{
	"action_loss": 0.0247,
	"epoch": 4.129808681341288,
	"learning_rate": 2e-05,
	"llm_loss": 0.0031,
	"loss": 0.0277,
	"step": 40150
	},
	{
	"action_loss": 0.0278,
	"epoch": 4.1349516560378525,
	"learning_rate": 2e-05,
	"llm_loss": 0.0033,
	"loss": 0.0311,
	"step": 40200
	},
	{
	"action_loss": 0.0215,
	"epoch": 4.140094630734417,
	"learning_rate": 2e-05,
	"llm_loss": 0.0035,
	"loss": 0.025,
	"step": 40250
	},
	{
	"action_loss": 0.0213,
	"epoch": 4.145237605430982,
	"learning_rate": 2e-05,
	"llm_loss": 0.0031,
	"loss": 0.0245,
	"step": 40300
	},
	{
	"action_loss": 0.0315,
	"epoch": 4.150380580127546,
	"learning_rate": 2e-05,
	"llm_loss": 0.0033,
	"loss": 0.0348,
	"step": 40350
	},
	{
	"action_loss": 0.0225,
	"epoch": 4.15552355482411,
	"learning_rate": 2e-05,
	"llm_loss": 0.0035,
	"loss": 0.0259,
	"step": 40400
	},
	{
	"action_loss": 0.0287,
	"epoch": 4.160666529520674,
	"learning_rate": 2e-05,
	"llm_loss": 0.0027,
	"loss": 0.0315,
	"step": 40450
	},
	{
	"action_loss": 0.0236,
	"epoch": 4.165809504217239,
	"learning_rate": 2e-05,
	"llm_loss": 0.004,
	"loss": 0.0277,
	"step": 40500
	},
	{
	"action_loss": 0.0191,
	"epoch": 4.1709524789138035,
	"learning_rate": 2e-05,
	"llm_loss": 0.0032,
	"loss": 0.0223,
	"step": 40550
	},
	{
	"action_loss": 0.031,
	"epoch": 4.176095453610368,
	"learning_rate": 2e-05,
	"llm_loss": 0.0037,
	"loss": 0.0347,
	"step": 40600
	},
	{
	"action_loss": 0.0377,
	"epoch": 4.181238428306933,
	"learning_rate": 2e-05,
	"llm_loss": 0.0032,
	"loss": 0.0409,
	"step": 40650
	},
	{
	"action_loss": 0.035,
	"epoch": 4.186381403003497,
	"learning_rate": 2e-05,
	"llm_loss": 0.0035,
	"loss": 0.0385,
	"step": 40700
	},
	{
	"action_loss": 0.0252,
	"epoch": 4.191524377700062,
	"learning_rate": 2e-05,
	"llm_loss": 0.0035,
	"loss": 0.0287,
	"step": 40750
	},
	{
	"action_loss": 0.0343,
	"epoch": 4.196667352396626,
	"learning_rate": 2e-05,
	"llm_loss": 0.0032,
	"loss": 0.0376,
	"step": 40800
	},
	{
	"action_loss": 0.0318,
	"epoch": 4.201810327093191,
	"learning_rate": 2e-05,
	"llm_loss": 0.0034,
	"loss": 0.0352,
	"step": 40850
	},
	{
	"action_loss": 0.0237,
	"epoch": 4.206953301789755,
	"learning_rate": 2e-05,
	"llm_loss": 0.0033,
	"loss": 0.0271,
	"step": 40900
	},
	{
	"action_loss": 0.0319,
	"epoch": 4.21209627648632,
	"learning_rate": 2e-05,
	"llm_loss": 0.0029,
	"loss": 0.0348,
	"step": 40950
	},
	{
	"action_loss": 0.0288,
	"epoch": 4.2172392511828845,
	"learning_rate": 2e-05,
	"llm_loss": 0.0031,
	"loss": 0.0319,
	"step": 41000
	},
	{
	"action_loss": 0.0224,
	"epoch": 4.222382225879449,
	"learning_rate": 2e-05,
	"llm_loss": 0.003,
	"loss": 0.0254,
	"step": 41050
	},
	{
	"action_loss": 0.0235,
	"epoch": 4.2275252005760136,
	"learning_rate": 2e-05,
	"llm_loss": 0.0026,
	"loss": 0.0261,
	"step": 41100
	},
	{
	"action_loss": 0.0296,
	"epoch": 4.232668175272577,
	"learning_rate": 2e-05,
	"llm_loss": 0.0029,
	"loss": 0.0324,
	"step": 41150
	},
	{
	"action_loss": 0.0356,
	"epoch": 4.237811149969142,
	"learning_rate": 2e-05,
	"llm_loss": 0.0029,
	"loss": 0.0386,
	"step": 41200
	},
	{
	"action_loss": 0.0245,
	"epoch": 4.242954124665706,
	"learning_rate": 2e-05,
	"llm_loss": 0.0033,
	"loss": 0.0277,
	"step": 41250
	},
	{
	"action_loss": 0.0194,
	"epoch": 4.248097099362271,
	"learning_rate": 2e-05,
	"llm_loss": 0.0033,
	"loss": 0.0227,
	"step": 41300
	},
	{
	"action_loss": 0.0262,
	"epoch": 4.253240074058835,
	"learning_rate": 2e-05,
	"llm_loss": 0.0039,
	"loss": 0.03,
	"step": 41350
	},
	{
	"action_loss": 0.0256,
	"epoch": 4.2583830487554,
	"learning_rate": 2e-05,
	"llm_loss": 0.0036,
	"loss": 0.0292,
	"step": 41400
	},
	{
	"action_loss": 0.03,
	"epoch": 4.2635260234519645,
	"learning_rate": 2e-05,
	"llm_loss": 0.0035,
	"loss": 0.0335,
	"step": 41450
	},
	{
	"action_loss": 0.0293,
	"epoch": 4.268668998148529,
	"learning_rate": 2e-05,
	"llm_loss": 0.0032,
	"loss": 0.0325,
	"step": 41500
	},
	{
	"action_loss": 0.0315,
	"epoch": 4.273811972845094,
	"learning_rate": 2e-05,
	"llm_loss": 0.003,
	"loss": 0.0345,
	"step": 41550
	},
	{
	"action_loss": 0.0249,
	"epoch": 4.278954947541658,
	"learning_rate": 2e-05,
	"llm_loss": 0.0029,
	"loss": 0.0278,
	"step": 41600
	},
	{
	"action_loss": 0.025,
	"epoch": 4.284097922238223,
	"learning_rate": 2e-05,
	"llm_loss": 0.0035,
	"loss": 0.0285,
	"step": 41650
	},
	{
	"action_loss": 0.034,
	"epoch": 4.289240896934787,
	"learning_rate": 2e-05,
	"llm_loss": 0.0034,
	"loss": 0.0374,
	"step": 41700
	},
	{
	"action_loss": 0.0359,
	"epoch": 4.294383871631352,
	"learning_rate": 2e-05,
	"llm_loss": 0.0032,
	"loss": 0.0391,
	"step": 41750
	},
	{
	"action_loss": 0.019,
	"epoch": 4.299526846327916,
	"learning_rate": 2e-05,
	"llm_loss": 0.0031,
	"loss": 0.0221,
	"step": 41800
	},
	{
	"action_loss": 0.0249,
	"epoch": 4.304669821024481,
	"learning_rate": 2e-05,
	"llm_loss": 0.0036,
	"loss": 0.0285,
	"step": 41850
	},
	{
	"action_loss": 0.0213,
	"epoch": 4.3098127957210455,
	"learning_rate": 2e-05,
	"llm_loss": 0.0031,
	"loss": 0.0244,
	"step": 41900
	},
	{
	"action_loss": 0.0213,
	"epoch": 4.314955770417609,
	"learning_rate": 2e-05,
	"llm_loss": 0.0034,
	"loss": 0.0246,
	"step": 41950
	},
	{
	"action_loss": 0.03,
	"epoch": 4.320098745114174,
	"learning_rate": 2e-05,
	"llm_loss": 0.003,
	"loss": 0.033,
	"step": 42000
	},
	{
	"action_loss": 0.0249,
	"epoch": 4.325241719810738,
	"learning_rate": 2e-05,
	"llm_loss": 0.0035,
	"loss": 0.0283,
	"step": 42050
	},
	{
	"action_loss": 0.0218,
	"epoch": 4.330384694507303,
	"learning_rate": 2e-05,
	"llm_loss": 0.0037,
	"loss": 0.0255,
	"step": 42100
	},
	{
	"action_loss": 0.0202,
	"epoch": 4.335527669203867,
	"learning_rate": 2e-05,
	"llm_loss": 0.0037,
	"loss": 0.0239,
	"step": 42150
	},
	{
	"action_loss": 0.0312,
	"epoch": 4.340670643900432,
	"learning_rate": 2e-05,
	"llm_loss": 0.0034,
	"loss": 0.0346,
	"step": 42200
	},
	{
	"action_loss": 0.0212,
	"epoch": 4.345813618596996,
	"learning_rate": 2e-05,
	"llm_loss": 0.0032,
	"loss": 0.0244,
	"step": 42250
	},
	{
	"action_loss": 0.0233,
	"epoch": 4.350956593293561,
	"learning_rate": 2e-05,
	"llm_loss": 0.0034,
	"loss": 0.0268,
	"step": 42300
	},
	{
	"action_loss": 0.0125,
	"epoch": 4.3560995679901255,
	"learning_rate": 2e-05,
	"llm_loss": 0.0026,
	"loss": 0.0152,
	"step": 42350
	},
	{
	"action_loss": 0.0223,
	"epoch": 4.36124254268669,
	"learning_rate": 2e-05,
	"llm_loss": 0.0032,
	"loss": 0.0255,
	"step": 42400
	},
	{
	"action_loss": 0.022,
	"epoch": 4.366385517383255,
	"learning_rate": 2e-05,
	"llm_loss": 0.0032,
	"loss": 0.0251,
	"step": 42450
	},
	{
	"action_loss": 0.0276,
	"epoch": 4.371528492079819,
	"learning_rate": 2e-05,
	"llm_loss": 0.0035,
	"loss": 0.0311,
	"step": 42500
	},
	{
	"action_loss": 0.0232,
	"epoch": 4.376671466776384,
	"learning_rate": 2e-05,
	"llm_loss": 0.0036,
	"loss": 0.0268,
	"step": 42550
	},
	{
	"action_loss": 0.0334,
	"epoch": 4.381814441472948,
	"learning_rate": 2e-05,
	"llm_loss": 0.0035,
	"loss": 0.0369,
	"step": 42600
	},
	{
	"action_loss": 0.0186,
	"epoch": 4.386957416169513,
	"learning_rate": 2e-05,
	"llm_loss": 0.0034,
	"loss": 0.0221,
	"step": 42650
	},
	{
	"action_loss": 0.0224,
	"epoch": 4.3921003908660765,
	"learning_rate": 2e-05,
	"llm_loss": 0.0029,
	"loss": 0.0253,
	"step": 42700
	},
	{
	"action_loss": 0.0245,
	"epoch": 4.397243365562641,
	"learning_rate": 2e-05,
	"llm_loss": 0.0034,
	"loss": 0.0279,
	"step": 42750
	},
	{
	"action_loss": 0.0266,
	"epoch": 4.402386340259206,
	"learning_rate": 2e-05,
	"llm_loss": 0.0029,
	"loss": 0.0295,
	"step": 42800
	},
	{
	"action_loss": 0.0383,
	"epoch": 4.40752931495577,
	"learning_rate": 2e-05,
	"llm_loss": 0.0033,
	"loss": 0.0417,
	"step": 42850
	},
	{
	"action_loss": 0.0242,
	"epoch": 4.412672289652335,
	"learning_rate": 2e-05,
	"llm_loss": 0.0032,
	"loss": 0.0274,
	"step": 42900
	},
	{
	"action_loss": 0.0231,
	"epoch": 4.417815264348899,
	"learning_rate": 2e-05,
	"llm_loss": 0.0027,
	"loss": 0.0258,
	"step": 42950
	},
	{
	"action_loss": 0.0219,
	"epoch": 4.422958239045464,
	"learning_rate": 2e-05,
	"llm_loss": 0.0032,
	"loss": 0.025,
	"step": 43000
	},
	{
	"action_loss": 0.0353,
	"epoch": 4.428101213742028,
	"learning_rate": 2e-05,
	"llm_loss": 0.0032,
	"loss": 0.0384,
	"step": 43050
	},
	{
	"action_loss": 0.0255,
	"epoch": 4.433244188438593,
	"learning_rate": 2e-05,
	"llm_loss": 0.0037,
	"loss": 0.0292,
	"step": 43100
	},
	{
	"action_loss": 0.0262,
	"epoch": 4.4383871631351575,
	"learning_rate": 2e-05,
	"llm_loss": 0.0036,
	"loss": 0.0298,
	"step": 43150
	},
	{
	"action_loss": 0.0243,
	"epoch": 4.443530137831722,
	"learning_rate": 2e-05,
	"llm_loss": 0.003,
	"loss": 0.0274,
	"step": 43200
	},
	{
	"action_loss": 0.0216,
	"epoch": 4.448673112528287,
	"learning_rate": 2e-05,
	"llm_loss": 0.0034,
	"loss": 0.025,
	"step": 43250
	},
	{
	"action_loss": 0.0327,
	"epoch": 4.453816087224851,
	"learning_rate": 2e-05,
	"llm_loss": 0.003,
	"loss": 0.0358,
	"step": 43300
	},
	{
	"action_loss": 0.0244,
	"epoch": 4.458959061921416,
	"learning_rate": 2e-05,
	"llm_loss": 0.0028,
	"loss": 0.0272,
	"step": 43350
	},
	{
	"action_loss": 0.035,
	"epoch": 4.46410203661798,
	"learning_rate": 2e-05,
	"llm_loss": 0.003,
	"loss": 0.0381,
	"step": 43400
	},
	{
	"action_loss": 0.0238,
	"epoch": 4.469245011314545,
	"learning_rate": 2e-05,
	"llm_loss": 0.0031,
	"loss": 0.027,
	"step": 43450
	},
	{
	"action_loss": 0.0245,
	"epoch": 4.474387986011108,
	"learning_rate": 2e-05,
	"llm_loss": 0.003,
	"loss": 0.0275,
	"step": 43500
	},
	{
	"action_loss": 0.0213,
	"epoch": 4.479530960707673,
	"learning_rate": 2e-05,
	"llm_loss": 0.0032,
	"loss": 0.0245,
	"step": 43550
	},
	{
	"action_loss": 0.0294,
	"epoch": 4.4846739354042375,
	"learning_rate": 2e-05,
	"llm_loss": 0.0033,
	"loss": 0.0327,
	"step": 43600
	},
	{
	"action_loss": 0.0287,
	"epoch": 4.489816910100802,
	"learning_rate": 2e-05,
	"llm_loss": 0.0037,
	"loss": 0.0324,
	"step": 43650
	},
	{
	"action_loss": 0.0229,
	"epoch": 4.494959884797367,
	"learning_rate": 2e-05,
	"llm_loss": 0.0029,
	"loss": 0.0258,
	"step": 43700
	},
	{
	"action_loss": 0.0347,
	"epoch": 4.500102859493931,
	"learning_rate": 2e-05,
	"llm_loss": 0.003,
	"loss": 0.0377,
	"step": 43750
	},
	{
	"action_loss": 0.0249,
	"epoch": 4.505245834190496,
	"learning_rate": 2e-05,
	"llm_loss": 0.0032,
	"loss": 0.0281,
	"step": 43800
	},
	{
	"action_loss": 0.0217,
	"epoch": 4.51038880888706,
	"learning_rate": 2e-05,
	"llm_loss": 0.0029,
	"loss": 0.0247,
	"step": 43850
	},
	{
	"action_loss": 0.0249,
	"epoch": 4.515531783583625,
	"learning_rate": 2e-05,
	"llm_loss": 0.003,
	"loss": 0.0279,
	"step": 43900
	},
	{
	"action_loss": 0.0276,
	"epoch": 4.520674758280189,
	"learning_rate": 2e-05,
	"llm_loss": 0.0036,
	"loss": 0.0312,
	"step": 43950
	},
	{
	"action_loss": 0.0225,
	"epoch": 4.525817732976754,
	"learning_rate": 2e-05,
	"llm_loss": 0.0034,
	"loss": 0.026,
	"step": 44000
	},
	{
	"action_loss": 0.0261,
	"epoch": 4.5309607076733185,
	"learning_rate": 2e-05,
	"llm_loss": 0.0034,
	"loss": 0.0295,
	"step": 44050
	},
	{
	"action_loss": 0.0207,
	"epoch": 4.536103682369883,
	"learning_rate": 2e-05,
	"llm_loss": 0.0034,
	"loss": 0.0241,
	"step": 44100
	},
	{
	"action_loss": 0.0325,
	"epoch": 4.541246657066448,
	"learning_rate": 2e-05,
	"llm_loss": 0.0036,
	"loss": 0.0361,
	"step": 44150
	},
	{
	"action_loss": 0.0185,
	"epoch": 4.546389631763011,
	"learning_rate": 2e-05,
	"llm_loss": 0.003,
	"loss": 0.0216,
	"step": 44200
	},
	{
	"action_loss": 0.0239,
	"epoch": 4.551532606459576,
	"learning_rate": 2e-05,
	"llm_loss": 0.0032,
	"loss": 0.0271,
	"step": 44250
	},
	{
	"action_loss": 0.0218,
	"epoch": 4.55667558115614,
	"learning_rate": 2e-05,
	"llm_loss": 0.0035,
	"loss": 0.0254,
	"step": 44300
	},
	{
	"action_loss": 0.0212,
	"epoch": 4.561818555852705,
	"learning_rate": 2e-05,
	"llm_loss": 0.0035,
	"loss": 0.0248,
	"step": 44350
	},
	{
	"action_loss": 0.0354,
	"epoch": 4.5669615305492695,
	"learning_rate": 2e-05,
	"llm_loss": 0.0035,
	"loss": 0.0389,
	"step": 44400
	},
	{
	"action_loss": 0.0183,
	"epoch": 4.572104505245834,
	"learning_rate": 2e-05,
	"llm_loss": 0.0032,
	"loss": 0.0215,
	"step": 44450
	},
	{
	"action_loss": 0.0264,
	"epoch": 4.5772474799423986,
	"learning_rate": 2e-05,
	"llm_loss": 0.0029,
	"loss": 0.0294,
	"step": 44500
	},
	{
	"action_loss": 0.0186,
	"epoch": 4.582390454638963,
	"learning_rate": 2e-05,
	"llm_loss": 0.0026,
	"loss": 0.0211,
	"step": 44550
	},
	{
	"action_loss": 0.0232,
	"epoch": 4.587533429335528,
	"learning_rate": 2e-05,
	"llm_loss": 0.0031,
	"loss": 0.0264,
	"step": 44600
	},
	{
	"action_loss": 0.0203,
	"epoch": 4.592676404032092,
	"learning_rate": 2e-05,
	"llm_loss": 0.0035,
	"loss": 0.0239,
	"step": 44650
	},
	{
	"action_loss": 0.0229,
	"epoch": 4.597819378728657,
	"learning_rate": 2e-05,
	"llm_loss": 0.0033,
	"loss": 0.0262,
	"step": 44700
	},
	{
	"action_loss": 0.0172,
	"epoch": 4.602962353425221,
	"learning_rate": 2e-05,
	"llm_loss": 0.0031,
	"loss": 0.0203,
	"step": 44750
	},
	{
	"action_loss": 0.0289,
	"epoch": 4.608105328121786,
	"learning_rate": 2e-05,
	"llm_loss": 0.0029,
	"loss": 0.0318,
	"step": 44800
	},
	{
	"action_loss": 0.0217,
	"epoch": 4.61324830281835,
	"learning_rate": 2e-05,
	"llm_loss": 0.0032,
	"loss": 0.0249,
	"step": 44850
	},
	{
	"action_loss": 0.0199,
	"epoch": 4.618391277514915,
	"learning_rate": 2e-05,
	"llm_loss": 0.0031,
	"loss": 0.023,
	"step": 44900
	},
	{
	"action_loss": 0.0294,
	"epoch": 4.6235342522114795,
	"learning_rate": 2e-05,
	"llm_loss": 0.0034,
	"loss": 0.0328,
	"step": 44950
	},
	{
	"action_loss": 0.0276,
	"epoch": 4.628677226908044,
	"learning_rate": 2e-05,
	"llm_loss": 0.0034,
	"loss": 0.0309,
	"step": 45000
	},
	{
	"action_loss": 0.0188,
	"epoch": 4.633820201604608,
	"learning_rate": 2e-05,
	"llm_loss": 0.0046,
	"loss": 0.0233,
	"step": 45050
	},
	{
	"action_loss": 0.0283,
	"epoch": 4.638963176301172,
	"learning_rate": 2e-05,
	"llm_loss": 0.0035,
	"loss": 0.0318,
	"step": 45100
	},
	{
	"action_loss": 0.0326,
	"epoch": 4.644106150997737,
	"learning_rate": 2e-05,
	"llm_loss": 0.0037,
	"loss": 0.0363,
	"step": 45150
	},
	{
	"action_loss": 0.0231,
	"epoch": 4.649249125694301,
	"learning_rate": 2e-05,
	"llm_loss": 0.0031,
	"loss": 0.0262,
	"step": 45200
	},
	{
	"action_loss": 0.0266,
	"epoch": 4.654392100390866,
	"learning_rate": 2e-05,
	"llm_loss": 0.0035,
	"loss": 0.0301,
	"step": 45250
	},
	{
	"action_loss": 0.0264,
	"epoch": 4.6595350750874305,
	"learning_rate": 2e-05,
	"llm_loss": 0.0031,
	"loss": 0.0294,
	"step": 45300
	},
	{
	"action_loss": 0.0328,
	"epoch": 4.664678049783995,
	"learning_rate": 2e-05,
	"llm_loss": 0.0031,
	"loss": 0.036,
	"step": 45350
	},
	{
	"action_loss": 0.0203,
	"epoch": 4.66982102448056,
	"learning_rate": 2e-05,
	"llm_loss": 0.0043,
	"loss": 0.0246,
	"step": 45400
	},
	{
	"action_loss": 0.0312,
	"epoch": 4.674963999177124,
	"learning_rate": 2e-05,
	"llm_loss": 0.0035,
	"loss": 0.0347,
	"step": 45450
	},
	{
	"action_loss": 0.0348,
	"epoch": 4.680106973873689,
	"learning_rate": 2e-05,
	"llm_loss": 0.0031,
	"loss": 0.0379,
	"step": 45500
	},
	{
	"action_loss": 0.0286,
	"epoch": 4.685249948570253,
	"learning_rate": 2e-05,
	"llm_loss": 0.0032,
	"loss": 0.0318,
	"step": 45550
	},
	{
	"action_loss": 0.0273,
	"epoch": 4.690392923266818,
	"learning_rate": 2e-05,
	"llm_loss": 0.0033,
	"loss": 0.0306,
	"step": 45600
	},
	{
	"action_loss": 0.0293,
	"epoch": 4.695535897963382,
	"learning_rate": 2e-05,
	"llm_loss": 0.003,
	"loss": 0.0323,
	"step": 45650
	},
	{
	"action_loss": 0.0188,
	"epoch": 4.700678872659947,
	"learning_rate": 2e-05,
	"llm_loss": 0.0035,
	"loss": 0.0223,
	"step": 45700
	},
	{
	"action_loss": 0.0248,
	"epoch": 4.7058218473565105,
	"learning_rate": 2e-05,
	"llm_loss": 0.0031,
	"loss": 0.0279,
	"step": 45750
	},
	{
	"action_loss": 0.0289,
	"epoch": 4.710964822053075,
	"learning_rate": 2e-05,
	"llm_loss": 0.0031,
	"loss": 0.0321,
	"step": 45800
	},
	{
	"action_loss": 0.0283,
	"epoch": 4.71610779674964,
	"learning_rate": 2e-05,
	"llm_loss": 0.0032,
	"loss": 0.0316,
	"step": 45850
	},
	{
	"action_loss": 0.0267,
	"epoch": 4.721250771446204,
	"learning_rate": 2e-05,
	"llm_loss": 0.0033,
	"loss": 0.03,
	"step": 45900
	},
	{
	"action_loss": 0.0246,
	"epoch": 4.726393746142769,
	"learning_rate": 2e-05,
	"llm_loss": 0.0033,
	"loss": 0.0279,
	"step": 45950
	},
	{
	"action_loss": 0.0376,
	"epoch": 4.731536720839333,
	"learning_rate": 2e-05,
	"llm_loss": 0.0033,
	"loss": 0.0409,
	"step": 46000
	},
	{
	"action_loss": 0.019,
	"epoch": 4.736679695535898,
	"learning_rate": 2e-05,
	"llm_loss": 0.003,
	"loss": 0.022,
	"step": 46050
	},
	{
	"action_loss": 0.0168,
	"epoch": 4.741822670232462,
	"learning_rate": 2e-05,
	"llm_loss": 0.0035,
	"loss": 0.0202,
	"step": 46100
	},
	{
	"action_loss": 0.027,
	"epoch": 4.746965644929027,
	"learning_rate": 2e-05,
	"llm_loss": 0.0032,
	"loss": 0.0303,
	"step": 46150
	},
	{
	"action_loss": 0.0297,
	"epoch": 4.7521086196255915,
	"learning_rate": 2e-05,
	"llm_loss": 0.0028,
	"loss": 0.0325,
	"step": 46200
	},
	{
	"action_loss": 0.0245,
	"epoch": 4.757251594322156,
	"learning_rate": 2e-05,
	"llm_loss": 0.0039,
	"loss": 0.0284,
	"step": 46250
	},
	{
	"action_loss": 0.0198,
	"epoch": 4.762394569018721,
	"learning_rate": 2e-05,
	"llm_loss": 0.0037,
	"loss": 0.0235,
	"step": 46300
	},
	{
	"action_loss": 0.0252,
	"epoch": 4.767537543715285,
	"learning_rate": 2e-05,
	"llm_loss": 0.0034,
	"loss": 0.0286,
	"step": 46350
	},
	{
	"action_loss": 0.025,
	"epoch": 4.77268051841185,
	"learning_rate": 2e-05,
	"llm_loss": 0.0029,
	"loss": 0.0279,
	"step": 46400
	},
	{
	"action_loss": 0.0301,
	"epoch": 4.777823493108414,
	"learning_rate": 2e-05,
	"llm_loss": 0.003,
	"loss": 0.0331,
	"step": 46450
	},
	{
	"action_loss": 0.0193,
	"epoch": 4.782966467804979,
	"learning_rate": 2e-05,
	"llm_loss": 0.0031,
	"loss": 0.0224,
	"step": 46500
	},
	{
	"action_loss": 0.0207,
	"epoch": 4.788109442501543,
	"learning_rate": 2e-05,
	"llm_loss": 0.003,
	"loss": 0.0237,
	"step": 46550
	},
	{
	"action_loss": 0.034,
	"epoch": 4.793252417198107,
	"learning_rate": 2e-05,
	"llm_loss": 0.0035,
	"loss": 0.0375,
	"step": 46600
	},
	{
	"action_loss": 0.0241,
	"epoch": 4.798395391894672,
	"learning_rate": 2e-05,
	"llm_loss": 0.0039,
	"loss": 0.0281,
	"step": 46650
	},
	{
	"action_loss": 0.0217,
	"epoch": 4.803538366591236,
	"learning_rate": 2e-05,
	"llm_loss": 0.0035,
	"loss": 0.0252,
	"step": 46700
	},
	{
	"action_loss": 0.0275,
	"epoch": 4.808681341287801,
	"learning_rate": 2e-05,
	"llm_loss": 0.0036,
	"loss": 0.0312,
	"step": 46750
	},
	{
	"action_loss": 0.0311,
	"epoch": 4.813824315984365,
	"learning_rate": 2e-05,
	"llm_loss": 0.0033,
	"loss": 0.0343,
	"step": 46800
	},
	{
	"action_loss": 0.0297,
	"epoch": 4.81896729068093,
	"learning_rate": 2e-05,
	"llm_loss": 0.0034,
	"loss": 0.0332,
	"step": 46850
	},
	{
	"action_loss": 0.0254,
	"epoch": 4.824110265377494,
	"learning_rate": 2e-05,
	"llm_loss": 0.0033,
	"loss": 0.0287,
	"step": 46900
	},
	{
	"action_loss": 0.0242,
	"epoch": 4.829253240074059,
	"learning_rate": 2e-05,
	"llm_loss": 0.0029,
	"loss": 0.0271,
	"step": 46950
	},
	{
	"action_loss": 0.0272,
	"epoch": 4.834396214770623,
	"learning_rate": 2e-05,
	"llm_loss": 0.003,
	"loss": 0.0301,
	"step": 47000
	},
	{
	"action_loss": 0.0162,
	"epoch": 4.839539189467188,
	"learning_rate": 2e-05,
	"llm_loss": 0.0032,
	"loss": 0.0195,
	"step": 47050
	},
	{
	"action_loss": 0.032,
	"epoch": 4.8446821641637525,
	"learning_rate": 2e-05,
	"llm_loss": 0.0034,
	"loss": 0.0354,
	"step": 47100
	},
	{
	"action_loss": 0.0264,
	"epoch": 4.849825138860317,
	"learning_rate": 2e-05,
	"llm_loss": 0.0034,
	"loss": 0.0298,
	"step": 47150
	},
	{
	"action_loss": 0.0237,
	"epoch": 4.854968113556882,
	"learning_rate": 2e-05,
	"llm_loss": 0.0027,
	"loss": 0.0265,
	"step": 47200
	},
	{
	"action_loss": 0.0303,
	"epoch": 4.860111088253446,
	"learning_rate": 2e-05,
	"llm_loss": 0.0031,
	"loss": 0.0335,
	"step": 47250
	},
	{
	"action_loss": 0.0208,
	"epoch": 4.86525406295001,
	"learning_rate": 2e-05,
	"llm_loss": 0.0028,
	"loss": 0.0237,
	"step": 47300
	},
	{
	"action_loss": 0.0223,
	"epoch": 4.870397037646574,
	"learning_rate": 2e-05,
	"llm_loss": 0.0035,
	"loss": 0.0258,
	"step": 47350
	},
	{
	"action_loss": 0.0241,
	"epoch": 4.875540012343139,
	"learning_rate": 2e-05,
	"llm_loss": 0.0035,
	"loss": 0.0275,
	"step": 47400
	},
	{
	"action_loss": 0.0312,
	"epoch": 4.8806829870397035,
	"learning_rate": 2e-05,
	"llm_loss": 0.0042,
	"loss": 0.0355,
	"step": 47450
	},
	{
	"action_loss": 0.0302,
	"epoch": 4.885825961736268,
	"learning_rate": 2e-05,
	"llm_loss": 0.0033,
	"loss": 0.0335,
	"step": 47500
	},
	{
	"action_loss": 0.0184,
	"epoch": 4.890968936432833,
	"learning_rate": 2e-05,
	"llm_loss": 0.0036,
	"loss": 0.0219,
	"step": 47550
	},
	{
	"action_loss": 0.0281,
	"epoch": 4.896111911129397,
	"learning_rate": 2e-05,
	"llm_loss": 0.0034,
	"loss": 0.0315,
	"step": 47600
	},
	{
	"action_loss": 0.0268,
	"epoch": 4.901254885825962,
	"learning_rate": 2e-05,
	"llm_loss": 0.0027,
	"loss": 0.0295,
	"step": 47650
	},
	{
	"action_loss": 0.0356,
	"epoch": 4.906397860522526,
	"learning_rate": 2e-05,
	"llm_loss": 0.0031,
	"loss": 0.0387,
	"step": 47700
	},
	{
	"action_loss": 0.0321,
	"epoch": 4.911540835219091,
	"learning_rate": 2e-05,
	"llm_loss": 0.0031,
	"loss": 0.0352,
	"step": 47750
	},
	{
	"action_loss": 0.0217,
	"epoch": 4.916683809915655,
	"learning_rate": 2e-05,
	"llm_loss": 0.0034,
	"loss": 0.0251,
	"step": 47800
	},
	{
	"action_loss": 0.0327,
	"epoch": 4.92182678461222,
	"learning_rate": 2e-05,
	"llm_loss": 0.0027,
	"loss": 0.0354,
	"step": 47850
	},
	{
	"action_loss": 0.0214,
	"epoch": 4.9269697593087844,
	"learning_rate": 2e-05,
	"llm_loss": 0.0034,
	"loss": 0.0247,
	"step": 47900
	},
	{
	"action_loss": 0.0286,
	"epoch": 4.932112734005349,
	"learning_rate": 2e-05,
	"llm_loss": 0.0033,
	"loss": 0.0319,
	"step": 47950
	},
	{
	"action_loss": 0.027,
	"epoch": 4.9372557087019135,
	"learning_rate": 2e-05,
	"llm_loss": 0.0028,
	"loss": 0.0298,
	"step": 48000
	},
	{
	"action_loss": 0.0247,
	"epoch": 4.942398683398478,
	"learning_rate": 2e-05,
	"llm_loss": 0.0032,
	"loss": 0.0279,
	"step": 48050
	},
	{
	"action_loss": 0.0151,
	"epoch": 4.947541658095043,
	"learning_rate": 2e-05,
	"llm_loss": 0.003,
	"loss": 0.0181,
	"step": 48100
	},
	{
	"action_loss": 0.0369,
	"epoch": 4.952684632791606,
	"learning_rate": 2e-05,
	"llm_loss": 0.0034,
	"loss": 0.0403,
	"step": 48150
	},
	{
	"action_loss": 0.0102,
	"epoch": 4.957827607488171,
	"learning_rate": 2e-05,
	"llm_loss": 0.0033,
	"loss": 0.0135,
	"step": 48200
	},
	{
	"action_loss": 0.0243,
	"epoch": 4.962970582184735,
	"learning_rate": 2e-05,
	"llm_loss": 0.0031,
	"loss": 0.0273,
	"step": 48250
	},
	{
	"action_loss": 0.0165,
	"epoch": 4.9681135568813,
	"learning_rate": 2e-05,
	"llm_loss": 0.0032,
	"loss": 0.0196,
	"step": 48300
	},
	{
	"action_loss": 0.023,
	"epoch": 4.9732565315778645,
	"learning_rate": 2e-05,
	"llm_loss": 0.0031,
	"loss": 0.0261,
	"step": 48350
	},
	{
	"action_loss": 0.0224,
	"epoch": 4.978399506274429,
	"learning_rate": 2e-05,
	"llm_loss": 0.0036,
	"loss": 0.0261,
	"step": 48400
	},
	{
	"action_loss": 0.0238,
	"epoch": 4.983542480970994,
	"learning_rate": 2e-05,
	"llm_loss": 0.0031,
	"loss": 0.0269,
	"step": 48450
	},
	{
	"action_loss": 0.0254,
	"epoch": 4.988685455667558,
	"learning_rate": 2e-05,
	"llm_loss": 0.0038,
	"loss": 0.0292,
	"step": 48500
	},
	{
	"action_loss": 0.0132,
	"epoch": 4.993828430364123,
	"learning_rate": 2e-05,
	"llm_loss": 0.0042,
	"loss": 0.0175,
	"step": 48550
	},
	{
	"action_loss": 0.0212,
	"epoch": 4.998971405060687,
	"learning_rate": 2e-05,
	"llm_loss": 0.0032,
	"loss": 0.0243,
	"step": 48600
	},
	{
	"action_loss": 0.0217,
	"epoch": 5.004114379757252,
	"learning_rate": 2e-05,
	"llm_loss": 0.0026,
	"loss": 0.0243,
	"step": 48650
	},
	{
	"action_loss": 0.0297,
	"epoch": 5.009257354453816,
	"learning_rate": 2e-05,
	"llm_loss": 0.0032,
	"loss": 0.0329,
	"step": 48700
	},
	{
	"action_loss": 0.0179,
	"epoch": 5.014400329150381,
	"learning_rate": 2e-05,
	"llm_loss": 0.0032,
	"loss": 0.021,
	"step": 48750
	},
	{
	"action_loss": 0.0218,
	"epoch": 5.0195433038469455,
	"learning_rate": 2e-05,
	"llm_loss": 0.0029,
	"loss": 0.0247,
	"step": 48800
	},
	{
	"action_loss": 0.0195,
	"epoch": 5.024686278543509,
	"learning_rate": 2e-05,
	"llm_loss": 0.0029,
	"loss": 0.0224,
	"step": 48850
	},
	{
	"action_loss": 0.0199,
	"epoch": 5.029829253240074,
	"learning_rate": 2e-05,
	"llm_loss": 0.0032,
	"loss": 0.0231,
	"step": 48900
	},
	{
	"action_loss": 0.032,
	"epoch": 5.034972227936638,
	"learning_rate": 2e-05,
	"llm_loss": 0.0029,
	"loss": 0.0349,
	"step": 48950
	},
	{
	"action_loss": 0.0343,
	"epoch": 5.040115202633203,
	"learning_rate": 2e-05,
	"llm_loss": 0.0025,
	"loss": 0.0368,
	"step": 49000
	},
	{
	"action_loss": 0.0339,
	"epoch": 5.045258177329767,
	"learning_rate": 2e-05,
	"llm_loss": 0.003,
	"loss": 0.0369,
	"step": 49050
	},
	{
	"action_loss": 0.02,
	"epoch": 5.050401152026332,
	"learning_rate": 2e-05,
	"llm_loss": 0.003,
	"loss": 0.023,
	"step": 49100
	},
	{
	"action_loss": 0.0312,
	"epoch": 5.055544126722896,
	"learning_rate": 2e-05,
	"llm_loss": 0.0032,
	"loss": 0.0344,
	"step": 49150
	},
	{
	"action_loss": 0.0237,
	"epoch": 5.060687101419461,
	"learning_rate": 2e-05,
	"llm_loss": 0.0028,
	"loss": 0.0265,
	"step": 49200
	},
	{
	"action_loss": 0.0233,
	"epoch": 5.0658300761160255,
	"learning_rate": 2e-05,
	"llm_loss": 0.0026,
	"loss": 0.026,
	"step": 49250
	},
	{
	"action_loss": 0.021,
	"epoch": 5.07097305081259,
	"learning_rate": 2e-05,
	"llm_loss": 0.0027,
	"loss": 0.0237,
	"step": 49300
	},
	{
	"action_loss": 0.0273,
	"epoch": 5.076116025509155,
	"learning_rate": 2e-05,
	"llm_loss": 0.003,
	"loss": 0.0304,
	"step": 49350
	},
	{
	"action_loss": 0.0157,
	"epoch": 5.081259000205719,
	"learning_rate": 2e-05,
	"llm_loss": 0.0031,
	"loss": 0.0188,
	"step": 49400
	},
	{
	"action_loss": 0.0189,
	"epoch": 5.086401974902284,
	"learning_rate": 2e-05,
	"llm_loss": 0.0028,
	"loss": 0.0217,
	"step": 49450
	},
	{
	"action_loss": 0.0291,
	"epoch": 5.091544949598848,
	"learning_rate": 2e-05,
	"llm_loss": 0.0027,
	"loss": 0.0318,
	"step": 49500
	},
	{
	"action_loss": 0.0288,
	"epoch": 5.096687924295413,
	"learning_rate": 2e-05,
	"llm_loss": 0.0028,
	"loss": 0.0316,
	"step": 49550
	},
	{
	"action_loss": 0.0239,
	"epoch": 5.101830898991977,
	"learning_rate": 2e-05,
	"llm_loss": 0.0027,
	"loss": 0.0266,
	"step": 49600
	},
	{
	"action_loss": 0.0224,
	"epoch": 5.106973873688541,
	"learning_rate": 2e-05,
	"llm_loss": 0.0024,
	"loss": 0.0248,
	"step": 49650
	},
	{
	"action_loss": 0.0373,
	"epoch": 5.112116848385106,
	"learning_rate": 2e-05,
	"llm_loss": 0.0026,
	"loss": 0.0399,
	"step": 49700
	},
	{
	"action_loss": 0.0307,
	"epoch": 5.11725982308167,
	"learning_rate": 2e-05,
	"llm_loss": 0.0023,
	"loss": 0.033,
	"step": 49750
	},
	{
	"action_loss": 0.0223,
	"epoch": 5.122402797778235,
	"learning_rate": 2e-05,
	"llm_loss": 0.003,
	"loss": 0.0253,
	"step": 49800
	},
	{
	"action_loss": 0.021,
	"epoch": 5.127545772474799,
	"learning_rate": 2e-05,
	"llm_loss": 0.0026,
	"loss": 0.0237,
	"step": 49850
	},
	{
	"action_loss": 0.0266,
	"epoch": 5.132688747171364,
	"learning_rate": 2e-05,
	"llm_loss": 0.0027,
	"loss": 0.0293,
	"step": 49900
	},
	{
	"action_loss": 0.0285,
	"epoch": 5.137831721867928,
	"learning_rate": 2e-05,
	"llm_loss": 0.003,
	"loss": 0.0315,
	"step": 49950
	},
	{
	"action_loss": 0.0233,
	"epoch": 5.142974696564493,
	"learning_rate": 2e-05,
	"llm_loss": 0.0033,
	"loss": 0.0265,
	"step": 50000
	},
	{
	"action_loss": 0.025,
	"epoch": 5.1481176712610575,
	"learning_rate": 2e-05,
	"llm_loss": 0.0031,
	"loss": 0.0282,
	"step": 50050
	},
	{
	"action_loss": 0.0256,
	"epoch": 5.153260645957622,
	"learning_rate": 2e-05,
	"llm_loss": 0.0029,
	"loss": 0.0285,
	"step": 50100
	},
	{
	"action_loss": 0.0247,
	"epoch": 5.158403620654187,
	"learning_rate": 2e-05,
	"llm_loss": 0.0025,
	"loss": 0.0271,
	"step": 50150
	},
	{
	"action_loss": 0.0242,
	"epoch": 5.163546595350751,
	"learning_rate": 2e-05,
	"llm_loss": 0.0025,
	"loss": 0.0266,
	"step": 50200
	},
	{
	"action_loss": 0.0277,
	"epoch": 5.168689570047316,
	"learning_rate": 2e-05,
	"llm_loss": 0.0028,
	"loss": 0.0305,
	"step": 50250
	},
	{
	"action_loss": 0.0203,
	"epoch": 5.17383254474388,
	"learning_rate": 2e-05,
	"llm_loss": 0.003,
	"loss": 0.0233,
	"step": 50300
	},
	{
	"action_loss": 0.0234,
	"epoch": 5.178975519440445,
	"learning_rate": 2e-05,
	"llm_loss": 0.0034,
	"loss": 0.0267,
	"step": 50350
	},
	{
	"action_loss": 0.0213,
	"epoch": 5.184118494137008,
	"learning_rate": 2e-05,
	"llm_loss": 0.0026,
	"loss": 0.0239,
	"step": 50400
	},
	{
	"action_loss": 0.0195,
	"epoch": 5.189261468833573,
	"learning_rate": 2e-05,
	"llm_loss": 0.0031,
	"loss": 0.0226,
	"step": 50450
	},
	{
	"action_loss": 0.0246,
	"epoch": 5.1944044435301375,
	"learning_rate": 2e-05,
	"llm_loss": 0.0032,
	"loss": 0.0277,
	"step": 50500
	},
	{
	"action_loss": 0.0317,
	"epoch": 5.199547418226702,
	"learning_rate": 2e-05,
	"llm_loss": 0.003,
	"loss": 0.0348,
	"step": 50550
	},
	{
	"action_loss": 0.0211,
	"epoch": 5.204690392923267,
	"learning_rate": 2e-05,
	"llm_loss": 0.0034,
	"loss": 0.0245,
	"step": 50600
	},
	{
	"action_loss": 0.0299,
	"epoch": 5.209833367619831,
	"learning_rate": 2e-05,
	"llm_loss": 0.0029,
	"loss": 0.0327,
	"step": 50650
	},
	{
	"action_loss": 0.0219,
	"epoch": 5.214976342316396,
	"learning_rate": 2e-05,
	"llm_loss": 0.0026,
	"loss": 0.0245,
	"step": 50700
	},
	{
	"action_loss": 0.0347,
	"epoch": 5.22011931701296,
	"learning_rate": 2e-05,
	"llm_loss": 0.0033,
	"loss": 0.038,
	"step": 50750
	},
	{
	"action_loss": 0.0342,
	"epoch": 5.225262291709525,
	"learning_rate": 2e-05,
	"llm_loss": 0.0028,
	"loss": 0.037,
	"step": 50800
	},
	{
	"action_loss": 0.0251,
	"epoch": 5.230405266406089,
	"learning_rate": 2e-05,
	"llm_loss": 0.0026,
	"loss": 0.0277,
	"step": 50850
	},
	{
	"action_loss": 0.0287,
	"epoch": 5.235548241102654,
	"learning_rate": 2e-05,
	"llm_loss": 0.0028,
	"loss": 0.0315,
	"step": 50900
	},
	{
	"action_loss": 0.0234,
	"epoch": 5.2406912157992185,
	"learning_rate": 2e-05,
	"llm_loss": 0.0035,
	"loss": 0.0269,
	"step": 50950
	},
	{
	"action_loss": 0.0158,
	"epoch": 5.245834190495783,
	"learning_rate": 2e-05,
	"llm_loss": 0.0026,
	"loss": 0.0184,
	"step": 51000
	},
	{
	"action_loss": 0.0269,
	"epoch": 5.250977165192348,
	"learning_rate": 2e-05,
	"llm_loss": 0.0025,
	"loss": 0.0294,
	"step": 51050
	},
	{
	"action_loss": 0.0145,
	"epoch": 5.256120139888912,
	"learning_rate": 2e-05,
	"llm_loss": 0.0029,
	"loss": 0.0175,
	"step": 51100
	},
	{
	"action_loss": 0.0245,
	"epoch": 5.261263114585477,
	"learning_rate": 2e-05,
	"llm_loss": 0.0028,
	"loss": 0.0273,
	"step": 51150
	},
	{
	"action_loss": 0.0251,
	"epoch": 5.26640608928204,
	"learning_rate": 2e-05,
	"llm_loss": 0.0027,
	"loss": 0.0278,
	"step": 51200
	},
	{
	"action_loss": 0.0278,
	"epoch": 5.271549063978605,
	"learning_rate": 2e-05,
	"llm_loss": 0.0033,
	"loss": 0.0311,
	"step": 51250
	},
	{
	"action_loss": 0.0251,
	"epoch": 5.2766920386751694,
	"learning_rate": 2e-05,
	"llm_loss": 0.0036,
	"loss": 0.0287,
	"step": 51300
	},
	{
	"action_loss": 0.021,
	"epoch": 5.281835013371734,
	"learning_rate": 2e-05,
	"llm_loss": 0.0035,
	"loss": 0.0245,
	"step": 51350
	},
	{
	"action_loss": 0.0282,
	"epoch": 5.2869779880682986,
	"learning_rate": 2e-05,
	"llm_loss": 0.0034,
	"loss": 0.0316,
	"step": 51400
	},
	{
	"action_loss": 0.028,
	"epoch": 5.292120962764863,
	"learning_rate": 2e-05,
	"llm_loss": 0.0028,
	"loss": 0.0308,
	"step": 51450
	},
	{
	"action_loss": 0.021,
	"epoch": 5.297263937461428,
	"learning_rate": 2e-05,
	"llm_loss": 0.0033,
	"loss": 0.0243,
	"step": 51500
	},
	{
	"action_loss": 0.0332,
	"epoch": 5.302406912157992,
	"learning_rate": 2e-05,
	"llm_loss": 0.0029,
	"loss": 0.036,
	"step": 51550
	},
	{
	"action_loss": 0.02,
	"epoch": 5.307549886854557,
	"learning_rate": 2e-05,
	"llm_loss": 0.0032,
	"loss": 0.0232,
	"step": 51600
	},
	{
	"action_loss": 0.0309,
	"epoch": 5.312692861551121,
	"learning_rate": 2e-05,
	"llm_loss": 0.0029,
	"loss": 0.0338,
	"step": 51650
	},
	{
	"action_loss": 0.0229,
	"epoch": 5.317835836247686,
	"learning_rate": 2e-05,
	"llm_loss": 0.003,
	"loss": 0.0259,
	"step": 51700
	},
	{
	"action_loss": 0.022,
	"epoch": 5.32297881094425,
	"learning_rate": 2e-05,
	"llm_loss": 0.003,
	"loss": 0.025,
	"step": 51750
	},
	{
	"action_loss": 0.0318,
	"epoch": 5.328121785640815,
	"learning_rate": 2e-05,
	"llm_loss": 0.0028,
	"loss": 0.0346,
	"step": 51800
	},
	{
	"action_loss": 0.0326,
	"epoch": 5.3332647603373795,
	"learning_rate": 2e-05,
	"llm_loss": 0.0027,
	"loss": 0.0353,
	"step": 51850
	},
	{
	"action_loss": 0.03,
	"epoch": 5.338407735033943,
	"learning_rate": 2e-05,
	"llm_loss": 0.0029,
	"loss": 0.033,
	"step": 51900
	},
	{
	"action_loss": 0.0213,
	"epoch": 5.343550709730508,
	"learning_rate": 2e-05,
	"llm_loss": 0.0031,
	"loss": 0.0244,
	"step": 51950
	},
	{
	"action_loss": 0.0227,
	"epoch": 5.348693684427072,
	"learning_rate": 2e-05,
	"llm_loss": 0.0025,
	"loss": 0.0253,
	"step": 52000
	},
	{
	"action_loss": 0.0233,
	"epoch": 5.353836659123637,
	"learning_rate": 2e-05,
	"llm_loss": 0.0027,
	"loss": 0.026,
	"step": 52050
	},
	{
	"action_loss": 0.0305,
	"epoch": 5.358979633820201,
	"learning_rate": 2e-05,
	"llm_loss": 0.0028,
	"loss": 0.0332,
	"step": 52100
	},
	{
	"action_loss": 0.0212,
	"epoch": 5.364122608516766,
	"learning_rate": 2e-05,
	"llm_loss": 0.0027,
	"loss": 0.0239,
	"step": 52150
	},
	{
	"action_loss": 0.0284,
	"epoch": 5.3692655832133305,
	"learning_rate": 2e-05,
	"llm_loss": 0.0031,
	"loss": 0.0315,
	"step": 52200
	},
	{
	"action_loss": 0.0252,
	"epoch": 5.374408557909895,
	"learning_rate": 2e-05,
	"llm_loss": 0.0027,
	"loss": 0.0279,
	"step": 52250
	},
	{
	"action_loss": 0.0204,
	"epoch": 5.37955153260646,
	"learning_rate": 2e-05,
	"llm_loss": 0.003,
	"loss": 0.0234,
	"step": 52300
	},
	{
	"action_loss": 0.0216,
	"epoch": 5.384694507303024,
	"learning_rate": 2e-05,
	"llm_loss": 0.0026,
	"loss": 0.0242,
	"step": 52350
	},
	{
	"action_loss": 0.0221,
	"epoch": 5.389837481999589,
	"learning_rate": 2e-05,
	"llm_loss": 0.0032,
	"loss": 0.0253,
	"step": 52400
	},
	{
	"action_loss": 0.0275,
	"epoch": 5.394980456696153,
	"learning_rate": 2e-05,
	"llm_loss": 0.0033,
	"loss": 0.0308,
	"step": 52450
	},
	{
	"action_loss": 0.0321,
	"epoch": 5.400123431392718,
	"learning_rate": 2e-05,
	"llm_loss": 0.0027,
	"loss": 0.0348,
	"step": 52500
	},
	{
	"action_loss": 0.0182,
	"epoch": 5.405266406089282,
	"learning_rate": 2e-05,
	"llm_loss": 0.0034,
	"loss": 0.0216,
	"step": 52550
	},
	{
	"action_loss": 0.0235,
	"epoch": 5.410409380785847,
	"learning_rate": 2e-05,
	"llm_loss": 0.003,
	"loss": 0.0264,
	"step": 52600
	},
	{
	"action_loss": 0.0287,
	"epoch": 5.415552355482411,
	"learning_rate": 2e-05,
	"llm_loss": 0.0036,
	"loss": 0.0323,
	"step": 52650
	},
	{
	"action_loss": 0.0164,
	"epoch": 5.420695330178976,
	"learning_rate": 2e-05,
	"llm_loss": 0.0038,
	"loss": 0.0202,
	"step": 52700
	},
	{
	"action_loss": 0.0188,
	"epoch": 5.42583830487554,
	"learning_rate": 2e-05,
	"llm_loss": 0.0028,
	"loss": 0.0215,
	"step": 52750
	},
	{
	"action_loss": 0.0217,
	"epoch": 5.430981279572104,
	"learning_rate": 2e-05,
	"llm_loss": 0.003,
	"loss": 0.0247,
	"step": 52800
	},
	{
	"action_loss": 0.0263,
	"epoch": 5.436124254268669,
	"learning_rate": 2e-05,
	"llm_loss": 0.0032,
	"loss": 0.0295,
	"step": 52850
	},
	{
	"action_loss": 0.0314,
	"epoch": 5.441267228965233,
	"learning_rate": 2e-05,
	"llm_loss": 0.0033,
	"loss": 0.0347,
	"step": 52900
	},
	{
	"action_loss": 0.0228,
	"epoch": 5.446410203661798,
	"learning_rate": 2e-05,
	"llm_loss": 0.003,
	"loss": 0.0258,
	"step": 52950
	},
	{
	"action_loss": 0.0149,
	"epoch": 5.451553178358362,
	"learning_rate": 2e-05,
	"llm_loss": 0.0034,
	"loss": 0.0183,
	"step": 53000
	},
	{
	"action_loss": 0.0186,
	"epoch": 5.456696153054927,
	"learning_rate": 2e-05,
	"llm_loss": 0.0031,
	"loss": 0.0217,
	"step": 53050
	},
	{
	"action_loss": 0.0232,
	"epoch": 5.4618391277514915,
	"learning_rate": 2e-05,
	"llm_loss": 0.0032,
	"loss": 0.0263,
	"step": 53100
	},
	{
	"action_loss": 0.0246,
	"epoch": 5.466982102448056,
	"learning_rate": 2e-05,
	"llm_loss": 0.0024,
	"loss": 0.0271,
	"step": 53150
	},
	{
	"action_loss": 0.0223,
	"epoch": 5.472125077144621,
	"learning_rate": 2e-05,
	"llm_loss": 0.0032,
	"loss": 0.0255,
	"step": 53200
	},
	{
	"action_loss": 0.0308,
	"epoch": 5.477268051841185,
	"learning_rate": 2e-05,
	"llm_loss": 0.0032,
	"loss": 0.034,
	"step": 53250
	},
	{
	"action_loss": 0.0316,
	"epoch": 5.48241102653775,
	"learning_rate": 2e-05,
	"llm_loss": 0.0034,
	"loss": 0.0349,
	"step": 53300
	},
	{
	"action_loss": 0.0183,
	"epoch": 5.487554001234314,
	"learning_rate": 2e-05,
	"llm_loss": 0.0028,
	"loss": 0.0211,
	"step": 53350
	},
	{
	"action_loss": 0.0167,
	"epoch": 5.492696975930879,
	"learning_rate": 2e-05,
	"llm_loss": 0.0034,
	"loss": 0.0202,
	"step": 53400
	},
	{
	"action_loss": 0.0363,
	"epoch": 5.4978399506274425,
	"learning_rate": 2e-05,
	"llm_loss": 0.0037,
	"loss": 0.04,
	"step": 53450
	},
	{
	"action_loss": 0.0178,
	"epoch": 5.502982925324007,
	"learning_rate": 2e-05,
	"llm_loss": 0.0029,
	"loss": 0.0207,
	"step": 53500
	},
	{
	"action_loss": 0.0269,
	"epoch": 5.508125900020572,
	"learning_rate": 2e-05,
	"llm_loss": 0.0034,
	"loss": 0.0303,
	"step": 53550
	},
	{
	"action_loss": 0.022,
	"epoch": 5.513268874717136,
	"learning_rate": 2e-05,
	"llm_loss": 0.0026,
	"loss": 0.0246,
	"step": 53600
	},
	{
	"action_loss": 0.0316,
	"epoch": 5.518411849413701,
	"learning_rate": 2e-05,
	"llm_loss": 0.0029,
	"loss": 0.0345,
	"step": 53650
	},
	{
	"action_loss": 0.0236,
	"epoch": 5.523554824110265,
	"learning_rate": 2e-05,
	"llm_loss": 0.0032,
	"loss": 0.0268,
	"step": 53700
	},
	{
	"action_loss": 0.0253,
	"epoch": 5.52869779880683,
	"learning_rate": 2e-05,
	"llm_loss": 0.0034,
	"loss": 0.0287,
	"step": 53750
	},
	{
	"action_loss": 0.0202,
	"epoch": 5.533840773503394,
	"learning_rate": 2e-05,
	"llm_loss": 0.0031,
	"loss": 0.0232,
	"step": 53800
	},
	{
	"action_loss": 0.028,
	"epoch": 5.538983748199959,
	"learning_rate": 2e-05,
	"llm_loss": 0.0029,
	"loss": 0.0309,
	"step": 53850
	},
	{
	"action_loss": 0.0232,
	"epoch": 5.544126722896523,
	"learning_rate": 2e-05,
	"llm_loss": 0.0034,
	"loss": 0.0266,
	"step": 53900
	},
	{
	"action_loss": 0.0321,
	"epoch": 5.549269697593088,
	"learning_rate": 2e-05,
	"llm_loss": 0.0027,
	"loss": 0.0348,
	"step": 53950
	},
	{
	"action_loss": 0.026,
	"epoch": 5.5544126722896525,
	"learning_rate": 2e-05,
	"llm_loss": 0.003,
	"loss": 0.029,
	"step": 54000
	},
	{
	"action_loss": 0.0224,
	"epoch": 5.559555646986217,
	"learning_rate": 2e-05,
	"llm_loss": 0.0027,
	"loss": 0.0251,
	"step": 54050
	},
	{
	"action_loss": 0.0151,
	"epoch": 5.564698621682782,
	"learning_rate": 2e-05,
	"llm_loss": 0.0027,
	"loss": 0.0179,
	"step": 54100
	},
	{
	"action_loss": 0.0217,
	"epoch": 5.569841596379346,
	"learning_rate": 2e-05,
	"llm_loss": 0.003,
	"loss": 0.0247,
	"step": 54150
	},
	{
	"action_loss": 0.0264,
	"epoch": 5.574984571075911,
	"learning_rate": 2e-05,
	"llm_loss": 0.0035,
	"loss": 0.0299,
	"step": 54200
	},
	{
	"action_loss": 0.023,
	"epoch": 5.580127545772475,
	"learning_rate": 2e-05,
	"llm_loss": 0.003,
	"loss": 0.026,
	"step": 54250
	},
	{
	"action_loss": 0.0229,
	"epoch": 5.585270520469039,
	"learning_rate": 2e-05,
	"llm_loss": 0.003,
	"loss": 0.0258,
	"step": 54300
	},
	{
	"action_loss": 0.0216,
	"epoch": 5.5904134951656035,
	"learning_rate": 2e-05,
	"llm_loss": 0.003,
	"loss": 0.0246,
	"step": 54350
	},
	{
	"action_loss": 0.0227,
	"epoch": 5.595556469862168,
	"learning_rate": 2e-05,
	"llm_loss": 0.0028,
	"loss": 0.0255,
	"step": 54400
	},
	{
	"action_loss": 0.0226,
	"epoch": 5.600699444558733,
	"learning_rate": 2e-05,
	"llm_loss": 0.0021,
	"loss": 0.0247,
	"step": 54450
	},
	{
	"action_loss": 0.0249,
	"epoch": 5.605842419255297,
	"learning_rate": 2e-05,
	"llm_loss": 0.003,
	"loss": 0.0279,
	"step": 54500
	},
	{
	"action_loss": 0.0265,
	"epoch": 5.610985393951862,
	"learning_rate": 2e-05,
	"llm_loss": 0.0033,
	"loss": 0.0298,
	"step": 54550
	},
	{
	"action_loss": 0.0238,
	"epoch": 5.616128368648426,
	"learning_rate": 2e-05,
	"llm_loss": 0.0027,
	"loss": 0.0265,
	"step": 54600
	},
	{
	"action_loss": 0.016,
	"epoch": 5.621271343344991,
	"learning_rate": 2e-05,
	"llm_loss": 0.0034,
	"loss": 0.0194,
	"step": 54650
	},
	{
	"action_loss": 0.029,
	"epoch": 5.626414318041555,
	"learning_rate": 2e-05,
	"llm_loss": 0.0029,
	"loss": 0.032,
	"step": 54700
	},
	{
	"action_loss": 0.023,
	"epoch": 5.63155729273812,
	"learning_rate": 2e-05,
	"llm_loss": 0.0031,
	"loss": 0.0261,
	"step": 54750
	},
	{
	"action_loss": 0.0225,
	"epoch": 5.636700267434684,
	"learning_rate": 2e-05,
	"llm_loss": 0.0031,
	"loss": 0.0256,
	"step": 54800
	},
	{
	"action_loss": 0.0311,
	"epoch": 5.641843242131249,
	"learning_rate": 2e-05,
	"llm_loss": 0.003,
	"loss": 0.0341,
	"step": 54850
	},
	{
	"action_loss": 0.0327,
	"epoch": 5.6469862168278135,
	"learning_rate": 2e-05,
	"llm_loss": 0.0032,
	"loss": 0.0359,
	"step": 54900
	},
	{
	"action_loss": 0.0249,
	"epoch": 5.652129191524377,
	"learning_rate": 2e-05,
	"llm_loss": 0.0033,
	"loss": 0.0283,
	"step": 54950
	},
	{
	"action_loss": 0.0229,
	"epoch": 5.657272166220942,
	"learning_rate": 2e-05,
	"llm_loss": 0.0029,
	"loss": 0.0258,
	"step": 55000
	},
	{
	"action_loss": 0.0259,
	"epoch": 5.662415140917506,
	"learning_rate": 2e-05,
	"llm_loss": 0.003,
	"loss": 0.0289,
	"step": 55050
	},
	{
	"action_loss": 0.0199,
	"epoch": 5.667558115614071,
	"learning_rate": 2e-05,
	"llm_loss": 0.0032,
	"loss": 0.0231,
	"step": 55100
	},
	{
	"action_loss": 0.0149,
	"epoch": 5.672701090310635,
	"learning_rate": 2e-05,
	"llm_loss": 0.003,
	"loss": 0.0179,
	"step": 55150
	},
	{
	"action_loss": 0.0194,
	"epoch": 5.6778440650072,
	"learning_rate": 2e-05,
	"llm_loss": 0.0029,
	"loss": 0.0223,
	"step": 55200
	},
	{
	"action_loss": 0.0299,
	"epoch": 5.6829870397037645,
	"learning_rate": 2e-05,
	"llm_loss": 0.0033,
	"loss": 0.0332,
	"step": 55250
	},
	{
	"action_loss": 0.0298,
	"epoch": 5.688130014400329,
	"learning_rate": 2e-05,
	"llm_loss": 0.0033,
	"loss": 0.0331,
	"step": 55300
	},
	{
	"action_loss": 0.0137,
	"epoch": 5.693272989096894,
	"learning_rate": 2e-05,
	"llm_loss": 0.0033,
	"loss": 0.017,
	"step": 55350
	},
	{
	"action_loss": 0.0112,
	"epoch": 5.698415963793458,
	"learning_rate": 2e-05,
	"llm_loss": 0.0031,
	"loss": 0.0143,
	"step": 55400
	},
	{
	"action_loss": 0.0247,
	"epoch": 5.703558938490023,
	"learning_rate": 2e-05,
	"llm_loss": 0.0024,
	"loss": 0.0271,
	"step": 55450
	},
	{
	"action_loss": 0.0256,
	"epoch": 5.708701913186587,
	"learning_rate": 2e-05,
	"llm_loss": 0.0031,
	"loss": 0.0287,
	"step": 55500
	},
	{
	"action_loss": 0.0261,
	"epoch": 5.713844887883152,
	"learning_rate": 2e-05,
	"llm_loss": 0.003,
	"loss": 0.0291,
	"step": 55550
	},
	{
	"action_loss": 0.023,
	"epoch": 5.718987862579716,
	"learning_rate": 2e-05,
	"llm_loss": 0.0031,
	"loss": 0.0261,
	"step": 55600
	},
	{
	"action_loss": 0.0206,
	"epoch": 5.724130837276281,
	"learning_rate": 2e-05,
	"llm_loss": 0.0028,
	"loss": 0.0234,
	"step": 55650
	},
	{
	"action_loss": 0.0256,
	"epoch": 5.7292738119728455,
	"learning_rate": 2e-05,
	"llm_loss": 0.0033,
	"loss": 0.0289,
	"step": 55700
	},
	{
	"action_loss": 0.016,
	"epoch": 5.73441678666941,
	"learning_rate": 2e-05,
	"llm_loss": 0.0028,
	"loss": 0.0188,
	"step": 55750
	},
	{
	"action_loss": 0.0263,
	"epoch": 5.739559761365975,
	"learning_rate": 2e-05,
	"llm_loss": 0.003,
	"loss": 0.0294,
	"step": 55800
	},
	{
	"action_loss": 0.0152,
	"epoch": 5.744702736062538,
	"learning_rate": 2e-05,
	"llm_loss": 0.0029,
	"loss": 0.0182,
	"step": 55850
	},
	{
	"action_loss": 0.0207,
	"epoch": 5.749845710759103,
	"learning_rate": 2e-05,
	"llm_loss": 0.0035,
	"loss": 0.0242,
	"step": 55900
	},
	{
	"action_loss": 0.0201,
	"epoch": 5.754988685455667,
	"learning_rate": 2e-05,
	"llm_loss": 0.0028,
	"loss": 0.0229,
	"step": 55950
	},
	{
	"action_loss": 0.0217,
	"epoch": 5.760131660152232,
	"learning_rate": 2e-05,
	"llm_loss": 0.0029,
	"loss": 0.0246,
	"step": 56000
	},
	{
	"action_loss": 0.0333,
	"epoch": 5.765274634848796,
	"learning_rate": 2e-05,
	"llm_loss": 0.0034,
	"loss": 0.0367,
	"step": 56050
	},
	{
	"action_loss": 0.0263,
	"epoch": 5.770417609545361,
	"learning_rate": 2e-05,
	"llm_loss": 0.0031,
	"loss": 0.0294,
	"step": 56100
	},
	{
	"action_loss": 0.0242,
	"epoch": 5.7755605842419255,
	"learning_rate": 2e-05,
	"llm_loss": 0.0023,
	"loss": 0.0266,
	"step": 56150
	},
	{
	"action_loss": 0.0183,
	"epoch": 5.78070355893849,
	"learning_rate": 2e-05,
	"llm_loss": 0.0027,
	"loss": 0.0209,
	"step": 56200
	},
	{
	"action_loss": 0.0324,
	"epoch": 5.785846533635055,
	"learning_rate": 2e-05,
	"llm_loss": 0.0028,
	"loss": 0.0353,
	"step": 56250
	},
	{
	"action_loss": 0.0155,
	"epoch": 5.790989508331619,
	"learning_rate": 2e-05,
	"llm_loss": 0.0031,
	"loss": 0.0185,
	"step": 56300
	},
	{
	"action_loss": 0.018,
	"epoch": 5.796132483028184,
	"learning_rate": 2e-05,
	"llm_loss": 0.0027,
	"loss": 0.0207,
	"step": 56350
	},
	{
	"action_loss": 0.0326,
	"epoch": 5.801275457724748,
	"learning_rate": 2e-05,
	"llm_loss": 0.0032,
	"loss": 0.0358,
	"step": 56400
	},
	{
	"action_loss": 0.022,
	"epoch": 5.806418432421313,
	"learning_rate": 2e-05,
	"llm_loss": 0.0029,
	"loss": 0.0249,
	"step": 56450
	},
	{
	"action_loss": 0.0165,
	"epoch": 5.8115614071178765,
	"learning_rate": 2e-05,
	"llm_loss": 0.0036,
	"loss": 0.0201,
	"step": 56500
	},
	{
	"action_loss": 0.0136,
	"epoch": 5.816704381814441,
	"learning_rate": 2e-05,
	"llm_loss": 0.0034,
	"loss": 0.017,
	"step": 56550
	},
	{
	"action_loss": 0.0286,
	"epoch": 5.821847356511006,
	"learning_rate": 2e-05,
	"llm_loss": 0.0028,
	"loss": 0.0314,
	"step": 56600
	},
	{
	"action_loss": 0.0304,
	"epoch": 5.82699033120757,
	"learning_rate": 2e-05,
	"llm_loss": 0.0034,
	"loss": 0.0337,
	"step": 56650
	},
	{
	"action_loss": 0.0311,
	"epoch": 5.832133305904135,
	"learning_rate": 2e-05,
	"llm_loss": 0.0031,
	"loss": 0.0342,
	"step": 56700
	},
	{
	"action_loss": 0.0284,
	"epoch": 5.837276280600699,
	"learning_rate": 2e-05,
	"llm_loss": 0.003,
	"loss": 0.0315,
	"step": 56750
	},
	{
	"action_loss": 0.0273,
	"epoch": 5.842419255297264,
	"learning_rate": 2e-05,
	"llm_loss": 0.0022,
	"loss": 0.0295,
	"step": 56800
	},
	{
	"action_loss": 0.0292,
	"epoch": 5.847562229993828,
	"learning_rate": 2e-05,
	"llm_loss": 0.0035,
	"loss": 0.0327,
	"step": 56850
	},
	{
	"action_loss": 0.0234,
	"epoch": 5.852705204690393,
	"learning_rate": 2e-05,
	"llm_loss": 0.0028,
	"loss": 0.0263,
	"step": 56900
	},
	{
	"action_loss": 0.029,
	"epoch": 5.8578481793869575,
	"learning_rate": 2e-05,
	"llm_loss": 0.0035,
	"loss": 0.0325,
	"step": 56950
	},
	{
	"action_loss": 0.0265,
	"epoch": 5.862991154083522,
	"learning_rate": 2e-05,
	"llm_loss": 0.0032,
	"loss": 0.0297,
	"step": 57000
	},
	{
	"action_loss": 0.0163,
	"epoch": 5.8681341287800866,
	"learning_rate": 2e-05,
	"llm_loss": 0.0027,
	"loss": 0.019,
	"step": 57050
	},
	{
	"action_loss": 0.0206,
	"epoch": 5.873277103476651,
	"learning_rate": 2e-05,
	"llm_loss": 0.0024,
	"loss": 0.023,
	"step": 57100
	},
	{
	"action_loss": 0.0229,
	"epoch": 5.878420078173216,
	"learning_rate": 2e-05,
	"llm_loss": 0.0024,
	"loss": 0.0254,
	"step": 57150
	},
	{
	"action_loss": 0.0309,
	"epoch": 5.88356305286978,
	"learning_rate": 2e-05,
	"llm_loss": 0.0032,
	"loss": 0.0341,
	"step": 57200
	},
	{
	"action_loss": 0.0166,
	"epoch": 5.888706027566345,
	"learning_rate": 2e-05,
	"llm_loss": 0.0035,
	"loss": 0.0201,
	"step": 57250
	},
	{
	"action_loss": 0.0173,
	"epoch": 5.893849002262909,
	"learning_rate": 2e-05,
	"llm_loss": 0.0033,
	"loss": 0.0206,
	"step": 57300
	},
	{
	"action_loss": 0.0298,
	"epoch": 5.898991976959473,
	"learning_rate": 2e-05,
	"llm_loss": 0.0028,
	"loss": 0.0326,
	"step": 57350
	},
	{
	"action_loss": 0.0159,
	"epoch": 5.9041349516560375,
	"learning_rate": 2e-05,
	"llm_loss": 0.0027,
	"loss": 0.0186,
	"step": 57400
	},
	{
	"action_loss": 0.0269,
	"epoch": 5.909277926352602,
	"learning_rate": 2e-05,
	"llm_loss": 0.0029,
	"loss": 0.0298,
	"step": 57450
	},
	{
	"action_loss": 0.0244,
	"epoch": 5.914420901049167,
	"learning_rate": 2e-05,
	"llm_loss": 0.0033,
	"loss": 0.0277,
	"step": 57500
	},
	{
	"action_loss": 0.0186,
	"epoch": 5.919563875745731,
	"learning_rate": 2e-05,
	"llm_loss": 0.003,
	"loss": 0.0216,
	"step": 57550
	},
	{
	"action_loss": 0.0227,
	"epoch": 5.924706850442296,
	"learning_rate": 2e-05,
	"llm_loss": 0.0029,
	"loss": 0.0257,
	"step": 57600
	},
	{
	"action_loss": 0.0179,
	"epoch": 5.92984982513886,
	"learning_rate": 2e-05,
	"llm_loss": 0.0028,
	"loss": 0.0207,
	"step": 57650
	},
	{
	"action_loss": 0.0289,
	"epoch": 5.934992799835425,
	"learning_rate": 2e-05,
	"llm_loss": 0.0027,
	"loss": 0.0316,
	"step": 57700
	},
	{
	"action_loss": 0.02,
	"epoch": 5.940135774531989,
	"learning_rate": 2e-05,
	"llm_loss": 0.003,
	"loss": 0.023,
	"step": 57750
	},
	{
	"action_loss": 0.026,
	"epoch": 5.945278749228554,
	"learning_rate": 2e-05,
	"llm_loss": 0.0029,
	"loss": 0.0289,
	"step": 57800
	},
	{
	"action_loss": 0.034,
	"epoch": 5.9504217239251185,
	"learning_rate": 2e-05,
	"llm_loss": 0.0032,
	"loss": 0.0371,
	"step": 57850
	},
	{
	"action_loss": 0.0203,
	"epoch": 5.955564698621683,
	"learning_rate": 2e-05,
	"llm_loss": 0.0028,
	"loss": 0.0231,
	"step": 57900
	},
	{
	"action_loss": 0.0237,
	"epoch": 5.960707673318248,
	"learning_rate": 2e-05,
	"llm_loss": 0.0029,
	"loss": 0.0266,
	"step": 57950
	},
	{
	"action_loss": 0.0208,
	"epoch": 5.965850648014812,
	"learning_rate": 2e-05,
	"llm_loss": 0.0042,
	"loss": 0.025,
	"step": 58000
	},
	{
	"action_loss": 0.0235,
	"epoch": 5.970993622711376,
	"learning_rate": 2e-05,
	"llm_loss": 0.0032,
	"loss": 0.0267,
	"step": 58050
	},
	{
	"action_loss": 0.0181,
	"epoch": 5.97613659740794,
	"learning_rate": 2e-05,
	"llm_loss": 0.0027,
	"loss": 0.0207,
	"step": 58100
	},
	{
	"action_loss": 0.031,
	"epoch": 5.981279572104505,
	"learning_rate": 2e-05,
	"llm_loss": 0.003,
	"loss": 0.034,
	"step": 58150
	},
	{
	"action_loss": 0.0264,
	"epoch": 5.9864225468010694,
	"learning_rate": 2e-05,
	"llm_loss": 0.003,
	"loss": 0.0294,
	"step": 58200
	},
	{
	"action_loss": 0.0284,
	"epoch": 5.991565521497634,
	"learning_rate": 2e-05,
	"llm_loss": 0.0026,
	"loss": 0.0311,
	"step": 58250
	},
	{
	"action_loss": 0.0223,
	"epoch": 5.9967084961941985,
	"learning_rate": 2e-05,
	"llm_loss": 0.003,
	"loss": 0.0253,
	"step": 58300
	},
	{
	"action_loss": 0.0232,
	"epoch": 6.001851470890763,
	"learning_rate": 2e-05,
	"llm_loss": 0.0026,
	"loss": 0.0258,
	"step": 58350
	},
	{
	"action_loss": 0.0293,
	"epoch": 6.006994445587328,
	"learning_rate": 2e-05,
	"llm_loss": 0.0027,
	"loss": 0.032,
	"step": 58400
	},
	{
	"action_loss": 0.0259,
	"epoch": 6.012137420283892,
	"learning_rate": 2e-05,
	"llm_loss": 0.0022,
	"loss": 0.0281,
	"step": 58450
	},
	{
	"action_loss": 0.026,
	"epoch": 6.017280394980457,
	"learning_rate": 2e-05,
	"llm_loss": 0.0022,
	"loss": 0.0282,
	"step": 58500
	},
	{
	"action_loss": 0.0226,
	"epoch": 6.022423369677021,
	"learning_rate": 2e-05,
	"llm_loss": 0.0023,
	"loss": 0.0249,
	"step": 58550
	},
	{
	"action_loss": 0.0188,
	"epoch": 6.027566344373586,
	"learning_rate": 2e-05,
	"llm_loss": 0.0026,
	"loss": 0.0214,
	"step": 58600
	},
	{
	"action_loss": 0.0262,
	"epoch": 6.03270931907015,
	"learning_rate": 2e-05,
	"llm_loss": 0.0022,
	"loss": 0.0285,
	"step": 58650
	},
	{
	"action_loss": 0.0173,
	"epoch": 6.037852293766715,
	"learning_rate": 2e-05,
	"llm_loss": 0.0028,
	"loss": 0.02,
	"step": 58700
	},
	{
	"action_loss": 0.0245,
	"epoch": 6.0429952684632795,
	"learning_rate": 2e-05,
	"llm_loss": 0.0023,
	"loss": 0.0268,
	"step": 58750
	},
	{
	"action_loss": 0.0209,
	"epoch": 6.048138243159844,
	"learning_rate": 2e-05,
	"llm_loss": 0.0024,
	"loss": 0.0234,
	"step": 58800
	},
	{
	"action_loss": 0.0309,
	"epoch": 6.053281217856408,
	"learning_rate": 2e-05,
	"llm_loss": 0.0029,
	"loss": 0.0338,
	"step": 58850
	},
	{
	"action_loss": 0.0226,
	"epoch": 6.058424192552972,
	"learning_rate": 2e-05,
	"llm_loss": 0.0027,
	"loss": 0.0253,
	"step": 58900
	},
	{
	"action_loss": 0.0277,
	"epoch": 6.063567167249537,
	"learning_rate": 2e-05,
	"llm_loss": 0.0022,
	"loss": 0.0299,
	"step": 58950
	},
	{
	"action_loss": 0.0345,
	"epoch": 6.068710141946101,
	"learning_rate": 2e-05,
	"llm_loss": 0.0031,
	"loss": 0.0376,
	"step": 59000
	},
	{
	"action_loss": 0.0318,
	"epoch": 6.073853116642666,
	"learning_rate": 2e-05,
	"llm_loss": 0.0026,
	"loss": 0.0345,
	"step": 59050
	},
	{
	"action_loss": 0.0294,
	"epoch": 6.0789960913392305,
	"learning_rate": 2e-05,
	"llm_loss": 0.003,
	"loss": 0.0323,
	"step": 59100
	},
	{
	"action_loss": 0.0277,
	"epoch": 6.084139066035795,
	"learning_rate": 2e-05,
	"llm_loss": 0.0027,
	"loss": 0.0304,
	"step": 59150
	},
	{
	"action_loss": 0.0227,
	"epoch": 6.08928204073236,
	"learning_rate": 2e-05,
	"llm_loss": 0.0027,
	"loss": 0.0254,
	"step": 59200
	},
	{
	"action_loss": 0.0231,
	"epoch": 6.094425015428924,
	"learning_rate": 2e-05,
	"llm_loss": 0.0021,
	"loss": 0.0252,
	"step": 59250
	},
	{
	"action_loss": 0.0282,
	"epoch": 6.099567990125489,
	"learning_rate": 2e-05,
	"llm_loss": 0.0024,
	"loss": 0.0306,
	"step": 59300
	},
	{
	"action_loss": 0.0311,
	"epoch": 6.104710964822053,
	"learning_rate": 2e-05,
	"llm_loss": 0.0026,
	"loss": 0.0337,
	"step": 59350
	},
	{
	"action_loss": 0.0283,
	"epoch": 6.109853939518618,
	"learning_rate": 2e-05,
	"llm_loss": 0.0023,
	"loss": 0.0306,
	"step": 59400
	},
	{
	"action_loss": 0.0316,
	"epoch": 6.114996914215182,
	"learning_rate": 2e-05,
	"llm_loss": 0.0022,
	"loss": 0.0338,
	"step": 59450
	},
	{
	"action_loss": 0.0302,
	"epoch": 6.120139888911747,
	"learning_rate": 2e-05,
	"llm_loss": 0.0029,
	"loss": 0.033,
	"step": 59500
	},
	{
	"action_loss": 0.0264,
	"epoch": 6.125282863608311,
	"learning_rate": 2e-05,
	"llm_loss": 0.0026,
	"loss": 0.029,
	"step": 59550
	},
	{
	"action_loss": 0.0301,
	"epoch": 6.130425838304875,
	"learning_rate": 2e-05,
	"llm_loss": 0.0022,
	"loss": 0.0324,
	"step": 59600
	},
	{
	"action_loss": 0.0243,
	"epoch": 6.13556881300144,
	"learning_rate": 2e-05,
	"llm_loss": 0.0027,
	"loss": 0.0269,
	"step": 59650
	},
	{
	"action_loss": 0.031,
	"epoch": 6.140711787698004,
	"learning_rate": 2e-05,
	"llm_loss": 0.0025,
	"loss": 0.0335,
	"step": 59700
	},
	{
	"action_loss": 0.0266,
	"epoch": 6.145854762394569,
	"learning_rate": 2e-05,
	"llm_loss": 0.0028,
	"loss": 0.0294,
	"step": 59750
	},
	{
	"action_loss": 0.0197,
	"epoch": 6.150997737091133,
	"learning_rate": 2e-05,
	"llm_loss": 0.0027,
	"loss": 0.0224,
	"step": 59800
	},
	{
	"action_loss": 0.0287,
	"epoch": 6.156140711787698,
	"learning_rate": 2e-05,
	"llm_loss": 0.0022,
	"loss": 0.0309,
	"step": 59850
	},
	{
	"action_loss": 0.0272,
	"epoch": 6.161283686484262,
	"learning_rate": 2e-05,
	"llm_loss": 0.0032,
	"loss": 0.0305,
	"step": 59900
	},
	{
	"action_loss": 0.0193,
	"epoch": 6.166426661180827,
	"learning_rate": 2e-05,
	"llm_loss": 0.0026,
	"loss": 0.0219,
	"step": 59950
	},
	{
	"action_loss": 0.0178,
	"epoch": 6.1715696358773915,
	"learning_rate": 2e-05,
	"llm_loss": 0.0025,
	"loss": 0.0203,
	"step": 60000
	},
	{
	"epoch": 6.1715696358773915,
	"step": 60000,
	"total_flos": 3.62488162750038e+19,
	"train_loss": 0.0319730894813935,
	"train_runtime": 64003.3532,
	"train_samples_per_second": 89.995,
	"train_steps_per_second": 0.937
	}
	],
	"logging_steps": 50,
	"max_steps": 60000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 7,
	"save_steps": 10000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 3.62488162750038e+19,
	"train_batch_size": 12,
	"trial_name": null,
	"trial_params": null
	}