CT-Apertus-Step205 / trainer_state.json

Upload folder using huggingface_hub

27d208e verified about 1 month ago

134 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.2733333333333333,
	"eval_steps": 50,
	"global_step": 205,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 1.3932524919509888,
	"epoch": 0.0013333333333333333,
	"grad_norm": 0.016694727116637192,
	"importance_ratio": 0.9986082315444946,
	"learning_rate": 0.0,
	"loss": -0.0189,
	"mismatch_kl": 0.004300346598029137,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 1,
	"timing/generation_ms": 11961.050138808787,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 11961.050138808787,
	"tokens/completion": 551.78125,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 248.72634100914001
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 1.0695139169692993,
	"epoch": 0.0026666666666666666,
	"grad_norm": 0.008567213424127631,
	"importance_ratio": 0.9980430603027344,
	"learning_rate": 1.0000000000000002e-06,
	"loss": -0.0055,
	"mismatch_kl": 0.0036789600271731615,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 2,
	"timing/generation_ms": 11398.794241249561,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 11398.794241249561,
	"tokens/completion": 647.02734375,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 67.39928388595581
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 1.2690891027450562,
	"epoch": 0.004,
	"grad_norm": 0.007856590727089238,
	"importance_ratio": 0.9990478157997131,
	"learning_rate": 2.0000000000000003e-06,
	"loss": -0.0147,
	"mismatch_kl": 0.00404919171705842,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 3,
	"timing/generation_ms": 13145.053108222783,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 13145.053108222783,
	"tokens/completion": 695.94140625,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 188.99010276794434
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.5635457634925842,
	"epoch": 0.005333333333333333,
	"grad_norm": 0.008427354641048032,
	"importance_ratio": 0.9995828866958618,
	"learning_rate": 3e-06,
	"loss": -0.0056,
	"mismatch_kl": 0.0024689023848623037,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 4,
	"timing/generation_ms": 12098.999472334981,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 12098.999472334981,
	"tokens/completion": 634.3515625,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 52.7923378944397
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.8588207364082336,
	"epoch": 0.006666666666666667,
	"grad_norm": 0.015271082061520619,
	"importance_ratio": 0.9998404383659363,
	"learning_rate": 4.000000000000001e-06,
	"loss": -0.0201,
	"mismatch_kl": 0.003175633493810892,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 5,
	"timing/generation_ms": 9795.204265974462,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 9795.204265974462,
	"tokens/completion": 595.30078125,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 56.867586612701416
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 1.0917283296585083,
	"epoch": 0.008,
	"grad_norm": 0.015440441848262498,
	"importance_ratio": 1.0006937980651855,
	"learning_rate": 5e-06,
	"loss": -0.0046,
	"mismatch_kl": 0.003965948708355427,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 6,
	"timing/generation_ms": 3492.4034476280212,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 3492.4034476280212,
	"tokens/completion": 176.77734375,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 61.55981087684631
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.750698983669281,
	"epoch": 0.009333333333333334,
	"grad_norm": 0.008842566430176115,
	"importance_ratio": 1.0032514333724976,
	"learning_rate": 5e-06,
	"loss": 0.0042,
	"mismatch_kl": 0.0037081094924360514,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 7,
	"timing/generation_ms": 12012.088196352124,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 12012.088196352124,
	"tokens/completion": 664.06640625,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 80.06084942817688
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.6958726644515991,
	"epoch": 0.010666666666666666,
	"grad_norm": 0.020865513665125984,
	"importance_ratio": 0.9998727440834045,
	"learning_rate": 5e-06,
	"loss": -0.0015,
	"mismatch_kl": 0.003091922029852867,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 8,
	"timing/generation_ms": 7164.519478566945,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 7164.519478566945,
	"tokens/completion": 376.96484375,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 122.57408618927002
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.647992730140686,
	"epoch": 0.012,
	"grad_norm": 0.010516528439614162,
	"importance_ratio": 0.9973449110984802,
	"learning_rate": 5e-06,
	"loss": 0.0348,
	"mismatch_kl": 0.002668753731995821,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 9,
	"timing/generation_ms": 9473.532978445292,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 9473.532978445292,
	"tokens/completion": 589.9375,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 111.60580968856812
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.9175997972488403,
	"epoch": 0.013333333333333334,
	"grad_norm": 0.017217377658999368,
	"importance_ratio": 0.9963379502296448,
	"learning_rate": 5e-06,
	"loss": -0.0133,
	"mismatch_kl": 0.003761034458875656,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 10,
	"timing/generation_ms": 8803.215935826302,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 8803.215935826302,
	"tokens/completion": 432.890625,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 137.27361369132996
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.6505714654922485,
	"epoch": 0.014666666666666666,
	"grad_norm": 0.0034942507757306364,
	"importance_ratio": 0.9997450113296509,
	"learning_rate": 5e-06,
	"loss": 0.0567,
	"mismatch_kl": 0.025293370708823204,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 11,
	"timing/generation_ms": 28037.367599084973,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 28037.367599084973,
	"tokens/completion": 1677.38671875,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 147.27029275894165
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.623925507068634,
	"epoch": 0.016,
	"grad_norm": 0.004363286027787366,
	"importance_ratio": 0.9998379349708557,
	"learning_rate": 5e-06,
	"loss": 0.037,
	"mismatch_kl": 0.027607521042227745,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 12,
	"timing/generation_ms": 30658.961144275963,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 30658.961144275963,
	"tokens/completion": 1772.48046875,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 228.39264035224915
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 1.2309722900390625,
	"epoch": 0.017333333333333333,
	"grad_norm": 0.01910079735377139,
	"importance_ratio": 0.9967860579490662,
	"learning_rate": 5e-06,
	"loss": -0.0146,
	"mismatch_kl": 0.004334039054811001,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 13,
	"timing/generation_ms": 7481.697678565979,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 7481.697678565979,
	"tokens/completion": 458.546875,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 125.09760117530823
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.583360493183136,
	"epoch": 0.018666666666666668,
	"grad_norm": 0.006859469099074894,
	"importance_ratio": 0.9988465905189514,
	"learning_rate": 5e-06,
	"loss": -0.0041,
	"mismatch_kl": 0.0028068351093679667,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 14,
	"timing/generation_ms": 8050.086663104594,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 8050.086663104594,
	"tokens/completion": 466.06640625,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 117.39565086364746
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.7860226035118103,
	"epoch": 0.02,
	"grad_norm": 0.011283066327858677,
	"importance_ratio": 1.002608299255371,
	"learning_rate": 5e-06,
	"loss": -0.0035,
	"mismatch_kl": 0.004051415715366602,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 15,
	"timing/generation_ms": 9803.531439974904,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 9803.531439974904,
	"tokens/completion": 522.2109375,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 48.61639094352722
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.7184260487556458,
	"epoch": 0.021333333333333333,
	"grad_norm": 0.010228445907240152,
	"importance_ratio": 1.000801920890808,
	"learning_rate": 5e-06,
	"loss": -0.0066,
	"mismatch_kl": 0.006085229571908712,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 16,
	"timing/generation_ms": 8376.314821653068,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 8376.314821653068,
	"tokens/completion": 458.83984375,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 69.11118984222412
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.18061073124408722,
	"epoch": 0.02266666666666667,
	"grad_norm": 0.0036474713562644418,
	"importance_ratio": 0.9987739324569702,
	"learning_rate": 5e-06,
	"loss": 0.0657,
	"mismatch_kl": 0.025802385061979294,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 17,
	"timing/generation_ms": 16682.96501878649,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 16682.96501878649,
	"tokens/completion": 1178.22265625,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 110.8058807849884
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.3768082559108734,
	"epoch": 0.024,
	"grad_norm": 0.007994642717131743,
	"importance_ratio": 0.9989356398582458,
	"learning_rate": 5e-06,
	"loss": 0.0198,
	"mismatch_kl": 0.0024773485492914915,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 18,
	"timing/generation_ms": 45841.41308255494,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 45841.41308255494,
	"tokens/completion": 2401.60546875,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 182.70060086250305
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.9849978685379028,
	"epoch": 0.025333333333333333,
	"grad_norm": 0.007975010652496835,
	"importance_ratio": 0.9994485974311829,
	"learning_rate": 5e-06,
	"loss": -0.0032,
	"mismatch_kl": 0.007306213956326246,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 19,
	"timing/generation_ms": 21281.952754594386,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 21281.952754594386,
	"tokens/completion": 1127.03515625,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 118.257479429245
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.783280074596405,
	"epoch": 0.02666666666666667,
	"grad_norm": 0.01013309688610727,
	"importance_ratio": 1.0076329708099365,
	"learning_rate": 5e-06,
	"loss": -0.002,
	"mismatch_kl": 0.008437588810920715,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 20,
	"timing/generation_ms": 11283.36211759597,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 11283.36211759597,
	"tokens/completion": 603.92578125,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 50.433815717697144
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.18535619974136353,
	"epoch": 0.028,
	"grad_norm": 0.12592122275182266,
	"importance_ratio": 0.994857132434845,
	"learning_rate": 5e-06,
	"loss": 0.057,
	"mismatch_kl": 0.004472589120268822,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 21,
	"timing/generation_ms": 69204.76855803281,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 69204.76855803281,
	"tokens/completion": 3062.171875,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 335.8162593841553
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.7172983884811401,
	"epoch": 0.029333333333333333,
	"grad_norm": 0.011698600330274578,
	"importance_ratio": 1.0030107498168945,
	"learning_rate": 5e-06,
	"loss": -0.0094,
	"mismatch_kl": 0.03951645269989967,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 22,
	"timing/generation_ms": 16505.55451028049,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 16505.55451028049,
	"tokens/completion": 675.60546875,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 61.02479434013367
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.8583077192306519,
	"epoch": 0.030666666666666665,
	"grad_norm": 0.02332906550498323,
	"importance_ratio": 1.0737003087997437,
	"learning_rate": 5e-06,
	"loss": 0.0468,
	"mismatch_kl": 0.21222208440303802,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 23,
	"timing/generation_ms": 47965.167357586324,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 47965.167357586324,
	"tokens/completion": 2437.57421875,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 184.88851642608643
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.6403871178627014,
	"epoch": 0.032,
	"grad_norm": 0.0064139472738614185,
	"importance_ratio": 1.0027199983596802,
	"learning_rate": 5e-06,
	"loss": 0.0079,
	"mismatch_kl": 0.029356306418776512,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 24,
	"timing/generation_ms": 25231.056010350585,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 25231.056010350585,
	"tokens/completion": 1253.125,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 127.16959929466248
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.26308295130729675,
	"epoch": 0.03333333333333333,
	"grad_norm": 0.004856521131545869,
	"importance_ratio": 0.99989914894104,
	"learning_rate": 5e-06,
	"loss": 0.0162,
	"mismatch_kl": 0.006057343445718288,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 25,
	"timing/generation_ms": 44386.24160736799,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 44386.24160736799,
	"tokens/completion": 2212.2421875,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 173.18823885917664
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.12470932304859161,
	"epoch": 0.034666666666666665,
	"grad_norm": 0.001678447935003649,
	"importance_ratio": 1.0007412433624268,
	"learning_rate": 5e-06,
	"loss": 0.0462,
	"mismatch_kl": 0.001119845313951373,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 26,
	"timing/generation_ms": 100999.46400336921,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 100999.46400336921,
	"tokens/completion": 3716.6796875,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 303.84296584129333
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.17583802342414856,
	"epoch": 0.036,
	"grad_norm": 0.002584350761592735,
	"importance_ratio": 1.001440405845642,
	"learning_rate": 5e-06,
	"loss": 0.0264,
	"mismatch_kl": 0.0013389256782829762,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 27,
	"timing/generation_ms": 55200.44738613069,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 55200.44738613069,
	"tokens/completion": 2656.7265625,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 294.736074924469
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.19836626946926117,
	"epoch": 0.037333333333333336,
	"grad_norm": 0.005548904662699889,
	"importance_ratio": 1.0022764205932617,
	"learning_rate": 5e-06,
	"loss": 0.0251,
	"mismatch_kl": 0.0019016863079741597,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 28,
	"timing/generation_ms": 57617.69188474864,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 57617.69188474864,
	"tokens/completion": 2797.6171875,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 228.97359490394592
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.37241131067276,
	"epoch": 0.03866666666666667,
	"grad_norm": 0.02006388030524017,
	"importance_ratio": 1.053019404411316,
	"learning_rate": 5e-06,
	"loss": 0.0557,
	"mismatch_kl": 0.9634742736816406,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 29,
	"timing/generation_ms": 41741.05513561517,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 41741.05513561517,
	"tokens/completion": 2055.87890625,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 207.62974190711975
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.25762397050857544,
	"epoch": 0.04,
	"grad_norm": 0.006806951429177103,
	"importance_ratio": 0.983231246471405,
	"learning_rate": 5e-06,
	"loss": 0.0364,
	"mismatch_kl": 0.06448693573474884,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 30,
	"timing/generation_ms": 29489.30747061968,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 29489.30747061968,
	"tokens/completion": 1709.59765625,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 175.62516474723816
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.019520161673426628,
	"epoch": 0.04133333333333333,
	"grad_norm": 0.0005178617259035183,
	"importance_ratio": 0.9998506307601929,
	"learning_rate": 5e-06,
	"loss": 0.0014,
	"mismatch_kl": 0.0017281156033277512,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 31,
	"timing/generation_ms": 255150.22794622928,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 255150.22794622928,
	"tokens/completion": 6100.89453125,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 537.7091252803802
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.005344062577933073,
	"epoch": 0.042666666666666665,
	"grad_norm": 0.00042076548606043374,
	"importance_ratio": 1.0000818967819214,
	"learning_rate": 5e-06,
	"loss": 0.0,
	"mismatch_kl": 0.00012820436677429825,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 32,
	"timing/generation_ms": 252645.98809182644,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 252645.98809182644,
	"tokens/completion": 6144.0,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 564.6809096336365
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.0041460455395281315,
	"epoch": 0.044,
	"grad_norm": 0.0004905946483254039,
	"importance_ratio": 1.0000282526016235,
	"learning_rate": 5e-06,
	"loss": 0.0,
	"mismatch_kl": 6.918103463249281e-05,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 33,
	"timing/generation_ms": 262179.48642838746,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 262179.48642838746,
	"tokens/completion": 6144.0,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 574.2838616371155
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.005189419258385897,
	"epoch": 0.04533333333333334,
	"grad_norm": 0.0003380219234355203,
	"importance_ratio": 1.0000487565994263,
	"learning_rate": 5e-06,
	"loss": 0.0,
	"mismatch_kl": 7.488115079468116e-05,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 34,
	"timing/generation_ms": 257649.44062847644,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 257649.44062847644,
	"tokens/completion": 6144.0,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 616.5528900623322
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.005219260696321726,
	"epoch": 0.04666666666666667,
	"grad_norm": 0.0006402287013777213,
	"importance_ratio": 1.0000388622283936,
	"learning_rate": 5e-06,
	"loss": 0.0,
	"mismatch_kl": 0.00010059373016702011,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 35,
	"timing/generation_ms": 263093.6838546768,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 263093.6838546768,
	"tokens/completion": 6144.0,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 567.3024535179138
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.008569693192839622,
	"epoch": 0.048,
	"grad_norm": 0.0005047742243801816,
	"importance_ratio": 1.0000779628753662,
	"learning_rate": 5e-06,
	"loss": 0.0004,
	"mismatch_kl": 0.0001211672934005037,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 36,
	"timing/generation_ms": 242657.4441930279,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 242657.4441930279,
	"tokens/completion": 6123.421875,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 543.5283715724945
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.011535107158124447,
	"epoch": 0.04933333333333333,
	"grad_norm": 0.0004641880444433118,
	"importance_ratio": 1.0000940561294556,
	"learning_rate": 5e-06,
	"loss": 0.0,
	"mismatch_kl": 0.00016296253306791186,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 37,
	"timing/generation_ms": 253055.44871557504,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 253055.44871557504,
	"tokens/completion": 6100.4375,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 529.3097188472748
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.008278747089207172,
	"epoch": 0.050666666666666665,
	"grad_norm": 0.0015602978869027017,
	"importance_ratio": 1.000083565711975,
	"learning_rate": 5e-06,
	"loss": 0.0,
	"mismatch_kl": 0.00012404406152199954,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 38,
	"timing/generation_ms": 259809.8956849426,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 259809.8956849426,
	"tokens/completion": 6144.0,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 572.6026647090912
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.0070807370357215405,
	"epoch": 0.052,
	"grad_norm": 0.0004621624833577141,
	"importance_ratio": 1.000075340270996,
	"learning_rate": 5e-06,
	"loss": -0.0,
	"mismatch_kl": 0.00010999527876265347,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 39,
	"timing/generation_ms": 266124.4311518967,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 266124.4311518967,
	"tokens/completion": 6144.0,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 645.3593230247498
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.00655187526717782,
	"epoch": 0.05333333333333334,
	"grad_norm": 0.00032702966921445734,
	"importance_ratio": 1.0000351667404175,
	"learning_rate": 5e-06,
	"loss": 0.0,
	"mismatch_kl": 0.00014068085874896497,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 40,
	"timing/generation_ms": 262011.0893426463,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 262011.0893426463,
	"tokens/completion": 6144.0,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 515.61732006073
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.0039160363376140594,
	"epoch": 0.05466666666666667,
	"grad_norm": 0.0003724535269895079,
	"importance_ratio": 1.0000481605529785,
	"learning_rate": 5e-06,
	"loss": 0.0,
	"mismatch_kl": 7.484626985387877e-05,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 41,
	"timing/generation_ms": 255759.41647868603,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 255759.41647868603,
	"tokens/completion": 6144.0,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 565.8597645759583
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.01127232052385807,
	"epoch": 0.056,
	"grad_norm": 0.0008175801103252065,
	"importance_ratio": 1.0000771284103394,
	"learning_rate": 5e-06,
	"loss": 0.0068,
	"mismatch_kl": 0.00016380040324293077,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 42,
	"timing/generation_ms": 238812.61033378541,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 238812.61033378541,
	"tokens/completion": 6073.61328125,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 484.4759180545807
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.01085229218006134,
	"epoch": 0.05733333333333333,
	"grad_norm": 0.0004839828768652627,
	"importance_ratio": 1.0000557899475098,
	"learning_rate": 5e-06,
	"loss": 0.0063,
	"mismatch_kl": 0.00013297870464157313,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 43,
	"timing/generation_ms": 256715.18344525248,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 256715.18344525248,
	"tokens/completion": 6078.20703125,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 537.6344306468964
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.005195128731429577,
	"epoch": 0.058666666666666666,
	"grad_norm": 0.00023276391851811837,
	"importance_ratio": 1.0000344514846802,
	"learning_rate": 5e-06,
	"loss": 0.0023,
	"mismatch_kl": 8.078882819972932e-05,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 44,
	"timing/generation_ms": 245682.50108975917,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 245682.50108975917,
	"tokens/completion": 6098.1015625,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 491.3542585372925
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.0033533975947648287,
	"epoch": 0.06,
	"grad_norm": 0.00016439514868896496,
	"importance_ratio": 1.00002920627594,
	"learning_rate": 5e-06,
	"loss": 0.0,
	"mismatch_kl": 7.133631879696622e-05,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 45,
	"timing/generation_ms": 261392.2018893063,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 261392.2018893063,
	"tokens/completion": 6144.0,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 638.6866817474365
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.009633159264922142,
	"epoch": 0.06133333333333333,
	"grad_norm": 0.0005837700251924664,
	"importance_ratio": 1.000110149383545,
	"learning_rate": 5e-06,
	"loss": -0.0005,
	"mismatch_kl": 0.00014644436305388808,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 46,
	"timing/generation_ms": 259352.97147464007,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 259352.97147464007,
	"tokens/completion": 6100.9375,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 726.6395015716553
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.008214793168008327,
	"epoch": 0.06266666666666666,
	"grad_norm": 0.0003491652028248511,
	"importance_ratio": 1.0000574588775635,
	"learning_rate": 5e-06,
	"loss": -0.0005,
	"mismatch_kl": 0.00012681909720413387,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 47,
	"timing/generation_ms": 251731.6782604903,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 251731.6782604903,
	"tokens/completion": 6120.80078125,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 504.8533480167389
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.012482496909797192,
	"epoch": 0.064,
	"grad_norm": 0.0008089181923655795,
	"importance_ratio": 1.0000419616699219,
	"learning_rate": 5e-06,
	"loss": 0.003,
	"mismatch_kl": 0.00024501114967279136,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 48,
	"timing/generation_ms": 260055.6455301121,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 260055.6455301121,
	"tokens/completion": 6038.9921875,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 520.350103855133
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.008223201148211956,
	"epoch": 0.06533333333333333,
	"grad_norm": 0.0005775216775221585,
	"importance_ratio": 1.0000702142715454,
	"learning_rate": 5e-06,
	"loss": -0.0,
	"mismatch_kl": 0.0001139239757321775,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 49,
	"timing/generation_ms": 262634.82890836895,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 262634.82890836895,
	"tokens/completion": 6144.0,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 694.4226834774017
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.006501559168100357,
	"epoch": 0.06666666666666667,
	"grad_norm": 0.0004452247469025534,
	"importance_ratio": 1.000080943107605,
	"learning_rate": 5e-06,
	"loss": 0.0,
	"mismatch_kl": 0.00019989976135548204,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 50,
	"timing/generation_ms": 252373.39910119772,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 252373.39910119772,
	"tokens/completion": 6144.0,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 633.9480290412903
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.011557838879525661,
	"epoch": 0.068,
	"grad_norm": 0.00040538021426552616,
	"importance_ratio": 1.0000510215759277,
	"learning_rate": 5e-06,
	"loss": 0.0163,
	"mismatch_kl": 0.00014912446204107255,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 51,
	"timing/generation_ms": 231235.03853101283,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 231235.03853101283,
	"tokens/completion": 5880.91015625,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 553.8161387443542
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.008280275389552116,
	"epoch": 0.06933333333333333,
	"grad_norm": 0.0006837160840031847,
	"importance_ratio": 1.0000361204147339,
	"learning_rate": 5e-06,
	"loss": -0.0009,
	"mismatch_kl": 0.00011032609472749755,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 52,
	"timing/generation_ms": 268335.500174202,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 268335.500174202,
	"tokens/completion": 6076.33984375,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 532.5728721618652
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.008777043782174587,
	"epoch": 0.07066666666666667,
	"grad_norm": 0.00047547446087476704,
	"importance_ratio": 1.0000946521759033,
	"learning_rate": 5e-06,
	"loss": -0.0,
	"mismatch_kl": 0.0001269574131583795,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 53,
	"timing/generation_ms": 256683.97525977343,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 256683.97525977343,
	"tokens/completion": 6144.0,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 506.92905497550964
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.011497734114527702,
	"epoch": 0.072,
	"grad_norm": 0.00027828097052508087,
	"importance_ratio": 1.000109076499939,
	"learning_rate": 5e-06,
	"loss": 0.0042,
	"mismatch_kl": 0.00013832931290380657,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 54,
	"timing/generation_ms": 245946.20873313397,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 245946.20873313397,
	"tokens/completion": 6032.51953125,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 505.11912751197815
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.010809739120304585,
	"epoch": 0.07333333333333333,
	"grad_norm": 0.0007032954488382401,
	"importance_ratio": 1.0000889301300049,
	"learning_rate": 5e-06,
	"loss": 0.0,
	"mismatch_kl": 0.00015762390103191137,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 55,
	"timing/generation_ms": 264072.7631729096,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 264072.7631729096,
	"tokens/completion": 6144.0,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 523.6702523231506
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.009559578262269497,
	"epoch": 0.07466666666666667,
	"grad_norm": 0.0010708393934808242,
	"importance_ratio": 1.0000908374786377,
	"learning_rate": 5e-06,
	"loss": 0.0051,
	"mismatch_kl": 0.00013747472257819027,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 56,
	"timing/generation_ms": 250449.08253196627,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 250449.08253196627,
	"tokens/completion": 6098.72265625,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 556.8832399845123
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.011213499121367931,
	"epoch": 0.076,
	"grad_norm": 0.00044938202555849837,
	"importance_ratio": 1.0000908374786377,
	"learning_rate": 5e-06,
	"loss": 0.0,
	"mismatch_kl": 0.00015059650468174368,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 57,
	"timing/generation_ms": 263455.5452140048,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 263455.5452140048,
	"tokens/completion": 6144.0,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 632.40900182724
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.005081878509372473,
	"epoch": 0.07733333333333334,
	"grad_norm": 0.0003246328757380694,
	"importance_ratio": 1.0000656843185425,
	"learning_rate": 5e-06,
	"loss": 0.0,
	"mismatch_kl": 0.00019094608433078974,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 58,
	"timing/generation_ms": 256806.45045358688,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 256806.45045358688,
	"tokens/completion": 6144.0,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 503.00778365135193
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.01805613562464714,
	"epoch": 0.07866666666666666,
	"grad_norm": 0.0007634702119519025,
	"importance_ratio": 1.0001803636550903,
	"learning_rate": 5e-06,
	"loss": 0.0025,
	"mismatch_kl": 0.00021581076725851744,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 59,
	"timing/generation_ms": 254470.52423935384,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 254470.52423935384,
	"tokens/completion": 6079.921875,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 499.350706577301
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.047813381999731064,
	"epoch": 0.08,
	"grad_norm": 0.0034811244478141165,
	"importance_ratio": 1.0005850791931152,
	"learning_rate": 5e-06,
	"loss": 0.0385,
	"mismatch_kl": 0.0006162600475363433,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 60,
	"timing/generation_ms": 122059.79803204536,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 122059.79803204536,
	"tokens/completion": 4056.4140625,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 406.85777831077576
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.006517002824693918,
	"epoch": 0.08133333333333333,
	"grad_norm": 0.00045405486723584484,
	"importance_ratio": 1.0000643730163574,
	"learning_rate": 5e-06,
	"loss": 0.0,
	"mismatch_kl": 8.087344031082466e-05,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 61,
	"timing/generation_ms": 262080.00864181668,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 262080.00864181668,
	"tokens/completion": 6144.0,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 513.6219637393951
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.0059960088692605495,
	"epoch": 0.08266666666666667,
	"grad_norm": 0.0003004741817689029,
	"importance_ratio": 1.0000419616699219,
	"learning_rate": 5e-06,
	"loss": 0.0,
	"mismatch_kl": 7.99954796093516e-05,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 62,
	"timing/generation_ms": 261857.35533758998,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 261857.35533758998,
	"tokens/completion": 6144.0,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 537.6526563167572
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.012267248705029488,
	"epoch": 0.084,
	"grad_norm": 0.0018275298082432536,
	"importance_ratio": 1.0001516342163086,
	"learning_rate": 5e-06,
	"loss": 0.0273,
	"mismatch_kl": 0.00015860867279116064,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 63,
	"timing/generation_ms": 223553.63579373807,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 223553.63579373807,
	"tokens/completion": 5578.8046875,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 449.565260887146
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.017613664269447327,
	"epoch": 0.08533333333333333,
	"grad_norm": 0.0013137454797814432,
	"importance_ratio": 1.0001808404922485,
	"learning_rate": 5e-06,
	"loss": 0.0296,
	"mismatch_kl": 0.00018238124903291464,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 64,
	"timing/generation_ms": 197715.4450826347,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 197715.4450826347,
	"tokens/completion": 5301.74609375,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 467.5368883609772
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.012099393643438816,
	"epoch": 0.08666666666666667,
	"grad_norm": 0.00029163323031709923,
	"importance_ratio": 1.0000910758972168,
	"learning_rate": 5e-06,
	"loss": 0.0101,
	"mismatch_kl": 0.0001367869263049215,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 65,
	"timing/generation_ms": 253292.40265209228,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 253292.40265209228,
	"tokens/completion": 5987.40234375,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 504.62310814857483
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.016472794115543365,
	"epoch": 0.088,
	"grad_norm": 0.000537146473230196,
	"importance_ratio": 1.0002104043960571,
	"learning_rate": 5e-06,
	"loss": 0.0046,
	"mismatch_kl": 0.00019632629118859768,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 66,
	"timing/generation_ms": 244626.61108747125,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 244626.61108747125,
	"tokens/completion": 5880.29296875,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 546.9820070266724
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.03573580086231232,
	"epoch": 0.08933333333333333,
	"grad_norm": 0.0018214337047260279,
	"importance_ratio": 1.0006996393203735,
	"learning_rate": 5e-06,
	"loss": 0.0366,
	"mismatch_kl": 0.0005711132544092834,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 67,
	"timing/generation_ms": 171141.10032841563,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 171141.10032841563,
	"tokens/completion": 4912.99609375,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 387.35487270355225
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.024245120584964752,
	"epoch": 0.09066666666666667,
	"grad_norm": 0.0007171125744050383,
	"importance_ratio": 1.0004810094833374,
	"learning_rate": 5e-06,
	"loss": 0.0327,
	"mismatch_kl": 0.0003458830469753593,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 68,
	"timing/generation_ms": 175763.37515283376,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 175763.37515283376,
	"tokens/completion": 5039.39453125,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 399.21359062194824
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.025269493460655212,
	"epoch": 0.092,
	"grad_norm": 0.0004443143666122359,
	"importance_ratio": 1.000417947769165,
	"learning_rate": 5e-06,
	"loss": 0.0151,
	"mismatch_kl": 0.000321421044645831,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 69,
	"timing/generation_ms": 250666.16093274206,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 250666.16093274206,
	"tokens/completion": 5965.16796875,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 632.227735042572
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.024551477283239365,
	"epoch": 0.09333333333333334,
	"grad_norm": 0.0015252781439401258,
	"importance_ratio": 1.0006314516067505,
	"learning_rate": 5e-06,
	"loss": 0.0348,
	"mismatch_kl": 0.0005003436817787588,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 70,
	"timing/generation_ms": 191529.1232522577,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 191529.1232522577,
	"tokens/completion": 5294.87890625,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 407.7219111919403
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.02018953487277031,
	"epoch": 0.09466666666666666,
	"grad_norm": 0.0011570903491081794,
	"importance_ratio": 1.0002988576889038,
	"learning_rate": 5e-06,
	"loss": 0.0237,
	"mismatch_kl": 0.00033742599771358073,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 71,
	"timing/generation_ms": 210619.99121960253,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 210619.99121960253,
	"tokens/completion": 5332.65625,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 494.4582040309906
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.08414055407047272,
	"epoch": 0.096,
	"grad_norm": 0.005691985408928669,
	"importance_ratio": 1.002629280090332,
	"learning_rate": 5e-06,
	"loss": 0.0631,
	"mismatch_kl": 0.0030276263132691383,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 72,
	"timing/generation_ms": 26491.081130690873,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 26491.081130690873,
	"tokens/completion": 1684.4921875,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 175.0816376209259
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.08044799417257309,
	"epoch": 0.09733333333333333,
	"grad_norm": 0.0067108539111987095,
	"importance_ratio": 1.0022099018096924,
	"learning_rate": 5e-06,
	"loss": 0.0512,
	"mismatch_kl": 0.0033263727091252804,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 73,
	"timing/generation_ms": 26663.206906057894,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 26663.206906057894,
	"tokens/completion": 1624.47265625,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 179.0183322429657
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.14499743282794952,
	"epoch": 0.09866666666666667,
	"grad_norm": 0.010377228969329702,
	"importance_ratio": 1.0045510530471802,
	"learning_rate": 5e-06,
	"loss": 0.0301,
	"mismatch_kl": 0.03058871254324913,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 74,
	"timing/generation_ms": 11363.965434022248,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 11363.965434022248,
	"tokens/completion": 733.40234375,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 162.93997645378113
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.15485742688179016,
	"epoch": 0.1,
	"grad_norm": 0.037501291580980145,
	"importance_ratio": 1.0262236595153809,
	"learning_rate": 5e-06,
	"loss": 0.0478,
	"mismatch_kl": 0.5780022144317627,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 75,
	"timing/generation_ms": 31973.80775306374,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 31973.80775306374,
	"tokens/completion": 1854.69921875,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 206.36020827293396
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.2712324857711792,
	"epoch": 0.10133333333333333,
	"grad_norm": 0.021496155900656944,
	"importance_ratio": 0.747008204460144,
	"learning_rate": 5e-06,
	"loss": -0.001,
	"mismatch_kl": 4.077150344848633,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 76,
	"timing/generation_ms": 19520.673436112702,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 19520.673436112702,
	"tokens/completion": 1019.1015625,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 104.34236979484558
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.3253353238105774,
	"epoch": 0.10266666666666667,
	"grad_norm": 0.014127787785753907,
	"importance_ratio": 0.5209717154502869,
	"learning_rate": 5e-06,
	"loss": 0.0074,
	"mismatch_kl": 11.41779899597168,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 77,
	"timing/generation_ms": 33620.65821047872,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 33620.65821047872,
	"tokens/completion": 1925.72265625,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 257.44123911857605
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.3993019163608551,
	"epoch": 0.104,
	"grad_norm": 0.009151033649610016,
	"importance_ratio": 0.29432952404022217,
	"learning_rate": 5e-06,
	"loss": 0.0157,
	"mismatch_kl": 11.372162818908691,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 78,
	"timing/generation_ms": 11082.484270446002,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 11082.484270446002,
	"tokens/completion": 828.0546875,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 115.73264193534851
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.1168494001030922,
	"epoch": 0.10533333333333333,
	"grad_norm": 0.006117265962728229,
	"importance_ratio": 0.1935732513666153,
	"learning_rate": 5e-06,
	"loss": -0.0017,
	"mismatch_kl": 21.00209617614746,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 79,
	"timing/generation_ms": 36345.630533993244,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 36345.630533993244,
	"tokens/completion": 2084.80859375,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 232.0772545337677
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.4559866189956665,
	"epoch": 0.10666666666666667,
	"grad_norm": 0.02899073922789841,
	"importance_ratio": 0.9647712111473083,
	"learning_rate": 5e-06,
	"loss": -0.0109,
	"mismatch_kl": 0.1562381535768509,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 80,
	"timing/generation_ms": 3708.529833704233,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 3708.529833704233,
	"tokens/completion": 172.21484375,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 79.40927720069885
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.18381687998771667,
	"epoch": 0.108,
	"grad_norm": 0.03870938318729351,
	"importance_ratio": 0.9867123365402222,
	"learning_rate": 5e-06,
	"loss": 0.0003,
	"mismatch_kl": 0.09630821645259857,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 81,
	"timing/generation_ms": 7641.556458547711,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 7641.556458547711,
	"tokens/completion": 342.55078125,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 28.48853635787964
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.28385868668556213,
	"epoch": 0.10933333333333334,
	"grad_norm": 0.024463462093216322,
	"importance_ratio": 0.9961410760879517,
	"learning_rate": 5e-06,
	"loss": -0.0027,
	"mismatch_kl": 0.046350929886102676,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 82,
	"timing/generation_ms": 14151.478135958314,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 14151.478135958314,
	"tokens/completion": 640.5703125,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 51.07678151130676
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.25215646624565125,
	"epoch": 0.11066666666666666,
	"grad_norm": 0.025956305888591907,
	"importance_ratio": 0.9893953204154968,
	"learning_rate": 5e-06,
	"loss": 0.0024,
	"mismatch_kl": 0.06097816303372383,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 83,
	"timing/generation_ms": 9802.852495573461,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 9802.852495573461,
	"tokens/completion": 486.23828125,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 135.5597288608551
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.18832416832447052,
	"epoch": 0.112,
	"grad_norm": 0.05162272724580775,
	"importance_ratio": 0.9795369505882263,
	"learning_rate": 5e-06,
	"loss": -0.0063,
	"mismatch_kl": 0.09001336991786957,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 84,
	"timing/generation_ms": 8744.545813649893,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 8744.545813649893,
	"tokens/completion": 422.9921875,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 202.02377605438232
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.20757851004600525,
	"epoch": 0.11333333333333333,
	"grad_norm": 0.029849605436009424,
	"importance_ratio": 0.9847032427787781,
	"learning_rate": 5e-06,
	"loss": 0.0003,
	"mismatch_kl": 0.08596009016036987,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 85,
	"timing/generation_ms": 6916.043497622013,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 6916.043497622013,
	"tokens/completion": 315.65625,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 26.646199941635132
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.19341044127941132,
	"epoch": 0.11466666666666667,
	"grad_norm": 0.023761811444065736,
	"importance_ratio": 0.9906992316246033,
	"learning_rate": 5e-06,
	"loss": -0.0037,
	"mismatch_kl": 0.04626338183879852,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 86,
	"timing/generation_ms": 10513.352582231164,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 10513.352582231164,
	"tokens/completion": 565.625,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 43.092281341552734
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.2988993227481842,
	"epoch": 0.116,
	"grad_norm": 0.08410779443510906,
	"importance_ratio": 0.9899005889892578,
	"learning_rate": 5e-06,
	"loss": -0.0182,
	"mismatch_kl": 0.048949241638183594,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 87,
	"timing/generation_ms": 6337.426606565714,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 6337.426606565714,
	"tokens/completion": 288.53125,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 29.87082028388977
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.24379415810108185,
	"epoch": 0.11733333333333333,
	"grad_norm": 0.033951546211805725,
	"importance_ratio": 0.9842061996459961,
	"learning_rate": 5e-06,
	"loss": -0.001,
	"mismatch_kl": 0.05609630420804024,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 88,
	"timing/generation_ms": 12948.228243738413,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 12948.228243738413,
	"tokens/completion": 572.8359375,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 158.39017939567566
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.46492651104927063,
	"epoch": 0.11866666666666667,
	"grad_norm": 0.05385249484621595,
	"importance_ratio": 0.9755511283874512,
	"learning_rate": 5e-06,
	"loss": 0.0005,
	"mismatch_kl": 0.16615039110183716,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 89,
	"timing/generation_ms": 11146.457904949784,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 11146.457904949784,
	"tokens/completion": 531.22265625,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 125.18756413459778
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.26703542470932007,
	"epoch": 0.12,
	"grad_norm": 0.02367206113805114,
	"importance_ratio": 0.9910291433334351,
	"learning_rate": 5e-06,
	"loss": -0.0072,
	"mismatch_kl": 0.041237972676754,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 90,
	"timing/generation_ms": 12296.578384935856,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 12296.578384935856,
	"tokens/completion": 619.4375,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 123.89916157722473
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.5690855979919434,
	"epoch": 0.12133333333333333,
	"grad_norm": 0.030434949636985786,
	"importance_ratio": 0.9436249136924744,
	"learning_rate": 5e-06,
	"loss": 0.0044,
	"mismatch_kl": 0.4027661979198456,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 91,
	"timing/generation_ms": 17300.37511046976,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 17300.37511046976,
	"tokens/completion": 803.75,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 68.73723077774048
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.2795153260231018,
	"epoch": 0.12266666666666666,
	"grad_norm": 0.033606081779905164,
	"importance_ratio": 0.9910190105438232,
	"learning_rate": 5e-06,
	"loss": -0.0021,
	"mismatch_kl": 0.048360757529735565,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 92,
	"timing/generation_ms": 10146.174241788685,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 10146.174241788685,
	"tokens/completion": 409.20703125,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 115.50342917442322
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.25254565477371216,
	"epoch": 0.124,
	"grad_norm": 0.02170917112603325,
	"importance_ratio": 0.9928799867630005,
	"learning_rate": 5e-06,
	"loss": 0.0035,
	"mismatch_kl": 0.03083646297454834,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 93,
	"timing/generation_ms": 14904.53880932182,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 14904.53880932182,
	"tokens/completion": 689.578125,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 136.12913012504578
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.25149497389793396,
	"epoch": 0.12533333333333332,
	"grad_norm": 0.049807356598740776,
	"importance_ratio": 0.990451455116272,
	"learning_rate": 5e-06,
	"loss": -0.0058,
	"mismatch_kl": 0.03808113560080528,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 94,
	"timing/generation_ms": 8459.820285439491,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 8459.820285439491,
	"tokens/completion": 413.421875,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 34.11598253250122
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.21991755068302155,
	"epoch": 0.12666666666666668,
	"grad_norm": 0.02577498970131942,
	"importance_ratio": 0.9890254139900208,
	"learning_rate": 5e-06,
	"loss": -0.0012,
	"mismatch_kl": 0.05755931884050369,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 95,
	"timing/generation_ms": 5316.206902265549,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 5316.206902265549,
	"tokens/completion": 254.72265625,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 129.7372589111328
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.4472619593143463,
	"epoch": 0.128,
	"grad_norm": 0.040975406412791814,
	"importance_ratio": 0.9842396378517151,
	"learning_rate": 5e-06,
	"loss": -0.003,
	"mismatch_kl": 0.14270469546318054,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 96,
	"timing/generation_ms": 6448.528000153601,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 6448.528000153601,
	"tokens/completion": 303.2421875,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 152.90578722953796
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.24905133247375488,
	"epoch": 0.12933333333333333,
	"grad_norm": 0.0336787422018486,
	"importance_ratio": 0.9942489862442017,
	"learning_rate": 5e-06,
	"loss": -0.0073,
	"mismatch_kl": 0.03845536336302757,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 97,
	"timing/generation_ms": 10672.863409854472,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 10672.863409854472,
	"tokens/completion": 522.453125,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 58.958009481430054
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.37947529554367065,
	"epoch": 0.13066666666666665,
	"grad_norm": 0.03256153448253783,
	"importance_ratio": 0.9943234324455261,
	"learning_rate": 5e-06,
	"loss": -0.0033,
	"mismatch_kl": 0.0457632839679718,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 98,
	"timing/generation_ms": 7797.16813378036,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 7797.16813378036,
	"tokens/completion": 321.6484375,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 57.01115918159485
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.3295568525791168,
	"epoch": 0.132,
	"grad_norm": 0.025070691541196687,
	"importance_ratio": 0.9886187314987183,
	"learning_rate": 5e-06,
	"loss": 0.002,
	"mismatch_kl": 0.055542413145303726,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 99,
	"timing/generation_ms": 12520.016725175083,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 12520.016725175083,
	"tokens/completion": 560.515625,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 134.89474534988403
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.3819415867328644,
	"epoch": 0.13333333333333333,
	"grad_norm": 0.029430906337480585,
	"importance_ratio": 0.9973994493484497,
	"learning_rate": 5e-06,
	"loss": 0.0014,
	"mismatch_kl": 0.03809521347284317,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 100,
	"timing/generation_ms": 7522.873256355524,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 7522.873256355524,
	"tokens/completion": 381.24609375,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 42.47270226478577
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.3258141577243805,
	"epoch": 0.13466666666666666,
	"grad_norm": 0.06302493851707891,
	"importance_ratio": 0.995746374130249,
	"learning_rate": 5e-06,
	"loss": -0.0032,
	"mismatch_kl": 0.05126583203673363,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 101,
	"timing/generation_ms": 6897.25607726723,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 6897.25607726723,
	"tokens/completion": 331.53515625,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 101.3789484500885
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.8970124125480652,
	"epoch": 0.136,
	"grad_norm": 0.03515811902568956,
	"importance_ratio": 0.8364270925521851,
	"learning_rate": 5e-06,
	"loss": 0.0067,
	"mismatch_kl": 1.5947057008743286,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 102,
	"timing/generation_ms": 12960.892278701067,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 12960.892278701067,
	"tokens/completion": 679.25390625,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 92.91760039329529
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.2645859122276306,
	"epoch": 0.13733333333333334,
	"grad_norm": 0.03015986556668391,
	"importance_ratio": 0.9922869205474854,
	"learning_rate": 5e-06,
	"loss": -0.0033,
	"mismatch_kl": 0.032752275466918945,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 103,
	"timing/generation_ms": 12081.96578361094,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 12081.96578361094,
	"tokens/completion": 635.26171875,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 221.86856937408447
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.40493857860565186,
	"epoch": 0.13866666666666666,
	"grad_norm": 0.029340951142688608,
	"importance_ratio": 0.9976834058761597,
	"learning_rate": 5e-06,
	"loss": -0.0075,
	"mismatch_kl": 0.039802681654691696,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 104,
	"timing/generation_ms": 8452.124254778028,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 8452.124254778028,
	"tokens/completion": 392.85546875,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 78.09920930862427
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.42381417751312256,
	"epoch": 0.14,
	"grad_norm": 0.03251134797029109,
	"importance_ratio": 0.9939345121383667,
	"learning_rate": 5e-06,
	"loss": -0.0025,
	"mismatch_kl": 0.045791786164045334,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 105,
	"timing/generation_ms": 11178.499449044466,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 11178.499449044466,
	"tokens/completion": 480.08984375,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 36.62562108039856
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.2739037871360779,
	"epoch": 0.14133333333333334,
	"grad_norm": 0.0476499263024248,
	"importance_ratio": 0.9929625988006592,
	"learning_rate": 5e-06,
	"loss": -0.0024,
	"mismatch_kl": 0.036298882216215134,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 106,
	"timing/generation_ms": 10698.151003569365,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 10698.151003569365,
	"tokens/completion": 521.33203125,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 130.2317771911621
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.2831694781780243,
	"epoch": 0.14266666666666666,
	"grad_norm": 0.048559683162439526,
	"importance_ratio": 0.9895249605178833,
	"learning_rate": 5e-06,
	"loss": -0.0018,
	"mismatch_kl": 0.04853809252381325,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 107,
	"timing/generation_ms": 10670.390761457384,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 10670.390761457384,
	"tokens/completion": 504.16015625,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 154.62130737304688
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.4273696541786194,
	"epoch": 0.144,
	"grad_norm": 0.04246003800252577,
	"importance_ratio": 0.9897579550743103,
	"learning_rate": 5e-06,
	"loss": -0.0004,
	"mismatch_kl": 0.05487997457385063,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 108,
	"timing/generation_ms": 5255.264617502689,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 5255.264617502689,
	"tokens/completion": 253.4296875,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 62.357131004333496
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.3309624195098877,
	"epoch": 0.14533333333333334,
	"grad_norm": 0.020612894864024223,
	"importance_ratio": 0.994171679019928,
	"learning_rate": 5e-06,
	"loss": 0.004,
	"mismatch_kl": 0.028750188648700714,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 109,
	"timing/generation_ms": 17462.82579470426,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 17462.82579470426,
	"tokens/completion": 909.28515625,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 84.52479147911072
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.45720767974853516,
	"epoch": 0.14666666666666667,
	"grad_norm": 0.048825755999723545,
	"importance_ratio": 0.9917762279510498,
	"learning_rate": 5e-06,
	"loss": -0.003,
	"mismatch_kl": 0.03884867951273918,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 110,
	"timing/generation_ms": 10527.64255553484,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 10527.64255553484,
	"tokens/completion": 457.21875,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 118.98395490646362
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.3448692262172699,
	"epoch": 0.148,
	"grad_norm": 0.02391536511668303,
	"importance_ratio": 0.9938703775405884,
	"learning_rate": 5e-06,
	"loss": -0.0118,
	"mismatch_kl": 0.03092486597597599,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 111,
	"timing/generation_ms": 11426.006315276027,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 11426.006315276027,
	"tokens/completion": 603.828125,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 44.38506889343262
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.4210182726383209,
	"epoch": 0.14933333333333335,
	"grad_norm": 0.017744426750614804,
	"importance_ratio": 0.9841266870498657,
	"learning_rate": 5e-06,
	"loss": 0.0031,
	"mismatch_kl": 0.15376684069633484,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 112,
	"timing/generation_ms": 15345.524672418833,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 15345.524672418833,
	"tokens/completion": 679.61328125,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 77.3697247505188
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.3890233039855957,
	"epoch": 0.15066666666666667,
	"grad_norm": 0.042319164028374844,
	"importance_ratio": 0.9905653595924377,
	"learning_rate": 5e-06,
	"loss": -0.0067,
	"mismatch_kl": 0.03776917979121208,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 113,
	"timing/generation_ms": 8361.73670180142,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 8361.73670180142,
	"tokens/completion": 386.69921875,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 33.98000693321228
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.3506433963775635,
	"epoch": 0.152,
	"grad_norm": 0.022347419652582003,
	"importance_ratio": 0.9932938814163208,
	"learning_rate": 5e-06,
	"loss": -0.0024,
	"mismatch_kl": 0.03900053724646568,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 114,
	"timing/generation_ms": 10107.008518651128,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 10107.008518651128,
	"tokens/completion": 531.8671875,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 156.0705955028534
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.28853052854537964,
	"epoch": 0.15333333333333332,
	"grad_norm": 0.02467560875646059,
	"importance_ratio": 0.9956313967704773,
	"learning_rate": 5e-06,
	"loss": -0.0077,
	"mismatch_kl": 0.021128181368112564,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 115,
	"timing/generation_ms": 13438.352120108902,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 13438.352120108902,
	"tokens/completion": 638.3359375,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 51.55745196342468
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.5352842807769775,
	"epoch": 0.15466666666666667,
	"grad_norm": 0.0500581678773726,
	"importance_ratio": 0.9921436905860901,
	"learning_rate": 5e-06,
	"loss": -0.0035,
	"mismatch_kl": 0.0745246633887291,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 116,
	"timing/generation_ms": 6379.514851607382,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 6379.514851607382,
	"tokens/completion": 304.5625,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 38.366251945495605
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.36106666922569275,
	"epoch": 0.156,
	"grad_norm": 0.063234851546128,
	"importance_ratio": 0.9977811574935913,
	"learning_rate": 5e-06,
	"loss": -0.0007,
	"mismatch_kl": 0.029981082305312157,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 117,
	"timing/generation_ms": 7269.031744450331,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 7269.031744450331,
	"tokens/completion": 359.06640625,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 27.440030097961426
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.3367100656032562,
	"epoch": 0.15733333333333333,
	"grad_norm": 0.059808565066134974,
	"importance_ratio": 0.988777220249176,
	"learning_rate": 5e-06,
	"loss": -0.0044,
	"mismatch_kl": 0.044747766107320786,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 118,
	"timing/generation_ms": 9969.640973955393,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 9969.640973955393,
	"tokens/completion": 485.625,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 82.32884860038757
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.35986092686653137,
	"epoch": 0.15866666666666668,
	"grad_norm": 0.020285418443392603,
	"importance_ratio": 0.9924752116203308,
	"learning_rate": 5e-06,
	"loss": 0.0042,
	"mismatch_kl": 0.031399309635162354,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 119,
	"timing/generation_ms": 15499.55965206027,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 15499.55965206027,
	"tokens/completion": 796.76171875,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 56.515456199645996
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.40867432951927185,
	"epoch": 0.16,
	"grad_norm": 0.018892048843934344,
	"importance_ratio": 0.9954840540885925,
	"learning_rate": 5e-06,
	"loss": -0.0094,
	"mismatch_kl": 0.030410781502723694,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 120,
	"timing/generation_ms": 13046.93166166544,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 13046.93166166544,
	"tokens/completion": 672.06640625,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 51.22301483154297
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.25322413444519043,
	"epoch": 0.16133333333333333,
	"grad_norm": 0.019402594506856746,
	"importance_ratio": 0.9968504309654236,
	"learning_rate": 5e-06,
	"loss": -0.0018,
	"mismatch_kl": 0.020855166018009186,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 121,
	"timing/generation_ms": 33212.274321354926,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 33212.274321354926,
	"tokens/completion": 1494.39453125,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 196.6885223388672
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.3203243613243103,
	"epoch": 0.16266666666666665,
	"grad_norm": 0.016032102577421704,
	"importance_ratio": 0.9980469942092896,
	"learning_rate": 5e-06,
	"loss": -0.0013,
	"mismatch_kl": 0.01909617707133293,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 122,
	"timing/generation_ms": 21461.640139110386,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 21461.640139110386,
	"tokens/completion": 1059.1953125,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 84.59676575660706
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.5010811686515808,
	"epoch": 0.164,
	"grad_norm": 0.02848759848639813,
	"importance_ratio": 1.0016131401062012,
	"learning_rate": 5e-06,
	"loss": -0.0097,
	"mismatch_kl": 0.02760869450867176,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 123,
	"timing/generation_ms": 9319.45723388344,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 9319.45723388344,
	"tokens/completion": 433.1015625,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 36.64540505409241
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.4700590968132019,
	"epoch": 0.16533333333333333,
	"grad_norm": 0.025031920446653932,
	"importance_ratio": 0.9973174929618835,
	"learning_rate": 5e-06,
	"loss": -0.0072,
	"mismatch_kl": 0.03977029770612717,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 124,
	"timing/generation_ms": 9967.066356912255,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 9967.066356912255,
	"tokens/completion": 478.1328125,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 137.7500193119049
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.4410494863986969,
	"epoch": 0.16666666666666666,
	"grad_norm": 0.02102977498791798,
	"importance_ratio": 0.9927030801773071,
	"learning_rate": 5e-06,
	"loss": -0.0044,
	"mismatch_kl": 0.05027690902352333,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 125,
	"timing/generation_ms": 13226.7307927832,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 13226.7307927832,
	"tokens/completion": 666.65234375,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 119.67769002914429
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.2941017150878906,
	"epoch": 0.168,
	"grad_norm": 0.01764622195762912,
	"importance_ratio": 0.9970736503601074,
	"learning_rate": 5e-06,
	"loss": -0.0039,
	"mismatch_kl": 0.025975050404667854,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 126,
	"timing/generation_ms": 30093.59989501536,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 30093.59989501536,
	"tokens/completion": 1403.23046875,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 111.32783484458923
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.37822288274765015,
	"epoch": 0.16933333333333334,
	"grad_norm": 0.03205413439415866,
	"importance_ratio": 0.9921689629554749,
	"learning_rate": 5e-06,
	"loss": -0.0015,
	"mismatch_kl": 0.10021175444126129,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 127,
	"timing/generation_ms": 25918.55046711862,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 25918.55046711862,
	"tokens/completion": 1132.37890625,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 101.07530164718628
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.46506795287132263,
	"epoch": 0.17066666666666666,
	"grad_norm": 0.026459518059964743,
	"importance_ratio": 0.995638906955719,
	"learning_rate": 5e-06,
	"loss": -0.0065,
	"mismatch_kl": 0.03533043712377548,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 128,
	"timing/generation_ms": 8870.356048457325,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 8870.356048457325,
	"tokens/completion": 477.8046875,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 41.62081718444824
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.4616319537162781,
	"epoch": 0.172,
	"grad_norm": 0.029689428333274717,
	"importance_ratio": 0.992743194103241,
	"learning_rate": 5e-06,
	"loss": -0.0116,
	"mismatch_kl": 0.043640002608299255,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 129,
	"timing/generation_ms": 17582.845278084278,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 17582.845278084278,
	"tokens/completion": 896.60546875,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 103.23663401603699
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.318230539560318,
	"epoch": 0.17333333333333334,
	"grad_norm": 0.021848886677287266,
	"importance_ratio": 1.0002652406692505,
	"learning_rate": 5e-06,
	"loss": -0.0028,
	"mismatch_kl": 0.032250385731458664,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 130,
	"timing/generation_ms": 12501.79857108742,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 12501.79857108742,
	"tokens/completion": 636.82421875,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 46.11354732513428
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.2867668569087982,
	"epoch": 0.17466666666666666,
	"grad_norm": 0.0152850963716213,
	"importance_ratio": 0.9975439310073853,
	"learning_rate": 5e-06,
	"loss": 0.0004,
	"mismatch_kl": 0.03095307946205139,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 131,
	"timing/generation_ms": 21872.447106055915,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 21872.447106055915,
	"tokens/completion": 1016.09765625,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 75.5360016822815
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.6940531134605408,
	"epoch": 0.176,
	"grad_norm": 0.027620607135447624,
	"importance_ratio": 0.9872549176216125,
	"learning_rate": 5e-06,
	"loss": 0.0013,
	"mismatch_kl": 0.14033383131027222,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 132,
	"timing/generation_ms": 11405.475388281047,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 11405.475388281047,
	"tokens/completion": 487.51953125,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 55.63127040863037
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.36297503113746643,
	"epoch": 0.17733333333333334,
	"grad_norm": 0.029171908888413572,
	"importance_ratio": 0.9953750967979431,
	"learning_rate": 5e-06,
	"loss": -0.0051,
	"mismatch_kl": 0.035398464649915695,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 133,
	"timing/generation_ms": 17919.221241027117,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 17919.221241027117,
	"tokens/completion": 900.453125,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 170.36363244056702
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.2939022481441498,
	"epoch": 0.17866666666666667,
	"grad_norm": 0.02565678896444847,
	"importance_ratio": 0.99770587682724,
	"learning_rate": 5e-06,
	"loss": -0.0013,
	"mismatch_kl": 0.019702836871147156,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 134,
	"timing/generation_ms": 26027.854280546308,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 26027.854280546308,
	"tokens/completion": 1189.94921875,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 208.00876903533936
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.27582186460494995,
	"epoch": 0.18,
	"grad_norm": 0.025995432419046362,
	"importance_ratio": 0.9993173480033875,
	"learning_rate": 5e-06,
	"loss": 0.0001,
	"mismatch_kl": 0.023949675261974335,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 135,
	"timing/generation_ms": 19027.399071492255,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 19027.399071492255,
	"tokens/completion": 910.98828125,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 69.73441195487976
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.31243762373924255,
	"epoch": 0.18133333333333335,
	"grad_norm": 0.021978924242567442,
	"importance_ratio": 0.9992286562919617,
	"learning_rate": 5e-06,
	"loss": -0.0016,
	"mismatch_kl": 0.024040305987000465,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 136,
	"timing/generation_ms": 14330.211003310978,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 14330.211003310978,
	"tokens/completion": 671.7265625,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 53.44596743583679
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.24772067368030548,
	"epoch": 0.18266666666666667,
	"grad_norm": 0.022707662268209423,
	"importance_ratio": 0.9990280866622925,
	"learning_rate": 5e-06,
	"loss": -0.0023,
	"mismatch_kl": 0.022532925009727478,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 137,
	"timing/generation_ms": 35249.2256751284,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 35249.2256751284,
	"tokens/completion": 1598.390625,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 216.32258987426758
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.38041970133781433,
	"epoch": 0.184,
	"grad_norm": 0.046110003811864524,
	"importance_ratio": 0.9846709370613098,
	"learning_rate": 5e-06,
	"loss": -0.0024,
	"mismatch_kl": 0.1807573288679123,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 138,
	"timing/generation_ms": 10808.89296438545,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 10808.89296438545,
	"tokens/completion": 505.0625,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 72.23299145698547
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.3362736403942108,
	"epoch": 0.18533333333333332,
	"grad_norm": 0.057037876570506886,
	"importance_ratio": 0.9923868179321289,
	"learning_rate": 5e-06,
	"loss": 0.0033,
	"mismatch_kl": 0.0626266598701477,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 139,
	"timing/generation_ms": 8591.852098703384,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 8591.852098703384,
	"tokens/completion": 445.6875,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 83.33036708831787
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.2598806321620941,
	"epoch": 0.18666666666666668,
	"grad_norm": 0.021433898880701664,
	"importance_ratio": 0.9913464784622192,
	"learning_rate": 5e-06,
	"loss": 0.0022,
	"mismatch_kl": 0.04193839803338051,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 140,
	"timing/generation_ms": 22836.472398601472,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 22836.472398601472,
	"tokens/completion": 1069.79296875,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 123.7300488948822
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.27669745683670044,
	"epoch": 0.188,
	"grad_norm": 0.040287051430344514,
	"importance_ratio": 0.9890030026435852,
	"learning_rate": 5e-06,
	"loss": 0.0006,
	"mismatch_kl": 0.03683684393763542,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 141,
	"timing/generation_ms": 22967.52266585827,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 22967.52266585827,
	"tokens/completion": 1105.08203125,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 119.94411706924438
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.32473960518836975,
	"epoch": 0.18933333333333333,
	"grad_norm": 0.03235428789871377,
	"importance_ratio": 0.9974983334541321,
	"learning_rate": 5e-06,
	"loss": 0.0005,
	"mismatch_kl": 0.021878903731703758,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 142,
	"timing/generation_ms": 20083.584303036332,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 20083.584303036332,
	"tokens/completion": 1026.375,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 182.45814514160156
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.32302016019821167,
	"epoch": 0.19066666666666668,
	"grad_norm": 0.02364068100843913,
	"importance_ratio": 1.000141978263855,
	"learning_rate": 5e-06,
	"loss": 0.0026,
	"mismatch_kl": 0.027520477771759033,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 143,
	"timing/generation_ms": 13226.199164055288,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 13226.199164055288,
	"tokens/completion": 630.8828125,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 68.72126913070679
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.4063912034034729,
	"epoch": 0.192,
	"grad_norm": 0.016855205380348858,
	"importance_ratio": 0.9972877502441406,
	"learning_rate": 5e-06,
	"loss": -0.0044,
	"mismatch_kl": 0.02402544766664505,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 144,
	"timing/generation_ms": 18624.562999233603,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 18624.562999233603,
	"tokens/completion": 916.34765625,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 63.37579298019409
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.3544447124004364,
	"epoch": 0.19333333333333333,
	"grad_norm": 0.03420133721717633,
	"importance_ratio": 0.9964665174484253,
	"learning_rate": 5e-06,
	"loss": -0.0075,
	"mismatch_kl": 0.020806703716516495,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 145,
	"timing/generation_ms": 18501.724537461996,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 18501.724537461996,
	"tokens/completion": 914.03515625,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 63.586211919784546
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.31913280487060547,
	"epoch": 0.19466666666666665,
	"grad_norm": 0.025814291552238237,
	"importance_ratio": 0.9976394176483154,
	"learning_rate": 5e-06,
	"loss": -0.0017,
	"mismatch_kl": 0.02318250946700573,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 146,
	"timing/generation_ms": 17320.88227570057,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 17320.88227570057,
	"tokens/completion": 802.69921875,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 161.1075360774994
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.3060760796070099,
	"epoch": 0.196,
	"grad_norm": 0.024041285955131858,
	"importance_ratio": 0.9983845353126526,
	"learning_rate": 5e-06,
	"loss": -0.0044,
	"mismatch_kl": 0.021491888910531998,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 147,
	"timing/generation_ms": 20764.05915338546,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 20764.05915338546,
	"tokens/completion": 1029.03125,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 80.10747575759888
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.4907422661781311,
	"epoch": 0.19733333333333333,
	"grad_norm": 0.01969056173140591,
	"importance_ratio": 0.9921115040779114,
	"learning_rate": 5e-06,
	"loss": 0.0019,
	"mismatch_kl": 0.09054939448833466,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 148,
	"timing/generation_ms": 14571.548252366483,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 14571.548252366483,
	"tokens/completion": 646.578125,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 94.1196072101593
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.2544015944004059,
	"epoch": 0.19866666666666666,
	"grad_norm": 0.020070961466503938,
	"importance_ratio": 0.998515784740448,
	"learning_rate": 5e-06,
	"loss": -0.0002,
	"mismatch_kl": 0.019744453951716423,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 149,
	"timing/generation_ms": 23987.087721936405,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 23987.087721936405,
	"tokens/completion": 1105.234375,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 87.52198696136475
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.28248143196105957,
	"epoch": 0.2,
	"grad_norm": 0.0191634545508177,
	"importance_ratio": 0.9957163333892822,
	"learning_rate": 5e-06,
	"loss": -0.004,
	"mismatch_kl": 0.018821164965629578,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 150,
	"timing/generation_ms": 20559.32307895273,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 20559.32307895273,
	"tokens/completion": 1016.2265625,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 131.24922895431519
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.4225759208202362,
	"epoch": 0.20133333333333334,
	"grad_norm": 0.01854881603951969,
	"importance_ratio": 0.9962813854217529,
	"learning_rate": 5e-06,
	"loss": -0.0017,
	"mismatch_kl": 0.025664212182164192,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 151,
	"timing/generation_ms": 22859.651166945696,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 22859.651166945696,
	"tokens/completion": 1112.96484375,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 170.4989137649536
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.2856869399547577,
	"epoch": 0.20266666666666666,
	"grad_norm": 0.018394448039889547,
	"importance_ratio": 0.9985631704330444,
	"learning_rate": 5e-06,
	"loss": -0.0018,
	"mismatch_kl": 0.024066420271992683,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 152,
	"timing/generation_ms": 37744.059775955975,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 37744.059775955975,
	"tokens/completion": 1768.79296875,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 248.44115471839905
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.2514509856700897,
	"epoch": 0.204,
	"grad_norm": 0.023912470711877663,
	"importance_ratio": 0.9981127381324768,
	"learning_rate": 5e-06,
	"loss": -0.0029,
	"mismatch_kl": 0.020759448409080505,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 153,
	"timing/generation_ms": 25985.86314264685,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 25985.86314264685,
	"tokens/completion": 1309.546875,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 143.50284838676453
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.30002838373184204,
	"epoch": 0.20533333333333334,
	"grad_norm": 0.018497092206319014,
	"importance_ratio": 0.9994171857833862,
	"learning_rate": 5e-06,
	"loss": -0.0022,
	"mismatch_kl": 0.015115631744265556,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 154,
	"timing/generation_ms": 20836.18642948568,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 20836.18642948568,
	"tokens/completion": 972.66796875,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 112.54808211326599
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.3808918297290802,
	"epoch": 0.20666666666666667,
	"grad_norm": 0.014750747901418159,
	"importance_ratio": 0.9998784065246582,
	"learning_rate": 5e-06,
	"loss": -0.0023,
	"mismatch_kl": 0.0203760527074337,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 155,
	"timing/generation_ms": 28712.269487790763,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 28712.269487790763,
	"tokens/completion": 1384.42578125,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 116.96515583992004
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.404234915971756,
	"epoch": 0.208,
	"grad_norm": 0.02774018143964054,
	"importance_ratio": 0.9903627038002014,
	"learning_rate": 5e-06,
	"loss": 0.0022,
	"mismatch_kl": 0.09949617087841034,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 156,
	"timing/generation_ms": 15220.996337942779,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 15220.996337942779,
	"tokens/completion": 733.44921875,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 80.95505475997925
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.2150656282901764,
	"epoch": 0.20933333333333334,
	"grad_norm": 0.012574265789504322,
	"importance_ratio": 0.9968655109405518,
	"learning_rate": 5e-06,
	"loss": -0.0043,
	"mismatch_kl": 0.01895724982023239,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 157,
	"timing/generation_ms": 46771.82784862816,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 46771.82784862816,
	"tokens/completion": 2055.46875,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 183.42079520225525
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.2713158428668976,
	"epoch": 0.21066666666666667,
	"grad_norm": 0.03512934826143982,
	"importance_ratio": 0.9985222220420837,
	"learning_rate": 5e-06,
	"loss": -0.0028,
	"mismatch_kl": 0.01624884642660618,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 158,
	"timing/generation_ms": 20947.266034781933,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 20947.266034781933,
	"tokens/completion": 1009.90234375,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 87.24977517127991
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.32832008600234985,
	"epoch": 0.212,
	"grad_norm": 0.02405397079489038,
	"importance_ratio": 0.9991105198860168,
	"learning_rate": 5e-06,
	"loss": -0.0056,
	"mismatch_kl": 0.016867484897375107,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 159,
	"timing/generation_ms": 21430.58088142425,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 21430.58088142425,
	"tokens/completion": 1012.43359375,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 87.2035722732544
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.32067254185676575,
	"epoch": 0.21333333333333335,
	"grad_norm": 0.030583585605830663,
	"importance_ratio": 1.0010290145874023,
	"learning_rate": 5e-06,
	"loss": 0.0029,
	"mismatch_kl": 0.01957845501601696,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 160,
	"timing/generation_ms": 12068.631175905466,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 12068.631175905466,
	"tokens/completion": 585.69921875,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 46.4997832775116
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.20440350472927094,
	"epoch": 0.21466666666666667,
	"grad_norm": 0.009198384471964699,
	"importance_ratio": 0.9953656196594238,
	"learning_rate": 5e-06,
	"loss": -0.0052,
	"mismatch_kl": 0.024851609021425247,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 161,
	"timing/generation_ms": 64061.363669112325,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 64061.363669112325,
	"tokens/completion": 2746.5390625,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 252.9020836353302
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.2289305031299591,
	"epoch": 0.216,
	"grad_norm": 0.017027620442399836,
	"importance_ratio": 0.9964645504951477,
	"learning_rate": 5e-06,
	"loss": 0.0005,
	"mismatch_kl": 0.02016555331647396,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 162,
	"timing/generation_ms": 29072.1739763394,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 29072.1739763394,
	"tokens/completion": 1294.0546875,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 187.8606402873993
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.23871932923793793,
	"epoch": 0.21733333333333332,
	"grad_norm": 0.026046585403665903,
	"importance_ratio": 0.998152494430542,
	"learning_rate": 5e-06,
	"loss": 0.0052,
	"mismatch_kl": 0.016869615763425827,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 163,
	"timing/generation_ms": 33103.609337471426,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 33103.609337471426,
	"tokens/completion": 1545.50390625,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 139.85770416259766
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.28158116340637207,
	"epoch": 0.21866666666666668,
	"grad_norm": 0.015259806348832568,
	"importance_ratio": 0.9982590079307556,
	"learning_rate": 5e-06,
	"loss": -0.0053,
	"mismatch_kl": 0.022746765986084938,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 164,
	"timing/generation_ms": 26944.41274832934,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 26944.41274832934,
	"tokens/completion": 1337.65625,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 109.10997653007507
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.3031062185764313,
	"epoch": 0.22,
	"grad_norm": 0.016960115464425836,
	"importance_ratio": 0.9974260926246643,
	"learning_rate": 5e-06,
	"loss": -0.0023,
	"mismatch_kl": 0.02418132871389389,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 165,
	"timing/generation_ms": 26665.55192042142,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 26665.55192042142,
	"tokens/completion": 1298.09765625,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 233.19409203529358
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.30360692739486694,
	"epoch": 0.22133333333333333,
	"grad_norm": 0.03976443826488329,
	"importance_ratio": 0.9983341097831726,
	"learning_rate": 5e-06,
	"loss": -0.0064,
	"mismatch_kl": 0.02314077690243721,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 166,
	"timing/generation_ms": 14128.881074488163,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 14128.881074488163,
	"tokens/completion": 701.61328125,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 55.524725914001465
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.2678433656692505,
	"epoch": 0.22266666666666668,
	"grad_norm": 0.03342438517457818,
	"importance_ratio": 0.9922596216201782,
	"learning_rate": 5e-06,
	"loss": -0.0023,
	"mismatch_kl": 0.035250429064035416,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 167,
	"timing/generation_ms": 21135.669719427824,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 21135.669719427824,
	"tokens/completion": 1019.171875,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 149.8279891014099
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.20458683371543884,
	"epoch": 0.224,
	"grad_norm": 0.022088093083212943,
	"importance_ratio": 0.9954257011413574,
	"learning_rate": 5e-06,
	"loss": -0.0018,
	"mismatch_kl": 0.023710263893008232,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 168,
	"timing/generation_ms": 59294.02190912515,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 59294.02190912515,
	"tokens/completion": 2536.8828125,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 207.61119556427002
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.4547651410102844,
	"epoch": 0.22533333333333333,
	"grad_norm": 0.03804278639742813,
	"importance_ratio": 0.9720731973648071,
	"learning_rate": 5e-06,
	"loss": 0.0026,
	"mismatch_kl": 0.2540355324745178,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 169,
	"timing/generation_ms": 14632.340895012021,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 14632.340895012021,
	"tokens/completion": 634.8203125,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 66.74064421653748
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.26701289415359497,
	"epoch": 0.22666666666666666,
	"grad_norm": 0.03041084967586165,
	"importance_ratio": 0.9971191883087158,
	"learning_rate": 5e-06,
	"loss": -0.0024,
	"mismatch_kl": 0.02894790843129158,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 170,
	"timing/generation_ms": 21908.162399195135,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 21908.162399195135,
	"tokens/completion": 1060.19140625,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 285.11374616622925
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.3831964433193207,
	"epoch": 0.228,
	"grad_norm": 0.020277373003486452,
	"importance_ratio": 0.9703661799430847,
	"learning_rate": 5e-06,
	"loss": -0.0013,
	"mismatch_kl": 0.288127064704895,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 171,
	"timing/generation_ms": 21739.85463846475,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 21739.85463846475,
	"tokens/completion": 1042.390625,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 126.53577995300293
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.3104299008846283,
	"epoch": 0.22933333333333333,
	"grad_norm": 0.05268300034795112,
	"importance_ratio": 0.9946843981742859,
	"learning_rate": 5e-06,
	"loss": -0.0045,
	"mismatch_kl": 0.028223995119333267,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 172,
	"timing/generation_ms": 18181.49754870683,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 18181.49754870683,
	"tokens/completion": 876.87890625,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 102.08800101280212
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.32149240374565125,
	"epoch": 0.23066666666666666,
	"grad_norm": 0.019198595379338976,
	"importance_ratio": 0.9882834553718567,
	"learning_rate": 5e-06,
	"loss": 0.0031,
	"mismatch_kl": 0.09531966596841812,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 173,
	"timing/generation_ms": 26753.23315896094,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 26753.23315896094,
	"tokens/completion": 1199.828125,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 243.50505256652832
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.2507164180278778,
	"epoch": 0.232,
	"grad_norm": 0.0248134202199756,
	"importance_ratio": 0.9970893263816833,
	"learning_rate": 5e-06,
	"loss": -0.0063,
	"mismatch_kl": 0.033440057188272476,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 174,
	"timing/generation_ms": 32734.658079221845,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 32734.658079221845,
	"tokens/completion": 1582.765625,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 236.81393718719482
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.2938965857028961,
	"epoch": 0.23333333333333334,
	"grad_norm": 0.023295024031541062,
	"importance_ratio": 0.9996641874313354,
	"learning_rate": 5e-06,
	"loss": -0.0014,
	"mismatch_kl": 0.030382564291357994,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 175,
	"timing/generation_ms": 18484.799866564572,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 18484.799866564572,
	"tokens/completion": 869.8203125,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 89.94726347923279
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.24128344655036926,
	"epoch": 0.23466666666666666,
	"grad_norm": 0.021681137287839845,
	"importance_ratio": 0.995689868927002,
	"learning_rate": 5e-06,
	"loss": -0.0024,
	"mismatch_kl": 0.025076182559132576,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 176,
	"timing/generation_ms": 16699.054242111742,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 16699.054242111742,
	"tokens/completion": 831.890625,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 76.11790347099304
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.26724985241889954,
	"epoch": 0.236,
	"grad_norm": 0.015254325506305103,
	"importance_ratio": 0.992223858833313,
	"learning_rate": 5e-06,
	"loss": -0.0003,
	"mismatch_kl": 0.02879425697028637,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 177,
	"timing/generation_ms": 30596.904239617288,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 30596.904239617288,
	"tokens/completion": 1407.20703125,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 199.58447432518005
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.28972604870796204,
	"epoch": 0.23733333333333334,
	"grad_norm": 0.01945907676336341,
	"importance_ratio": 0.9937379956245422,
	"learning_rate": 5e-06,
	"loss": -0.0002,
	"mismatch_kl": 0.026391636580228806,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 178,
	"timing/generation_ms": 22168.457314372063,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 22168.457314372063,
	"tokens/completion": 1017.8515625,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 198.82207107543945
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.2955513298511505,
	"epoch": 0.23866666666666667,
	"grad_norm": 0.034061359790196394,
	"importance_ratio": 0.9955794811248779,
	"learning_rate": 5e-06,
	"loss": -0.0017,
	"mismatch_kl": 0.026111198589205742,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 179,
	"timing/generation_ms": 17585.104428231716,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 17585.104428231716,
	"tokens/completion": 836.7421875,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 98.93776655197144
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.33897051215171814,
	"epoch": 0.24,
	"grad_norm": 0.026732099750916328,
	"importance_ratio": 0.9968024492263794,
	"learning_rate": 5e-06,
	"loss": -0.0016,
	"mismatch_kl": 0.03142106905579567,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 180,
	"timing/generation_ms": 14579.319617711008,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 14579.319617711008,
	"tokens/completion": 657.60546875,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 48.83777070045471
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.27722474932670593,
	"epoch": 0.24133333333333334,
	"grad_norm": 0.02190113915349276,
	"importance_ratio": 0.9932956099510193,
	"learning_rate": 5e-06,
	"loss": -0.0039,
	"mismatch_kl": 0.039353836327791214,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 181,
	"timing/generation_ms": 16838.846164755523,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 16838.846164755523,
	"tokens/completion": 837.53125,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 90.39262366294861
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.21952733397483826,
	"epoch": 0.24266666666666667,
	"grad_norm": 0.019030162680243098,
	"importance_ratio": 0.9920942783355713,
	"learning_rate": 5e-06,
	"loss": 0.0007,
	"mismatch_kl": 0.03863741457462311,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 182,
	"timing/generation_ms": 19943.43529921025,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 19943.43529921025,
	"tokens/completion": 959.51953125,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 68.7491762638092
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.37819504737854004,
	"epoch": 0.244,
	"grad_norm": 0.030600275992650774,
	"importance_ratio": 0.9981564879417419,
	"learning_rate": 5e-06,
	"loss": -0.0061,
	"mismatch_kl": 0.0258224718272686,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 183,
	"timing/generation_ms": 19337.73651625961,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 19337.73651625961,
	"tokens/completion": 909.80078125,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 67.45709013938904
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.24391266703605652,
	"epoch": 0.24533333333333332,
	"grad_norm": 0.020045952746227204,
	"importance_ratio": 0.9952253103256226,
	"learning_rate": 5e-06,
	"loss": -0.0035,
	"mismatch_kl": 0.022540580481290817,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 184,
	"timing/generation_ms": 29042.017024941742,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 29042.017024941742,
	"tokens/completion": 1416.3046875,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 224.1438853740692
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.2780689597129822,
	"epoch": 0.24666666666666667,
	"grad_norm": 0.0286906981880458,
	"importance_ratio": 0.9939864277839661,
	"learning_rate": 5e-06,
	"loss": 0.0002,
	"mismatch_kl": 0.028331460431218147,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 185,
	"timing/generation_ms": 13990.399835631251,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 13990.399835631251,
	"tokens/completion": 712.27734375,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 65.08906888961792
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.2785170078277588,
	"epoch": 0.248,
	"grad_norm": 0.019455372327007777,
	"importance_ratio": 0.9962543249130249,
	"learning_rate": 5e-06,
	"loss": 0.0021,
	"mismatch_kl": 0.030258335173130035,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 186,
	"timing/generation_ms": 29046.93407472223,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 29046.93407472223,
	"tokens/completion": 1342.078125,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 117.269207239151
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.29877498745918274,
	"epoch": 0.24933333333333332,
	"grad_norm": 0.041522981103745076,
	"importance_ratio": 0.9973271489143372,
	"learning_rate": 5e-06,
	"loss": 0.0005,
	"mismatch_kl": 0.027791054919362068,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 187,
	"timing/generation_ms": 27519.34172678739,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 27519.34172678739,
	"tokens/completion": 1335.86328125,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 109.74448680877686
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.2548399567604065,
	"epoch": 0.25066666666666665,
	"grad_norm": 0.01914209458227723,
	"importance_ratio": 0.9980031251907349,
	"learning_rate": 5e-06,
	"loss": -0.0056,
	"mismatch_kl": 0.023154988884925842,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 188,
	"timing/generation_ms": 18434.748891741037,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 18434.748891741037,
	"tokens/completion": 841.21484375,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 100.93693470954895
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.36281952261924744,
	"epoch": 0.252,
	"grad_norm": 0.04366345528631447,
	"importance_ratio": 0.997806966304779,
	"learning_rate": 5e-06,
	"loss": -0.0104,
	"mismatch_kl": 0.0235320795327425,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 189,
	"timing/generation_ms": 25268.099238164723,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 25268.099238164723,
	"tokens/completion": 1256.1484375,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 102.91489505767822
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.22508475184440613,
	"epoch": 0.25333333333333335,
	"grad_norm": 0.01385345071504184,
	"importance_ratio": 0.9968878626823425,
	"learning_rate": 5e-06,
	"loss": -0.0107,
	"mismatch_kl": 0.02765449695289135,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 190,
	"timing/generation_ms": 37916.601489298046,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 37916.601489298046,
	"tokens/completion": 1717.34765625,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 139.42678880691528
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.40229278802871704,
	"epoch": 0.25466666666666665,
	"grad_norm": 0.02875613000959139,
	"importance_ratio": 0.9828155040740967,
	"learning_rate": 5e-06,
	"loss": 0.0055,
	"mismatch_kl": 0.19772163033485413,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 191,
	"timing/generation_ms": 32680.235791951418,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 32680.235791951418,
	"tokens/completion": 1459.58203125,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 144.90490436553955
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.2181045562028885,
	"epoch": 0.256,
	"grad_norm": 0.019693707478772454,
	"importance_ratio": 0.9942646026611328,
	"learning_rate": 5e-06,
	"loss": 0.0029,
	"mismatch_kl": 0.03511533513665199,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 192,
	"timing/generation_ms": 36065.32556284219,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 36065.32556284219,
	"tokens/completion": 1708.7734375,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 126.33067202568054
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.2962771952152252,
	"epoch": 0.25733333333333336,
	"grad_norm": 0.02416381381264868,
	"importance_ratio": 0.9941651821136475,
	"learning_rate": 5e-06,
	"loss": 0.0024,
	"mismatch_kl": 0.0343640111386776,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 193,
	"timing/generation_ms": 36326.69063284993,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 36326.69063284993,
	"tokens/completion": 1645.30859375,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 146.5855736732483
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.22655896842479706,
	"epoch": 0.25866666666666666,
	"grad_norm": 0.024160165001251035,
	"importance_ratio": 0.995488166809082,
	"learning_rate": 5e-06,
	"loss": 0.0023,
	"mismatch_kl": 0.023622261360287666,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 194,
	"timing/generation_ms": 40274.337109178305,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 40274.337109178305,
	"tokens/completion": 1910.0,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 137.63950419425964
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.24619098007678986,
	"epoch": 0.26,
	"grad_norm": 0.008997397579246655,
	"importance_ratio": 0.9905009865760803,
	"learning_rate": 5e-06,
	"loss": 0.0047,
	"mismatch_kl": 0.06482454389333725,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 195,
	"timing/generation_ms": 107369.31251455098,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 107369.31251455098,
	"tokens/completion": 3881.7421875,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 291.5552787780762
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.24800750613212585,
	"epoch": 0.2613333333333333,
	"grad_norm": 0.041355633656673725,
	"importance_ratio": 0.996856689453125,
	"learning_rate": 5e-06,
	"loss": 0.0027,
	"mismatch_kl": 0.023481056094169617,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 196,
	"timing/generation_ms": 23556.342590600252,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 23556.342590600252,
	"tokens/completion": 801.36328125,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 66.23490047454834
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.20097197592258453,
	"epoch": 0.26266666666666666,
	"grad_norm": 0.01639665709788699,
	"importance_ratio": 0.995540201663971,
	"learning_rate": 5e-06,
	"loss": -0.0009,
	"mismatch_kl": 0.02512766607105732,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 197,
	"timing/generation_ms": 54791.293187998235,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 54791.293187998235,
	"tokens/completion": 2467.2578125,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 184.51049184799194
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.24079304933547974,
	"epoch": 0.264,
	"grad_norm": 0.033558115100562454,
	"importance_ratio": 0.9966259002685547,
	"learning_rate": 5e-06,
	"loss": -0.0129,
	"mismatch_kl": 0.02248232252895832,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 198,
	"timing/generation_ms": 38877.40421388298,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 38877.40421388298,
	"tokens/completion": 1947.15625,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 256.89259123802185
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.22992920875549316,
	"epoch": 0.2653333333333333,
	"grad_norm": 0.019833326998120116,
	"importance_ratio": 0.996269166469574,
	"learning_rate": 5e-06,
	"loss": -0.0002,
	"mismatch_kl": 0.02254408784210682,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 199,
	"timing/generation_ms": 22910.992676392198,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 22910.992676392198,
	"tokens/completion": 1146.32421875,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 153.08721899986267
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.21609917283058167,
	"epoch": 0.26666666666666666,
	"grad_norm": 0.017782941960253474,
	"importance_ratio": 0.9933099746704102,
	"learning_rate": 5e-06,
	"loss": -0.0047,
	"mismatch_kl": 0.028513798490166664,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 200,
	"timing/generation_ms": 28995.982899330556,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 28995.982899330556,
	"tokens/completion": 1354.24609375,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 139.1398515701294
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.3927169740200043,
	"epoch": 0.268,
	"grad_norm": 0.08540874966055562,
	"importance_ratio": 0.9711376428604126,
	"learning_rate": 5e-06,
	"loss": 0.0081,
	"mismatch_kl": 0.2314944714307785,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 201,
	"timing/generation_ms": 31200.909822247922,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 31200.909822247922,
	"tokens/completion": 1405.9765625,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 178.80973744392395
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.235797718167305,
	"epoch": 0.2693333333333333,
	"grad_norm": 0.01568085371274426,
	"importance_ratio": 0.9909575581550598,
	"learning_rate": 5e-06,
	"loss": -0.0079,
	"mismatch_kl": 0.039374206215143204,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 202,
	"timing/generation_ms": 42998.49198944867,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 42998.49198944867,
	"tokens/completion": 1907.31640625,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 141.76219058036804
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.23127324879169464,
	"epoch": 0.27066666666666667,
	"grad_norm": 0.02007459981352103,
	"importance_ratio": 0.9912987947463989,
	"learning_rate": 5e-06,
	"loss": -0.001,
	"mismatch_kl": 0.03943263366818428,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 203,
	"timing/generation_ms": 37774.500319734216,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 37774.500319734216,
	"tokens/completion": 1693.734375,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 302.7908329963684
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.22054153680801392,
	"epoch": 0.272,
	"grad_norm": 0.021761300841866088,
	"importance_ratio": 0.9904981851577759,
	"learning_rate": 5e-06,
	"loss": -0.0026,
	"mismatch_kl": 0.037401266396045685,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 204,
	"timing/generation_ms": 42541.27501603216,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 42541.27501603216,
	"tokens/completion": 1937.69140625,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 233.74011135101318
	},
	{
	"advantage/absmean": 0.12451171875,
	"entropy": 0.22628618776798248,
	"epoch": 0.2733333333333333,
	"grad_norm": 0.011121419921268808,
	"importance_ratio": 0.9924519658088684,
	"learning_rate": 5e-06,
	"loss": 0.0013,
	"mismatch_kl": 0.03573086857795715,
	"reward": 0.12451171875,
	"reward/std": 0.1738164722919464,
	"step": 205,
	"timing/generation_ms": 35010.2855078876,
	"timing/scoring_ms": 0.0,
	"timing/total_ms": 35010.2855078876,
	"tokens/completion": 1629.62890625,
	"tokens/masked_fraction": 0.0,
	"wall_clock/generate_s": 137.56320452690125
	}
	],
	"logging_steps": 1,
	"max_steps": 750,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 5,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}