kiminaembedbeta / trainer_state.json

Upload folder using huggingface_hub

18280ae verified 7 months ago

74.2 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 2.998109640831758,
	"eval_steps": 51,
	"global_step": 198,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.15104166666666666,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 975.3333333333334,
	"completions/mean_length": 312.0329996744792,
	"completions/mean_terminated_length": 185.89303080240884,
	"completions/min_length": 28.333333333333332,
	"completions/min_terminated_length": 28.333333333333332,
	"epoch": 0.045368620037807186,
	"grad_norm": 0.14972379803657532,
	"kl": 4.560748736063639e-05,
	"learning_rate": 4e-07,
	"loss": -0.0081,
	"num_tokens": 942182.0,
	"reward": 0.37008477250734967,
	"reward_std": 0.11998833467562993,
	"rewards/get_embedding_sim/mean": 0.3440430959065755,
	"rewards/get_embedding_sim/std": 0.06710867583751678,
	"rewards/reward_num_unique_chars/mean": 0.026041666666666668,
	"rewards/reward_num_unique_chars/std": 0.14761295169591904,
	"step": 3
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.13020833333333334,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 959.0,
	"completions/mean_length": 307.0069580078125,
	"completions/mean_terminated_length": 199.09521484375,
	"completions/min_length": 10.333333333333334,
	"completions/min_terminated_length": 10.333333333333334,
	"epoch": 0.09073724007561437,
	"grad_norm": 0.12008437514305115,
	"kl": 0.0001388813058535258,
	"learning_rate": 1e-06,
	"loss": 0.035,
	"num_tokens": 1882942.0,
	"reward": 0.4796616733074188,
	"reward_std": 0.214401513338089,
	"rewards/get_embedding_sim/mean": 0.3694185713926951,
	"rewards/get_embedding_sim/std": 0.07585694640874863,
	"rewards/reward_num_unique_chars/mean": 0.1102430559694767,
	"rewards/reward_num_unique_chars/std": 0.2982482860485713,
	"step": 6
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.08072916666666667,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 845.0,
	"completions/mean_length": 234.67969258626303,
	"completions/mean_terminated_length": 166.36500040690103,
	"completions/min_length": 21.0,
	"completions/min_terminated_length": 21.0,
	"epoch": 0.13610586011342155,
	"grad_norm": 0.08606597781181335,
	"kl": 0.00013801626240213713,
	"learning_rate": 1e-06,
	"loss": 0.0172,
	"num_tokens": 2735293.0,
	"reward": 0.39071526130040485,
	"reward_std": 0.1662569542725881,
	"rewards/get_embedding_sim/mean": 0.33168746034304303,
	"rewards/get_embedding_sim/std": 0.07500659177700679,
	"rewards/reward_num_unique_chars/mean": 0.059027779226501785,
	"rewards/reward_num_unique_chars/std": 0.22509141763051352,
	"step": 9
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.10503472222222225,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 983.3333333333334,
	"completions/mean_length": 262.79688517252606,
	"completions/mean_terminated_length": 173.54302469889322,
	"completions/min_length": 12.0,
	"completions/min_terminated_length": 12.0,
	"epoch": 0.18147448015122875,
	"grad_norm": 0.11949238181114197,
	"kl": 0.00030877192815144855,
	"learning_rate": 1e-06,
	"loss": -0.0001,
	"num_tokens": 3627859.0,
	"reward": 0.4095470607280731,
	"reward_std": 0.18979967882235846,
	"rewards/get_embedding_sim/mean": 0.33055397868156433,
	"rewards/get_embedding_sim/std": 0.07462155818939209,
	"rewards/reward_num_unique_chars/mean": 0.07899305472771327,
	"rewards/reward_num_unique_chars/std": 0.25569593409697217,
	"step": 12
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.1362847222222222,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 991.6666666666666,
	"completions/mean_length": 316.6762288411458,
	"completions/mean_terminated_length": 204.85944112141928,
	"completions/min_length": 9.666666666666666,
	"completions/min_terminated_length": 9.666666666666666,
	"epoch": 0.22684310018903592,
	"grad_norm": 0.16435399651527405,
	"kl": 0.0005876521269480387,
	"learning_rate": 1e-06,
	"loss": 0.0529,
	"num_tokens": 4554894.0,
	"reward": 0.4522427221139272,
	"reward_std": 0.205996572971344,
	"rewards/get_embedding_sim/mean": 0.35502047340075177,
	"rewards/get_embedding_sim/std": 0.076506607234478,
	"rewards/reward_num_unique_chars/mean": 0.09722222139437993,
	"rewards/reward_num_unique_chars/std": 0.27809616923332214,
	"step": 15
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.11718750000000004,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 927.0,
	"completions/mean_length": 283.77171834309894,
	"completions/mean_terminated_length": 184.45149739583334,
	"completions/min_length": 24.666666666666668,
	"completions/min_terminated_length": 24.666666666666668,
	"epoch": 0.2722117202268431,
	"grad_norm": 0.17904439568519592,
	"kl": 0.0004306634267171224,
	"learning_rate": 1e-06,
	"loss": 0.036,
	"num_tokens": 5464567.0,
	"reward": 0.47324784596761066,
	"reward_std": 0.2480545292297999,
	"rewards/get_embedding_sim/mean": 0.35345616936683655,
	"rewards/get_embedding_sim/std": 0.08570993691682816,
	"rewards/reward_num_unique_chars/mean": 0.11979166915019353,
	"rewards/reward_num_unique_chars/std": 0.32309961318969727,
	"step": 18
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.07204861111111112,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 1011.0,
	"completions/mean_length": 230.54688517252603,
	"completions/mean_terminated_length": 169.21332804361978,
	"completions/min_length": 12.333333333333334,
	"completions/min_terminated_length": 12.333333333333334,
	"epoch": 0.31758034026465026,
	"grad_norm": 0.11123450100421906,
	"kl": 0.0011239051818847656,
	"learning_rate": 1e-06,
	"loss": 0.0222,
	"num_tokens": 6313117.0,
	"reward": 0.4715224802494049,
	"reward_std": 0.2366275986035665,
	"rewards/get_embedding_sim/mean": 0.3491266171137492,
	"rewards/get_embedding_sim/std": 0.06465367351969083,
	"rewards/reward_num_unique_chars/mean": 0.1223958358168602,
	"rewards/reward_num_unique_chars/std": 0.3250391185283661,
	"step": 21
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.09895833333333337,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 961.0,
	"completions/mean_length": 229.36719258626303,
	"completions/mean_terminated_length": 142.55723571777344,
	"completions/min_length": 15.0,
	"completions/min_terminated_length": 15.0,
	"epoch": 0.3629489603024575,
	"grad_norm": 0.118320994079113,
	"kl": 0.0019257068634033203,
	"learning_rate": 1e-06,
	"loss": 0.0158,
	"num_tokens": 7162132.0,
	"reward": 0.5189645787080129,
	"reward_std": 0.24159842729568481,
	"rewards/get_embedding_sim/mean": 0.3809437155723572,
	"rewards/get_embedding_sim/std": 0.0799456536769867,
	"rewards/reward_num_unique_chars/mean": 0.13802083084980646,
	"rewards/reward_num_unique_chars/std": 0.3419287900129954,
	"step": 24
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.052951388888888874,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 982.3333333333334,
	"completions/mean_length": 197.44445292154947,
	"completions/mean_terminated_length": 151.25631205240884,
	"completions/min_length": 14.666666666666666,
	"completions/min_terminated_length": 14.666666666666666,
	"epoch": 0.40831758034026466,
	"grad_norm": 0.11851406842470169,
	"kl": 0.002936681111653646,
	"learning_rate": 1e-06,
	"loss": 0.0317,
	"num_tokens": 7973172.0,
	"reward": 0.569815476735433,
	"reward_std": 0.25512967507044476,
	"rewards/get_embedding_sim/mean": 0.362350195646286,
	"rewards/get_embedding_sim/std": 0.07909337679545085,
	"rewards/reward_num_unique_chars/mean": 0.2074652761220932,
	"rewards/reward_num_unique_chars/std": 0.4044720729192098,
	"step": 27
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.056423611111111126,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 934.3333333333334,
	"completions/mean_length": 211.5963592529297,
	"completions/mean_terminated_length": 163.11248270670572,
	"completions/min_length": 16.333333333333332,
	"completions/min_terminated_length": 16.333333333333332,
	"epoch": 0.45368620037807184,
	"grad_norm": 0.21573348343372345,
	"kl": 0.008742332458496094,
	"learning_rate": 1e-06,
	"loss": 0.0125,
	"num_tokens": 8794371.0,
	"reward": 0.43826034665107727,
	"reward_std": 0.20837691922982535,
	"rewards/get_embedding_sim/mean": 0.3427741924921672,
	"rewards/get_embedding_sim/std": 0.0719177375237147,
	"rewards/reward_num_unique_chars/mean": 0.09548610945542653,
	"rewards/reward_num_unique_chars/std": 0.2681623448928197,
	"step": 30
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.056423611111111126,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 892.0,
	"completions/mean_length": 197.90365091959634,
	"completions/mean_terminated_length": 148.50442504882812,
	"completions/min_length": 15.0,
	"completions/min_terminated_length": 15.0,
	"epoch": 0.499054820415879,
	"grad_norm": 0.08199404180049896,
	"kl": 0.005775133768717448,
	"learning_rate": 1e-06,
	"loss": 0.0113,
	"num_tokens": 9601812.0,
	"reward": 0.45480871200561523,
	"reward_std": 0.2194500764211019,
	"rewards/get_embedding_sim/mean": 0.36192673444747925,
	"rewards/get_embedding_sim/std": 0.0750991627573967,
	"rewards/reward_num_unique_chars/mean": 0.0928819440305233,
	"rewards/reward_num_unique_chars/std": 0.2857237259546916,
	"step": 33
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.053819444444444454,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 873.3333333333334,
	"completions/mean_length": 201.65104166666666,
	"completions/mean_terminated_length": 154.5564727783203,
	"completions/min_length": 10.666666666666666,
	"completions/min_terminated_length": 10.666666666666666,
	"epoch": 0.5444234404536862,
	"grad_norm": 0.13542793691158295,
	"kl": 0.011366526285807291,
	"learning_rate": 1e-06,
	"loss": -0.0008,
	"num_tokens": 10414722.0,
	"reward": 0.4134095311164856,
	"reward_std": 0.16343241184949875,
	"rewards/get_embedding_sim/mean": 0.3708748022715251,
	"rewards/get_embedding_sim/std": 0.08833041042089462,
	"rewards/reward_num_unique_chars/mean": 0.042534722636143364,
	"rewards/reward_num_unique_chars/std": 0.1979833443959554,
	"step": 36
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.04340277777777779,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 891.6666666666666,
	"completions/mean_length": 176.1076456705729,
	"completions/mean_terminated_length": 137.35225423177084,
	"completions/min_length": 11.0,
	"completions/min_terminated_length": 11.0,
	"epoch": 0.5897920604914934,
	"grad_norm": 1.7642544507980347,
	"kl": 0.151151974995931,
	"learning_rate": 1e-06,
	"loss": 0.0179,
	"num_tokens": 11207422.0,
	"reward": 0.5713514387607574,
	"reward_std": 0.26335498690605164,
	"rewards/get_embedding_sim/mean": 0.36909447113672894,
	"rewards/get_embedding_sim/std": 0.09187572946151097,
	"rewards/reward_num_unique_chars/mean": 0.202256940305233,
	"rewards/reward_num_unique_chars/std": 0.390445997317632,
	"step": 39
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.032986111111111126,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 826.3333333333334,
	"completions/mean_length": 201.41754150390625,
	"completions/mean_terminated_length": 173.10018412272134,
	"completions/min_length": 18.333333333333332,
	"completions/min_terminated_length": 18.333333333333332,
	"epoch": 0.6351606805293005,
	"grad_norm": 0.10251538455486298,
	"kl": 0.014621734619140625,
	"learning_rate": 1e-06,
	"loss": 0.0102,
	"num_tokens": 12029279.0,
	"reward": 0.5142592787742615,
	"reward_std": 0.2620675365130107,
	"rewards/get_embedding_sim/mean": 0.3701620002587636,
	"rewards/get_embedding_sim/std": 0.10092929750680923,
	"rewards/reward_num_unique_chars/mean": 0.1440972238779068,
	"rewards/reward_num_unique_chars/std": 0.34582529465357464,
	"step": 42
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.026041666666666668,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 927.6666666666666,
	"completions/mean_length": 183.04254150390625,
	"completions/mean_terminated_length": 160.71800740559897,
	"completions/min_length": 14.666666666666666,
	"completions/min_terminated_length": 14.666666666666666,
	"epoch": 0.6805293005671077,
	"grad_norm": 0.09084329754114151,
	"kl": 0.015349706013997396,
	"learning_rate": 1e-06,
	"loss": -0.0004,
	"num_tokens": 12816000.0,
	"reward": 0.5384640991687775,
	"reward_std": 0.22944432497024536,
	"rewards/get_embedding_sim/mean": 0.39697099725405377,
	"rewards/get_embedding_sim/std": 0.10396929830312729,
	"rewards/reward_num_unique_chars/mean": 0.14149305721124014,
	"rewards/reward_num_unique_chars/std": 0.3254843403895696,
	"step": 45
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.02777777777777779,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 802.3333333333334,
	"completions/mean_length": 165.0295155843099,
	"completions/mean_terminated_length": 140.43072509765625,
	"completions/min_length": 9.666666666666666,
	"completions/min_terminated_length": 9.666666666666666,
	"epoch": 0.725897920604915,
	"grad_norm": 0.21910759806632996,
	"kl": 0.027149200439453125,
	"learning_rate": 1e-06,
	"loss": 0.0009,
	"num_tokens": 13587394.0,
	"reward": 0.5553397635618845,
	"reward_std": 0.23784717917442322,
	"rewards/get_embedding_sim/mean": 0.4086383481820424,
	"rewards/get_embedding_sim/std": 0.10949051380157471,
	"rewards/reward_num_unique_chars/mean": 0.14670138930281004,
	"rewards/reward_num_unique_chars/std": 0.33698558807373047,
	"step": 48
	},
	{
	"epoch": 0.7712665406427222,
	"grad_norm": 0.09893961995840073,
	"learning_rate": 1e-06,
	"loss": 0.0047,
	"step": 51
	},
	{
	"epoch": 0.7712665406427222,
	"eval_clip_ratio/high_max": 0.0,
	"eval_clip_ratio/high_mean": 0.0,
	"eval_clip_ratio/low_mean": 0.0,
	"eval_clip_ratio/low_min": 0.0,
	"eval_clip_ratio/region_mean": 0.0,
	"eval_completions/clipped_ratio": 0.12797619047619044,
	"eval_completions/max_length": 880.7678571428571,
	"eval_completions/max_terminated_length": 701.3214285714286,
	"eval_completions/mean_length": 258.24070589882984,
	"eval_completions/mean_terminated_length": 153.6624070576259,
	"eval_completions/min_length": 24.446428571428573,
	"eval_completions/min_terminated_length": 24.446428571428573,
	"eval_kl": 0.0542449951171875,
	"eval_loss": 0.026244351640343666,
	"eval_num_tokens": 14351398.0,
	"eval_reward": 0.524820977555854,
	"eval_reward_std": 0.22432494928528154,
	"eval_rewards/get_embedding_sim/mean": 0.43479119294456076,
	"eval_rewards/get_embedding_sim/std": 0.09110667330345937,
	"eval_rewards/reward_num_unique_chars/mean": 0.09002976235933602,
	"eval_rewards/reward_num_unique_chars/std": 0.18600706889161042,
	"eval_runtime": 2254.2404,
	"eval_samples_per_second": 0.025,
	"eval_steps_per_second": 0.001,
	"step": 51
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.044270833333333315,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 921.3333333333334,
	"completions/mean_length": 197.77517954508463,
	"completions/mean_terminated_length": 159.97277196248373,
	"completions/min_length": 9.833333333333334,
	"completions/min_terminated_length": 9.833333333333334,
	"epoch": 0.8166351606805293,
	"grad_norm": 0.08635270595550537,
	"kl": 0.030397415161132812,
	"learning_rate": 1e-06,
	"loss": 0.0077,
	"num_tokens": 15200636.0,
	"reward": 0.5215439548095068,
	"reward_std": 0.23126975446939468,
	"rewards/get_embedding_sim/mean": 0.42692585786183673,
	"rewards/get_embedding_sim/std": 0.11467409133911133,
	"rewards/reward_num_unique_chars/mean": 0.09461805845300357,
	"rewards/reward_num_unique_chars/std": 0.28477593511343,
	"step": 54
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.04253472222222221,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 836.6666666666666,
	"completions/mean_length": 198.4244842529297,
	"completions/mean_terminated_length": 161.79749043782553,
	"completions/min_length": 10.333333333333334,
	"completions/min_terminated_length": 10.333333333333334,
	"epoch": 0.8620037807183365,
	"grad_norm": 14.726771354675293,
	"kl": 0.21588261922200522,
	"learning_rate": 1e-06,
	"loss": 0.0104,
	"num_tokens": 16019045.0,
	"reward": 0.5494122306505839,
	"reward_std": 0.24494746327400208,
	"rewards/get_embedding_sim/mean": 0.44264134764671326,
	"rewards/get_embedding_sim/std": 0.11085022240877151,
	"rewards/reward_num_unique_chars/mean": 0.10677083333333333,
	"rewards/reward_num_unique_chars/std": 0.30227985978126526,
	"step": 57
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.04253472222222221,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 964.6666666666666,
	"completions/mean_length": 200.72309366861978,
	"completions/mean_terminated_length": 164.248779296875,
	"completions/min_length": 11.333333333333334,
	"completions/min_terminated_length": 11.333333333333334,
	"epoch": 0.9073724007561437,
	"grad_norm": 0.09581304341554642,
	"kl": 0.33023325602213544,
	"learning_rate": 1e-06,
	"loss": 0.0072,
	"num_tokens": 16832758.0,
	"reward": 0.599389910697937,
	"reward_std": 0.26327316959698993,
	"rewards/get_embedding_sim/mean": 0.45268850525220233,
	"rewards/get_embedding_sim/std": 0.11441038797299068,
	"rewards/reward_num_unique_chars/mean": 0.14670139302810034,
	"rewards/reward_num_unique_chars/std": 0.31440146267414093,
	"step": 60
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.021701388888888878,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 917.3333333333334,
	"completions/mean_length": 186.21094258626303,
	"completions/mean_terminated_length": 167.5730946858724,
	"completions/min_length": 13.0,
	"completions/min_terminated_length": 13.0,
	"epoch": 0.9527410207939508,
	"grad_norm": 0.08248484879732132,
	"kl": 0.04541015625,
	"learning_rate": 1e-06,
	"loss": 0.0017,
	"num_tokens": 17637097.0,
	"reward": 0.5855847001075745,
	"reward_std": 0.2750825683275859,
	"rewards/get_embedding_sim/mean": 0.46405691901842755,
	"rewards/get_embedding_sim/std": 0.11442819982767105,
	"rewards/reward_num_unique_chars/mean": 0.12152778108914693,
	"rewards/reward_num_unique_chars/std": 0.3193853000799815,
	"step": 63
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.031507423371647504,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 930.0,
	"completions/mean_length": 193.8086140950521,
	"completions/mean_terminated_length": 167.16290283203125,
	"completions/min_length": 7.0,
	"completions/min_terminated_length": 7.0,
	"epoch": 0.998109640831758,
	"grad_norm": 0.06374574452638626,
	"kl": 0.03699493408203125,
	"learning_rate": 1e-06,
	"loss": 0.0187,
	"num_tokens": 18440914.0,
	"reward": 0.6297420461972555,
	"reward_std": 0.2834969659646352,
	"rewards/get_embedding_sim/mean": 0.47088783979415894,
	"rewards/get_embedding_sim/std": 0.11324869592984517,
	"rewards/reward_num_unique_chars/mean": 0.1588541641831398,
	"rewards/reward_num_unique_chars/std": 0.36384791135787964,
	"step": 66
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.032118055555555546,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 833.3333333333334,
	"completions/mean_length": 200.6024373372396,
	"completions/mean_terminated_length": 173.2165069580078,
	"completions/min_length": 9.0,
	"completions/min_terminated_length": 9.0,
	"epoch": 1.0453686200378072,
	"grad_norm": 0.11849670857191086,
	"kl": 0.05316925048828125,
	"learning_rate": 1e-06,
	"loss": 0.0071,
	"num_tokens": 19261832.0,
	"reward": 0.5802033940951029,
	"reward_std": 0.25838569800059,
	"rewards/get_embedding_sim/mean": 0.4734325309594472,
	"rewards/get_embedding_sim/std": 0.11253533015648524,
	"rewards/reward_num_unique_chars/mean": 0.10677083084980647,
	"rewards/reward_num_unique_chars/std": 0.30244183043638867,
	"step": 69
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.039930555555555546,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 973.0,
	"completions/mean_length": 199.55555725097656,
	"completions/mean_terminated_length": 165.2902577718099,
	"completions/min_length": 9.333333333333334,
	"completions/min_terminated_length": 9.333333333333334,
	"epoch": 1.0907372400756143,
	"grad_norm": 0.10332732647657394,
	"kl": 0.0515289306640625,
	"learning_rate": 1e-06,
	"loss": 0.0075,
	"num_tokens": 20067096.0,
	"reward": 0.625789741675059,
	"reward_std": 0.2765499949455261,
	"rewards/get_embedding_sim/mean": 0.49471331636110943,
	"rewards/get_embedding_sim/std": 0.11266019940376282,
	"rewards/reward_num_unique_chars/mean": 0.1310763880610466,
	"rewards/reward_num_unique_chars/std": 0.336679349342982,
	"step": 72
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.036458333333333294,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 1008.6666666666666,
	"completions/mean_length": 209.8359375,
	"completions/mean_terminated_length": 178.97360229492188,
	"completions/min_length": 7.0,
	"completions/min_terminated_length": 7.0,
	"epoch": 1.1361058601134215,
	"grad_norm": 0.11925654858350754,
	"kl": 0.14461263020833334,
	"learning_rate": 1e-06,
	"loss": 0.0055,
	"num_tokens": 20893467.0,
	"reward": 0.5831413467725118,
	"reward_std": 0.2582869480053584,
	"rewards/get_embedding_sim/mean": 0.4919954836368561,
	"rewards/get_embedding_sim/std": 0.1114387462536494,
	"rewards/reward_num_unique_chars/mean": 0.09114583333333333,
	"rewards/reward_num_unique_chars/std": 0.2839343051115672,
	"step": 75
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.047743055555555546,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 897.3333333333334,
	"completions/mean_length": 221.0104217529297,
	"completions/mean_terminated_length": 180.71256510416666,
	"completions/min_length": 5.0,
	"completions/min_terminated_length": 5.0,
	"epoch": 1.1814744801512287,
	"grad_norm": 0.09554021060466766,
	"kl": 0.16336822509765625,
	"learning_rate": 1e-06,
	"loss": 0.0197,
	"num_tokens": 21730887.0,
	"reward": 0.6385945876439413,
	"reward_std": 0.2661168724298477,
	"rewards/get_embedding_sim/mean": 0.5127264857292175,
	"rewards/get_embedding_sim/std": 0.11183823893467586,
	"rewards/reward_num_unique_chars/mean": 0.12586805472771326,
	"rewards/reward_num_unique_chars/std": 0.3207412262757619,
	"step": 78
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.049479166666666664,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 939.0,
	"completions/mean_length": 228.04601033528647,
	"completions/mean_terminated_length": 186.1550038655599,
	"completions/min_length": 7.333333333333333,
	"completions/min_terminated_length": 7.333333333333333,
	"epoch": 1.2268431001890359,
	"grad_norm": 0.07755686342716217,
	"kl": 0.05751800537109375,
	"learning_rate": 1e-06,
	"loss": 0.0156,
	"num_tokens": 22583420.0,
	"reward": 0.6019672354062399,
	"reward_std": 0.26383428772290546,
	"rewards/get_embedding_sim/mean": 0.5021408100922903,
	"rewards/get_embedding_sim/std": 0.10627821832895279,
	"rewards/reward_num_unique_chars/mean": 0.09982638930281003,
	"rewards/reward_num_unique_chars/std": 0.2837299009164174,
	"step": 81
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.029513888888888878,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 931.3333333333334,
	"completions/mean_length": 191.74740091959634,
	"completions/mean_terminated_length": 166.4415028889974,
	"completions/min_length": 8.666666666666666,
	"completions/min_terminated_length": 8.666666666666666,
	"epoch": 1.272211720226843,
	"grad_norm": 0.08697984367609024,
	"kl": 0.057329813639322914,
	"learning_rate": 1e-06,
	"loss": 0.0141,
	"num_tokens": 23394137.0,
	"reward": 0.6638144056002299,
	"reward_std": 0.26522762576738995,
	"rewards/get_embedding_sim/mean": 0.5231893658638,
	"rewards/get_embedding_sim/std": 0.10482257604598999,
	"rewards/reward_num_unique_chars/mean": 0.140625,
	"rewards/reward_num_unique_chars/std": 0.3480878472328186,
	"step": 84
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.026041666666666668,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 872.3333333333334,
	"completions/mean_length": 185.42535400390625,
	"completions/mean_terminated_length": 163.15696716308594,
	"completions/min_length": 7.333333333333333,
	"completions/min_terminated_length": 7.333333333333333,
	"epoch": 1.3175803402646502,
	"grad_norm": 0.14970338344573975,
	"kl": 0.12465922037760417,
	"learning_rate": 1e-06,
	"loss": 0.008,
	"num_tokens": 24197571.0,
	"reward": 0.6190575559933981,
	"reward_std": 0.2601381540298462,
	"rewards/get_embedding_sim/mean": 0.5174950361251831,
	"rewards/get_embedding_sim/std": 0.0997606838742892,
	"rewards/reward_num_unique_chars/mean": 0.10156250124176343,
	"rewards/reward_num_unique_chars/std": 0.297150323788325,
	"step": 87
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.029513888888888912,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 965.6666666666666,
	"completions/mean_length": 216.75694783528647,
	"completions/mean_terminated_length": 192.3217315673828,
	"completions/min_length": 7.333333333333333,
	"completions/min_terminated_length": 7.333333333333333,
	"epoch": 1.3629489603024574,
	"grad_norm": 0.11725780367851257,
	"kl": 0.08345540364583333,
	"learning_rate": 1e-06,
	"loss": 0.0079,
	"num_tokens": 25034555.0,
	"reward": 0.5995156168937683,
	"reward_std": 0.22840352356433868,
	"rewards/get_embedding_sim/mean": 0.5118419329325358,
	"rewards/get_embedding_sim/std": 0.0987908939520518,
	"rewards/reward_num_unique_chars/mean": 0.0876736119389534,
	"rewards/reward_num_unique_chars/std": 0.27722589671611786,
	"step": 90
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.029513888888888878,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 884.3333333333334,
	"completions/mean_length": 186.4375,
	"completions/mean_terminated_length": 161.33899434407553,
	"completions/min_length": 6.0,
	"completions/min_terminated_length": 6.0,
	"epoch": 1.4083175803402646,
	"grad_norm": 0.10394510626792908,
	"kl": 0.07037099202473958,
	"learning_rate": 1e-06,
	"loss": 0.0084,
	"num_tokens": 25831283.0,
	"reward": 0.6795124411582947,
	"reward_std": 0.29141750435034436,
	"rewards/get_embedding_sim/mean": 0.5137137969334921,
	"rewards/get_embedding_sim/std": 0.09767910589774449,
	"rewards/reward_num_unique_chars/mean": 0.16579860697189966,
	"rewards/reward_num_unique_chars/std": 0.3542452355225881,
	"step": 93
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.05034722222222221,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 971.3333333333334,
	"completions/mean_length": 212.23785400390625,
	"completions/mean_terminated_length": 169.16080729166666,
	"completions/min_length": 6.666666666666667,
	"completions/min_terminated_length": 6.666666666666667,
	"epoch": 1.4536862003780717,
	"grad_norm": 0.10010381788015366,
	"kl": 0.06960042317708333,
	"learning_rate": 1e-06,
	"loss": 0.0203,
	"num_tokens": 26656485.0,
	"reward": 0.6300086975097656,
	"reward_std": 0.24619843065738678,
	"rewards/get_embedding_sim/mean": 0.5267100731531779,
	"rewards/get_embedding_sim/std": 0.1071697548031807,
	"rewards/reward_num_unique_chars/mean": 0.1032986119389534,
	"rewards/reward_num_unique_chars/std": 0.29826584458351135,
	"step": 96
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.037326388888888874,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 919.0,
	"completions/mean_length": 211.8107655843099,
	"completions/mean_terminated_length": 180.1980183919271,
	"completions/min_length": 6.333333333333333,
	"completions/min_terminated_length": 6.333333333333333,
	"epoch": 1.499054820415879,
	"grad_norm": 0.07485458254814148,
	"kl": 0.061063130696614586,
	"learning_rate": 1e-06,
	"loss": 0.0248,
	"num_tokens": 27490315.0,
	"reward": 0.620047926902771,
	"reward_std": 0.2632503807544708,
	"rewards/get_embedding_sim/mean": 0.5132770538330078,
	"rewards/get_embedding_sim/std": 0.10026986648639043,
	"rewards/reward_num_unique_chars/mean": 0.10677083333333333,
	"rewards/reward_num_unique_chars/std": 0.3043619990348816,
	"step": 99
	},
	{
	"epoch": 1.544423440453686,
	"grad_norm": 0.11106861382722855,
	"learning_rate": 1e-06,
	"loss": 0.0115,
	"step": 102
	},
	{
	"epoch": 1.544423440453686,
	"eval_clip_ratio/high_max": 0.0,
	"eval_clip_ratio/high_mean": 0.0,
	"eval_clip_ratio/low_mean": 0.0,
	"eval_clip_ratio/low_min": 0.0,
	"eval_clip_ratio/region_mean": 0.0,
	"eval_completions/clipped_ratio": 0.07068452380952381,
	"eval_completions/max_length": 887.5892857142857,
	"eval_completions/max_terminated_length": 675.0892857142857,
	"eval_completions/mean_length": 206.3244113922119,
	"eval_completions/mean_terminated_length": 145.37539066587175,
	"eval_completions/min_length": 18.160714285714285,
	"eval_completions/min_terminated_length": 18.160714285714285,
	"eval_kl": 0.06965419224330358,
	"eval_loss": 0.03773626312613487,
	"eval_num_tokens": 28307736.0,
	"eval_reward": 0.6229457370936871,
	"eval_reward_std": 0.2839882879384926,
	"eval_rewards/get_embedding_sim/mean": 0.5206391582531589,
	"eval_rewards/get_embedding_sim/std": 0.09148550758670483,
	"eval_rewards/reward_num_unique_chars/mean": 0.10230654794057566,
	"eval_rewards/reward_num_unique_chars/std": 0.24572753932859218,
	"eval_runtime": 1726.6979,
	"eval_samples_per_second": 0.032,
	"eval_steps_per_second": 0.001,
	"step": 102
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.03602430555555556,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 990.3333333333334,
	"completions/mean_length": 214.1545181274414,
	"completions/mean_terminated_length": 183.94319661458334,
	"completions/min_length": 6.5,
	"completions/min_terminated_length": 6.5,
	"epoch": 1.5897920604914932,
	"grad_norm": 1.0838171243667603,
	"kl": 0.0672899881998698,
	"learning_rate": 1e-06,
	"loss": 0.0253,
	"num_tokens": 29138511.0,
	"reward": 0.6624543964862823,
	"reward_std": 0.26948046932617825,
	"rewards/get_embedding_sim/mean": 0.5296418766180674,
	"rewards/get_embedding_sim/std": 0.10213356713453929,
	"rewards/reward_num_unique_chars/mean": 0.1328124993791183,
	"rewards/reward_num_unique_chars/std": 0.32840434461832047,
	"step": 105
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.026041666666666668,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 974.0,
	"completions/mean_length": 201.72048950195312,
	"completions/mean_terminated_length": 179.72496032714844,
	"completions/min_length": 7.333333333333333,
	"completions/min_terminated_length": 7.333333333333333,
	"epoch": 1.6351606805293004,
	"grad_norm": 0.0918864831328392,
	"kl": 0.061335245768229164,
	"learning_rate": 1e-06,
	"loss": 0.0208,
	"num_tokens": 29960717.0,
	"reward": 0.6120087305704752,
	"reward_std": 0.250284880399704,
	"rewards/get_embedding_sim/mean": 0.5364878376324972,
	"rewards/get_embedding_sim/std": 0.0979540745417277,
	"rewards/reward_num_unique_chars/mean": 0.07552083457509677,
	"rewards/reward_num_unique_chars/std": 0.26320414741834003,
	"step": 108
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.03559027777777779,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 923.0,
	"completions/mean_length": 206.97309366861978,
	"completions/mean_terminated_length": 177.1915079752604,
	"completions/min_length": 7.666666666666667,
	"completions/min_terminated_length": 7.666666666666667,
	"epoch": 1.6805293005671076,
	"grad_norm": 0.07678642123937607,
	"kl": 0.06285349527994792,
	"learning_rate": 1e-06,
	"loss": 0.0214,
	"num_tokens": 30781870.0,
	"reward": 0.6274827718734741,
	"reward_std": 0.26556732257207233,
	"rewards/get_embedding_sim/mean": 0.5155035257339478,
	"rewards/get_embedding_sim/std": 0.09278701990842819,
	"rewards/reward_num_unique_chars/mean": 0.11197916666666667,
	"rewards/reward_num_unique_chars/std": 0.30655037860075635,
	"step": 111
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.032118055555555546,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 881.3333333333334,
	"completions/mean_length": 185.73351542154947,
	"completions/mean_terminated_length": 157.97284952799478,
	"completions/min_length": 8.333333333333334,
	"completions/min_terminated_length": 8.333333333333334,
	"epoch": 1.725897920604915,
	"grad_norm": 0.07077532261610031,
	"kl": 0.07100423177083333,
	"learning_rate": 1e-06,
	"loss": 0.0255,
	"num_tokens": 31578315.0,
	"reward": 0.6285200913747152,
	"reward_std": 0.2933768729368846,
	"rewards/get_embedding_sim/mean": 0.5260895093282064,
	"rewards/get_embedding_sim/std": 0.10419273873170216,
	"rewards/reward_num_unique_chars/mean": 0.10243055472771327,
	"rewards/reward_num_unique_chars/std": 0.30191460251808167,
	"step": 114
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.035590277777777755,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 998.3333333333334,
	"completions/mean_length": 197.5555623372396,
	"completions/mean_terminated_length": 167.07290649414062,
	"completions/min_length": 7.333333333333333,
	"completions/min_terminated_length": 7.333333333333333,
	"epoch": 1.7712665406427222,
	"grad_norm": 0.07132314145565033,
	"kl": 0.07155863444010417,
	"learning_rate": 1e-06,
	"loss": 0.0289,
	"num_tokens": 32370091.0,
	"reward": 0.6605067054430643,
	"reward_std": 0.3198150396347046,
	"rewards/get_embedding_sim/mean": 0.5276941855748495,
	"rewards/get_embedding_sim/std": 0.09764280170202255,
	"rewards/reward_num_unique_chars/mean": 0.13281250248352686,
	"rewards/reward_num_unique_chars/std": 0.3356940845648448,
	"step": 117
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.03819444444444442,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 925.3333333333334,
	"completions/mean_length": 205.5260467529297,
	"completions/mean_terminated_length": 172.99127197265625,
	"completions/min_length": 7.333333333333333,
	"completions/min_terminated_length": 7.333333333333333,
	"epoch": 1.8166351606805293,
	"grad_norm": 0.07695771753787994,
	"kl": 0.079559326171875,
	"learning_rate": 1e-06,
	"loss": 0.0285,
	"num_tokens": 33183529.0,
	"reward": 0.6505021651585897,
	"reward_std": 0.28806476791699726,
	"rewards/get_embedding_sim/mean": 0.5255021254221598,
	"rewards/get_embedding_sim/std": 0.10448584208885829,
	"rewards/reward_num_unique_chars/mean": 0.12499999751647313,
	"rewards/reward_num_unique_chars/std": 0.3297826250394185,
	"step": 120
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.03125,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 956.0,
	"completions/mean_length": 187.78907267252603,
	"completions/mean_terminated_length": 160.96214803059897,
	"completions/min_length": 7.333333333333333,
	"completions/min_terminated_length": 7.333333333333333,
	"epoch": 1.8620037807183365,
	"grad_norm": 0.10003960132598877,
	"kl": 0.10397847493489583,
	"learning_rate": 1e-06,
	"loss": 0.0332,
	"num_tokens": 33979270.0,
	"reward": 0.702047864596049,
	"reward_std": 0.2998199959595998,
	"rewards/get_embedding_sim/mean": 0.5353811780611674,
	"rewards/get_embedding_sim/std": 0.1009945347905159,
	"rewards/reward_num_unique_chars/mean": 0.16666666915019354,
	"rewards/reward_num_unique_chars/std": 0.3635033369064331,
	"step": 123
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.0390625,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 961.0,
	"completions/mean_length": 201.6701456705729,
	"completions/mean_terminated_length": 168.43896484375,
	"completions/min_length": 6.333333333333333,
	"completions/min_terminated_length": 6.333333333333333,
	"epoch": 1.9073724007561437,
	"grad_norm": 0.1418294459581375,
	"kl": 0.08981831868489583,
	"learning_rate": 1e-06,
	"loss": 0.0311,
	"num_tokens": 34790042.0,
	"reward": 0.6395866274833679,
	"reward_std": 0.278631071249644,
	"rewards/get_embedding_sim/mean": 0.5371560255686442,
	"rewards/get_embedding_sim/std": 0.10253078490495682,
	"rewards/reward_num_unique_chars/mean": 0.10243055721124013,
	"rewards/reward_num_unique_chars/std": 0.3033109207948049,
	"step": 126
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.020833333333333297,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 933.6666666666666,
	"completions/mean_length": 165.38021341959634,
	"completions/mean_terminated_length": 147.11800384521484,
	"completions/min_length": 6.333333333333333,
	"completions/min_terminated_length": 6.333333333333333,
	"epoch": 1.9527410207939508,
	"grad_norm": 0.085059255361557,
	"kl": 0.09361775716145833,
	"learning_rate": 1e-06,
	"loss": 0.0241,
	"num_tokens": 35555504.0,
	"reward": 0.7251607775688171,
	"reward_std": 0.3248043159643809,
	"rewards/get_embedding_sim/mean": 0.5359246134757996,
	"rewards/get_embedding_sim/std": 0.10831368962923686,
	"rewards/reward_num_unique_chars/mean": 0.18923610945542654,
	"rewards/reward_num_unique_chars/std": 0.38598161935806274,
	"step": 129
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.051843869731800774,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 949.6666666666666,
	"completions/mean_length": 218.2733408610026,
	"completions/mean_terminated_length": 174.35783894856772,
	"completions/min_length": 5.333333333333333,
	"completions/min_terminated_length": 5.333333333333333,
	"epoch": 1.998109640831758,
	"grad_norm": 0.15158401429653168,
	"kl": 0.09020487467447917,
	"learning_rate": 1e-06,
	"loss": 0.0421,
	"num_tokens": 36367765.0,
	"reward": 0.6982676188151041,
	"reward_std": 0.3466052810351054,
	"rewards/get_embedding_sim/mean": 0.5420175790786743,
	"rewards/get_embedding_sim/std": 0.09902476519346237,
	"rewards/reward_num_unique_chars/mean": 0.15625,
	"rewards/reward_num_unique_chars/std": 0.3612334032853444,
	"step": 132
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.03472222222222221,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 948.0,
	"completions/mean_length": 176.51909891764322,
	"completions/mean_terminated_length": 146.023562113444,
	"completions/min_length": 6.333333333333333,
	"completions/min_terminated_length": 6.333333333333333,
	"epoch": 2.045368620037807,
	"grad_norm": 0.08893448859453201,
	"kl": 0.096466064453125,
	"learning_rate": 1e-06,
	"loss": 0.0402,
	"num_tokens": 37147067.0,
	"reward": 0.7173450986544291,
	"reward_std": 0.35685937603314716,
	"rewards/get_embedding_sim/mean": 0.5341853896776835,
	"rewards/get_embedding_sim/std": 0.1000617394844691,
	"rewards/reward_num_unique_chars/mean": 0.1831597238779068,
	"rewards/reward_num_unique_chars/std": 0.3842338224252065,
	"step": 135
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.041666666666666664,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 879.0,
	"completions/mean_length": 208.60938008626303,
	"completions/mean_terminated_length": 173.26571655273438,
	"completions/min_length": 7.0,
	"completions/min_terminated_length": 7.0,
	"epoch": 2.0907372400756143,
	"grad_norm": 0.12921324372291565,
	"kl": 0.09910074869791667,
	"learning_rate": 1e-06,
	"loss": 0.0475,
	"num_tokens": 37974473.0,
	"reward": 0.672684927781423,
	"reward_std": 0.34854390223821,
	"rewards/get_embedding_sim/mean": 0.5364001393318176,
	"rewards/get_embedding_sim/std": 0.10567483057578404,
	"rewards/reward_num_unique_chars/mean": 0.13628472139437994,
	"rewards/reward_num_unique_chars/std": 0.34236905972162884,
	"step": 138
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.021701388888888878,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 956.0,
	"completions/mean_length": 167.10590616861978,
	"completions/mean_terminated_length": 148.0250244140625,
	"completions/min_length": 6.333333333333333,
	"completions/min_terminated_length": 6.333333333333333,
	"epoch": 2.1361058601134215,
	"grad_norm": 0.12040314823389053,
	"kl": 0.24815877278645834,
	"learning_rate": 1e-06,
	"loss": 0.0403,
	"num_tokens": 38741491.0,
	"reward": 0.6958853205045065,
	"reward_std": 0.3416078786055247,
	"rewards/get_embedding_sim/mean": 0.5396353205045065,
	"rewards/get_embedding_sim/std": 0.11144034812847774,
	"rewards/reward_num_unique_chars/mean": 0.15625000248352686,
	"rewards/reward_num_unique_chars/std": 0.3600207368532817,
	"step": 141
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.032986111111111084,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 909.0,
	"completions/mean_length": 182.28211975097656,
	"completions/mean_terminated_length": 153.65155029296875,
	"completions/min_length": 6.0,
	"completions/min_terminated_length": 6.0,
	"epoch": 2.1814744801512287,
	"grad_norm": 0.08720903098583221,
	"kl": 0.11935933430989583,
	"learning_rate": 1e-06,
	"loss": 0.042,
	"num_tokens": 39531464.0,
	"reward": 0.7134884198506674,
	"reward_std": 0.36159368356068927,
	"rewards/get_embedding_sim/mean": 0.5424814422925314,
	"rewards/get_embedding_sim/std": 0.11029936373233795,
	"rewards/reward_num_unique_chars/mean": 0.17100694278875986,
	"rewards/reward_num_unique_chars/std": 0.37471526861190796,
	"step": 144
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.03125,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 917.0,
	"completions/mean_length": 171.84375508626303,
	"completions/mean_terminated_length": 144.29528299967447,
	"completions/min_length": 8.0,
	"completions/min_terminated_length": 8.0,
	"epoch": 2.226843100189036,
	"grad_norm": 0.08887135237455368,
	"kl": 0.118194580078125,
	"learning_rate": 1e-06,
	"loss": 0.0381,
	"num_tokens": 40311428.0,
	"reward": 0.6788019339243571,
	"reward_std": 0.33359630902608234,
	"rewards/get_embedding_sim/mean": 0.5451213518778483,
	"rewards/get_embedding_sim/std": 0.10193872700134914,
	"rewards/reward_num_unique_chars/mean": 0.133680559694767,
	"rewards/reward_num_unique_chars/std": 0.34027015169461566,
	"step": 147
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.01909722222222221,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 922.6666666666666,
	"completions/mean_length": 165.07205200195312,
	"completions/mean_terminated_length": 148.45321146647134,
	"completions/min_length": 6.0,
	"completions/min_terminated_length": 6.0,
	"epoch": 2.272211720226843,
	"grad_norm": 0.08689926564693451,
	"kl": 0.149566650390625,
	"learning_rate": 1e-06,
	"loss": 0.0324,
	"num_tokens": 41091415.0,
	"reward": 0.6884604295094808,
	"reward_std": 0.3447088996569316,
	"rewards/get_embedding_sim/mean": 0.5495714743932089,
	"rewards/get_embedding_sim/std": 0.10353380193312962,
	"rewards/reward_num_unique_chars/mean": 0.13888888557751974,
	"rewards/reward_num_unique_chars/std": 0.3459552029768626,
	"step": 150
	},
	{
	"epoch": 2.31758034026465,
	"grad_norm": 0.10476606339216232,
	"learning_rate": 1e-06,
	"loss": 0.0513,
	"step": 153
	},
	{
	"epoch": 2.31758034026465,
	"eval_clip_ratio/high_max": 0.0,
	"eval_clip_ratio/high_mean": 0.0,
	"eval_clip_ratio/low_mean": 0.0,
	"eval_clip_ratio/low_min": 0.0,
	"eval_clip_ratio/region_mean": 0.0,
	"eval_completions/clipped_ratio": 0.04687500000000001,
	"eval_completions/max_length": 856.4464285714286,
	"eval_completions/max_terminated_length": 614.625,
	"eval_completions/mean_length": 148.9296919277736,
	"eval_completions/mean_terminated_length": 106.54870585032872,
	"eval_completions/min_length": 12.107142857142858,
	"eval_completions/min_terminated_length": 12.107142857142858,
	"eval_kl": 0.15039280482700892,
	"eval_loss": 0.05131923779845238,
	"eval_num_tokens": 41858572.0,
	"eval_reward": 0.7319182710988181,
	"eval_reward_std": 0.39004063113991705,
	"eval_rewards/get_embedding_sim/mean": 0.5399539640971592,
	"eval_rewards/get_embedding_sim/std": 0.09657471527212433,
	"eval_rewards/reward_num_unique_chars/mean": 0.19196428627973156,
	"eval_rewards/reward_num_unique_chars/std": 0.34904111203338417,
	"eval_runtime": 1578.4274,
	"eval_samples_per_second": 0.035,
	"eval_steps_per_second": 0.001,
	"step": 153
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.022135416666666668,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 918.8333333333334,
	"completions/mean_length": 154.00824991861978,
	"completions/mean_terminated_length": 134.3066151936849,
	"completions/min_length": 6.333333333333333,
	"completions/min_terminated_length": 6.333333333333333,
	"epoch": 2.3629489603024574,
	"grad_norm": 0.17861098051071167,
	"kl": 0.1991424560546875,
	"learning_rate": 1e-06,
	"loss": 0.0446,
	"num_tokens": 42603290.0,
	"reward": 0.7928757965564728,
	"reward_std": 0.39940689504146576,
	"rewards/get_embedding_sim/mean": 0.5420077045758566,
	"rewards/get_embedding_sim/std": 0.10503626987338066,
	"rewards/reward_num_unique_chars/mean": 0.2508680547277133,
	"rewards/reward_num_unique_chars/std": 0.43154530723889667,
	"step": 156
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.02083333333333337,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 943.6666666666666,
	"completions/mean_length": 149.3498331705729,
	"completions/mean_terminated_length": 130.67583719889322,
	"completions/min_length": 6.0,
	"completions/min_terminated_length": 6.0,
	"epoch": 2.4083175803402646,
	"grad_norm": 0.0997217446565628,
	"kl": 0.176727294921875,
	"learning_rate": 1e-06,
	"loss": 0.0479,
	"num_tokens": 43362573.0,
	"reward": 0.7896133859952291,
	"reward_std": 0.37762073675791424,
	"rewards/get_embedding_sim/mean": 0.5604466795921326,
	"rewards/get_embedding_sim/std": 0.10085596889257431,
	"rewards/reward_num_unique_chars/mean": 0.22916666666666666,
	"rewards/reward_num_unique_chars/std": 0.417032649119695,
	"step": 159
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.01996527777777779,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 966.0,
	"completions/mean_length": 133.52865091959634,
	"completions/mean_terminated_length": 115.48833719889323,
	"completions/min_length": 6.333333333333333,
	"completions/min_terminated_length": 6.333333333333333,
	"epoch": 2.4536862003780717,
	"grad_norm": 0.08974426239728928,
	"kl": 0.13869730631510416,
	"learning_rate": 1e-06,
	"loss": 0.0442,
	"num_tokens": 44099022.0,
	"reward": 0.8535909652709961,
	"reward_std": 0.42868249615033466,
	"rewards/get_embedding_sim/mean": 0.5332783659299215,
	"rewards/get_embedding_sim/std": 0.10329846044381459,
	"rewards/reward_num_unique_chars/mean": 0.3203125,
	"rewards/reward_num_unique_chars/std": 0.45679094394048053,
	"step": 162
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.026041666666666668,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 908.0,
	"completions/mean_length": 141.3715337117513,
	"completions/mean_terminated_length": 117.76270294189453,
	"completions/min_length": 6.333333333333333,
	"completions/min_terminated_length": 6.333333333333333,
	"epoch": 2.499054820415879,
	"grad_norm": 0.10181669145822525,
	"kl": 0.23414103190104166,
	"learning_rate": 1e-06,
	"loss": 0.0402,
	"num_tokens": 44851706.0,
	"reward": 0.8000141382217407,
	"reward_std": 0.3941415250301361,
	"rewards/get_embedding_sim/mean": 0.5456738670667013,
	"rewards/get_embedding_sim/std": 0.10725356390078862,
	"rewards/reward_num_unique_chars/mean": 0.2543402810891469,
	"rewards/reward_num_unique_chars/std": 0.43460813164711,
	"step": 165
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.018229166666666703,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 882.6666666666666,
	"completions/mean_length": 141.09028116861978,
	"completions/mean_terminated_length": 124.72643280029297,
	"completions/min_length": 6.666666666666667,
	"completions/min_terminated_length": 6.666666666666667,
	"epoch": 2.544423440453686,
	"grad_norm": 0.08525840193033218,
	"kl": 0.20921834309895834,
	"learning_rate": 1e-06,
	"loss": 0.0455,
	"num_tokens": 45604066.0,
	"reward": 0.7868956923484802,
	"reward_std": 0.40804105003674823,
	"rewards/get_embedding_sim/mean": 0.5299512147903442,
	"rewards/get_embedding_sim/std": 0.10723193486531575,
	"rewards/reward_num_unique_chars/mean": 0.2569444378217061,
	"rewards/reward_num_unique_chars/std": 0.42565350731213886,
	"step": 168
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.025173611111111122,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 923.3333333333334,
	"completions/mean_length": 138.74913533528647,
	"completions/mean_terminated_length": 116.1558354695638,
	"completions/min_length": 6.333333333333333,
	"completions/min_terminated_length": 6.333333333333333,
	"epoch": 2.5897920604914932,
	"grad_norm": 0.6628166437149048,
	"kl": 0.317626953125,
	"learning_rate": 1e-06,
	"loss": 0.0491,
	"num_tokens": 46345857.0,
	"reward": 0.8313470085461935,
	"reward_std": 0.4129582444826762,
	"rewards/get_embedding_sim/mean": 0.5509650309880575,
	"rewards/get_embedding_sim/std": 0.09154053280750911,
	"rewards/reward_num_unique_chars/mean": 0.2803819427887599,
	"rewards/reward_num_unique_chars/std": 0.4417712489763896,
	"step": 171
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.01128472222222221,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 772.6666666666666,
	"completions/mean_length": 111.97396087646484,
	"completions/mean_terminated_length": 101.59329223632812,
	"completions/min_length": 6.666666666666667,
	"completions/min_terminated_length": 6.666666666666667,
	"epoch": 2.6351606805293004,
	"grad_norm": 0.09945366531610489,
	"kl": 0.262237548828125,
	"learning_rate": 1e-06,
	"loss": 0.038,
	"num_tokens": 47054931.0,
	"reward": 0.8715664744377136,
	"reward_std": 0.4346109131971995,
	"rewards/get_embedding_sim/mean": 0.549517830212911,
	"rewards/get_embedding_sim/std": 0.11452717334032059,
	"rewards/reward_num_unique_chars/mean": 0.3220486094554265,
	"rewards/reward_num_unique_chars/std": 0.4634987811247508,
	"step": 174
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.033854166666666685,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 918.0,
	"completions/mean_length": 155.64192962646484,
	"completions/mean_terminated_length": 125.11021041870117,
	"completions/min_length": 6.0,
	"completions/min_terminated_length": 6.0,
	"epoch": 2.6805293005671076,
	"grad_norm": 0.09938167780637741,
	"kl": 0.2503814697265625,
	"learning_rate": 1e-06,
	"loss": 0.054,
	"num_tokens": 47795091.0,
	"reward": 0.7676738500595093,
	"reward_std": 0.39470958709716797,
	"rewards/get_embedding_sim/mean": 0.5736633539199829,
	"rewards/get_embedding_sim/std": 0.09976038336753845,
	"rewards/reward_num_unique_chars/mean": 0.1940104141831398,
	"rewards/reward_num_unique_chars/std": 0.3958670049905777,
	"step": 177
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.017361111111111122,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 878.6666666666666,
	"completions/mean_length": 116.89757283528645,
	"completions/mean_terminated_length": 100.84752400716145,
	"completions/min_length": 6.333333333333333,
	"completions/min_terminated_length": 6.333333333333333,
	"epoch": 2.7258979206049148,
	"grad_norm": 0.1425255984067917,
	"kl": 0.2775370279947917,
	"learning_rate": 1e-06,
	"loss": 0.0481,
	"num_tokens": 48511037.0,
	"reward": 0.863362193107605,
	"reward_std": 0.4587005575497945,
	"rewards/get_embedding_sim/mean": 0.5473899245262146,
	"rewards/get_embedding_sim/std": 0.09922760476668675,
	"rewards/reward_num_unique_chars/mean": 0.3159722288449605,
	"rewards/reward_num_unique_chars/std": 0.4650394419829051,
	"step": 180
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.014756944444444456,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 891.3333333333334,
	"completions/mean_length": 102.27864837646484,
	"completions/mean_terminated_length": 88.46848042805989,
	"completions/min_length": 7.0,
	"completions/min_terminated_length": 7.0,
	"epoch": 2.7712665406427224,
	"grad_norm": 0.09843874722719193,
	"kl": 0.34393310546875,
	"learning_rate": 1e-06,
	"loss": 0.0436,
	"num_tokens": 49204478.0,
	"reward": 0.8661341269810995,
	"reward_std": 0.46143727501233417,
	"rewards/get_embedding_sim/mean": 0.5727312763532003,
	"rewards/get_embedding_sim/std": 0.11564485480388005,
	"rewards/reward_num_unique_chars/mean": 0.2934027711550395,
	"rewards/reward_num_unique_chars/std": 0.4531017243862152,
	"step": 183
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.01996527777777779,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 754.6666666666666,
	"completions/mean_length": 122.11806233723958,
	"completions/mean_terminated_length": 103.76323954264323,
	"completions/min_length": 5.666666666666667,
	"completions/min_terminated_length": 5.666666666666667,
	"epoch": 2.816635160680529,
	"grad_norm": 0.15066391229629517,
	"kl": 0.3179728190104167,
	"learning_rate": 1e-06,
	"loss": 0.0582,
	"num_tokens": 49927110.0,
	"reward": 0.892190178235372,
	"reward_std": 0.4511215090751648,
	"rewards/get_embedding_sim/mean": 0.5527804295221964,
	"rewards/get_embedding_sim/std": 0.1083058441678683,
	"rewards/reward_num_unique_chars/mean": 0.3394097238779068,
	"rewards/reward_num_unique_chars/std": 0.46636247634887695,
	"step": 186
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.022569444444444458,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 940.3333333333334,
	"completions/mean_length": 126.84115091959636,
	"completions/mean_terminated_length": 106.15006764729817,
	"completions/min_length": 7.333333333333333,
	"completions/min_terminated_length": 7.333333333333333,
	"epoch": 2.8620037807183367,
	"grad_norm": 2.990046739578247,
	"kl": 0.47100830078125,
	"learning_rate": 1e-06,
	"loss": 0.0551,
	"num_tokens": 50663055.0,
	"reward": 0.8623983860015869,
	"reward_std": 0.4631191889444987,
	"rewards/get_embedding_sim/mean": 0.5533705353736877,
	"rewards/get_embedding_sim/std": 0.11140244205792744,
	"rewards/reward_num_unique_chars/mean": 0.3090277810891469,
	"rewards/reward_num_unique_chars/std": 0.4615551829338074,
	"step": 189
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.01649305555555558,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 891.0,
	"completions/mean_length": 111.4730936686198,
	"completions/mean_terminated_length": 96.25564575195312,
	"completions/min_length": 5.333333333333333,
	"completions/min_terminated_length": 5.333333333333333,
	"epoch": 2.9073724007561434,
	"grad_norm": 0.11676046997308731,
	"kl": 0.4471232096354167,
	"learning_rate": 1e-06,
	"loss": 0.0481,
	"num_tokens": 51373952.0,
	"reward": 0.9203431606292725,
	"reward_std": 0.47053369879722595,
	"rewards/get_embedding_sim/mean": 0.5444750587145487,
	"rewards/get_embedding_sim/std": 0.1073705404996872,
	"rewards/reward_num_unique_chars/mean": 0.3758680522441864,
	"rewards/reward_num_unique_chars/std": 0.4811862111091614,
	"step": 192
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.016493055555555542,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 776.3333333333334,
	"completions/mean_length": 113.12673950195312,
	"completions/mean_terminated_length": 97.83474731445312,
	"completions/min_length": 8.666666666666666,
	"completions/min_terminated_length": 8.666666666666666,
	"epoch": 2.952741020793951,
	"grad_norm": 0.09854816645383835,
	"kl": 0.285675048828125,
	"learning_rate": 1e-06,
	"loss": 0.0465,
	"num_tokens": 52094098.0,
	"reward": 0.888769249121348,
	"reward_std": 0.46734312176704407,
	"rewards/get_embedding_sim/mean": 0.5519636472066244,
	"rewards/get_embedding_sim/std": 0.11934416989485423,
	"rewards/reward_num_unique_chars/mean": 0.3368055522441864,
	"rewards/reward_num_unique_chars/std": 0.4713793396949768,
	"step": 195
	},
	{
	"clip_ratio/high_max": 0.0,
	"clip_ratio/high_mean": 0.0,
	"clip_ratio/low_mean": 0.0,
	"clip_ratio/low_min": 0.0,
	"clip_ratio/region_mean": 0.0,
	"completions/clipped_ratio": 0.013888888888888876,
	"completions/max_length": 1024.0,
	"completions/max_terminated_length": 927.3333333333334,
	"completions/mean_length": 112.50087229410808,
	"completions/mean_terminated_length": 99.5953369140625,
	"completions/min_length": 7.0,
	"completions/min_terminated_length": 7.0,
	"epoch": 2.998109640831758,
	"grad_norm": 0.08575434237718582,
	"kl": 0.42242431640625,
	"learning_rate": 1e-06,
	"loss": 0.0494,
	"num_tokens": 52800707.0,
	"reward": 0.9310129086176554,
	"reward_std": 0.4663335382938385,
	"rewards/get_embedding_sim/mean": 0.5603530804316202,
	"rewards/get_embedding_sim/std": 0.10822075108687083,
	"rewards/reward_num_unique_chars/mean": 0.3706597288449605,
	"rewards/reward_num_unique_chars/std": 0.4820249378681183,
	"step": 198
	}
	],
	"logging_steps": 3,
	"max_steps": 198,
	"num_input_tokens_seen": 52800707,
	"num_train_epochs": 3,
	"save_steps": 25,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}