Instructions to use bimabk/environment_test_affine with libraries, inference providers, notebooks, and local apps. Follow these links to get started.

Libraries
PEFT
How to use bimabk/environment_test_affine with PEFT:
```
Base model is not found.
```

How to use bimabk/environment_test_affine with Transformers:

# Use a pipeline as a high-level helper
from transformers import pipeline

pipe = pipeline("text-generation", model="bimabk/environment_test_affine")
messages = [
    {"role": "user", "content": "Who are you?"},
]
pipe(messages)

# Load model directly
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("bimabk/environment_test_affine")
model = AutoModelForCausalLM.from_pretrained("bimabk/environment_test_affine")
messages = [
    {"role": "user", "content": "Who are you?"},
]
inputs = tokenizer.apply_chat_template(
	messages,
	add_generation_prompt=True,
	tokenize=True,
	return_dict=True,
	return_tensors="pt",
).to(model.device)

outputs = model.generate(**inputs, max_new_tokens=40)
print(tokenizer.decode(outputs[0][inputs["input_ids"].shape[-1]:]))

Inference
Notebooks
Google Colab
Kaggle
Local Apps

vLLM

How to use bimabk/environment_test_affine with vLLM:

Install from pip and serve model

# Install vLLM from pip:
pip install vllm
# Start the vLLM server:
vllm serve "bimabk/environment_test_affine"
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:8000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "bimabk/environment_test_affine",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Use Docker

docker model run hf.co/bimabk/environment_test_affine

SGLang

How to use bimabk/environment_test_affine with SGLang:

Install from pip and serve model

# Install SGLang from pip:
pip install sglang
# Start the SGLang server:
python3 -m sglang.launch_server \
    --model-path "bimabk/environment_test_affine" \
    --host 0.0.0.0 \
    --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "bimabk/environment_test_affine",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Use Docker images

docker run --gpus all \
    --shm-size 32g \
    -p 30000:30000 \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    --env "HF_TOKEN=<secret>" \
    --ipc=host \
    lmsysorg/sglang:latest \
    python3 -m sglang.launch_server \
        --model-path "bimabk/environment_test_affine" \
        --host 0.0.0.0 \
        --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "bimabk/environment_test_affine",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Docker Model Runner
How to use bimabk/environment_test_affine with Docker Model Runner:
```
docker model run hf.co/bimabk/environment_test_affine
```

bimabk commited on Mar 2

Commit

5ed91fc

verified ·

1 Parent(s): 4814b81

Upload task output 1

Browse files

Files changed (6) hide show

adapter_config.json +5 -5
adapter_model.safetensors +1 -1
loss.txt +1 -1
tokenizer.json +2 -2
trainer_state.json +217 -1720
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -29,13 +29,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "v_proj",
-    "down_proj",
-    "up_proj",
     "o_proj",
     "k_proj",
-    "gate_proj",
-    "q_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "gate_proj",
     "o_proj",
+    "v_proj",
+    "q_proj",
     "k_proj",
+    "up_proj",
+    "down_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8d4e9eebb2b73438828d23b8d54ab10ce0c2534a61b6aa0633e1866c67f9e1d8
 size 319876032

 version https://git-lfs.github.com/spec/v1
+oid sha256:4ec359459fe517709f85e49817da65dc6bc2ef784dff0e2f3f9dd5a384abdc9d
 size 319876032

loss.txt CHANGED Viewed

	@@ -1 +1 @@
1	- 75,~~no_eval~~


1	+ 10,18.063774490356444

tokenizer.json CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2206073a6598893988ad5f1d96aa193d274fd6ad2a8d8c7ab8f56b29b6d4d0aa
-size 3620731

 version https://git-lfs.github.com/spec/v1
+oid sha256:ef304ea6a0a92c4275c959dd6e1a896bca7e36af0adb2ce25563e7c11bf3927f
+size 3620829

trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.0015,
   "eval_steps": 500,
-  "global_step": 75,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -15,32 +15,32 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.75,
       "completions/max_length": 16.0,
-      "completions/max_terminated_length": 12.0,
-      "completions/mean_length": 14.0625,
-      "completions/mean_terminated_length": 8.25,
-      "completions/min_length": 4.0,
-      "completions/min_terminated_length": 4.0,
-      "entropy": 0.5195984467864037,
       "epoch": 2e-05,
       "frac_reward_zero_std": 0.0,
-      "grad_norm": 0.5884848833084106,
       "kl": 0.0,
       "learning_rate": 0.0,
-      "loss": 0.0687,
-      "num_tokens": 53025.0,
-      "reward": -18.636951446533203,
-      "reward_std": 16.357603073120117,
-      "rewards/rollout_reward_func/mean": -18.636951446533203,
-      "rewards/rollout_reward_func/std": 16.357603073120117,
-      "sampling/importance_sampling_ratio/max": 1.261159062385559,
-      "sampling/importance_sampling_ratio/mean": 1.0131760835647583,
-      "sampling/importance_sampling_ratio/min": 0.8812755942344666,
-      "sampling/sampling_logp_difference/max": 0.1213843822479248,
-      "sampling/sampling_logp_difference/mean": 0.012358092702925205,
       "step": 1,
-      "step_time": 13.533009208999829
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -48,302 +48,143 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
-      "entropy": 0.5195984467864037,
       "epoch": 4e-05,
-      "grad_norm": 0.5867869853973389,
       "kl": 0.0,
-      "learning_rate": 8.571428571428572e-08,
-      "loss": 0.0687,
       "step": 2,
-      "step_time": 3.5312206580001657
     },
     {
       "clip_ratio/high_max": 0.0,
       "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.75,
       "completions/max_length": 16.0,
-      "completions/max_terminated_length": 15.0,
-      "completions/mean_length": 14.9375,
-      "completions/mean_terminated_length": 11.75,
-      "completions/min_length": 5.0,
-      "completions/min_terminated_length": 5.0,
-      "entropy": 0.42067771404981613,
       "epoch": 6e-05,
       "frac_reward_zero_std": 0.0,
-      "grad_norm": 0.45643824338912964,
-      "kl": 0.0004211474661133252,
-      "learning_rate": 1.7142857142857143e-07,
-      "loss": 0.0769,
-      "num_tokens": 106238.0,
-      "reward": -19.64282989501953,
-      "reward_std": 15.413658142089844,
-      "rewards/rollout_reward_func/mean": -19.64282989501953,
-      "rewards/rollout_reward_func/std": 15.413658142089844,
-      "sampling/importance_sampling_ratio/max": 1.2733169794082642,
-      "sampling/importance_sampling_ratio/mean": 0.978705644607544,
-      "sampling/importance_sampling_ratio/min": 0.7849969863891602,
-      "sampling/sampling_logp_difference/max": 0.22296667098999023,
-      "sampling/sampling_logp_difference/mean": 0.011069882661104202,
       "step": 3,
-      "step_time": 13.39454092699998
     },
     {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "entropy": 0.4206809252500534,
       "epoch": 8e-05,
-      "grad_norm": 0.4594491124153137,
-      "kl": 0.00033940414868993685,
-      "learning_rate": 2.5714285714285716e-07,
-      "loss": 0.0761,
       "step": 4,
-      "step_time": 3.593265089999477
     },
     {
-      "clip_ratio/high_max": 0.009259259328246117,
-      "clip_ratio/high_mean": 0.002314814832061529,
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.002314814832061529,
-      "completions/clipped_ratio": 0.65625,
       "completions/max_length": 16.0,
-      "completions/max_terminated_length": 15.0,
-      "completions/mean_length": 13.5625,
-      "completions/mean_terminated_length": 8.909090995788574,
       "completions/min_length": 4.0,
       "completions/min_terminated_length": 4.0,
-      "entropy": 0.42936040461063385,
       "epoch": 0.0001,
       "frac_reward_zero_std": 0.0,
-      "grad_norm": 0.4430800974369049,
-      "kl": 0.0005995778919896111,
-      "learning_rate": 3.4285714285714286e-07,
-      "loss": -0.0094,
-      "num_tokens": 158161.0,
-      "reward": -25.30706787109375,
-      "reward_std": 12.832451820373535,
-      "rewards/rollout_reward_func/mean": -25.30706787109375,
-      "rewards/rollout_reward_func/std": 12.832451820373535,
-      "sampling/importance_sampling_ratio/max": 1.1259655952453613,
-      "sampling/importance_sampling_ratio/mean": 0.955443263053894,
-      "sampling/importance_sampling_ratio/min": 0.759828507900238,
-      "sampling/sampling_logp_difference/max": 0.24739313125610352,
-      "sampling/sampling_logp_difference/mean": 0.012292729690670967,
       "step": 5,
-      "step_time": 13.135760864000076
     },
     {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "entropy": 0.42947498708963394,
       "epoch": 0.00012,
-      "grad_norm": 0.4316604435443878,
-      "kl": 0.00045547448826255277,
-      "learning_rate": 4.2857142857142857e-07,
-      "loss": -0.0102,
       "step": 6,
-      "step_time": 3.579201618999832
-    },
-    {
-      "clip_ratio/high_max": 0.008620689623057842,
-      "clip_ratio/high_mean": 0.0021551724057644606,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0021551724057644606,
-      "completions/clipped_ratio": 0.6875,
-      "completions/max_length": 16.0,
-      "completions/max_terminated_length": 14.0,
-      "completions/mean_length": 13.6875,
-      "completions/mean_terminated_length": 8.600000381469727,
-      "completions/min_length": 4.0,
-      "completions/min_terminated_length": 4.0,
-      "entropy": 0.42659611254930496,
-      "epoch": 0.00014,
-      "frac_reward_zero_std": 0.0,
-      "grad_norm": 0.47957348823547363,
-      "kl": 0.00030913886985217687,
-      "learning_rate": 5.142857142857143e-07,
-      "loss": 0.1087,
-      "num_tokens": 209683.0,
-      "reward": -21.248210906982422,
-      "reward_std": 16.31087303161621,
-      "rewards/rollout_reward_func/mean": -21.248210906982422,
-      "rewards/rollout_reward_func/std": 16.31087303161621,
-      "sampling/importance_sampling_ratio/max": 1.2203210592269897,
-      "sampling/importance_sampling_ratio/mean": 0.9698781967163086,
-      "sampling/importance_sampling_ratio/min": 0.6302762627601624,
-      "sampling/sampling_logp_difference/max": 0.24562978744506836,
-      "sampling/sampling_logp_difference/mean": 0.011444764211773872,
-      "step": 7,
-      "step_time": 13.088727697000195
-    },
-    {
-      "clip_ratio/high_max": 0.008620689623057842,
-      "clip_ratio/high_mean": 0.004108297638595104,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.004108297638595104,
-      "entropy": 0.4278160482645035,
-      "epoch": 0.00016,
-      "grad_norm": 0.4772587716579437,
-      "kl": 0.000408434629207477,
-      "learning_rate": 6.000000000000001e-07,
-      "loss": 0.108,
-      "step": 8,
-      "step_time": 4.637348582999948
-    },
-    {
-      "clip_ratio/high_max": 0.008064515888690948,
-      "clip_ratio/high_mean": 0.002016128972172737,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.002016128972172737,
-      "completions/clipped_ratio": 0.84375,
-      "completions/max_length": 16.0,
-      "completions/max_terminated_length": 15.0,
-      "completions/mean_length": 15.34375,
-      "completions/mean_terminated_length": 11.800000190734863,
-      "completions/min_length": 6.0,
-      "completions/min_terminated_length": 6.0,
-      "entropy": 0.39533767104148865,
-      "epoch": 0.00018,
-      "frac_reward_zero_std": 0.0,
-      "grad_norm": 0.4479968845844269,
-      "kl": 0.0003632318548625335,
-      "learning_rate": 6.857142857142857e-07,
-      "loss": 0.0331,
-      "num_tokens": 262786.0,
-      "reward": -20.36313247680664,
-      "reward_std": 12.939953804016113,
-      "rewards/rollout_reward_func/mean": -20.36313247680664,
-      "rewards/rollout_reward_func/std": 12.939953804016113,
-      "sampling/importance_sampling_ratio/max": 1.270872712135315,
-      "sampling/importance_sampling_ratio/mean": 1.0103130340576172,
-      "sampling/importance_sampling_ratio/min": 0.8130013346672058,
-      "sampling/sampling_logp_difference/max": 0.18152618408203125,
-      "sampling/sampling_logp_difference/mean": 0.010795784182846546,
-      "step": 9,
-      "step_time": 12.636375802000202
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "entropy": 0.3951461538672447,
-      "epoch": 0.0002,
-      "grad_norm": 0.4540300667285919,
-      "kl": 0.00028537910839077085,
-      "learning_rate": 7.714285714285714e-07,
-      "loss": 0.0341,
-      "step": 10,
-      "step_time": 3.5246556089996375
-    },
-    {
-      "clip_ratio/high_max": 0.0078125,
-      "clip_ratio/high_mean": 0.001953125,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.001953125,
-      "completions/clipped_ratio": 0.84375,
-      "completions/max_length": 16.0,
-      "completions/max_terminated_length": 16.0,
-      "completions/mean_length": 15.09375,
-      "completions/mean_terminated_length": 10.199999809265137,
-      "completions/min_length": 4.0,
-      "completions/min_terminated_length": 4.0,
-      "entropy": 0.44926057010889053,
-      "epoch": 0.00022,
-      "frac_reward_zero_std": 0.0,
-      "grad_norm": 0.6062055826187134,
-      "kl": 0.0004280444991309196,
-      "learning_rate": 8.571428571428571e-07,
-      "loss": 0.1022,
-      "num_tokens": 316291.0,
-      "reward": -22.426130294799805,
-      "reward_std": 11.176600456237793,
-      "rewards/rollout_reward_func/mean": -22.426130294799805,
-      "rewards/rollout_reward_func/std": 11.17660140991211,
-      "sampling/importance_sampling_ratio/max": 1.3410085439682007,
-      "sampling/importance_sampling_ratio/mean": 1.018998384475708,
-      "sampling/importance_sampling_ratio/min": 0.8014979362487793,
-      "sampling/sampling_logp_difference/max": 0.26187610626220703,
-      "sampling/sampling_logp_difference/mean": 0.011133530177175999,
-      "step": 11,
-      "step_time": 13.926207335999152
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "entropy": 0.4503633603453636,
-      "epoch": 0.00024,
-      "grad_norm": 0.6362693905830383,
-      "kl": 0.0003500747407088056,
-      "learning_rate": 9.428571428571429e-07,
-      "loss": 0.1016,
-      "step": 12,
-      "step_time": 3.686019106999538
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.84375,
-      "completions/max_length": 16.0,
-      "completions/max_terminated_length": 15.0,
-      "completions/mean_length": 15.03125,
-      "completions/mean_terminated_length": 9.800000190734863,
-      "completions/min_length": 3.0,
-      "completions/min_terminated_length": 3.0,
-      "entropy": 0.47256265580654144,
-      "epoch": 0.00026,
-      "frac_reward_zero_std": 0.0,
-      "grad_norm": 0.3631357252597809,
-      "kl": 0.0003765556830330752,
-      "learning_rate": 1.0285714285714286e-06,
-      "loss": 0.0954,
-      "num_tokens": 367798.0,
-      "reward": -21.7075138092041,
-      "reward_std": 14.198619842529297,
-      "rewards/rollout_reward_func/mean": -21.7075138092041,
-      "rewards/rollout_reward_func/std": 14.198619842529297,
-      "sampling/importance_sampling_ratio/max": 1.2773635387420654,
-      "sampling/importance_sampling_ratio/mean": 0.995408833026886,
-      "sampling/importance_sampling_ratio/min": 0.778171181678772,
-      "sampling/sampling_logp_difference/max": 0.18239641189575195,
-      "sampling/sampling_logp_difference/mean": 0.010933874174952507,
-      "step": 13,
-      "step_time": 12.429970339999727
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "entropy": 0.4725050553679466,
-      "epoch": 0.00028,
-      "grad_norm": 0.3502637445926666,
-      "kl": 0.00048724883527029306,
-      "learning_rate": 1.1142857142857143e-06,
-      "loss": 0.0956,
-      "step": 14,
-      "step_time": 3.513378806000219
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -353,333 +194,30 @@
       "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.78125,
       "completions/max_length": 16.0,
-      "completions/max_terminated_length": 15.0,
       "completions/mean_length": 14.6875,
       "completions/mean_terminated_length": 10.0,
-      "completions/min_length": 4.0,
-      "completions/min_terminated_length": 4.0,
-      "entropy": 0.48245932161808014,
-      "epoch": 0.0003,
-      "frac_reward_zero_std": 0.0,
-      "grad_norm": 0.5791538953781128,
-      "kl": 0.00043258603545837104,
-      "learning_rate": 1.2000000000000002e-06,
-      "loss": 0.0699,
-      "num_tokens": 422015.0,
-      "reward": -18.020889282226562,
-      "reward_std": 14.099430084228516,
-      "rewards/rollout_reward_func/mean": -18.020889282226562,
-      "rewards/rollout_reward_func/std": 14.0994291305542,
-      "sampling/importance_sampling_ratio/max": 1.131913423538208,
-      "sampling/importance_sampling_ratio/mean": 0.9780954122543335,
-      "sampling/importance_sampling_ratio/min": 0.7532981038093567,
-      "sampling/sampling_logp_difference/max": 0.2378932237625122,
-      "sampling/sampling_logp_difference/mean": 0.01171853393316269,
-      "step": 15,
-      "step_time": 12.757522889000484
-    },
-    {
-      "clip_ratio/high_max": 0.012500000186264515,
-      "clip_ratio/high_mean": 0.0031250000465661287,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0031250000465661287,
-      "entropy": 0.48212701082229614,
-      "epoch": 0.00032,
-      "grad_norm": 0.5567578077316284,
-      "kl": 0.0003868155945383478,
-      "learning_rate": 1.2857142857142856e-06,
-      "loss": 0.0683,
-      "step": 16,
-      "step_time": 3.6391623570002594
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.6875,
-      "completions/max_length": 16.0,
-      "completions/max_terminated_length": 15.0,
-      "completions/mean_length": 14.125,
-      "completions/mean_terminated_length": 10.0,
       "completions/min_length": 3.0,
       "completions/min_terminated_length": 3.0,
-      "entropy": 0.3981349244713783,
-      "epoch": 0.00034,
-      "frac_reward_zero_std": 0.0,
-      "grad_norm": 0.46128952503204346,
-      "kl": 0.00022623784388997592,
-      "learning_rate": 1.3714285714285715e-06,
-      "loss": 0.093,
-      "num_tokens": 476133.0,
-      "reward": -17.307281494140625,
-      "reward_std": 17.012971878051758,
-      "rewards/rollout_reward_func/mean": -17.307281494140625,
-      "rewards/rollout_reward_func/std": 17.012971878051758,
-      "sampling/importance_sampling_ratio/max": 1.3407179117202759,
-      "sampling/importance_sampling_ratio/mean": 1.0220906734466553,
-      "sampling/importance_sampling_ratio/min": 0.7680003643035889,
-      "sampling/sampling_logp_difference/max": 0.22670793533325195,
-      "sampling/sampling_logp_difference/mean": 0.01049777027219534,
-      "step": 17,
-      "step_time": 14.12015571899974
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "entropy": 0.3973981589078903,
-      "epoch": 0.00036,
-      "grad_norm": 0.4621075987815857,
-      "kl": 0.0002368360073887743,
-      "learning_rate": 1.4571428571428571e-06,
-      "loss": 0.0935,
-      "step": 18,
-      "step_time": 4.419824714000242
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.75,
-      "completions/max_length": 16.0,
-      "completions/max_terminated_length": 16.0,
-      "completions/mean_length": 14.53125,
-      "completions/mean_terminated_length": 10.125,
-      "completions/min_length": 4.0,
-      "completions/min_terminated_length": 4.0,
-      "entropy": 0.4408823549747467,
-      "epoch": 0.00038,
-      "frac_reward_zero_std": 0.0,
-      "grad_norm": 0.49735671281814575,
-      "kl": 0.00043844833271577954,
-      "learning_rate": 1.5428571428571428e-06,
-      "loss": 0.0479,
-      "num_tokens": 528759.0,
-      "reward": -20.804988861083984,
-      "reward_std": 14.42788314819336,
-      "rewards/rollout_reward_func/mean": -20.804988861083984,
-      "rewards/rollout_reward_func/std": 14.42788314819336,
-      "sampling/importance_sampling_ratio/max": 1.2070324420928955,
-      "sampling/importance_sampling_ratio/mean": 0.9982270002365112,
-      "sampling/importance_sampling_ratio/min": 0.8168321251869202,
-      "sampling/sampling_logp_difference/max": 0.16861987113952637,
-      "sampling/sampling_logp_difference/mean": 0.010207044892013073,
-      "step": 19,
-      "step_time": 12.619404869999471
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "entropy": 0.44093089550733566,
-      "epoch": 0.0004,
-      "grad_norm": 0.4937126040458679,
-      "kl": 0.00047725086915306747,
-      "learning_rate": 1.6285714285714284e-06,
-      "loss": 0.0483,
-      "step": 20,
-      "step_time": 3.610557893000532
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.75,
-      "completions/max_length": 16.0,
-      "completions/max_terminated_length": 16.0,
-      "completions/mean_length": 14.78125,
-      "completions/mean_terminated_length": 11.125,
-      "completions/min_length": 4.0,
-      "completions/min_terminated_length": 4.0,
-      "entropy": 0.4765045493841171,
-      "epoch": 0.00042,
-      "frac_reward_zero_std": 0.0,
-      "grad_norm": 0.4461357593536377,
-      "kl": 0.00039704455411992967,
-      "learning_rate": 1.7142857142857143e-06,
-      "loss": 0.0319,
-      "num_tokens": 582547.0,
-      "reward": -21.366497039794922,
-      "reward_std": 13.540549278259277,
-      "rewards/rollout_reward_func/mean": -21.366497039794922,
-      "rewards/rollout_reward_func/std": 13.540549278259277,
-      "sampling/importance_sampling_ratio/max": 1.3568636178970337,
-      "sampling/importance_sampling_ratio/mean": 0.9794997572898865,
-      "sampling/importance_sampling_ratio/min": 0.7170642018318176,
-      "sampling/sampling_logp_difference/max": 0.17396187782287598,
-      "sampling/sampling_logp_difference/mean": 0.011949114501476288,
-      "step": 21,
-      "step_time": 13.120537562000209
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "entropy": 0.4768811762332916,
-      "epoch": 0.00044,
-      "grad_norm": 0.42503097653388977,
-      "kl": 0.0004109822984901257,
-      "learning_rate": 1.8e-06,
-      "loss": 0.0334,
-      "step": 22,
-      "step_time": 3.706944928000212
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.8125,
-      "completions/max_length": 16.0,
-      "completions/max_terminated_length": 15.0,
-      "completions/mean_length": 14.84375,
-      "completions/mean_terminated_length": 9.833333969116211,
-      "completions/min_length": 4.0,
-      "completions/min_terminated_length": 4.0,
-      "entropy": 0.5320451036095619,
-      "epoch": 0.00046,
-      "frac_reward_zero_std": 0.0,
-      "grad_norm": 0.4428236186504364,
-      "kl": 0.0005832012830069289,
-      "learning_rate": 1.8857142857142858e-06,
-      "loss": 0.092,
-      "num_tokens": 634760.0,
-      "reward": -19.927682876586914,
-      "reward_std": 16.771766662597656,
-      "rewards/rollout_reward_func/mean": -19.927682876586914,
-      "rewards/rollout_reward_func/std": 16.771766662597656,
-      "sampling/importance_sampling_ratio/max": 1.4887969493865967,
-      "sampling/importance_sampling_ratio/mean": 1.030691146850586,
-      "sampling/importance_sampling_ratio/min": 0.8164731860160828,
-      "sampling/sampling_logp_difference/max": 0.2149658203125,
-      "sampling/sampling_logp_difference/mean": 0.013042854145169258,
-      "step": 23,
-      "step_time": 12.996803623999767
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "entropy": 0.5324564427137375,
-      "epoch": 0.00048,
-      "grad_norm": 0.438973069190979,
-      "kl": 0.0006122617051005363,
-      "learning_rate": 1.9714285714285714e-06,
-      "loss": 0.0906,
-      "step": 24,
-      "step_time": 3.5907621789997393
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.78125,
-      "completions/max_length": 16.0,
-      "completions/max_terminated_length": 16.0,
-      "completions/mean_length": 14.5625,
-      "completions/mean_terminated_length": 9.428571701049805,
-      "completions/min_length": 4.0,
-      "completions/min_terminated_length": 4.0,
-      "entropy": 0.4107111692428589,
-      "epoch": 0.0005,
-      "frac_reward_zero_std": 0.0,
-      "grad_norm": 0.48443400859832764,
-      "kl": 0.0005294791480991989,
-      "learning_rate": 2.0571428571428573e-06,
-      "loss": 0.0265,
-      "num_tokens": 686641.0,
-      "reward": -24.298006057739258,
-      "reward_std": 11.884275436401367,
-      "rewards/rollout_reward_func/mean": -24.298006057739258,
-      "rewards/rollout_reward_func/std": 11.88427448272705,
-      "sampling/importance_sampling_ratio/max": 1.3545169830322266,
-      "sampling/importance_sampling_ratio/mean": 1.0202080011367798,
-      "sampling/importance_sampling_ratio/min": 0.8227697610855103,
-      "sampling/sampling_logp_difference/max": 0.19383776187896729,
-      "sampling/sampling_logp_difference/mean": 0.010375281795859337,
-      "step": 25,
-      "step_time": 11.739334979000432
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "entropy": 0.41023270785808563,
-      "epoch": 0.00052,
-      "grad_norm": 0.4764305651187897,
-      "kl": 0.0004724617610918358,
-      "learning_rate": 2.142857142857143e-06,
-      "loss": 0.0261,
-      "step": 26,
-      "step_time": 3.5787725539998974
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.71875,
-      "completions/max_length": 16.0,
-      "completions/max_terminated_length": 16.0,
-      "completions/mean_length": 14.09375,
-      "completions/mean_terminated_length": 9.222222328186035,
-      "completions/min_length": 4.0,
-      "completions/min_terminated_length": 4.0,
-      "entropy": 0.42711327224969864,
-      "epoch": 0.00054,
       "frac_reward_zero_std": 0.0,
-      "grad_norm": 0.5134465098381042,
-      "kl": 0.00047725687181809917,
-      "learning_rate": 2.2285714285714286e-06,
-      "loss": 0.1005,
-      "num_tokens": 739663.0,
-      "reward": -21.107803344726562,
-      "reward_std": 12.081624984741211,
-      "rewards/rollout_reward_func/mean": -21.107803344726562,
-      "rewards/rollout_reward_func/std": 12.081623077392578,
-      "sampling/importance_sampling_ratio/max": 1.1832900047302246,
-      "sampling/importance_sampling_ratio/mean": 0.9839767813682556,
-      "sampling/importance_sampling_ratio/min": 0.7083062529563904,
-      "sampling/sampling_logp_difference/max": 0.24417352676391602,
-      "sampling/sampling_logp_difference/mean": 0.015798263251781464,
-      "step": 27,
-      "step_time": 13.923148167000363
-    },
-    {
-      "clip_ratio/high_max": 0.0078125,
-      "clip_ratio/high_mean": 0.001953125,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.001953125,
-      "entropy": 0.4274953231215477,
-      "epoch": 0.00056,
-      "grad_norm": 0.5122133493423462,
-      "kl": 0.0005963902549410705,
-      "learning_rate": 2.3142857142857145e-06,
-      "loss": 0.1015,
-      "step": 28,
-      "step_time": 3.6348850080003103
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -687,47 +225,14 @@
       "clip_ratio/low_mean": 0.001953125,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.001953125,
-      "completions/clipped_ratio": 0.84375,
-      "completions/max_length": 16.0,
-      "completions/max_terminated_length": 15.0,
-      "completions/mean_length": 15.15625,
-      "completions/mean_terminated_length": 10.600000381469727,
-      "completions/min_length": 4.0,
-      "completions/min_terminated_length": 4.0,
-      "entropy": 0.44716596603393555,
-      "epoch": 0.00058,
-      "frac_reward_zero_std": 0.0,
-      "grad_norm": 0.47282618284225464,
-      "kl": 0.000547109026229009,
-      "learning_rate": 2.4000000000000003e-06,
-      "loss": 0.0551,
-      "num_tokens": 791760.0,
-      "reward": -22.874284744262695,
-      "reward_std": 16.014789581298828,
-      "rewards/rollout_reward_func/mean": -22.874284744262695,
-      "rewards/rollout_reward_func/std": 16.014787673950195,
-      "sampling/importance_sampling_ratio/max": 1.445327639579773,
-      "sampling/importance_sampling_ratio/mean": 0.9864210486412048,
-      "sampling/importance_sampling_ratio/min": 0.6746537685394287,
-      "sampling/sampling_logp_difference/max": 0.24254560470581055,
-      "sampling/sampling_logp_difference/mean": 0.01340758427977562,
-      "step": 29,
-      "step_time": 12.450915582999642
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0024038462433964014,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0024038462433964014,
-      "entropy": 0.44682736694812775,
-      "epoch": 0.0006,
-      "grad_norm": 0.47560998797416687,
-      "kl": 0.0005742600187659264,
-      "learning_rate": 2.4857142857142858e-06,
-      "loss": 0.0575,
-      "step": 30,
-      "step_time": 3.652044981000472
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -735,32 +240,32 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.78125,
       "completions/max_length": 16.0,
-      "completions/max_terminated_length": 14.0,
-      "completions/mean_length": 14.4375,
-      "completions/mean_terminated_length": 8.85714340209961,
-      "completions/min_length": 4.0,
-      "completions/min_terminated_length": 4.0,
-      "entropy": 0.4201854541897774,
-      "epoch": 0.00062,
       "frac_reward_zero_std": 0.0,
-      "grad_norm": 0.523423969745636,
-      "kl": 0.0003851138026220724,
-      "learning_rate": 2.571428571428571e-06,
-      "loss": 0.0874,
-      "num_tokens": 844586.0,
-      "reward": -21.070207595825195,
-      "reward_std": 17.62769317626953,
-      "rewards/rollout_reward_func/mean": -21.070207595825195,
-      "rewards/rollout_reward_func/std": 17.62769317626953,
-      "sampling/importance_sampling_ratio/max": 1.375394344329834,
-      "sampling/importance_sampling_ratio/mean": 0.9897651672363281,
-      "sampling/importance_sampling_ratio/min": 0.694791316986084,
-      "sampling/sampling_logp_difference/max": 0.20741581916809082,
-      "sampling/sampling_logp_difference/mean": 0.010995335876941681,
-      "step": 31,
-      "step_time": 12.358129288999862
     },
     {
       "clip_ratio/high_max": 0.0,
@@ -768,1060 +273,52 @@
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
-      "entropy": 0.4208702892065048,
-      "epoch": 0.00064,
-      "grad_norm": 0.490420937538147,
-      "kl": 0.00032598181496723555,
-      "learning_rate": 2.657142857142857e-06,
-      "loss": 0.0874,
-      "step": 32,
-      "step_time": 3.600919356000759
     },
     {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.84375,
-      "completions/max_length": 16.0,
-      "completions/max_terminated_length": 13.0,
-      "completions/mean_length": 15.0,
-      "completions/mean_terminated_length": 9.600000381469727,
-      "completions/min_length": 4.0,
-      "completions/min_terminated_length": 4.0,
-      "entropy": 0.45302998274564743,
-      "epoch": 0.00066,
-      "frac_reward_zero_std": 0.0,
-      "grad_norm": 0.45933911204338074,
-      "kl": 0.00046427604684140533,
-      "learning_rate": 2.742857142857143e-06,
-      "loss": 0.0425,
-      "num_tokens": 896932.0,
-      "reward": -21.56837272644043,
-      "reward_std": 17.189640045166016,
-      "rewards/rollout_reward_func/mean": -21.56837272644043,
-      "rewards/rollout_reward_func/std": 17.189638137817383,
-      "sampling/importance_sampling_ratio/max": 1.3717750310897827,
-      "sampling/importance_sampling_ratio/mean": 1.0236396789550781,
-      "sampling/importance_sampling_ratio/min": 0.7908633947372437,
-      "sampling/sampling_logp_difference/max": 0.16204869747161865,
-      "sampling/sampling_logp_difference/mean": 0.011112736538052559,
-      "step": 33,
-      "step_time": 12.270265751999887
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.001953125,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.001953125,
-      "entropy": 0.45316264033317566,
-      "epoch": 0.00068,
-      "grad_norm": 0.47820040583610535,
-      "kl": 0.0006169998086988926,
-      "learning_rate": 2.8285714285714288e-06,
-      "loss": 0.0429,
-      "step": 34,
-      "step_time": 3.612241633999929
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.84375,
-      "completions/max_length": 16.0,
-      "completions/max_terminated_length": 16.0,
-      "completions/mean_length": 15.09375,
-      "completions/mean_terminated_length": 10.199999809265137,
-      "completions/min_length": 4.0,
-      "completions/min_terminated_length": 4.0,
-      "entropy": 0.42138345539569855,
-      "epoch": 0.0007,
-      "frac_reward_zero_std": 0.0,
-      "grad_norm": 0.46025797724723816,
-      "kl": 0.0004996234347345307,
-      "learning_rate": 2.9142857142857142e-06,
-      "loss": 0.053,
-      "num_tokens": 948802.0,
-      "reward": -24.316551208496094,
-      "reward_std": 12.835836410522461,
-      "rewards/rollout_reward_func/mean": -24.316551208496094,
-      "rewards/rollout_reward_func/std": 12.835835456848145,
-      "sampling/importance_sampling_ratio/max": 1.328806757926941,
-      "sampling/importance_sampling_ratio/mean": 1.0274875164031982,
-      "sampling/importance_sampling_ratio/min": 0.894749641418457,
-      "sampling/sampling_logp_difference/max": 0.18797016143798828,
-      "sampling/sampling_logp_difference/mean": 0.011560991406440735,
-      "step": 35,
-      "step_time": 13.08812723400024
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.001953125,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.001953125,
-      "entropy": 0.42126451432704926,
-      "epoch": 0.00072,
-      "grad_norm": 0.43526744842529297,
-      "kl": 0.000492801918881014,
-      "learning_rate": 3e-06,
-      "loss": 0.054,
-      "step": 36,
-      "step_time": 4.318984840999747
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.75,
-      "completions/max_length": 16.0,
-      "completions/max_terminated_length": 15.0,
-      "completions/mean_length": 14.53125,
-      "completions/mean_terminated_length": 10.125,
-      "completions/min_length": 4.0,
-      "completions/min_terminated_length": 4.0,
-      "entropy": 0.4301793724298477,
-      "epoch": 0.00074,
-      "frac_reward_zero_std": 0.0,
-      "grad_norm": 0.3941028416156769,
-      "kl": 0.0006222588490345515,
-      "learning_rate": 2.999999999444446e-06,
-      "loss": 0.058,
-      "num_tokens": 1001889.0,
-      "reward": -21.4174861907959,
-      "reward_std": 12.194807052612305,
-      "rewards/rollout_reward_func/mean": -21.4174861907959,
-      "rewards/rollout_reward_func/std": 12.194808006286621,
-      "sampling/importance_sampling_ratio/max": 1.2621595859527588,
-      "sampling/importance_sampling_ratio/mean": 1.006618618965149,
-      "sampling/importance_sampling_ratio/min": 0.8662732243537903,
-      "sampling/sampling_logp_difference/max": 0.19760990142822266,
-      "sampling/sampling_logp_difference/mean": 0.00977108720690012,
-      "step": 37,
-      "step_time": 12.948201442999562
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "entropy": 0.43141717463731766,
-      "epoch": 0.00076,
-      "grad_norm": 0.39947450160980225,
-      "kl": 0.000883200435055187,
-      "learning_rate": 2.9999999977777837e-06,
-      "loss": 0.0575,
-      "step": 38,
-      "step_time": 3.602961716000209
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.71875,
-      "completions/max_length": 16.0,
-      "completions/max_terminated_length": 15.0,
-      "completions/mean_length": 13.625,
-      "completions/mean_terminated_length": 7.555555820465088,
-      "completions/min_length": 3.0,
-      "completions/min_terminated_length": 3.0,
-      "entropy": 0.48835278302431107,
-      "epoch": 0.00078,
-      "frac_reward_zero_std": 0.125,
-      "grad_norm": 0.39885786175727844,
-      "kl": 0.0009218690829584375,
-      "learning_rate": 2.9999999950000137e-06,
-      "loss": 0.0949,
-      "num_tokens": 1056411.0,
-      "reward": -22.038280487060547,
-      "reward_std": 14.705154418945312,
-      "rewards/rollout_reward_func/mean": -22.038280487060547,
-      "rewards/rollout_reward_func/std": 14.705153465270996,
-      "sampling/importance_sampling_ratio/max": 1.3119615316390991,
-      "sampling/importance_sampling_ratio/mean": 1.0176267623901367,
-      "sampling/importance_sampling_ratio/min": 0.7629126310348511,
-      "sampling/sampling_logp_difference/max": 0.12403631210327148,
-      "sampling/sampling_logp_difference/mean": 0.01314721629023552,
-      "step": 39,
-      "step_time": 12.314849860000322
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "entropy": 0.4897266551852226,
-      "epoch": 0.0008,
-      "grad_norm": 0.3934723734855652,
-      "kl": 0.0010027830867329612,
-      "learning_rate": 2.999999991111135e-06,
-      "loss": 0.095,
-      "step": 40,
-      "step_time": 3.6701166389993887
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.6875,
-      "completions/max_length": 16.0,
-      "completions/max_terminated_length": 16.0,
-      "completions/mean_length": 14.28125,
-      "completions/mean_terminated_length": 10.5,
-      "completions/min_length": 3.0,
-      "completions/min_terminated_length": 3.0,
-      "entropy": 0.4647715613245964,
-      "epoch": 0.00082,
-      "frac_reward_zero_std": 0.0,
-      "grad_norm": 0.4407760500907898,
-      "kl": 0.000995866059383843,
-      "learning_rate": 2.9999999861111487e-06,
-      "loss": 0.0416,
-      "num_tokens": 1109059.0,
-      "reward": -20.27096939086914,
-      "reward_std": 16.170513153076172,
-      "rewards/rollout_reward_func/mean": -20.27096939086914,
-      "rewards/rollout_reward_func/std": 16.170513153076172,
-      "sampling/importance_sampling_ratio/max": 1.238898515701294,
-      "sampling/importance_sampling_ratio/mean": 0.9764783382415771,
-      "sampling/importance_sampling_ratio/min": 0.7559868693351746,
-      "sampling/sampling_logp_difference/max": 0.24738311767578125,
-      "sampling/sampling_logp_difference/mean": 0.011778589338064194,
-      "step": 41,
-      "step_time": 12.945746578000126
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "entropy": 0.46506941318511963,
-      "epoch": 0.00084,
-      "grad_norm": 0.41802552342414856,
-      "kl": 0.0008689216920174658,
-      "learning_rate": 2.999999980000054e-06,
-      "loss": 0.0416,
-      "step": 42,
-      "step_time": 3.5847704960001465
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.8125,
-      "completions/max_length": 16.0,
-      "completions/max_terminated_length": 16.0,
-      "completions/mean_length": 14.90625,
-      "completions/mean_terminated_length": 10.166666984558105,
-      "completions/min_length": 3.0,
-      "completions/min_terminated_length": 3.0,
-      "entropy": 0.40763208270072937,
-      "epoch": 0.00086,
-      "frac_reward_zero_std": 0.0,
-      "grad_norm": 0.38299527764320374,
-      "kl": 0.0007383096963167191,
-      "learning_rate": 2.999999972777851e-06,
-      "loss": 0.0721,
-      "num_tokens": 1163200.0,
-      "reward": -18.545978546142578,
-      "reward_std": 14.86248779296875,
-      "rewards/rollout_reward_func/mean": -18.545978546142578,
-      "rewards/rollout_reward_func/std": 14.862486839294434,
-      "sampling/importance_sampling_ratio/max": 1.201629400253296,
-      "sampling/importance_sampling_ratio/mean": 1.003993272781372,
-      "sampling/importance_sampling_ratio/min": 0.8553942441940308,
-      "sampling/sampling_logp_difference/max": 0.14433181285858154,
-      "sampling/sampling_logp_difference/mean": 0.010116634890437126,
-      "step": 43,
-      "step_time": 13.120121834000201
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.003969253972172737,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.003969253972172737,
-      "entropy": 0.4081807807087898,
-      "epoch": 0.00088,
-      "grad_norm": 0.38337594270706177,
-      "kl": 0.0009075161142391153,
-      "learning_rate": 2.99999996444454e-06,
-      "loss": 0.071,
-      "step": 44,
-      "step_time": 3.613092282999787
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.78125,
-      "completions/max_length": 16.0,
-      "completions/max_terminated_length": 16.0,
-      "completions/mean_length": 14.75,
-      "completions/mean_terminated_length": 10.285715103149414,
-      "completions/min_length": 4.0,
-      "completions/min_terminated_length": 4.0,
-      "entropy": 0.439114011824131,
-      "epoch": 0.0009,
-      "frac_reward_zero_std": 0.0,
-      "grad_norm": 0.45874863862991333,
-      "kl": 0.001827418542234227,
-      "learning_rate": 2.9999999550001207e-06,
-      "loss": 0.0394,
-      "num_tokens": 1218086.0,
-      "reward": -17.6557559967041,
-      "reward_std": 14.141748428344727,
-      "rewards/rollout_reward_func/mean": -17.6557559967041,
-      "rewards/rollout_reward_func/std": 14.14174747467041,
-      "sampling/importance_sampling_ratio/max": 1.4917187690734863,
-      "sampling/importance_sampling_ratio/mean": 0.9951067566871643,
-      "sampling/importance_sampling_ratio/min": 0.7373844385147095,
-      "sampling/sampling_logp_difference/max": 0.22326016426086426,
-      "sampling/sampling_logp_difference/mean": 0.013849505223333836,
-      "step": 45,
-      "step_time": 12.33521299799986
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "entropy": 0.4387468546628952,
-      "epoch": 0.00092,
-      "grad_norm": 0.4409801959991455,
-      "kl": 0.0015551562537439167,
-      "learning_rate": 2.999999944444594e-06,
-      "loss": 0.04,
-      "step": 46,
-      "step_time": 4.31953496000051
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.71875,
-      "completions/max_length": 16.0,
-      "completions/max_terminated_length": 14.0,
-      "completions/mean_length": 14.0,
-      "completions/mean_terminated_length": 8.88888931274414,
-      "completions/min_length": 4.0,
-      "completions/min_terminated_length": 4.0,
-      "entropy": 0.4944975897669792,
-      "epoch": 0.00094,
-      "frac_reward_zero_std": 0.0,
-      "grad_norm": 0.6308720707893372,
-      "kl": 0.0014178274941514246,
-      "learning_rate": 2.999999932777959e-06,
-      "loss": 0.037,
-      "num_tokens": 1271722.0,
-      "reward": -16.693885803222656,
-      "reward_std": 18.024343490600586,
-      "rewards/rollout_reward_func/mean": -16.693885803222656,
-      "rewards/rollout_reward_func/std": 18.02434539794922,
-      "sampling/importance_sampling_ratio/max": 1.36251699924469,
-      "sampling/importance_sampling_ratio/mean": 0.9912035465240479,
-      "sampling/importance_sampling_ratio/min": 0.8056352734565735,
-      "sampling/sampling_logp_difference/max": 0.24249553680419922,
-      "sampling/sampling_logp_difference/mean": 0.011305240914225578,
-      "step": 47,
-      "step_time": 12.623038148999512
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "entropy": 0.4939929470419884,
-      "epoch": 0.00096,
-      "grad_norm": 0.6490526795387268,
-      "kl": 0.0013543795867008157,
-      "learning_rate": 2.9999999200002154e-06,
-      "loss": 0.0363,
-      "step": 48,
-      "step_time": 3.6226852679997137
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.001953125,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.001953125,
-      "completions/clipped_ratio": 0.8125,
-      "completions/max_length": 16.0,
-      "completions/max_terminated_length": 16.0,
-      "completions/mean_length": 15.0,
-      "completions/mean_terminated_length": 10.666666984558105,
-      "completions/min_length": 4.0,
-      "completions/min_terminated_length": 4.0,
-      "entropy": 0.419900543987751,
-      "epoch": 0.00098,
-      "frac_reward_zero_std": 0.0,
-      "grad_norm": 0.4623699188232422,
-      "kl": 0.0007145817362470552,
-      "learning_rate": 2.999999906111364e-06,
-      "loss": 0.1004,
-      "num_tokens": 1325693.0,
-      "reward": -20.183937072753906,
-      "reward_std": 13.987285614013672,
-      "rewards/rollout_reward_func/mean": -20.183937072753906,
-      "rewards/rollout_reward_func/std": 13.987285614013672,
-      "sampling/importance_sampling_ratio/max": 1.3713921308517456,
-      "sampling/importance_sampling_ratio/mean": 1.0176022052764893,
-      "sampling/importance_sampling_ratio/min": 0.8512320518493652,
-      "sampling/sampling_logp_difference/max": 0.18564534187316895,
-      "sampling/sampling_logp_difference/mean": 0.012047262862324715,
-      "step": 49,
-      "step_time": 12.366732422000041
-    },
-    {
-      "clip_ratio/high_max": 0.012500000186264515,
-      "clip_ratio/high_mean": 0.0031250000465661287,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0031250000465661287,
-      "entropy": 0.42126236110925674,
-      "epoch": 0.001,
-      "grad_norm": 0.42615005373954773,
-      "kl": 0.0008786674443399534,
-      "learning_rate": 2.9999998911114045e-06,
-      "loss": 0.0997,
-      "step": 50,
-      "step_time": 3.6702840139996624
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.84375,
-      "completions/max_length": 16.0,
-      "completions/max_terminated_length": 16.0,
-      "completions/mean_length": 15.0625,
-      "completions/mean_terminated_length": 10.0,
-      "completions/min_length": 3.0,
-      "completions/min_terminated_length": 3.0,
-      "entropy": 0.45311274379491806,
-      "epoch": 0.00102,
-      "frac_reward_zero_std": 0.0,
-      "grad_norm": 0.5940121412277222,
-      "kl": 0.0008269677782664075,
-      "learning_rate": 2.9999998750003373e-06,
-      "loss": 0.0528,
-      "num_tokens": 1378085.0,
-      "reward": -21.42279815673828,
-      "reward_std": 15.290786743164062,
-      "rewards/rollout_reward_func/mean": -21.42279815673828,
-      "rewards/rollout_reward_func/std": 15.290786743164062,
-      "sampling/importance_sampling_ratio/max": 1.2291712760925293,
-      "sampling/importance_sampling_ratio/mean": 1.0124390125274658,
-      "sampling/importance_sampling_ratio/min": 0.8846192359924316,
-      "sampling/sampling_logp_difference/max": 0.21129131317138672,
-      "sampling/sampling_logp_difference/mean": 0.009809674695134163,
-      "step": 51,
-      "step_time": 13.111581994000062
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "entropy": 0.45369481295347214,
-      "epoch": 0.00104,
-      "grad_norm": 0.5907822251319885,
-      "kl": 0.0009798892569961026,
-      "learning_rate": 2.999999857778162e-06,
-      "loss": 0.0518,
-      "step": 52,
-      "step_time": 3.608162464000088
-    },
-    {
-      "clip_ratio/high_max": 0.01315789483487606,
-      "clip_ratio/high_mean": 0.003289473708719015,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.003289473708719015,
-      "completions/clipped_ratio": 0.5625,
-      "completions/max_length": 16.0,
-      "completions/max_terminated_length": 14.0,
-      "completions/mean_length": 12.28125,
-      "completions/mean_terminated_length": 7.500000476837158,
-      "completions/min_length": 3.0,
-      "completions/min_terminated_length": 3.0,
-      "entropy": 0.443049892783165,
-      "epoch": 0.00106,
-      "frac_reward_zero_std": 0.0,
-      "grad_norm": 0.45799383521080017,
-      "kl": 0.0016540068900212646,
-      "learning_rate": 2.9999998394448782e-06,
-      "loss": 0.1527,
-      "num_tokens": 1429659.0,
-      "reward": -19.423545837402344,
-      "reward_std": 16.36824607849121,
-      "rewards/rollout_reward_func/mean": -19.423545837402344,
-      "rewards/rollout_reward_func/std": 16.36824607849121,
-      "sampling/importance_sampling_ratio/max": 1.430258870124817,
-      "sampling/importance_sampling_ratio/mean": 1.0030834674835205,
-      "sampling/importance_sampling_ratio/min": 0.7807595729827881,
-      "sampling/sampling_logp_difference/max": 0.17966920137405396,
-      "sampling/sampling_logp_difference/mean": 0.015100691467523575,
-      "step": 53,
-      "step_time": 12.377532298999995
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.001953125,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.001953125,
-      "entropy": 0.4446665346622467,
-      "epoch": 0.00108,
-      "grad_norm": 0.47425946593284607,
-      "kl": 0.001763768566888757,
-      "learning_rate": 2.9999998200004873e-06,
-      "loss": 0.1528,
-      "step": 54,
-      "step_time": 3.616540865999923
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.71875,
-      "completions/max_length": 16.0,
-      "completions/max_terminated_length": 11.0,
-      "completions/mean_length": 13.375,
-      "completions/mean_terminated_length": 6.666666507720947,
-      "completions/min_length": 3.0,
-      "completions/min_terminated_length": 3.0,
-      "entropy": 0.5619853883981705,
-      "epoch": 0.0011,
-      "frac_reward_zero_std": 0.0,
-      "grad_norm": 0.6419393420219421,
-      "kl": 0.00159555982099846,
-      "learning_rate": 2.9999997994449878e-06,
-      "loss": 0.0778,
-      "num_tokens": 1483948.0,
-      "reward": -20.401737213134766,
-      "reward_std": 16.437597274780273,
-      "rewards/rollout_reward_func/mean": -20.401737213134766,
-      "rewards/rollout_reward_func/std": 16.437597274780273,
-      "sampling/importance_sampling_ratio/max": 1.144453525543213,
-      "sampling/importance_sampling_ratio/mean": 0.9405947923660278,
-      "sampling/importance_sampling_ratio/min": 0.610896110534668,
-      "sampling/sampling_logp_difference/max": 0.264723539352417,
-      "sampling/sampling_logp_difference/mean": 0.016143541783094406,
-      "step": 55,
-      "step_time": 14.737511243999961
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "entropy": 0.5617516338825226,
-      "epoch": 0.00112,
-      "grad_norm": 0.6307651996612549,
-      "kl": 0.0013526002294383943,
-      "learning_rate": 2.9999997777783805e-06,
-      "loss": 0.0769,
-      "step": 56,
-      "step_time": 3.6947174689994426
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.65625,
-      "completions/max_length": 16.0,
-      "completions/max_terminated_length": 16.0,
-      "completions/mean_length": 13.96875,
-      "completions/mean_terminated_length": 10.090909004211426,
-      "completions/min_length": 3.0,
-      "completions/min_terminated_length": 3.0,
-      "entropy": 0.44592302292585373,
-      "epoch": 0.00114,
-      "frac_reward_zero_std": 0.0,
-      "grad_norm": 0.4100278317928314,
-      "kl": 0.0011417547648306936,
-      "learning_rate": 2.999999755000665e-06,
-      "loss": 0.1278,
-      "num_tokens": 1537342.0,
-      "reward": -19.665666580200195,
-      "reward_std": 15.70829963684082,
-      "rewards/rollout_reward_func/mean": -19.665666580200195,
-      "rewards/rollout_reward_func/std": 15.708298683166504,
-      "sampling/importance_sampling_ratio/max": 1.1984679698944092,
-      "sampling/importance_sampling_ratio/mean": 1.0152921676635742,
-      "sampling/importance_sampling_ratio/min": 0.6651595830917358,
-      "sampling/sampling_logp_difference/max": 0.22649931907653809,
-      "sampling/sampling_logp_difference/mean": 0.011754296720027924,
-      "step": 57,
-      "step_time": 13.501649334999911
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "entropy": 0.4463474452495575,
-      "epoch": 0.00116,
-      "grad_norm": 0.40949589014053345,
-      "kl": 0.0009677642083261162,
-      "learning_rate": 2.9999997311118423e-06,
-      "loss": 0.1279,
-      "step": 58,
-      "step_time": 3.6741236200000458
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.8125,
-      "completions/max_length": 16.0,
-      "completions/max_terminated_length": 13.0,
-      "completions/mean_length": 14.46875,
-      "completions/mean_terminated_length": 7.833333492279053,
-      "completions/min_length": 3.0,
-      "completions/min_terminated_length": 3.0,
-      "entropy": 0.42436008155345917,
-      "epoch": 0.00118,
-      "frac_reward_zero_std": 0.0,
-      "grad_norm": 0.43110400438308716,
-      "kl": 0.0018153611745219678,
-      "learning_rate": 2.9999997061119113e-06,
-      "loss": 0.0759,
-      "num_tokens": 1590549.0,
-      "reward": -23.231876373291016,
-      "reward_std": 14.007892608642578,
-      "rewards/rollout_reward_func/mean": -23.231876373291016,
-      "rewards/rollout_reward_func/std": 14.007891654968262,
-      "sampling/importance_sampling_ratio/max": 1.177204966545105,
-      "sampling/importance_sampling_ratio/mean": 0.9738996624946594,
-      "sampling/importance_sampling_ratio/min": 0.7864365577697754,
-      "sampling/sampling_logp_difference/max": 0.11908435821533203,
-      "sampling/sampling_logp_difference/mean": 0.010427574627101421,
-      "step": 59,
-      "step_time": 13.387355422999917
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "entropy": 0.42374272644519806,
-      "epoch": 0.0012,
-      "grad_norm": 0.4322911202907562,
-      "kl": 0.0018385612638667226,
-      "learning_rate": 2.999999680000872e-06,
-      "loss": 0.0772,
-      "step": 60,
-      "step_time": 3.6944392599998537
-    },
-    {
-      "clip_ratio/high_max": 0.0078125,
-      "clip_ratio/high_mean": 0.001953125,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.001953125,
-      "completions/clipped_ratio": 0.71875,
-      "completions/max_length": 16.0,
-      "completions/max_terminated_length": 16.0,
-      "completions/mean_length": 14.25,
-      "completions/mean_terminated_length": 9.777777671813965,
-      "completions/min_length": 4.0,
-      "completions/min_terminated_length": 4.0,
-      "entropy": 0.4840910881757736,
-      "epoch": 0.00122,
-      "frac_reward_zero_std": 0.125,
-      "grad_norm": 0.42527732253074646,
-      "kl": 0.001206837929203175,
-      "learning_rate": 2.9999996527787258e-06,
-      "loss": -0.0195,
-      "num_tokens": 1644232.0,
-      "reward": -20.776317596435547,
-      "reward_std": 15.025127410888672,
-      "rewards/rollout_reward_func/mean": -20.776317596435547,
-      "rewards/rollout_reward_func/std": 15.025128364562988,
-      "sampling/importance_sampling_ratio/max": 1.7264726161956787,
-      "sampling/importance_sampling_ratio/mean": 1.053358554840088,
-      "sampling/importance_sampling_ratio/min": 0.8105581402778625,
-      "sampling/sampling_logp_difference/max": 0.23974990844726562,
-      "sampling/sampling_logp_difference/mean": 0.014413169585168362,
-      "step": 61,
-      "step_time": 12.136578666999867
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "entropy": 0.4840751215815544,
-      "epoch": 0.00124,
-      "grad_norm": 0.4295765161514282,
-      "kl": 0.0011497176892589778,
-      "learning_rate": 2.9999996244454716e-06,
-      "loss": -0.0186,
-      "step": 62,
-      "step_time": 3.65384825800038
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.5625,
-      "completions/max_length": 16.0,
-      "completions/max_terminated_length": 15.0,
-      "completions/mean_length": 13.875,
-      "completions/mean_terminated_length": 11.142857551574707,
-      "completions/min_length": 3.0,
-      "completions/min_terminated_length": 3.0,
-      "entropy": 0.3919781446456909,
-      "epoch": 0.00126,
-      "frac_reward_zero_std": 0.0,
-      "grad_norm": 0.4190310835838318,
-      "kl": 0.00048243661876767874,
-      "learning_rate": 2.999999595001109e-06,
-      "loss": 0.1343,
-      "num_tokens": 1699341.0,
-      "reward": -14.78390884399414,
-      "reward_std": 15.05773639678955,
-      "rewards/rollout_reward_func/mean": -14.78390884399414,
-      "rewards/rollout_reward_func/std": 15.05773639678955,
-      "sampling/importance_sampling_ratio/max": 1.1515072584152222,
-      "sampling/importance_sampling_ratio/mean": 0.9987464547157288,
-      "sampling/importance_sampling_ratio/min": 0.8501996397972107,
-      "sampling/sampling_logp_difference/max": 0.20190739631652832,
-      "sampling/sampling_logp_difference/mean": 0.008220545016229153,
-      "step": 63,
-      "step_time": 12.735009469000488
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "entropy": 0.3920908346772194,
-      "epoch": 0.00128,
-      "grad_norm": 0.41324248909950256,
-      "kl": 0.000511926511535421,
-      "learning_rate": 2.9999995644456395e-06,
-      "loss": 0.1353,
-      "step": 64,
-      "step_time": 4.1289103880003495
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.875,
-      "completions/max_length": 16.0,
-      "completions/max_terminated_length": 6.0,
-      "completions/mean_length": 14.5625,
-      "completions/mean_terminated_length": 4.5,
-      "completions/min_length": 4.0,
-      "completions/min_terminated_length": 4.0,
-      "entropy": 0.4723147228360176,
-      "epoch": 0.0013,
-      "frac_reward_zero_std": 0.0,
-      "grad_norm": 0.521558403968811,
-      "kl": 0.0010458012475282885,
-      "learning_rate": 2.9999995327790616e-06,
-      "loss": 0.1397,
-      "num_tokens": 1752125.0,
-      "reward": -23.402069091796875,
-      "reward_std": 12.324657440185547,
-      "rewards/rollout_reward_func/mean": -23.402069091796875,
-      "rewards/rollout_reward_func/std": 12.324657440185547,
-      "sampling/importance_sampling_ratio/max": 1.294718623161316,
-      "sampling/importance_sampling_ratio/mean": 1.0054374933242798,
-      "sampling/importance_sampling_ratio/min": 0.7819744944572449,
-      "sampling/sampling_logp_difference/max": 0.2261056900024414,
-      "sampling/sampling_logp_difference/mean": 0.013052692636847496,
-      "step": 65,
-      "step_time": 12.858984567999869
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "entropy": 0.4741643965244293,
-      "epoch": 0.00132,
-      "grad_norm": 0.5274317860603333,
-      "kl": 0.001182250547572039,
-      "learning_rate": 2.9999995000013764e-06,
-      "loss": 0.1407,
-      "step": 66,
-      "step_time": 3.581743365999955
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.75,
-      "completions/max_length": 16.0,
-      "completions/max_terminated_length": 16.0,
-      "completions/mean_length": 14.34375,
-      "completions/mean_terminated_length": 9.375,
-      "completions/min_length": 3.0,
-      "completions/min_terminated_length": 3.0,
-      "entropy": 0.47390806674957275,
-      "epoch": 0.00134,
-      "frac_reward_zero_std": 0.0,
-      "grad_norm": 0.5683096051216125,
-      "kl": 0.0013981750817038119,
-      "learning_rate": 2.9999994661125834e-06,
-      "loss": 0.1355,
-      "num_tokens": 1806198.0,
-      "reward": -19.801048278808594,
-      "reward_std": 16.17534637451172,
-      "rewards/rollout_reward_func/mean": -19.801048278808594,
-      "rewards/rollout_reward_func/std": 16.17534637451172,
-      "sampling/importance_sampling_ratio/max": 1.4784481525421143,
-      "sampling/importance_sampling_ratio/mean": 1.0331366062164307,
-      "sampling/importance_sampling_ratio/min": 0.8605573177337646,
-      "sampling/sampling_logp_difference/max": 0.20436906814575195,
-      "sampling/sampling_logp_difference/mean": 0.01395871490240097,
-      "step": 67,
-      "step_time": 12.371656173999781
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "entropy": 0.47276531904935837,
-      "epoch": 0.00136,
-      "grad_norm": 0.5657866597175598,
-      "kl": 0.0015692545857746154,
-      "learning_rate": 2.999999431112683e-06,
-      "loss": 0.1327,
-      "step": 68,
-      "step_time": 3.63474406000023
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.65625,
-      "completions/max_length": 16.0,
-      "completions/max_terminated_length": 15.0,
-      "completions/mean_length": 13.21875,
-      "completions/mean_terminated_length": 7.909090995788574,
-      "completions/min_length": 3.0,
-      "completions/min_terminated_length": 3.0,
-      "entropy": 0.4877706617116928,
-      "epoch": 0.00138,
-      "frac_reward_zero_std": 0.0,
-      "grad_norm": 0.5023260712623596,
-      "kl": 0.0024651199055369943,
-      "learning_rate": 2.999999395001675e-06,
-      "loss": 0.0828,
-      "num_tokens": 1858004.0,
-      "reward": -18.188522338867188,
-      "reward_std": 19.19774627685547,
-      "rewards/rollout_reward_func/mean": -18.188522338867188,
-      "rewards/rollout_reward_func/std": 19.197744369506836,
-      "sampling/importance_sampling_ratio/max": 1.3357534408569336,
-      "sampling/importance_sampling_ratio/mean": 0.9936745166778564,
-      "sampling/importance_sampling_ratio/min": 0.7666462063789368,
-      "sampling/sampling_logp_difference/max": 0.20173311233520508,
-      "sampling/sampling_logp_difference/mean": 0.016002200543880463,
-      "step": 69,
-      "step_time": 12.922190936000334
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "entropy": 0.48947182297706604,
-      "epoch": 0.0014,
-      "grad_norm": 0.5027741193771362,
-      "kl": 0.002827476884704083,
-      "learning_rate": 2.9999993577795593e-06,
-      "loss": 0.0816,
-      "step": 70,
-      "step_time": 3.6084864500003277
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.65625,
-      "completions/max_length": 16.0,
-      "completions/max_terminated_length": 16.0,
-      "completions/mean_length": 13.15625,
-      "completions/mean_terminated_length": 7.727272987365723,
-      "completions/min_length": 4.0,
-      "completions/min_terminated_length": 4.0,
-      "entropy": 0.4982185810804367,
-      "epoch": 0.00142,
-      "frac_reward_zero_std": 0.0,
-      "grad_norm": 0.5128209590911865,
-      "kl": 0.004301712120650336,
-      "learning_rate": 2.999999319446336e-06,
-      "loss": 0.1722,
-      "num_tokens": 1912265.0,
-      "reward": -19.690006256103516,
-      "reward_std": 15.063920974731445,
-      "rewards/rollout_reward_func/mean": -19.690006256103516,
-      "rewards/rollout_reward_func/std": 15.063920974731445,
-      "sampling/importance_sampling_ratio/max": 1.3594207763671875,
-      "sampling/importance_sampling_ratio/mean": 1.0231478214263916,
-      "sampling/importance_sampling_ratio/min": 0.6679673790931702,
-      "sampling/sampling_logp_difference/max": 0.2407078742980957,
-      "sampling/sampling_logp_difference/mean": 0.013544058427214622,
-      "step": 71,
-      "step_time": 12.93631576200005
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "entropy": 0.49808724224567413,
-      "epoch": 0.00144,
-      "grad_norm": 0.4984101355075836,
-      "kl": 0.005028701314586215,
-      "learning_rate": 2.9999992800020054e-06,
-      "loss": 0.1724,
-      "step": 72,
-      "step_time": 3.6676567169997725
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.71875,
-      "completions/max_length": 16.0,
-      "completions/max_terminated_length": 14.0,
-      "completions/mean_length": 14.09375,
-      "completions/mean_terminated_length": 9.222222328186035,
-      "completions/min_length": 3.0,
-      "completions/min_terminated_length": 3.0,
-      "entropy": 0.4910426437854767,
-      "epoch": 0.00146,
-      "frac_reward_zero_std": 0.0,
-      "grad_norm": 0.5857475996017456,
-      "kl": 0.0031242658151313663,
-      "learning_rate": 2.9999992394465676e-06,
-      "loss": 0.0632,
-      "num_tokens": 1965150.0,
-      "reward": -18.6701717376709,
-      "reward_std": 15.390301704406738,
-      "rewards/rollout_reward_func/mean": -18.6701717376709,
-      "rewards/rollout_reward_func/std": 15.390301704406738,
-      "sampling/importance_sampling_ratio/max": 1.6061283349990845,
-      "sampling/importance_sampling_ratio/mean": 1.0126081705093384,
-      "sampling/importance_sampling_ratio/min": 0.7513319849967957,
-      "sampling/sampling_logp_difference/max": 0.38132286071777344,
-      "sampling/sampling_logp_difference/mean": 0.013925802893936634,
-      "step": 73,
-      "step_time": 13.05256272500037
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "entropy": 0.4915947765111923,
-      "epoch": 0.00148,
-      "grad_norm": 0.5674751996994019,
-      "kl": 0.003559437900548801,
-      "learning_rate": 2.9999991977800225e-06,
-      "loss": 0.0631,
-      "step": 74,
-      "step_time": 4.736504551000053
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.8125,
-      "completions/max_length": 16.0,
-      "completions/max_terminated_length": 14.0,
-      "completions/mean_length": 14.46875,
-      "completions/mean_terminated_length": 7.833333492279053,
-      "completions/min_length": 4.0,
-      "completions/min_terminated_length": 4.0,
-      "entropy": 0.4485122114419937,
-      "epoch": 0.0015,
-      "frac_reward_zero_std": 0.0,
-      "grad_norm": 0.5359442830085754,
-      "kl": 0.0026965075376210734,
-      "learning_rate": 2.9999991550023697e-06,
-      "loss": 0.0904,
-      "num_tokens": 2018404.0,
-      "reward": -22.368053436279297,
-      "reward_std": 13.008703231811523,
-      "rewards/rollout_reward_func/mean": -22.368053436279297,
-      "rewards/rollout_reward_func/std": 13.008703231811523,
-      "sampling/importance_sampling_ratio/max": 1.2978986501693726,
-      "sampling/importance_sampling_ratio/mean": 1.035149335861206,
-      "sampling/importance_sampling_ratio/min": 0.8059366941452026,
-      "sampling/sampling_logp_difference/max": 0.1702725887298584,
-      "sampling/sampling_logp_difference/mean": 0.009985161945223808,
-      "step": 75,
-      "step_time": 13.661403129999599
     }
   ],
   "logging_steps": 1.0,
   "max_steps": 100000,
-  "num_input_tokens_seen": 2018404,
   "num_train_epochs": 2,
   "save_steps": 500,
   "stateful_callbacks": {

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.0002,
   "eval_steps": 500,
+  "global_step": 10,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.90625,
       "completions/max_length": 16.0,
+      "completions/max_terminated_length": 16.0,
+      "completions/mean_length": 15.59375,
+      "completions/mean_terminated_length": 11.666666984558105,
+      "completions/min_length": 9.0,
+      "completions/min_terminated_length": 9.0,
+      "entropy": 0.45986470580101013,
       "epoch": 2e-05,
       "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.5555855631828308,
       "kl": 0.0,
       "learning_rate": 0.0,
+      "loss": -0.0036,
+      "num_tokens": 53302.0,
+      "reward": -20.565004348754883,
+      "reward_std": 12.108231544494629,
+      "rewards/rollout_reward_func/mean": -20.565004348754883,
+      "rewards/rollout_reward_func/std": 12.108230590820312,
+      "sampling/importance_sampling_ratio/max": 1.2069631814956665,
+      "sampling/importance_sampling_ratio/mean": 1.0164316892623901,
+      "sampling/importance_sampling_ratio/min": 0.691445529460907,
+      "sampling/sampling_logp_difference/max": 0.14298677444458008,
+      "sampling/sampling_logp_difference/mean": 0.01139700785279274,
       "step": 1,
+      "step_time": 13.593145795000055
     },
     {
       "clip_ratio/high_max": 0.0,
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
+      "entropy": 0.45986470580101013,
       "epoch": 4e-05,
+      "grad_norm": 0.5478876829147339,
       "kl": 0.0,
+      "learning_rate": 8.571428571428574e-08,
+      "loss": -0.0036,
       "step": 2,
+      "step_time": 3.5665654679996805
     },
     {
       "clip_ratio/high_max": 0.0,
       "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0031250000465661287,
       "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0031250000465661287,
       "completions/clipped_ratio": 0.75,
       "completions/max_length": 16.0,
+      "completions/max_terminated_length": 16.0,
+      "completions/mean_length": 14.4375,
+      "completions/mean_terminated_length": 9.75,
+      "completions/min_length": 4.0,
+      "completions/min_terminated_length": 4.0,
+      "entropy": 0.4573390781879425,
       "epoch": 6e-05,
       "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.4110209047794342,
+      "kl": 0.00046882770402589813,
+      "learning_rate": 1.7142857142857149e-07,
+      "loss": 0.1188,
+      "num_tokens": 106349.0,
+      "reward": -22.559879302978516,
+      "reward_std": 14.563770294189453,
+      "rewards/rollout_reward_func/mean": -22.559879302978516,
+      "rewards/rollout_reward_func/std": 14.563770294189453,
+      "sampling/importance_sampling_ratio/max": 1.2753626108169556,
+      "sampling/importance_sampling_ratio/mean": 0.9817989468574524,
+      "sampling/importance_sampling_ratio/min": 0.8001569509506226,
+      "sampling/sampling_logp_difference/max": 0.2265012264251709,
+      "sampling/sampling_logp_difference/mean": 0.012659025378525257,
       "step": 3,
+      "step_time": 13.572802005000085
     },
     {
+      "clip_ratio/high_max": 0.0078125,
+      "clip_ratio/high_mean": 0.001953125,
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.001953125,
+      "entropy": 0.45671091973781586,
       "epoch": 8e-05,
+      "grad_norm": 0.3884861469268799,
+      "kl": 0.00040267666918225586,
+      "learning_rate": 2.571428571428572e-07,
+      "loss": 0.1171,
       "step": 4,
+      "step_time": 3.672753089998878
     },
     {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.78125,
       "completions/max_length": 16.0,
+      "completions/max_terminated_length": 13.0,
+      "completions/mean_length": 14.09375,
+      "completions/mean_terminated_length": 7.285714626312256,
       "completions/min_length": 4.0,
       "completions/min_terminated_length": 4.0,
+      "entropy": 0.4637308567762375,
       "epoch": 0.0001,
       "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.5923936367034912,
+      "kl": 0.00045897291784058325,
+      "learning_rate": 3.4285714285714297e-07,
+      "loss": 0.1461,
+      "num_tokens": 158201.0,
+      "reward": -23.239702224731445,
+      "reward_std": 11.33220386505127,
+      "rewards/rollout_reward_func/mean": -23.239702224731445,
+      "rewards/rollout_reward_func/std": 11.332201957702637,
+      "sampling/importance_sampling_ratio/max": 1.179511308670044,
+      "sampling/importance_sampling_ratio/mean": 0.9810092449188232,
+      "sampling/importance_sampling_ratio/min": 0.7553079128265381,
+      "sampling/sampling_logp_difference/max": 0.19478893280029297,
+      "sampling/sampling_logp_difference/mean": 0.012187635526061058,
       "step": 5,
+      "step_time": 12.394922012998904
     },
     {
+      "epoch": 0.0001,
+      "eval_clip_ratio/high_max": 0.0,
+      "eval_clip_ratio/high_mean": 0.0,
+      "eval_clip_ratio/low_mean": 0.0,
+      "eval_clip_ratio/low_min": 0.0,
+      "eval_clip_ratio/region_mean": 0.0,
+      "eval_completions/clipped_ratio": 0.85,
+      "eval_completions/max_length": 16.0,
+      "eval_completions/max_terminated_length": 5.4,
+      "eval_completions/mean_length": 15.225,
+      "eval_completions/mean_terminated_length": 5.15,
+      "eval_completions/min_length": 12.9,
+      "eval_completions/min_terminated_length": 4.9,
+      "eval_entropy": 0.45741056799888613,
+      "eval_frac_reward_zero_std": 0.0,
+      "eval_kl": 0.00042195062269456685,
+      "eval_loss": 0.004154330585151911,
+      "eval_num_tokens": 158201.0,
+      "eval_reward": -25.101631736755373,
+      "eval_reward_std": 13.229044437408447,
+      "eval_rewards/rollout_reward_func/mean": -25.101631736755373,
+      "eval_rewards/rollout_reward_func/std": 13.2290442943573,
+      "eval_runtime": 13.4386,
+      "eval_samples_per_second": 0.744,
+      "eval_sampling/importance_sampling_ratio/max": 1.112263822555542,
+      "eval_sampling/importance_sampling_ratio/mean": 0.9942494869232178,
+      "eval_sampling/importance_sampling_ratio/min": 0.8756316006183624,
+      "eval_sampling/sampling_logp_difference/max": 0.1471207022666931,
+      "eval_sampling/sampling_logp_difference/mean": 0.013286880496889353,
+      "eval_steps_per_second": 0.223,
+      "step": 5
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "entropy": 0.46300478279590607,
       "epoch": 0.00012,
+      "grad_norm": 0.5754485726356506,
+      "kl": 0.0004794619817403145,
+      "learning_rate": 4.2857142857142867e-07,
+      "loss": 0.1461,
       "step": 6,
+      "step_time": 3.5247847910004566
     },
     {
       "clip_ratio/high_max": 0.0,
       "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.78125,
       "completions/max_length": 16.0,
+      "completions/max_terminated_length": 14.0,
       "completions/mean_length": 14.6875,
       "completions/mean_terminated_length": 10.0,
       "completions/min_length": 3.0,
       "completions/min_terminated_length": 3.0,
+      "entropy": 0.4924817681312561,
+      "epoch": 0.00014,
       "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.5342097282409668,
+      "kl": 0.00047566716602887027,
+      "learning_rate": 5.142857142857144e-07,
+      "loss": 0.0788,
+      "num_tokens": 211022.0,
+      "reward": -21.68277359008789,
+      "reward_std": 14.98656940460205,
+      "rewards/rollout_reward_func/mean": -21.68277359008789,
+      "rewards/rollout_reward_func/std": 14.986568450927734,
+      "sampling/importance_sampling_ratio/max": 1.2211930751800537,
+      "sampling/importance_sampling_ratio/mean": 0.9879010319709778,
+      "sampling/importance_sampling_ratio/min": 0.7968342304229736,
+      "sampling/sampling_logp_difference/max": 0.2077500820159912,
+      "sampling/sampling_logp_difference/mean": 0.015078969299793243,
+      "step": 7,
+      "step_time": 13.125986247000583
     },
     {
       "clip_ratio/high_max": 0.0,
       "clip_ratio/low_mean": 0.001953125,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.001953125,
+      "entropy": 0.4939192831516266,
+      "epoch": 0.00016,
+      "grad_norm": 0.5269240140914917,
+      "kl": 0.0005614961846731603,
+      "learning_rate": 6.000000000000002e-07,
+      "loss": 0.078,
+      "step": 8,
+      "step_time": 4.57110312200075
     },
     {
       "clip_ratio/high_max": 0.0,
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.84375,
       "completions/max_length": 16.0,
+      "completions/max_terminated_length": 16.0,
+      "completions/mean_length": 15.53125,
+      "completions/mean_terminated_length": 13.0,
+      "completions/min_length": 3.0,
+      "completions/min_terminated_length": 3.0,
+      "entropy": 0.4650999382138252,
+      "epoch": 0.00018,
       "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.4413743019104004,
+      "kl": 0.0005437940853880718,
+      "learning_rate": 6.857142857142859e-07,
+      "loss": 0.0419,
+      "num_tokens": 262651.0,
+      "reward": -24.077335357666016,
+      "reward_std": 11.67958927154541,
+      "rewards/rollout_reward_func/mean": -24.077335357666016,
+      "rewards/rollout_reward_func/std": 11.67958927154541,
+      "sampling/importance_sampling_ratio/max": 1.2573319673538208,
+      "sampling/importance_sampling_ratio/mean": 1.0008736848831177,
+      "sampling/importance_sampling_ratio/min": 0.8466115593910217,
+      "sampling/sampling_logp_difference/max": 0.15867352485656738,
+      "sampling/sampling_logp_difference/mean": 0.011756965890526772,
+      "step": 9,
+      "step_time": 12.814324255000429
     },
     {
       "clip_ratio/high_max": 0.0,
       "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
       "clip_ratio/region_mean": 0.0,
+      "entropy": 0.46368078887462616,
+      "epoch": 0.0002,
+      "grad_norm": 0.4458825886249542,
+      "kl": 0.0005188173963688314,
+      "learning_rate": 7.714285714285716e-07,
+      "loss": 0.0428,
+      "step": 10,
+      "step_time": 3.553372275999209
     },
     {
+      "epoch": 0.0002,
+      "eval_clip_ratio/high_max": 0.0,
+      "eval_clip_ratio/high_mean": 0.0,
+      "eval_clip_ratio/low_mean": 0.0,
+      "eval_clip_ratio/low_min": 0.0,
+      "eval_clip_ratio/region_mean": 0.0,
+      "eval_completions/clipped_ratio": 0.7,
+      "eval_completions/max_length": 16.0,
+      "eval_completions/max_terminated_length": 9.8,
+      "eval_completions/mean_length": 14.7,
+      "eval_completions/mean_terminated_length": 9.16666669845581,
+      "eval_completions/min_length": 11.8,
+      "eval_completions/min_terminated_length": 8.6,
+      "eval_entropy": 0.40578661262989046,
+      "eval_frac_reward_zero_std": 0.0,
+      "eval_kl": 0.00042531737562967464,
+      "eval_loss": 0.02340291067957878,
+      "eval_num_tokens": 262651.0,
+      "eval_reward": -18.063774490356444,
+      "eval_reward_std": 14.382386589050293,
+      "eval_rewards/rollout_reward_func/mean": -18.063774490356444,
+      "eval_rewards/rollout_reward_func/std": 14.382386589050293,
+      "eval_runtime": 13.98,
+      "eval_samples_per_second": 0.715,
+      "eval_sampling/importance_sampling_ratio/max": 1.1354158759117126,
+      "eval_sampling/importance_sampling_ratio/mean": 1.0028302788734436,
+      "eval_sampling/importance_sampling_ratio/min": 0.9048627257347107,
+      "eval_sampling/sampling_logp_difference/max": 0.13887375593185425,
+      "eval_sampling/sampling_logp_difference/mean": 0.011902038706466556,
+      "eval_steps_per_second": 0.215,
+      "step": 10
     }
   ],
   "logging_steps": 1.0,
   "max_steps": 100000,
+  "num_input_tokens_seen": 262651,
   "num_train_epochs": 2,
   "save_steps": 500,
   "stateful_callbacks": {

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fb0e24b2a66d930ca7964cb444586aae8c29ce9e3b9f7dbedde1321db29e772e
 size 8081

 version https://git-lfs.github.com/spec/v1
+oid sha256:6ec21def335d91e767cfc8442100434c1b8f711cd3db15cf69c2a4331fa4d590
 size 8081