Instructions to use usr256864/ee_gol with libraries, inference providers, notebooks, and local apps. Follow these links to get started.

Libraries

How to use usr256864/ee_gol with PEFT:

from peft import PeftModel
from transformers import AutoModelForCausalLM

base_model = AutoModelForCausalLM.from_pretrained("HiTZ/GoLLIE-7B")
model = PeftModel.from_pretrained(base_model, "usr256864/ee_gol")

Transformers

How to use usr256864/ee_gol with Transformers:

# Use a pipeline as a high-level helper
from transformers import pipeline

pipe = pipeline("text-generation", model="usr256864/ee_gol")

# Load model directly
from transformers import AutoModel
model = AutoModel.from_pretrained("usr256864/ee_gol", dtype="auto")

Notebooks
Google Colab
Kaggle
Local Apps

vLLM

How to use usr256864/ee_gol with vLLM:

Install from pip and serve model

# Install vLLM from pip:
pip install vllm
# Start the vLLM server:
vllm serve "usr256864/ee_gol"
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:8000/v1/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "usr256864/ee_gol",
		"prompt": "Once upon a time,",
		"max_tokens": 512,
		"temperature": 0.5
	}'

Use Docker

docker model run hf.co/usr256864/ee_gol

SGLang

How to use usr256864/ee_gol with SGLang:

Install from pip and serve model

# Install SGLang from pip:
pip install sglang
# Start the SGLang server:
python3 -m sglang.launch_server \
    --model-path "usr256864/ee_gol" \
    --host 0.0.0.0 \
    --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "usr256864/ee_gol",
		"prompt": "Once upon a time,",
		"max_tokens": 512,
		"temperature": 0.5
	}'

Use Docker images

docker run --gpus all \
    --shm-size 32g \
    -p 30000:30000 \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    --env "HF_TOKEN=<secret>" \
    --ipc=host \
    lmsysorg/sglang:latest \
    python3 -m sglang.launch_server \
        --model-path "usr256864/ee_gol" \
        --host 0.0.0.0 \
        --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "usr256864/ee_gol",
		"prompt": "Once upon a time,",
		"max_tokens": 512,
		"temperature": 0.5
	}'

Docker Model Runner
How to use usr256864/ee_gol with Docker Model Runner:
```
docker model run hf.co/usr256864/ee_gol
```

usr256864 commited on Oct 23, 2025

Commit

b2973ba

verified ·

1 Parent(s): a50cd46

Upload folder using huggingface_hub

Browse files

Files changed (11) hide show

adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state_0.pth +1 -1
rng_state_2.pth +1 -1
rng_state_3.pth +1 -1
rng_state_4.pth +1 -1
rng_state_5.pth +1 -1
rng_state_6.pth +1 -1
rng_state_7.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +963 -3

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f57e4dcb3f5a711acbcc3c7e53ddd0c18fbb2b4ef4b23b449e5c904e498bc3dc
 size 16794200

 version https://git-lfs.github.com/spec/v1
+oid sha256:f49333bf8dc54c673cdb5d086454c1c2e11545428fdeab99e17f54d26dfd68b5
 size 16794200

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b1f901deb4dfbc90e0f17d381200df60a829d4d4758a8c79a836ad21e7f7dc65
 size 33664331

 version https://git-lfs.github.com/spec/v1
+oid sha256:847f243c3b0717de9d7d84a818a5cca2780f187c631f0830647f9a4f32a025e5
 size 33664331

rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1054442ffa3c487011bb5ffe943ab64c59e9c897d796de64033c6b88c3eaa3ae
 size 16325

 version https://git-lfs.github.com/spec/v1
+oid sha256:64809719cba422cef96de4920261da9523f70c17a2b1212c597d67f1f7a800be
 size 16325

rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f66b4bfdd61eb727ab7daf786d19f5abbb048715af877262ed90c06b46f52ca8
 size 16389

 version https://git-lfs.github.com/spec/v1
+oid sha256:eebd48be5f45b09ad66e61b713e78075a6ed9758b0743b2ba14d0149a9d32663
 size 16389

rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b1413ba4d11754afc68f246446acb9890c1d18acc37fc00f32a6d46c26cce616
 size 16389

 version https://git-lfs.github.com/spec/v1
+oid sha256:ce6b5432b3dd7ce01917cc36abf764e4593e128309e145991b4505505b34ea51
 size 16389

rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:93c6534ad05b1cafddd02600c598b0b0d3c6093f5caa987ccd55226851603e9a
 size 16389

 version https://git-lfs.github.com/spec/v1
+oid sha256:ccd4238203b96310504fffc3e0300303148399ae449f5a3c1223bd19096fe34f
 size 16389

rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:20029f71d91e48ecebbc254932e22147cad9394de6f6fbf0dd6e10938583be80
 size 16389

 version https://git-lfs.github.com/spec/v1
+oid sha256:e7aad592eab42dab56e49c09184b6b56297b879407f0b6182f333c4c43d53d1a
 size 16389

rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2630ad25730bd50bda773ff2f680e37431047865906cce6b7f5a9e51bb6ab06b
 size 16389

 version https://git-lfs.github.com/spec/v1
+oid sha256:02690e58d4566e8b28fca4807f93c1b9ed552cda61c2c7266f83fc01375f9221
 size 16389

rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:09c8c6db7e29e809e136621644eac06a29e16345bf0a1c208e400e09dd883638
 size 16325

 version https://git-lfs.github.com/spec/v1
+oid sha256:f3f847170fd131c7017195f78afedddbaa655b33607982525c46cb880859458f
 size 16325

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bab67597abea6433f221727b7999d5c1bd467cfb427135df9c63356ac44a538b
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:9ad77e042001d2e933aab4e1dccf5c99a07800e969ec3c1619623eadd806ef6c
 size 1465

trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.4577259475218658,
   "eval_steps": 500,
-  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2798,11 +2798,971 @@
       "rewards/format_reward_fn/mean": 0.9190057702362537,
       "rewards/format_reward_fn/std": 0.23810118879191577,
       "step": 1488
     }
   ],
   "logging_steps": 16,
   "max_steps": 10290,
-  "num_input_tokens_seen": 120551388,
   "num_train_epochs": 10,
   "save_steps": 500,
   "stateful_callbacks": {

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.943634596695821,
   "eval_steps": 500,
+  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "rewards/format_reward_fn/mean": 0.9190057702362537,
       "rewards/format_reward_fn/std": 0.23810118879191577,
       "step": 1488
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.07421875,
+      "completions/max_length": 253.5,
+      "completions/max_terminated_length": 244.625,
+      "completions/mean_length": 190.771484375,
+      "completions/mean_terminated_length": 185.8874397277832,
+      "completions/min_length": 140.1875,
+      "completions/min_terminated_length": 140.1875,
+      "entropy": 0.0769493873231113,
+      "epoch": 1.4616132167152576,
+      "frac_reward_zero_std": 0.27734375,
+      "grad_norm": 0.13221606612205505,
+      "learning_rate": 5e-05,
+      "loss": -0.0052,
+      "num_tokens": 120878670.0,
+      "reward": 11.72208970785141,
+      "reward_std": 0.9891778491437435,
+      "rewards/bm25_retrieval_reward_fn/mean": 0.865969829261303,
+      "rewards/bm25_retrieval_reward_fn/std": 0.3025930265430361,
+      "rewards/event_reward_fn/mean": 9.978515625,
+      "rewards/event_reward_fn/std": 6.088510304689407,
+      "rewards/format_reward_fn/mean": 0.8776041679084301,
+      "rewards/format_reward_fn/std": 0.30370487459003925,
+      "step": 1504
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09375,
+      "completions/max_length": 256.0,
+      "completions/max_terminated_length": 250.875,
+      "completions/mean_length": 210.828125,
+      "completions/mean_terminated_length": 206.00187873840332,
+      "completions/min_length": 159.9375,
+      "completions/min_terminated_length": 159.9375,
+      "entropy": 0.09037951100617647,
+      "epoch": 1.4771622934888242,
+      "frac_reward_zero_std": 0.31640625,
+      "grad_norm": 0.303564190864563,
+      "learning_rate": 5e-05,
+      "loss": -0.0015,
+      "num_tokens": 122164070.0,
+      "reward": 11.119612038135529,
+      "reward_std": 0.99767005443573,
+      "rewards/bm25_retrieval_reward_fn/mean": 0.8756668232381344,
+      "rewards/bm25_retrieval_reward_fn/std": 0.29590372927486897,
+      "rewards/event_reward_fn/mean": 9.3515625,
+      "rewards/event_reward_fn/std": 5.329805389046669,
+      "rewards/format_reward_fn/mean": 0.8923828117549419,
+      "rewards/format_reward_fn/std": 0.30003819055855274,
+      "step": 1520
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1669921875,
+      "completions/max_length": 256.0,
+      "completions/max_terminated_length": 253.0,
+      "completions/mean_length": 215.0888671875,
+      "completions/mean_terminated_length": 206.6857042312622,
+      "completions/min_length": 164.4375,
+      "completions/min_terminated_length": 164.4375,
+      "entropy": 0.09090339438989758,
+      "epoch": 1.4927113702623906,
+      "frac_reward_zero_std": 0.3046875,
+      "grad_norm": 0.16249267756938934,
+      "learning_rate": 5e-05,
+      "loss": 0.0016,
+      "num_tokens": 123527081.0,
+      "reward": 10.766064465045929,
+      "reward_std": 0.8386576101183891,
+      "rewards/bm25_retrieval_reward_fn/mean": 0.7968913167715073,
+      "rewards/bm25_retrieval_reward_fn/std": 0.3705411199480295,
+      "rewards/event_reward_fn/mean": 9.1552734375,
+      "rewards/event_reward_fn/std": 5.637863516807556,
+      "rewards/format_reward_fn/mean": 0.8138997405767441,
+      "rewards/format_reward_fn/std": 0.3759169615805149,
+      "step": 1536
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1435546875,
+      "completions/max_length": 255.375,
+      "completions/max_terminated_length": 250.375,
+      "completions/mean_length": 212.8251953125,
+      "completions/mean_terminated_length": 205.47227001190186,
+      "completions/min_length": 157.5625,
+      "completions/min_terminated_length": 157.5625,
+      "entropy": 0.10008962173014879,
+      "epoch": 1.508260447035957,
+      "frac_reward_zero_std": 0.265625,
+      "grad_norm": 0.23113620281219482,
+      "learning_rate": 5e-05,
+      "loss": 0.004,
+      "num_tokens": 124865830.0,
+      "reward": 10.332128584384918,
+      "reward_std": 1.082621719688177,
+      "rewards/bm25_retrieval_reward_fn/mean": 0.8261714465916157,
+      "rewards/bm25_retrieval_reward_fn/std": 0.3391446927562356,
+      "rewards/event_reward_fn/mean": 8.6630859375,
+      "rewards/event_reward_fn/std": 5.3445031344890594,
+      "rewards/format_reward_fn/mean": 0.8428710959851742,
+      "rewards/format_reward_fn/std": 0.34356776159256697,
+      "step": 1552
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1103515625,
+      "completions/max_length": 255.125,
+      "completions/max_terminated_length": 247.875,
+      "completions/mean_length": 204.4716796875,
+      "completions/mean_terminated_length": 198.4902868270874,
+      "completions/min_length": 149.9375,
+      "completions/min_terminated_length": 149.9375,
+      "entropy": 0.09716548025608063,
+      "epoch": 1.5238095238095237,
+      "frac_reward_zero_std": 0.30859375,
+      "grad_norm": 0.13532325625419617,
+      "learning_rate": 5e-05,
+      "loss": 0.0014,
+      "num_tokens": 126156049.0,
+      "reward": 9.934103816747665,
+      "reward_std": 0.9690110310912132,
+      "rewards/bm25_retrieval_reward_fn/mean": 0.8615453615784645,
+      "rewards/bm25_retrieval_reward_fn/std": 0.2830730821006,
+      "rewards/event_reward_fn/mean": 8.1953125,
+      "rewards/event_reward_fn/std": 4.997192412614822,
+      "rewards/format_reward_fn/mean": 0.8772460930049419,
+      "rewards/format_reward_fn/std": 0.27953232545405626,
+      "step": 1568
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0634765625,
+      "completions/max_length": 253.625,
+      "completions/max_terminated_length": 241.8125,
+      "completions/mean_length": 191.8193359375,
+      "completions/mean_terminated_length": 187.4044713973999,
+      "completions/min_length": 134.4375,
+      "completions/min_terminated_length": 134.4375,
+      "entropy": 0.08724062331020832,
+      "epoch": 1.5393586005830904,
+      "frac_reward_zero_std": 0.30078125,
+      "grad_norm": 0.13813965022563934,
+      "learning_rate": 5e-05,
+      "loss": -0.0036,
+      "num_tokens": 127483244.0,
+      "reward": 11.109964549541473,
+      "reward_std": 0.9232164584100246,
+      "rewards/bm25_retrieval_reward_fn/mean": 0.9082068763673306,
+      "rewards/bm25_retrieval_reward_fn/std": 0.25597723573446274,
+      "rewards/event_reward_fn/mean": 9.279296875,
+      "rewards/event_reward_fn/std": 5.3837059289216995,
+      "rewards/format_reward_fn/mean": 0.9224609360098839,
+      "rewards/format_reward_fn/std": 0.2576202508062124,
+      "step": 1584
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0458984375,
+      "completions/max_length": 251.0,
+      "completions/max_terminated_length": 242.375,
+      "completions/mean_length": 193.9111328125,
+      "completions/mean_terminated_length": 190.90945529937744,
+      "completions/min_length": 148.625,
+      "completions/min_terminated_length": 148.625,
+      "entropy": 0.08152232086285949,
+      "epoch": 1.554907677356657,
+      "frac_reward_zero_std": 0.34375,
+      "grad_norm": 0.35102641582489014,
+      "learning_rate": 5e-05,
+      "loss": -0.0013,
+      "num_tokens": 128764293.0,
+      "reward": 11.371211469173431,
+      "reward_std": 0.8595849685370922,
+      "rewards/bm25_retrieval_reward_fn/mean": 0.9204303659498692,
+      "rewards/bm25_retrieval_reward_fn/std": 0.21888624806888402,
+      "rewards/event_reward_fn/mean": 9.513671875,
+      "rewards/event_reward_fn/std": 5.4597727209329605,
+      "rewards/format_reward_fn/mean": 0.9371093735098839,
+      "rewards/format_reward_fn/std": 0.2127007795497775,
+      "step": 1600
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.091796875,
+      "completions/max_length": 252.375,
+      "completions/max_terminated_length": 245.375,
+      "completions/mean_length": 200.150390625,
+      "completions/mean_terminated_length": 194.58474922180176,
+      "completions/min_length": 145.125,
+      "completions/min_terminated_length": 145.125,
+      "entropy": 0.08945442596450448,
+      "epoch": 1.5704567541302237,
+      "frac_reward_zero_std": 0.28125,
+      "grad_norm": 0.11586015671491623,
+      "learning_rate": 5e-05,
+      "loss": -0.0005,
+      "num_tokens": 130147811.0,
+      "reward": 10.688360095024109,
+      "reward_std": 0.8784848563373089,
+      "rewards/bm25_retrieval_reward_fn/mean": 0.8703912869095802,
+      "rewards/bm25_retrieval_reward_fn/std": 0.26367771509103477,
+      "rewards/event_reward_fn/mean": 8.9267578125,
+      "rewards/event_reward_fn/std": 5.635714888572693,
+      "rewards/format_reward_fn/mean": 0.8912109360098839,
+      "rewards/format_reward_fn/std": 0.2533010635524988,
+      "step": 1616
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.07421875,
+      "completions/max_length": 254.3125,
+      "completions/max_terminated_length": 239.75,
+      "completions/mean_length": 195.1494140625,
+      "completions/mean_terminated_length": 190.32571697235107,
+      "completions/min_length": 143.625,
+      "completions/min_terminated_length": 143.625,
+      "entropy": 0.08721820963546634,
+      "epoch": 1.58600583090379,
+      "frac_reward_zero_std": 0.328125,
+      "grad_norm": 0.1575620472431183,
+      "learning_rate": 5e-05,
+      "loss": -0.0,
+      "num_tokens": 131479512.0,
+      "reward": 10.922975957393646,
+      "reward_std": 0.7370323836803436,
+      "rewards/bm25_retrieval_reward_fn/mean": 0.8828910291194916,
+      "rewards/bm25_retrieval_reward_fn/std": 0.2897054869681597,
+      "rewards/event_reward_fn/mean": 9.146484375,
+      "rewards/event_reward_fn/std": 5.057717680931091,
+      "rewards/format_reward_fn/mean": 0.8936002627015114,
+      "rewards/format_reward_fn/std": 0.28906678687781096,
+      "step": 1632
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0703125,
+      "completions/max_length": 254.0,
+      "completions/max_terminated_length": 241.6875,
+      "completions/mean_length": 198.5185546875,
+      "completions/mean_terminated_length": 194.11609935760498,
+      "completions/min_length": 149.1875,
+      "completions/min_terminated_length": 149.1875,
+      "entropy": 0.08794478559866548,
+      "epoch": 1.6015549076773565,
+      "frac_reward_zero_std": 0.34375,
+      "grad_norm": 0.16397124528884888,
+      "learning_rate": 5e-05,
+      "loss": 0.001,
+      "num_tokens": 132797395.0,
+      "reward": 10.608273446559906,
+      "reward_std": 0.8345479369163513,
+      "rewards/bm25_retrieval_reward_fn/mean": 0.8834850341081619,
+      "rewards/bm25_retrieval_reward_fn/std": 0.27482672582846135,
+      "rewards/event_reward_fn/mean": 8.8251953125,
+      "rewards/event_reward_fn/std": 5.233703002333641,
+      "rewards/format_reward_fn/mean": 0.8995930962264538,
+      "rewards/format_reward_fn/std": 0.27503635361790657,
+      "step": 1648
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.064453125,
+      "completions/max_length": 254.6875,
+      "completions/max_terminated_length": 241.25,
+      "completions/mean_length": 192.1123046875,
+      "completions/mean_terminated_length": 187.6938066482544,
+      "completions/min_length": 137.3125,
+      "completions/min_terminated_length": 137.3125,
+      "entropy": 0.08001765748485923,
+      "epoch": 1.6171039844509232,
+      "frac_reward_zero_std": 0.33203125,
+      "grad_norm": 0.16833443939685822,
+      "learning_rate": 5e-05,
+      "loss": 0.0008,
+      "num_tokens": 134069966.0,
+      "reward": 11.113677322864532,
+      "reward_std": 0.9350622501224279,
+      "rewards/bm25_retrieval_reward_fn/mean": 0.9033686555922031,
+      "rewards/bm25_retrieval_reward_fn/std": 0.2602922786027193,
+      "rewards/event_reward_fn/mean": 9.2939453125,
+      "rewards/event_reward_fn/std": 5.6752976179122925,
+      "rewards/format_reward_fn/mean": 0.9163634702563286,
+      "rewards/format_reward_fn/std": 0.2618194241076708,
+      "step": 1664
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.06640625,
+      "completions/max_length": 249.3125,
+      "completions/max_terminated_length": 241.75,
+      "completions/mean_length": 196.7158203125,
+      "completions/mean_terminated_length": 192.56449699401855,
+      "completions/min_length": 129.6875,
+      "completions/min_terminated_length": 129.6875,
+      "entropy": 0.08379031391814351,
+      "epoch": 1.6326530612244898,
+      "frac_reward_zero_std": 0.3125,
+      "grad_norm": 0.14574581384658813,
+      "learning_rate": 5e-05,
+      "loss": -0.0047,
+      "num_tokens": 135435439.0,
+      "reward": 11.539310336112976,
+      "reward_std": 0.9443789459764957,
+      "rewards/bm25_retrieval_reward_fn/mean": 0.8967322260141373,
+      "rewards/bm25_retrieval_reward_fn/std": 0.22321847162675112,
+      "rewards/event_reward_fn/mean": 9.7314453125,
+      "rewards/event_reward_fn/std": 5.278485506772995,
+      "rewards/format_reward_fn/mean": 0.9111328125,
+      "rewards/format_reward_fn/std": 0.21248832251876593,
+      "step": 1680
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0791015625,
+      "completions/max_length": 254.8125,
+      "completions/max_terminated_length": 244.8125,
+      "completions/mean_length": 202.83203125,
+      "completions/mean_terminated_length": 198.2507667541504,
+      "completions/min_length": 150.625,
+      "completions/min_terminated_length": 150.625,
+      "entropy": 0.08855495927855372,
+      "epoch": 1.6482021379980565,
+      "frac_reward_zero_std": 0.3046875,
+      "grad_norm": 0.17940281331539154,
+      "learning_rate": 5e-05,
+      "loss": -0.0056,
+      "num_tokens": 136778675.0,
+      "reward": 11.134308993816376,
+      "reward_std": 0.9293302595615387,
+      "rewards/bm25_retrieval_reward_fn/mean": 0.8743740394711494,
+      "rewards/bm25_retrieval_reward_fn/std": 0.26636734034400433,
+      "rewards/event_reward_fn/mean": 9.3662109375,
+      "rewards/event_reward_fn/std": 5.85838320851326,
+      "rewards/format_reward_fn/mean": 0.8937239646911621,
+      "rewards/format_reward_fn/std": 0.2652863524854183,
+      "step": 1696
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.138671875,
+      "completions/max_length": 256.0,
+      "completions/max_terminated_length": 251.6875,
+      "completions/mean_length": 213.9638671875,
+      "completions/mean_terminated_length": 207.2107219696045,
+      "completions/min_length": 162.375,
+      "completions/min_terminated_length": 162.375,
+      "entropy": 0.09064092021435499,
+      "epoch": 1.663751214771623,
+      "frac_reward_zero_std": 0.3046875,
+      "grad_norm": 0.15384909510612488,
+      "learning_rate": 5e-05,
+      "loss": 0.0029,
+      "num_tokens": 138044578.0,
+      "reward": 11.337530732154846,
+      "reward_std": 0.9400022551417351,
+      "rewards/bm25_retrieval_reward_fn/mean": 0.824542474001646,
+      "rewards/bm25_retrieval_reward_fn/std": 0.33465168718248606,
+      "rewards/event_reward_fn/mean": 9.6669921875,
+      "rewards/event_reward_fn/std": 5.503222852945328,
+      "rewards/format_reward_fn/mean": 0.8459960930049419,
+      "rewards/format_reward_fn/std": 0.3366972776129842,
+      "step": 1712
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.046875,
+      "completions/max_length": 251.5625,
+      "completions/max_terminated_length": 245.5625,
+      "completions/mean_length": 203.677734375,
+      "completions/mean_terminated_length": 201.15838241577148,
+      "completions/min_length": 159.1875,
+      "completions/min_terminated_length": 159.1875,
+      "entropy": 0.08698790520429611,
+      "epoch": 1.6793002915451893,
+      "frac_reward_zero_std": 0.296875,
+      "grad_norm": 0.11867301166057587,
+      "learning_rate": 5e-05,
+      "loss": 0.0003,
+      "num_tokens": 139288124.0,
+      "reward": 11.192306399345398,
+      "reward_std": 0.9463471882045269,
+      "rewards/bm25_retrieval_reward_fn/mean": 0.9286414235830307,
+      "rewards/bm25_retrieval_reward_fn/std": 0.20035810582339764,
+      "rewards/event_reward_fn/mean": 9.3193359375,
+      "rewards/event_reward_fn/std": 5.200570702552795,
+      "rewards/format_reward_fn/mean": 0.9443289637565613,
+      "rewards/format_reward_fn/std": 0.19202105328440666,
+      "step": 1728
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0556640625,
+      "completions/max_length": 252.125,
+      "completions/max_terminated_length": 244.875,
+      "completions/mean_length": 193.6708984375,
+      "completions/mean_terminated_length": 189.9529905319214,
+      "completions/min_length": 136.625,
+      "completions/min_terminated_length": 136.625,
+      "entropy": 0.08362232241779566,
+      "epoch": 1.694849368318756,
+      "frac_reward_zero_std": 0.33203125,
+      "grad_norm": 0.11613152176141739,
+      "learning_rate": 5e-05,
+      "loss": -0.0019,
+      "num_tokens": 140615163.0,
+      "reward": 11.211718916893005,
+      "reward_std": 0.8285622540861368,
+      "rewards/bm25_retrieval_reward_fn/mean": 0.9016408734023571,
+      "rewards/bm25_retrieval_reward_fn/std": 0.25260637141764164,
+      "rewards/event_reward_fn/mean": 9.390625,
+      "rewards/event_reward_fn/std": 5.310590535402298,
+      "rewards/format_reward_fn/mean": 0.9194531291723251,
+      "rewards/format_reward_fn/std": 0.251515906304121,
+      "step": 1744
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0751953125,
+      "completions/max_length": 248.6875,
+      "completions/max_terminated_length": 240.3125,
+      "completions/mean_length": 194.3291015625,
+      "completions/mean_terminated_length": 189.4942626953125,
+      "completions/min_length": 139.25,
+      "completions/min_terminated_length": 139.25,
+      "entropy": 0.08920921664685011,
+      "epoch": 1.7103984450923226,
+      "frac_reward_zero_std": 0.265625,
+      "grad_norm": 0.1495039016008377,
+      "learning_rate": 5e-05,
+      "loss": -0.0026,
+      "num_tokens": 141995908.0,
+      "reward": 11.331986844539642,
+      "reward_std": 0.9946209099143744,
+      "rewards/bm25_retrieval_reward_fn/mean": 0.8805676624178886,
+      "rewards/bm25_retrieval_reward_fn/std": 0.2605485112289898,
+      "rewards/event_reward_fn/mean": 9.5615234375,
+      "rewards/event_reward_fn/std": 5.626507669687271,
+      "rewards/format_reward_fn/mean": 0.8898958377540112,
+      "rewards/format_reward_fn/std": 0.25742682348936796,
+      "step": 1760
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0556640625,
+      "completions/max_length": 250.625,
+      "completions/max_terminated_length": 242.25,
+      "completions/mean_length": 194.5751953125,
+      "completions/mean_terminated_length": 190.86159992218018,
+      "completions/min_length": 141.5625,
+      "completions/min_terminated_length": 141.5625,
+      "entropy": 0.09618484182283282,
+      "epoch": 1.7259475218658893,
+      "frac_reward_zero_std": 0.26953125,
+      "grad_norm": 0.20417290925979614,
+      "learning_rate": 5e-05,
+      "loss": -0.0055,
+      "num_tokens": 143301673.0,
+      "reward": 10.538148939609528,
+      "reward_std": 0.9361699968576431,
+      "rewards/bm25_retrieval_reward_fn/mean": 0.9052551127970219,
+      "rewards/bm25_retrieval_reward_fn/std": 0.2257093784864992,
+      "rewards/event_reward_fn/mean": 8.7158203125,
+      "rewards/event_reward_fn/std": 4.607826009392738,
+      "rewards/format_reward_fn/mean": 0.9170735664665699,
+      "rewards/format_reward_fn/std": 0.22840105323120952,
+      "step": 1776
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0576171875,
+      "completions/max_length": 252.8125,
+      "completions/max_terminated_length": 244.4375,
+      "completions/mean_length": 200.8662109375,
+      "completions/mean_terminated_length": 197.39703178405762,
+      "completions/min_length": 149.9375,
+      "completions/min_terminated_length": 149.9375,
+      "entropy": 0.08653424866497517,
+      "epoch": 1.741496598639456,
+      "frac_reward_zero_std": 0.3359375,
+      "grad_norm": 0.14243784546852112,
+      "learning_rate": 5e-05,
+      "loss": 0.0011,
+      "num_tokens": 144603412.0,
+      "reward": 11.493825078010559,
+      "reward_std": 0.8755283299833536,
+      "rewards/bm25_retrieval_reward_fn/mean": 0.9135190099477768,
+      "rewards/bm25_retrieval_reward_fn/std": 0.24690337451465894,
+      "rewards/event_reward_fn/mean": 9.658203125,
+      "rewards/event_reward_fn/std": 5.445283606648445,
+      "rewards/format_reward_fn/mean": 0.922102864831686,
+      "rewards/format_reward_fn/std": 0.2481938637793064,
+      "step": 1792
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0556640625,
+      "completions/max_length": 252.0625,
+      "completions/max_terminated_length": 246.75,
+      "completions/mean_length": 196.5146484375,
+      "completions/mean_terminated_length": 193.12859344482422,
+      "completions/min_length": 140.8125,
+      "completions/min_terminated_length": 140.8125,
+      "entropy": 0.08316960139200091,
+      "epoch": 1.7570456754130224,
+      "frac_reward_zero_std": 0.3125,
+      "grad_norm": 0.109793521463871,
+      "learning_rate": 5e-05,
+      "loss": -0.0022,
+      "num_tokens": 145919099.0,
+      "reward": 11.740033328533173,
+      "reward_std": 0.9224549978971481,
+      "rewards/bm25_retrieval_reward_fn/mean": 0.9150333367288113,
+      "rewards/bm25_retrieval_reward_fn/std": 0.24498367216438055,
+      "rewards/event_reward_fn/mean": 9.90234375,
+      "rewards/event_reward_fn/std": 5.425331294536591,
+      "rewards/format_reward_fn/mean": 0.9226562492549419,
+      "rewards/format_reward_fn/std": 0.24409929476678371,
+      "step": 1808
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.072265625,
+      "completions/max_length": 254.75,
+      "completions/max_terminated_length": 249.3125,
+      "completions/mean_length": 208.4755859375,
+      "completions/mean_terminated_length": 204.96116065979004,
+      "completions/min_length": 160.5625,
+      "completions/min_terminated_length": 160.5625,
+      "entropy": 0.08932856796309352,
+      "epoch": 1.7725947521865888,
+      "frac_reward_zero_std": 0.3359375,
+      "grad_norm": 0.24029314517974854,
+      "learning_rate": 5e-05,
+      "loss": 0.0045,
+      "num_tokens": 147275350.0,
+      "reward": 11.133660674095154,
+      "reward_std": 1.0420608818531036,
+      "rewards/bm25_retrieval_reward_fn/mean": 0.8887974470853806,
+      "rewards/bm25_retrieval_reward_fn/std": 0.2559172356268391,
+      "rewards/event_reward_fn/mean": 9.34375,
+      "rewards/event_reward_fn/std": 5.51551166176796,
+      "rewards/format_reward_fn/mean": 0.9011132828891277,
+      "rewards/format_reward_fn/std": 0.2507179146632552,
+      "step": 1824
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.046875,
+      "completions/max_length": 252.375,
+      "completions/max_terminated_length": 240.875,
+      "completions/mean_length": 198.576171875,
+      "completions/mean_terminated_length": 195.7430601119995,
+      "completions/min_length": 151.25,
+      "completions/min_terminated_length": 151.25,
+      "entropy": 0.08435806119814515,
+      "epoch": 1.7881438289601554,
+      "frac_reward_zero_std": 0.36328125,
+      "grad_norm": 0.13869501650333405,
+      "learning_rate": 5e-05,
+      "loss": -0.0026,
+      "num_tokens": 148539184.0,
+      "reward": 11.031599402427673,
+      "reward_std": 0.7965468689799309,
+      "rewards/bm25_retrieval_reward_fn/mean": 0.9208246804773808,
+      "rewards/bm25_retrieval_reward_fn/std": 0.2361440734239295,
+      "rewards/event_reward_fn/mean": 9.1796875,
+      "rewards/event_reward_fn/std": 4.907300844788551,
+      "rewards/format_reward_fn/mean": 0.9310872405767441,
+      "rewards/format_reward_fn/std": 0.2394925099797547,
+      "step": 1840
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0380859375,
+      "completions/max_length": 252.5,
+      "completions/max_terminated_length": 250.125,
+      "completions/mean_length": 202.90234375,
+      "completions/mean_terminated_length": 200.88229370117188,
+      "completions/min_length": 155.875,
+      "completions/min_terminated_length": 155.875,
+      "entropy": 0.08052209811285138,
+      "epoch": 1.803692905733722,
+      "frac_reward_zero_std": 0.35546875,
+      "grad_norm": 0.1878909021615982,
+      "learning_rate": 5e-05,
+      "loss": 0.001,
+      "num_tokens": 149840940.0,
+      "reward": 10.959127485752106,
+      "reward_std": 0.9578492008149624,
+      "rewards/bm25_retrieval_reward_fn/mean": 0.9300258904695511,
+      "rewards/bm25_retrieval_reward_fn/std": 0.18775073438882828,
+      "rewards/event_reward_fn/mean": 9.0859375,
+      "rewards/event_reward_fn/std": 5.149698540568352,
+      "rewards/format_reward_fn/mean": 0.9431640617549419,
+      "rewards/format_reward_fn/std": 0.17401384096592665,
+      "step": 1856
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.09765625,
+      "completions/max_length": 255.9375,
+      "completions/max_terminated_length": 248.875,
+      "completions/mean_length": 211.8564453125,
+      "completions/mean_terminated_length": 207.1767454147339,
+      "completions/min_length": 164.5625,
+      "completions/min_terminated_length": 164.5625,
+      "entropy": 0.08094025542959571,
+      "epoch": 1.8192419825072887,
+      "frac_reward_zero_std": 0.34765625,
+      "grad_norm": 0.14807139337062836,
+      "learning_rate": 5e-05,
+      "loss": 0.0023,
+      "num_tokens": 151221749.0,
+      "reward": 11.752990126609802,
+      "reward_std": 0.9537594802677631,
+      "rewards/bm25_retrieval_reward_fn/mean": 0.8724758252501488,
+      "rewards/bm25_retrieval_reward_fn/std": 0.29270493309013546,
+      "rewards/event_reward_fn/mean": 9.9970703125,
+      "rewards/event_reward_fn/std": 5.857491314411163,
+      "rewards/format_reward_fn/mean": 0.8834440112113953,
+      "rewards/format_reward_fn/std": 0.29244135320186615,
+      "step": 1872
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0546875,
+      "completions/max_length": 254.3125,
+      "completions/max_terminated_length": 250.25,
+      "completions/mean_length": 208.7001953125,
+      "completions/mean_terminated_length": 206.05935287475586,
+      "completions/min_length": 159.125,
+      "completions/min_terminated_length": 159.125,
+      "entropy": 0.08766834484413266,
+      "epoch": 1.8347910592808552,
+      "frac_reward_zero_std": 0.34375,
+      "grad_norm": 0.17317424714565277,
+      "learning_rate": 5e-05,
+      "loss": -0.0004,
+      "num_tokens": 152521294.0,
+      "reward": 11.364756107330322,
+      "reward_std": 0.9098326228559017,
+      "rewards/bm25_retrieval_reward_fn/mean": 0.8889735676348209,
+      "rewards/bm25_retrieval_reward_fn/std": 0.2667266938369721,
+      "rewards/event_reward_fn/mean": 9.568359375,
+      "rewards/event_reward_fn/std": 5.424193903803825,
+      "rewards/format_reward_fn/mean": 0.9074231162667274,
+      "rewards/format_reward_fn/std": 0.2601332040503621,
+      "step": 1888
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0478515625,
+      "completions/max_length": 253.1875,
+      "completions/max_terminated_length": 248.625,
+      "completions/mean_length": 205.2333984375,
+      "completions/mean_terminated_length": 202.61692428588867,
+      "completions/min_length": 158.0625,
+      "completions/min_terminated_length": 158.0625,
+      "entropy": 0.0873062857426703,
+      "epoch": 1.8503401360544216,
+      "frac_reward_zero_std": 0.3359375,
+      "grad_norm": 0.16510100662708282,
+      "learning_rate": 5e-05,
+      "loss": 0.0008,
+      "num_tokens": 153814765.0,
+      "reward": 10.840591430664062,
+      "reward_std": 0.806601133197546,
+      "rewards/bm25_retrieval_reward_fn/mean": 0.8800444230437279,
+      "rewards/bm25_retrieval_reward_fn/std": 0.2592724412679672,
+      "rewards/event_reward_fn/mean": 9.05078125,
+      "rewards/event_reward_fn/std": 5.017846331000328,
+      "rewards/format_reward_fn/mean": 0.9097656235098839,
+      "rewards/format_reward_fn/std": 0.2350642140954733,
+      "step": 1904
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0478515625,
+      "completions/max_length": 250.6875,
+      "completions/max_terminated_length": 246.625,
+      "completions/mean_length": 199.6025390625,
+      "completions/mean_terminated_length": 196.8941469192505,
+      "completions/min_length": 146.75,
+      "completions/min_terminated_length": 146.75,
+      "entropy": 0.08616631478071213,
+      "epoch": 1.8658892128279883,
+      "frac_reward_zero_std": 0.328125,
+      "grad_norm": 0.10711020976305008,
+      "learning_rate": 5e-05,
+      "loss": 0.003,
+      "num_tokens": 155159530.0,
+      "reward": 11.430678129196167,
+      "reward_std": 0.7845460455864668,
+      "rewards/bm25_retrieval_reward_fn/mean": 0.9038552716374397,
+      "rewards/bm25_retrieval_reward_fn/std": 0.21465440141037107,
+      "rewards/event_reward_fn/mean": 9.5986328125,
+      "rewards/event_reward_fn/std": 5.15682627260685,
+      "rewards/format_reward_fn/mean": 0.928190104663372,
+      "rewards/format_reward_fn/std": 0.19767758785746992,
+      "step": 1920
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0625,
+      "completions/max_length": 253.1875,
+      "completions/max_terminated_length": 246.6875,
+      "completions/mean_length": 200.734375,
+      "completions/mean_terminated_length": 197.25225925445557,
+      "completions/min_length": 150.1875,
+      "completions/min_terminated_length": 150.1875,
+      "entropy": 0.08771243086084723,
+      "epoch": 1.881438289601555,
+      "frac_reward_zero_std": 0.27734375,
+      "grad_norm": 0.119595006108284,
+      "learning_rate": 5e-05,
+      "loss": -0.001,
+      "num_tokens": 156525614.0,
+      "reward": 11.453014373779297,
+      "reward_std": 1.111331295222044,
+      "rewards/bm25_retrieval_reward_fn/mean": 0.8604980707168579,
+      "rewards/bm25_retrieval_reward_fn/std": 0.2871107269311324,
+      "rewards/event_reward_fn/mean": 9.708984375,
+      "rewards/event_reward_fn/std": 5.215842500329018,
+      "rewards/format_reward_fn/mean": 0.8835319019854069,
+      "rewards/format_reward_fn/std": 0.2829501121304929,
+      "step": 1936
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.021484375,
+      "completions/max_length": 250.25,
+      "completions/max_terminated_length": 245.8125,
+      "completions/mean_length": 194.017578125,
+      "completions/mean_terminated_length": 192.65657711029053,
+      "completions/min_length": 140.6875,
+      "completions/min_terminated_length": 140.6875,
+      "entropy": 0.08764936728402972,
+      "epoch": 1.8969873663751216,
+      "frac_reward_zero_std": 0.28515625,
+      "grad_norm": 0.1511303335428238,
+      "learning_rate": 5e-05,
+      "loss": 0.0032,
+      "num_tokens": 157786400.0,
+      "reward": 10.632731199264526,
+      "reward_std": 0.9243863355368376,
+      "rewards/bm25_retrieval_reward_fn/mean": 0.9324383623898029,
+      "rewards/bm25_retrieval_reward_fn/std": 0.18536719167605042,
+      "rewards/event_reward_fn/mean": 8.7451171875,
+      "rewards/event_reward_fn/std": 5.235057607293129,
+      "rewards/format_reward_fn/mean": 0.9551757834851742,
+      "rewards/format_reward_fn/std": 0.16272677155211568,
+      "step": 1952
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.046875,
+      "completions/max_length": 254.125,
+      "completions/max_terminated_length": 250.6875,
+      "completions/mean_length": 200.95703125,
+      "completions/mean_terminated_length": 198.30670166015625,
+      "completions/min_length": 154.6875,
+      "completions/min_terminated_length": 154.6875,
+      "entropy": 0.08874167408794165,
+      "epoch": 1.9125364431486882,
+      "frac_reward_zero_std": 0.33984375,
+      "grad_norm": 0.17749741673469543,
+      "learning_rate": 5e-05,
+      "loss": 0.0037,
+      "num_tokens": 159093888.0,
+      "reward": 11.275705397129059,
+      "reward_std": 0.856599148362875,
+      "rewards/bm25_retrieval_reward_fn/mean": 0.9131891131401062,
+      "rewards/bm25_retrieval_reward_fn/std": 0.2150915495294612,
+      "rewards/event_reward_fn/mean": 9.4345703125,
+      "rewards/event_reward_fn/std": 5.729633465409279,
+      "rewards/format_reward_fn/mean": 0.927945964038372,
+      "rewards/format_reward_fn/std": 0.2096583191305399,
+      "step": 1968
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.041015625,
+      "completions/max_length": 253.875,
+      "completions/max_terminated_length": 246.5625,
+      "completions/mean_length": 200.9677734375,
+      "completions/mean_terminated_length": 198.57855701446533,
+      "completions/min_length": 142.8125,
+      "completions/min_terminated_length": 142.8125,
+      "entropy": 0.0850910097360611,
+      "epoch": 1.9280855199222546,
+      "frac_reward_zero_std": 0.375,
+      "grad_norm": 0.12046821415424347,
+      "learning_rate": 5e-05,
+      "loss": 0.0007,
+      "num_tokens": 160340479.0,
+      "reward": 10.719317555427551,
+      "reward_std": 0.8128865994513035,
+      "rewards/bm25_retrieval_reward_fn/mean": 0.9061989188194275,
+      "rewards/bm25_retrieval_reward_fn/std": 0.24043723253998905,
+      "rewards/event_reward_fn/mean": 8.892578125,
+      "rewards/event_reward_fn/std": 5.485840782523155,
+      "rewards/format_reward_fn/mean": 0.9205403625965118,
+      "rewards/format_reward_fn/std": 0.2409290496725589,
+      "step": 1984
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.12109375,
+      "completions/max_length": 256.0,
+      "completions/max_terminated_length": 251.125,
+      "completions/mean_length": 213.712890625,
+      "completions/mean_terminated_length": 207.85150337219238,
+      "completions/min_length": 160.9375,
+      "completions/min_terminated_length": 160.9375,
+      "entropy": 0.08267078269273043,
+      "epoch": 1.943634596695821,
+      "frac_reward_zero_std": 0.32421875,
+      "grad_norm": 0.09311431646347046,
+      "learning_rate": 5e-05,
+      "loss": 0.0044,
+      "num_tokens": 161744217.0,
+      "reward": 10.99679410457611,
+      "reward_std": 0.9773008767515421,
+      "rewards/bm25_retrieval_reward_fn/mean": 0.856908455491066,
+      "rewards/bm25_retrieval_reward_fn/std": 0.3204036271199584,
+      "rewards/event_reward_fn/mean": 9.2744140625,
+      "rewards/event_reward_fn/std": 5.77374792098999,
+      "rewards/format_reward_fn/mean": 0.8654715418815613,
+      "rewards/format_reward_fn/std": 0.3263047467917204,
+      "step": 2000
     }
   ],
   "logging_steps": 16,
   "max_steps": 10290,
+  "num_input_tokens_seen": 161744217,
   "num_train_epochs": 10,
   "save_steps": 500,
   "stateful_callbacks": {