Instructions to use usr256864/ee_gol with libraries, inference providers, notebooks, and local apps. Follow these links to get started.

Libraries

How to use usr256864/ee_gol with PEFT:

from peft import PeftModel
from transformers import AutoModelForCausalLM

base_model = AutoModelForCausalLM.from_pretrained("HiTZ/GoLLIE-7B")
model = PeftModel.from_pretrained(base_model, "usr256864/ee_gol")

Transformers

How to use usr256864/ee_gol with Transformers:

# Use a pipeline as a high-level helper
from transformers import pipeline

pipe = pipeline("text-generation", model="usr256864/ee_gol")

# Load model directly
from transformers import AutoModel
model = AutoModel.from_pretrained("usr256864/ee_gol", dtype="auto")

Notebooks
Google Colab
Kaggle
Local Apps

vLLM

How to use usr256864/ee_gol with vLLM:

Install from pip and serve model

# Install vLLM from pip:
pip install vllm
# Start the vLLM server:
vllm serve "usr256864/ee_gol"
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:8000/v1/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "usr256864/ee_gol",
		"prompt": "Once upon a time,",
		"max_tokens": 512,
		"temperature": 0.5
	}'

Use Docker

docker model run hf.co/usr256864/ee_gol

SGLang

How to use usr256864/ee_gol with SGLang:

Install from pip and serve model

# Install SGLang from pip:
pip install sglang
# Start the SGLang server:
python3 -m sglang.launch_server \
    --model-path "usr256864/ee_gol" \
    --host 0.0.0.0 \
    --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "usr256864/ee_gol",
		"prompt": "Once upon a time,",
		"max_tokens": 512,
		"temperature": 0.5
	}'

Use Docker images

docker run --gpus all \
    --shm-size 32g \
    -p 30000:30000 \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    --env "HF_TOKEN=<secret>" \
    --ipc=host \
    lmsysorg/sglang:latest \
    python3 -m sglang.launch_server \
        --model-path "usr256864/ee_gol" \
        --host 0.0.0.0 \
        --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "usr256864/ee_gol",
		"prompt": "Once upon a time,",
		"max_tokens": 512,
		"temperature": 0.5
	}'

Docker Model Runner
How to use usr256864/ee_gol with Docker Model Runner:
```
docker model run hf.co/usr256864/ee_gol
```

usr256864 commited on Oct 24, 2025

Commit

90d856d

verified ·

1 Parent(s): 05f842a

Upload folder using huggingface_hub

Browse files

Files changed (14) hide show

adapter_config.json +2 -2
adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state_0.pth +1 -1
rng_state_1.pth +1 -1
rng_state_2.pth +1 -1
rng_state_3.pth +1 -1
rng_state_4.pth +1 -1
rng_state_5.pth +1 -1
rng_state_6.pth +1 -1
rng_state_7.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +3 -933
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -25,8 +25,8 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "v_proj",
-    "q_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "q_proj",
+    "v_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc5586e71765b19dc2e397d877b4f0ac65f9dc420556df4f1c68c2198aae70d4
 size 16794200

 version https://git-lfs.github.com/spec/v1
+oid sha256:17a1eaa0c2de60b9844d1cc03aff521bbfb4581f7ab3366f9a89e9fae89535ce
 size 16794200

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fdebb1e819dab78d9eb52c802a9445fd32d5b815237b15e2302b31bcf54ba668
 size 33664331

 version https://git-lfs.github.com/spec/v1
+oid sha256:6320d8db318aaf99c6b8796d5ef702c67d497a785359999a3379e6800c2346f1
 size 33664331

rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4e385d556bbaca5472b5cbae1aa6dc96bb3425eaabfdad7a2028faec6c78498c
 size 16325

 version https://git-lfs.github.com/spec/v1
+oid sha256:a71878d32742b6bb1d7e6f320668e9057eb306b367d448e89261acf1e34b5969
 size 16325

rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:94c6d9d64f0b87344c7fda0e5cb9c9e6eeed252d3b0a7cc477fd01be22f2eb4c
 size 16389

 version https://git-lfs.github.com/spec/v1
+oid sha256:d75b95472c217f8113f1cc9de80ebc17fac2b25d38a92fe08d69870899adb2f6
 size 16389

rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:154bda22c80b9bc23d3a88787f9d9a5b30244b7a72a3924dc013c4c0e4aafd36
 size 16389

 version https://git-lfs.github.com/spec/v1
+oid sha256:5451043be89709e3b8e5cde8a1bcc9ff167dd30ef2ebab491d7f2ee7bc224b36
 size 16389

rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4690cb2b16ebb3e5458522aeeeca869a287cb497252af09417640f3a750c62b1
 size 16389

 version https://git-lfs.github.com/spec/v1
+oid sha256:b32717ec55a8a59baafd0f43933b1acddf22eef248d2231fd3347b42465fa607
 size 16389

rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5ed8b9fa5cd7191952886161b63192416187b67e954348173079eeffebb01639
 size 16389

 version https://git-lfs.github.com/spec/v1
+oid sha256:0b613070a232b30a4f8e0d72fb403479556a5ed6861d080a034f21d7ee69c003
 size 16389

rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2e24e61221f86c5ee154f36d8d8fd1089783e3d3277fdfbea8eaffa3f87e7f28
 size 16389

 version https://git-lfs.github.com/spec/v1
+oid sha256:1035ef0576c9b6d7d98a15586cc2c3549a5dfa7fa16332c1ee1fb668547c0fee
 size 16389

rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0ab84383c0343c605cecb006a4f626c8653228a8d0d3c3c23f336ab523fa0da0
 size 16389

 version https://git-lfs.github.com/spec/v1
+oid sha256:683799cf324fe7fb2fc880b968b1ca888155d8bb2c08cf2a0760ed3802a8e5fe
 size 16389

rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b9a4dc69b63580800bda2f46f5997e3f0341c4ad9592602717d3cd6de8ede9c5
 size 16325

 version https://git-lfs.github.com/spec/v1
+oid sha256:d212ffe5a372e10e4ef7f41fb63a3acf5e7faa0d500fe86883a93de2e93e8f25
 size 16325

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c1eb96a17ced1a30656568ce97c308d6b8d89567ef0d53a6f7c4c66dab25646a
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:f275d9fe3bf7acf1cd62850a289b5eeef9d0373b5a2b0c248e6f9ebb8c2512e6
 size 1465

trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.9154518950437316,
   "eval_steps": 500,
-  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4688,941 +4688,11 @@
       "rewards/format_reward_fn/mean": 0.9545312523841858,
       "rewards/format_reward_fn/std": 0.17224382143467665,
       "step": 2496
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.029947916666666668,
-      "completions/max_length": 253.5,
-      "completions/max_terminated_length": 249.08333333333334,
-      "completions/mean_length": 210.64192708333334,
-      "completions/mean_terminated_length": 209.20124689737955,
-      "completions/min_length": 172.41666666666666,
-      "completions/min_terminated_length": 172.41666666666666,
-      "entropy": 0.08086393773555756,
-      "epoch": 2.441205053449951,
-      "frac_reward_zero_std": 0.3802083333333333,
-      "grad_norm": 0.10650806128978729,
-      "learning_rate": 5e-05,
-      "loss": 0.0013,
-      "num_tokens": 204152564.0,
-      "reward": 11.6739342212677,
-      "reward_std": 0.807344543437163,
-      "rewards/bm25_retrieval_reward_fn/mean": 0.9262488782405853,
-      "rewards/bm25_retrieval_reward_fn/std": 0.19760222919285297,
-      "rewards/event_reward_fn/mean": 9.798177083333334,
-      "rewards/event_reward_fn/std": 5.788699746131897,
-      "rewards/format_reward_fn/mean": 0.9495081007480621,
-      "rewards/format_reward_fn/std": 0.18829844643672308,
-      "step": 2512
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.0712890625,
-      "completions/max_length": 254.8125,
-      "completions/max_terminated_length": 251.625,
-      "completions/mean_length": 213.2236328125,
-      "completions/mean_terminated_length": 209.86785411834717,
-      "completions/min_length": 171.125,
-      "completions/min_terminated_length": 171.125,
-      "entropy": 0.08136322861537337,
-      "epoch": 2.456754130223518,
-      "frac_reward_zero_std": 0.328125,
-      "grad_norm": 0.2153819352388382,
-      "learning_rate": 5e-05,
-      "loss": 0.0006,
-      "num_tokens": 205500469.0,
-      "reward": 12.446550607681274,
-      "reward_std": 1.034587848931551,
-      "rewards/bm25_retrieval_reward_fn/mean": 0.8715435974299908,
-      "rewards/bm25_retrieval_reward_fn/std": 0.28421050729230046,
-      "rewards/event_reward_fn/mean": 10.6826171875,
-      "rewards/event_reward_fn/std": 6.132740959525108,
-      "rewards/format_reward_fn/mean": 0.892389789223671,
-      "rewards/format_reward_fn/std": 0.2872252073138952,
-      "step": 2528
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.052734375,
-      "completions/max_length": 255.5,
-      "completions/max_terminated_length": 251.9375,
-      "completions/mean_length": 216.9306640625,
-      "completions/mean_terminated_length": 214.75403022766113,
-      "completions/min_length": 176.1875,
-      "completions/min_terminated_length": 176.1875,
-      "entropy": 0.08582799974828959,
-      "epoch": 2.4723032069970845,
-      "frac_reward_zero_std": 0.26953125,
-      "grad_norm": 0.1978168785572052,
-      "learning_rate": 5e-05,
-      "loss": 0.0028,
-      "num_tokens": 206796278.0,
-      "reward": 11.944559633731842,
-      "reward_std": 0.9803863354027271,
-      "rewards/bm25_retrieval_reward_fn/mean": 0.9094629287719727,
-      "rewards/bm25_retrieval_reward_fn/std": 0.2257095631211996,
-      "rewards/event_reward_fn/mean": 10.103515625,
-      "rewards/event_reward_fn/std": 5.498953863978386,
-      "rewards/format_reward_fn/mean": 0.9315809458494186,
-      "rewards/format_reward_fn/std": 0.228111170232296,
-      "step": 2544
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.099609375,
-      "completions/max_length": 255.625,
-      "completions/max_terminated_length": 250.5,
-      "completions/mean_length": 217.259765625,
-      "completions/mean_terminated_length": 213.05884075164795,
-      "completions/min_length": 170.0,
-      "completions/min_terminated_length": 170.0,
-      "entropy": 0.08552914392203093,
-      "epoch": 2.487852283770651,
-      "frac_reward_zero_std": 0.28515625,
-      "grad_norm": 0.16805820167064667,
-      "learning_rate": 5e-05,
-      "loss": 0.007,
-      "num_tokens": 208168132.0,
-      "reward": 11.79398000240326,
-      "reward_std": 0.9481483921408653,
-      "rewards/bm25_retrieval_reward_fn/mean": 0.868280190974474,
-      "rewards/bm25_retrieval_reward_fn/std": 0.28656442323699594,
-      "rewards/event_reward_fn/mean": 10.037109375,
-      "rewards/event_reward_fn/std": 6.124383822083473,
-      "rewards/format_reward_fn/mean": 0.8885904960334301,
-      "rewards/format_reward_fn/std": 0.28199191950261593,
-      "step": 2560
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.0458984375,
-      "completions/max_length": 253.1875,
-      "completions/max_terminated_length": 248.0,
-      "completions/mean_length": 210.638671875,
-      "completions/mean_terminated_length": 208.40313148498535,
-      "completions/min_length": 173.625,
-      "completions/min_terminated_length": 173.625,
-      "entropy": 0.08260456612333655,
-      "epoch": 2.503401360544218,
-      "frac_reward_zero_std": 0.33203125,
-      "grad_norm": 0.09216822683811188,
-      "learning_rate": 5e-05,
-      "loss": -0.001,
-      "num_tokens": 209501810.0,
-      "reward": 11.016095101833344,
-      "reward_std": 0.860798167064786,
-      "rewards/bm25_retrieval_reward_fn/mean": 0.9306312911212444,
-      "rewards/bm25_retrieval_reward_fn/std": 0.19113765214569867,
-      "rewards/event_reward_fn/mean": 9.1396484375,
-      "rewards/event_reward_fn/std": 5.75250081717968,
-      "rewards/format_reward_fn/mean": 0.9458155073225498,
-      "rewards/format_reward_fn/std": 0.19293752522207797,
-      "step": 2576
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.01953125,
-      "completions/max_length": 247.375,
-      "completions/max_terminated_length": 242.875,
-      "completions/mean_length": 203.1708984375,
-      "completions/mean_terminated_length": 202.13115978240967,
-      "completions/min_length": 163.9375,
-      "completions/min_terminated_length": 163.9375,
-      "entropy": 0.08376244455575943,
-      "epoch": 2.518950437317784,
-      "frac_reward_zero_std": 0.35546875,
-      "grad_norm": 0.21585437655448914,
-      "learning_rate": 5e-05,
-      "loss": -0.0033,
-      "num_tokens": 210795597.0,
-      "reward": 10.72483429312706,
-      "reward_std": 0.7541004437953234,
-      "rewards/bm25_retrieval_reward_fn/mean": 0.9423710107803345,
-      "rewards/bm25_retrieval_reward_fn/std": 0.14322513493243605,
-      "rewards/event_reward_fn/mean": 8.8203125,
-      "rewards/event_reward_fn/std": 5.188908696174622,
-      "rewards/format_reward_fn/mean": 0.9621507674455643,
-      "rewards/format_reward_fn/std": 0.13946166937239468,
-      "step": 2592
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.0595703125,
-      "completions/max_length": 253.9375,
-      "completions/max_terminated_length": 249.0,
-      "completions/mean_length": 210.505859375,
-      "completions/mean_terminated_length": 207.62176704406738,
-      "completions/min_length": 173.25,
-      "completions/min_terminated_length": 173.25,
-      "entropy": 0.08947332156822085,
-      "epoch": 2.534499514091351,
-      "frac_reward_zero_std": 0.3359375,
-      "grad_norm": 0.14945168793201447,
-      "learning_rate": 5e-05,
-      "loss": -0.0063,
-      "num_tokens": 212112795.0,
-      "reward": 11.506966352462769,
-      "reward_std": 0.794132512062788,
-      "rewards/bm25_retrieval_reward_fn/mean": 0.9178526736795902,
-      "rewards/bm25_retrieval_reward_fn/std": 0.22195658483542502,
-      "rewards/event_reward_fn/mean": 9.6572265625,
-      "rewards/event_reward_fn/std": 5.744891852140427,
-      "rewards/format_reward_fn/mean": 0.9318870939314365,
-      "rewards/format_reward_fn/std": 0.2204800380859524,
-      "step": 2608
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.0888671875,
-      "completions/max_length": 256.0,
-      "completions/max_terminated_length": 250.4375,
-      "completions/mean_length": 216.943359375,
-      "completions/mean_terminated_length": 213.17963314056396,
-      "completions/min_length": 173.0625,
-      "completions/min_terminated_length": 173.0625,
-      "entropy": 0.08383294614031911,
-      "epoch": 2.5500485908649173,
-      "frac_reward_zero_std": 0.3203125,
-      "grad_norm": 0.1446155160665512,
-      "learning_rate": 5e-05,
-      "loss": 0.0028,
-      "num_tokens": 213441821.0,
-      "reward": 11.958227455615997,
-      "reward_std": 0.8823277465999126,
-      "rewards/bm25_retrieval_reward_fn/mean": 0.8775606565177441,
-      "rewards/bm25_retrieval_reward_fn/std": 0.2921582367271185,
-      "rewards/event_reward_fn/mean": 10.185546875,
-      "rewards/event_reward_fn/std": 5.809098601341248,
-      "rewards/format_reward_fn/mean": 0.8951199762523174,
-      "rewards/format_reward_fn/std": 0.29349780175834894,
-      "step": 2624
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.052734375,
-      "completions/max_length": 253.0,
-      "completions/max_terminated_length": 251.0625,
-      "completions/mean_length": 213.916015625,
-      "completions/mean_terminated_length": 211.6506052017212,
-      "completions/min_length": 178.5,
-      "completions/min_terminated_length": 178.5,
-      "entropy": 0.08359973039478064,
-      "epoch": 2.565597667638484,
-      "frac_reward_zero_std": 0.28125,
-      "grad_norm": 0.16694338619709015,
-      "learning_rate": 5e-05,
-      "loss": -0.0005,
-      "num_tokens": 214813067.0,
-      "reward": 11.792637586593628,
-      "reward_std": 0.8656186051666737,
-      "rewards/bm25_retrieval_reward_fn/mean": 0.8819389827549458,
-      "rewards/bm25_retrieval_reward_fn/std": 0.24387728050351143,
-      "rewards/event_reward_fn/mean": 9.998046875,
-      "rewards/event_reward_fn/std": 5.933807298541069,
-      "rewards/format_reward_fn/mean": 0.9126519113779068,
-      "rewards/format_reward_fn/std": 0.2305635418742895,
-      "step": 2640
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.0771484375,
-      "completions/max_length": 255.4375,
-      "completions/max_terminated_length": 249.875,
-      "completions/mean_length": 215.8505859375,
-      "completions/mean_terminated_length": 212.57020092010498,
-      "completions/min_length": 178.0,
-      "completions/min_terminated_length": 178.0,
-      "entropy": 0.08900781767442822,
-      "epoch": 2.5811467444120506,
-      "frac_reward_zero_std": 0.29296875,
-      "grad_norm": 0.1385410875082016,
-      "learning_rate": 5e-05,
-      "loss": 0.0008,
-      "num_tokens": 216172750.0,
-      "reward": 11.35420310497284,
-      "reward_std": 0.8416576944291592,
-      "rewards/bm25_retrieval_reward_fn/mean": 0.8935875110328197,
-      "rewards/bm25_retrieval_reward_fn/std": 0.26079373457469046,
-      "rewards/event_reward_fn/mean": 9.5556640625,
-      "rewards/event_reward_fn/std": 5.99031862616539,
-      "rewards/format_reward_fn/mean": 0.904951486736536,
-      "rewards/format_reward_fn/std": 0.2644943995401263,
-      "step": 2656
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.0361328125,
-      "completions/max_length": 254.625,
-      "completions/max_terminated_length": 249.75,
-      "completions/mean_length": 212.0947265625,
-      "completions/mean_terminated_length": 210.445143699646,
-      "completions/min_length": 177.1875,
-      "completions/min_terminated_length": 177.1875,
-      "entropy": 0.08960987254977226,
-      "epoch": 2.5966958211856173,
-      "frac_reward_zero_std": 0.35546875,
-      "grad_norm": 0.15648344159126282,
-      "learning_rate": 5e-05,
-      "loss": 0.0023,
-      "num_tokens": 217499543.0,
-      "reward": 11.51008290052414,
-      "reward_std": 0.7766602244228125,
-      "rewards/bm25_retrieval_reward_fn/mean": 0.9093844145536423,
-      "rewards/bm25_retrieval_reward_fn/std": 0.23443537193816155,
-      "rewards/event_reward_fn/mean": 9.6806640625,
-      "rewards/event_reward_fn/std": 5.529717803001404,
-      "rewards/format_reward_fn/mean": 0.9200344160199165,
-      "rewards/format_reward_fn/std": 0.23509666486643255,
-      "step": 2672
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.037109375,
-      "completions/max_length": 251.6875,
-      "completions/max_terminated_length": 247.0,
-      "completions/mean_length": 208.2880859375,
-      "completions/mean_terminated_length": 206.4787950515747,
-      "completions/min_length": 165.625,
-      "completions/min_terminated_length": 165.625,
-      "entropy": 0.09177634166553617,
-      "epoch": 2.612244897959184,
-      "frac_reward_zero_std": 0.30078125,
-      "grad_norm": 0.14749974012374878,
-      "learning_rate": 5e-05,
-      "loss": 0.0004,
-      "num_tokens": 218822370.0,
-      "reward": 11.045877933502197,
-      "reward_std": 0.9622980132699013,
-      "rewards/bm25_retrieval_reward_fn/mean": 0.9265813454985619,
-      "rewards/bm25_retrieval_reward_fn/std": 0.20256941742263734,
-      "rewards/event_reward_fn/mean": 9.1845703125,
-      "rewards/event_reward_fn/std": 5.212202668190002,
-      "rewards/format_reward_fn/mean": 0.9347261041402817,
-      "rewards/format_reward_fn/std": 0.2086858821567148,
-      "step": 2688
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.01953125,
-      "completions/max_length": 247.8125,
-      "completions/max_terminated_length": 243.4375,
-      "completions/mean_length": 200.87890625,
-      "completions/mean_terminated_length": 199.8343276977539,
-      "completions/min_length": 167.4375,
-      "completions/min_terminated_length": 167.4375,
-      "entropy": 0.09632771136239171,
-      "epoch": 2.62779397473275,
-      "frac_reward_zero_std": 0.28515625,
-      "grad_norm": 0.1771780103445053,
-      "learning_rate": 5e-05,
-      "loss": -0.008,
-      "num_tokens": 220135962.0,
-      "reward": 12.231472432613373,
-      "reward_std": 0.8915320560336113,
-      "rewards/bm25_retrieval_reward_fn/mean": 0.9349792711436749,
-      "rewards/bm25_retrieval_reward_fn/std": 0.16558197524864227,
-      "rewards/event_reward_fn/mean": 10.35546875,
-      "rewards/event_reward_fn/std": 5.747018381953239,
-      "rewards/format_reward_fn/mean": 0.9410244673490524,
-      "rewards/format_reward_fn/std": 0.17926215915940702,
-      "step": 2704
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.044921875,
-      "completions/max_length": 252.8125,
-      "completions/max_terminated_length": 246.3125,
-      "completions/mean_length": 209.3701171875,
-      "completions/mean_terminated_length": 207.07564544677734,
-      "completions/min_length": 170.625,
-      "completions/min_terminated_length": 170.625,
-      "entropy": 0.10564424749463797,
-      "epoch": 2.6433430515063168,
-      "frac_reward_zero_std": 0.22265625,
-      "grad_norm": 0.10102769732475281,
-      "learning_rate": 5e-05,
-      "loss": -0.0013,
-      "num_tokens": 221542285.0,
-      "reward": 12.009974837303162,
-      "reward_std": 0.9928734712302685,
-      "rewards/bm25_retrieval_reward_fn/mean": 0.9175033271312714,
-      "rewards/bm25_retrieval_reward_fn/std": 0.1976611790014431,
-      "rewards/event_reward_fn/mean": 10.1767578125,
-      "rewards/event_reward_fn/std": 6.012263968586922,
-      "rewards/format_reward_fn/mean": 0.9157139807939529,
-      "rewards/format_reward_fn/std": 0.21656434168107808,
-      "step": 2720
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.03515625,
-      "completions/max_length": 255.0625,
-      "completions/max_terminated_length": 253.375,
-      "completions/mean_length": 213.7919921875,
-      "completions/mean_terminated_length": 212.31354141235352,
-      "completions/min_length": 174.5,
-      "completions/min_terminated_length": 174.5,
-      "entropy": 0.10326679470017552,
-      "epoch": 2.6588921282798834,
-      "frac_reward_zero_std": 0.23828125,
-      "grad_norm": 0.15221992135047913,
-      "learning_rate": 5e-05,
-      "loss": 0.0011,
-      "num_tokens": 222797308.0,
-      "reward": 11.387903690338135,
-      "reward_std": 0.911373607814312,
-      "rewards/bm25_retrieval_reward_fn/mean": 0.9273334704339504,
-      "rewards/bm25_retrieval_reward_fn/std": 0.18763835495337844,
-      "rewards/event_reward_fn/mean": 9.5263671875,
-      "rewards/event_reward_fn/std": 5.706304341554642,
-      "rewards/format_reward_fn/mean": 0.9342031031847,
-      "rewards/format_reward_fn/std": 0.2074666447006166,
-      "step": 2736
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.0224609375,
-      "completions/max_length": 250.375,
-      "completions/max_terminated_length": 247.4375,
-      "completions/mean_length": 207.4228515625,
-      "completions/mean_terminated_length": 206.33260917663574,
-      "completions/min_length": 170.25,
-      "completions/min_terminated_length": 170.25,
-      "entropy": 0.09272929606959224,
-      "epoch": 2.67444120505345,
-      "frac_reward_zero_std": 0.30859375,
-      "grad_norm": 0.21459202468395233,
-      "learning_rate": 5e-05,
-      "loss": -0.0035,
-      "num_tokens": 224091517.0,
-      "reward": 11.830156862735748,
-      "reward_std": 0.8045283071696758,
-      "rewards/bm25_retrieval_reward_fn/mean": 0.9445540346205235,
-      "rewards/bm25_retrieval_reward_fn/std": 0.15531712002120912,
-      "rewards/event_reward_fn/mean": 9.9248046875,
-      "rewards/event_reward_fn/std": 5.416922226548195,
-      "rewards/format_reward_fn/mean": 0.9607979953289032,
-      "rewards/format_reward_fn/std": 0.1495908577926457,
-      "step": 2752
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.03125,
-      "completions/max_length": 250.4375,
-      "completions/max_terminated_length": 247.125,
-      "completions/mean_length": 213.107421875,
-      "completions/mean_terminated_length": 211.65931701660156,
-      "completions/min_length": 173.0625,
-      "completions/min_terminated_length": 173.0625,
-      "entropy": 0.08341792924329638,
-      "epoch": 2.6899902818270167,
-      "frac_reward_zero_std": 0.3515625,
-      "grad_norm": 0.06316018104553223,
-      "learning_rate": 5e-05,
-      "loss": -0.0016,
-      "num_tokens": 225405591.0,
-      "reward": 11.755984246730804,
-      "reward_std": 0.8010260127484798,
-      "rewards/bm25_retrieval_reward_fn/mean": 0.9238302148878574,
-      "rewards/bm25_retrieval_reward_fn/std": 0.17838482139632106,
-      "rewards/event_reward_fn/mean": 9.8876953125,
-      "rewards/event_reward_fn/std": 5.315806642174721,
-      "rewards/format_reward_fn/mean": 0.9444587081670761,
-      "rewards/format_reward_fn/std": 0.16798695269972086,
-      "step": 2768
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.0849609375,
-      "completions/max_length": 255.375,
-      "completions/max_terminated_length": 251.875,
-      "completions/mean_length": 216.7353515625,
-      "completions/mean_terminated_length": 213.09019565582275,
-      "completions/min_length": 174.0625,
-      "completions/min_terminated_length": 174.0625,
-      "entropy": 0.08323041070252657,
-      "epoch": 2.705539358600583,
-      "frac_reward_zero_std": 0.3515625,
-      "grad_norm": 0.2660459578037262,
-      "learning_rate": 5e-05,
-      "loss": 0.0082,
-      "num_tokens": 226754744.0,
-      "reward": 11.574803471565247,
-      "reward_std": 0.8111933209002018,
-      "rewards/bm25_retrieval_reward_fn/mean": 0.8713752776384354,
-      "rewards/bm25_retrieval_reward_fn/std": 0.28300391032826155,
-      "rewards/event_reward_fn/mean": 9.8173828125,
-      "rewards/event_reward_fn/std": 5.8233465403318405,
-      "rewards/format_reward_fn/mean": 0.8860453926026821,
-      "rewards/format_reward_fn/std": 0.28504633717238903,
-      "step": 2784
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.0537109375,
-      "completions/max_length": 254.125,
-      "completions/max_terminated_length": 250.625,
-      "completions/mean_length": 212.8642578125,
-      "completions/mean_terminated_length": 210.45547103881836,
-      "completions/min_length": 169.0,
-      "completions/min_terminated_length": 169.0,
-      "entropy": 0.08199881995096803,
-      "epoch": 2.7210884353741496,
-      "frac_reward_zero_std": 0.296875,
-      "grad_norm": 0.08463400602340698,
-      "learning_rate": 5e-05,
-      "loss": 0.0013,
-      "num_tokens": 228098621.0,
-      "reward": 11.454033315181732,
-      "reward_std": 0.836145743727684,
-      "rewards/bm25_retrieval_reward_fn/mean": 0.9158100821077824,
-      "rewards/bm25_retrieval_reward_fn/std": 0.19612007169052958,
-      "rewards/event_reward_fn/mean": 9.603515625,
-      "rewards/event_reward_fn/std": 5.212661325931549,
-      "rewards/format_reward_fn/mean": 0.9347075000405312,
-      "rewards/format_reward_fn/std": 0.1920458609238267,
-      "step": 2800
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.0380859375,
-      "completions/max_length": 254.125,
-      "completions/max_terminated_length": 249.0625,
-      "completions/mean_length": 209.9765625,
-      "completions/mean_terminated_length": 208.1564769744873,
-      "completions/min_length": 168.875,
-      "completions/min_terminated_length": 168.875,
-      "entropy": 0.0759361800737679,
-      "epoch": 2.7366375121477162,
-      "frac_reward_zero_std": 0.328125,
-      "grad_norm": 0.14759230613708496,
-      "learning_rate": 5e-05,
-      "loss": -0.0053,
-      "num_tokens": 229429565.0,
-      "reward": 12.068866312503815,
-      "reward_std": 0.8678888715803623,
-      "rewards/bm25_retrieval_reward_fn/mean": 0.9354286342859268,
-      "rewards/bm25_retrieval_reward_fn/std": 0.19999602530151606,
-      "rewards/event_reward_fn/mean": 10.185546875,
-      "rewards/event_reward_fn/std": 6.09708933532238,
-      "rewards/format_reward_fn/mean": 0.9478906244039536,
-      "rewards/format_reward_fn/std": 0.2007538639008999,
-      "step": 2816
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.07421875,
-      "completions/max_length": 255.0,
-      "completions/max_terminated_length": 251.4375,
-      "completions/mean_length": 217.4892578125,
-      "completions/mean_terminated_length": 214.5166711807251,
-      "completions/min_length": 171.125,
-      "completions/min_terminated_length": 171.125,
-      "entropy": 0.07404683344066143,
-      "epoch": 2.752186588921283,
-      "frac_reward_zero_std": 0.33203125,
-      "grad_norm": 0.18848936259746552,
-      "learning_rate": 5e-05,
-      "loss": 0.0016,
-      "num_tokens": 230773106.0,
-      "reward": 12.326741218566895,
-      "reward_std": 0.9671976566314697,
-      "rewards/bm25_retrieval_reward_fn/mean": 0.89621976390481,
-      "rewards/bm25_retrieval_reward_fn/std": 0.23690359899774194,
-      "rewards/event_reward_fn/mean": 10.515625,
-      "rewards/event_reward_fn/std": 5.634042501449585,
-      "rewards/format_reward_fn/mean": 0.9148964546620846,
-      "rewards/format_reward_fn/std": 0.2338833932299167,
-      "step": 2832
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.060546875,
-      "completions/max_length": 255.875,
-      "completions/max_terminated_length": 252.625,
-      "completions/mean_length": 217.236328125,
-      "completions/mean_terminated_length": 214.71324062347412,
-      "completions/min_length": 172.9375,
-      "completions/min_terminated_length": 172.9375,
-      "entropy": 0.08189457282423973,
-      "epoch": 2.7677356656948495,
-      "frac_reward_zero_std": 0.3046875,
-      "grad_norm": 0.20657600462436676,
-      "learning_rate": 5e-05,
-      "loss": 0.0028,
-      "num_tokens": 232070576.0,
-      "reward": 11.5172398686409,
-      "reward_std": 0.8970336727797985,
-      "rewards/bm25_retrieval_reward_fn/mean": 0.9108828380703926,
-      "rewards/bm25_retrieval_reward_fn/std": 0.22826198721304536,
-      "rewards/event_reward_fn/mean": 9.673828125,
-      "rewards/event_reward_fn/std": 5.733745768666267,
-      "rewards/format_reward_fn/mean": 0.9325288347899914,
-      "rewards/format_reward_fn/std": 0.226588967256248,
-      "step": 2848
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.056640625,
-      "completions/max_length": 252.5625,
-      "completions/max_terminated_length": 249.4375,
-      "completions/mean_length": 213.166015625,
-      "completions/mean_terminated_length": 210.57254600524902,
-      "completions/min_length": 167.75,
-      "completions/min_terminated_length": 167.75,
-      "entropy": 0.08049681456759572,
-      "epoch": 2.7832847424684157,
-      "frac_reward_zero_std": 0.33203125,
-      "grad_norm": 0.05886400490999222,
-      "learning_rate": 5e-05,
-      "loss": 0.0027,
-      "num_tokens": 233415010.0,
-      "reward": 11.385997593402863,
-      "reward_std": 0.7553573679178953,
-      "rewards/bm25_retrieval_reward_fn/mean": 0.9164049662649632,
-      "rewards/bm25_retrieval_reward_fn/std": 0.2016591742867604,
-      "rewards/event_reward_fn/mean": 9.53515625,
-      "rewards/event_reward_fn/std": 5.440419033169746,
-      "rewards/format_reward_fn/mean": 0.93443638458848,
-      "rewards/format_reward_fn/std": 0.19143922347575426,
-      "step": 2864
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.0498046875,
-      "completions/max_length": 254.3125,
-      "completions/max_terminated_length": 250.375,
-      "completions/mean_length": 214.185546875,
-      "completions/mean_terminated_length": 212.15652561187744,
-      "completions/min_length": 172.1875,
-      "completions/min_terminated_length": 172.1875,
-      "entropy": 0.0816779644228518,
-      "epoch": 2.7988338192419824,
-      "frac_reward_zero_std": 0.35546875,
-      "grad_norm": 0.0916222557425499,
-      "learning_rate": 5e-05,
-      "loss": -0.0032,
-      "num_tokens": 234744436.0,
-      "reward": 11.663362562656403,
-      "reward_std": 0.9015852566808462,
-      "rewards/bm25_retrieval_reward_fn/mean": 0.9179877303540707,
-      "rewards/bm25_retrieval_reward_fn/std": 0.2022923786425963,
-      "rewards/event_reward_fn/mean": 9.8125,
-      "rewards/event_reward_fn/std": 5.319433629512787,
-      "rewards/format_reward_fn/mean": 0.9328748136758804,
-      "rewards/format_reward_fn/std": 0.20254582911729813,
-      "step": 2880
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.0966796875,
-      "completions/max_length": 256.0,
-      "completions/max_terminated_length": 254.5625,
-      "completions/mean_length": 220.1044921875,
-      "completions/mean_terminated_length": 216.32228183746338,
-      "completions/min_length": 171.5,
-      "completions/min_terminated_length": 171.5,
-      "entropy": 0.08011228078976274,
-      "epoch": 2.814382896015549,
-      "frac_reward_zero_std": 0.3515625,
-      "grad_norm": 0.08450505882501602,
-      "learning_rate": 5e-05,
-      "loss": 0.0032,
-      "num_tokens": 236075035.0,
-      "reward": 11.988969624042511,
-      "reward_std": 0.7974276356399059,
-      "rewards/bm25_retrieval_reward_fn/mean": 0.8782762736082077,
-      "rewards/bm25_retrieval_reward_fn/std": 0.2924462389200926,
-      "rewards/event_reward_fn/mean": 10.2158203125,
-      "rewards/event_reward_fn/std": 5.5798052698373795,
-      "rewards/format_reward_fn/mean": 0.8948730453848839,
-      "rewards/format_reward_fn/std": 0.2953194109722972,
-      "step": 2896
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.0849609375,
-      "completions/max_length": 255.875,
-      "completions/max_terminated_length": 254.3125,
-      "completions/mean_length": 219.5263671875,
-      "completions/mean_terminated_length": 216.11603832244873,
-      "completions/min_length": 175.8125,
-      "completions/min_terminated_length": 175.8125,
-      "entropy": 0.08505099918693304,
-      "epoch": 2.8299319727891157,
-      "frac_reward_zero_std": 0.3359375,
-      "grad_norm": 0.12416191399097443,
-      "learning_rate": 5e-05,
-      "loss": 0.0027,
-      "num_tokens": 237421442.0,
-      "reward": 11.693400919437408,
-      "reward_std": 0.8284243606030941,
-      "rewards/bm25_retrieval_reward_fn/mean": 0.8833912238478661,
-      "rewards/bm25_retrieval_reward_fn/std": 0.267708154162392,
-      "rewards/event_reward_fn/mean": 9.90625,
-      "rewards/event_reward_fn/std": 5.605697572231293,
-      "rewards/format_reward_fn/mean": 0.9037597663700581,
-      "rewards/format_reward_fn/std": 0.2683409294113517,
-      "step": 2912
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.033203125,
-      "completions/max_length": 254.5625,
-      "completions/max_terminated_length": 252.0,
-      "completions/mean_length": 213.083984375,
-      "completions/mean_terminated_length": 211.6382074356079,
-      "completions/min_length": 169.9375,
-      "completions/min_terminated_length": 169.9375,
-      "entropy": 0.08473130548372865,
-      "epoch": 2.8454810495626823,
-      "frac_reward_zero_std": 0.34375,
-      "grad_norm": 0.06745623797178268,
-      "learning_rate": 5e-05,
-      "loss": 0.0006,
-      "num_tokens": 238715276.0,
-      "reward": 11.77674776315689,
-      "reward_std": 0.685878150165081,
-      "rewards/bm25_retrieval_reward_fn/mean": 0.9190886318683624,
-      "rewards/bm25_retrieval_reward_fn/std": 0.19958114624023438,
-      "rewards/event_reward_fn/mean": 9.9150390625,
-      "rewards/event_reward_fn/std": 5.207145616412163,
-      "rewards/format_reward_fn/mean": 0.9426199793815613,
-      "rewards/format_reward_fn/std": 0.1927571757696569,
-      "step": 2928
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.05078125,
-      "completions/max_length": 254.25,
-      "completions/max_terminated_length": 250.6875,
-      "completions/mean_length": 214.3232421875,
-      "completions/mean_terminated_length": 212.1032657623291,
-      "completions/min_length": 169.9375,
-      "completions/min_terminated_length": 169.9375,
-      "entropy": 0.08542184252291918,
-      "epoch": 2.8610301263362485,
-      "frac_reward_zero_std": 0.3203125,
-      "grad_norm": 0.10482887178659439,
-      "learning_rate": 5e-05,
-      "loss": -0.0002,
-      "num_tokens": 240057215.0,
-      "reward": 11.639575242996216,
-      "reward_std": 0.9158763885498047,
-      "rewards/bm25_retrieval_reward_fn/mean": 0.8979970328509808,
-      "rewards/bm25_retrieval_reward_fn/std": 0.23725404776632786,
-      "rewards/event_reward_fn/mean": 9.826171875,
-      "rewards/event_reward_fn/std": 5.315482467412949,
-      "rewards/format_reward_fn/mean": 0.9154064357280731,
-      "rewards/format_reward_fn/std": 0.2300750371068716,
-      "step": 2944
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.103515625,
-      "completions/max_length": 255.5,
-      "completions/max_terminated_length": 253.1875,
-      "completions/mean_length": 220.142578125,
-      "completions/mean_terminated_length": 216.11438083648682,
-      "completions/min_length": 169.6875,
-      "completions/min_terminated_length": 169.6875,
-      "entropy": 0.0917358947917819,
-      "epoch": 2.8765792031098156,
-      "frac_reward_zero_std": 0.34375,
-      "grad_norm": 0.29249680042266846,
-      "learning_rate": 5e-05,
-      "loss": -0.0023,
-      "num_tokens": 241437397.0,
-      "reward": 12.01733946800232,
-      "reward_std": 0.8955757319927216,
-      "rewards/bm25_retrieval_reward_fn/mean": 0.8503146581351757,
-      "rewards/bm25_retrieval_reward_fn/std": 0.3139411583542824,
-      "rewards/event_reward_fn/mean": 10.298828125,
-      "rewards/event_reward_fn/std": 5.663209050893784,
-      "rewards/format_reward_fn/mean": 0.868196614086628,
-      "rewards/format_reward_fn/std": 0.318668226711452,
-      "step": 2960
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.0791015625,
-      "completions/max_length": 254.0,
-      "completions/max_terminated_length": 250.0,
-      "completions/mean_length": 215.6435546875,
-      "completions/mean_terminated_length": 212.3185043334961,
-      "completions/min_length": 165.4375,
-      "completions/min_terminated_length": 165.4375,
-      "entropy": 0.09182127751410007,
-      "epoch": 2.892128279883382,
-      "frac_reward_zero_std": 0.3046875,
-      "grad_norm": 0.17700594663619995,
-      "learning_rate": 5e-05,
-      "loss": -0.0004,
-      "num_tokens": 242749992.0,
-      "reward": 11.478153705596924,
-      "reward_std": 0.8844601437449455,
-      "rewards/bm25_retrieval_reward_fn/mean": 0.880519162863493,
-      "rewards/bm25_retrieval_reward_fn/std": 0.25536160822957754,
-      "rewards/event_reward_fn/mean": 9.697265625,
-      "rewards/event_reward_fn/std": 5.846217334270477,
-      "rewards/format_reward_fn/mean": 0.9003689214587212,
-      "rewards/format_reward_fn/std": 0.24951867014169693,
-      "step": 2976
-    },
-    {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.0615234375,
-      "completions/max_length": 255.5625,
-      "completions/max_terminated_length": 251.8125,
-      "completions/mean_length": 214.3974609375,
-      "completions/mean_terminated_length": 211.83877277374268,
-      "completions/min_length": 166.3125,
-      "completions/min_terminated_length": 166.3125,
-      "entropy": 0.0888472800143063,
-      "epoch": 2.9076773566569485,
-      "frac_reward_zero_std": 0.359375,
-      "grad_norm": 0.18143412470817566,
-      "learning_rate": 5e-05,
-      "loss": -0.0024,
-      "num_tokens": 244089207.0,
-      "reward": 11.602717459201813,
-      "reward_std": 0.7762532383203506,
-      "rewards/bm25_retrieval_reward_fn/mean": 0.8992017544806004,
-      "rewards/bm25_retrieval_reward_fn/std": 0.23547889525070786,
-      "rewards/event_reward_fn/mean": 9.78125,
-      "rewards/event_reward_fn/std": 5.857791095972061,
-      "rewards/format_reward_fn/mean": 0.9222656264901161,
-      "rewards/format_reward_fn/std": 0.2304223021492362,
-      "step": 2992
     }
   ],
   "logging_steps": 16,
   "max_steps": 10290,
-  "num_input_tokens_seen": 244713360,
   "num_train_epochs": 10,
   "save_steps": 500,
   "stateful_callbacks": {

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.4295432458697763,
   "eval_steps": 500,
+  "global_step": 2500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "rewards/format_reward_fn/mean": 0.9545312523841858,
       "rewards/format_reward_fn/std": 0.17224382143467665,
       "step": 2496
     }
   ],
   "logging_steps": 16,
   "max_steps": 10290,
+  "num_input_tokens_seen": 203156199,
   "num_train_epochs": 10,
   "save_steps": 500,
   "stateful_callbacks": {

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6080a1f8848f28921ef4ecb2b5afdd4a9c278c4ed3b854c9142c34b8d4a47201
 size 7313

 version https://git-lfs.github.com/spec/v1
+oid sha256:98f983793f01e6ffd7237085f7a954c79829cc980c0aed4a2a0a2870848c9386
 size 7313