Instructions to use Dishaaa25/adapt-dsa-tutor-model with libraries, inference providers, notebooks, and local apps. Follow these links to get started.

Libraries

How to use Dishaaa25/adapt-dsa-tutor-model with PEFT:

from peft import PeftModel
from transformers import AutoModelForCausalLM

base_model = AutoModelForCausalLM.from_pretrained("unsloth/qwen2.5-3b-instruct-unsloth-bnb-4bit")
model = PeftModel.from_pretrained(base_model, "Dishaaa25/adapt-dsa-tutor-model")

Transformers

How to use Dishaaa25/adapt-dsa-tutor-model with Transformers:

# Use a pipeline as a high-level helper
from transformers import pipeline

pipe = pipeline("text-generation", model="Dishaaa25/adapt-dsa-tutor-model")
messages = [
    {"role": "user", "content": "Who are you?"},
]
pipe(messages)

# Load model directly
from transformers import AutoModel
model = AutoModel.from_pretrained("Dishaaa25/adapt-dsa-tutor-model", dtype="auto")

Notebooks
Google Colab
Kaggle
Local Apps

vLLM

How to use Dishaaa25/adapt-dsa-tutor-model with vLLM:

Install from pip and serve model

# Install vLLM from pip:
pip install vllm
# Start the vLLM server:
vllm serve "Dishaaa25/adapt-dsa-tutor-model"
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:8000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "Dishaaa25/adapt-dsa-tutor-model",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Use Docker

docker model run hf.co/Dishaaa25/adapt-dsa-tutor-model

SGLang

How to use Dishaaa25/adapt-dsa-tutor-model with SGLang:

Install from pip and serve model

# Install SGLang from pip:
pip install sglang
# Start the SGLang server:
python3 -m sglang.launch_server \
    --model-path "Dishaaa25/adapt-dsa-tutor-model" \
    --host 0.0.0.0 \
    --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "Dishaaa25/adapt-dsa-tutor-model",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Use Docker images

docker run --gpus all \
    --shm-size 32g \
    -p 30000:30000 \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    --env "HF_TOKEN=<secret>" \
    --ipc=host \
    lmsysorg/sglang:latest \
    python3 -m sglang.launch_server \
        --model-path "Dishaaa25/adapt-dsa-tutor-model" \
        --host 0.0.0.0 \
        --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "Dishaaa25/adapt-dsa-tutor-model",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Unsloth Studio new

How to use Dishaaa25/adapt-dsa-tutor-model with Unsloth Studio:

Install Unsloth Studio (macOS, Linux, WSL)

curl -fsSL https://unsloth.ai/install.sh | sh
# Run unsloth studio
unsloth studio -H 0.0.0.0 -p 8888
# Then open http://localhost:8888 in your browser
# Search for Dishaaa25/adapt-dsa-tutor-model to start chatting

Install Unsloth Studio (Windows)

irm https://unsloth.ai/install.ps1 | iex
# Run unsloth studio
unsloth studio -H 0.0.0.0 -p 8888
# Then open http://localhost:8888 in your browser
# Search for Dishaaa25/adapt-dsa-tutor-model to start chatting

Using HuggingFace Spaces for Unsloth

# No setup required
# Open https://huggingface.co/spaces/unsloth/studio in your browser
# Search for Dishaaa25/adapt-dsa-tutor-model to start chatting

Load model with FastModel

pip install unsloth
from unsloth import FastModel
model, tokenizer = FastModel.from_pretrained(
    model_name="Dishaaa25/adapt-dsa-tutor-model",
    max_seq_length=2048,
)

Docker Model Runner
How to use Dishaaa25/adapt-dsa-tutor-model with Docker Model Runner:
```
docker model run hf.co/Dishaaa25/adapt-dsa-tutor-model
```

Dishaaa25 commited on Apr 26

Commit

463023c

verified ·

1 Parent(s): 5289413

Update latest checkpoint for run 15940d1d-7d8c-4253-8810-2ea934bedee4 at step 950

Browse files

Files changed (5) hide show

adapter_model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +1304 -4

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:906b506f4c0383c1f1ba52d17f82532596abb69efc02191ab16329eeac17f7dd
 size 29529752

 version https://git-lfs.github.com/spec/v1
+oid sha256:48b94cd8e622ebe3562c1ea9fa75f6468afc735c44a6e72504298526587d48b2
 size 29529752

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a3790eb8fbfb29004b2d9709c773c5045988aab8ea3d2f4e0602b72066aa8d13
 size 59228491

 version https://git-lfs.github.com/spec/v1
+oid sha256:251f0a4a035e02d9e4cf95f08d80e5e54486d715ef25d979334aba0c383c50fc
 size 59228491

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c3769e5d1e21d9cba6aa0fcd44f4362dd224662b41dfa88a576d9f532290b714
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:67cc8782dca6a2b07ec2b12d381573b2d3e7495fb1ce4a789f64f1147416fa5b
 size 14645

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e0072f2ff918bd7bece9f1d5c143aaa2e59d66888d4f44a87dd988c2a5835002
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:d8f5a26ca81b45073ff90f001b3afe6c706ea419b3b9905df91151ee7ee1fc8a
 size 1465

trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.7578125,
   "eval_steps": 500,
-  "global_step": 900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -23408,11 +23408,1311 @@
       "rewards/reward_func/mean": 0.7445999979972839,
       "rewards/reward_func/std": 0.45967379212379456,
       "step": 900
     }
   ],
   "logging_steps": 1,
   "max_steps": 950,
-  "num_input_tokens_seen": 4238976,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
@@ -23422,7 +24722,7 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.85546875,
   "eval_steps": 500,
+  "global_step": 950,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "rewards/reward_func/mean": 0.7445999979972839,
       "rewards/reward_func/std": 0.45967379212379456,
       "step": 900
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 384.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 384.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 384.0,
+      "completions/min_terminated_length": 0.0,
+      "entropy": 0.8848395217210054,
+      "epoch": 1.759765625,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.2501536011695862,
+      "learning_rate": 2.6315789473684213e-07,
+      "loss": 0.0,
+      "num_tokens": 4243728.0,
+      "reward": 0.73808753490448,
+      "reward_std": 0.4636053442955017,
+      "rewards/reward_func/mean": 0.7380874752998352,
+      "rewards/reward_func/std": 0.4300731420516968,
+      "step": 901
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 384.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 384.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 384.0,
+      "completions/min_terminated_length": 0.0,
+      "entropy": 0.5995431952178478,
+      "epoch": 1.76171875,
+      "frac_reward_zero_std": 0.5,
+      "grad_norm": 0.1700550615787506,
+      "learning_rate": 2.578947368421053e-07,
+      "loss": -0.0,
+      "num_tokens": 4248720.0,
+      "reward": 0.2184000015258789,
+      "reward_std": 0.2522551119327545,
+      "rewards/reward_func/mean": 0.2184000015258789,
+      "rewards/reward_func/std": 0.4044714868068695,
+      "step": 902
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 384.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 384.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 384.0,
+      "completions/min_terminated_length": 0.0,
+      "entropy": 0.8698443882167339,
+      "epoch": 1.763671875,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.2777104675769806,
+      "learning_rate": 2.5263157894736846e-07,
+      "loss": -0.0,
+      "num_tokens": 4253256.0,
+      "reward": 0.504687488079071,
+      "reward_std": 0.5720410346984863,
+      "rewards/reward_func/mean": 0.504687488079071,
+      "rewards/reward_func/std": 0.5296536087989807,
+      "step": 903
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 384.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 384.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 384.0,
+      "completions/min_terminated_length": 0.0,
+      "entropy": 0.7046304792165756,
+      "epoch": 1.765625,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.23841030895709991,
+      "learning_rate": 2.473684210526316e-07,
+      "loss": 0.0,
+      "num_tokens": 4258024.0,
+      "reward": 0.6187999844551086,
+      "reward_std": 0.5329432487487793,
+      "rewards/reward_func/mean": 0.6187999844551086,
+      "rewards/reward_func/std": 0.5125207901000977,
+      "step": 904
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 384.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 384.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 384.0,
+      "completions/min_terminated_length": 0.0,
+      "entropy": 0.7159217670559883,
+      "epoch": 1.767578125,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.2175939530134201,
+      "learning_rate": 2.4210526315789473e-07,
+      "loss": 0.0,
+      "num_tokens": 4263024.0,
+      "reward": 0.3587000072002411,
+      "reward_std": 0.5176094770431519,
+      "rewards/reward_func/mean": 0.3587000072002411,
+      "rewards/reward_func/std": 0.4951927065849304,
+      "step": 905
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 384.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 384.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 384.0,
+      "completions/min_terminated_length": 0.0,
+      "entropy": 0.4197417329996824,
+      "epoch": 1.76953125,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.18832392990589142,
+      "learning_rate": 2.3684210526315792e-07,
+      "loss": 0.0,
+      "num_tokens": 4267968.0,
+      "reward": 0.012500000186264515,
+      "reward_std": 0.014433757402002811,
+      "rewards/reward_func/mean": 0.012500000186264515,
+      "rewards/reward_func/std": 0.013363063335418701,
+      "step": 906
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 384.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 384.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 384.0,
+      "completions/min_terminated_length": 0.0,
+      "entropy": 0.7613006345927715,
+      "epoch": 1.771484375,
+      "frac_reward_zero_std": 0.5,
+      "grad_norm": 0.17875666916370392,
+      "learning_rate": 2.315789473684211e-07,
+      "loss": -0.0,
+      "num_tokens": 4272328.0,
+      "reward": 0.9947500228881836,
+      "reward_std": 0.010500003583729267,
+      "rewards/reward_func/mean": 0.9947500228881836,
+      "rewards/reward_func/std": 0.014849240891635418,
+      "step": 907
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 384.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 384.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 384.0,
+      "completions/min_terminated_length": 0.0,
+      "entropy": 0.7562070265412331,
+      "epoch": 1.7734375,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.2620117664337158,
+      "learning_rate": 2.2631578947368425e-07,
+      "loss": 0.0,
+      "num_tokens": 4276768.0,
+      "reward": 0.6265624761581421,
+      "reward_std": 0.5368822813034058,
+      "rewards/reward_func/mean": 0.6265624761581421,
+      "rewards/reward_func/std": 0.515407145023346,
+      "step": 908
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 384.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 384.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 384.0,
+      "completions/min_terminated_length": 0.0,
+      "entropy": 0.735223077237606,
+      "epoch": 1.775390625,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.24371092021465302,
+      "learning_rate": 2.2105263157894736e-07,
+      "loss": -0.0,
+      "num_tokens": 4281480.0,
+      "reward": 0.9846999645233154,
+      "reward_std": 0.03060000017285347,
+      "rewards/reward_func/mean": 0.9846999645233154,
+      "rewards/reward_func/std": 0.030131708830595016,
+      "step": 909
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 384.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 384.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 384.0,
+      "completions/min_terminated_length": 0.0,
+      "entropy": 0.888181284070015,
+      "epoch": 1.77734375,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.2600753605365753,
+      "learning_rate": 2.1578947368421053e-07,
+      "loss": 0.0,
+      "num_tokens": 4285840.0,
+      "reward": 0.5,
+      "reward_std": 0.5773502588272095,
+      "rewards/reward_func/mean": 0.5,
+      "rewards/reward_func/std": 0.5345224738121033,
+      "step": 910
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 384.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 384.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 384.0,
+      "completions/min_terminated_length": 0.0,
+      "entropy": 0.6173073314130306,
+      "epoch": 1.779296875,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.22857871651649475,
+      "learning_rate": 2.105263157894737e-07,
+      "loss": -0.0,
+      "num_tokens": 4290496.0,
+      "reward": 0.37229999899864197,
+      "reward_std": 0.5355914831161499,
+      "rewards/reward_func/mean": 0.37229999899864197,
+      "rewards/reward_func/std": 0.5138660669326782,
+      "step": 911
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 384.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 384.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 384.0,
+      "completions/min_terminated_length": 0.0,
+      "entropy": 0.5189631078392267,
+      "epoch": 1.78125,
+      "frac_reward_zero_std": 0.5,
+      "grad_norm": 0.14599941670894623,
+      "learning_rate": 2.0526315789473685e-07,
+      "loss": -0.0,
+      "num_tokens": 4295008.0,
+      "reward": 0.8134000301361084,
+      "reward_std": 0.23240000009536743,
+      "rewards/reward_func/mean": 0.8134000301361084,
+      "rewards/reward_func/std": 0.3286632299423218,
+      "step": 912
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 384.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 384.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 384.0,
+      "completions/min_terminated_length": 0.0,
+      "entropy": 0.8033823296427727,
+      "epoch": 1.783203125,
+      "frac_reward_zero_std": 0.5,
+      "grad_norm": 0.18053551018238068,
+      "learning_rate": 2.0000000000000002e-07,
+      "loss": 0.0,
+      "num_tokens": 4299768.0,
+      "reward": 0.8362500071525574,
+      "reward_std": 0.22793914377689362,
+      "rewards/reward_func/mean": 0.8362500071525574,
+      "rewards/reward_func/std": 0.3183859884738922,
+      "step": 913
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 384.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 384.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 384.0,
+      "completions/min_terminated_length": 0.0,
+      "entropy": 0.6970736794173717,
+      "epoch": 1.78515625,
+      "frac_reward_zero_std": 0.5,
+      "grad_norm": 0.16842643916606903,
+      "learning_rate": 1.9473684210526318e-07,
+      "loss": -0.0,
+      "num_tokens": 4304520.0,
+      "reward": 0.8224999904632568,
+      "reward_std": 0.23499999940395355,
+      "rewards/reward_func/mean": 0.8224999904632568,
+      "rewards/reward_func/std": 0.33234018087387085,
+      "step": 914
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 384.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 384.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 384.0,
+      "completions/min_terminated_length": 0.0,
+      "entropy": 0.6607658788561821,
+      "epoch": 1.787109375,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.22088974714279175,
+      "learning_rate": 1.8947368421052634e-07,
+      "loss": 0.0,
+      "num_tokens": 4309296.0,
+      "reward": 0.7371000051498413,
+      "reward_std": 0.28240811824798584,
+      "rewards/reward_func/mean": 0.7371000051498413,
+      "rewards/reward_func/std": 0.4553808271884918,
+      "step": 915
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 384.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 384.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 384.0,
+      "completions/min_terminated_length": 0.0,
+      "entropy": 0.6025678031146526,
+      "epoch": 1.7890625,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.2665260136127472,
+      "learning_rate": 1.8421052631578948e-07,
+      "loss": 0.0,
+      "num_tokens": 4314088.0,
+      "reward": 0.8602499961853027,
+      "reward_std": 0.24355539679527283,
+      "rewards/reward_func/mean": 0.8602499961853027,
+      "rewards/reward_func/std": 0.32780489325523376,
+      "step": 916
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 384.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 384.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 384.0,
+      "completions/min_terminated_length": 0.0,
+      "entropy": 0.421773798763752,
+      "epoch": 1.791015625,
+      "frac_reward_zero_std": 0.5,
+      "grad_norm": 0.12458179891109467,
+      "learning_rate": 1.7894736842105265e-07,
+      "loss": 0.0,
+      "num_tokens": 4319040.0,
+      "reward": 0.0031250000465661287,
+      "reward_std": 0.0062500000931322575,
+      "rewards/reward_func/mean": 0.0031250000465661287,
+      "rewards/reward_func/std": 0.008838835172355175,
+      "step": 917
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 384.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 384.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 384.0,
+      "completions/min_terminated_length": 0.0,
+      "entropy": 0.8600736558437347,
+      "epoch": 1.79296875,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.2437726855278015,
+      "learning_rate": 1.7368421052631578e-07,
+      "loss": -0.0,
+      "num_tokens": 4323544.0,
+      "reward": 0.5066750049591064,
+      "reward_std": 0.4920022189617157,
+      "rewards/reward_func/mean": 0.5066750049591064,
+      "rewards/reward_func/std": 0.5217258930206299,
+      "step": 918
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 384.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 384.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 384.0,
+      "completions/min_terminated_length": 0.0,
+      "entropy": 0.7552273385226727,
+      "epoch": 1.794921875,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.23656296730041504,
+      "learning_rate": 1.6842105263157895e-07,
+      "loss": -0.0,
+      "num_tokens": 4328408.0,
+      "reward": 0.8660625219345093,
+      "reward_std": 0.2540762424468994,
+      "rewards/reward_func/mean": 0.8660625219345093,
+      "rewards/reward_func/std": 0.34541285037994385,
+      "step": 919
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 384.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 384.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 384.0,
+      "completions/min_terminated_length": 0.0,
+      "entropy": 0.6802506037056446,
+      "epoch": 1.796875,
+      "frac_reward_zero_std": 0.5,
+      "grad_norm": 0.1381627321243286,
+      "learning_rate": 1.631578947368421e-07,
+      "loss": 0.0,
+      "num_tokens": 4333080.0,
+      "reward": 0.875,
+      "reward_std": 0.25,
+      "rewards/reward_func/mean": 0.875,
+      "rewards/reward_func/std": 0.3535533845424652,
+      "step": 920
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 384.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 384.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 384.0,
+      "completions/min_terminated_length": 0.0,
+      "entropy": 0.19835966220125556,
+      "epoch": 1.798828125,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "learning_rate": 1.5789473684210527e-07,
+      "loss": 0.0,
+      "num_tokens": 4337592.0,
+      "reward": 0.9296000003814697,
+      "reward_std": 0.0,
+      "rewards/reward_func/mean": 0.9296000003814697,
+      "rewards/reward_func/std": 0.0,
+      "step": 921
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 384.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 384.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 384.0,
+      "completions/min_terminated_length": 0.0,
+      "entropy": 0.8462485000491142,
+      "epoch": 1.80078125,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.24740563333034515,
+      "learning_rate": 1.5263157894736844e-07,
+      "loss": 0.0,
+      "num_tokens": 4342608.0,
+      "reward": 0.47290000319480896,
+      "reward_std": 0.5461318492889404,
+      "rewards/reward_func/mean": 0.47290000319480896,
+      "rewards/reward_func/std": 0.5058882236480713,
+      "step": 922
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 384.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 384.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 384.0,
+      "completions/min_terminated_length": 0.0,
+      "entropy": 0.4742927271872759,
+      "epoch": 1.802734375,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.2252196073532104,
+      "learning_rate": 1.4736842105263158e-07,
+      "loss": 0.0,
+      "num_tokens": 4347248.0,
+      "reward": 0.3668999969959259,
+      "reward_std": 0.5270397663116455,
+      "rewards/reward_func/mean": 0.3668999969959259,
+      "rewards/reward_func/std": 0.5063701272010803,
+      "step": 923
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 384.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 384.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 384.0,
+      "completions/min_terminated_length": 0.0,
+      "entropy": 0.6519879586994648,
+      "epoch": 1.8046875,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.25893595814704895,
+      "learning_rate": 1.4210526315789474e-07,
+      "loss": -0.0,
+      "num_tokens": 4352264.0,
+      "reward": 0.23256249725818634,
+      "reward_std": 0.4609765410423279,
+      "rewards/reward_func/mean": 0.23256249725818634,
+      "rewards/reward_func/std": 0.4271462559700012,
+      "step": 924
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 384.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 384.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 384.0,
+      "completions/min_terminated_length": 0.0,
+      "entropy": 0.8685908392071724,
+      "epoch": 1.806640625,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.24174730479717255,
+      "learning_rate": 1.368421052631579e-07,
+      "loss": -0.0,
+      "num_tokens": 4356792.0,
+      "reward": 0.6343749761581421,
+      "reward_std": 0.5239908695220947,
+      "rewards/reward_func/mean": 0.6343749761581421,
+      "rewards/reward_func/std": 0.5047431588172913,
+      "step": 925
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 384.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 384.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 384.0,
+      "completions/min_terminated_length": 0.0,
+      "entropy": 0.584613062441349,
+      "epoch": 1.80859375,
+      "frac_reward_zero_std": 0.5,
+      "grad_norm": 0.15689092874526978,
+      "learning_rate": 1.3157894736842107e-07,
+      "loss": 0.0,
+      "num_tokens": 4361448.0,
+      "reward": 0.760937511920929,
+      "reward_std": 0.27662280201911926,
+      "rewards/reward_func/mean": 0.760937511920929,
+      "rewards/reward_func/std": 0.4432750344276428,
+      "step": 926
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 384.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 384.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 384.0,
+      "completions/min_terminated_length": 0.0,
+      "entropy": 0.6101187616586685,
+      "epoch": 1.810546875,
+      "frac_reward_zero_std": 0.5,
+      "grad_norm": 0.17513932287693024,
+      "learning_rate": 1.2631578947368423e-07,
+      "loss": 0.0,
+      "num_tokens": 4366136.0,
+      "reward": 0.75,
+      "reward_std": 0.28867512941360474,
+      "rewards/reward_func/mean": 0.75,
+      "rewards/reward_func/std": 0.4629100561141968,
+      "step": 927
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 384.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 384.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 384.0,
+      "completions/min_terminated_length": 0.0,
+      "entropy": 0.6578428782522678,
+      "epoch": 1.8125,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.19013863801956177,
+      "learning_rate": 1.2105263157894737e-07,
+      "loss": 0.0,
+      "num_tokens": 4371112.0,
+      "reward": 0.21320000290870667,
+      "reward_std": 0.42640000581741333,
+      "rewards/reward_func/mean": 0.21320000290870667,
+      "rewards/reward_func/std": 0.3952178359031677,
+      "step": 928
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 384.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 384.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 384.0,
+      "completions/min_terminated_length": 0.0,
+      "entropy": 0.505165308713913,
+      "epoch": 1.814453125,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.9573839902877808,
+      "learning_rate": 1.1578947368421054e-07,
+      "loss": -0.0,
+      "num_tokens": 4375760.0,
+      "reward": 0.6168624758720398,
+      "reward_std": 0.5261497497558594,
+      "rewards/reward_func/mean": 0.6168625354766846,
+      "rewards/reward_func/std": 0.5074918866157532,
+      "step": 929
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 384.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 384.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 384.0,
+      "completions/min_terminated_length": 0.0,
+      "entropy": 0.874191090464592,
+      "epoch": 1.81640625,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.2154332995414734,
+      "learning_rate": 1.1052631578947368e-07,
+      "loss": 0.0,
+      "num_tokens": 4380264.0,
+      "reward": 0.6285499930381775,
+      "reward_std": 0.2513039708137512,
+      "rewards/reward_func/mean": 0.6285499930381775,
+      "rewards/reward_func/std": 0.5067988634109497,
+      "step": 930
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 384.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 384.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 384.0,
+      "completions/min_terminated_length": 0.0,
+      "entropy": 0.9102950617671013,
+      "epoch": 1.818359375,
+      "frac_reward_zero_std": 0.5,
+      "grad_norm": 0.1660175621509552,
+      "learning_rate": 1.0526315789473685e-07,
+      "loss": 0.0,
+      "num_tokens": 4384872.0,
+      "reward": 0.8723000288009644,
+      "reward_std": 0.24825221300125122,
+      "rewards/reward_func/mean": 0.8723000288009644,
+      "rewards/reward_func/std": 0.3525434732437134,
+      "step": 931
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 384.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 384.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 384.0,
+      "completions/min_terminated_length": 0.0,
+      "entropy": 0.564951941370964,
+      "epoch": 1.8203125,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.23926304280757904,
+      "learning_rate": 1.0000000000000001e-07,
+      "loss": -0.0,
+      "num_tokens": 4389696.0,
+      "reward": 0.1210624948143959,
+      "reward_std": 0.2421249896287918,
+      "rewards/reward_func/mean": 0.1210624948143959,
+      "rewards/reward_func/std": 0.33739402890205383,
+      "step": 932
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 384.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 384.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 384.0,
+      "completions/min_terminated_length": 0.0,
+      "entropy": 0.4994359500706196,
+      "epoch": 1.822265625,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.25481706857681274,
+      "learning_rate": 9.473684210526317e-08,
+      "loss": 0.0,
+      "num_tokens": 4394352.0,
+      "reward": 0.629212498664856,
+      "reward_std": 0.49713975191116333,
+      "rewards/reward_func/mean": 0.629212498664856,
+      "rewards/reward_func/std": 0.47718602418899536,
+      "step": 933
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 384.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 384.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 384.0,
+      "completions/min_terminated_length": 0.0,
+      "entropy": 0.4711499195545912,
+      "epoch": 1.82421875,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.19426177442073822,
+      "learning_rate": 8.947368421052632e-08,
+      "loss": -0.0,
+      "num_tokens": 4399000.0,
+      "reward": 0.629349946975708,
+      "reward_std": 0.5124804973602295,
+      "rewards/reward_func/mean": 0.6293500065803528,
+      "rewards/reward_func/std": 0.4940544664859772,
+      "step": 934
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 384.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 384.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 384.0,
+      "completions/min_terminated_length": 0.0,
+      "entropy": 0.8083347305655479,
+      "epoch": 1.826171875,
+      "frac_reward_zero_std": 0.5,
+      "grad_norm": 0.17153169214725494,
+      "learning_rate": 8.421052631578947e-08,
+      "loss": 0.0,
+      "num_tokens": 4403608.0,
+      "reward": 0.7593749761581421,
+      "reward_std": 0.27827125787734985,
+      "rewards/reward_func/mean": 0.7593749761581421,
+      "rewards/reward_func/std": 0.4460016191005707,
+      "step": 935
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 384.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 384.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 384.0,
+      "completions/min_terminated_length": 0.0,
+      "entropy": 0.6882787756621838,
+      "epoch": 1.828125,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.26333948969841003,
+      "learning_rate": 7.894736842105264e-08,
+      "loss": 0.0,
+      "num_tokens": 4408400.0,
+      "reward": 0.5950000286102295,
+      "reward_std": 0.5117709040641785,
+      "rewards/reward_func/mean": 0.5950000286102295,
+      "rewards/reward_func/std": 0.4931241571903229,
+      "step": 936
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 384.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 384.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 384.0,
+      "completions/min_terminated_length": 0.0,
+      "entropy": 0.8129791170358658,
+      "epoch": 1.830078125,
+      "frac_reward_zero_std": 1.0,
+      "grad_norm": 0.0,
+      "learning_rate": 7.368421052631579e-08,
+      "loss": 0.0,
+      "num_tokens": 4412896.0,
+      "reward": 1.0,
+      "reward_std": 0.0,
+      "rewards/reward_func/mean": 1.0,
+      "rewards/reward_func/std": 0.0,
+      "step": 937
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 384.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 384.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 384.0,
+      "completions/min_terminated_length": 0.0,
+      "entropy": 0.45138827711343765,
+      "epoch": 1.83203125,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.18060848116874695,
+      "learning_rate": 6.842105263157895e-08,
+      "loss": 0.0,
+      "num_tokens": 4417680.0,
+      "reward": 0.3540624976158142,
+      "reward_std": 0.5053315162658691,
+      "rewards/reward_func/mean": 0.3540624976158142,
+      "rewards/reward_func/std": 0.4852207601070404,
+      "step": 938
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 384.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 384.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 384.0,
+      "completions/min_terminated_length": 0.0,
+      "entropy": 0.6235154792666435,
+      "epoch": 1.833984375,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.16618505120277405,
+      "learning_rate": 6.315789473684211e-08,
+      "loss": -0.0,
+      "num_tokens": 4422320.0,
+      "reward": 0.7527874708175659,
+      "reward_std": 0.4729631543159485,
+      "rewards/reward_func/mean": 0.7527874708175659,
+      "rewards/reward_func/std": 0.4385221302509308,
+      "step": 939
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 384.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 384.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 384.0,
+      "completions/min_terminated_length": 0.0,
+      "entropy": 0.32566132955253124,
+      "epoch": 1.8359375,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.1724817156791687,
+      "learning_rate": 5.789473684210527e-08,
+      "loss": 0.0,
+      "num_tokens": 4426960.0,
+      "reward": 0.38749998807907104,
+      "reward_std": 0.5304675102233887,
+      "rewards/reward_func/mean": 0.38750001788139343,
+      "rewards/reward_func/std": 0.5074885487556458,
+      "step": 940
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 384.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 384.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 384.0,
+      "completions/min_terminated_length": 0.0,
+      "entropy": 0.3569133039563894,
+      "epoch": 1.837890625,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.17535947263240814,
+      "learning_rate": 5.263157894736842e-08,
+      "loss": 0.0,
+      "num_tokens": 4431448.0,
+      "reward": 0.6987625360488892,
+      "reward_std": 0.4616749882698059,
+      "rewards/reward_func/mean": 0.6987625360488892,
+      "rewards/reward_func/std": 0.4274410605430603,
+      "step": 941
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 384.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 384.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 384.0,
+      "completions/min_terminated_length": 0.0,
+      "entropy": 0.5731943100690842,
+      "epoch": 1.83984375,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.19585168361663818,
+      "learning_rate": 4.7368421052631586e-08,
+      "loss": 0.0,
+      "num_tokens": 4436104.0,
+      "reward": 0.3721874952316284,
+      "reward_std": 0.5249817371368408,
+      "rewards/reward_func/mean": 0.3721874952316284,
+      "rewards/reward_func/std": 0.5038166046142578,
+      "step": 942
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 384.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 384.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 384.0,
+      "completions/min_terminated_length": 0.0,
+      "entropy": 0.5804979503154755,
+      "epoch": 1.841796875,
+      "frac_reward_zero_std": 0.5,
+      "grad_norm": 0.15701980888843536,
+      "learning_rate": 4.2105263157894737e-08,
+      "loss": 0.0,
+      "num_tokens": 4441096.0,
+      "reward": 0.22850000858306885,
+      "reward_std": 0.26406246423721313,
+      "rewards/reward_func/mean": 0.22850000858306885,
+      "rewards/reward_func/std": 0.4233279824256897,
+      "step": 943
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 384.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 384.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 384.0,
+      "completions/min_terminated_length": 0.0,
+      "entropy": 0.8702232874929905,
+      "epoch": 1.84375,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.30385154485702515,
+      "learning_rate": 3.6842105263157894e-08,
+      "loss": 0.0,
+      "num_tokens": 4445896.0,
+      "reward": 0.5129749774932861,
+      "reward_std": 0.47286224365234375,
+      "rewards/reward_func/mean": 0.5129749774932861,
+      "rewards/reward_func/std": 0.5019313097000122,
+      "step": 944
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 384.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 384.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 384.0,
+      "completions/min_terminated_length": 0.0,
+      "entropy": 0.6899589747190475,
+      "epoch": 1.845703125,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.23425976932048798,
+      "learning_rate": 3.157894736842106e-08,
+      "loss": 0.0,
+      "num_tokens": 4450384.0,
+      "reward": 0.8695999979972839,
+      "reward_std": 0.25623539090156555,
+      "rewards/reward_func/mean": 0.8695999979972839,
+      "rewards/reward_func/std": 0.35150691866874695,
+      "step": 945
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 384.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 384.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 384.0,
+      "completions/min_terminated_length": 0.0,
+      "entropy": 0.7242371030151844,
+      "epoch": 1.84765625,
+      "frac_reward_zero_std": 0.5,
+      "grad_norm": 0.18696576356887817,
+      "learning_rate": 2.631578947368421e-08,
+      "loss": 0.0,
+      "num_tokens": 4454728.0,
+      "reward": 0.8765624761581421,
+      "reward_std": 0.24687500298023224,
+      "rewards/reward_func/mean": 0.8765624761581421,
+      "rewards/reward_func/std": 0.34913399815559387,
+      "step": 946
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 384.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 384.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 384.0,
+      "completions/min_terminated_length": 0.0,
+      "entropy": 0.6600115075707436,
+      "epoch": 1.849609375,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.26843783259391785,
+      "learning_rate": 2.1052631578947368e-08,
+      "loss": -0.0,
+      "num_tokens": 4459744.0,
+      "reward": 0.350600004196167,
+      "reward_std": 0.4967568516731262,
+      "rewards/reward_func/mean": 0.350600004196167,
+      "rewards/reward_func/std": 0.4848525822162628,
+      "step": 947
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 384.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 384.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 384.0,
+      "completions/min_terminated_length": 0.0,
+      "entropy": 0.6009881878271699,
+      "epoch": 1.8515625,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.2861350476741791,
+      "learning_rate": 1.578947368421053e-08,
+      "loss": -0.0,
+      "num_tokens": 4464248.0,
+      "reward": 0.5809999704360962,
+      "reward_std": 0.5007524490356445,
+      "rewards/reward_func/mean": 0.5809999704360962,
+      "rewards/reward_func/std": 0.4811137020587921,
+      "step": 948
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 384.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 384.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 384.0,
+      "completions/min_terminated_length": 0.0,
+      "entropy": 0.4016810180619359,
+      "epoch": 1.853515625,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.19072452187538147,
+      "learning_rate": 1.0526315789473684e-08,
+      "loss": -0.0,
+      "num_tokens": 4468744.0,
+      "reward": 0.5809999704360962,
+      "reward_std": 0.5007524490356445,
+      "rewards/reward_func/mean": 0.5809999704360962,
+      "rewards/reward_func/std": 0.4811137020587921,
+      "step": 949
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 1.0,
+      "completions/max_length": 384.0,
+      "completions/max_terminated_length": 0.0,
+      "completions/mean_length": 384.0,
+      "completions/mean_terminated_length": 0.0,
+      "completions/min_length": 384.0,
+      "completions/min_terminated_length": 0.0,
+      "entropy": 0.92277492582798,
+      "epoch": 1.85546875,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.2709886431694031,
+      "learning_rate": 5.263157894736842e-09,
+      "loss": 0.0,
+      "num_tokens": 4473248.0,
+      "reward": 0.7473000288009644,
+      "reward_std": 0.4982522130012512,
+      "rewards/reward_func/mean": 0.7473000288009644,
+      "rewards/reward_func/std": 0.4613037705421448,
+      "step": 950
     }
   ],
   "logging_steps": 1,
   "max_steps": 950,
+  "num_input_tokens_seen": 4473248,
   "num_train_epochs": 2,
   "save_steps": 50,
   "stateful_callbacks": {
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }