Model save

Browse files

Files changed (5) hide show

README.md +68 -0
all_results.json +8 -0
generation_config.json +6 -0
train_results.json +8 -0
trainer_state.json +2030 -0

README.md ADDED Viewed

	@@ -0,0 +1,68 @@

+---
+base_model: Qwen/Qwen2.5-7B
+library_name: transformers
+model_name: Qwen2.5-7B-Open-R1-GRPO-math-lighteval-cosine
+tags:
+- generated_from_trainer
+- trl
+- grpo
+licence: license
+---
+# Model Card for Qwen2.5-7B-Open-R1-GRPO-math-lighteval-cosine
+This model is a fine-tuned version of [Qwen/Qwen2.5-7B](https://huggingface.co/Qwen/Qwen2.5-7B).
+It has been trained using [TRL](https://github.com/huggingface/trl).
+## Quick start
+```python
+from transformers import pipeline
+question = "If you had a time machine, but could only go to the past or the future once and never return, which would you choose and why?"
+generator = pipeline("text-generation", model="Lansechen/Qwen2.5-7B-Open-R1-GRPO-math-lighteval-cosine", device="cuda")
+output = generator([{"role": "user", "content": question}], max_new_tokens=128, return_full_text=False)[0]
+print(output["generated_text"])
+```
+## Training procedure
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/chenran1995-the-chinese-university-of-hong-kong/huggingface/runs/kgymgtyl)
+This model was trained with GRPO, a method introduced in [DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models](https://huggingface.co/papers/2402.03300).
+### Framework versions
+- TRL: 0.16.0
+- Transformers: 4.49.0
+- Pytorch: 2.5.1+cu121
+- Datasets: 3.3.1
+- Tokenizers: 0.21.0
+## Citations
+Cite GRPO as:
+```bibtex
+@article{zhihong2024deepseekmath,
+    title        = {{DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models}},
+    author       = {Zhihong Shao and Peiyi Wang and Qihao Zhu and Runxin Xu and Junxiao Song and Mingchuan Zhang and Y. K. Li and Y. Wu and Daya Guo},
+    year         = 2024,
+    eprint       = {arXiv:2402.03300},
+}
+```
+Cite TRL as:
+```bibtex
+@misc{vonwerra2022trl,
+	title        = {{TRL: Transformer Reinforcement Learning}},
+	author       = {Leandro von Werra and Younes Belkada and Lewis Tunstall and Edward Beeching and Tristan Thrush and Nathan Lambert and Shengyi Huang and Kashif Rasul and Quentin Gallouédec},
+	year         = 2020,
+	journal      = {GitHub repository},
+	publisher    = {GitHub},
+	howpublished = {\url{https://github.com/huggingface/trl}}
+}
+```

all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "total_flos": 0.0,
+    "train_loss": 0.02113412496052633,
+    "train_runtime": 52235.1468,
+    "train_samples": 7500,
+    "train_samples_per_second": 0.287,
+    "train_steps_per_second": 0.003
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "bos_token_id": 151643,
+  "eos_token_id": 151643,
+  "max_new_tokens": 2048,
+  "transformers_version": "4.49.0"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "total_flos": 0.0,
+    "train_loss": 0.02113412496052633,
+    "train_runtime": 52235.1468,
+    "train_samples": 7500,
+    "train_samples_per_second": 0.287,
+    "train_steps_per_second": 0.003
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,2030 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.9850746268656716,
+  "eval_steps": 100,
+  "global_step": 132,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 468.4821586608887,
+      "epoch": 0.014925373134328358,
+      "grad_norm": 0.5261219143867493,
+      "learning_rate": 7.142857142857142e-08,
+      "loss": -0.0272,
+      "num_tokens": 546936.0,
+      "reward": 0.14720686484361067,
+      "reward_std": 0.6725633442401886,
+      "rewards/accuracy_reward": 0.20535713713616133,
+      "rewards/cosine_scaled_reward": -0.122882429510355,
+      "rewards/format_reward": 0.06473214365541935,
+      "step": 1
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 471.2355079650879,
+      "epoch": 0.029850746268656716,
+      "grad_norm": 0.41708439588546753,
+      "learning_rate": 1.4285714285714285e-07,
+      "loss": -0.0173,
+      "num_tokens": 1100635.0,
+      "reward": 0.20620827795937657,
+      "reward_std": 0.6912260502576828,
+      "rewards/accuracy_reward": 0.22991071362048388,
+      "rewards/cosine_scaled_reward": -0.08955066278576851,
+      "rewards/format_reward": 0.06584821548312902,
+      "step": 2
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 477.5357322692871,
+      "epoch": 0.04477611940298507,
+      "grad_norm": 0.4044201970100403,
+      "learning_rate": 2.1428571428571426e-07,
+      "loss": -0.0228,
+      "num_tokens": 1675411.0,
+      "reward": 0.22738021425902843,
+      "reward_std": 0.7466238886117935,
+      "rewards/accuracy_reward": 0.24330357275903225,
+      "rewards/cosine_scaled_reward": -0.08065551635809243,
+      "rewards/format_reward": 0.06473214365541935,
+      "step": 3
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 541.2355117797852,
+      "epoch": 0.05970149253731343,
+      "grad_norm": 0.794707715511322,
+      "learning_rate": 2.857142857142857e-07,
+      "loss": -0.041,
+      "num_tokens": 2289870.0,
+      "reward": 0.11700092989485711,
+      "reward_std": 0.6238975562155247,
+      "rewards/accuracy_reward": 0.19084821175783873,
+      "rewards/cosine_scaled_reward": -0.13188300124602392,
+      "rewards/format_reward": 0.05803571501746774,
+      "step": 4
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 530.3102874755859,
+      "epoch": 0.07462686567164178,
+      "grad_norm": 0.4885825216770172,
+      "learning_rate": 3.5714285714285716e-07,
+      "loss": 0.0208,
+      "num_tokens": 2902532.0,
+      "reward": 0.1085223974660039,
+      "reward_std": 0.618420671671629,
+      "rewards/accuracy_reward": 0.17075893166474998,
+      "rewards/cosine_scaled_reward": -0.14929011272033677,
+      "rewards/format_reward": 0.08705357159487903,
+      "step": 5
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 451.17859268188477,
+      "epoch": 0.08955223880597014,
+      "grad_norm": 0.5443016290664673,
+      "learning_rate": 4.285714285714285e-07,
+      "loss": -0.002,
+      "num_tokens": 3431276.0,
+      "reward": 0.20862307911738753,
+      "reward_std": 0.6792935952544212,
+      "rewards/accuracy_reward": 0.22879464365541935,
+      "rewards/cosine_scaled_reward": -0.10052871843799949,
+      "rewards/format_reward": 0.0803571434225887,
+      "step": 6
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 488.42748260498047,
+      "epoch": 0.1044776119402985,
+      "grad_norm": 0.50808185338974,
+      "learning_rate": 5e-07,
+      "loss": 0.0121,
+      "num_tokens": 3997955.0,
+      "reward": 0.18962736055254936,
+      "reward_std": 0.6948749274015427,
+      "rewards/accuracy_reward": 0.2075892873108387,
+      "rewards/cosine_scaled_reward": -0.11952443420886993,
+      "rewards/format_reward": 0.10156249906867743,
+      "step": 7
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 509.26230239868164,
+      "epoch": 0.11940298507462686,
+      "grad_norm": 0.4024961292743683,
+      "learning_rate": 5.714285714285714e-07,
+      "loss": -0.0025,
+      "num_tokens": 4571902.0,
+      "reward": 0.2240892630070448,
+      "reward_std": 0.711250901222229,
+      "rewards/accuracy_reward": 0.2232142835855484,
+      "rewards/cosine_scaled_reward": -0.09957145689986646,
+      "rewards/format_reward": 0.10044642817229033,
+      "step": 8
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 457.17078399658203,
+      "epoch": 0.13432835820895522,
+      "grad_norm": 0.4010670483112335,
+      "learning_rate": 6.428571428571429e-07,
+      "loss": -0.0008,
+      "num_tokens": 5106863.0,
+      "reward": 0.23711032513529062,
+      "reward_std": 0.7162540927529335,
+      "rewards/accuracy_reward": 0.2254464291036129,
+      "rewards/cosine_scaled_reward": -0.09324682882288471,
+      "rewards/format_reward": 0.10491071362048388,
+      "step": 9
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 447.43528747558594,
+      "epoch": 0.14925373134328357,
+      "grad_norm": 1.9963996410369873,
+      "learning_rate": 7.142857142857143e-07,
+      "loss": -0.0009,
+      "num_tokens": 5632405.0,
+      "reward": 0.30765493400394917,
+      "reward_std": 0.7187102138996124,
+      "rewards/accuracy_reward": 0.22879464365541935,
+      "rewards/cosine_scaled_reward": -0.10529151372611523,
+      "rewards/format_reward": 0.18415178498253226,
+      "step": 10
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 529.4140815734863,
+      "epoch": 0.16417910447761194,
+      "grad_norm": 1.5985616445541382,
+      "learning_rate": 7.857142857142856e-07,
+      "loss": -0.0056,
+      "num_tokens": 6236816.0,
+      "reward": 0.34489849023520947,
+      "reward_std": 0.7811058536171913,
+      "rewards/accuracy_reward": 0.2131696417927742,
+      "rewards/cosine_scaled_reward": -0.10153009975329041,
+      "rewards/format_reward": 0.23325892724096775,
+      "step": 11
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 495.9085006713867,
+      "epoch": 0.1791044776119403,
+      "grad_norm": 0.925566554069519,
+      "learning_rate": 8.57142857142857e-07,
+      "loss": -0.0093,
+      "num_tokens": 6811230.0,
+      "reward": 0.3949438240379095,
+      "reward_std": 0.7836679667234421,
+      "rewards/accuracy_reward": 0.2399553582072258,
+      "rewards/cosine_scaled_reward": -0.07045797364844475,
+      "rewards/format_reward": 0.2254464253783226,
+      "step": 12
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 517.7366333007812,
+      "epoch": 0.19402985074626866,
+      "grad_norm": 0.5331482887268066,
+      "learning_rate": 9.285714285714285e-07,
+      "loss": 0.0139,
+      "num_tokens": 7398306.0,
+      "reward": 0.6416976638138294,
+      "reward_std": 0.8412953615188599,
+      "rewards/accuracy_reward": 0.2790178544819355,
+      "rewards/cosine_scaled_reward": -0.05026664771139622,
+      "rewards/format_reward": 0.4129464291036129,
+      "step": 13
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 459.45761489868164,
+      "epoch": 0.208955223880597,
+      "grad_norm": 1.6511790752410889,
+      "learning_rate": 1e-06,
+      "loss": -0.0051,
+      "num_tokens": 7933852.0,
+      "reward": 0.6904712095856667,
+      "reward_std": 0.8300624415278435,
+      "rewards/accuracy_reward": 0.2589285708963871,
+      "rewards/cosine_scaled_reward": -0.07738597225397825,
+      "rewards/format_reward": 0.5089285783469677,
+      "step": 14
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 445.76007080078125,
+      "epoch": 0.22388059701492538,
+      "grad_norm": 1.0562385320663452,
+      "learning_rate": 9.998286624877785e-07,
+      "loss": -0.0069,
+      "num_tokens": 8447757.0,
+      "reward": 0.785442516207695,
+      "reward_std": 0.8137651458382607,
+      "rewards/accuracy_reward": 0.2645089328289032,
+      "rewards/cosine_scaled_reward": -0.0638878676109016,
+      "rewards/format_reward": 0.5848214291036129,
+      "step": 15
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 519.2634162902832,
+      "epoch": 0.23880597014925373,
+      "grad_norm": 0.5114538073539734,
+      "learning_rate": 9.99314767377287e-07,
+      "loss": -0.0076,
+      "num_tokens": 9036385.0,
+      "reward": 0.9658294171094894,
+      "reward_std": 0.8675010874867439,
+      "rewards/accuracy_reward": 0.31696428544819355,
+      "rewards/cosine_scaled_reward": 0.0015436606481671333,
+      "rewards/format_reward": 0.647321417927742,
+      "step": 16
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 468.31921768188477,
+      "epoch": 0.2537313432835821,
+      "grad_norm": 0.332457035779953,
+      "learning_rate": 9.98458666866564e-07,
+      "loss": 0.0202,
+      "num_tokens": 9605735.0,
+      "reward": 1.2345628887414932,
+      "reward_std": 0.8789637982845306,
+      "rewards/accuracy_reward": 0.3939732164144516,
+      "rewards/cosine_scaled_reward": 0.07161642531355028,
+      "rewards/format_reward": 0.7689732164144516,
+      "step": 17
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 495.0089569091797,
+      "epoch": 0.26865671641791045,
+      "grad_norm": 0.6736157536506653,
+      "learning_rate": 9.972609476841365e-07,
+      "loss": -0.0093,
+      "num_tokens": 10185447.0,
+      "reward": 1.3518186658620834,
+      "reward_std": 0.856958419084549,
+      "rewards/accuracy_reward": 0.4162946417927742,
+      "rewards/cosine_scaled_reward": 0.10181858949363232,
+      "rewards/format_reward": 0.8337053582072258,
+      "step": 18
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 551.4609642028809,
+      "epoch": 0.2835820895522388,
+      "grad_norm": 0.415921688079834,
+      "learning_rate": 9.957224306869053e-07,
+      "loss": 0.0506,
+      "num_tokens": 10804348.0,
+      "reward": 1.4847271889448166,
+      "reward_std": 0.8531165644526482,
+      "rewards/accuracy_reward": 0.4810267873108387,
+      "rewards/cosine_scaled_reward": 0.17222709371708333,
+      "rewards/format_reward": 0.831473208963871,
+      "step": 19
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 525.5926551818848,
+      "epoch": 0.29850746268656714,
+      "grad_norm": 0.4402889609336853,
+      "learning_rate": 9.938441702975689e-07,
+      "loss": 0.0101,
+      "num_tokens": 11402559.0,
+      "reward": 1.6339532285928726,
+      "reward_std": 0.8665541037917137,
+      "rewards/accuracy_reward": 0.5569196380674839,
+      "rewards/cosine_scaled_reward": 0.234399588778615,
+      "rewards/format_reward": 0.8426339253783226,
+      "step": 20
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 579.1317176818848,
+      "epoch": 0.31343283582089554,
+      "grad_norm": 0.26198580861091614,
+      "learning_rate": 9.916274537819773e-07,
+      "loss": 0.0268,
+      "num_tokens": 12045933.0,
+      "reward": 1.7713945358991623,
+      "reward_std": 0.7743762731552124,
+      "rewards/accuracy_reward": 0.5993303582072258,
+      "rewards/cosine_scaled_reward": 0.29929623380303383,
+      "rewards/format_reward": 0.8727678582072258,
+      "step": 21
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 531.8270225524902,
+      "epoch": 0.3283582089552239,
+      "grad_norm": 0.23108772933483124,
+      "learning_rate": 9.890738003669027e-07,
+      "loss": 0.0361,
+      "num_tokens": 12651914.0,
+      "reward": 1.882157564163208,
+      "reward_std": 0.7610342055559158,
+      "rewards/accuracy_reward": 0.6462053582072258,
+      "rewards/cosine_scaled_reward": 0.3196575213223696,
+      "rewards/format_reward": 0.9162946343421936,
+      "step": 22
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 520.4475708007812,
+      "epoch": 0.34328358208955223,
+      "grad_norm": 0.28641998767852783,
+      "learning_rate": 9.861849601988383e-07,
+      "loss": -0.0001,
+      "num_tokens": 13248811.0,
+      "reward": 1.8569733500480652,
+      "reward_std": 0.7132585346698761,
+      "rewards/accuracy_reward": 0.6428571492433548,
+      "rewards/cosine_scaled_reward": 0.30898220650851727,
+      "rewards/format_reward": 0.9051339253783226,
+      "step": 23
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 607.8270263671875,
+      "epoch": 0.3582089552238806,
+      "grad_norm": 0.2447742223739624,
+      "learning_rate": 9.82962913144534e-07,
+      "loss": 0.0428,
+      "num_tokens": 13929544.0,
+      "reward": 1.9759656339883804,
+      "reward_std": 0.6598386131227016,
+      "rewards/accuracy_reward": 0.6741071417927742,
+      "rewards/cosine_scaled_reward": 0.3933762777596712,
+      "rewards/format_reward": 0.9084821417927742,
+      "step": 24
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 549.8973388671875,
+      "epoch": 0.373134328358209,
+      "grad_norm": 0.21301080286502838,
+      "learning_rate": 9.794098674340966e-07,
+      "loss": -0.0086,
+      "num_tokens": 14537412.0,
+      "reward": 2.1477435529232025,
+      "reward_std": 0.5154926143586636,
+      "rewards/accuracy_reward": 0.7589285671710968,
+      "rewards/cosine_scaled_reward": 0.4524309542030096,
+      "rewards/format_reward": 0.9363839402794838,
+      "step": 25
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 610.3136367797852,
+      "epoch": 0.3880597014925373,
+      "grad_norm": 0.24111290276050568,
+      "learning_rate": 9.755282581475767e-07,
+      "loss": 0.0084,
+      "num_tokens": 15221853.0,
+      "reward": 2.011464387178421,
+      "reward_std": 0.5517045110464096,
+      "rewards/accuracy_reward": 0.6785714328289032,
+      "rewards/cosine_scaled_reward": 0.38981253653764725,
+      "rewards/format_reward": 0.9430803656578064,
+      "step": 26
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 628.5591735839844,
+      "epoch": 0.40298507462686567,
+      "grad_norm": 0.178500697016716,
+      "learning_rate": 9.713207455460892e-07,
+      "loss": 0.0453,
+      "num_tokens": 15911730.0,
+      "reward": 2.0012327134609222,
+      "reward_std": 0.5107778459787369,
+      "rewards/accuracy_reward": 0.671875,
+      "rewards/cosine_scaled_reward": 0.3717683330178261,
+      "rewards/format_reward": 0.9575892835855484,
+      "step": 27
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 595.2087249755859,
+      "epoch": 0.417910447761194,
+      "grad_norm": 0.21335452795028687,
+      "learning_rate": 9.667902132486008e-07,
+      "loss": -0.0053,
+      "num_tokens": 16564429.0,
+      "reward": 2.099992021918297,
+      "reward_std": 0.464496249333024,
+      "rewards/accuracy_reward": 0.7075892873108387,
+      "rewards/cosine_scaled_reward": 0.43034904822707176,
+      "rewards/format_reward": 0.9620535671710968,
+      "step": 28
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 685.9821701049805,
+      "epoch": 0.43283582089552236,
+      "grad_norm": 0.19047509133815765,
+      "learning_rate": 9.619397662556433e-07,
+      "loss": -0.0067,
+      "num_tokens": 17318309.0,
+      "reward": 2.014256924390793,
+      "reward_std": 0.5083763264119625,
+      "rewards/accuracy_reward": 0.6674107126891613,
+      "rewards/cosine_scaled_reward": 0.3847925327718258,
+      "rewards/format_reward": 0.9620535746216774,
+      "step": 29
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 666.8728103637695,
+      "epoch": 0.44776119402985076,
+      "grad_norm": 0.17837414145469666,
+      "learning_rate": 9.567727288213004e-07,
+      "loss": 0.0278,
+      "num_tokens": 18038547.0,
+      "reward": 2.189936801791191,
+      "reward_std": 0.49968117475509644,
+      "rewards/accuracy_reward": 0.7332589328289032,
+      "rewards/cosine_scaled_reward": 0.4812314659357071,
+      "rewards/format_reward": 0.9754464328289032,
+      "step": 30
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 665.0145416259766,
+      "epoch": 0.4626865671641791,
+      "grad_norm": 0.21215161681175232,
+      "learning_rate": 9.512926421749303e-07,
+      "loss": 0.0113,
+      "num_tokens": 18758192.0,
+      "reward": 2.1073115468025208,
+      "reward_std": 0.3873421475291252,
+      "rewards/accuracy_reward": 0.700892873108387,
+      "rewards/cosine_scaled_reward": 0.4309721440076828,
+      "rewards/format_reward": 0.975446417927742,
+      "step": 31
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 633.1138763427734,
+      "epoch": 0.47761194029850745,
+      "grad_norm": 0.1608922779560089,
+      "learning_rate": 9.455032620941839e-07,
+      "loss": 0.0103,
+      "num_tokens": 19454198.0,
+      "reward": 2.229922592639923,
+      "reward_std": 0.4106268659234047,
+      "rewards/accuracy_reward": 0.753348208963871,
+      "rewards/cosine_scaled_reward": 0.5011278428137302,
+      "rewards/format_reward": 0.9754464253783226,
+      "step": 32
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 714.6283645629883,
+      "epoch": 0.4925373134328358,
+      "grad_norm": 0.1497848778963089,
+      "learning_rate": 9.394085563309826e-07,
+      "loss": 0.0303,
+      "num_tokens": 20220017.0,
+      "reward": 2.096575230360031,
+      "reward_std": 0.4976784512400627,
+      "rewards/accuracy_reward": 0.6897321492433548,
+      "rewards/cosine_scaled_reward": 0.43362870812416077,
+      "rewards/format_reward": 0.9732142761349678,
+      "step": 33
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 738.8002471923828,
+      "epoch": 0.5074626865671642,
+      "grad_norm": 0.1632772833108902,
+      "learning_rate": 9.330127018922193e-07,
+      "loss": 0.0345,
+      "num_tokens": 21012414.0,
+      "reward": 2.112109124660492,
+      "reward_std": 0.5067962445318699,
+      "rewards/accuracy_reward": 0.6997767873108387,
+      "rewards/cosine_scaled_reward": 0.4391179643571377,
+      "rewards/format_reward": 0.9732142761349678,
+      "step": 34
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 704.3192291259766,
+      "epoch": 0.5223880597014925,
+      "grad_norm": 0.14925751090049744,
+      "learning_rate": 9.26320082177046e-07,
+      "loss": 0.0209,
+      "num_tokens": 21783476.0,
+      "reward": 2.198708087205887,
+      "reward_std": 0.4495688285678625,
+      "rewards/accuracy_reward": 0.734375,
+      "rewards/cosine_scaled_reward": 0.4888865761458874,
+      "rewards/format_reward": 0.9754464328289032,
+      "step": 35
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 741.2444610595703,
+      "epoch": 0.5373134328358209,
+      "grad_norm": 0.2386803925037384,
+      "learning_rate": 9.19335283972712e-07,
+      "loss": 0.0318,
+      "num_tokens": 22591167.0,
+      "reward": 2.112916797399521,
+      "reward_std": 0.4805358611047268,
+      "rewards/accuracy_reward": 0.7020089216530323,
+      "rewards/cosine_scaled_reward": 0.44997028447687626,
+      "rewards/format_reward": 0.9609374850988388,
+      "step": 36
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 709.0658721923828,
+      "epoch": 0.5522388059701493,
+      "grad_norm": 0.5252798199653625,
+      "learning_rate": 9.120630943110077e-07,
+      "loss": 0.0082,
+      "num_tokens": 23353914.0,
+      "reward": 2.2200856059789658,
+      "reward_std": 0.40633704140782356,
+      "rewards/accuracy_reward": 0.7410714328289032,
+      "rewards/cosine_scaled_reward": 0.4968712218105793,
+      "rewards/format_reward": 0.9821428582072258,
+      "step": 37
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 731.2042617797852,
+      "epoch": 0.5671641791044776,
+      "grad_norm": 0.23690421879291534,
+      "learning_rate": 9.045084971874737e-07,
+      "loss": 0.0175,
+      "num_tokens": 24154857.0,
+      "reward": 2.22691310942173,
+      "reward_std": 0.41700269654393196,
+      "rewards/accuracy_reward": 0.7410714253783226,
+      "rewards/cosine_scaled_reward": 0.5014665201306343,
+      "rewards/format_reward": 0.9843749850988388,
+      "step": 38
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 739.1239242553711,
+      "epoch": 0.582089552238806,
+      "grad_norm": 1.277125358581543,
+      "learning_rate": 8.966766701456176e-07,
+      "loss": 0.0124,
+      "num_tokens": 24943776.0,
+      "reward": 2.0895985513925552,
+      "reward_std": 0.43780123069882393,
+      "rewards/accuracy_reward": 0.6863839216530323,
+      "rewards/cosine_scaled_reward": 0.4233037494122982,
+      "rewards/format_reward": 0.979910708963871,
+      "step": 39
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 840.8571701049805,
+      "epoch": 0.5970149253731343,
+      "grad_norm": 0.24747931957244873,
+      "learning_rate": 8.885729807284854e-07,
+      "loss": 0.0112,
+      "num_tokens": 25820880.0,
+      "reward": 2.133217602968216,
+      "reward_std": 0.4699713662266731,
+      "rewards/accuracy_reward": 0.709821417927742,
+      "rewards/cosine_scaled_reward": 0.4535300172865391,
+      "rewards/format_reward": 0.9698660597205162,
+      "step": 40
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 772.5960083007812,
+      "epoch": 0.6119402985074627,
+      "grad_norm": 0.3448956608772278,
+      "learning_rate": 8.802029828000155e-07,
+      "loss": 0.0288,
+      "num_tokens": 26653734.0,
+      "reward": 2.087254598736763,
+      "reward_std": 0.45059962198138237,
+      "rewards/accuracy_reward": 0.684151791036129,
+      "rewards/cosine_scaled_reward": 0.43212054669857025,
+      "rewards/format_reward": 0.9709821417927742,
+      "step": 41
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 738.7221298217773,
+      "epoch": 0.6268656716417911,
+      "grad_norm": 0.18860669434070587,
+      "learning_rate": 8.71572412738697e-07,
+      "loss": 0.0237,
+      "num_tokens": 27438109.0,
+      "reward": 2.371794670820236,
+      "reward_std": 0.41881701350212097,
+      "rewards/accuracy_reward": 0.8091517835855484,
+      "rewards/cosine_scaled_reward": 0.5838480927050114,
+      "rewards/format_reward": 0.9787946343421936,
+      "step": 42
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 772.6094131469727,
+      "epoch": 0.6417910447761194,
+      "grad_norm": 0.18746379017829895,
+      "learning_rate": 8.626871855061437e-07,
+      "loss": 0.0157,
+      "num_tokens": 28265983.0,
+      "reward": 2.2571807503700256,
+      "reward_std": 0.39931730553507805,
+      "rewards/accuracy_reward": 0.7533482164144516,
+      "rewards/cosine_scaled_reward": 0.5205735377967358,
+      "rewards/format_reward": 0.9832589253783226,
+      "step": 43
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 735.1373062133789,
+      "epoch": 0.6567164179104478,
+      "grad_norm": 0.16102778911590576,
+      "learning_rate": 8.535533905932737e-07,
+      "loss": 0.026,
+      "num_tokens": 29051578.0,
+      "reward": 2.2478812634944916,
+      "reward_std": 0.45085589960217476,
+      "rewards/accuracy_reward": 0.7555803582072258,
+      "rewards/cosine_scaled_reward": 0.5112740248441696,
+      "rewards/format_reward": 0.9810267761349678,
+      "step": 44
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 769.5279388427734,
+      "epoch": 0.6716417910447762,
+      "grad_norm": 0.14632996916770935,
+      "learning_rate": 8.441772878468769e-07,
+      "loss": 0.0325,
+      "num_tokens": 29867283.0,
+      "reward": 2.278545081615448,
+      "reward_std": 0.37804416939616203,
+      "rewards/accuracy_reward": 0.7723214253783226,
+      "rewards/cosine_scaled_reward": 0.5229645892977715,
+      "rewards/format_reward": 0.983258917927742,
+      "step": 45
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 877.544677734375,
+      "epoch": 0.6865671641791045,
+      "grad_norm": 0.2075255811214447,
+      "learning_rate": 8.34565303179429e-07,
+      "loss": 0.0387,
+      "num_tokens": 30787355.0,
+      "reward": 2.0822473019361496,
+      "reward_std": 0.4727121517062187,
+      "rewards/accuracy_reward": 0.6863839253783226,
+      "rewards/cosine_scaled_reward": 0.4315776005387306,
+      "rewards/format_reward": 0.9642857164144516,
+      "step": 46
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 832.0123138427734,
+      "epoch": 0.7014925373134329,
+      "grad_norm": 0.1394934505224228,
+      "learning_rate": 8.247240241650917e-07,
+      "loss": 0.0034,
+      "num_tokens": 31648894.0,
+      "reward": 2.255901038646698,
+      "reward_std": 0.3795453645288944,
+      "rewards/accuracy_reward": 0.7533482164144516,
+      "rewards/cosine_scaled_reward": 0.520409844815731,
+      "rewards/format_reward": 0.9821428507566452,
+      "step": 47
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 818.0067443847656,
+      "epoch": 0.7164179104477612,
+      "grad_norm": 0.15266141295433044,
+      "learning_rate": 8.146601955249187e-07,
+      "loss": 0.0231,
+      "num_tokens": 32508644.0,
+      "reward": 2.250428795814514,
+      "reward_std": 0.4384920671582222,
+      "rewards/accuracy_reward": 0.765625,
+      "rewards/cosine_scaled_reward": 0.5060090012848377,
+      "rewards/format_reward": 0.9787946417927742,
+      "step": 48
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 852.2611999511719,
+      "epoch": 0.7313432835820896,
+      "grad_norm": 0.14692984521389008,
+      "learning_rate": 8.043807145043603e-07,
+      "loss": 0.0131,
+      "num_tokens": 33408670.0,
+      "reward": 2.257953464984894,
+      "reward_std": 0.4461590237915516,
+      "rewards/accuracy_reward": 0.7527472451329231,
+      "rewards/cosine_scaled_reward": 0.523578368127346,
+      "rewards/format_reward": 0.9888392835855484,
+      "step": 49
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 818.233283996582,
+      "epoch": 0.746268656716418,
+      "grad_norm": 0.14716172218322754,
+      "learning_rate": 7.938926261462365e-07,
+      "loss": 0.0287,
+      "num_tokens": 34279959.0,
+      "reward": 2.1656472980976105,
+      "reward_std": 0.4217447005212307,
+      "rewards/accuracy_reward": 0.704241082072258,
+      "rewards/cosine_scaled_reward": 0.47591499611735344,
+      "rewards/format_reward": 0.9854910671710968,
+      "step": 50
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 827.4855422973633,
+      "epoch": 0.7611940298507462,
+      "grad_norm": 0.20014236867427826,
+      "learning_rate": 7.832031184624164e-07,
+      "loss": 0.036,
+      "num_tokens": 35159170.0,
+      "reward": 2.2312643826007843,
+      "reward_std": 0.44411566108465195,
+      "rewards/accuracy_reward": 0.7366071417927742,
+      "rewards/cosine_scaled_reward": 0.5136303901672363,
+      "rewards/format_reward": 0.9810267761349678,
+      "step": 51
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 849.912971496582,
+      "epoch": 0.7761194029850746,
+      "grad_norm": 0.1414945125579834,
+      "learning_rate": 7.723195175075135e-07,
+      "loss": 0.0295,
+      "num_tokens": 36049340.0,
+      "reward": 2.1217743158340454,
+      "reward_std": 0.389321930706501,
+      "rewards/accuracy_reward": 0.690848208963871,
+      "rewards/cosine_scaled_reward": 0.45659567788243294,
+      "rewards/format_reward": 0.9743303507566452,
+      "step": 52
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 835.043571472168,
+      "epoch": 0.7910447761194029,
+      "grad_norm": 0.15856719017028809,
+      "learning_rate": 7.612492823579744e-07,
+      "loss": 0.0191,
+      "num_tokens": 36925211.0,
+      "reward": 2.0988520830869675,
+      "reward_std": 0.46310891956090927,
+      "rewards/accuracy_reward": 0.6763392761349678,
+      "rewards/cosine_scaled_reward": 0.4381376765668392,
+      "rewards/format_reward": 0.984375,
+      "step": 53
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 815.3058395385742,
+      "epoch": 0.8059701492537313,
+      "grad_norm": 0.14549441635608673,
+      "learning_rate": 7.5e-07,
+      "loss": 0.032,
+      "num_tokens": 37790557.0,
+      "reward": 2.1466605812311172,
+      "reward_std": 0.44885101169347763,
+      "rewards/accuracy_reward": 0.706473208963871,
+      "rewards/cosine_scaled_reward": 0.4546961672604084,
+      "rewards/format_reward": 0.9854910671710968,
+      "step": 54
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 844.6250305175781,
+      "epoch": 0.8208955223880597,
+      "grad_norm": 0.14582230150699615,
+      "learning_rate": 7.385793801298042e-07,
+      "loss": 0.0222,
+      "num_tokens": 38686461.0,
+      "reward": 2.2503548711538315,
+      "reward_std": 0.44255904480814934,
+      "rewards/accuracy_reward": 0.7600446343421936,
+      "rewards/cosine_scaled_reward": 0.519327986985445,
+      "rewards/format_reward": 0.9787946343421936,
+      "step": 55
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 835.8382110595703,
+      "epoch": 0.835820895522388,
+      "grad_norm": 0.17814846336841583,
+      "learning_rate": 7.269952498697734e-07,
+      "loss": 0.0278,
+      "num_tokens": 39566428.0,
+      "reward": 2.1854068338871,
+      "reward_std": 0.46856704354286194,
+      "rewards/accuracy_reward": 0.7209821417927742,
+      "rewards/cosine_scaled_reward": 0.47670139744877815,
+      "rewards/format_reward": 0.987723208963871,
+      "step": 56
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 812.9855270385742,
+      "epoch": 0.8507462686567164,
+      "grad_norm": 0.23100529611110687,
+      "learning_rate": 7.152555484041475e-07,
+      "loss": 0.0233,
+      "num_tokens": 40417863.0,
+      "reward": 2.307561933994293,
+      "reward_std": 0.39695313945412636,
+      "rewards/accuracy_reward": 0.7845982015132904,
+      "rewards/cosine_scaled_reward": 0.5318922027945518,
+      "rewards/format_reward": 0.9910714253783226,
+      "step": 57
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 852.9955749511719,
+      "epoch": 0.8656716417910447,
+      "grad_norm": 0.1441306471824646,
+      "learning_rate": 7.033683215379002e-07,
+      "loss": 0.0299,
+      "num_tokens": 41308115.0,
+      "reward": 2.1960265040397644,
+      "reward_std": 0.37129098176956177,
+      "rewards/accuracy_reward": 0.7176339328289032,
+      "rewards/cosine_scaled_reward": 0.499597892165184,
+      "rewards/format_reward": 0.9787946343421936,
+      "step": 58
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 841.684196472168,
+      "epoch": 0.8805970149253731,
+      "grad_norm": 0.14134341478347778,
+      "learning_rate": 6.913417161825449e-07,
+      "loss": 0.0325,
+      "num_tokens": 42187672.0,
+      "reward": 2.3595363944768906,
+      "reward_std": 0.4285864755511284,
+      "rewards/accuracy_reward": 0.8058035597205162,
+      "rewards/cosine_scaled_reward": 0.5693577714264393,
+      "rewards/format_reward": 0.9843749850988388,
+      "step": 59
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 806.7199096679688,
+      "epoch": 0.8955223880597015,
+      "grad_norm": 0.2022542655467987,
+      "learning_rate": 6.7918397477265e-07,
+      "loss": 0.0281,
+      "num_tokens": 43045525.0,
+      "reward": 2.208475172519684,
+      "reward_std": 0.4270087294280529,
+      "rewards/accuracy_reward": 0.7332589328289032,
+      "rewards/cosine_scaled_reward": 0.4841447100043297,
+      "rewards/format_reward": 0.9910714253783226,
+      "step": 60
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 840.762321472168,
+      "epoch": 0.9104477611940298,
+      "grad_norm": 0.16908100247383118,
+      "learning_rate": 6.669034296168854e-07,
+      "loss": 0.0378,
+      "num_tokens": 43941024.0,
+      "reward": 2.198526903986931,
+      "reward_std": 0.3748279809951782,
+      "rewards/accuracy_reward": 0.7265625,
+      "rewards/cosine_scaled_reward": 0.4864732697606087,
+      "rewards/format_reward": 0.9854910597205162,
+      "step": 61
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 813.1105346679688,
+      "epoch": 0.9253731343283582,
+      "grad_norm": 0.2283850759267807,
+      "learning_rate": 6.545084971874736e-07,
+      "loss": 0.0432,
+      "num_tokens": 44794987.0,
+      "reward": 2.3305827528238297,
+      "reward_std": 0.4148641601204872,
+      "rewards/accuracy_reward": 0.7845982164144516,
+      "rewards/cosine_scaled_reward": 0.5549130644649267,
+      "rewards/format_reward": 0.9910714328289032,
+      "step": 62
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 890.0435791015625,
+      "epoch": 0.9402985074626866,
+      "grad_norm": 0.14631207287311554,
+      "learning_rate": 6.420076723519614e-07,
+      "loss": 0.0483,
+      "num_tokens": 45721978.0,
+      "reward": 2.20485882461071,
+      "reward_std": 0.45313265547156334,
+      "rewards/accuracy_reward": 0.7321428507566452,
+      "rewards/cosine_scaled_reward": 0.49838550947606564,
+      "rewards/format_reward": 0.9743303507566452,
+      "step": 63
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 802.3672256469727,
+      "epoch": 0.9552238805970149,
+      "grad_norm": 0.24495986104011536,
+      "learning_rate": 6.294095225512604e-07,
+      "loss": 0.0333,
+      "num_tokens": 46577579.0,
+      "reward": 2.271100014448166,
+      "reward_std": 0.44345359317958355,
+      "rewards/accuracy_reward": 0.768973208963871,
+      "rewards/cosine_scaled_reward": 0.5132873728871346,
+      "rewards/format_reward": 0.9888392761349678,
+      "step": 64
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 833.2678909301758,
+      "epoch": 0.9701492537313433,
+      "grad_norm": 0.22237442433834076,
+      "learning_rate": 6.167226819279527e-07,
+      "loss": 0.0192,
+      "num_tokens": 47457379.0,
+      "reward": 2.232301279902458,
+      "reward_std": 0.40537629649043083,
+      "rewards/accuracy_reward": 0.7332589402794838,
+      "rewards/cosine_scaled_reward": 0.5168994888663292,
+      "rewards/format_reward": 0.9821428507566452,
+      "step": 65
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 859.0405197143555,
+      "epoch": 0.9850746268656716,
+      "grad_norm": 1.1952835321426392,
+      "learning_rate": 6.039558454088795e-07,
+      "loss": 0.0479,
+      "num_tokens": 48351995.0,
+      "reward": 2.171072855591774,
+      "reward_std": 0.41515132039785385,
+      "rewards/accuracy_reward": 0.7053571417927742,
+      "rewards/cosine_scaled_reward": 0.4869209751486778,
+      "rewards/format_reward": 0.9787946343421936,
+      "step": 66
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 822.8929061889648,
+      "epoch": 1.0149253731343284,
+      "grad_norm": 0.1507645845413208,
+      "learning_rate": 5.911177627460738e-07,
+      "loss": 0.033,
+      "num_tokens": 49207691.0,
+      "reward": 2.3084839433431625,
+      "reward_std": 0.42283207178115845,
+      "rewards/accuracy_reward": 0.7756696417927742,
+      "rewards/cosine_scaled_reward": 0.5473231822252274,
+      "rewards/format_reward": 0.9854910671710968,
+      "step": 67
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 863.9565124511719,
+      "epoch": 1.0298507462686568,
+      "grad_norm": 0.1485546976327896,
+      "learning_rate": 5.782172325201155e-07,
+      "loss": 0.0507,
+      "num_tokens": 50114748.0,
+      "reward": 2.2060565650463104,
+      "reward_std": 0.4834662191569805,
+      "rewards/accuracy_reward": 0.7433035746216774,
+      "rewards/cosine_scaled_reward": 0.4906546622514725,
+      "rewards/format_reward": 0.9720982164144516,
+      "step": 68
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 830.6830825805664,
+      "epoch": 1.044776119402985,
+      "grad_norm": 0.1332515925168991,
+      "learning_rate": 5.652630961100258e-07,
+      "loss": 0.0425,
+      "num_tokens": 50984376.0,
+      "reward": 2.2528974413871765,
+      "reward_std": 0.38001761958003044,
+      "rewards/accuracy_reward": 0.7511160746216774,
+      "rewards/cosine_scaled_reward": 0.5140580758452415,
+      "rewards/format_reward": 0.987723208963871,
+      "step": 69
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 807.5033874511719,
+      "epoch": 1.0597014925373134,
+      "grad_norm": 0.16610166430473328,
+      "learning_rate": 5.522642316338268e-07,
+      "loss": 0.0156,
+      "num_tokens": 51835195.0,
+      "reward": 2.312391608953476,
+      "reward_std": 0.39653103426098824,
+      "rewards/accuracy_reward": 0.7734375,
+      "rewards/cosine_scaled_reward": 0.5445343889296055,
+      "rewards/format_reward": 0.994419626891613,
+      "step": 70
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 787.1373138427734,
+      "epoch": 1.0746268656716418,
+      "grad_norm": 0.14138761162757874,
+      "learning_rate": 5.392295478639225e-07,
+      "loss": 0.035,
+      "num_tokens": 52675462.0,
+      "reward": 2.3058966398239136,
+      "reward_std": 0.3873091973364353,
+      "rewards/accuracy_reward": 0.772321417927742,
+      "rewards/cosine_scaled_reward": 0.5447358340024948,
+      "rewards/format_reward": 0.9888392761349678,
+      "step": 71
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 821.1105346679688,
+      "epoch": 1.0895522388059702,
+      "grad_norm": 0.230118989944458,
+      "learning_rate": 5.26167978121472e-07,
+      "loss": 0.0327,
+      "num_tokens": 53533969.0,
+      "reward": 2.2972765266895294,
+      "reward_std": 0.4094788581132889,
+      "rewards/accuracy_reward": 0.761160708963871,
+      "rewards/cosine_scaled_reward": 0.5517406836152077,
+      "rewards/format_reward": 0.9843749850988388,
+      "step": 72
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 826.6942367553711,
+      "epoch": 1.1044776119402986,
+      "grad_norm": 0.14363016188144684,
+      "learning_rate": 5.130884741539366e-07,
+      "loss": 0.0255,
+      "num_tokens": 54407367.0,
+      "reward": 2.1353407949209213,
+      "reward_std": 0.4409247748553753,
+      "rewards/accuracy_reward": 0.6830357164144516,
+      "rewards/cosine_scaled_reward": 0.4712782185524702,
+      "rewards/format_reward": 0.9810267761349678,
+      "step": 73
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 797.6071853637695,
+      "epoch": 1.1194029850746268,
+      "grad_norm": 0.1634291261434555,
+      "learning_rate": 5e-07,
+      "loss": 0.0129,
+      "num_tokens": 55235255.0,
+      "reward": 2.33771675825119,
+      "reward_std": 0.438749760389328,
+      "rewards/accuracy_reward": 0.7845982164144516,
+      "rewards/cosine_scaled_reward": 0.5676273554563522,
+      "rewards/format_reward": 0.9854910671710968,
+      "step": 74
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 798.5502548217773,
+      "epoch": 1.1343283582089552,
+      "grad_norm": 0.14468881487846375,
+      "learning_rate": 4.869115258460634e-07,
+      "loss": 0.0281,
+      "num_tokens": 56075140.0,
+      "reward": 2.2596937716007233,
+      "reward_std": 0.40830419957637787,
+      "rewards/accuracy_reward": 0.7477678656578064,
+      "rewards/cosine_scaled_reward": 0.524202574044466,
+      "rewards/format_reward": 0.9877232015132904,
+      "step": 75
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 777.0413284301758,
+      "epoch": 1.1492537313432836,
+      "grad_norm": 0.2769474387168884,
+      "learning_rate": 4.7383202187852804e-07,
+      "loss": 0.0288,
+      "num_tokens": 56898185.0,
+      "reward": 2.376899868249893,
+      "reward_std": 0.384668942540884,
+      "rewards/accuracy_reward": 0.8013392761349678,
+      "rewards/cosine_scaled_reward": 0.5900693982839584,
+      "rewards/format_reward": 0.9854910671710968,
+      "step": 76
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 703.7042694091797,
+      "epoch": 1.164179104477612,
+      "grad_norm": 0.23909108340740204,
+      "learning_rate": 4.6077045213607755e-07,
+      "loss": 0.0117,
+      "num_tokens": 57654136.0,
+      "reward": 2.448263019323349,
+      "reward_std": 0.3043863233178854,
+      "rewards/accuracy_reward": 0.828125,
+      "rewards/cosine_scaled_reward": 0.6246022097766399,
+      "rewards/format_reward": 0.995535708963871,
+      "step": 77
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 818.4219131469727,
+      "epoch": 1.1791044776119404,
+      "grad_norm": 0.13757474720478058,
+      "learning_rate": 4.477357683661733e-07,
+      "loss": 0.0271,
+      "num_tokens": 58514250.0,
+      "reward": 2.1977421790361404,
+      "reward_std": 0.3669319860637188,
+      "rewards/accuracy_reward": 0.723214291036129,
+      "rewards/cosine_scaled_reward": 0.490152794867754,
+      "rewards/format_reward": 0.9843749925494194,
+      "step": 78
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 828.7768096923828,
+      "epoch": 1.1940298507462686,
+      "grad_norm": 0.356913685798645,
+      "learning_rate": 4.347369038899743e-07,
+      "loss": 0.0155,
+      "num_tokens": 59387978.0,
+      "reward": 2.2681883424520493,
+      "reward_std": 0.40200271271169186,
+      "rewards/accuracy_reward": 0.7399553544819355,
+      "rewards/cosine_scaled_reward": 0.5371615076437593,
+      "rewards/format_reward": 0.991071417927742,
+      "step": 79
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 856.8393173217773,
+      "epoch": 1.208955223880597,
+      "grad_norm": 0.1846323013305664,
+      "learning_rate": 4.2178276747988444e-07,
+      "loss": 0.0249,
+      "num_tokens": 60282122.0,
+      "reward": 2.0796916633844376,
+      "reward_std": 0.43989887088537216,
+      "rewards/accuracy_reward": 0.6674107164144516,
+      "rewards/cosine_scaled_reward": 0.4267898350954056,
+      "rewards/format_reward": 0.9854910597205162,
+      "step": 80
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 815.146240234375,
+      "epoch": 1.2238805970149254,
+      "grad_norm": 0.12916217744350433,
+      "learning_rate": 4.0888223725392624e-07,
+      "loss": 0.0224,
+      "num_tokens": 61137405.0,
+      "reward": 2.2786046862602234,
+      "reward_std": 0.37079325318336487,
+      "rewards/accuracy_reward": 0.7477678582072258,
+      "rewards/cosine_scaled_reward": 0.5375330746173859,
+      "rewards/format_reward": 0.9933035671710968,
+      "step": 81
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 789.4765930175781,
+      "epoch": 1.2388059701492538,
+      "grad_norm": 0.1601138859987259,
+      "learning_rate": 3.960441545911204e-07,
+      "loss": 0.0192,
+      "num_tokens": 61981880.0,
+      "reward": 2.3246329575777054,
+      "reward_std": 0.3963399939239025,
+      "rewards/accuracy_reward": 0.777901791036129,
+      "rewards/cosine_scaled_reward": 0.5567756779491901,
+      "rewards/format_reward": 0.9899553582072258,
+      "step": 82
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 806.366096496582,
+      "epoch": 1.2537313432835822,
+      "grad_norm": 1.0955898761749268,
+      "learning_rate": 3.8327731807204744e-07,
+      "loss": 0.007,
+      "num_tokens": 62833152.0,
+      "reward": 2.258734792470932,
+      "reward_std": 0.41654712706804276,
+      "rewards/accuracy_reward": 0.734375,
+      "rewards/cosine_scaled_reward": 0.5388686545193195,
+      "rewards/format_reward": 0.9854910671710968,
+      "step": 83
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 799.4464569091797,
+      "epoch": 1.2686567164179103,
+      "grad_norm": 0.14970937371253967,
+      "learning_rate": 3.7059047744873955e-07,
+      "loss": 0.0191,
+      "num_tokens": 63688080.0,
+      "reward": 2.2213496565818787,
+      "reward_std": 0.4365269783884287,
+      "rewards/accuracy_reward": 0.7332589253783226,
+      "rewards/cosine_scaled_reward": 0.5014834739267826,
+      "rewards/format_reward": 0.9866071343421936,
+      "step": 84
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 799.4777145385742,
+      "epoch": 1.2835820895522387,
+      "grad_norm": 0.1490371972322464,
+      "learning_rate": 3.5799232764803867e-07,
+      "loss": 0.0427,
+      "num_tokens": 64522916.0,
+      "reward": 2.300745904445648,
+      "reward_std": 0.3617209382355213,
+      "rewards/accuracy_reward": 0.7745535746216774,
+      "rewards/cosine_scaled_reward": 0.5395850613713264,
+      "rewards/format_reward": 0.9866071417927742,
+      "step": 85
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 803.349365234375,
+      "epoch": 1.2985074626865671,
+      "grad_norm": 0.13647782802581787,
+      "learning_rate": 3.454915028125263e-07,
+      "loss": 0.0167,
+      "num_tokens": 65365413.0,
+      "reward": 2.1816782504320145,
+      "reward_std": 0.3722137622535229,
+      "rewards/accuracy_reward": 0.7020089253783226,
+      "rewards/cosine_scaled_reward": 0.4908299520611763,
+      "rewards/format_reward": 0.9888392835855484,
+      "step": 86
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 824.3370971679688,
+      "epoch": 1.3134328358208955,
+      "grad_norm": 0.141972154378891,
+      "learning_rate": 3.330965703831146e-07,
+      "loss": 0.0188,
+      "num_tokens": 66236179.0,
+      "reward": 2.2222750931978226,
+      "reward_std": 0.3877013325691223,
+      "rewards/accuracy_reward": 0.7246737629175186,
+      "rewards/cosine_scaled_reward": 0.5180339068174362,
+      "rewards/format_reward": 0.9866071343421936,
+      "step": 87
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 768.4710159301758,
+      "epoch": 1.328358208955224,
+      "grad_norm": 0.2339029610157013,
+      "learning_rate": 3.2081602522734985e-07,
+      "loss": 0.0365,
+      "num_tokens": 67063113.0,
+      "reward": 2.526910215616226,
+      "reward_std": 0.34235746040940285,
+      "rewards/accuracy_reward": 0.8671875,
+      "rewards/cosine_scaled_reward": 0.6719993054866791,
+      "rewards/format_reward": 0.9877232015132904,
+      "step": 88
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 745.8627548217773,
+      "epoch": 1.3432835820895521,
+      "grad_norm": 0.15348723530769348,
+      "learning_rate": 3.086582838174551e-07,
+      "loss": 0.0302,
+      "num_tokens": 67857294.0,
+      "reward": 2.3677200973033905,
+      "reward_std": 0.3587967976927757,
+      "rewards/accuracy_reward": 0.7879464253783226,
+      "rewards/cosine_scaled_reward": 0.5853539742529392,
+      "rewards/format_reward": 0.9944196343421936,
+      "step": 89
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 805.3437805175781,
+      "epoch": 1.3582089552238805,
+      "grad_norm": 0.15230360627174377,
+      "learning_rate": 2.9663167846209996e-07,
+      "loss": 0.0109,
+      "num_tokens": 68712010.0,
+      "reward": 2.1709432005882263,
+      "reward_std": 0.34247344359755516,
+      "rewards/accuracy_reward": 0.7120535746216774,
+      "rewards/cosine_scaled_reward": 0.46893422678112984,
+      "rewards/format_reward": 0.9899553507566452,
+      "step": 90
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 766.2344055175781,
+      "epoch": 1.373134328358209,
+      "grad_norm": 0.20056165754795074,
+      "learning_rate": 2.847444515958523e-07,
+      "loss": 0.0529,
+      "num_tokens": 69530684.0,
+      "reward": 2.444439873099327,
+      "reward_std": 0.4391251541674137,
+      "rewards/accuracy_reward": 0.8180803507566452,
+      "rewards/cosine_scaled_reward": 0.6375201046466827,
+      "rewards/format_reward": 0.9888392835855484,
+      "step": 91
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 806.084846496582,
+      "epoch": 1.3880597014925373,
+      "grad_norm": 0.2504553198814392,
+      "learning_rate": 2.730047501302266e-07,
+      "loss": 0.0276,
+      "num_tokens": 70379000.0,
+      "reward": 2.3064000606536865,
+      "reward_std": 0.41721983440220356,
+      "rewards/accuracy_reward": 0.768973208963871,
+      "rewards/cosine_scaled_reward": 0.5485874190926552,
+      "rewards/format_reward": 0.9888392761349678,
+      "step": 92
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 805.863883972168,
+      "epoch": 1.4029850746268657,
+      "grad_norm": 0.19941268861293793,
+      "learning_rate": 2.6142061987019574e-07,
+      "loss": 0.0203,
+      "num_tokens": 71220958.0,
+      "reward": 2.357511520385742,
+      "reward_std": 0.42761751636862755,
+      "rewards/accuracy_reward": 0.7868303507566452,
+      "rewards/cosine_scaled_reward": 0.5740292370319366,
+      "rewards/format_reward": 0.9966517761349678,
+      "step": 93
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 777.7678833007812,
+      "epoch": 1.417910447761194,
+      "grad_norm": 0.2115296721458435,
+      "learning_rate": 2.500000000000001e-07,
+      "loss": 0.0212,
+      "num_tokens": 72060422.0,
+      "reward": 2.2628036439418793,
+      "reward_std": 0.3773616813123226,
+      "rewards/accuracy_reward": 0.7399553582072258,
+      "rewards/cosine_scaled_reward": 0.5284285433590412,
+      "rewards/format_reward": 0.9944196343421936,
+      "step": 94
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 809.7109680175781,
+      "epoch": 1.4328358208955223,
+      "grad_norm": 0.20344114303588867,
+      "learning_rate": 2.387507176420256e-07,
+      "loss": 0.0388,
+      "num_tokens": 72917563.0,
+      "reward": 2.2071495205163956,
+      "reward_std": 0.43392882496118546,
+      "rewards/accuracy_reward": 0.7165178507566452,
+      "rewards/cosine_scaled_reward": 0.5129529945552349,
+      "rewards/format_reward": 0.9776785671710968,
+      "step": 95
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 825.3906707763672,
+      "epoch": 1.4477611940298507,
+      "grad_norm": 0.17310675978660583,
+      "learning_rate": 2.2768048249248644e-07,
+      "loss": 0.0233,
+      "num_tokens": 73786337.0,
+      "reward": 2.265718474984169,
+      "reward_std": 0.42188060469925404,
+      "rewards/accuracy_reward": 0.753348208963871,
+      "rewards/cosine_scaled_reward": 0.5212987046688795,
+      "rewards/format_reward": 0.9910714328289032,
+      "step": 96
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 746.5346221923828,
+      "epoch": 1.462686567164179,
+      "grad_norm": 0.33199918270111084,
+      "learning_rate": 2.167968815375837e-07,
+      "loss": 0.0252,
+      "num_tokens": 74591024.0,
+      "reward": 2.3167020082473755,
+      "reward_std": 0.3432948123663664,
+      "rewards/accuracy_reward": 0.7790178582072258,
+      "rewards/cosine_scaled_reward": 0.5477286390960217,
+      "rewards/format_reward": 0.9899553433060646,
+      "step": 97
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 844.3359756469727,
+      "epoch": 1.4776119402985075,
+      "grad_norm": 0.26303336024284363,
+      "learning_rate": 2.0610737385376348e-07,
+      "loss": 0.0209,
+      "num_tokens": 75489445.0,
+      "reward": 2.130746826529503,
+      "reward_std": 0.4488871730864048,
+      "rewards/accuracy_reward": 0.6897321343421936,
+      "rewards/cosine_scaled_reward": 0.4510592333972454,
+      "rewards/format_reward": 0.9899553507566452,
+      "step": 98
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 856.8058471679688,
+      "epoch": 1.4925373134328357,
+      "grad_norm": 0.14609511196613312,
+      "learning_rate": 1.9561928549563966e-07,
+      "loss": 0.0271,
+      "num_tokens": 76395231.0,
+      "reward": 1.9894811660051346,
+      "reward_std": 0.4427115470170975,
+      "rewards/accuracy_reward": 0.6227678619325161,
+      "rewards/cosine_scaled_reward": 0.3700613994151354,
+      "rewards/format_reward": 0.9966517761349678,
+      "step": 99
+    },
+    {
+      "epoch": 1.5074626865671643,
+      "grad_norm": 0.17610162496566772,
+      "learning_rate": 1.8533980447508135e-07,
+      "loss": 0.0242,
+      "step": 100
+    },
+    {
+      "epoch": 1.5074626865671643,
+      "eval_clip_ratio": 0.0,
+      "eval_completion_length": 792.2322063765712,
+      "eval_loss": 0.02554122917354107,
+      "eval_num_tokens": 77204687.0,
+      "eval_reward": 2.204988658095205,
+      "eval_reward_std": 0.4329044972468355,
+      "eval_rewards/accuracy_reward": 0.7148593376135693,
+      "eval_rewards/cosine_scaled_reward": 0.5001551498081431,
+      "eval_rewards/format_reward": 0.9899740553767987,
+      "eval_runtime": 11721.4303,
+      "eval_samples_per_second": 0.427,
+      "eval_steps_per_second": 0.004,
+      "step": 100
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 788.0508155822754,
+      "epoch": 1.5223880597014925,
+      "grad_norm": 0.19114182889461517,
+      "learning_rate": 1.7527597583490823e-07,
+      "loss": 0.0328,
+      "num_tokens": 78053058.0,
+      "reward": 2.281766965985298,
+      "reward_std": 0.4103840598836541,
+      "rewards/accuracy_reward": 0.7534769810736179,
+      "rewards/cosine_scaled_reward": 0.5412534717470407,
+      "rewards/format_reward": 0.9905133806169033,
+      "step": 101
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 772.8002624511719,
+      "epoch": 1.537313432835821,
+      "grad_norm": 0.177150696516037,
+      "learning_rate": 1.6543469682057104e-07,
+      "loss": 0.0458,
+      "num_tokens": 78881671.0,
+      "reward": 2.2872008681297302,
+      "reward_std": 0.409332113340497,
+      "rewards/accuracy_reward": 0.7544642835855484,
+      "rewards/cosine_scaled_reward": 0.5450132600963116,
+      "rewards/format_reward": 0.9877232015132904,
+      "step": 102
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 813.3482437133789,
+      "epoch": 1.5522388059701493,
+      "grad_norm": 0.15676981210708618,
+      "learning_rate": 1.5582271215312293e-07,
+      "loss": 0.0244,
+      "num_tokens": 79736991.0,
+      "reward": 2.280416786670685,
+      "reward_std": 0.37246554158627987,
+      "rewards/accuracy_reward": 0.7511160597205162,
+      "rewards/cosine_scaled_reward": 0.5471578016877174,
+      "rewards/format_reward": 0.9821428582072258,
+      "step": 103
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 753.7221298217773,
+      "epoch": 1.5671641791044775,
+      "grad_norm": 0.14831306040287018,
+      "learning_rate": 1.4644660940672627e-07,
+      "loss": 0.046,
+      "num_tokens": 80548398.0,
+      "reward": 2.3254519551992416,
+      "reward_std": 0.386288670822978,
+      "rewards/accuracy_reward": 0.7823660671710968,
+      "rewards/cosine_scaled_reward": 0.5631750710308552,
+      "rewards/format_reward": 0.9799107015132904,
+      "step": 104
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 798.2891082763672,
+      "epoch": 1.582089552238806,
+      "grad_norm": 0.15447363257408142,
+      "learning_rate": 1.3731281449385628e-07,
+      "loss": 0.0151,
+      "num_tokens": 81400969.0,
+      "reward": 2.328332096338272,
+      "reward_std": 0.3908931314945221,
+      "rewards/accuracy_reward": 0.7779017835855484,
+      "rewards/cosine_scaled_reward": 0.5615909844636917,
+      "rewards/format_reward": 0.9888392835855484,
+      "step": 105
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 840.0145492553711,
+      "epoch": 1.5970149253731343,
+      "grad_norm": 0.196583554148674,
+      "learning_rate": 1.284275872613028e-07,
+      "loss": 0.0263,
+      "num_tokens": 82284510.0,
+      "reward": 2.143914580345154,
+      "reward_std": 0.4517398029565811,
+      "rewards/accuracy_reward": 0.6964285671710968,
+      "rewards/cosine_scaled_reward": 0.46199479326605797,
+      "rewards/format_reward": 0.9854910597205162,
+      "step": 106
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 857.6384353637695,
+      "epoch": 1.6119402985074627,
+      "grad_norm": 0.16375041007995605,
+      "learning_rate": 1.1979701719998454e-07,
+      "loss": 0.0386,
+      "num_tokens": 83187714.0,
+      "reward": 2.1951108425855637,
+      "reward_std": 0.5204542428255081,
+      "rewards/accuracy_reward": 0.7154017761349678,
+      "rewards/cosine_scaled_reward": 0.4931018613278866,
+      "rewards/format_reward": 0.9866071417927742,
+      "step": 107
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 783.974365234375,
+      "epoch": 1.626865671641791,
+      "grad_norm": 0.14117641746997833,
+      "learning_rate": 1.1142701927151454e-07,
+      "loss": 0.0151,
+      "num_tokens": 84010083.0,
+      "reward": 2.3524541556835175,
+      "reward_std": 0.43999602273106575,
+      "rewards/accuracy_reward": 0.7890625074505806,
+      "rewards/cosine_scaled_reward": 0.5745523162186146,
+      "rewards/format_reward": 0.9888392835855484,
+      "step": 108
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 813.5145492553711,
+      "epoch": 1.6417910447761193,
+      "grad_norm": 0.14856059849262238,
+      "learning_rate": 1.0332332985438247e-07,
+      "loss": 0.0141,
+      "num_tokens": 84873256.0,
+      "reward": 2.279180735349655,
+      "reward_std": 0.40090466663241386,
+      "rewards/accuracy_reward": 0.7522321492433548,
+      "rewards/cosine_scaled_reward": 0.538109190762043,
+      "rewards/format_reward": 0.9888392835855484,
+      "step": 109
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 770.613883972168,
+      "epoch": 1.6567164179104479,
+      "grad_norm": 0.1753540337085724,
+      "learning_rate": 9.549150281252632e-08,
+      "loss": 0.0173,
+      "num_tokens": 85689638.0,
+      "reward": 2.2676322162151337,
+      "reward_std": 0.36183078587055206,
+      "rewards/accuracy_reward": 0.7377232164144516,
+      "rewards/cosine_scaled_reward": 0.5377213880419731,
+      "rewards/format_reward": 0.9921874925494194,
+      "step": 110
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 821.4765930175781,
+      "epoch": 1.671641791044776,
+      "grad_norm": 0.15574952960014343,
+      "learning_rate": 8.793690568899215e-08,
+      "loss": 0.0436,
+      "num_tokens": 86549257.0,
+      "reward": 2.299679785966873,
+      "reward_std": 0.36411611922085285,
+      "rewards/accuracy_reward": 0.7656249925494194,
+      "rewards/cosine_scaled_reward": 0.5474475063383579,
+      "rewards/format_reward": 0.9866071417927742,
+      "step": 111
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 818.6038360595703,
+      "epoch": 1.6865671641791045,
+      "grad_norm": 0.15562310814857483,
+      "learning_rate": 8.066471602728803e-08,
+      "loss": 0.0308,
+      "num_tokens": 87400390.0,
+      "reward": 2.3183076828718185,
+      "reward_std": 0.29475370794534683,
+      "rewards/accuracy_reward": 0.7723214328289032,
+      "rewards/cosine_scaled_reward": 0.5616111867129803,
+      "rewards/format_reward": 0.9843749925494194,
+      "step": 112
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 774.2924423217773,
+      "epoch": 1.7014925373134329,
+      "grad_norm": 0.17490361630916595,
+      "learning_rate": 7.36799178229539e-08,
+      "loss": 0.0194,
+      "num_tokens": 88221964.0,
+      "reward": 2.239181011915207,
+      "reward_std": 0.3596949577331543,
+      "rewards/accuracy_reward": 0.7176339253783226,
+      "rewards/cosine_scaled_reward": 0.5315916165709496,
+      "rewards/format_reward": 0.9899553507566452,
+      "step": 113
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 774.7154388427734,
+      "epoch": 1.716417910447761,
+      "grad_norm": 0.244772270321846,
+      "learning_rate": 6.698729810778064e-08,
+      "loss": 0.022,
+      "num_tokens": 89047949.0,
+      "reward": 2.343540608882904,
+      "reward_std": 0.3898981437087059,
+      "rewards/accuracy_reward": 0.777901791036129,
+      "rewards/cosine_scaled_reward": 0.5756833851337433,
+      "rewards/format_reward": 0.9899553433060646,
+      "step": 114
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 840.091552734375,
+      "epoch": 1.7313432835820897,
+      "grad_norm": 0.14277122914791107,
+      "learning_rate": 6.059144366901736e-08,
+      "loss": 0.0168,
+      "num_tokens": 89929215.0,
+      "reward": 2.2201480120420456,
+      "reward_std": 0.3869924359023571,
+      "rewards/accuracy_reward": 0.7209821492433548,
+      "rewards/cosine_scaled_reward": 0.518138974905014,
+      "rewards/format_reward": 0.9810267761349678,
+      "step": 115
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 766.7477951049805,
+      "epoch": 1.7462686567164178,
+      "grad_norm": 0.26776042580604553,
+      "learning_rate": 5.44967379058161e-08,
+      "loss": 0.0413,
+      "num_tokens": 90736805.0,
+      "reward": 2.255069524049759,
+      "reward_std": 0.3386665191501379,
+      "rewards/accuracy_reward": 0.737723208963871,
+      "rewards/cosine_scaled_reward": 0.5307390131056309,
+      "rewards/format_reward": 0.9866071343421936,
+      "step": 116
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 829.6663284301758,
+      "epoch": 1.7611940298507462,
+      "grad_norm": 0.2277984321117401,
+      "learning_rate": 4.870735782506979e-08,
+      "loss": 0.0148,
+      "num_tokens": 91635634.0,
+      "reward": 2.1820897459983826,
+      "reward_std": 0.4220114853233099,
+      "rewards/accuracy_reward": 0.7087053582072258,
+      "rewards/cosine_scaled_reward": 0.4767325222492218,
+      "rewards/format_reward": 0.9966517761349678,
+      "step": 117
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 798.0044860839844,
+      "epoch": 1.7761194029850746,
+      "grad_norm": 0.18910035490989685,
+      "learning_rate": 4.322727117869951e-08,
+      "loss": 0.0163,
+      "num_tokens": 92477054.0,
+      "reward": 2.2727625370025635,
+      "reward_std": 0.4164229966700077,
+      "rewards/accuracy_reward": 0.7555803582072258,
+      "rewards/cosine_scaled_reward": 0.5261106304824352,
+      "rewards/format_reward": 0.991071417927742,
+      "step": 118
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 818.9799499511719,
+      "epoch": 1.7910447761194028,
+      "grad_norm": 0.18116088211536407,
+      "learning_rate": 3.806023374435663e-08,
+      "loss": 0.0207,
+      "num_tokens": 93336268.0,
+      "reward": 2.1996723413467407,
+      "reward_std": 0.4445042908191681,
+      "rewards/accuracy_reward": 0.7109375,
+      "rewards/cosine_scaled_reward": 0.5043596625328064,
+      "rewards/format_reward": 0.9843749925494194,
+      "step": 119
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 791.8013687133789,
+      "epoch": 1.8059701492537314,
+      "grad_norm": 0.16948001086711884,
+      "learning_rate": 3.3209786751399184e-08,
+      "loss": 0.0363,
+      "num_tokens": 94184666.0,
+      "reward": 2.3499678671360016,
+      "reward_std": 0.3877370711416006,
+      "rewards/accuracy_reward": 0.777901791036129,
+      "rewards/cosine_scaled_reward": 0.586574912071228,
+      "rewards/format_reward": 0.9854910671710968,
+      "step": 120
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 779.1897659301758,
+      "epoch": 1.8208955223880596,
+      "grad_norm": 0.15338537096977234,
+      "learning_rate": 2.8679254453910785e-08,
+      "loss": 0.0161,
+      "num_tokens": 95013124.0,
+      "reward": 2.2275805920362473,
+      "reward_std": 0.3441179431974888,
+      "rewards/accuracy_reward": 0.7109374925494194,
+      "rewards/cosine_scaled_reward": 0.5188751742243767,
+      "rewards/format_reward": 0.9977678507566452,
+      "step": 121
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 829.8382034301758,
+      "epoch": 1.835820895522388,
+      "grad_norm": 0.13179580867290497,
+      "learning_rate": 2.4471741852423233e-08,
+      "loss": 0.0287,
+      "num_tokens": 95903451.0,
+      "reward": 2.1736037135124207,
+      "reward_std": 0.4318021424114704,
+      "rewards/accuracy_reward": 0.7142857164144516,
+      "rewards/cosine_scaled_reward": 0.47717495635151863,
+      "rewards/format_reward": 0.9821428507566452,
+      "step": 122
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 806.5413360595703,
+      "epoch": 1.8507462686567164,
+      "grad_norm": 0.29391592741012573,
+      "learning_rate": 2.0590132565903473e-08,
+      "loss": 0.0311,
+      "num_tokens": 96759152.0,
+      "reward": 2.2691119611263275,
+      "reward_std": 0.4518252518028021,
+      "rewards/accuracy_reward": 0.7589285746216774,
+      "rewards/cosine_scaled_reward": 0.5313886553049088,
+      "rewards/format_reward": 0.9787946343421936,
+      "step": 123
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 779.5937881469727,
+      "epoch": 1.8656716417910446,
+      "grad_norm": 0.15708433091640472,
+      "learning_rate": 1.7037086855465898e-08,
+      "loss": 0.0199,
+      "num_tokens": 97582132.0,
+      "reward": 2.251932591199875,
+      "reward_std": 0.44112248346209526,
+      "rewards/accuracy_reward": 0.7421874925494194,
+      "rewards/cosine_scaled_reward": 0.5164414867758751,
+      "rewards/format_reward": 0.9933035597205162,
+      "step": 124
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 813.1272659301758,
+      "epoch": 1.8805970149253732,
+      "grad_norm": 0.1673169732093811,
+      "learning_rate": 1.3815039801161722e-08,
+      "loss": 0.0249,
+      "num_tokens": 98437462.0,
+      "reward": 2.205630913376808,
+      "reward_std": 0.42455647699534893,
+      "rewards/accuracy_reward": 0.7142857164144516,
+      "rewards/cosine_scaled_reward": 0.5025058649480343,
+      "rewards/format_reward": 0.9888392835855484,
+      "step": 125
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 741.6920013427734,
+      "epoch": 1.8955223880597014,
+      "grad_norm": 0.1612333208322525,
+      "learning_rate": 1.0926199633097154e-08,
+      "loss": 0.0216,
+      "num_tokens": 99228194.0,
+      "reward": 2.3898730278015137,
+      "reward_std": 0.3898141644895077,
+      "rewards/accuracy_reward": 0.7890625149011612,
+      "rewards/cosine_scaled_reward": 0.6075067967176437,
+      "rewards/format_reward": 0.9933035597205162,
+      "step": 126
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 789.6574096679688,
+      "epoch": 1.9104477611940298,
+      "grad_norm": 0.2855228781700134,
+      "learning_rate": 8.372546218022746e-09,
+      "loss": 0.0362,
+      "num_tokens": 100072663.0,
+      "reward": 2.211760714650154,
+      "reward_std": 0.3630409985780716,
+      "rewards/accuracy_reward": 0.7142857238650322,
+      "rewards/cosine_scaled_reward": 0.5108677893877029,
+      "rewards/format_reward": 0.9866071417927742,
+      "step": 127
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 793.2388687133789,
+      "epoch": 1.9253731343283582,
+      "grad_norm": 0.1790562868118286,
+      "learning_rate": 6.15582970243117e-09,
+      "loss": 0.0324,
+      "num_tokens": 100913773.0,
+      "reward": 2.358086109161377,
+      "reward_std": 0.3747531082481146,
+      "rewards/accuracy_reward": 0.7868303582072258,
+      "rewards/cosine_scaled_reward": 0.5824163034558296,
+      "rewards/format_reward": 0.9888392761349678,
+      "step": 128
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 805.0513763427734,
+      "epoch": 1.9402985074626866,
+      "grad_norm": 0.20580174028873444,
+      "learning_rate": 4.277569313094809e-09,
+      "loss": 0.0337,
+      "num_tokens": 101758427.0,
+      "reward": 2.3048039972782135,
+      "reward_std": 0.413201667368412,
+      "rewards/accuracy_reward": 0.7622767835855484,
+      "rewards/cosine_scaled_reward": 0.5503396540880203,
+      "rewards/format_reward": 0.9921874925494194,
+      "step": 129
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 825.1707992553711,
+      "epoch": 1.955223880597015,
+      "grad_norm": 0.1606811136007309,
+      "learning_rate": 2.739052315863355e-09,
+      "loss": 0.0124,
+      "num_tokens": 102639524.0,
+      "reward": 2.1286870390176773,
+      "reward_std": 0.40390729531645775,
+      "rewards/accuracy_reward": 0.6796875,
+      "rewards/cosine_scaled_reward": 0.45457978174090385,
+      "rewards/format_reward": 0.9944196343421936,
+      "step": 130
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 780.3303833007812,
+      "epoch": 1.9701492537313432,
+      "grad_norm": 0.1538384109735489,
+      "learning_rate": 1.541333133436018e-09,
+      "loss": 0.0104,
+      "num_tokens": 103465868.0,
+      "reward": 2.334537535905838,
+      "reward_std": 0.37909975461661816,
+      "rewards/accuracy_reward": 0.7723214328289032,
+      "rewards/cosine_scaled_reward": 0.5700285099446774,
+      "rewards/format_reward": 0.9921874925494194,
+      "step": 131
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 807.1284713745117,
+      "epoch": 1.9850746268656716,
+      "grad_norm": 0.15763509273529053,
+      "learning_rate": 6.852326227130833e-10,
+      "loss": 0.0277,
+      "num_tokens": 104326476.0,
+      "reward": 2.2643921971321106,
+      "reward_std": 0.3899136632680893,
+      "rewards/accuracy_reward": 0.7410714328289032,
+      "rewards/cosine_scaled_reward": 0.5277849473059177,
+      "rewards/format_reward": 0.995535708963871,
+      "step": 132
+    },
+    {
+      "epoch": 1.9850746268656716,
+      "step": 132,
+      "total_flos": 0.0,
+      "train_loss": 0.02113412496052633,
+      "train_runtime": 52235.1468,
+      "train_samples_per_second": 0.287,
+      "train_steps_per_second": 0.003
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 134,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}