diff --git "a/trainer_state.json" "b/trainer_state.json"
new file mode 100644--- /dev/null
+++ "b/trainer_state.json"
@@ -0,0 +1,50433 @@
+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.75830078125,
+  "eval_steps": 500,
+  "global_step": 3600,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 423.6328125,
+      "epoch": 0.00048828125,
+      "grad_norm": 1.6967331082339958,
+      "kl": 0.0,
+      "learning_rate": 9.998779296875e-07,
+      "loss": -0.0,
+      "reward": 1.3786234855651855,
+      "reward_std": 0.4677655100822449,
+      "rewards/format_reward": 0.8671875,
+      "rewards/ocr_reward": 0.5114360153675079,
+      "step": 1
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 312.5859375,
+      "epoch": 0.0009765625,
+      "grad_norm": 3.2468303824500158,
+      "kl": 0.0004444122314453125,
+      "learning_rate": 9.99755859375e-07,
+      "loss": 0.0,
+      "reward": 1.34132719039917,
+      "reward_std": 0.22886180132627487,
+      "rewards/format_reward": 0.8671875,
+      "rewards/ocr_reward": 0.4741397053003311,
+      "step": 2
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 351.9609375,
+      "epoch": 0.00146484375,
+      "grad_norm": 4.297129503903299,
+      "kl": 0.0007305145263671875,
+      "learning_rate": 9.996337890625e-07,
+      "loss": 0.0,
+      "reward": 1.3343781232833862,
+      "reward_std": 0.3735136389732361,
+      "rewards/format_reward": 0.890625,
+      "rewards/ocr_reward": 0.44375310838222504,
+      "step": 3
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 470.828125,
+      "epoch": 0.001953125,
+      "grad_norm": 3.657808420164072,
+      "kl": 0.00101470947265625,
+      "learning_rate": 9.995117187499999e-07,
+      "loss": 0.0,
+      "reward": 1.2803430557250977,
+      "reward_std": 0.3147875517606735,
+      "rewards/format_reward": 0.828125,
+      "rewards/ocr_reward": 0.4522180110216141,
+      "step": 4
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 302.578125,
+      "epoch": 0.00244140625,
+      "grad_norm": 9.54822062112943,
+      "kl": 0.001285552978515625,
+      "learning_rate": 9.993896484375e-07,
+      "loss": 0.0001,
+      "reward": 1.4602121710777283,
+      "reward_std": 0.26758695393800735,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.49927467107772827,
+      "step": 5
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 428.953125,
+      "epoch": 0.0029296875,
+      "grad_norm": 3.269030427449002,
+      "kl": 0.001796722412109375,
+      "learning_rate": 9.992675781249999e-07,
+      "loss": 0.0001,
+      "reward": 1.3741803765296936,
+      "reward_std": 0.25756245851516724,
+      "rewards/format_reward": 0.921875,
+      "rewards/ocr_reward": 0.4523053914308548,
+      "step": 6
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 280.5234375,
+      "epoch": 0.00341796875,
+      "grad_norm": 3.1536786445417637,
+      "kl": 0.00457763671875,
+      "learning_rate": 9.991455078125e-07,
+      "loss": 0.0002,
+      "reward": 1.4508002400398254,
+      "reward_std": 0.21975237131118774,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.49767518043518066,
+      "step": 7
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 385.3515625,
+      "epoch": 0.00390625,
+      "grad_norm": 3.829024827560807,
+      "kl": 0.00382232666015625,
+      "learning_rate": 9.990234375e-07,
+      "loss": 0.0002,
+      "reward": 1.437036395072937,
+      "reward_std": 0.16978412866592407,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.4604738652706146,
+      "step": 8
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 315.71875,
+      "epoch": 0.00439453125,
+      "grad_norm": 3.0867259887356244,
+      "kl": 0.00495147705078125,
+      "learning_rate": 9.989013671875e-07,
+      "loss": 0.0002,
+      "reward": 1.474764347076416,
+      "reward_std": 0.22620604932308197,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.498201847076416,
+      "step": 9
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 287.453125,
+      "epoch": 0.0048828125,
+      "grad_norm": 3.2629945996638403,
+      "kl": 0.0056915283203125,
+      "learning_rate": 9.98779296875e-07,
+      "loss": 0.0002,
+      "reward": 1.5907155871391296,
+      "reward_std": 0.14950328320264816,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.590715616941452,
+      "step": 10
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 349.390625,
+      "epoch": 0.00537109375,
+      "grad_norm": 1.6117640951539305,
+      "kl": 0.0078887939453125,
+      "learning_rate": 9.986572265624999e-07,
+      "loss": 0.0003,
+      "reward": 1.427464485168457,
+      "reward_std": 0.19085168838500977,
+      "rewards/format_reward": 0.9140625,
+      "rewards/ocr_reward": 0.5134019106626511,
+      "step": 11
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 343.671875,
+      "epoch": 0.005859375,
+      "grad_norm": 9.963892714501458,
+      "kl": 0.006866455078125,
+      "learning_rate": 9.9853515625e-07,
+      "loss": 0.0003,
+      "reward": 1.506593108177185,
+      "reward_std": 0.21911517158150673,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.5378430485725403,
+      "step": 12
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 432.1484375,
+      "epoch": 0.00634765625,
+      "grad_norm": 1.198296114175371,
+      "kl": 0.00494384765625,
+      "learning_rate": 9.984130859374999e-07,
+      "loss": 0.0002,
+      "reward": 1.4732499718666077,
+      "reward_std": 0.16561511158943176,
+      "rewards/format_reward": 0.921875,
+      "rewards/ocr_reward": 0.5513749718666077,
+      "step": 13
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 344.5234375,
+      "epoch": 0.0068359375,
+      "grad_norm": 2.2044476834833233,
+      "kl": 0.00946044921875,
+      "learning_rate": 9.98291015625e-07,
+      "loss": 0.0004,
+      "reward": 1.3112062215805054,
+      "reward_std": 0.2594592794775963,
+      "rewards/format_reward": 0.8828125,
+      "rewards/ocr_reward": 0.4283936768770218,
+      "step": 14
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 312.5078125,
+      "epoch": 0.00732421875,
+      "grad_norm": 6.042854996633053,
+      "kl": 0.0079193115234375,
+      "learning_rate": 9.981689453125e-07,
+      "loss": 0.0003,
+      "reward": 1.4512476921081543,
+      "reward_std": 0.15800564736127853,
+      "rewards/format_reward": 0.890625,
+      "rewards/ocr_reward": 0.5606226921081543,
+      "step": 15
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 365.2734375,
+      "epoch": 0.0078125,
+      "grad_norm": 5.388723086801915,
+      "kl": 0.008453369140625,
+      "learning_rate": 9.98046875e-07,
+      "loss": 0.0003,
+      "reward": 1.4160526990890503,
+      "reward_std": 0.19370869547128677,
+      "rewards/format_reward": 0.890625,
+      "rewards/ocr_reward": 0.5254276692867279,
+      "step": 16
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 293.1796875,
+      "epoch": 0.00830078125,
+      "grad_norm": 8.561270421888638,
+      "kl": 0.008331298828125,
+      "learning_rate": 9.979248046875e-07,
+      "loss": 0.0003,
+      "reward": 1.5414886474609375,
+      "reward_std": 0.24305763095617294,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.5571136474609375,
+      "step": 17
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 306.53125,
+      "epoch": 0.0087890625,
+      "grad_norm": 2.3271079058180053,
+      "kl": 0.0077972412109375,
+      "learning_rate": 9.978027343749999e-07,
+      "loss": 0.0003,
+      "reward": 1.4583409428596497,
+      "reward_std": 0.23799628019332886,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.48959091305732727,
+      "step": 18
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 267.6953125,
+      "epoch": 0.00927734375,
+      "grad_norm": 5.347116097400923,
+      "kl": 0.014739990234375,
+      "learning_rate": 9.976806640625e-07,
+      "loss": 0.0006,
+      "reward": 1.4719247817993164,
+      "reward_std": 0.24416528642177582,
+      "rewards/format_reward": 0.9296875,
+      "rewards/ocr_reward": 0.5422372817993164,
+      "step": 19
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 256.8203125,
+      "epoch": 0.009765625,
+      "grad_norm": 2.1593789937228456,
+      "kl": 0.0086669921875,
+      "learning_rate": 9.9755859375e-07,
+      "loss": 0.0003,
+      "reward": 1.5712983012199402,
+      "reward_std": 0.20670025050640106,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.5791108012199402,
+      "step": 20
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 265.53125,
+      "epoch": 0.01025390625,
+      "grad_norm": 5.174610588681323,
+      "kl": 0.010955810546875,
+      "learning_rate": 9.974365234375e-07,
+      "loss": 0.0004,
+      "reward": 1.6467618942260742,
+      "reward_std": 0.17008116841316223,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.670199453830719,
+      "step": 21
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 326.9921875,
+      "epoch": 0.0107421875,
+      "grad_norm": 2.2196458415428073,
+      "kl": 0.0082244873046875,
+      "learning_rate": 9.97314453125e-07,
+      "loss": 0.0003,
+      "reward": 1.5177651643753052,
+      "reward_std": 0.183644600212574,
+      "rewards/format_reward": 0.9375,
+      "rewards/ocr_reward": 0.5802651941776276,
+      "step": 22
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 228.9140625,
+      "epoch": 0.01123046875,
+      "grad_norm": 2.1272235668522725,
+      "kl": 0.009613037109375,
+      "learning_rate": 9.971923828125e-07,
+      "loss": 0.0004,
+      "reward": 1.6449316143989563,
+      "reward_std": 0.11167065799236298,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6449315845966339,
+      "step": 23
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 342.109375,
+      "epoch": 0.01171875,
+      "grad_norm": 2.695370319521806,
+      "kl": 0.0121002197265625,
+      "learning_rate": 9.970703125e-07,
+      "loss": 0.0005,
+      "reward": 1.7102810740470886,
+      "reward_std": 0.19407786428928375,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7180935442447662,
+      "step": 24
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 356.171875,
+      "epoch": 0.01220703125,
+      "grad_norm": 2.4674039388994022,
+      "kl": 0.010650634765625,
+      "learning_rate": 9.969482421874999e-07,
+      "loss": 0.0004,
+      "reward": 1.4299457669258118,
+      "reward_std": 0.20515850186347961,
+      "rewards/format_reward": 0.8359375,
+      "rewards/ocr_reward": 0.5940082669258118,
+      "step": 25
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 305.2265625,
+      "epoch": 0.0126953125,
+      "grad_norm": 1.7112292524853188,
+      "kl": 0.013671875,
+      "learning_rate": 9.96826171875e-07,
+      "loss": 0.0005,
+      "reward": 1.5269352197647095,
+      "reward_std": 0.12535615265369415,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.5425602197647095,
+      "step": 26
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 376.71875,
+      "epoch": 0.01318359375,
+      "grad_norm": 4.748056883738088,
+      "kl": 0.0106964111328125,
+      "learning_rate": 9.967041015625e-07,
+      "loss": 0.0004,
+      "reward": 1.4135064482688904,
+      "reward_std": 0.3039677292108536,
+      "rewards/format_reward": 0.890625,
+      "rewards/ocr_reward": 0.5228813886642456,
+      "step": 27
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 361.1953125,
+      "epoch": 0.013671875,
+      "grad_norm": 2.4024436743008613,
+      "kl": 0.008575439453125,
+      "learning_rate": 9.9658203125e-07,
+      "loss": 0.0003,
+      "reward": 1.4704246520996094,
+      "reward_std": 0.14263245463371277,
+      "rewards/format_reward": 0.9453125,
+      "rewards/ocr_reward": 0.5251121670007706,
+      "step": 28
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 294.078125,
+      "epoch": 0.01416015625,
+      "grad_norm": 2.4271553949012716,
+      "kl": 0.0111083984375,
+      "learning_rate": 9.964599609375e-07,
+      "loss": 0.0004,
+      "reward": 1.679746925830841,
+      "reward_std": 0.17487338185310364,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6953718960285187,
+      "step": 29
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 343.3671875,
+      "epoch": 0.0146484375,
+      "grad_norm": 1.7256261444170102,
+      "kl": 0.01251220703125,
+      "learning_rate": 9.963378906249999e-07,
+      "loss": 0.0005,
+      "reward": 1.3718626499176025,
+      "reward_std": 0.15719684958457947,
+      "rewards/format_reward": 0.921875,
+      "rewards/ocr_reward": 0.44998762011528015,
+      "step": 30
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 307.625,
+      "epoch": 0.01513671875,
+      "grad_norm": 3.1473342645539613,
+      "kl": 0.015167236328125,
+      "learning_rate": 9.962158203125e-07,
+      "loss": 0.0006,
+      "reward": 1.5455162525177002,
+      "reward_std": 0.09274030476808548,
+      "rewards/format_reward": 0.9375,
+      "rewards/ocr_reward": 0.6080162525177002,
+      "step": 31
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 358.2265625,
+      "epoch": 0.015625,
+      "grad_norm": 2.719177732364667,
+      "kl": 0.01239013671875,
+      "learning_rate": 9.960937499999999e-07,
+      "loss": 0.0005,
+      "reward": 1.3972212672233582,
+      "reward_std": 0.2669922858476639,
+      "rewards/format_reward": 0.921875,
+      "rewards/ocr_reward": 0.47534629702568054,
+      "step": 32
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 303.8203125,
+      "epoch": 0.01611328125,
+      "grad_norm": 3.6252731496314583,
+      "kl": 0.014862060546875,
+      "learning_rate": 9.959716796875e-07,
+      "loss": 0.0006,
+      "reward": 1.3229502439498901,
+      "reward_std": 0.20802345871925354,
+      "rewards/format_reward": 0.90625,
+      "rewards/ocr_reward": 0.41670016944408417,
+      "step": 33
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 262.5390625,
+      "epoch": 0.0166015625,
+      "grad_norm": 5.151875445266958,
+      "kl": 0.017364501953125,
+      "learning_rate": 9.95849609375e-07,
+      "loss": 0.0007,
+      "reward": 1.5725292563438416,
+      "reward_std": 0.18037345260381699,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.5803417265415192,
+      "step": 34
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 368.4296875,
+      "epoch": 0.01708984375,
+      "grad_norm": 1.6068668302465103,
+      "kl": 0.01483154296875,
+      "learning_rate": 9.957275390625e-07,
+      "loss": 0.0006,
+      "reward": 1.6186823844909668,
+      "reward_std": 0.20612449198961258,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.6499324142932892,
+      "step": 35
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 294.3828125,
+      "epoch": 0.017578125,
+      "grad_norm": 5.289657901378204,
+      "kl": 0.07623291015625,
+      "learning_rate": 9.9560546875e-07,
+      "loss": 0.0031,
+      "reward": 1.7034948468208313,
+      "reward_std": 0.10497300326824188,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7034948468208313,
+      "step": 36
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 359.1875,
+      "epoch": 0.01806640625,
+      "grad_norm": 2.217914980304441,
+      "kl": 0.008026123046875,
+      "learning_rate": 9.954833984374999e-07,
+      "loss": 0.0003,
+      "reward": 1.5534625053405762,
+      "reward_std": 0.15290548652410507,
+      "rewards/format_reward": 0.9296875,
+      "rewards/ocr_reward": 0.6237750053405762,
+      "step": 37
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 307.5234375,
+      "epoch": 0.0185546875,
+      "grad_norm": 2.4752008410956976,
+      "kl": 0.01519775390625,
+      "learning_rate": 9.95361328125e-07,
+      "loss": 0.0006,
+      "reward": 1.5298476219177246,
+      "reward_std": 0.11099112778902054,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.5298476219177246,
+      "step": 38
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 416.5078125,
+      "epoch": 0.01904296875,
+      "grad_norm": 4.386993810362648,
+      "kl": 0.017669677734375,
+      "learning_rate": 9.952392578124999e-07,
+      "loss": 0.0007,
+      "reward": 1.3395265936851501,
+      "reward_std": 0.2638590559363365,
+      "rewards/format_reward": 0.8671875,
+      "rewards/ocr_reward": 0.47233910858631134,
+      "step": 39
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 378.3203125,
+      "epoch": 0.01953125,
+      "grad_norm": 4.4842670885571865,
+      "kl": 0.014923095703125,
+      "learning_rate": 9.951171875e-07,
+      "loss": 0.0006,
+      "reward": 1.5370002388954163,
+      "reward_std": 0.2090120166540146,
+      "rewards/format_reward": 0.9453125,
+      "rewards/ocr_reward": 0.591687798500061,
+      "step": 40
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 292.3359375,
+      "epoch": 0.02001953125,
+      "grad_norm": 8.295700223804772,
+      "kl": 0.0208740234375,
+      "learning_rate": 9.949951171875e-07,
+      "loss": 0.0008,
+      "reward": 1.5621129274368286,
+      "reward_std": 0.14411582052707672,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.562112957239151,
+      "step": 41
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 335.6953125,
+      "epoch": 0.0205078125,
+      "grad_norm": 5.14140191685903,
+      "kl": 0.019622802734375,
+      "learning_rate": 9.94873046875e-07,
+      "loss": 0.0008,
+      "reward": 1.5798521041870117,
+      "reward_std": 0.27509623765945435,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.6111020445823669,
+      "step": 42
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 319.2734375,
+      "epoch": 0.02099609375,
+      "grad_norm": 6.525096801696474,
+      "kl": 0.03765869140625,
+      "learning_rate": 9.947509765625e-07,
+      "loss": 0.0015,
+      "reward": 1.5670145750045776,
+      "reward_std": 0.07265551388263702,
+      "rewards/format_reward": 0.9375,
+      "rewards/ocr_reward": 0.6295144557952881,
+      "step": 43
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 305.953125,
+      "epoch": 0.021484375,
+      "grad_norm": 2.1028130721169855,
+      "kl": 0.04144287109375,
+      "learning_rate": 9.946289062499999e-07,
+      "loss": 0.0017,
+      "reward": 1.4101728200912476,
+      "reward_std": 0.20591440051794052,
+      "rewards/format_reward": 0.921875,
+      "rewards/ocr_reward": 0.48829779028892517,
+      "step": 44
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 474.484375,
+      "epoch": 0.02197265625,
+      "grad_norm": 3.8367388215242437,
+      "kl": 0.0299072265625,
+      "learning_rate": 9.945068359375e-07,
+      "loss": 0.0012,
+      "reward": 1.4227579236030579,
+      "reward_std": 0.262872114777565,
+      "rewards/format_reward": 0.8984375,
+      "rewards/ocr_reward": 0.5243203639984131,
+      "step": 45
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 488.453125,
+      "epoch": 0.0224609375,
+      "grad_norm": 7.321597730270083,
+      "kl": 0.03070068359375,
+      "learning_rate": 9.94384765625e-07,
+      "loss": 0.0012,
+      "reward": 1.377393662929535,
+      "reward_std": 0.22495906800031662,
+      "rewards/format_reward": 0.828125,
+      "rewards/ocr_reward": 0.5492686927318573,
+      "step": 46
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 304.2578125,
+      "epoch": 0.02294921875,
+      "grad_norm": 3.0974827964713625,
+      "kl": 0.0308837890625,
+      "learning_rate": 9.942626953125e-07,
+      "loss": 0.0012,
+      "reward": 1.6084083914756775,
+      "reward_std": 0.09188483282923698,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6084084212779999,
+      "step": 47
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 307.6796875,
+      "epoch": 0.0234375,
+      "grad_norm": 2.5869776097386885,
+      "kl": 0.02886962890625,
+      "learning_rate": 9.94140625e-07,
+      "loss": 0.0012,
+      "reward": 1.6284254789352417,
+      "reward_std": 0.10064487159252167,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6284254491329193,
+      "step": 48
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 372.3359375,
+      "epoch": 0.02392578125,
+      "grad_norm": 2.157246364997451,
+      "kl": 0.03350830078125,
+      "learning_rate": 9.940185546875e-07,
+      "loss": 0.0013,
+      "reward": 1.672927439212799,
+      "reward_std": 0.2006322741508484,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.7198024392127991,
+      "step": 49
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 357.8359375,
+      "epoch": 0.0244140625,
+      "grad_norm": 3.073205929906485,
+      "kl": 0.0428466796875,
+      "learning_rate": 9.93896484375e-07,
+      "loss": 0.0017,
+      "reward": 1.679724395275116,
+      "reward_std": 0.1169515885412693,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.7109744250774384,
+      "step": 50
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 370.2734375,
+      "epoch": 0.02490234375,
+      "grad_norm": 1.2830008863309907,
+      "kl": 0.027587890625,
+      "learning_rate": 9.937744140624999e-07,
+      "loss": 0.0011,
+      "reward": 1.4477837085723877,
+      "reward_std": 0.17552587389945984,
+      "rewards/format_reward": 0.9140625,
+      "rewards/ocr_reward": 0.5337212085723877,
+      "step": 51
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 329.7265625,
+      "epoch": 0.025390625,
+      "grad_norm": 2.6436926651819443,
+      "kl": 0.03045654296875,
+      "learning_rate": 9.9365234375e-07,
+      "loss": 0.0012,
+      "reward": 1.6024810075759888,
+      "reward_std": 0.1249840036034584,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6102935671806335,
+      "step": 52
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 303.2109375,
+      "epoch": 0.02587890625,
+      "grad_norm": 2.4855128606318893,
+      "kl": 0.02911376953125,
+      "learning_rate": 9.935302734375e-07,
+      "loss": 0.0012,
+      "reward": 1.487706184387207,
+      "reward_std": 0.1580093577504158,
+      "rewards/format_reward": 0.9453125,
+      "rewards/ocr_reward": 0.542393684387207,
+      "step": 53
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 454.6171875,
+      "epoch": 0.0263671875,
+      "grad_norm": 3.8492649462150337,
+      "kl": 0.02069091796875,
+      "learning_rate": 9.93408203125e-07,
+      "loss": 0.0008,
+      "reward": 1.4205285906791687,
+      "reward_std": 0.3576083779335022,
+      "rewards/format_reward": 0.8984375,
+      "rewards/ocr_reward": 0.5220911204814911,
+      "step": 54
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 345.2109375,
+      "epoch": 0.02685546875,
+      "grad_norm": 3.3352616770122663,
+      "kl": 0.02423095703125,
+      "learning_rate": 9.932861328125e-07,
+      "loss": 0.001,
+      "reward": 1.4812852144241333,
+      "reward_std": 0.21911777555942535,
+      "rewards/format_reward": 0.9140625,
+      "rewards/ocr_reward": 0.5672226548194885,
+      "step": 55
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 434.9453125,
+      "epoch": 0.02734375,
+      "grad_norm": 2.599784945706524,
+      "kl": 0.0146484375,
+      "learning_rate": 9.931640625e-07,
+      "loss": 0.0006,
+      "reward": 1.5850829482078552,
+      "reward_std": 0.17178751900792122,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.6085204482078552,
+      "step": 56
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 465.875,
+      "epoch": 0.02783203125,
+      "grad_norm": 4.155986577192788,
+      "kl": 0.01739501953125,
+      "learning_rate": 9.930419921875e-07,
+      "loss": 0.0007,
+      "reward": 1.448303461074829,
+      "reward_std": 0.38380755484104156,
+      "rewards/format_reward": 0.875,
+      "rewards/ocr_reward": 0.5733034014701843,
+      "step": 57
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 384.765625,
+      "epoch": 0.0283203125,
+      "grad_norm": 1.736596362026434,
+      "kl": 0.0234375,
+      "learning_rate": 9.929199218749999e-07,
+      "loss": 0.0009,
+      "reward": 1.5162723660469055,
+      "reward_std": 0.2991267442703247,
+      "rewards/format_reward": 0.9140625,
+      "rewards/ocr_reward": 0.6022098660469055,
+      "step": 58
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 365.3203125,
+      "epoch": 0.02880859375,
+      "grad_norm": 4.494090341930586,
+      "kl": 0.03082275390625,
+      "learning_rate": 9.927978515625e-07,
+      "loss": 0.0012,
+      "reward": 1.378541350364685,
+      "reward_std": 0.35002946853637695,
+      "rewards/format_reward": 0.9140625,
+      "rewards/ocr_reward": 0.46447885036468506,
+      "step": 59
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 374.2109375,
+      "epoch": 0.029296875,
+      "grad_norm": 6.756047598527613,
+      "kl": 0.02886962890625,
+      "learning_rate": 9.9267578125e-07,
+      "loss": 0.0012,
+      "reward": 1.3606464862823486,
+      "reward_std": 0.36894528567790985,
+      "rewards/format_reward": 0.890625,
+      "rewards/ocr_reward": 0.47002144157886505,
+      "step": 60
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 251.421875,
+      "epoch": 0.02978515625,
+      "grad_norm": 4.731387630408789,
+      "kl": 0.028076171875,
+      "learning_rate": 9.925537109375e-07,
+      "loss": 0.0011,
+      "reward": 1.6455896496772766,
+      "reward_std": 0.27443696558475494,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.6924646198749542,
+      "step": 61
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 330.0,
+      "epoch": 0.0302734375,
+      "grad_norm": 1.9490370706301865,
+      "kl": 0.0244140625,
+      "learning_rate": 9.92431640625e-07,
+      "loss": 0.001,
+      "reward": 1.5852088928222656,
+      "reward_std": 0.3096665292978287,
+      "rewards/format_reward": 0.9296875,
+      "rewards/ocr_reward": 0.6555215120315552,
+      "step": 62
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 430.6875,
+      "epoch": 0.03076171875,
+      "grad_norm": 1.9868062360035326,
+      "kl": 0.01654052734375,
+      "learning_rate": 9.923095703124999e-07,
+      "loss": 0.0007,
+      "reward": 1.5640851855278015,
+      "reward_std": 0.33458730578422546,
+      "rewards/format_reward": 0.9453125,
+      "rewards/ocr_reward": 0.6187726855278015,
+      "step": 63
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 430.8046875,
+      "epoch": 0.03125,
+      "grad_norm": 3.1565682997286975,
+      "kl": 0.014373779296875,
+      "learning_rate": 9.921875e-07,
+      "loss": 0.0006,
+      "reward": 1.451416552066803,
+      "reward_std": 0.22569319605827332,
+      "rewards/format_reward": 0.875,
+      "rewards/ocr_reward": 0.576416552066803,
+      "step": 64
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 454.4140625,
+      "epoch": 0.03173828125,
+      "grad_norm": 4.987882156519405,
+      "kl": 0.0198974609375,
+      "learning_rate": 9.920654296874999e-07,
+      "loss": 0.0008,
+      "reward": 1.3604365587234497,
+      "reward_std": 0.3875332325696945,
+      "rewards/format_reward": 0.8359375,
+      "rewards/ocr_reward": 0.5244990885257721,
+      "step": 65
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 441.3359375,
+      "epoch": 0.0322265625,
+      "grad_norm": 2.1756835153062988,
+      "kl": 0.01727294921875,
+      "learning_rate": 9.91943359375e-07,
+      "loss": 0.0007,
+      "reward": 1.476547658443451,
+      "reward_std": 0.2438819855451584,
+      "rewards/format_reward": 0.8984375,
+      "rewards/ocr_reward": 0.5781101584434509,
+      "step": 66
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 311.875,
+      "epoch": 0.03271484375,
+      "grad_norm": 2.9742812230395614,
+      "kl": 0.01806640625,
+      "learning_rate": 9.918212890625e-07,
+      "loss": 0.0007,
+      "reward": 1.575055181980133,
+      "reward_std": 0.09458094835281372,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.5750551819801331,
+      "step": 67
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 339.28125,
+      "epoch": 0.033203125,
+      "grad_norm": 5.874510923979259,
+      "kl": 0.01611328125,
+      "learning_rate": 9.9169921875e-07,
+      "loss": 0.0006,
+      "reward": 1.5294025540351868,
+      "reward_std": 0.14596965909004211,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.552839994430542,
+      "step": 68
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 288.8203125,
+      "epoch": 0.03369140625,
+      "grad_norm": 9.28303459781024,
+      "kl": 0.021240234375,
+      "learning_rate": 9.915771484375e-07,
+      "loss": 0.0008,
+      "reward": 1.534590721130371,
+      "reward_std": 0.15341224521398544,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.5736532807350159,
+      "step": 69
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 241.8828125,
+      "epoch": 0.0341796875,
+      "grad_norm": 10.443387554099303,
+      "kl": 0.02099609375,
+      "learning_rate": 9.914550781249999e-07,
+      "loss": 0.0008,
+      "reward": 1.741838276386261,
+      "reward_std": 0.12638744711875916,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7652758061885834,
+      "step": 70
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 222.9140625,
+      "epoch": 0.03466796875,
+      "grad_norm": 6.002627107380703,
+      "kl": 0.02801513671875,
+      "learning_rate": 9.913330078125e-07,
+      "loss": 0.0011,
+      "reward": 1.5784024596214294,
+      "reward_std": 0.19862286746501923,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.6018398702144623,
+      "step": 71
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 269.9921875,
+      "epoch": 0.03515625,
+      "grad_norm": 3.901896848624282,
+      "kl": 0.013671875,
+      "learning_rate": 9.912109375e-07,
+      "loss": 0.0005,
+      "reward": 1.4875227212905884,
+      "reward_std": 0.12161608785390854,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.4953352212905884,
+      "step": 72
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 263.0390625,
+      "epoch": 0.03564453125,
+      "grad_norm": 3.5931169826306353,
+      "kl": 0.02130126953125,
+      "learning_rate": 9.910888671875e-07,
+      "loss": 0.0009,
+      "reward": 1.7116557955741882,
+      "reward_std": 0.11958565562963486,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.711655855178833,
+      "step": 73
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 330.4609375,
+      "epoch": 0.0361328125,
+      "grad_norm": 2.716899809253411,
+      "kl": 0.017120361328125,
+      "learning_rate": 9.90966796875e-07,
+      "loss": 0.0007,
+      "reward": 1.5722922682762146,
+      "reward_std": 0.13994912058115005,
+      "rewards/format_reward": 0.890625,
+      "rewards/ocr_reward": 0.6816672682762146,
+      "step": 74
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 441.40625,
+      "epoch": 0.03662109375,
+      "grad_norm": 3.1440498309793634,
+      "kl": 0.0177001953125,
+      "learning_rate": 9.908447265625e-07,
+      "loss": 0.0007,
+      "reward": 1.3587397933006287,
+      "reward_std": 0.1976253017783165,
+      "rewards/format_reward": 0.8359375,
+      "rewards/ocr_reward": 0.5228022933006287,
+      "step": 75
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 415.5703125,
+      "epoch": 0.037109375,
+      "grad_norm": 4.514322351312445,
+      "kl": 0.010009765625,
+      "learning_rate": 9.9072265625e-07,
+      "loss": 0.0004,
+      "reward": 1.4641498923301697,
+      "reward_std": 0.22810623794794083,
+      "rewards/format_reward": 0.9296875,
+      "rewards/ocr_reward": 0.5344623029232025,
+      "step": 76
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 293.765625,
+      "epoch": 0.03759765625,
+      "grad_norm": 1.8710146074895642,
+      "kl": 0.0203857421875,
+      "learning_rate": 9.906005859374999e-07,
+      "loss": 0.0008,
+      "reward": 1.6418211460113525,
+      "reward_std": 0.13721346855163574,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6574461758136749,
+      "step": 77
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 372.859375,
+      "epoch": 0.0380859375,
+      "grad_norm": 2.1667842777691373,
+      "kl": 0.018096923828125,
+      "learning_rate": 9.90478515625e-07,
+      "loss": 0.0007,
+      "reward": 1.5189919471740723,
+      "reward_std": 0.10774445161223412,
+      "rewards/format_reward": 0.921875,
+      "rewards/ocr_reward": 0.5971169471740723,
+      "step": 78
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 306.0703125,
+      "epoch": 0.03857421875,
+      "grad_norm": 4.797612672867945,
+      "kl": 0.01641845703125,
+      "learning_rate": 9.903564453125e-07,
+      "loss": 0.0007,
+      "reward": 1.6151621341705322,
+      "reward_std": 0.059841278940439224,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6151621639728546,
+      "step": 79
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 284.375,
+      "epoch": 0.0390625,
+      "grad_norm": 3.385092526026789,
+      "kl": 0.01837158203125,
+      "learning_rate": 9.90234375e-07,
+      "loss": 0.0007,
+      "reward": 1.7148075699806213,
+      "reward_std": 0.13570959120988846,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7226200103759766,
+      "step": 80
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 446.6171875,
+      "epoch": 0.03955078125,
+      "grad_norm": 2.6814045791672685,
+      "kl": 0.014251708984375,
+      "learning_rate": 9.901123046875e-07,
+      "loss": 0.0006,
+      "reward": 1.515661358833313,
+      "reward_std": 0.15792688727378845,
+      "rewards/format_reward": 0.9453125,
+      "rewards/ocr_reward": 0.5703488886356354,
+      "step": 81
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 296.6953125,
+      "epoch": 0.0400390625,
+      "grad_norm": 6.013775861153405,
+      "kl": 0.02032470703125,
+      "learning_rate": 9.89990234375e-07,
+      "loss": 0.0008,
+      "reward": 1.5584400296211243,
+      "reward_std": 0.12772930040955544,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.5818775296211243,
+      "step": 82
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 371.4140625,
+      "epoch": 0.04052734375,
+      "grad_norm": 1.72500127507919,
+      "kl": 0.0257568359375,
+      "learning_rate": 9.898681640625e-07,
+      "loss": 0.001,
+      "reward": 1.4484447836875916,
+      "reward_std": 0.1641346886754036,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.49531984329223633,
+      "step": 83
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 318.09375,
+      "epoch": 0.041015625,
+      "grad_norm": 2.2558835120683733,
+      "kl": 0.0225830078125,
+      "learning_rate": 9.897460937499999e-07,
+      "loss": 0.0009,
+      "reward": 1.5773499011993408,
+      "reward_std": 0.13273335248231888,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.6007874011993408,
+      "step": 84
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 401.1953125,
+      "epoch": 0.04150390625,
+      "grad_norm": 2.729303138391425,
+      "kl": 0.011932373046875,
+      "learning_rate": 9.896240234375e-07,
+      "loss": 0.0005,
+      "reward": 1.5902302265167236,
+      "reward_std": 0.20242100954055786,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.6214802265167236,
+      "step": 85
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 326.453125,
+      "epoch": 0.0419921875,
+      "grad_norm": 1.6659116590542917,
+      "kl": 0.013641357421875,
+      "learning_rate": 9.89501953125e-07,
+      "loss": 0.0005,
+      "reward": 1.5991840958595276,
+      "reward_std": 0.08300643041729927,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.5991840660572052,
+      "step": 86
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 171.265625,
+      "epoch": 0.04248046875,
+      "grad_norm": 6.5083912720618455,
+      "kl": 0.02520751953125,
+      "learning_rate": 9.893798828125e-07,
+      "loss": 0.001,
+      "reward": 1.5490674376487732,
+      "reward_std": 0.1682056337594986,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.5490674078464508,
+      "step": 87
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 306.3984375,
+      "epoch": 0.04296875,
+      "grad_norm": 1.855137877800116,
+      "kl": 0.01483154296875,
+      "learning_rate": 9.892578125e-07,
+      "loss": 0.0006,
+      "reward": 1.6930819749832153,
+      "reward_std": 0.08091134577989578,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6930819451808929,
+      "step": 88
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 268.734375,
+      "epoch": 0.04345703125,
+      "grad_norm": 3.0628004168463323,
+      "kl": 0.0181884765625,
+      "learning_rate": 9.891357421874999e-07,
+      "loss": 0.0007,
+      "reward": 1.5072910785675049,
+      "reward_std": 0.10918539017438889,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.5072910487651825,
+      "step": 89
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 318.328125,
+      "epoch": 0.0439453125,
+      "grad_norm": 2.4591507009268003,
+      "kl": 0.0205078125,
+      "learning_rate": 9.89013671875e-07,
+      "loss": 0.0008,
+      "reward": 1.730940043926239,
+      "reward_std": 0.10830854251980782,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7309400737285614,
+      "step": 90
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 289.8984375,
+      "epoch": 0.04443359375,
+      "grad_norm": 1.387374494016842,
+      "kl": 0.015838623046875,
+      "learning_rate": 9.888916015624999e-07,
+      "loss": 0.0006,
+      "reward": 1.575575053691864,
+      "reward_std": 0.13328294083476067,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.583387479186058,
+      "step": 91
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 351.703125,
+      "epoch": 0.044921875,
+      "grad_norm": 3.0271895365123136,
+      "kl": 0.0208740234375,
+      "learning_rate": 9.8876953125e-07,
+      "loss": 0.0008,
+      "reward": 1.5377304553985596,
+      "reward_std": 0.1667354628443718,
+      "rewards/format_reward": 0.9296875,
+      "rewards/ocr_reward": 0.6080429553985596,
+      "step": 92
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 266.578125,
+      "epoch": 0.04541015625,
+      "grad_norm": 2.6921828266080015,
+      "kl": 0.017822265625,
+      "learning_rate": 9.886474609375e-07,
+      "loss": 0.0007,
+      "reward": 1.6924698948860168,
+      "reward_std": 0.1142515130341053,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6924698948860168,
+      "step": 93
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 223.109375,
+      "epoch": 0.0458984375,
+      "grad_norm": 3.472336958554876,
+      "kl": 0.01885986328125,
+      "learning_rate": 9.88525390625e-07,
+      "loss": 0.0008,
+      "reward": 1.5990204811096191,
+      "reward_std": 0.10428202897310257,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6146455407142639,
+      "step": 94
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 372.703125,
+      "epoch": 0.04638671875,
+      "grad_norm": 2.6702059682407917,
+      "kl": 0.02020263671875,
+      "learning_rate": 9.884033203125e-07,
+      "loss": 0.0008,
+      "reward": 1.6923083066940308,
+      "reward_std": 0.181168332695961,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.715745747089386,
+      "step": 95
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 417.0546875,
+      "epoch": 0.046875,
+      "grad_norm": 3.236307882884475,
+      "kl": 0.01593017578125,
+      "learning_rate": 9.882812499999999e-07,
+      "loss": 0.0006,
+      "reward": 1.4725679755210876,
+      "reward_std": 0.18862508982419968,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.49600549042224884,
+      "step": 96
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 287.5078125,
+      "epoch": 0.04736328125,
+      "grad_norm": 3.1662840188332004,
+      "kl": 0.020263671875,
+      "learning_rate": 9.881591796875e-07,
+      "loss": 0.0008,
+      "reward": 1.525817096233368,
+      "reward_std": 0.11687836796045303,
+      "rewards/format_reward": 0.9453125,
+      "rewards/ocr_reward": 0.5805045962333679,
+      "step": 97
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 285.625,
+      "epoch": 0.0478515625,
+      "grad_norm": 2.623130324904824,
+      "kl": 0.01812744140625,
+      "learning_rate": 9.88037109375e-07,
+      "loss": 0.0007,
+      "reward": 1.7077008485794067,
+      "reward_std": 0.15604694932699203,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7077008485794067,
+      "step": 98
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 288.859375,
+      "epoch": 0.04833984375,
+      "grad_norm": 1.591617609181676,
+      "kl": 0.019775390625,
+      "learning_rate": 9.879150390625e-07,
+      "loss": 0.0008,
+      "reward": 1.5951241254806519,
+      "reward_std": 0.14091318100690842,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6029366254806519,
+      "step": 99
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 410.453125,
+      "epoch": 0.048828125,
+      "grad_norm": 4.771714723016947,
+      "kl": 0.01776123046875,
+      "learning_rate": 9.8779296875e-07,
+      "loss": 0.0007,
+      "reward": 1.5604987144470215,
+      "reward_std": 0.19173409044742584,
+      "rewards/format_reward": 0.9375,
+      "rewards/ocr_reward": 0.6229987442493439,
+      "step": 100
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 333.0546875,
+      "epoch": 0.04931640625,
+      "grad_norm": 9.104596570687864,
+      "kl": 0.013702392578125,
+      "learning_rate": 9.876708984375e-07,
+      "loss": 0.0005,
+      "reward": 1.6190659403800964,
+      "reward_std": 0.12071932479739189,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6190659999847412,
+      "step": 101
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 340.5390625,
+      "epoch": 0.0498046875,
+      "grad_norm": 2.1594646925560386,
+      "kl": 0.01641845703125,
+      "learning_rate": 9.87548828125e-07,
+      "loss": 0.0007,
+      "reward": 1.651434302330017,
+      "reward_std": 0.19432562589645386,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6592467725276947,
+      "step": 102
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 337.6171875,
+      "epoch": 0.05029296875,
+      "grad_norm": 3.3906829108536165,
+      "kl": 0.01910400390625,
+      "learning_rate": 9.874267578124999e-07,
+      "loss": 0.0008,
+      "reward": 1.711862325668335,
+      "reward_std": 0.17600611969828606,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.7431123554706573,
+      "step": 103
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 379.109375,
+      "epoch": 0.05078125,
+      "grad_norm": 5.335142373058523,
+      "kl": 0.012725830078125,
+      "learning_rate": 9.873046875e-07,
+      "loss": 0.0005,
+      "reward": 1.5398271083831787,
+      "reward_std": 0.13578901067376137,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.5867020785808563,
+      "step": 104
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 345.7421875,
+      "epoch": 0.05126953125,
+      "grad_norm": 2.246739195857841,
+      "kl": 0.016357421875,
+      "learning_rate": 9.871826171875e-07,
+      "loss": 0.0007,
+      "reward": 1.7209094762802124,
+      "reward_std": 0.09800073876976967,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7287219762802124,
+      "step": 105
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 214.34375,
+      "epoch": 0.0517578125,
+      "grad_norm": 3.430606877922797,
+      "kl": 0.02001953125,
+      "learning_rate": 9.87060546875e-07,
+      "loss": 0.0008,
+      "reward": 1.63734370470047,
+      "reward_std": 0.12101611867547035,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6373437345027924,
+      "step": 106
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 357.1171875,
+      "epoch": 0.05224609375,
+      "grad_norm": 6.621962333726358,
+      "kl": 0.01654052734375,
+      "learning_rate": 9.869384765625e-07,
+      "loss": 0.0007,
+      "reward": 1.5627512335777283,
+      "reward_std": 0.20160631090402603,
+      "rewards/format_reward": 0.921875,
+      "rewards/ocr_reward": 0.6408762633800507,
+      "step": 107
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 439.3046875,
+      "epoch": 0.052734375,
+      "grad_norm": 3.714058389222369,
+      "kl": 0.01226806640625,
+      "learning_rate": 9.8681640625e-07,
+      "loss": 0.0005,
+      "reward": 1.6258893013000488,
+      "reward_std": 0.2035977840423584,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.664951741695404,
+      "step": 108
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 387.0546875,
+      "epoch": 0.05322265625,
+      "grad_norm": 2.225619976721532,
+      "kl": 0.01641845703125,
+      "learning_rate": 9.866943359375e-07,
+      "loss": 0.0007,
+      "reward": 1.5322623252868652,
+      "reward_std": 0.12227768450975418,
+      "rewards/format_reward": 0.9140625,
+      "rewards/ocr_reward": 0.61819988489151,
+      "step": 109
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 279.03125,
+      "epoch": 0.0537109375,
+      "grad_norm": 3.398354345358393,
+      "kl": 0.01690673828125,
+      "learning_rate": 9.865722656249999e-07,
+      "loss": 0.0007,
+      "reward": 1.6276288628578186,
+      "reward_std": 0.07827305793762207,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.6745038628578186,
+      "step": 110
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 268.5625,
+      "epoch": 0.05419921875,
+      "grad_norm": 5.939409220904329,
+      "kl": 0.021087646484375,
+      "learning_rate": 9.864501953125e-07,
+      "loss": 0.0008,
+      "reward": 1.574878215789795,
+      "reward_std": 0.08811075612902641,
+      "rewards/format_reward": 0.9375,
+      "rewards/ocr_reward": 0.6373782455921173,
+      "step": 111
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 331.9765625,
+      "epoch": 0.0546875,
+      "grad_norm": 2.2502789319358554,
+      "kl": 0.01654052734375,
+      "learning_rate": 9.86328125e-07,
+      "loss": 0.0007,
+      "reward": 1.6835005283355713,
+      "reward_std": 0.14054467901587486,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6913129687309265,
+      "step": 112
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 319.515625,
+      "epoch": 0.05517578125,
+      "grad_norm": 1.0034153882792571,
+      "kl": 0.0185546875,
+      "learning_rate": 9.862060546875e-07,
+      "loss": 0.0007,
+      "reward": 1.8294273614883423,
+      "reward_std": 0.11719358898699284,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.8528648614883423,
+      "step": 113
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 317.7890625,
+      "epoch": 0.0556640625,
+      "grad_norm": 16.17730319934069,
+      "kl": 0.01983642578125,
+      "learning_rate": 9.86083984375e-07,
+      "loss": 0.0008,
+      "reward": 1.5960276126861572,
+      "reward_std": 0.14195309579372406,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.6272775828838348,
+      "step": 114
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 341.2578125,
+      "epoch": 0.05615234375,
+      "grad_norm": 2.541506995594959,
+      "kl": 0.024169921875,
+      "learning_rate": 9.859619140624999e-07,
+      "loss": 0.001,
+      "reward": 1.544093132019043,
+      "reward_std": 0.206620991230011,
+      "rewards/format_reward": 0.9375,
+      "rewards/ocr_reward": 0.6065930724143982,
+      "step": 115
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 300.28125,
+      "epoch": 0.056640625,
+      "grad_norm": 2.7963737233551176,
+      "kl": 0.019287109375,
+      "learning_rate": 9.8583984375e-07,
+      "loss": 0.0008,
+      "reward": 1.6467041969299316,
+      "reward_std": 0.07854663208127022,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6545166969299316,
+      "step": 116
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 301.8671875,
+      "epoch": 0.05712890625,
+      "grad_norm": 1.692239110975536,
+      "kl": 0.02508544921875,
+      "learning_rate": 9.857177734374999e-07,
+      "loss": 0.001,
+      "reward": 1.7825125455856323,
+      "reward_std": 0.08674684725701809,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7825126051902771,
+      "step": 117
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 262.9609375,
+      "epoch": 0.0576171875,
+      "grad_norm": 2.115673596589236,
+      "kl": 0.03924560546875,
+      "learning_rate": 9.85595703125e-07,
+      "loss": 0.0016,
+      "reward": 1.5380715131759644,
+      "reward_std": 0.13539821282029152,
+      "rewards/format_reward": 0.9140625,
+      "rewards/ocr_reward": 0.6240090429782867,
+      "step": 118
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 311.109375,
+      "epoch": 0.05810546875,
+      "grad_norm": 15.946926979376824,
+      "kl": 0.0296630859375,
+      "learning_rate": 9.854736328125e-07,
+      "loss": 0.0012,
+      "reward": 1.5573410987854004,
+      "reward_std": 0.11809306219220161,
+      "rewards/format_reward": 0.9375,
+      "rewards/ocr_reward": 0.6198410987854004,
+      "step": 119
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 247.3203125,
+      "epoch": 0.05859375,
+      "grad_norm": 4.256018644115217,
+      "kl": 0.0277099609375,
+      "learning_rate": 9.853515625e-07,
+      "loss": 0.0011,
+      "reward": 1.7416256666183472,
+      "reward_std": 0.11583732068538666,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7494381666183472,
+      "step": 120
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 399.0703125,
+      "epoch": 0.05908203125,
+      "grad_norm": 2.603585855956455,
+      "kl": 0.020050048828125,
+      "learning_rate": 9.852294921875e-07,
+      "loss": 0.0008,
+      "reward": 1.4661349058151245,
+      "reward_std": 0.1207830049097538,
+      "rewards/format_reward": 0.859375,
+      "rewards/ocr_reward": 0.6067598760128021,
+      "step": 121
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 284.03125,
+      "epoch": 0.0595703125,
+      "grad_norm": 4.267397613222153,
+      "kl": 0.0263671875,
+      "learning_rate": 9.851074218749999e-07,
+      "loss": 0.0011,
+      "reward": 1.7082802057266235,
+      "reward_std": 0.1457432433962822,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.7395302057266235,
+      "step": 122
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 290.5390625,
+      "epoch": 0.06005859375,
+      "grad_norm": 5.592358687960914,
+      "kl": 0.02459716796875,
+      "learning_rate": 9.849853515625e-07,
+      "loss": 0.001,
+      "reward": 1.653491497039795,
+      "reward_std": 0.1756032481789589,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6613039970397949,
+      "step": 123
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 311.34375,
+      "epoch": 0.060546875,
+      "grad_norm": 1.9342219325316152,
+      "kl": 0.0211181640625,
+      "learning_rate": 9.848632812499999e-07,
+      "loss": 0.0008,
+      "reward": 1.6969304084777832,
+      "reward_std": 0.09714720770716667,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.704742968082428,
+      "step": 124
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 342.8671875,
+      "epoch": 0.06103515625,
+      "grad_norm": 3.5352626846601334,
+      "kl": 0.0206298828125,
+      "learning_rate": 9.847412109375e-07,
+      "loss": 0.0008,
+      "reward": 1.5322385430335999,
+      "reward_std": 0.17621152848005295,
+      "rewards/format_reward": 0.921875,
+      "rewards/ocr_reward": 0.6103635132312775,
+      "step": 125
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 475.5859375,
+      "epoch": 0.0615234375,
+      "grad_norm": 1.1126647607262938,
+      "kl": 0.01446533203125,
+      "learning_rate": 9.84619140625e-07,
+      "loss": 0.0006,
+      "reward": 1.5217909812927246,
+      "reward_std": 0.14773621410131454,
+      "rewards/format_reward": 0.859375,
+      "rewards/ocr_reward": 0.6624160408973694,
+      "step": 126
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 390.2265625,
+      "epoch": 0.06201171875,
+      "grad_norm": 16.170587561342735,
+      "kl": 0.0191650390625,
+      "learning_rate": 9.844970703125e-07,
+      "loss": 0.0008,
+      "reward": 1.5967344641685486,
+      "reward_std": 0.14839724078774452,
+      "rewards/format_reward": 0.90625,
+      "rewards/ocr_reward": 0.690484493970871,
+      "step": 127
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 301.7265625,
+      "epoch": 0.0625,
+      "grad_norm": 1.7043882185778825,
+      "kl": 0.01751708984375,
+      "learning_rate": 9.84375e-07,
+      "loss": 0.0007,
+      "reward": 1.5539951920509338,
+      "reward_std": 0.12984895333647728,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.5696201622486115,
+      "step": 128
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 306.984375,
+      "epoch": 0.06298828125,
+      "grad_norm": 1.3531844603958978,
+      "kl": 0.02239990234375,
+      "learning_rate": 9.842529296874999e-07,
+      "loss": 0.0009,
+      "reward": 1.5346065759658813,
+      "reward_std": 0.08880486711859703,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.5736691057682037,
+      "step": 129
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 248.2890625,
+      "epoch": 0.0634765625,
+      "grad_norm": 4.715371554402326,
+      "kl": 0.022705078125,
+      "learning_rate": 9.84130859375e-07,
+      "loss": 0.0009,
+      "reward": 1.62563157081604,
+      "reward_std": 0.12431228160858154,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6412566304206848,
+      "step": 130
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 295.578125,
+      "epoch": 0.06396484375,
+      "grad_norm": 3.5849539827861907,
+      "kl": 0.02325439453125,
+      "learning_rate": 9.840087890625e-07,
+      "loss": 0.0009,
+      "reward": 1.7144591212272644,
+      "reward_std": 0.13489311560988426,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.730084091424942,
+      "step": 131
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 375.484375,
+      "epoch": 0.064453125,
+      "grad_norm": 1.4393273984880173,
+      "kl": 0.0228271484375,
+      "learning_rate": 9.8388671875e-07,
+      "loss": 0.0009,
+      "reward": 1.6248722076416016,
+      "reward_std": 0.13557805679738522,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.6561221778392792,
+      "step": 132
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 362.5390625,
+      "epoch": 0.06494140625,
+      "grad_norm": 8.4663670507505,
+      "kl": 0.01715087890625,
+      "learning_rate": 9.837646484375e-07,
+      "loss": 0.0007,
+      "reward": 1.613499641418457,
+      "reward_std": 0.18968282639980316,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6213121712207794,
+      "step": 133
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 242.625,
+      "epoch": 0.0654296875,
+      "grad_norm": 5.360156728372636,
+      "kl": 0.02471923828125,
+      "learning_rate": 9.83642578125e-07,
+      "loss": 0.001,
+      "reward": 1.6982364058494568,
+      "reward_std": 0.21003302931785583,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7216738760471344,
+      "step": 134
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 255.7890625,
+      "epoch": 0.06591796875,
+      "grad_norm": 2.4693839555178103,
+      "kl": 0.02178955078125,
+      "learning_rate": 9.835205078125e-07,
+      "loss": 0.0009,
+      "reward": 1.6611779928207397,
+      "reward_std": 0.15551955252885818,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6768029928207397,
+      "step": 135
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 289.125,
+      "epoch": 0.06640625,
+      "grad_norm": 2.8329079084560735,
+      "kl": 0.02130126953125,
+      "learning_rate": 9.833984374999999e-07,
+      "loss": 0.0009,
+      "reward": 1.5032538771629333,
+      "reward_std": 0.1515774130821228,
+      "rewards/format_reward": 0.9453125,
+      "rewards/ocr_reward": 0.5579414367675781,
+      "step": 136
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 355.4140625,
+      "epoch": 0.06689453125,
+      "grad_norm": 1.882217780602691,
+      "kl": 0.019775390625,
+      "learning_rate": 9.832763671875e-07,
+      "loss": 0.0008,
+      "reward": 1.484582245349884,
+      "reward_std": 0.11968936026096344,
+      "rewards/format_reward": 0.8828125,
+      "rewards/ocr_reward": 0.6017696857452393,
+      "step": 137
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 347.3046875,
+      "epoch": 0.0673828125,
+      "grad_norm": 3.046463172685156,
+      "kl": 0.0228271484375,
+      "learning_rate": 9.83154296875e-07,
+      "loss": 0.0009,
+      "reward": 1.5993627905845642,
+      "reward_std": 0.20090486854314804,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.6462377905845642,
+      "step": 138
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 282.8984375,
+      "epoch": 0.06787109375,
+      "grad_norm": 3.0503455953592784,
+      "kl": 0.02288818359375,
+      "learning_rate": 9.830322265625e-07,
+      "loss": 0.0009,
+      "reward": 1.5906482934951782,
+      "reward_std": 0.15873637050390244,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.6140858232975006,
+      "step": 139
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 286.5625,
+      "epoch": 0.068359375,
+      "grad_norm": 2.120223798059756,
+      "kl": 0.02313232421875,
+      "learning_rate": 9.8291015625e-07,
+      "loss": 0.0009,
+      "reward": 1.6196279525756836,
+      "reward_std": 0.11341691762208939,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.619627982378006,
+      "step": 140
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 268.2578125,
+      "epoch": 0.06884765625,
+      "grad_norm": 7.285340344072795,
+      "kl": 0.022216796875,
+      "learning_rate": 9.827880859374999e-07,
+      "loss": 0.0009,
+      "reward": 1.6983768343925476,
+      "reward_std": 0.12035223841667175,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6983768343925476,
+      "step": 141
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 398.0703125,
+      "epoch": 0.0693359375,
+      "grad_norm": 5.9889935265796685,
+      "kl": 0.01953125,
+      "learning_rate": 9.82666015625e-07,
+      "loss": 0.0008,
+      "reward": 1.4262371063232422,
+      "reward_std": 0.17644815146923065,
+      "rewards/format_reward": 0.890625,
+      "rewards/ocr_reward": 0.5356121361255646,
+      "step": 142
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 269.7890625,
+      "epoch": 0.06982421875,
+      "grad_norm": 3.990164163837389,
+      "kl": 0.0240478515625,
+      "learning_rate": 9.825439453124999e-07,
+      "loss": 0.001,
+      "reward": 1.5707527995109558,
+      "reward_std": 0.11035867407917976,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.5707527995109558,
+      "step": 143
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 335.375,
+      "epoch": 0.0703125,
+      "grad_norm": 0.8573518157012104,
+      "kl": 0.017333984375,
+      "learning_rate": 9.82421875e-07,
+      "loss": 0.0007,
+      "reward": 1.71940678358078,
+      "reward_std": 0.14653569110669196,
+      "rewards/format_reward": 0.9375,
+      "rewards/ocr_reward": 0.7819067537784576,
+      "step": 144
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 238.625,
+      "epoch": 0.07080078125,
+      "grad_norm": 3.6713857102420615,
+      "kl": 0.02471923828125,
+      "learning_rate": 9.822998046875e-07,
+      "loss": 0.001,
+      "reward": 1.5883715152740479,
+      "reward_std": 0.04609652329236269,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.5883715152740479,
+      "step": 145
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 316.859375,
+      "epoch": 0.0712890625,
+      "grad_norm": 2.2594904451340994,
+      "kl": 0.02471923828125,
+      "learning_rate": 9.82177734375e-07,
+      "loss": 0.001,
+      "reward": 1.5935519933700562,
+      "reward_std": 0.12184244394302368,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6013644337654114,
+      "step": 146
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 317.078125,
+      "epoch": 0.07177734375,
+      "grad_norm": 2.5367376087547227,
+      "kl": 0.020416259765625,
+      "learning_rate": 9.820556640625e-07,
+      "loss": 0.0008,
+      "reward": 1.6828487515449524,
+      "reward_std": 0.09689129143953323,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.68284872174263,
+      "step": 147
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 336.0078125,
+      "epoch": 0.072265625,
+      "grad_norm": 24.91393756517066,
+      "kl": 0.029541015625,
+      "learning_rate": 9.819335937499999e-07,
+      "loss": 0.0012,
+      "reward": 1.576207160949707,
+      "reward_std": 0.1735726036131382,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.623082160949707,
+      "step": 148
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 330.96875,
+      "epoch": 0.07275390625,
+      "grad_norm": 1.7405264781938403,
+      "kl": 0.0450439453125,
+      "learning_rate": 9.818115234375e-07,
+      "loss": 0.0018,
+      "reward": 1.6206218600273132,
+      "reward_std": 0.19472770392894745,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.6674968600273132,
+      "step": 149
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 221.7578125,
+      "epoch": 0.0732421875,
+      "grad_norm": 2.391591985194695,
+      "kl": 0.036865234375,
+      "learning_rate": 9.816894531249999e-07,
+      "loss": 0.0015,
+      "reward": 1.6796503067016602,
+      "reward_std": 0.05935625545680523,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6796503067016602,
+      "step": 150
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 289.5859375,
+      "epoch": 0.07373046875,
+      "grad_norm": 2.9623351499295425,
+      "kl": 0.0338134765625,
+      "learning_rate": 9.815673828125e-07,
+      "loss": 0.0014,
+      "reward": 1.6772570610046387,
+      "reward_std": 0.14248831570148468,
+      "rewards/format_reward": 0.9453125,
+      "rewards/ocr_reward": 0.7319445908069611,
+      "step": 151
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 325.3125,
+      "epoch": 0.07421875,
+      "grad_norm": 3.546506424634404,
+      "kl": 0.030517578125,
+      "learning_rate": 9.814453125e-07,
+      "loss": 0.0012,
+      "reward": 1.5874695181846619,
+      "reward_std": 0.13588757812976837,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.5874694883823395,
+      "step": 152
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 211.953125,
+      "epoch": 0.07470703125,
+      "grad_norm": 6.170642074931075,
+      "kl": 0.0421142578125,
+      "learning_rate": 9.813232421875e-07,
+      "loss": 0.0017,
+      "reward": 1.6709791421890259,
+      "reward_std": 0.08850692212581635,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6709791421890259,
+      "step": 153
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 366.4296875,
+      "epoch": 0.0751953125,
+      "grad_norm": 2.4910705552225747,
+      "kl": 0.03271484375,
+      "learning_rate": 9.81201171875e-07,
+      "loss": 0.0013,
+      "reward": 1.6164610385894775,
+      "reward_std": 0.1261097490787506,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.6633360981941223,
+      "step": 154
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 373.140625,
+      "epoch": 0.07568359375,
+      "grad_norm": 1.337539431613464,
+      "kl": 0.0283203125,
+      "learning_rate": 9.810791015624999e-07,
+      "loss": 0.0011,
+      "reward": 1.5733261704444885,
+      "reward_std": 0.23978520929813385,
+      "rewards/format_reward": 0.875,
+      "rewards/ocr_reward": 0.6983261406421661,
+      "step": 155
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 349.8671875,
+      "epoch": 0.076171875,
+      "grad_norm": 3.2537345038786407,
+      "kl": 0.0272216796875,
+      "learning_rate": 9.8095703125e-07,
+      "loss": 0.0011,
+      "reward": 1.5053273439407349,
+      "reward_std": 0.13704759627580643,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.5365773737430573,
+      "step": 156
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 391.21875,
+      "epoch": 0.07666015625,
+      "grad_norm": 14.554632484007437,
+      "kl": 0.0223388671875,
+      "learning_rate": 9.808349609375e-07,
+      "loss": 0.0009,
+      "reward": 1.6272760033607483,
+      "reward_std": 0.14983859658241272,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.6741509735584259,
+      "step": 157
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 306.359375,
+      "epoch": 0.0771484375,
+      "grad_norm": 2.334403175128852,
+      "kl": 0.0277099609375,
+      "learning_rate": 9.80712890625e-07,
+      "loss": 0.0011,
+      "reward": 1.5797749757766724,
+      "reward_std": 0.08415070176124573,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.5797749757766724,
+      "step": 158
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 279.1953125,
+      "epoch": 0.07763671875,
+      "grad_norm": 3.0249691058933306,
+      "kl": 0.03240966796875,
+      "learning_rate": 9.805908203125e-07,
+      "loss": 0.0013,
+      "reward": 1.5711604952812195,
+      "reward_std": 0.08924713358283043,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.5867854952812195,
+      "step": 159
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 420.1328125,
+      "epoch": 0.078125,
+      "grad_norm": 6.8155628419050185,
+      "kl": 0.02862548828125,
+      "learning_rate": 9.8046875e-07,
+      "loss": 0.0011,
+      "reward": 1.635881781578064,
+      "reward_std": 0.17367641627788544,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.6827567219734192,
+      "step": 160
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 335.8359375,
+      "epoch": 0.07861328125,
+      "grad_norm": 3.0299661554177377,
+      "kl": 0.0274658203125,
+      "learning_rate": 9.803466796875e-07,
+      "loss": 0.0011,
+      "reward": 1.6225927472114563,
+      "reward_std": 0.15056072175502777,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6382177472114563,
+      "step": 161
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 319.4296875,
+      "epoch": 0.0791015625,
+      "grad_norm": 1.7406985012161398,
+      "kl": 0.03253173828125,
+      "learning_rate": 9.802246093749999e-07,
+      "loss": 0.0013,
+      "reward": 1.6942219734191895,
+      "reward_std": 0.0540752187371254,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6942219436168671,
+      "step": 162
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 311.96875,
+      "epoch": 0.07958984375,
+      "grad_norm": 4.477055997348827,
+      "kl": 0.031494140625,
+      "learning_rate": 9.801025390625e-07,
+      "loss": 0.0013,
+      "reward": 1.5531994700431824,
+      "reward_std": 0.16673196852207184,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.5844494700431824,
+      "step": 163
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 408.96875,
+      "epoch": 0.080078125,
+      "grad_norm": 1.86554014043665,
+      "kl": 0.0247802734375,
+      "learning_rate": 9.7998046875e-07,
+      "loss": 0.001,
+      "reward": 1.5419456362724304,
+      "reward_std": 0.16365046054124832,
+      "rewards/format_reward": 0.8984375,
+      "rewards/ocr_reward": 0.643508106470108,
+      "step": 164
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 349.3125,
+      "epoch": 0.08056640625,
+      "grad_norm": 6.446669102096267,
+      "kl": 0.03466796875,
+      "learning_rate": 9.798583984375e-07,
+      "loss": 0.0014,
+      "reward": 1.6253865957260132,
+      "reward_std": 0.13813912868499756,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.6722615659236908,
+      "step": 165
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 293.359375,
+      "epoch": 0.0810546875,
+      "grad_norm": 2.3945943551584623,
+      "kl": 0.0513916015625,
+      "learning_rate": 9.79736328125e-07,
+      "loss": 0.0021,
+      "reward": 1.5900596380233765,
+      "reward_std": 0.17274170368909836,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.6213095486164093,
+      "step": 166
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 324.1640625,
+      "epoch": 0.08154296875,
+      "grad_norm": 4.935892148171108,
+      "kl": 0.0283203125,
+      "learning_rate": 9.796142578125e-07,
+      "loss": 0.0011,
+      "reward": 1.5856729745864868,
+      "reward_std": 0.19583696871995926,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.609110414981842,
+      "step": 167
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 344.7109375,
+      "epoch": 0.08203125,
+      "grad_norm": 2.759482806908666,
+      "kl": 0.0263671875,
+      "learning_rate": 9.794921875e-07,
+      "loss": 0.0011,
+      "reward": 1.6779165267944336,
+      "reward_std": 0.1504085585474968,
+      "rewards/format_reward": 0.9453125,
+      "rewards/ocr_reward": 0.7326040267944336,
+      "step": 168
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 296.921875,
+      "epoch": 0.08251953125,
+      "grad_norm": 2.0205610250383703,
+      "kl": 0.03204345703125,
+      "learning_rate": 9.793701171874999e-07,
+      "loss": 0.0013,
+      "reward": 1.6056262850761414,
+      "reward_std": 0.12054416164755821,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.6446887850761414,
+      "step": 169
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 314.140625,
+      "epoch": 0.0830078125,
+      "grad_norm": 2.9051619908357025,
+      "kl": 0.029052734375,
+      "learning_rate": 9.79248046875e-07,
+      "loss": 0.0012,
+      "reward": 1.693081021308899,
+      "reward_std": 0.17445684224367142,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7165184915065765,
+      "step": 170
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 334.359375,
+      "epoch": 0.08349609375,
+      "grad_norm": 1.815375912478969,
+      "kl": 0.02777099609375,
+      "learning_rate": 9.791259765625e-07,
+      "loss": 0.0011,
+      "reward": 1.6882360577583313,
+      "reward_std": 0.13848505914211273,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.7351110577583313,
+      "step": 171
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 241.953125,
+      "epoch": 0.083984375,
+      "grad_norm": 2.2996318418317734,
+      "kl": 0.029541015625,
+      "learning_rate": 9.7900390625e-07,
+      "loss": 0.0012,
+      "reward": 1.4833272099494934,
+      "reward_std": 0.10671622306108475,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.483327180147171,
+      "step": 172
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 329.0,
+      "epoch": 0.08447265625,
+      "grad_norm": 1.398704102180127,
+      "kl": 0.0325927734375,
+      "learning_rate": 9.788818359375e-07,
+      "loss": 0.0013,
+      "reward": 1.6148168444633484,
+      "reward_std": 0.07767279259860516,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6148169040679932,
+      "step": 173
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 298.6484375,
+      "epoch": 0.0849609375,
+      "grad_norm": 3.4750762750830453,
+      "kl": 0.0400390625,
+      "learning_rate": 9.787597656249999e-07,
+      "loss": 0.0016,
+      "reward": 1.6466941833496094,
+      "reward_std": 0.18221855908632278,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.6779442429542542,
+      "step": 174
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 278.7265625,
+      "epoch": 0.08544921875,
+      "grad_norm": 2.3793365576087435,
+      "kl": 0.034912109375,
+      "learning_rate": 9.786376953125e-07,
+      "loss": 0.0014,
+      "reward": 1.702051043510437,
+      "reward_std": 0.17722390592098236,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7098636031150818,
+      "step": 175
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 264.421875,
+      "epoch": 0.0859375,
+      "grad_norm": 5.929036755770266,
+      "kl": 0.0335693359375,
+      "learning_rate": 9.785156249999999e-07,
+      "loss": 0.0013,
+      "reward": 1.702830970287323,
+      "reward_std": 0.10274038091301918,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.702830970287323,
+      "step": 176
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 440.71875,
+      "epoch": 0.08642578125,
+      "grad_norm": 7.4527179001348856,
+      "kl": 0.02398681640625,
+      "learning_rate": 9.783935546875e-07,
+      "loss": 0.001,
+      "reward": 1.5519742965698242,
+      "reward_std": 0.1975010707974434,
+      "rewards/format_reward": 0.9375,
+      "rewards/ocr_reward": 0.6144742965698242,
+      "step": 177
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 248.8515625,
+      "epoch": 0.0869140625,
+      "grad_norm": 4.553092566985503,
+      "kl": 0.03271484375,
+      "learning_rate": 9.78271484375e-07,
+      "loss": 0.0013,
+      "reward": 1.7317935228347778,
+      "reward_std": 0.1101585403084755,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7396060526371002,
+      "step": 178
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 370.828125,
+      "epoch": 0.08740234375,
+      "grad_norm": 1.9568946330604422,
+      "kl": 0.0372314453125,
+      "learning_rate": 9.781494140625e-07,
+      "loss": 0.0015,
+      "reward": 1.4185363054275513,
+      "reward_std": 0.2236497402191162,
+      "rewards/format_reward": 0.796875,
+      "rewards/ocr_reward": 0.6216612756252289,
+      "step": 179
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 304.2421875,
+      "epoch": 0.087890625,
+      "grad_norm": 5.658211765236265,
+      "kl": 0.0313720703125,
+      "learning_rate": 9.7802734375e-07,
+      "loss": 0.0013,
+      "reward": 1.7431809902191162,
+      "reward_std": 0.04815910384058952,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7431809306144714,
+      "step": 180
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 373.2890625,
+      "epoch": 0.08837890625,
+      "grad_norm": 1.3083032198586613,
+      "kl": 0.0234375,
+      "learning_rate": 9.779052734374999e-07,
+      "loss": 0.0009,
+      "reward": 1.8097354173660278,
+      "reward_std": 0.0659454632550478,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8097354471683502,
+      "step": 181
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 322.796875,
+      "epoch": 0.0888671875,
+      "grad_norm": 4.109670831162618,
+      "kl": 0.02972412109375,
+      "learning_rate": 9.77783203125e-07,
+      "loss": 0.0012,
+      "reward": 1.6616966128349304,
+      "reward_std": 0.11840381100773811,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6773216724395752,
+      "step": 182
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 314.4140625,
+      "epoch": 0.08935546875,
+      "grad_norm": 3.291287735681801,
+      "kl": 0.0384521484375,
+      "learning_rate": 9.776611328125e-07,
+      "loss": 0.0015,
+      "reward": 1.6017380952835083,
+      "reward_std": 0.18959469348192215,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.6251756846904755,
+      "step": 183
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 309.703125,
+      "epoch": 0.08984375,
+      "grad_norm": 1.3054821132450145,
+      "kl": 0.02685546875,
+      "learning_rate": 9.775390625e-07,
+      "loss": 0.0011,
+      "reward": 1.7018551230430603,
+      "reward_std": 0.06901280581951141,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7018550932407379,
+      "step": 184
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 286.2421875,
+      "epoch": 0.09033203125,
+      "grad_norm": 3.269405991674511,
+      "kl": 0.0325927734375,
+      "learning_rate": 9.774169921875e-07,
+      "loss": 0.0013,
+      "reward": 1.5782784819602966,
+      "reward_std": 0.18268048018217087,
+      "rewards/format_reward": 0.9453125,
+      "rewards/ocr_reward": 0.6329659819602966,
+      "step": 185
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 242.5546875,
+      "epoch": 0.0908203125,
+      "grad_norm": 3.8655457222519,
+      "kl": 0.0316162109375,
+      "learning_rate": 9.77294921875e-07,
+      "loss": 0.0013,
+      "reward": 1.626326560974121,
+      "reward_std": 0.10836686193943024,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6263265609741211,
+      "step": 186
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 325.9921875,
+      "epoch": 0.09130859375,
+      "grad_norm": 1.5866438731376145,
+      "kl": 0.032958984375,
+      "learning_rate": 9.771728515625e-07,
+      "loss": 0.0013,
+      "reward": 1.719668209552765,
+      "reward_std": 0.08064623922109604,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7274806201457977,
+      "step": 187
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 323.21875,
+      "epoch": 0.091796875,
+      "grad_norm": 5.9177668434469775,
+      "kl": 0.03240966796875,
+      "learning_rate": 9.770507812499999e-07,
+      "loss": 0.0013,
+      "reward": 1.6977457404136658,
+      "reward_std": 0.15341190993785858,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7211832702159882,
+      "step": 188
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 299.1953125,
+      "epoch": 0.09228515625,
+      "grad_norm": 2.0723613037564426,
+      "kl": 0.0316162109375,
+      "learning_rate": 9.769287109375e-07,
+      "loss": 0.0013,
+      "reward": 1.6144706010818481,
+      "reward_std": 0.15216557681560516,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6144706010818481,
+      "step": 189
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 320.046875,
+      "epoch": 0.0927734375,
+      "grad_norm": 8.245892693245946,
+      "kl": 0.02520751953125,
+      "learning_rate": 9.76806640625e-07,
+      "loss": 0.001,
+      "reward": 1.5022258758544922,
+      "reward_std": 0.1600368544459343,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.5491008907556534,
+      "step": 190
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 269.828125,
+      "epoch": 0.09326171875,
+      "grad_norm": 3.030844823693362,
+      "kl": 0.02996826171875,
+      "learning_rate": 9.766845703125e-07,
+      "loss": 0.0012,
+      "reward": 1.6883333325386047,
+      "reward_std": 0.22212432324886322,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.7195833027362823,
+      "step": 191
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 350.0625,
+      "epoch": 0.09375,
+      "grad_norm": 1.8859191428821602,
+      "kl": 0.0260009765625,
+      "learning_rate": 9.765625e-07,
+      "loss": 0.001,
+      "reward": 1.5929180979728699,
+      "reward_std": 0.1562328040599823,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.6319805383682251,
+      "step": 192
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 306.875,
+      "epoch": 0.09423828125,
+      "grad_norm": 1.8480988076195144,
+      "kl": 0.02642822265625,
+      "learning_rate": 9.764404296875e-07,
+      "loss": 0.0011,
+      "reward": 1.6515385508537292,
+      "reward_std": 0.13265355303883553,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.6827885508537292,
+      "step": 193
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 214.6015625,
+      "epoch": 0.0947265625,
+      "grad_norm": 1.9325979913798101,
+      "kl": 0.03607177734375,
+      "learning_rate": 9.76318359375e-07,
+      "loss": 0.0014,
+      "reward": 1.761966586112976,
+      "reward_std": 0.06584762595593929,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7619665265083313,
+      "step": 194
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 372.2109375,
+      "epoch": 0.09521484375,
+      "grad_norm": 1.9358707417121381,
+      "kl": 0.03466796875,
+      "learning_rate": 9.761962890624999e-07,
+      "loss": 0.0014,
+      "reward": 1.7281653881072998,
+      "reward_std": 0.16422076523303986,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.7672278881072998,
+      "step": 195
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 301.328125,
+      "epoch": 0.095703125,
+      "grad_norm": 3.023440850843629,
+      "kl": 0.024658203125,
+      "learning_rate": 9.7607421875e-07,
+      "loss": 0.001,
+      "reward": 1.7193759679794312,
+      "reward_std": 0.17258312553167343,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7428134679794312,
+      "step": 196
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 301.890625,
+      "epoch": 0.09619140625,
+      "grad_norm": 2.595712818329617,
+      "kl": 0.038818359375,
+      "learning_rate": 9.759521484375e-07,
+      "loss": 0.0016,
+      "reward": 1.7148744463920593,
+      "reward_std": 0.1324017532169819,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7226869761943817,
+      "step": 197
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 349.1640625,
+      "epoch": 0.0966796875,
+      "grad_norm": 1.3533967735031216,
+      "kl": 0.02520751953125,
+      "learning_rate": 9.75830078125e-07,
+      "loss": 0.001,
+      "reward": 1.6926743984222412,
+      "reward_std": 0.16136356070637703,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.716111958026886,
+      "step": 198
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 320.78125,
+      "epoch": 0.09716796875,
+      "grad_norm": 1.7402462326884431,
+      "kl": 0.02752685546875,
+      "learning_rate": 9.757080078125e-07,
+      "loss": 0.0011,
+      "reward": 1.608244240283966,
+      "reward_std": 0.1039048321545124,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6082442104816437,
+      "step": 199
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 370.0859375,
+      "epoch": 0.09765625,
+      "grad_norm": 2.518073418544392,
+      "kl": 0.034423828125,
+      "learning_rate": 9.755859374999999e-07,
+      "loss": 0.0014,
+      "reward": 1.5175416469573975,
+      "reward_std": 0.24317501485347748,
+      "rewards/format_reward": 0.8984375,
+      "rewards/ocr_reward": 0.6191041469573975,
+      "step": 200
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 258.9453125,
+      "epoch": 0.09814453125,
+      "grad_norm": 6.096098416889449,
+      "kl": 0.0357666015625,
+      "learning_rate": 9.754638671875e-07,
+      "loss": 0.0014,
+      "reward": 1.6129422783851624,
+      "reward_std": 0.11736492812633514,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6129422634840012,
+      "step": 201
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 333.2734375,
+      "epoch": 0.0986328125,
+      "grad_norm": 3.5514643689891483,
+      "kl": 0.038330078125,
+      "learning_rate": 9.753417968749999e-07,
+      "loss": 0.0015,
+      "reward": 1.7121334075927734,
+      "reward_std": 0.15303652733564377,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.7590084075927734,
+      "step": 202
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 360.0,
+      "epoch": 0.09912109375,
+      "grad_norm": 2.7929295597358172,
+      "kl": 0.03955078125,
+      "learning_rate": 9.752197265625e-07,
+      "loss": 0.0016,
+      "reward": 1.5464635491371155,
+      "reward_std": 0.12700794637203217,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.5542759895324707,
+      "step": 203
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 338.234375,
+      "epoch": 0.099609375,
+      "grad_norm": 2.0494012473671406,
+      "kl": 0.02825927734375,
+      "learning_rate": 9.7509765625e-07,
+      "loss": 0.0011,
+      "reward": 1.6630714535713196,
+      "reward_std": 0.10232871398329735,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6630714535713196,
+      "step": 204
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 281.4140625,
+      "epoch": 0.10009765625,
+      "grad_norm": 7.6058284423417115,
+      "kl": 0.03277587890625,
+      "learning_rate": 9.749755859375e-07,
+      "loss": 0.0013,
+      "reward": 1.718002438545227,
+      "reward_std": 0.10656377673149109,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.718002438545227,
+      "step": 205
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 328.984375,
+      "epoch": 0.1005859375,
+      "grad_norm": 4.022969206760325,
+      "kl": 0.0401611328125,
+      "learning_rate": 9.74853515625e-07,
+      "loss": 0.0016,
+      "reward": 1.7202000617980957,
+      "reward_std": 0.15844309329986572,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7358251512050629,
+      "step": 206
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 357.8125,
+      "epoch": 0.10107421875,
+      "grad_norm": 1.9668753587480723,
+      "kl": 0.040283203125,
+      "learning_rate": 9.747314453124999e-07,
+      "loss": 0.0016,
+      "reward": 1.4545677304267883,
+      "reward_std": 0.25500622391700745,
+      "rewards/format_reward": 0.90625,
+      "rewards/ocr_reward": 0.5483177602291107,
+      "step": 207
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 274.6796875,
+      "epoch": 0.1015625,
+      "grad_norm": 4.526438674345018,
+      "kl": 0.0428466796875,
+      "learning_rate": 9.74609375e-07,
+      "loss": 0.0017,
+      "reward": 1.6247982382774353,
+      "reward_std": 0.07701070234179497,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6247982978820801,
+      "step": 208
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 419.1875,
+      "epoch": 0.10205078125,
+      "grad_norm": 2.0398164468164968,
+      "kl": 0.0357666015625,
+      "learning_rate": 9.744873046874999e-07,
+      "loss": 0.0014,
+      "reward": 1.587377667427063,
+      "reward_std": 0.21580906957387924,
+      "rewards/format_reward": 0.9453125,
+      "rewards/ocr_reward": 0.642065167427063,
+      "step": 209
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 328.7734375,
+      "epoch": 0.1025390625,
+      "grad_norm": 1.7111018400786906,
+      "kl": 0.03631591796875,
+      "learning_rate": 9.74365234375e-07,
+      "loss": 0.0015,
+      "reward": 1.5716455578804016,
+      "reward_std": 0.14876239746809006,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.6185204684734344,
+      "step": 210
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 368.4609375,
+      "epoch": 0.10302734375,
+      "grad_norm": 1.43762144541971,
+      "kl": 0.036865234375,
+      "learning_rate": 9.742431640625e-07,
+      "loss": 0.0015,
+      "reward": 1.7287642359733582,
+      "reward_std": 0.1475791335105896,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7443892359733582,
+      "step": 211
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 346.3203125,
+      "epoch": 0.103515625,
+      "grad_norm": 1.2895212391486286,
+      "kl": 0.03558349609375,
+      "learning_rate": 9.7412109375e-07,
+      "loss": 0.0014,
+      "reward": 1.5150426030158997,
+      "reward_std": 0.18442986905574799,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.5462925732135773,
+      "step": 212
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 312.0,
+      "epoch": 0.10400390625,
+      "grad_norm": 15.302170515429042,
+      "kl": 0.04736328125,
+      "learning_rate": 9.739990234375e-07,
+      "loss": 0.0019,
+      "reward": 1.492401361465454,
+      "reward_std": 0.22428305447101593,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.5158388316631317,
+      "step": 213
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 331.21875,
+      "epoch": 0.1044921875,
+      "grad_norm": 3.158380258746703,
+      "kl": 0.041748046875,
+      "learning_rate": 9.738769531249999e-07,
+      "loss": 0.0017,
+      "reward": 1.7838861346244812,
+      "reward_std": 0.1373641975224018,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7838861048221588,
+      "step": 214
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 389.8515625,
+      "epoch": 0.10498046875,
+      "grad_norm": 1.9522656170518902,
+      "kl": 0.0390625,
+      "learning_rate": 9.737548828125e-07,
+      "loss": 0.0016,
+      "reward": 1.7652413845062256,
+      "reward_std": 0.1776389330625534,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.7964914739131927,
+      "step": 215
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 438.9140625,
+      "epoch": 0.10546875,
+      "grad_norm": 1.1465475583145053,
+      "kl": 0.0390625,
+      "learning_rate": 9.736328125e-07,
+      "loss": 0.0016,
+      "reward": 1.6162505149841309,
+      "reward_std": 0.17765599489212036,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.6553130149841309,
+      "step": 216
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 342.8984375,
+      "epoch": 0.10595703125,
+      "grad_norm": 2.8690359668413126,
+      "kl": 0.0386962890625,
+      "learning_rate": 9.735107421875e-07,
+      "loss": 0.0015,
+      "reward": 1.6361339688301086,
+      "reward_std": 0.1363746039569378,
+      "rewards/format_reward": 0.9453125,
+      "rewards/ocr_reward": 0.690821498632431,
+      "step": 217
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 342.28125,
+      "epoch": 0.1064453125,
+      "grad_norm": 3.731840752505406,
+      "kl": 0.04071044921875,
+      "learning_rate": 9.73388671875e-07,
+      "loss": 0.0016,
+      "reward": 1.7846105098724365,
+      "reward_std": 0.11500228941440582,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7846105098724365,
+      "step": 218
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 334.15625,
+      "epoch": 0.10693359375,
+      "grad_norm": 1.3127699847264673,
+      "kl": 0.04736328125,
+      "learning_rate": 9.732666015625e-07,
+      "loss": 0.0019,
+      "reward": 1.7865891456604004,
+      "reward_std": 0.11259111389517784,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7944017052650452,
+      "step": 219
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 292.640625,
+      "epoch": 0.107421875,
+      "grad_norm": 2.5515744642251033,
+      "kl": 0.0418701171875,
+      "learning_rate": 9.7314453125e-07,
+      "loss": 0.0017,
+      "reward": 1.5939872860908508,
+      "reward_std": 0.11360449716448784,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6096123307943344,
+      "step": 220
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 413.9609375,
+      "epoch": 0.10791015625,
+      "grad_norm": 5.193842375036834,
+      "kl": 0.03350830078125,
+      "learning_rate": 9.730224609374999e-07,
+      "loss": 0.0013,
+      "reward": 1.6299118399620056,
+      "reward_std": 0.18084490299224854,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.6533493101596832,
+      "step": 221
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 359.28125,
+      "epoch": 0.1083984375,
+      "grad_norm": 3.180517710779925,
+      "kl": 0.03668212890625,
+      "learning_rate": 9.72900390625e-07,
+      "loss": 0.0015,
+      "reward": 1.7199169397354126,
+      "reward_std": 0.15011364966630936,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.7511670291423798,
+      "step": 222
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 301.828125,
+      "epoch": 0.10888671875,
+      "grad_norm": 8.771676797515104,
+      "kl": 0.03662109375,
+      "learning_rate": 9.727783203125e-07,
+      "loss": 0.0015,
+      "reward": 1.6318160891532898,
+      "reward_std": 0.060743046924471855,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6318160891532898,
+      "step": 223
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 298.328125,
+      "epoch": 0.109375,
+      "grad_norm": 4.507274379774449,
+      "kl": 0.045166015625,
+      "learning_rate": 9.7265625e-07,
+      "loss": 0.0018,
+      "reward": 1.6135406494140625,
+      "reward_std": 0.11964382976293564,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.6369781494140625,
+      "step": 224
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 291.65625,
+      "epoch": 0.10986328125,
+      "grad_norm": 0.7984406651823597,
+      "kl": 0.040771484375,
+      "learning_rate": 9.725341796875e-07,
+      "loss": 0.0016,
+      "reward": 1.5897437930107117,
+      "reward_std": 0.09517102688550949,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.6288062930107117,
+      "step": 225
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 443.6015625,
+      "epoch": 0.1103515625,
+      "grad_norm": 3.691513509948555,
+      "kl": 0.02752685546875,
+      "learning_rate": 9.724121093749999e-07,
+      "loss": 0.0011,
+      "reward": 1.5694403648376465,
+      "reward_std": 0.2135012000799179,
+      "rewards/format_reward": 0.90625,
+      "rewards/ocr_reward": 0.6631903648376465,
+      "step": 226
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 277.109375,
+      "epoch": 0.11083984375,
+      "grad_norm": 1.9308963288087744,
+      "kl": 0.031982421875,
+      "learning_rate": 9.722900390625e-07,
+      "loss": 0.0013,
+      "reward": 1.846408486366272,
+      "reward_std": 0.11861564591526985,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8464084565639496,
+      "step": 227
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 398.75,
+      "epoch": 0.111328125,
+      "grad_norm": 2.2747259722712303,
+      "kl": 0.03173828125,
+      "learning_rate": 9.721679687499999e-07,
+      "loss": 0.0013,
+      "reward": 1.3386054635047913,
+      "reward_std": 0.20506983995437622,
+      "rewards/format_reward": 0.9375,
+      "rewards/ocr_reward": 0.40110543370246887,
+      "step": 228
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 381.1953125,
+      "epoch": 0.11181640625,
+      "grad_norm": 3.898177359401665,
+      "kl": 0.02996826171875,
+      "learning_rate": 9.720458984375e-07,
+      "loss": 0.0012,
+      "reward": 1.562267780303955,
+      "reward_std": 0.21021173894405365,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.6091427206993103,
+      "step": 229
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 350.4375,
+      "epoch": 0.1123046875,
+      "grad_norm": 4.223589957552283,
+      "kl": 0.026611328125,
+      "learning_rate": 9.71923828125e-07,
+      "loss": 0.0011,
+      "reward": 1.6675159335136414,
+      "reward_std": 0.16610606014728546,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.7065784335136414,
+      "step": 230
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 326.71875,
+      "epoch": 0.11279296875,
+      "grad_norm": 1.379228938803975,
+      "kl": 0.0284423828125,
+      "learning_rate": 9.718017578125e-07,
+      "loss": 0.0011,
+      "reward": 1.5755912065505981,
+      "reward_std": 0.16047358512878418,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.6068412065505981,
+      "step": 231
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 296.90625,
+      "epoch": 0.11328125,
+      "grad_norm": 2.347155683071109,
+      "kl": 0.03155517578125,
+      "learning_rate": 9.716796875e-07,
+      "loss": 0.0013,
+      "reward": 1.6779637932777405,
+      "reward_std": 0.13747821748256683,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6857762336730957,
+      "step": 232
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 331.453125,
+      "epoch": 0.11376953125,
+      "grad_norm": 1.9265679656994268,
+      "kl": 0.0267333984375,
+      "learning_rate": 9.715576171874999e-07,
+      "loss": 0.0011,
+      "reward": 1.6846604943275452,
+      "reward_std": 0.11376481875777245,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6846604943275452,
+      "step": 233
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 362.4140625,
+      "epoch": 0.1142578125,
+      "grad_norm": 2.2869527266899348,
+      "kl": 0.02642822265625,
+      "learning_rate": 9.71435546875e-07,
+      "loss": 0.0011,
+      "reward": 1.5628395676612854,
+      "reward_std": 0.1172020323574543,
+      "rewards/format_reward": 0.9453125,
+      "rewards/ocr_reward": 0.6175270974636078,
+      "step": 234
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 328.7578125,
+      "epoch": 0.11474609375,
+      "grad_norm": 2.244893512292209,
+      "kl": 0.02557373046875,
+      "learning_rate": 9.713134765624999e-07,
+      "loss": 0.001,
+      "reward": 1.6671748161315918,
+      "reward_std": 0.12159543856978416,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.682799756526947,
+      "step": 235
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 263.390625,
+      "epoch": 0.115234375,
+      "grad_norm": 2.953265867643204,
+      "kl": 0.0301513671875,
+      "learning_rate": 9.7119140625e-07,
+      "loss": 0.0012,
+      "reward": 1.4195521473884583,
+      "reward_std": 0.08454703539609909,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.42736467719078064,
+      "step": 236
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 298.6171875,
+      "epoch": 0.11572265625,
+      "grad_norm": 5.848251432569352,
+      "kl": 0.0361328125,
+      "learning_rate": 9.710693359375e-07,
+      "loss": 0.0014,
+      "reward": 1.5740194916725159,
+      "reward_std": 0.21067717671394348,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.5974570214748383,
+      "step": 237
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 367.0546875,
+      "epoch": 0.1162109375,
+      "grad_norm": 3.4952892235581126,
+      "kl": 0.02520751953125,
+      "learning_rate": 9.70947265625e-07,
+      "loss": 0.001,
+      "reward": 1.545112133026123,
+      "reward_std": 0.19367430359125137,
+      "rewards/format_reward": 0.8984375,
+      "rewards/ocr_reward": 0.646674633026123,
+      "step": 238
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 332.25,
+      "epoch": 0.11669921875,
+      "grad_norm": 6.611274101328795,
+      "kl": 0.0341796875,
+      "learning_rate": 9.708251953125e-07,
+      "loss": 0.0014,
+      "reward": 1.7572271823883057,
+      "reward_std": 0.13795867562294006,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7650396823883057,
+      "step": 239
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 296.53125,
+      "epoch": 0.1171875,
+      "grad_norm": 3.1286325507021466,
+      "kl": 0.0322265625,
+      "learning_rate": 9.707031249999999e-07,
+      "loss": 0.0013,
+      "reward": 1.6395533084869385,
+      "reward_std": 0.09670542925596237,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6395533084869385,
+      "step": 240
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 214.703125,
+      "epoch": 0.11767578125,
+      "grad_norm": 1.627275271283892,
+      "kl": 0.038330078125,
+      "learning_rate": 9.705810546875e-07,
+      "loss": 0.0015,
+      "reward": 1.644788920879364,
+      "reward_std": 0.04493547976016998,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6447888910770416,
+      "step": 241
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 338.7890625,
+      "epoch": 0.1181640625,
+      "grad_norm": 6.14755791950804,
+      "kl": 0.03076171875,
+      "learning_rate": 9.70458984375e-07,
+      "loss": 0.0012,
+      "reward": 1.6965675354003906,
+      "reward_std": 0.12545205652713776,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7043800354003906,
+      "step": 242
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 262.296875,
+      "epoch": 0.11865234375,
+      "grad_norm": 4.504232771428641,
+      "kl": 0.0355224609375,
+      "learning_rate": 9.703369140625e-07,
+      "loss": 0.0014,
+      "reward": 1.6774699091911316,
+      "reward_std": 0.10419408231973648,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6930948793888092,
+      "step": 243
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 280.484375,
+      "epoch": 0.119140625,
+      "grad_norm": 1.7486968845761774,
+      "kl": 0.03228759765625,
+      "learning_rate": 9.7021484375e-07,
+      "loss": 0.0013,
+      "reward": 1.8203869462013245,
+      "reward_std": 0.08420379087328911,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8203868865966797,
+      "step": 244
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 344.53125,
+      "epoch": 0.11962890625,
+      "grad_norm": 2.2888106990202304,
+      "kl": 0.031982421875,
+      "learning_rate": 9.700927734375e-07,
+      "loss": 0.0013,
+      "reward": 1.5356090068817139,
+      "reward_std": 0.18412478268146515,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.5746715664863586,
+      "step": 245
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 378.40625,
+      "epoch": 0.1201171875,
+      "grad_norm": 4.440936065671452,
+      "kl": 0.02557373046875,
+      "learning_rate": 9.69970703125e-07,
+      "loss": 0.001,
+      "reward": 1.6864354610443115,
+      "reward_std": 0.16976945102214813,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.7176855206489563,
+      "step": 246
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 333.296875,
+      "epoch": 0.12060546875,
+      "grad_norm": 1.6696154402341608,
+      "kl": 0.03326416015625,
+      "learning_rate": 9.698486328124999e-07,
+      "loss": 0.0013,
+      "reward": 1.6419482827186584,
+      "reward_std": 0.141361266374588,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.6810107231140137,
+      "step": 247
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 337.453125,
+      "epoch": 0.12109375,
+      "grad_norm": 5.609952930401551,
+      "kl": 0.03277587890625,
+      "learning_rate": 9.697265625e-07,
+      "loss": 0.0013,
+      "reward": 1.6594606637954712,
+      "reward_std": 0.09116644039750099,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6594606637954712,
+      "step": 248
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 348.3125,
+      "epoch": 0.12158203125,
+      "grad_norm": 1.6010400179727664,
+      "kl": 0.028076171875,
+      "learning_rate": 9.696044921875e-07,
+      "loss": 0.0011,
+      "reward": 1.548350989818573,
+      "reward_std": 0.11171835660934448,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.5639760047197342,
+      "step": 249
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 389.5078125,
+      "epoch": 0.1220703125,
+      "grad_norm": 8.329224730907894,
+      "kl": 0.0340576171875,
+      "learning_rate": 9.69482421875e-07,
+      "loss": 0.0014,
+      "reward": 1.4914612770080566,
+      "reward_std": 0.21047968417406082,
+      "rewards/format_reward": 0.921875,
+      "rewards/ocr_reward": 0.569586306810379,
+      "step": 250
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 353.4296875,
+      "epoch": 0.12255859375,
+      "grad_norm": 3.6020583542087117,
+      "kl": 0.030029296875,
+      "learning_rate": 9.693603515625e-07,
+      "loss": 0.0012,
+      "reward": 1.811837911605835,
+      "reward_std": 0.045381875708699226,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8118377923965454,
+      "step": 251
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 437.6171875,
+      "epoch": 0.123046875,
+      "grad_norm": 2.8891967781818044,
+      "kl": 0.02545166015625,
+      "learning_rate": 9.6923828125e-07,
+      "loss": 0.001,
+      "reward": 1.5089460015296936,
+      "reward_std": 0.3081662133336067,
+      "rewards/format_reward": 0.90625,
+      "rewards/ocr_reward": 0.602696031332016,
+      "step": 252
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 265.8046875,
+      "epoch": 0.12353515625,
+      "grad_norm": 3.246272295841944,
+      "kl": 0.04095458984375,
+      "learning_rate": 9.691162109375e-07,
+      "loss": 0.0016,
+      "reward": 1.7035585045814514,
+      "reward_std": 0.11963363364338875,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7035585343837738,
+      "step": 253
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 284.7109375,
+      "epoch": 0.1240234375,
+      "grad_norm": 3.151160447979875,
+      "kl": 0.0423583984375,
+      "learning_rate": 9.689941406249999e-07,
+      "loss": 0.0017,
+      "reward": 1.6344158053398132,
+      "reward_std": 0.18827372789382935,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.6656658351421356,
+      "step": 254
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 380.65625,
+      "epoch": 0.12451171875,
+      "grad_norm": 6.070686166424575,
+      "kl": 0.03094482421875,
+      "learning_rate": 9.688720703125e-07,
+      "loss": 0.0012,
+      "reward": 1.71599280834198,
+      "reward_std": 0.15431293100118637,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7394302487373352,
+      "step": 255
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 303.0234375,
+      "epoch": 0.125,
+      "grad_norm": 0.9304227502971951,
+      "kl": 0.03057861328125,
+      "learning_rate": 9.6875e-07,
+      "loss": 0.0012,
+      "reward": 1.7525382041931152,
+      "reward_std": 0.09551074542105198,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7759757041931152,
+      "step": 256
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 278.71875,
+      "epoch": 0.12548828125,
+      "grad_norm": 3.7527081977389494,
+      "kl": 0.0892333984375,
+      "learning_rate": 9.686279296875e-07,
+      "loss": 0.0036,
+      "reward": 1.8059654235839844,
+      "reward_std": 0.11925885081291199,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8137778639793396,
+      "step": 257
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 332.890625,
+      "epoch": 0.1259765625,
+      "grad_norm": 3.2980897081154468,
+      "kl": 0.027099609375,
+      "learning_rate": 9.68505859375e-07,
+      "loss": 0.0011,
+      "reward": 1.7137970328330994,
+      "reward_std": 0.13171366602182388,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7294220626354218,
+      "step": 258
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 284.953125,
+      "epoch": 0.12646484375,
+      "grad_norm": 4.3680814156942285,
+      "kl": 0.055419921875,
+      "learning_rate": 9.683837890624999e-07,
+      "loss": 0.0022,
+      "reward": 1.719020664691925,
+      "reward_std": 0.10069620236754417,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7268331944942474,
+      "step": 259
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 266.1484375,
+      "epoch": 0.126953125,
+      "grad_norm": 1.7575782040816468,
+      "kl": 0.032470703125,
+      "learning_rate": 9.6826171875e-07,
+      "loss": 0.0013,
+      "reward": 1.756038784980774,
+      "reward_std": 0.1373431235551834,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7560386955738068,
+      "step": 260
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 256.1640625,
+      "epoch": 0.12744140625,
+      "grad_norm": 2.2674231639337674,
+      "kl": 0.0382080078125,
+      "learning_rate": 9.681396484374999e-07,
+      "loss": 0.0015,
+      "reward": 1.6681320667266846,
+      "reward_std": 0.08800495602190495,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6681320667266846,
+      "step": 261
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 358.0390625,
+      "epoch": 0.1279296875,
+      "grad_norm": 2.133067633460261,
+      "kl": 0.032470703125,
+      "learning_rate": 9.68017578125e-07,
+      "loss": 0.0013,
+      "reward": 1.7665959596633911,
+      "reward_std": 0.11527542397379875,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7744084894657135,
+      "step": 262
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 294.7734375,
+      "epoch": 0.12841796875,
+      "grad_norm": 2.9133910121332476,
+      "kl": 0.0313720703125,
+      "learning_rate": 9.678955078125e-07,
+      "loss": 0.0013,
+      "reward": 1.622836172580719,
+      "reward_std": 0.08527448028326035,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6228361874818802,
+      "step": 263
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 279.0,
+      "epoch": 0.12890625,
+      "grad_norm": 2.595596598906522,
+      "kl": 0.0341796875,
+      "learning_rate": 9.677734375e-07,
+      "loss": 0.0014,
+      "reward": 1.753430426120758,
+      "reward_std": 0.06863740459084511,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7534304261207581,
+      "step": 264
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 314.4609375,
+      "epoch": 0.12939453125,
+      "grad_norm": 1.9387469073690122,
+      "kl": 0.0390625,
+      "learning_rate": 9.676513671875e-07,
+      "loss": 0.0016,
+      "reward": 1.6287448406219482,
+      "reward_std": 0.15640820562839508,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6443698704242706,
+      "step": 265
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 250.453125,
+      "epoch": 0.1298828125,
+      "grad_norm": 13.216425880817694,
+      "kl": 0.0343017578125,
+      "learning_rate": 9.675292968749999e-07,
+      "loss": 0.0014,
+      "reward": 1.731309413909912,
+      "reward_std": 0.08267020061612129,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.731309324502945,
+      "step": 266
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 239.59375,
+      "epoch": 0.13037109375,
+      "grad_norm": 4.862426726552091,
+      "kl": 0.0419921875,
+      "learning_rate": 9.674072265625e-07,
+      "loss": 0.0017,
+      "reward": 1.648730993270874,
+      "reward_std": 0.07836638763546944,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6487309336662292,
+      "step": 267
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 351.9375,
+      "epoch": 0.130859375,
+      "grad_norm": 21.763882065889554,
+      "kl": 0.0308837890625,
+      "learning_rate": 9.6728515625e-07,
+      "loss": 0.0012,
+      "reward": 1.6850923895835876,
+      "reward_std": 0.10728929005563259,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7007173895835876,
+      "step": 268
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 288.265625,
+      "epoch": 0.13134765625,
+      "grad_norm": 2.082497501815107,
+      "kl": 0.0380859375,
+      "learning_rate": 9.671630859375e-07,
+      "loss": 0.0015,
+      "reward": 1.667827844619751,
+      "reward_std": 0.09125854074954987,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6678277850151062,
+      "step": 269
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 258.4140625,
+      "epoch": 0.1318359375,
+      "grad_norm": 3.1061731600297717,
+      "kl": 0.0426025390625,
+      "learning_rate": 9.67041015625e-07,
+      "loss": 0.0017,
+      "reward": 1.6657472848892212,
+      "reward_std": 0.10530559718608856,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.665747344493866,
+      "step": 270
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 406.1328125,
+      "epoch": 0.13232421875,
+      "grad_norm": 1.6926718726678105,
+      "kl": 0.03216552734375,
+      "learning_rate": 9.669189453125e-07,
+      "loss": 0.0013,
+      "reward": 1.6102675795555115,
+      "reward_std": 0.20465338230133057,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.6415176093578339,
+      "step": 271
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 273.875,
+      "epoch": 0.1328125,
+      "grad_norm": 1.5814783438080073,
+      "kl": 0.0360107421875,
+      "learning_rate": 9.66796875e-07,
+      "loss": 0.0014,
+      "reward": 1.6680699586868286,
+      "reward_std": 0.0880473144352436,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6680700480937958,
+      "step": 272
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 327.203125,
+      "epoch": 0.13330078125,
+      "grad_norm": 2.340261215855065,
+      "kl": 0.0401611328125,
+      "learning_rate": 9.666748046874999e-07,
+      "loss": 0.0016,
+      "reward": 1.7241803407669067,
+      "reward_std": 0.1692553162574768,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7476178705692291,
+      "step": 273
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 318.7578125,
+      "epoch": 0.1337890625,
+      "grad_norm": 4.11544829128727,
+      "kl": 0.0391845703125,
+      "learning_rate": 9.66552734375e-07,
+      "loss": 0.0016,
+      "reward": 1.781490683555603,
+      "reward_std": 0.13933787494897842,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7971156537532806,
+      "step": 274
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 314.2578125,
+      "epoch": 0.13427734375,
+      "grad_norm": 1.4526251271367776,
+      "kl": 0.0401611328125,
+      "learning_rate": 9.664306640625e-07,
+      "loss": 0.0016,
+      "reward": 1.6937137246131897,
+      "reward_std": 0.1856069192290306,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.7327762842178345,
+      "step": 275
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 275.578125,
+      "epoch": 0.134765625,
+      "grad_norm": 10.727511575491055,
+      "kl": 0.0391845703125,
+      "learning_rate": 9.6630859375e-07,
+      "loss": 0.0016,
+      "reward": 1.5141828656196594,
+      "reward_std": 0.12065092846751213,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.5219953954219818,
+      "step": 276
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 359.8671875,
+      "epoch": 0.13525390625,
+      "grad_norm": 1.9833864945403907,
+      "kl": 0.03375244140625,
+      "learning_rate": 9.661865234375e-07,
+      "loss": 0.0013,
+      "reward": 1.536266803741455,
+      "reward_std": 0.21020027250051498,
+      "rewards/format_reward": 0.921875,
+      "rewards/ocr_reward": 0.6143918633460999,
+      "step": 277
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 372.4140625,
+      "epoch": 0.1357421875,
+      "grad_norm": 6.895919430163141,
+      "kl": 0.029541015625,
+      "learning_rate": 9.66064453125e-07,
+      "loss": 0.0012,
+      "reward": 1.6948537826538086,
+      "reward_std": 0.11981324478983879,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.702666312456131,
+      "step": 278
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 308.328125,
+      "epoch": 0.13623046875,
+      "grad_norm": 2.2534331703734067,
+      "kl": 0.03424072265625,
+      "learning_rate": 9.659423828125e-07,
+      "loss": 0.0014,
+      "reward": 1.6411468386650085,
+      "reward_std": 0.08064734004437923,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6411468386650085,
+      "step": 279
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 249.625,
+      "epoch": 0.13671875,
+      "grad_norm": 3.863896913907151,
+      "kl": 0.04150390625,
+      "learning_rate": 9.658203124999999e-07,
+      "loss": 0.0017,
+      "reward": 1.6285604238510132,
+      "reward_std": 0.12783172726631165,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.6754354536533356,
+      "step": 280
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 362.609375,
+      "epoch": 0.13720703125,
+      "grad_norm": 2.933038355393098,
+      "kl": 0.02764892578125,
+      "learning_rate": 9.656982421875e-07,
+      "loss": 0.0011,
+      "reward": 1.7419158220291138,
+      "reward_std": 0.14980874210596085,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7653533220291138,
+      "step": 281
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 380.703125,
+      "epoch": 0.1376953125,
+      "grad_norm": 9.395073865019247,
+      "kl": 0.03985595703125,
+      "learning_rate": 9.65576171875e-07,
+      "loss": 0.0016,
+      "reward": 1.6920581459999084,
+      "reward_std": 0.12204625830054283,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6920581459999084,
+      "step": 282
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 319.3984375,
+      "epoch": 0.13818359375,
+      "grad_norm": 3.37707988325681,
+      "kl": 0.035400390625,
+      "learning_rate": 9.654541015625e-07,
+      "loss": 0.0014,
+      "reward": 1.497445821762085,
+      "reward_std": 0.1840338483452797,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.5365082919597626,
+      "step": 283
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 300.3046875,
+      "epoch": 0.138671875,
+      "grad_norm": 2.0075105685871426,
+      "kl": 0.032958984375,
+      "learning_rate": 9.6533203125e-07,
+      "loss": 0.0013,
+      "reward": 1.6478480100631714,
+      "reward_std": 0.11625828593969345,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6634730100631714,
+      "step": 284
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 322.578125,
+      "epoch": 0.13916015625,
+      "grad_norm": 6.271628293640765,
+      "kl": 0.03070068359375,
+      "learning_rate": 9.652099609374999e-07,
+      "loss": 0.0012,
+      "reward": 1.5877465605735779,
+      "reward_std": 0.18424838036298752,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.6268090903759003,
+      "step": 285
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 302.734375,
+      "epoch": 0.1396484375,
+      "grad_norm": 2.765333625422615,
+      "kl": 0.039306640625,
+      "learning_rate": 9.65087890625e-07,
+      "loss": 0.0016,
+      "reward": 1.6684794425964355,
+      "reward_std": 0.21452812105417252,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.699729323387146,
+      "step": 286
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 322.046875,
+      "epoch": 0.14013671875,
+      "grad_norm": 2.836462248192525,
+      "kl": 0.0313720703125,
+      "learning_rate": 9.649658203124999e-07,
+      "loss": 0.0013,
+      "reward": 1.7276391983032227,
+      "reward_std": 0.19272325932979584,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.7667016685009003,
+      "step": 287
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 323.953125,
+      "epoch": 0.140625,
+      "grad_norm": 1.5790291022053742,
+      "kl": 0.02911376953125,
+      "learning_rate": 9.6484375e-07,
+      "loss": 0.0012,
+      "reward": 1.6144769787788391,
+      "reward_std": 0.1834145449101925,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.6535394489765167,
+      "step": 288
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 356.28125,
+      "epoch": 0.14111328125,
+      "grad_norm": 1.1042158738010264,
+      "kl": 0.0274658203125,
+      "learning_rate": 9.647216796875e-07,
+      "loss": 0.0011,
+      "reward": 1.6875471472740173,
+      "reward_std": 0.1275060921907425,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7031721770763397,
+      "step": 289
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 411.125,
+      "epoch": 0.1416015625,
+      "grad_norm": 2.283777941321073,
+      "kl": 0.0245361328125,
+      "learning_rate": 9.64599609375e-07,
+      "loss": 0.001,
+      "reward": 1.6654972434043884,
+      "reward_std": 0.1885884590446949,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.7045597434043884,
+      "step": 290
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 386.46875,
+      "epoch": 0.14208984375,
+      "grad_norm": 1.5795066656688896,
+      "kl": 0.0257568359375,
+      "learning_rate": 9.644775390625e-07,
+      "loss": 0.001,
+      "reward": 1.7022438049316406,
+      "reward_std": 0.1274988241493702,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7256813049316406,
+      "step": 291
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 385.4921875,
+      "epoch": 0.142578125,
+      "grad_norm": 2.172103990155339,
+      "kl": 0.024658203125,
+      "learning_rate": 9.643554687499999e-07,
+      "loss": 0.001,
+      "reward": 1.608510136604309,
+      "reward_std": 0.11927095800638199,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.6475726366043091,
+      "step": 292
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 256.3125,
+      "epoch": 0.14306640625,
+      "grad_norm": 3.281405859635334,
+      "kl": 0.038330078125,
+      "learning_rate": 9.642333984375e-07,
+      "loss": 0.0015,
+      "reward": 1.5347102880477905,
+      "reward_std": 0.10195699892938137,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.5659602731466293,
+      "step": 293
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 315.8046875,
+      "epoch": 0.1435546875,
+      "grad_norm": 1.4610945064230194,
+      "kl": 0.02362060546875,
+      "learning_rate": 9.64111328125e-07,
+      "loss": 0.0009,
+      "reward": 1.6751810312271118,
+      "reward_std": 0.1327841766178608,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.6986185312271118,
+      "step": 294
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 302.4375,
+      "epoch": 0.14404296875,
+      "grad_norm": 2.083770286674266,
+      "kl": 0.03302001953125,
+      "learning_rate": 9.639892578125e-07,
+      "loss": 0.0013,
+      "reward": 1.7501333951950073,
+      "reward_std": 0.09881668537855148,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7579458951950073,
+      "step": 295
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 312.078125,
+      "epoch": 0.14453125,
+      "grad_norm": 3.9481991676001216,
+      "kl": 0.0372314453125,
+      "learning_rate": 9.638671875e-07,
+      "loss": 0.0015,
+      "reward": 1.6677301526069641,
+      "reward_std": 0.07496082410216331,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6677302122116089,
+      "step": 296
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 286.6484375,
+      "epoch": 0.14501953125,
+      "grad_norm": 7.04024659813487,
+      "kl": 0.0308837890625,
+      "learning_rate": 9.637451171875e-07,
+      "loss": 0.0012,
+      "reward": 1.7570677399635315,
+      "reward_std": 0.09553324803709984,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7570676803588867,
+      "step": 297
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 294.3203125,
+      "epoch": 0.1455078125,
+      "grad_norm": 4.161631659200875,
+      "kl": 0.0411376953125,
+      "learning_rate": 9.63623046875e-07,
+      "loss": 0.0016,
+      "reward": 1.5669713020324707,
+      "reward_std": 0.17707626521587372,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.5904087424278259,
+      "step": 298
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 282.9375,
+      "epoch": 0.14599609375,
+      "grad_norm": 2.9329021992243134,
+      "kl": 0.0474853515625,
+      "learning_rate": 9.635009765624999e-07,
+      "loss": 0.0019,
+      "reward": 1.6684596538543701,
+      "reward_std": 0.1166144497692585,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.6997096538543701,
+      "step": 299
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 307.0390625,
+      "epoch": 0.146484375,
+      "grad_norm": 4.806487359363194,
+      "kl": 0.033935546875,
+      "learning_rate": 9.6337890625e-07,
+      "loss": 0.0014,
+      "reward": 1.83830726146698,
+      "reward_std": 0.04638480953872204,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8383072018623352,
+      "step": 300
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 361.6875,
+      "epoch": 0.14697265625,
+      "grad_norm": 1.8400115433509951,
+      "kl": 0.03753662109375,
+      "learning_rate": 9.632568359375e-07,
+      "loss": 0.0015,
+      "reward": 1.6406999826431274,
+      "reward_std": 0.05689780414104462,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.640699952840805,
+      "step": 301
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 426.078125,
+      "epoch": 0.1474609375,
+      "grad_norm": 1.859129267311832,
+      "kl": 0.03448486328125,
+      "learning_rate": 9.63134765625e-07,
+      "loss": 0.0014,
+      "reward": 1.6312952637672424,
+      "reward_std": 0.08252920210361481,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6312953531742096,
+      "step": 302
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 349.59375,
+      "epoch": 0.14794921875,
+      "grad_norm": 1.5493611450032359,
+      "kl": 0.02734375,
+      "learning_rate": 9.630126953125e-07,
+      "loss": 0.0011,
+      "reward": 1.7147611379623413,
+      "reward_std": 0.08944166824221611,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7225736379623413,
+      "step": 303
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 346.2421875,
+      "epoch": 0.1484375,
+      "grad_norm": 1.8976423626253172,
+      "kl": 0.03570556640625,
+      "learning_rate": 9.62890625e-07,
+      "loss": 0.0014,
+      "reward": 1.6145520210266113,
+      "reward_std": 0.18844667822122574,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.6614269018173218,
+      "step": 304
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 200.640625,
+      "epoch": 0.14892578125,
+      "grad_norm": 7.425501960614286,
+      "kl": 0.047607421875,
+      "learning_rate": 9.627685546875e-07,
+      "loss": 0.0019,
+      "reward": 1.7208858728408813,
+      "reward_std": 0.1330663561820984,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7208858132362366,
+      "step": 305
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 333.6484375,
+      "epoch": 0.1494140625,
+      "grad_norm": 2.769163068983383,
+      "kl": 0.03759765625,
+      "learning_rate": 9.626464843749999e-07,
+      "loss": 0.0015,
+      "reward": 1.5909721851348877,
+      "reward_std": 0.21000181138515472,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.6144096851348877,
+      "step": 306
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 226.984375,
+      "epoch": 0.14990234375,
+      "grad_norm": 5.7395657037691326,
+      "kl": 0.03375244140625,
+      "learning_rate": 9.625244140625e-07,
+      "loss": 0.0013,
+      "reward": 1.6622443199157715,
+      "reward_std": 0.03923766687512398,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6622443348169327,
+      "step": 307
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 462.1328125,
+      "epoch": 0.150390625,
+      "grad_norm": 2.6717724620758663,
+      "kl": 0.02557373046875,
+      "learning_rate": 9.6240234375e-07,
+      "loss": 0.001,
+      "reward": 1.5063217282295227,
+      "reward_std": 0.20277608931064606,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.5531966686248779,
+      "step": 308
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 315.0234375,
+      "epoch": 0.15087890625,
+      "grad_norm": 2.18014699586722,
+      "kl": 0.041748046875,
+      "learning_rate": 9.622802734375e-07,
+      "loss": 0.0017,
+      "reward": 1.6508269906044006,
+      "reward_std": 0.13892033696174622,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.697702020406723,
+      "step": 309
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 342.9765625,
+      "epoch": 0.1513671875,
+      "grad_norm": 1.717478656404003,
+      "kl": 0.0283203125,
+      "learning_rate": 9.62158203125e-07,
+      "loss": 0.0011,
+      "reward": 1.6870404481887817,
+      "reward_std": 0.06977767683565617,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6870404779911041,
+      "step": 310
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 328.4765625,
+      "epoch": 0.15185546875,
+      "grad_norm": 1.7043876842099035,
+      "kl": 0.0340576171875,
+      "learning_rate": 9.620361328124999e-07,
+      "loss": 0.0014,
+      "reward": 1.5702768564224243,
+      "reward_std": 0.15926361829042435,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.5859018266201019,
+      "step": 311
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 336.2109375,
+      "epoch": 0.15234375,
+      "grad_norm": 2.125053862773254,
+      "kl": 0.028076171875,
+      "learning_rate": 9.619140625e-07,
+      "loss": 0.0011,
+      "reward": 1.6080606579780579,
+      "reward_std": 0.14491120725870132,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.6471231281757355,
+      "step": 312
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 323.90625,
+      "epoch": 0.15283203125,
+      "grad_norm": 3.1096892974164425,
+      "kl": 0.036865234375,
+      "learning_rate": 9.617919921874999e-07,
+      "loss": 0.0015,
+      "reward": 1.5795653462409973,
+      "reward_std": 0.11042843386530876,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.5795653164386749,
+      "step": 313
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 250.59375,
+      "epoch": 0.1533203125,
+      "grad_norm": 3.5995680052886527,
+      "kl": 0.0377197265625,
+      "learning_rate": 9.61669921875e-07,
+      "loss": 0.0015,
+      "reward": 1.646964430809021,
+      "reward_std": 0.12394942343235016,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.646964430809021,
+      "step": 314
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 271.0390625,
+      "epoch": 0.15380859375,
+      "grad_norm": 1.956255504508322,
+      "kl": 0.0301513671875,
+      "learning_rate": 9.615478515625e-07,
+      "loss": 0.0012,
+      "reward": 1.7696388363838196,
+      "reward_std": 0.05953131802380085,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7696388363838196,
+      "step": 315
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 337.515625,
+      "epoch": 0.154296875,
+      "grad_norm": 5.191246910967392,
+      "kl": 0.03155517578125,
+      "learning_rate": 9.6142578125e-07,
+      "loss": 0.0013,
+      "reward": 1.5658961534500122,
+      "reward_std": 0.12328368425369263,
+      "rewards/format_reward": 0.9453125,
+      "rewards/ocr_reward": 0.6205836087465286,
+      "step": 316
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 207.1796875,
+      "epoch": 0.15478515625,
+      "grad_norm": 4.500450512155949,
+      "kl": 0.03509521484375,
+      "learning_rate": 9.613037109375e-07,
+      "loss": 0.0014,
+      "reward": 1.6759998798370361,
+      "reward_std": 0.100888442248106,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6759998500347137,
+      "step": 317
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 403.234375,
+      "epoch": 0.1552734375,
+      "grad_norm": 3.2796857668648842,
+      "kl": 0.0269775390625,
+      "learning_rate": 9.611816406249999e-07,
+      "loss": 0.0011,
+      "reward": 1.6215779781341553,
+      "reward_std": 0.1620483510196209,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.6684529185295105,
+      "step": 318
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 301.2578125,
+      "epoch": 0.15576171875,
+      "grad_norm": 2.7662804735100517,
+      "kl": 0.03497314453125,
+      "learning_rate": 9.610595703125e-07,
+      "loss": 0.0014,
+      "reward": 1.6629568934440613,
+      "reward_std": 0.14340640604496002,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.670769453048706,
+      "step": 319
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 326.8671875,
+      "epoch": 0.15625,
+      "grad_norm": 4.542442828253781,
+      "kl": 0.0322265625,
+      "learning_rate": 9.609374999999999e-07,
+      "loss": 0.0013,
+      "reward": 1.711995244026184,
+      "reward_std": 0.19287973642349243,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.7510578036308289,
+      "step": 320
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 300.2265625,
+      "epoch": 0.15673828125,
+      "grad_norm": 4.052768372311868,
+      "kl": 0.0286865234375,
+      "learning_rate": 9.608154296875e-07,
+      "loss": 0.0011,
+      "reward": 1.6291555762290955,
+      "reward_std": 0.11671308055520058,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.6525930762290955,
+      "step": 321
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 335.5390625,
+      "epoch": 0.1572265625,
+      "grad_norm": 2.162537030435017,
+      "kl": 0.0362548828125,
+      "learning_rate": 9.60693359375e-07,
+      "loss": 0.0014,
+      "reward": 1.6343209147453308,
+      "reward_std": 0.16108915954828262,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6499459147453308,
+      "step": 322
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 321.09375,
+      "epoch": 0.15771484375,
+      "grad_norm": 1.856325185116223,
+      "kl": 0.0341796875,
+      "learning_rate": 9.605712890625e-07,
+      "loss": 0.0014,
+      "reward": 1.7311798930168152,
+      "reward_std": 0.06938901171088219,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7311798632144928,
+      "step": 323
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 320.4296875,
+      "epoch": 0.158203125,
+      "grad_norm": 5.005867500611158,
+      "kl": 0.0361328125,
+      "learning_rate": 9.6044921875e-07,
+      "loss": 0.0014,
+      "reward": 1.526106595993042,
+      "reward_std": 0.20226696878671646,
+      "rewards/format_reward": 0.9375,
+      "rewards/ocr_reward": 0.5886066257953644,
+      "step": 324
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 290.2109375,
+      "epoch": 0.15869140625,
+      "grad_norm": 1.6834488335758562,
+      "kl": 0.0377197265625,
+      "learning_rate": 9.603271484374999e-07,
+      "loss": 0.0015,
+      "reward": 1.7446966171264648,
+      "reward_std": 0.09506701678037643,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7446966171264648,
+      "step": 325
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 380.0234375,
+      "epoch": 0.1591796875,
+      "grad_norm": 34.72900439154182,
+      "kl": 0.02752685546875,
+      "learning_rate": 9.60205078125e-07,
+      "loss": 0.0011,
+      "reward": 1.6595964431762695,
+      "reward_std": 0.16007909923791885,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6752214133739471,
+      "step": 326
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 292.4609375,
+      "epoch": 0.15966796875,
+      "grad_norm": 4.142586916976736,
+      "kl": 0.0384521484375,
+      "learning_rate": 9.600830078125e-07,
+      "loss": 0.0015,
+      "reward": 1.7855232954025269,
+      "reward_std": 0.13429051637649536,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7933357656002045,
+      "step": 327
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 212.6796875,
+      "epoch": 0.16015625,
+      "grad_norm": 2.0417286955446574,
+      "kl": 0.0391845703125,
+      "learning_rate": 9.599609375e-07,
+      "loss": 0.0016,
+      "reward": 1.7793214321136475,
+      "reward_std": 0.05697181820869446,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7793213725090027,
+      "step": 328
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 438.84375,
+      "epoch": 0.16064453125,
+      "grad_norm": 1.4353302978671976,
+      "kl": 0.0302734375,
+      "learning_rate": 9.598388671875e-07,
+      "loss": 0.0012,
+      "reward": 1.6387850642204285,
+      "reward_std": 0.37150806188583374,
+      "rewards/format_reward": 0.90625,
+      "rewards/ocr_reward": 0.7325350046157837,
+      "step": 329
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 255.1328125,
+      "epoch": 0.1611328125,
+      "grad_norm": 3.1073764344455337,
+      "kl": 0.0394287109375,
+      "learning_rate": 9.59716796875e-07,
+      "loss": 0.0016,
+      "reward": 1.5094847083091736,
+      "reward_std": 0.13999176025390625,
+      "rewards/format_reward": 0.9375,
+      "rewards/ocr_reward": 0.5719846189022064,
+      "step": 330
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 392.53125,
+      "epoch": 0.16162109375,
+      "grad_norm": 1.3469828802315056,
+      "kl": 0.02386474609375,
+      "learning_rate": 9.595947265625e-07,
+      "loss": 0.001,
+      "reward": 1.7278481125831604,
+      "reward_std": 0.1803218349814415,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.7747230529785156,
+      "step": 331
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 342.1328125,
+      "epoch": 0.162109375,
+      "grad_norm": 2.4061717119122776,
+      "kl": 0.03167724609375,
+      "learning_rate": 9.594726562499999e-07,
+      "loss": 0.0013,
+      "reward": 1.7532138228416443,
+      "reward_std": 0.13944057375192642,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7610263526439667,
+      "step": 332
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 291.578125,
+      "epoch": 0.16259765625,
+      "grad_norm": 1.5063714645040478,
+      "kl": 0.03363037109375,
+      "learning_rate": 9.593505859375e-07,
+      "loss": 0.0013,
+      "reward": 1.6756377220153809,
+      "reward_std": 0.06455008871853352,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6756377518177032,
+      "step": 333
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 372.3125,
+      "epoch": 0.1630859375,
+      "grad_norm": 1.3347945227728137,
+      "kl": 0.02984619140625,
+      "learning_rate": 9.59228515625e-07,
+      "loss": 0.0012,
+      "reward": 1.7514132857322693,
+      "reward_std": 0.09506377205252647,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7592257857322693,
+      "step": 334
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 281.109375,
+      "epoch": 0.16357421875,
+      "grad_norm": 3.723407278968701,
+      "kl": 0.0455322265625,
+      "learning_rate": 9.591064453125e-07,
+      "loss": 0.0018,
+      "reward": 1.6376798152923584,
+      "reward_std": 0.15414723008871078,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.6767423748970032,
+      "step": 335
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 342.53125,
+      "epoch": 0.1640625,
+      "grad_norm": 3.9448517340622655,
+      "kl": 0.031494140625,
+      "learning_rate": 9.58984375e-07,
+      "loss": 0.0013,
+      "reward": 1.668643057346344,
+      "reward_std": 0.07998159155249596,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6686430275440216,
+      "step": 336
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 360.0390625,
+      "epoch": 0.16455078125,
+      "grad_norm": 11.966779228153586,
+      "kl": 0.0382080078125,
+      "learning_rate": 9.588623046875e-07,
+      "loss": 0.0015,
+      "reward": 1.6435166597366333,
+      "reward_std": 0.13468455523252487,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.6903917491436005,
+      "step": 337
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 231.390625,
+      "epoch": 0.1650390625,
+      "grad_norm": 1.3026863061956178,
+      "kl": 0.042724609375,
+      "learning_rate": 9.58740234375e-07,
+      "loss": 0.0017,
+      "reward": 1.6170286536216736,
+      "reward_std": 0.03771189600229263,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6170286238193512,
+      "step": 338
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 410.6484375,
+      "epoch": 0.16552734375,
+      "grad_norm": 1.7776160609392315,
+      "kl": 0.029541015625,
+      "learning_rate": 9.586181640624999e-07,
+      "loss": 0.0012,
+      "reward": 1.6082661151885986,
+      "reward_std": 0.16181888803839684,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6238911151885986,
+      "step": 339
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 320.3515625,
+      "epoch": 0.166015625,
+      "grad_norm": 3.4344192664071636,
+      "kl": 0.0374755859375,
+      "learning_rate": 9.5849609375e-07,
+      "loss": 0.0015,
+      "reward": 1.6772453784942627,
+      "reward_std": 0.09790786355733871,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.7241203486919403,
+      "step": 340
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 252.125,
+      "epoch": 0.16650390625,
+      "grad_norm": 3.4863206189382785,
+      "kl": 0.038330078125,
+      "learning_rate": 9.583740234375e-07,
+      "loss": 0.0015,
+      "reward": 1.7005472779273987,
+      "reward_std": 0.09716508537530899,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7083597481250763,
+      "step": 341
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 337.265625,
+      "epoch": 0.1669921875,
+      "grad_norm": 16.588569687572924,
+      "kl": 0.03466796875,
+      "learning_rate": 9.58251953125e-07,
+      "loss": 0.0014,
+      "reward": 1.6174096465110779,
+      "reward_std": 0.11772006377577782,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6330346167087555,
+      "step": 342
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 344.96875,
+      "epoch": 0.16748046875,
+      "grad_norm": 3.315958682715951,
+      "kl": 0.03314208984375,
+      "learning_rate": 9.581298828125e-07,
+      "loss": 0.0013,
+      "reward": 1.5178037285804749,
+      "reward_std": 0.1745915710926056,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.5490537583827972,
+      "step": 343
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 312.5,
+      "epoch": 0.16796875,
+      "grad_norm": 2.2349202653555365,
+      "kl": 0.0390625,
+      "learning_rate": 9.580078124999999e-07,
+      "loss": 0.0016,
+      "reward": 1.6745514273643494,
+      "reward_std": 0.1728959158062935,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.721426397562027,
+      "step": 344
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 257.84375,
+      "epoch": 0.16845703125,
+      "grad_norm": 2.8256080294771637,
+      "kl": 0.04638671875,
+      "learning_rate": 9.578857421875e-07,
+      "loss": 0.0019,
+      "reward": 1.7369277477264404,
+      "reward_std": 0.05663881450891495,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7369276583194733,
+      "step": 345
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 295.5703125,
+      "epoch": 0.1689453125,
+      "grad_norm": 2.627531421994624,
+      "kl": 0.0396728515625,
+      "learning_rate": 9.577636718749999e-07,
+      "loss": 0.0016,
+      "reward": 1.5510008335113525,
+      "reward_std": 0.17610786110162735,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.5822509080171585,
+      "step": 346
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 379.6015625,
+      "epoch": 0.16943359375,
+      "grad_norm": 3.1216112029414482,
+      "kl": 0.03594970703125,
+      "learning_rate": 9.576416015625e-07,
+      "loss": 0.0014,
+      "reward": 1.7094944715499878,
+      "reward_std": 0.08010836690664291,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7094944417476654,
+      "step": 347
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 368.359375,
+      "epoch": 0.169921875,
+      "grad_norm": 2.0161100389850617,
+      "kl": 0.0460205078125,
+      "learning_rate": 9.5751953125e-07,
+      "loss": 0.0018,
+      "reward": 1.769561767578125,
+      "reward_std": 0.03940633311867714,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.769561767578125,
+      "step": 348
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 381.3203125,
+      "epoch": 0.17041015625,
+      "grad_norm": 1.678953605120237,
+      "kl": 0.02923583984375,
+      "learning_rate": 9.573974609375e-07,
+      "loss": 0.0012,
+      "reward": 1.7712068557739258,
+      "reward_std": 0.1021023616194725,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7946443557739258,
+      "step": 349
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 376.421875,
+      "epoch": 0.1708984375,
+      "grad_norm": 3.911611150477222,
+      "kl": 0.0369873046875,
+      "learning_rate": 9.57275390625e-07,
+      "loss": 0.0015,
+      "reward": 1.5145609378814697,
+      "reward_std": 0.2088497430086136,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.5614359080791473,
+      "step": 350
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 296.7109375,
+      "epoch": 0.17138671875,
+      "grad_norm": 6.385932586698964,
+      "kl": 0.035400390625,
+      "learning_rate": 9.571533203124999e-07,
+      "loss": 0.0014,
+      "reward": 1.5890177488327026,
+      "reward_std": 0.0945354737341404,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.5890178084373474,
+      "step": 351
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 344.5625,
+      "epoch": 0.171875,
+      "grad_norm": 1.6280503492839655,
+      "kl": 0.037353515625,
+      "learning_rate": 9.5703125e-07,
+      "loss": 0.0015,
+      "reward": 1.6745615005493164,
+      "reward_std": 0.10443703085184097,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6823740601539612,
+      "step": 352
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 414.9921875,
+      "epoch": 0.17236328125,
+      "grad_norm": 1.5117691402769504,
+      "kl": 0.03424072265625,
+      "learning_rate": 9.569091796875e-07,
+      "loss": 0.0014,
+      "reward": 1.6382949948310852,
+      "reward_std": 0.20788590610027313,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.66173255443573,
+      "step": 353
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 312.6171875,
+      "epoch": 0.1728515625,
+      "grad_norm": 3.7063712081293416,
+      "kl": 0.0482177734375,
+      "learning_rate": 9.56787109375e-07,
+      "loss": 0.0019,
+      "reward": 1.6848008632659912,
+      "reward_std": 0.13139459863305092,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.684800922870636,
+      "step": 354
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 319.5625,
+      "epoch": 0.17333984375,
+      "grad_norm": 1.5391314099083317,
+      "kl": 0.040283203125,
+      "learning_rate": 9.566650390625e-07,
+      "loss": 0.0016,
+      "reward": 1.6223503947257996,
+      "reward_std": 0.1576566994190216,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6301629543304443,
+      "step": 355
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 399.78125,
+      "epoch": 0.173828125,
+      "grad_norm": 2.7058681092420795,
+      "kl": 0.0372314453125,
+      "learning_rate": 9.5654296875e-07,
+      "loss": 0.0015,
+      "reward": 1.525748610496521,
+      "reward_std": 0.19213548302650452,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.5491860806941986,
+      "step": 356
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 299.0390625,
+      "epoch": 0.17431640625,
+      "grad_norm": 2.0154711074208773,
+      "kl": 0.0439453125,
+      "learning_rate": 9.564208984375e-07,
+      "loss": 0.0018,
+      "reward": 1.7262452840805054,
+      "reward_std": 0.11205626837909222,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.726245254278183,
+      "step": 357
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 346.6328125,
+      "epoch": 0.1748046875,
+      "grad_norm": 3.2566800818643813,
+      "kl": 0.036865234375,
+      "learning_rate": 9.562988281249999e-07,
+      "loss": 0.0015,
+      "reward": 1.5986173748970032,
+      "reward_std": 0.17809632420539856,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6142423450946808,
+      "step": 358
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 273.9765625,
+      "epoch": 0.17529296875,
+      "grad_norm": 4.6715149905690545,
+      "kl": 0.0439453125,
+      "learning_rate": 9.561767578125e-07,
+      "loss": 0.0018,
+      "reward": 1.685244619846344,
+      "reward_std": 0.07497452571988106,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.685244619846344,
+      "step": 359
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 269.46875,
+      "epoch": 0.17578125,
+      "grad_norm": 2.105222847919174,
+      "kl": 0.0450439453125,
+      "learning_rate": 9.560546875e-07,
+      "loss": 0.0018,
+      "reward": 1.6982702612876892,
+      "reward_std": 0.17531277611851692,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7138952612876892,
+      "step": 360
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 143.984375,
+      "epoch": 0.17626953125,
+      "grad_norm": 5.232570191497886,
+      "kl": 0.0435791015625,
+      "learning_rate": 9.559326171875e-07,
+      "loss": 0.0017,
+      "reward": 1.7132031321525574,
+      "reward_std": 0.1074238047003746,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7132031321525574,
+      "step": 361
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 300.71875,
+      "epoch": 0.1767578125,
+      "grad_norm": 2.1497345593947985,
+      "kl": 0.0511474609375,
+      "learning_rate": 9.55810546875e-07,
+      "loss": 0.002,
+      "reward": 1.4040643572807312,
+      "reward_std": 0.08128705434501171,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.4040642976760864,
+      "step": 362
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 308.515625,
+      "epoch": 0.17724609375,
+      "grad_norm": 8.38599033866768,
+      "kl": 0.04931640625,
+      "learning_rate": 9.556884765625e-07,
+      "loss": 0.002,
+      "reward": 1.6172441244125366,
+      "reward_std": 0.10681581497192383,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6172442138195038,
+      "step": 363
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 268.625,
+      "epoch": 0.177734375,
+      "grad_norm": 1.767290932124583,
+      "kl": 0.0501708984375,
+      "learning_rate": 9.5556640625e-07,
+      "loss": 0.002,
+      "reward": 1.6871461868286133,
+      "reward_std": 0.060712188482284546,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6871461272239685,
+      "step": 364
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 267.125,
+      "epoch": 0.17822265625,
+      "grad_norm": 2.9068478143017344,
+      "kl": 0.0465087890625,
+      "learning_rate": 9.554443359374999e-07,
+      "loss": 0.0019,
+      "reward": 1.721463680267334,
+      "reward_std": 0.0778956264257431,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7214637100696564,
+      "step": 365
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 324.359375,
+      "epoch": 0.1787109375,
+      "grad_norm": 5.5157852848407245,
+      "kl": 0.0372314453125,
+      "learning_rate": 9.55322265625e-07,
+      "loss": 0.0015,
+      "reward": 1.7536060810089111,
+      "reward_std": 0.10080629587173462,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7536060810089111,
+      "step": 366
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 296.875,
+      "epoch": 0.17919921875,
+      "grad_norm": 2.984431123069507,
+      "kl": 0.0540771484375,
+      "learning_rate": 9.552001953125e-07,
+      "loss": 0.0022,
+      "reward": 1.6196495294570923,
+      "reward_std": 0.10086812451481819,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6196494698524475,
+      "step": 367
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 190.8046875,
+      "epoch": 0.1796875,
+      "grad_norm": 3.157195401410498,
+      "kl": 0.063720703125,
+      "learning_rate": 9.55078125e-07,
+      "loss": 0.0025,
+      "reward": 1.715992033481598,
+      "reward_std": 0.1297970972955227,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7238045334815979,
+      "step": 368
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 241.09375,
+      "epoch": 0.18017578125,
+      "grad_norm": 2.324085860520846,
+      "kl": 0.070556640625,
+      "learning_rate": 9.549560546875e-07,
+      "loss": 0.0028,
+      "reward": 1.700922667980194,
+      "reward_std": 0.08325351774692535,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7009226679801941,
+      "step": 369
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 332.234375,
+      "epoch": 0.1806640625,
+      "grad_norm": 2.004151009626354,
+      "kl": 0.0498046875,
+      "learning_rate": 9.548339843749999e-07,
+      "loss": 0.002,
+      "reward": 1.6857663989067078,
+      "reward_std": 0.1576274000108242,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6935788691043854,
+      "step": 370
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 307.8359375,
+      "epoch": 0.18115234375,
+      "grad_norm": 2.404587038530015,
+      "kl": 0.046875,
+      "learning_rate": 9.547119140625e-07,
+      "loss": 0.0019,
+      "reward": 1.6597256660461426,
+      "reward_std": 0.13613457418978214,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.6831631660461426,
+      "step": 371
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 314.0703125,
+      "epoch": 0.181640625,
+      "grad_norm": 2.834868853183062,
+      "kl": 0.0577392578125,
+      "learning_rate": 9.545898437499999e-07,
+      "loss": 0.0023,
+      "reward": 1.5693495869636536,
+      "reward_std": 0.14352120459079742,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.5771620869636536,
+      "step": 372
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 246.40625,
+      "epoch": 0.18212890625,
+      "grad_norm": 9.040737722489206,
+      "kl": 0.044921875,
+      "learning_rate": 9.544677734375e-07,
+      "loss": 0.0018,
+      "reward": 1.801272690296173,
+      "reward_std": 0.05337041616439819,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8012726902961731,
+      "step": 373
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 313.078125,
+      "epoch": 0.1826171875,
+      "grad_norm": 3.5600976807232554,
+      "kl": 0.0465087890625,
+      "learning_rate": 9.54345703125e-07,
+      "loss": 0.0019,
+      "reward": 1.453054428100586,
+      "reward_std": 0.1263410821557045,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.4608669579029083,
+      "step": 374
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 291.171875,
+      "epoch": 0.18310546875,
+      "grad_norm": 2.002398563178058,
+      "kl": 0.0484619140625,
+      "learning_rate": 9.542236328125e-07,
+      "loss": 0.0019,
+      "reward": 1.6627238988876343,
+      "reward_std": 0.07443033531308174,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6705364286899567,
+      "step": 375
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 286.7890625,
+      "epoch": 0.18359375,
+      "grad_norm": 2.757249827207943,
+      "kl": 0.050537109375,
+      "learning_rate": 9.541015625e-07,
+      "loss": 0.002,
+      "reward": 1.6889954805374146,
+      "reward_std": 0.08430779352784157,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6889954209327698,
+      "step": 376
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 354.2265625,
+      "epoch": 0.18408203125,
+      "grad_norm": 4.5073105256951775,
+      "kl": 0.0504150390625,
+      "learning_rate": 9.539794921874999e-07,
+      "loss": 0.002,
+      "reward": 1.5870369672775269,
+      "reward_std": 0.10734122432768345,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.6182869672775269,
+      "step": 377
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 416.421875,
+      "epoch": 0.1845703125,
+      "grad_norm": 7.196357548568271,
+      "kl": 0.037109375,
+      "learning_rate": 9.53857421875e-07,
+      "loss": 0.0015,
+      "reward": 1.6069696545600891,
+      "reward_std": 0.2218686118721962,
+      "rewards/format_reward": 0.9296875,
+      "rewards/ocr_reward": 0.6772821247577667,
+      "step": 378
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 280.28125,
+      "epoch": 0.18505859375,
+      "grad_norm": 4.45308500198343,
+      "kl": 0.058837890625,
+      "learning_rate": 9.537353515625e-07,
+      "loss": 0.0024,
+      "reward": 1.7543954253196716,
+      "reward_std": 0.06126508302986622,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7543954253196716,
+      "step": 379
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 357.6171875,
+      "epoch": 0.185546875,
+      "grad_norm": 1.5466264285633915,
+      "kl": 0.046142578125,
+      "learning_rate": 9.536132812499999e-07,
+      "loss": 0.0018,
+      "reward": 1.6366318464279175,
+      "reward_std": 0.1529180034995079,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.6600694358348846,
+      "step": 380
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 342.171875,
+      "epoch": 0.18603515625,
+      "grad_norm": 1.5074271098619745,
+      "kl": 0.0447998046875,
+      "learning_rate": 9.534912109374999e-07,
+      "loss": 0.0018,
+      "reward": 1.6499249935150146,
+      "reward_std": 0.15157188847661018,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.6889875531196594,
+      "step": 381
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 374.7890625,
+      "epoch": 0.1865234375,
+      "grad_norm": 2.7697954920464434,
+      "kl": 0.051513671875,
+      "learning_rate": 9.533691406249999e-07,
+      "loss": 0.0021,
+      "reward": 1.5470696091651917,
+      "reward_std": 0.2721578925848007,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.593944638967514,
+      "step": 382
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 274.8046875,
+      "epoch": 0.18701171875,
+      "grad_norm": 3.8213692120277054,
+      "kl": 0.06005859375,
+      "learning_rate": 9.532470703125e-07,
+      "loss": 0.0024,
+      "reward": 1.6255079507827759,
+      "reward_std": 0.21495968848466873,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.6567580103874207,
+      "step": 383
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 411.8671875,
+      "epoch": 0.1875,
+      "grad_norm": 4.4450768164862335,
+      "kl": 0.046630859375,
+      "learning_rate": 9.53125e-07,
+      "loss": 0.0019,
+      "reward": 1.6321772336959839,
+      "reward_std": 0.2580869309604168,
+      "rewards/format_reward": 0.921875,
+      "rewards/ocr_reward": 0.7103022634983063,
+      "step": 384
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 337.0703125,
+      "epoch": 0.18798828125,
+      "grad_norm": 2.000719653156199,
+      "kl": 0.0751953125,
+      "learning_rate": 9.530029296875e-07,
+      "loss": 0.003,
+      "reward": 1.6403818130493164,
+      "reward_std": 0.18112845346331596,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.6794443130493164,
+      "step": 385
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 315.9375,
+      "epoch": 0.1884765625,
+      "grad_norm": 1.2925552797273454,
+      "kl": 0.0565185546875,
+      "learning_rate": 9.52880859375e-07,
+      "loss": 0.0023,
+      "reward": 1.7097843885421753,
+      "reward_std": 0.08790682628750801,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7332218289375305,
+      "step": 386
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 311.125,
+      "epoch": 0.18896484375,
+      "grad_norm": 4.476596386367477,
+      "kl": 0.0555419921875,
+      "learning_rate": 9.527587890624999e-07,
+      "loss": 0.0022,
+      "reward": 1.6251919269561768,
+      "reward_std": 0.1653646007180214,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6408169269561768,
+      "step": 387
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 289.25,
+      "epoch": 0.189453125,
+      "grad_norm": 1.981834575248848,
+      "kl": 0.0638427734375,
+      "learning_rate": 9.526367187499999e-07,
+      "loss": 0.0026,
+      "reward": 1.7350217700004578,
+      "reward_std": 0.08974255621433258,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7428342998027802,
+      "step": 388
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 367.265625,
+      "epoch": 0.18994140625,
+      "grad_norm": 3.714264090994581,
+      "kl": 0.0496826171875,
+      "learning_rate": 9.525146484375e-07,
+      "loss": 0.002,
+      "reward": 1.5587335228919983,
+      "reward_std": 0.1307937055826187,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.5743584930896759,
+      "step": 389
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 278.8828125,
+      "epoch": 0.1904296875,
+      "grad_norm": 0.7910658209647898,
+      "kl": 0.0504150390625,
+      "learning_rate": 9.52392578125e-07,
+      "loss": 0.002,
+      "reward": 1.738577127456665,
+      "reward_std": 0.05491543561220169,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7463896572589874,
+      "step": 390
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 221.625,
+      "epoch": 0.19091796875,
+      "grad_norm": 1.412501157568577,
+      "kl": 0.0592041015625,
+      "learning_rate": 9.522705078125e-07,
+      "loss": 0.0024,
+      "reward": 1.6673744916915894,
+      "reward_std": 0.04720168560743332,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6673744320869446,
+      "step": 391
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 312.765625,
+      "epoch": 0.19140625,
+      "grad_norm": 2.091929522012718,
+      "kl": 0.04931640625,
+      "learning_rate": 9.521484375e-07,
+      "loss": 0.002,
+      "reward": 1.6497448682785034,
+      "reward_std": 0.17027802020311356,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.6731823682785034,
+      "step": 392
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 340.2265625,
+      "epoch": 0.19189453125,
+      "grad_norm": 1.1250339673162928,
+      "kl": 0.0487060546875,
+      "learning_rate": 9.520263671874999e-07,
+      "loss": 0.0019,
+      "reward": 1.6197129487991333,
+      "reward_std": 0.15943622216582298,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.6587753891944885,
+      "step": 393
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 391.3515625,
+      "epoch": 0.1923828125,
+      "grad_norm": 2.6862482142648543,
+      "kl": 0.041015625,
+      "learning_rate": 9.519042968749999e-07,
+      "loss": 0.0016,
+      "reward": 1.7228458523750305,
+      "reward_std": 0.06821495667099953,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7306584417819977,
+      "step": 394
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 313.046875,
+      "epoch": 0.19287109375,
+      "grad_norm": 2.295224742756099,
+      "kl": 0.0504150390625,
+      "learning_rate": 9.517822265624999e-07,
+      "loss": 0.002,
+      "reward": 1.712727427482605,
+      "reward_std": 0.13450950384140015,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.720539927482605,
+      "step": 395
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 355.515625,
+      "epoch": 0.193359375,
+      "grad_norm": 1.949548832486549,
+      "kl": 0.0498046875,
+      "learning_rate": 9.5166015625e-07,
+      "loss": 0.002,
+      "reward": 1.5369553565979004,
+      "reward_std": 0.21717742085456848,
+      "rewards/format_reward": 0.9296875,
+      "rewards/ocr_reward": 0.607267826795578,
+      "step": 396
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 244.125,
+      "epoch": 0.19384765625,
+      "grad_norm": 3.751089819487828,
+      "kl": 0.064697265625,
+      "learning_rate": 9.515380859375e-07,
+      "loss": 0.0026,
+      "reward": 1.7010602951049805,
+      "reward_std": 0.1037181131541729,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7010602951049805,
+      "step": 397
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 427.109375,
+      "epoch": 0.1943359375,
+      "grad_norm": 2.0876288807152616,
+      "kl": 0.041748046875,
+      "learning_rate": 9.51416015625e-07,
+      "loss": 0.0017,
+      "reward": 1.6480942964553833,
+      "reward_std": 0.1627689152956009,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.6871567964553833,
+      "step": 398
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 233.9453125,
+      "epoch": 0.19482421875,
+      "grad_norm": 3.7142502808168616,
+      "kl": 0.0523681640625,
+      "learning_rate": 9.512939453125e-07,
+      "loss": 0.0021,
+      "reward": 1.6217145919799805,
+      "reward_std": 0.06836835853755474,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6217146515846252,
+      "step": 399
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 229.140625,
+      "epoch": 0.1953125,
+      "grad_norm": 3.234762690222564,
+      "kl": 0.056640625,
+      "learning_rate": 9.511718749999999e-07,
+      "loss": 0.0023,
+      "reward": 1.7640219926834106,
+      "reward_std": 0.12531143426895142,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7718344628810883,
+      "step": 400
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 269.7109375,
+      "epoch": 0.19580078125,
+      "grad_norm": 2.2580241394701956,
+      "kl": 0.05419921875,
+      "learning_rate": 9.510498046874999e-07,
+      "loss": 0.0022,
+      "reward": 1.6812456250190735,
+      "reward_std": 0.11042129248380661,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6890580952167511,
+      "step": 401
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 337.1015625,
+      "epoch": 0.1962890625,
+      "grad_norm": 2.113374918135095,
+      "kl": 0.0408935546875,
+      "learning_rate": 9.50927734375e-07,
+      "loss": 0.0016,
+      "reward": 1.7110391855239868,
+      "reward_std": 0.08690160885453224,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7110391855239868,
+      "step": 402
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 343.28125,
+      "epoch": 0.19677734375,
+      "grad_norm": 2.854663005537301,
+      "kl": 0.0523681640625,
+      "learning_rate": 9.508056640625e-07,
+      "loss": 0.0021,
+      "reward": 1.698850393295288,
+      "reward_std": 0.16052530705928802,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7144753634929657,
+      "step": 403
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 259.90625,
+      "epoch": 0.197265625,
+      "grad_norm": 3.566015688964678,
+      "kl": 0.05322265625,
+      "learning_rate": 9.5068359375e-07,
+      "loss": 0.0021,
+      "reward": 1.611766278743744,
+      "reward_std": 0.1618807651102543,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.6352038085460663,
+      "step": 404
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 304.7109375,
+      "epoch": 0.19775390625,
+      "grad_norm": 27.087108641742997,
+      "kl": 0.0535888671875,
+      "learning_rate": 9.505615234375e-07,
+      "loss": 0.0021,
+      "reward": 1.5200156569480896,
+      "reward_std": 0.19639131426811218,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.5512656569480896,
+      "step": 405
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 280.78125,
+      "epoch": 0.1982421875,
+      "grad_norm": 2.142097886894366,
+      "kl": 0.0496826171875,
+      "learning_rate": 9.504394531249999e-07,
+      "loss": 0.002,
+      "reward": 1.6612927317619324,
+      "reward_std": 0.15089121460914612,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.6925427317619324,
+      "step": 406
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 280.6484375,
+      "epoch": 0.19873046875,
+      "grad_norm": 4.366971614094934,
+      "kl": 0.0616455078125,
+      "learning_rate": 9.503173828124999e-07,
+      "loss": 0.0025,
+      "reward": 1.6004191040992737,
+      "reward_std": 0.17288047075271606,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6160440444946289,
+      "step": 407
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 319.625,
+      "epoch": 0.19921875,
+      "grad_norm": 1.7604823561903244,
+      "kl": 0.058837890625,
+      "learning_rate": 9.501953124999999e-07,
+      "loss": 0.0024,
+      "reward": 1.811613917350769,
+      "reward_std": 0.10434301942586899,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.819426417350769,
+      "step": 408
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 242.203125,
+      "epoch": 0.19970703125,
+      "grad_norm": 9.878985501778747,
+      "kl": 0.041015625,
+      "learning_rate": 9.500732421875e-07,
+      "loss": 0.0016,
+      "reward": 1.7147305607795715,
+      "reward_std": 0.14838684350252151,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7225430309772491,
+      "step": 409
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 271.2421875,
+      "epoch": 0.2001953125,
+      "grad_norm": 1.1168993817133859,
+      "kl": 0.0477294921875,
+      "learning_rate": 9.49951171875e-07,
+      "loss": 0.0019,
+      "reward": 1.6048610210418701,
+      "reward_std": 0.06566739082336426,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6048609614372253,
+      "step": 410
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 305.0703125,
+      "epoch": 0.20068359375,
+      "grad_norm": 2.4027814049067366,
+      "kl": 0.0513916015625,
+      "learning_rate": 9.498291015625e-07,
+      "loss": 0.0021,
+      "reward": 1.5927820801734924,
+      "reward_std": 0.11115045472979546,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.6318445801734924,
+      "step": 411
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 267.1796875,
+      "epoch": 0.201171875,
+      "grad_norm": 2.2150494756825045,
+      "kl": 0.0562744140625,
+      "learning_rate": 9.4970703125e-07,
+      "loss": 0.0022,
+      "reward": 1.6925803422927856,
+      "reward_std": 0.12557360157370567,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7082052826881409,
+      "step": 412
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 326.4140625,
+      "epoch": 0.20166015625,
+      "grad_norm": 10.234390592196027,
+      "kl": 0.0421142578125,
+      "learning_rate": 9.495849609374999e-07,
+      "loss": 0.0017,
+      "reward": 1.625154733657837,
+      "reward_std": 0.1099303588271141,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.6485922932624817,
+      "step": 413
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 350.53125,
+      "epoch": 0.2021484375,
+      "grad_norm": 1.8803371479808038,
+      "kl": 0.0467529296875,
+      "learning_rate": 9.494628906249999e-07,
+      "loss": 0.0019,
+      "reward": 1.7836476564407349,
+      "reward_std": 0.0976153276860714,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7914601564407349,
+      "step": 414
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 314.1484375,
+      "epoch": 0.20263671875,
+      "grad_norm": 2.530860829474323,
+      "kl": 0.0577392578125,
+      "learning_rate": 9.493408203125e-07,
+      "loss": 0.0023,
+      "reward": 1.6098762154579163,
+      "reward_std": 0.23471946269273758,
+      "rewards/format_reward": 0.921875,
+      "rewards/ocr_reward": 0.6880012154579163,
+      "step": 415
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 292.828125,
+      "epoch": 0.203125,
+      "grad_norm": 4.285692563206467,
+      "kl": 0.0509033203125,
+      "learning_rate": 9.4921875e-07,
+      "loss": 0.002,
+      "reward": 1.609405517578125,
+      "reward_std": 0.10902727395296097,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6094054579734802,
+      "step": 416
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 296.2890625,
+      "epoch": 0.20361328125,
+      "grad_norm": 1.8103328712037055,
+      "kl": 0.049560546875,
+      "learning_rate": 9.490966796875e-07,
+      "loss": 0.002,
+      "reward": 1.5358877182006836,
+      "reward_std": 0.08052598685026169,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.5437001585960388,
+      "step": 417
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 238.4609375,
+      "epoch": 0.2041015625,
+      "grad_norm": 2.3123346346362452,
+      "kl": 0.0615234375,
+      "learning_rate": 9.48974609375e-07,
+      "loss": 0.0025,
+      "reward": 1.5540345907211304,
+      "reward_std": 0.11965020000934601,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.5540346205234528,
+      "step": 418
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 217.8515625,
+      "epoch": 0.20458984375,
+      "grad_norm": 2.17850912465939,
+      "kl": 0.054443359375,
+      "learning_rate": 9.488525390624999e-07,
+      "loss": 0.0022,
+      "reward": 1.7468233108520508,
+      "reward_std": 0.07044094800949097,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7468233108520508,
+      "step": 419
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 293.2578125,
+      "epoch": 0.205078125,
+      "grad_norm": 2.351303220308625,
+      "kl": 0.0440673828125,
+      "learning_rate": 9.487304687499999e-07,
+      "loss": 0.0018,
+      "reward": 1.6957443952560425,
+      "reward_std": 0.04969111829996109,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6957444846630096,
+      "step": 420
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 318.0546875,
+      "epoch": 0.20556640625,
+      "grad_norm": 1.667715869495618,
+      "kl": 0.05908203125,
+      "learning_rate": 9.486083984374999e-07,
+      "loss": 0.0024,
+      "reward": 1.681714653968811,
+      "reward_std": 0.14231722056865692,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6973395347595215,
+      "step": 421
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 306.75,
+      "epoch": 0.2060546875,
+      "grad_norm": 6.464882822483457,
+      "kl": 0.0556640625,
+      "learning_rate": 9.48486328125e-07,
+      "loss": 0.0022,
+      "reward": 1.6321836113929749,
+      "reward_std": 0.13830295950174332,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6399961411952972,
+      "step": 422
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 231.7265625,
+      "epoch": 0.20654296875,
+      "grad_norm": 3.295724952577691,
+      "kl": 0.0535888671875,
+      "learning_rate": 9.483642578125e-07,
+      "loss": 0.0021,
+      "reward": 1.707470715045929,
+      "reward_std": 0.1862129084765911,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.730908215045929,
+      "step": 423
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 354.15625,
+      "epoch": 0.20703125,
+      "grad_norm": 2.167637361364238,
+      "kl": 0.0465087890625,
+      "learning_rate": 9.482421875e-07,
+      "loss": 0.0019,
+      "reward": 1.6849753856658936,
+      "reward_std": 0.12426239252090454,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.7162253856658936,
+      "step": 424
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 292.203125,
+      "epoch": 0.20751953125,
+      "grad_norm": 2.0849894304046916,
+      "kl": 0.04150390625,
+      "learning_rate": 9.481201171875e-07,
+      "loss": 0.0017,
+      "reward": 1.6421186923980713,
+      "reward_std": 0.13160578161478043,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.6655561625957489,
+      "step": 425
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 235.25,
+      "epoch": 0.2080078125,
+      "grad_norm": 2.0360917274571073,
+      "kl": 0.062255859375,
+      "learning_rate": 9.479980468749999e-07,
+      "loss": 0.0025,
+      "reward": 1.8281482458114624,
+      "reward_std": 0.0754449162632227,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.82814821600914,
+      "step": 426
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 242.7578125,
+      "epoch": 0.20849609375,
+      "grad_norm": 2.2356720906958594,
+      "kl": 0.0491943359375,
+      "learning_rate": 9.478759765624999e-07,
+      "loss": 0.002,
+      "reward": 1.7281526327133179,
+      "reward_std": 0.08592578768730164,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7281526327133179,
+      "step": 427
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 241.8203125,
+      "epoch": 0.208984375,
+      "grad_norm": 2.2370765591210873,
+      "kl": 0.0584716796875,
+      "learning_rate": 9.4775390625e-07,
+      "loss": 0.0023,
+      "reward": 1.6686657667160034,
+      "reward_std": 0.12740540876984596,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6842906475067139,
+      "step": 428
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 301.578125,
+      "epoch": 0.20947265625,
+      "grad_norm": 1.6150656197994475,
+      "kl": 0.0616455078125,
+      "learning_rate": 9.476318359375e-07,
+      "loss": 0.0025,
+      "reward": 1.591238021850586,
+      "reward_std": 0.06698063388466835,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.5912379920482635,
+      "step": 429
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 356.9296875,
+      "epoch": 0.2099609375,
+      "grad_norm": 1.5061424458539174,
+      "kl": 0.035888671875,
+      "learning_rate": 9.47509765625e-07,
+      "loss": 0.0014,
+      "reward": 1.71708744764328,
+      "reward_std": 0.06687924265861511,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7170874178409576,
+      "step": 430
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 243.96875,
+      "epoch": 0.21044921875,
+      "grad_norm": 4.580041027491469,
+      "kl": 0.0445556640625,
+      "learning_rate": 9.473876953125e-07,
+      "loss": 0.0018,
+      "reward": 1.7206860780715942,
+      "reward_std": 0.14960038661956787,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7441235482692719,
+      "step": 431
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 241.1171875,
+      "epoch": 0.2109375,
+      "grad_norm": 3.9447569556870925,
+      "kl": 0.05615234375,
+      "learning_rate": 9.472656249999999e-07,
+      "loss": 0.0022,
+      "reward": 1.6832043528556824,
+      "reward_std": 0.08023593947291374,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6832043826580048,
+      "step": 432
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 291.6953125,
+      "epoch": 0.21142578125,
+      "grad_norm": 2.547549175278579,
+      "kl": 0.0560302734375,
+      "learning_rate": 9.471435546874999e-07,
+      "loss": 0.0022,
+      "reward": 1.7101504802703857,
+      "reward_std": 0.1703593209385872,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7257755398750305,
+      "step": 433
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 291.125,
+      "epoch": 0.2119140625,
+      "grad_norm": 1.6164994536934667,
+      "kl": 0.0482177734375,
+      "learning_rate": 9.470214843749999e-07,
+      "loss": 0.0019,
+      "reward": 1.6205175518989563,
+      "reward_std": 0.08653150871396065,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6283301115036011,
+      "step": 434
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 293.953125,
+      "epoch": 0.21240234375,
+      "grad_norm": 2.1871293922270514,
+      "kl": 0.0439453125,
+      "learning_rate": 9.468994140625e-07,
+      "loss": 0.0018,
+      "reward": 1.7288724780082703,
+      "reward_std": 0.12284732609987259,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7444974780082703,
+      "step": 435
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 264.5,
+      "epoch": 0.212890625,
+      "grad_norm": 1.1688720954359133,
+      "kl": 0.0484619140625,
+      "learning_rate": 9.4677734375e-07,
+      "loss": 0.0019,
+      "reward": 1.769058644771576,
+      "reward_std": 0.07042321562767029,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7768711447715759,
+      "step": 436
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 253.4921875,
+      "epoch": 0.21337890625,
+      "grad_norm": 2.1010102368536674,
+      "kl": 0.0406494140625,
+      "learning_rate": 9.466552734375e-07,
+      "loss": 0.0016,
+      "reward": 1.750071406364441,
+      "reward_std": 0.05832614004611969,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7500714361667633,
+      "step": 437
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 270.3984375,
+      "epoch": 0.2138671875,
+      "grad_norm": 1.482992322234722,
+      "kl": 0.041748046875,
+      "learning_rate": 9.46533203125e-07,
+      "loss": 0.0017,
+      "reward": 1.7221877574920654,
+      "reward_std": 0.04050422087311745,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.722187727689743,
+      "step": 438
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 271.75,
+      "epoch": 0.21435546875,
+      "grad_norm": 3.5088817243048176,
+      "kl": 0.0543212890625,
+      "learning_rate": 9.464111328124999e-07,
+      "loss": 0.0022,
+      "reward": 1.7622933983802795,
+      "reward_std": 0.10088678449392319,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7701059281826019,
+      "step": 439
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 228.7578125,
+      "epoch": 0.21484375,
+      "grad_norm": 5.788688495019036,
+      "kl": 0.0518798828125,
+      "learning_rate": 9.462890624999999e-07,
+      "loss": 0.0021,
+      "reward": 1.5054885149002075,
+      "reward_std": 0.09682680293917656,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.5133009850978851,
+      "step": 440
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 314.8984375,
+      "epoch": 0.21533203125,
+      "grad_norm": 2.1131575200131487,
+      "kl": 0.04443359375,
+      "learning_rate": 9.461669921875e-07,
+      "loss": 0.0018,
+      "reward": 1.6255145072937012,
+      "reward_std": 0.11543078348040581,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6411395072937012,
+      "step": 441
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 260.9140625,
+      "epoch": 0.2158203125,
+      "grad_norm": 2.3429544954821306,
+      "kl": 0.044189453125,
+      "learning_rate": 9.46044921875e-07,
+      "loss": 0.0018,
+      "reward": 1.8504613637924194,
+      "reward_std": 0.06752173975110054,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8504613637924194,
+      "step": 442
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 340.8125,
+      "epoch": 0.21630859375,
+      "grad_norm": 7.976580512227821,
+      "kl": 0.0391845703125,
+      "learning_rate": 9.459228515625e-07,
+      "loss": 0.0016,
+      "reward": 1.6511912941932678,
+      "reward_std": 0.14625184237957,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.6824413239955902,
+      "step": 443
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 284.3203125,
+      "epoch": 0.216796875,
+      "grad_norm": 4.95319644301388,
+      "kl": 0.0517578125,
+      "learning_rate": 9.4580078125e-07,
+      "loss": 0.0021,
+      "reward": 1.7569758296012878,
+      "reward_std": 0.1250363327562809,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7647883296012878,
+      "step": 444
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 264.1875,
+      "epoch": 0.21728515625,
+      "grad_norm": 1.8993972344614596,
+      "kl": 0.0367431640625,
+      "learning_rate": 9.456787109374999e-07,
+      "loss": 0.0015,
+      "reward": 1.693526804447174,
+      "reward_std": 0.11432855390012264,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.7325893044471741,
+      "step": 445
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 273.2734375,
+      "epoch": 0.2177734375,
+      "grad_norm": 7.777889583760453,
+      "kl": 0.0439453125,
+      "learning_rate": 9.455566406249999e-07,
+      "loss": 0.0018,
+      "reward": 1.6474227905273438,
+      "reward_std": 0.11190011724829674,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6474227905273438,
+      "step": 446
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 320.953125,
+      "epoch": 0.21826171875,
+      "grad_norm": 2.009296377838892,
+      "kl": 0.03955078125,
+      "learning_rate": 9.454345703124999e-07,
+      "loss": 0.0016,
+      "reward": 1.654877483844757,
+      "reward_std": 0.11765236407518387,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6705024838447571,
+      "step": 447
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 320.390625,
+      "epoch": 0.21875,
+      "grad_norm": 2.925176137880303,
+      "kl": 0.0401611328125,
+      "learning_rate": 9.453125e-07,
+      "loss": 0.0016,
+      "reward": 1.738932490348816,
+      "reward_std": 0.06926981918513775,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7389324307441711,
+      "step": 448
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 203.828125,
+      "epoch": 0.21923828125,
+      "grad_norm": 4.340531405543576,
+      "kl": 0.0577392578125,
+      "learning_rate": 9.451904296875e-07,
+      "loss": 0.0023,
+      "reward": 1.683348834514618,
+      "reward_std": 0.0711992010474205,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6833488345146179,
+      "step": 449
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 325.421875,
+      "epoch": 0.2197265625,
+      "grad_norm": 2.518125948148069,
+      "kl": 0.04833984375,
+      "learning_rate": 9.45068359375e-07,
+      "loss": 0.0019,
+      "reward": 1.6158209443092346,
+      "reward_std": 0.11858320608735085,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6314459443092346,
+      "step": 450
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 289.7265625,
+      "epoch": 0.22021484375,
+      "grad_norm": 3.5363930541538355,
+      "kl": 0.044921875,
+      "learning_rate": 9.449462890625e-07,
+      "loss": 0.0018,
+      "reward": 1.5984613299369812,
+      "reward_std": 0.13294245302677155,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.60627381503582,
+      "step": 451
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 319.515625,
+      "epoch": 0.220703125,
+      "grad_norm": 3.149130598742103,
+      "kl": 0.0435791015625,
+      "learning_rate": 9.448242187499999e-07,
+      "loss": 0.0017,
+      "reward": 1.6226680278778076,
+      "reward_std": 0.112908735871315,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6226680278778076,
+      "step": 452
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 336.9453125,
+      "epoch": 0.22119140625,
+      "grad_norm": 2.4935032422406125,
+      "kl": 0.0389404296875,
+      "learning_rate": 9.447021484374999e-07,
+      "loss": 0.0016,
+      "reward": 1.6436303853988647,
+      "reward_std": 0.06870114244520664,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6436303853988647,
+      "step": 453
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 237.171875,
+      "epoch": 0.2216796875,
+      "grad_norm": 3.6116771357404747,
+      "kl": 0.042236328125,
+      "learning_rate": 9.445800781249999e-07,
+      "loss": 0.0017,
+      "reward": 1.7960193157196045,
+      "reward_std": 0.03523706644773483,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7960193157196045,
+      "step": 454
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 217.28125,
+      "epoch": 0.22216796875,
+      "grad_norm": 1.8643747959172932,
+      "kl": 0.0467529296875,
+      "learning_rate": 9.444580078125e-07,
+      "loss": 0.0019,
+      "reward": 1.6899807453155518,
+      "reward_std": 0.061588347889482975,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6899808049201965,
+      "step": 455
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 289.3359375,
+      "epoch": 0.22265625,
+      "grad_norm": 2.378293437154049,
+      "kl": 0.0528564453125,
+      "learning_rate": 9.443359375e-07,
+      "loss": 0.0021,
+      "reward": 1.6194549202919006,
+      "reward_std": 0.07477627880871296,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6272674798965454,
+      "step": 456
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 288.7734375,
+      "epoch": 0.22314453125,
+      "grad_norm": 1.7628549042900312,
+      "kl": 0.050537109375,
+      "learning_rate": 9.442138671875e-07,
+      "loss": 0.002,
+      "reward": 1.6203702688217163,
+      "reward_std": 0.06756623834371567,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6203702390193939,
+      "step": 457
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 230.234375,
+      "epoch": 0.2236328125,
+      "grad_norm": 3.212039118876721,
+      "kl": 0.0477294921875,
+      "learning_rate": 9.440917968749999e-07,
+      "loss": 0.0019,
+      "reward": 1.7326794862747192,
+      "reward_std": 0.15392906218767166,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7404920160770416,
+      "step": 458
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 379.9609375,
+      "epoch": 0.22412109375,
+      "grad_norm": 2.20882934467843,
+      "kl": 0.0362548828125,
+      "learning_rate": 9.439697265624999e-07,
+      "loss": 0.0015,
+      "reward": 1.669608473777771,
+      "reward_std": 0.1226998120546341,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6696084141731262,
+      "step": 459
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 310.7109375,
+      "epoch": 0.224609375,
+      "grad_norm": 3.919575507206736,
+      "kl": 0.037841796875,
+      "learning_rate": 9.438476562499999e-07,
+      "loss": 0.0015,
+      "reward": 1.8161649107933044,
+      "reward_std": 0.08291263319551945,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8161648809909821,
+      "step": 460
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 302.1796875,
+      "epoch": 0.22509765625,
+      "grad_norm": 1.8813163144677836,
+      "kl": 0.0386962890625,
+      "learning_rate": 9.437255859375e-07,
+      "loss": 0.0015,
+      "reward": 1.5858674049377441,
+      "reward_std": 0.10385648906230927,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.5858674198389053,
+      "step": 461
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 303.9921875,
+      "epoch": 0.2255859375,
+      "grad_norm": 3.0446438454409304,
+      "kl": 0.04052734375,
+      "learning_rate": 9.43603515625e-07,
+      "loss": 0.0016,
+      "reward": 1.6508355736732483,
+      "reward_std": 0.13546227663755417,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6586481332778931,
+      "step": 462
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 327.765625,
+      "epoch": 0.22607421875,
+      "grad_norm": 5.145994036718485,
+      "kl": 0.0416259765625,
+      "learning_rate": 9.434814453125e-07,
+      "loss": 0.0017,
+      "reward": 1.7009857892990112,
+      "reward_std": 0.11110249161720276,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7009858191013336,
+      "step": 463
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 217.203125,
+      "epoch": 0.2265625,
+      "grad_norm": 1.222277497239498,
+      "kl": 0.052978515625,
+      "learning_rate": 9.43359375e-07,
+      "loss": 0.0021,
+      "reward": 1.6271523833274841,
+      "reward_std": 0.0367429880425334,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6271523833274841,
+      "step": 464
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 232.828125,
+      "epoch": 0.22705078125,
+      "grad_norm": 1.372718735073741,
+      "kl": 0.0382080078125,
+      "learning_rate": 9.432373046874999e-07,
+      "loss": 0.0015,
+      "reward": 1.7885666489601135,
+      "reward_std": 0.040253955870866776,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7885666787624359,
+      "step": 465
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 250.0625,
+      "epoch": 0.2275390625,
+      "grad_norm": 1.7337186238761468,
+      "kl": 0.057861328125,
+      "learning_rate": 9.431152343749999e-07,
+      "loss": 0.0023,
+      "reward": 1.628583014011383,
+      "reward_std": 0.12626324221491814,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6442080438137054,
+      "step": 466
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 384.8203125,
+      "epoch": 0.22802734375,
+      "grad_norm": 2.1322772710330575,
+      "kl": 0.042236328125,
+      "learning_rate": 9.429931640624999e-07,
+      "loss": 0.0017,
+      "reward": 1.6795091032981873,
+      "reward_std": 0.10694251582026482,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6951341331005096,
+      "step": 467
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 379.109375,
+      "epoch": 0.228515625,
+      "grad_norm": 1.083227516677285,
+      "kl": 0.039794921875,
+      "learning_rate": 9.4287109375e-07,
+      "loss": 0.0016,
+      "reward": 1.5487976670265198,
+      "reward_std": 0.12695813924074173,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.5800476670265198,
+      "step": 468
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 286.0078125,
+      "epoch": 0.22900390625,
+      "grad_norm": 2.134927472325478,
+      "kl": 0.046875,
+      "learning_rate": 9.427490234375e-07,
+      "loss": 0.0019,
+      "reward": 1.7062729597091675,
+      "reward_std": 0.12723471224308014,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7140854597091675,
+      "step": 469
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 363.5078125,
+      "epoch": 0.2294921875,
+      "grad_norm": 1.7045575082525455,
+      "kl": 0.033935546875,
+      "learning_rate": 9.42626953125e-07,
+      "loss": 0.0014,
+      "reward": 1.693819522857666,
+      "reward_std": 0.07639718800783157,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.693819522857666,
+      "step": 470
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 237.546875,
+      "epoch": 0.22998046875,
+      "grad_norm": 1.4199964051941236,
+      "kl": 0.053466796875,
+      "learning_rate": 9.425048828124999e-07,
+      "loss": 0.0021,
+      "reward": 1.7025293707847595,
+      "reward_std": 0.03216167027130723,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7025294005870819,
+      "step": 471
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 372.671875,
+      "epoch": 0.23046875,
+      "grad_norm": 2.2853712078997583,
+      "kl": 0.040283203125,
+      "learning_rate": 9.423828124999999e-07,
+      "loss": 0.0016,
+      "reward": 1.633117914199829,
+      "reward_std": 0.1547449231147766,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.6565554141998291,
+      "step": 472
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 210.4375,
+      "epoch": 0.23095703125,
+      "grad_norm": 2.9606587430145748,
+      "kl": 0.05859375,
+      "learning_rate": 9.422607421874999e-07,
+      "loss": 0.0023,
+      "reward": 1.7061492204666138,
+      "reward_std": 0.11958225071430206,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7139617204666138,
+      "step": 473
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 311.4140625,
+      "epoch": 0.2314453125,
+      "grad_norm": 4.284919438683781,
+      "kl": 0.0533447265625,
+      "learning_rate": 9.42138671875e-07,
+      "loss": 0.0021,
+      "reward": 1.6417680978775024,
+      "reward_std": 0.10428282991051674,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.65739306807518,
+      "step": 474
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 346.8828125,
+      "epoch": 0.23193359375,
+      "grad_norm": 3.9023448946857533,
+      "kl": 0.04266357421875,
+      "learning_rate": 9.420166015625e-07,
+      "loss": 0.0017,
+      "reward": 1.7126132249832153,
+      "reward_std": 0.09138727188110352,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7126132547855377,
+      "step": 475
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 231.0859375,
+      "epoch": 0.232421875,
+      "grad_norm": 8.45607280183371,
+      "kl": 0.052734375,
+      "learning_rate": 9.4189453125e-07,
+      "loss": 0.0021,
+      "reward": 1.6888734102249146,
+      "reward_std": 0.08186532184481621,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6888734102249146,
+      "step": 476
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 338.390625,
+      "epoch": 0.23291015625,
+      "grad_norm": 3.7100837878450594,
+      "kl": 0.04296875,
+      "learning_rate": 9.417724609375e-07,
+      "loss": 0.0017,
+      "reward": 1.7216296195983887,
+      "reward_std": 0.170655507594347,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7372545599937439,
+      "step": 477
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 337.140625,
+      "epoch": 0.2333984375,
+      "grad_norm": 1.8396296874789484,
+      "kl": 0.041748046875,
+      "learning_rate": 9.416503906249999e-07,
+      "loss": 0.0017,
+      "reward": 1.6159728169441223,
+      "reward_std": 0.19198870658874512,
+      "rewards/format_reward": 0.9453125,
+      "rewards/ocr_reward": 0.6706602573394775,
+      "step": 478
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 209.1015625,
+      "epoch": 0.23388671875,
+      "grad_norm": 3.539797062671013,
+      "kl": 0.048583984375,
+      "learning_rate": 9.415283203124999e-07,
+      "loss": 0.0019,
+      "reward": 1.7715952396392822,
+      "reward_std": 0.07343994826078415,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7715952396392822,
+      "step": 479
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 306.09375,
+      "epoch": 0.234375,
+      "grad_norm": 2.857203091318844,
+      "kl": 0.0416259765625,
+      "learning_rate": 9.414062499999999e-07,
+      "loss": 0.0017,
+      "reward": 1.706653356552124,
+      "reward_std": 0.09830702841281891,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7066532969474792,
+      "step": 480
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 340.140625,
+      "epoch": 0.23486328125,
+      "grad_norm": 10.240794373354676,
+      "kl": 0.04052734375,
+      "learning_rate": 9.412841796875e-07,
+      "loss": 0.0016,
+      "reward": 1.755756914615631,
+      "reward_std": 0.07962564006447792,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7557569742202759,
+      "step": 481
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 291.9921875,
+      "epoch": 0.2353515625,
+      "grad_norm": 4.440714955855732,
+      "kl": 0.046630859375,
+      "learning_rate": 9.41162109375e-07,
+      "loss": 0.0019,
+      "reward": 1.588149607181549,
+      "reward_std": 0.07681831158697605,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.5959621071815491,
+      "step": 482
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 369.28125,
+      "epoch": 0.23583984375,
+      "grad_norm": 2.0909539375914736,
+      "kl": 0.03387451171875,
+      "learning_rate": 9.410400390625e-07,
+      "loss": 0.0014,
+      "reward": 1.768026053905487,
+      "reward_std": 0.1362891048192978,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7836510539054871,
+      "step": 483
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 260.625,
+      "epoch": 0.236328125,
+      "grad_norm": 4.002760763893457,
+      "kl": 0.0521240234375,
+      "learning_rate": 9.4091796875e-07,
+      "loss": 0.0021,
+      "reward": 1.7147894501686096,
+      "reward_std": 0.08333645388484001,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.714789479970932,
+      "step": 484
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 278.8984375,
+      "epoch": 0.23681640625,
+      "grad_norm": 2.2903477892017756,
+      "kl": 0.046875,
+      "learning_rate": 9.407958984374999e-07,
+      "loss": 0.0019,
+      "reward": 1.7409107685089111,
+      "reward_std": 0.04808063432574272,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7409107685089111,
+      "step": 485
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 284.4140625,
+      "epoch": 0.2373046875,
+      "grad_norm": 2.3093773994918347,
+      "kl": 0.0355224609375,
+      "learning_rate": 9.406738281249999e-07,
+      "loss": 0.0014,
+      "reward": 1.6987740993499756,
+      "reward_std": 0.1341363899409771,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7143990695476532,
+      "step": 486
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 311.5078125,
+      "epoch": 0.23779296875,
+      "grad_norm": 2.720150565834579,
+      "kl": 0.0426025390625,
+      "learning_rate": 9.405517578125e-07,
+      "loss": 0.0017,
+      "reward": 1.6762725114822388,
+      "reward_std": 0.09658115357160568,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6840850114822388,
+      "step": 487
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 358.7734375,
+      "epoch": 0.23828125,
+      "grad_norm": 3.4864904794597886,
+      "kl": 0.0489501953125,
+      "learning_rate": 9.404296875e-07,
+      "loss": 0.002,
+      "reward": 1.6006226539611816,
+      "reward_std": 0.13109473884105682,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6162476539611816,
+      "step": 488
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 313.515625,
+      "epoch": 0.23876953125,
+      "grad_norm": 2.6873145138368666,
+      "kl": 0.0526123046875,
+      "learning_rate": 9.403076171875e-07,
+      "loss": 0.0021,
+      "reward": 1.6052095890045166,
+      "reward_std": 0.17836012691259384,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.6520847082138062,
+      "step": 489
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 280.6796875,
+      "epoch": 0.2392578125,
+      "grad_norm": 3.62466135309983,
+      "kl": 0.05224609375,
+      "learning_rate": 9.40185546875e-07,
+      "loss": 0.0021,
+      "reward": 1.5602875351905823,
+      "reward_std": 0.09847164526581764,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.5602875351905823,
+      "step": 490
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 297.734375,
+      "epoch": 0.23974609375,
+      "grad_norm": 3.8234332031826432,
+      "kl": 0.0458984375,
+      "learning_rate": 9.400634765624999e-07,
+      "loss": 0.0018,
+      "reward": 1.6198760867118835,
+      "reward_std": 0.10435886308550835,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6198760569095612,
+      "step": 491
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 262.84375,
+      "epoch": 0.240234375,
+      "grad_norm": 1.643266133894865,
+      "kl": 0.0531005859375,
+      "learning_rate": 9.399414062499999e-07,
+      "loss": 0.0021,
+      "reward": 1.6920706629753113,
+      "reward_std": 0.13326343521475792,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6920706927776337,
+      "step": 492
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 231.40625,
+      "epoch": 0.24072265625,
+      "grad_norm": 3.0050999042930053,
+      "kl": 0.04736328125,
+      "learning_rate": 9.398193359374999e-07,
+      "loss": 0.0019,
+      "reward": 1.6835868954658508,
+      "reward_std": 0.06352141872048378,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6835868954658508,
+      "step": 493
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 185.0234375,
+      "epoch": 0.2412109375,
+      "grad_norm": 1.982897008783888,
+      "kl": 0.0460205078125,
+      "learning_rate": 9.39697265625e-07,
+      "loss": 0.0018,
+      "reward": 1.7277058362960815,
+      "reward_std": 0.029988901689648628,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7277058362960815,
+      "step": 494
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 266.3671875,
+      "epoch": 0.24169921875,
+      "grad_norm": 3.432562466521374,
+      "kl": 0.0494384765625,
+      "learning_rate": 9.395751953125e-07,
+      "loss": 0.002,
+      "reward": 1.630252718925476,
+      "reward_std": 0.10348817706108093,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6302527189254761,
+      "step": 495
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 371.3203125,
+      "epoch": 0.2421875,
+      "grad_norm": 1.938316540344301,
+      "kl": 0.061279296875,
+      "learning_rate": 9.39453125e-07,
+      "loss": 0.0024,
+      "reward": 1.5763072967529297,
+      "reward_std": 0.1704563107341528,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.5997447669506073,
+      "step": 496
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 211.46875,
+      "epoch": 0.24267578125,
+      "grad_norm": 1.5475227992685436,
+      "kl": 0.0443115234375,
+      "learning_rate": 9.393310546875e-07,
+      "loss": 0.0018,
+      "reward": 1.796213448047638,
+      "reward_std": 0.08575894869863987,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8040259480476379,
+      "step": 497
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 221.8046875,
+      "epoch": 0.2431640625,
+      "grad_norm": 6.194121349015061,
+      "kl": 0.0538330078125,
+      "learning_rate": 9.392089843749999e-07,
+      "loss": 0.0022,
+      "reward": 1.7806832194328308,
+      "reward_std": 0.04140526428818703,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7806831896305084,
+      "step": 498
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 312.234375,
+      "epoch": 0.24365234375,
+      "grad_norm": 4.146851999613055,
+      "kl": 0.0482177734375,
+      "learning_rate": 9.390869140624999e-07,
+      "loss": 0.0019,
+      "reward": 1.6361583471298218,
+      "reward_std": 0.12326683104038239,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6517833769321442,
+      "step": 499
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 302.875,
+      "epoch": 0.244140625,
+      "grad_norm": 2.3192212317561327,
+      "kl": 0.0556640625,
+      "learning_rate": 9.3896484375e-07,
+      "loss": 0.0022,
+      "reward": 1.7082719802856445,
+      "reward_std": 0.11271853744983673,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7160845100879669,
+      "step": 500
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 310.09375,
+      "epoch": 0.24462890625,
+      "grad_norm": 2.530658345316516,
+      "kl": 0.0523681640625,
+      "learning_rate": 9.388427734375e-07,
+      "loss": 0.0021,
+      "reward": 1.6015813946723938,
+      "reward_std": 0.11473493091762066,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.6406438946723938,
+      "step": 501
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 324.4296875,
+      "epoch": 0.2451171875,
+      "grad_norm": 3.374686115356342,
+      "kl": 0.0780029296875,
+      "learning_rate": 9.38720703125e-07,
+      "loss": 0.0031,
+      "reward": 1.670573353767395,
+      "reward_std": 0.19502687454223633,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.6940109133720398,
+      "step": 502
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 323.9609375,
+      "epoch": 0.24560546875,
+      "grad_norm": 3.975204177665374,
+      "kl": 0.0465087890625,
+      "learning_rate": 9.385986328125e-07,
+      "loss": 0.0019,
+      "reward": 1.7460113763809204,
+      "reward_std": 0.06656001135706902,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7460113167762756,
+      "step": 503
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 328.1171875,
+      "epoch": 0.24609375,
+      "grad_norm": 2.3164265465647267,
+      "kl": 0.0430908203125,
+      "learning_rate": 9.384765624999999e-07,
+      "loss": 0.0017,
+      "reward": 1.789831519126892,
+      "reward_std": 0.06405875086784363,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7898315191268921,
+      "step": 504
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 295.4765625,
+      "epoch": 0.24658203125,
+      "grad_norm": 3.6736958175167618,
+      "kl": 0.048095703125,
+      "learning_rate": 9.383544921874999e-07,
+      "loss": 0.0019,
+      "reward": 1.7674906253814697,
+      "reward_std": 0.04135966673493385,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7674906253814697,
+      "step": 505
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 295.5859375,
+      "epoch": 0.2470703125,
+      "grad_norm": 2.9483608938527186,
+      "kl": 0.0535888671875,
+      "learning_rate": 9.382324218749999e-07,
+      "loss": 0.0021,
+      "reward": 1.6795161962509155,
+      "reward_std": 0.1258496269583702,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6873287260532379,
+      "step": 506
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 312.4609375,
+      "epoch": 0.24755859375,
+      "grad_norm": 10.00278448029272,
+      "kl": 0.04833984375,
+      "learning_rate": 9.381103515625e-07,
+      "loss": 0.0019,
+      "reward": 1.7105889916419983,
+      "reward_std": 0.06833425909280777,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7105889916419983,
+      "step": 507
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 437.2734375,
+      "epoch": 0.248046875,
+      "grad_norm": 22.4048260879023,
+      "kl": 0.0421142578125,
+      "learning_rate": 9.3798828125e-07,
+      "loss": 0.0017,
+      "reward": 1.7356719970703125,
+      "reward_std": 0.14341094344854355,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7512970268726349,
+      "step": 508
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 323.1328125,
+      "epoch": 0.24853515625,
+      "grad_norm": 3.690996101063405,
+      "kl": 0.0587158203125,
+      "learning_rate": 9.378662109375e-07,
+      "loss": 0.0023,
+      "reward": 1.5387169122695923,
+      "reward_std": 0.15988320112228394,
+      "rewards/format_reward": 0.9453125,
+      "rewards/ocr_reward": 0.5934043824672699,
+      "step": 509
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 375.171875,
+      "epoch": 0.2490234375,
+      "grad_norm": 1.760028110863856,
+      "kl": 0.060302734375,
+      "learning_rate": 9.37744140625e-07,
+      "loss": 0.0024,
+      "reward": 1.6823578476905823,
+      "reward_std": 0.13578759506344795,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.690170407295227,
+      "step": 510
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 289.75,
+      "epoch": 0.24951171875,
+      "grad_norm": 1.4416400099241444,
+      "kl": 0.0535888671875,
+      "learning_rate": 9.376220703124999e-07,
+      "loss": 0.0021,
+      "reward": 1.654783546924591,
+      "reward_std": 0.10625720396637917,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6625960469245911,
+      "step": 511
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 268.4140625,
+      "epoch": 0.25,
+      "grad_norm": 1.168208336958592,
+      "kl": 0.05078125,
+      "learning_rate": 9.374999999999999e-07,
+      "loss": 0.002,
+      "reward": 1.5635674595832825,
+      "reward_std": 0.10676468908786774,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.5713800489902496,
+      "step": 512
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 289.8359375,
+      "epoch": 0.25048828125,
+      "grad_norm": 1.2959350822555695,
+      "kl": 0.049560546875,
+      "learning_rate": 9.373779296875e-07,
+      "loss": 0.002,
+      "reward": 1.6148346662521362,
+      "reward_std": 0.05857887305319309,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6148346662521362,
+      "step": 513
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 302.2734375,
+      "epoch": 0.2509765625,
+      "grad_norm": 2.230807942706403,
+      "kl": 0.0537109375,
+      "learning_rate": 9.37255859375e-07,
+      "loss": 0.0021,
+      "reward": 1.7130588293075562,
+      "reward_std": 0.099614929407835,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7130588293075562,
+      "step": 514
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 304.7109375,
+      "epoch": 0.25146484375,
+      "grad_norm": 1.3346796140624877,
+      "kl": 0.0501708984375,
+      "learning_rate": 9.371337890625e-07,
+      "loss": 0.002,
+      "reward": 1.6742193698883057,
+      "reward_std": 0.10047866404056549,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6898443400859833,
+      "step": 515
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 323.84375,
+      "epoch": 0.251953125,
+      "grad_norm": 1.5965524786083076,
+      "kl": 0.0374755859375,
+      "learning_rate": 9.3701171875e-07,
+      "loss": 0.0015,
+      "reward": 1.7269166707992554,
+      "reward_std": 0.09766197204589844,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7347292006015778,
+      "step": 516
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 259.8828125,
+      "epoch": 0.25244140625,
+      "grad_norm": 2.5203178337483747,
+      "kl": 0.040771484375,
+      "learning_rate": 9.368896484374999e-07,
+      "loss": 0.0016,
+      "reward": 1.6974033117294312,
+      "reward_std": 0.03398803994059563,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6974032521247864,
+      "step": 517
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 258.484375,
+      "epoch": 0.2529296875,
+      "grad_norm": 15.724284771000056,
+      "kl": 0.0438232421875,
+      "learning_rate": 9.367675781249999e-07,
+      "loss": 0.0018,
+      "reward": 1.769521713256836,
+      "reward_std": 0.07974059507250786,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7773342132568359,
+      "step": 518
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 278.6484375,
+      "epoch": 0.25341796875,
+      "grad_norm": 12.294650487546035,
+      "kl": 0.041259765625,
+      "learning_rate": 9.366455078124999e-07,
+      "loss": 0.0017,
+      "reward": 1.7424204349517822,
+      "reward_std": 0.07815677672624588,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7424204349517822,
+      "step": 519
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 298.1796875,
+      "epoch": 0.25390625,
+      "grad_norm": 1.9577664086872122,
+      "kl": 0.0418701171875,
+      "learning_rate": 9.365234375e-07,
+      "loss": 0.0017,
+      "reward": 1.5817663669586182,
+      "reward_std": 0.10854971595108509,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.5895789265632629,
+      "step": 520
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 351.546875,
+      "epoch": 0.25439453125,
+      "grad_norm": 1.9802073044830337,
+      "kl": 0.041259765625,
+      "learning_rate": 9.364013671875e-07,
+      "loss": 0.0017,
+      "reward": 1.775498867034912,
+      "reward_std": 0.06388038024306297,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7754988670349121,
+      "step": 521
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 291.640625,
+      "epoch": 0.2548828125,
+      "grad_norm": 6.132107488020418,
+      "kl": 0.054931640625,
+      "learning_rate": 9.36279296875e-07,
+      "loss": 0.0022,
+      "reward": 1.8140791654586792,
+      "reward_std": 0.060922037810087204,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8140791952610016,
+      "step": 522
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 222.2109375,
+      "epoch": 0.25537109375,
+      "grad_norm": 2.228119855943763,
+      "kl": 0.0501708984375,
+      "learning_rate": 9.361572265625e-07,
+      "loss": 0.002,
+      "reward": 1.6406488418579102,
+      "reward_std": 0.0903150886297226,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6406488716602325,
+      "step": 523
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 294.828125,
+      "epoch": 0.255859375,
+      "grad_norm": 3.8874443170507753,
+      "kl": 0.041748046875,
+      "learning_rate": 9.360351562499999e-07,
+      "loss": 0.0017,
+      "reward": 1.7140488624572754,
+      "reward_std": 0.09602710604667664,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7140487730503082,
+      "step": 524
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 343.203125,
+      "epoch": 0.25634765625,
+      "grad_norm": 12.272163041477432,
+      "kl": 0.0487060546875,
+      "learning_rate": 9.359130859374999e-07,
+      "loss": 0.0019,
+      "reward": 1.7117294073104858,
+      "reward_std": 0.10148574784398079,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7195418775081635,
+      "step": 525
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 324.734375,
+      "epoch": 0.2568359375,
+      "grad_norm": 6.216510978293266,
+      "kl": 0.0477294921875,
+      "learning_rate": 9.35791015625e-07,
+      "loss": 0.0019,
+      "reward": 1.6478030681610107,
+      "reward_std": 0.13338213600218296,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6556155979633331,
+      "step": 526
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 312.2421875,
+      "epoch": 0.25732421875,
+      "grad_norm": 1.1994853174094693,
+      "kl": 0.04541015625,
+      "learning_rate": 9.356689453125e-07,
+      "loss": 0.0018,
+      "reward": 1.741489827632904,
+      "reward_std": 0.0871284119784832,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.749302327632904,
+      "step": 527
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 242.640625,
+      "epoch": 0.2578125,
+      "grad_norm": 2.7844412848504008,
+      "kl": 0.0419921875,
+      "learning_rate": 9.35546875e-07,
+      "loss": 0.0017,
+      "reward": 1.6761191487312317,
+      "reward_std": 0.06489459797739983,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6761191487312317,
+      "step": 528
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 371.9921875,
+      "epoch": 0.25830078125,
+      "grad_norm": 2.445482124975617,
+      "kl": 0.05517578125,
+      "learning_rate": 9.354248046875e-07,
+      "loss": 0.0022,
+      "reward": 1.649292767047882,
+      "reward_std": 0.09409752860665321,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6492927670478821,
+      "step": 529
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 318.5234375,
+      "epoch": 0.2587890625,
+      "grad_norm": 3.1389050778274794,
+      "kl": 0.0455322265625,
+      "learning_rate": 9.353027343749999e-07,
+      "loss": 0.0018,
+      "reward": 1.7897993326187134,
+      "reward_std": 0.06516874581575394,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7897992730140686,
+      "step": 530
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 246.453125,
+      "epoch": 0.25927734375,
+      "grad_norm": 5.7428193650994075,
+      "kl": 0.0457763671875,
+      "learning_rate": 9.351806640624999e-07,
+      "loss": 0.0018,
+      "reward": 1.7966364622116089,
+      "reward_std": 0.10276348143815994,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7966364324092865,
+      "step": 531
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 204.8984375,
+      "epoch": 0.259765625,
+      "grad_norm": 2.1752945927652134,
+      "kl": 0.0531005859375,
+      "learning_rate": 9.350585937499999e-07,
+      "loss": 0.0021,
+      "reward": 1.6889333724975586,
+      "reward_std": 0.06486545503139496,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6889333724975586,
+      "step": 532
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 274.84375,
+      "epoch": 0.26025390625,
+      "grad_norm": 1.3878938520937938,
+      "kl": 0.044189453125,
+      "learning_rate": 9.349365234375e-07,
+      "loss": 0.0018,
+      "reward": 1.8459346890449524,
+      "reward_std": 0.03464473132044077,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8459346890449524,
+      "step": 533
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 243.1015625,
+      "epoch": 0.2607421875,
+      "grad_norm": 2.9082227869155868,
+      "kl": 0.03704833984375,
+      "learning_rate": 9.34814453125e-07,
+      "loss": 0.0015,
+      "reward": 1.7827296257019043,
+      "reward_std": 0.05504240095615387,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7827296257019043,
+      "step": 534
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 311.3203125,
+      "epoch": 0.26123046875,
+      "grad_norm": 2.5055735390456455,
+      "kl": 0.046630859375,
+      "learning_rate": 9.346923828125e-07,
+      "loss": 0.0019,
+      "reward": 1.6670472025871277,
+      "reward_std": 0.14498621970415115,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6826722323894501,
+      "step": 535
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 229.328125,
+      "epoch": 0.26171875,
+      "grad_norm": 2.1695056878186287,
+      "kl": 0.05078125,
+      "learning_rate": 9.345703125e-07,
+      "loss": 0.002,
+      "reward": 1.7323461771011353,
+      "reward_std": 0.06361747533082962,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7323460876941681,
+      "step": 536
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 334.4609375,
+      "epoch": 0.26220703125,
+      "grad_norm": 3.3136437260627503,
+      "kl": 0.04931640625,
+      "learning_rate": 9.344482421874999e-07,
+      "loss": 0.002,
+      "reward": 1.7232381105422974,
+      "reward_std": 0.12078379839658737,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7310506999492645,
+      "step": 537
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 308.3515625,
+      "epoch": 0.2626953125,
+      "grad_norm": 2.456324374339407,
+      "kl": 0.04345703125,
+      "learning_rate": 9.343261718749999e-07,
+      "loss": 0.0017,
+      "reward": 1.7056252360343933,
+      "reward_std": 0.09498313069343567,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7056251764297485,
+      "step": 538
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 369.734375,
+      "epoch": 0.26318359375,
+      "grad_norm": 4.079059533712564,
+      "kl": 0.039794921875,
+      "learning_rate": 9.342041015625e-07,
+      "loss": 0.0016,
+      "reward": 1.4682893753051758,
+      "reward_std": 0.1072283387184143,
+      "rewards/format_reward": 0.9375,
+      "rewards/ocr_reward": 0.530789390206337,
+      "step": 539
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 410.2265625,
+      "epoch": 0.263671875,
+      "grad_norm": 10.45654393994142,
+      "kl": 0.0357666015625,
+      "learning_rate": 9.3408203125e-07,
+      "loss": 0.0014,
+      "reward": 1.7631608843803406,
+      "reward_std": 0.13105908036231995,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7787858843803406,
+      "step": 540
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 339.0,
+      "epoch": 0.26416015625,
+      "grad_norm": 1.7102279475438495,
+      "kl": 0.0360107421875,
+      "learning_rate": 9.339599609375e-07,
+      "loss": 0.0014,
+      "reward": 1.6794561743736267,
+      "reward_std": 0.06675281748175621,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6794561147689819,
+      "step": 541
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 331.3828125,
+      "epoch": 0.2646484375,
+      "grad_norm": 4.522944699128447,
+      "kl": 0.04443359375,
+      "learning_rate": 9.33837890625e-07,
+      "loss": 0.0018,
+      "reward": 1.7426947355270386,
+      "reward_std": 0.08230987191200256,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7426947355270386,
+      "step": 542
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 279.65625,
+      "epoch": 0.26513671875,
+      "grad_norm": 2.6650826688792857,
+      "kl": 0.0450439453125,
+      "learning_rate": 9.337158203124999e-07,
+      "loss": 0.0018,
+      "reward": 1.7618120908737183,
+      "reward_std": 0.06165020540356636,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7618121206760406,
+      "step": 543
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 284.5078125,
+      "epoch": 0.265625,
+      "grad_norm": 2.037006291879131,
+      "kl": 0.051025390625,
+      "learning_rate": 9.335937499999999e-07,
+      "loss": 0.002,
+      "reward": 1.646928310394287,
+      "reward_std": 0.17904935777187347,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6469283103942871,
+      "step": 544
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 330.9140625,
+      "epoch": 0.26611328125,
+      "grad_norm": 2.297298122509907,
+      "kl": 0.039306640625,
+      "learning_rate": 9.334716796874999e-07,
+      "loss": 0.0016,
+      "reward": 1.6567280888557434,
+      "reward_std": 0.10316119715571404,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6567280292510986,
+      "step": 545
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 326.3125,
+      "epoch": 0.2666015625,
+      "grad_norm": 2.660291456006694,
+      "kl": 0.039306640625,
+      "learning_rate": 9.33349609375e-07,
+      "loss": 0.0016,
+      "reward": 1.823375165462494,
+      "reward_std": 0.05490726791322231,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8233751654624939,
+      "step": 546
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 266.1640625,
+      "epoch": 0.26708984375,
+      "grad_norm": 6.13270694396882,
+      "kl": 0.0443115234375,
+      "learning_rate": 9.332275390625e-07,
+      "loss": 0.0018,
+      "reward": 1.6771809458732605,
+      "reward_std": 0.0902215950191021,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6771808862686157,
+      "step": 547
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 361.15625,
+      "epoch": 0.267578125,
+      "grad_norm": 2.2633016069892777,
+      "kl": 0.0455322265625,
+      "learning_rate": 9.3310546875e-07,
+      "loss": 0.0018,
+      "reward": 1.6595528721809387,
+      "reward_std": 0.12929360568523407,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6673653721809387,
+      "step": 548
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 318.203125,
+      "epoch": 0.26806640625,
+      "grad_norm": 2.805590510649819,
+      "kl": 0.0498046875,
+      "learning_rate": 9.329833984375e-07,
+      "loss": 0.002,
+      "reward": 1.7251054048538208,
+      "reward_std": 0.10590995103120804,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7407303750514984,
+      "step": 549
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 342.640625,
+      "epoch": 0.2685546875,
+      "grad_norm": 1.5868774720575003,
+      "kl": 0.045166015625,
+      "learning_rate": 9.328613281249999e-07,
+      "loss": 0.0018,
+      "reward": 1.5312697887420654,
+      "reward_std": 0.10218230821192265,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.5390822738409042,
+      "step": 550
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 282.6171875,
+      "epoch": 0.26904296875,
+      "grad_norm": 5.217204405936032,
+      "kl": 0.0523681640625,
+      "learning_rate": 9.327392578124999e-07,
+      "loss": 0.0021,
+      "reward": 1.6690084338188171,
+      "reward_std": 0.11925657838582993,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.7002584338188171,
+      "step": 551
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 205.0625,
+      "epoch": 0.26953125,
+      "grad_norm": 2.332959009144248,
+      "kl": 0.05322265625,
+      "learning_rate": 9.326171874999999e-07,
+      "loss": 0.0021,
+      "reward": 1.7313638925552368,
+      "reward_std": 0.06417965516448021,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7313639223575592,
+      "step": 552
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 242.2421875,
+      "epoch": 0.27001953125,
+      "grad_norm": 2.6193153669407203,
+      "kl": 0.0447998046875,
+      "learning_rate": 9.324951171875e-07,
+      "loss": 0.0018,
+      "reward": 1.7203855514526367,
+      "reward_std": 0.07075966894626617,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7203856408596039,
+      "step": 553
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 316.3515625,
+      "epoch": 0.2705078125,
+      "grad_norm": 2.5899560028614697,
+      "kl": 0.0489501953125,
+      "learning_rate": 9.32373046875e-07,
+      "loss": 0.002,
+      "reward": 1.6837428212165833,
+      "reward_std": 0.11842398717999458,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7071803212165833,
+      "step": 554
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 243.625,
+      "epoch": 0.27099609375,
+      "grad_norm": 2.498447085669372,
+      "kl": 0.0595703125,
+      "learning_rate": 9.322509765625e-07,
+      "loss": 0.0024,
+      "reward": 1.6304301023483276,
+      "reward_std": 0.07888209074735641,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6304300427436829,
+      "step": 555
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 241.5,
+      "epoch": 0.271484375,
+      "grad_norm": 4.097199567462612,
+      "kl": 0.072021484375,
+      "learning_rate": 9.321289062499999e-07,
+      "loss": 0.0029,
+      "reward": 1.775884211063385,
+      "reward_std": 0.07060272060334682,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7758842408657074,
+      "step": 556
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 290.3046875,
+      "epoch": 0.27197265625,
+      "grad_norm": 4.5439033784171095,
+      "kl": 0.0517578125,
+      "learning_rate": 9.320068359374999e-07,
+      "loss": 0.0021,
+      "reward": 1.6852914690971375,
+      "reward_std": 0.1067960262298584,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6852914988994598,
+      "step": 557
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 285.8046875,
+      "epoch": 0.2724609375,
+      "grad_norm": 1.7251350694603302,
+      "kl": 0.049560546875,
+      "learning_rate": 9.318847656249999e-07,
+      "loss": 0.002,
+      "reward": 1.6576202511787415,
+      "reward_std": 0.09488710761070251,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6654327809810638,
+      "step": 558
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 363.03125,
+      "epoch": 0.27294921875,
+      "grad_norm": 3.92150434058649,
+      "kl": 0.041015625,
+      "learning_rate": 9.317626953125e-07,
+      "loss": 0.0016,
+      "reward": 1.5969886183738708,
+      "reward_std": 0.12209014222025871,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6126136183738708,
+      "step": 559
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 334.3359375,
+      "epoch": 0.2734375,
+      "grad_norm": 2.585612743662862,
+      "kl": 0.0447998046875,
+      "learning_rate": 9.31640625e-07,
+      "loss": 0.0018,
+      "reward": 1.6855441331863403,
+      "reward_std": 0.11337171494960785,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6855441033840179,
+      "step": 560
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 401.21875,
+      "epoch": 0.27392578125,
+      "grad_norm": 5.285724233905254,
+      "kl": 0.03778076171875,
+      "learning_rate": 9.315185546875e-07,
+      "loss": 0.0015,
+      "reward": 1.64777010679245,
+      "reward_std": 0.22076285630464554,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.69464510679245,
+      "step": 561
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 252.671875,
+      "epoch": 0.2744140625,
+      "grad_norm": 1.8126430914250469,
+      "kl": 0.0450439453125,
+      "learning_rate": 9.31396484375e-07,
+      "loss": 0.0018,
+      "reward": 1.7356610298156738,
+      "reward_std": 0.10725349560379982,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7356610596179962,
+      "step": 562
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 337.71875,
+      "epoch": 0.27490234375,
+      "grad_norm": 1.9656321676605797,
+      "kl": 0.05322265625,
+      "learning_rate": 9.312744140624999e-07,
+      "loss": 0.0021,
+      "reward": 1.6761003732681274,
+      "reward_std": 0.07711060158908367,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6761003732681274,
+      "step": 563
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 270.0390625,
+      "epoch": 0.275390625,
+      "grad_norm": 3.2377061229845836,
+      "kl": 0.0592041015625,
+      "learning_rate": 9.311523437499999e-07,
+      "loss": 0.0024,
+      "reward": 1.6362444162368774,
+      "reward_std": 0.10095639899373055,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6518694162368774,
+      "step": 564
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 297.8671875,
+      "epoch": 0.27587890625,
+      "grad_norm": 25.909912449399112,
+      "kl": 0.05029296875,
+      "learning_rate": 9.310302734374999e-07,
+      "loss": 0.002,
+      "reward": 1.686921238899231,
+      "reward_std": 0.07121211476624012,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.686921238899231,
+      "step": 565
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 339.859375,
+      "epoch": 0.2763671875,
+      "grad_norm": 2.2331716793343084,
+      "kl": 0.0450439453125,
+      "learning_rate": 9.30908203125e-07,
+      "loss": 0.0018,
+      "reward": 1.7039056420326233,
+      "reward_std": 0.06212746538221836,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7039056420326233,
+      "step": 566
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 307.9453125,
+      "epoch": 0.27685546875,
+      "grad_norm": 2.2291085862491617,
+      "kl": 0.04150390625,
+      "learning_rate": 9.307861328125e-07,
+      "loss": 0.0017,
+      "reward": 1.7227251529693604,
+      "reward_std": 0.1121636014431715,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7383500933647156,
+      "step": 567
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 312.796875,
+      "epoch": 0.27734375,
+      "grad_norm": 1.3421158309646601,
+      "kl": 0.0401611328125,
+      "learning_rate": 9.306640625e-07,
+      "loss": 0.0016,
+      "reward": 1.570694386959076,
+      "reward_std": 0.1121312715113163,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.6019443571567535,
+      "step": 568
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 198.0625,
+      "epoch": 0.27783203125,
+      "grad_norm": 1.5020919887284745,
+      "kl": 0.0501708984375,
+      "learning_rate": 9.305419921875e-07,
+      "loss": 0.002,
+      "reward": 1.8749535083770752,
+      "reward_std": 0.025433492846786976,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8749535381793976,
+      "step": 569
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 336.2734375,
+      "epoch": 0.2783203125,
+      "grad_norm": 2.342753166145787,
+      "kl": 0.0411376953125,
+      "learning_rate": 9.304199218749999e-07,
+      "loss": 0.0016,
+      "reward": 1.8102790713310242,
+      "reward_std": 0.09545211121439934,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8180915713310242,
+      "step": 570
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 220.03125,
+      "epoch": 0.27880859375,
+      "grad_norm": 2.2742980387573652,
+      "kl": 0.0556640625,
+      "learning_rate": 9.302978515624999e-07,
+      "loss": 0.0022,
+      "reward": 1.8116941452026367,
+      "reward_std": 0.09244917519390583,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8116941154003143,
+      "step": 571
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 308.5859375,
+      "epoch": 0.279296875,
+      "grad_norm": 9.595557459930381,
+      "kl": 0.0496826171875,
+      "learning_rate": 9.3017578125e-07,
+      "loss": 0.002,
+      "reward": 1.6191758513450623,
+      "reward_std": 0.09628532081842422,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6348008215427399,
+      "step": 572
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 182.3671875,
+      "epoch": 0.27978515625,
+      "grad_norm": 18.896318107676453,
+      "kl": 0.068115234375,
+      "learning_rate": 9.300537109375e-07,
+      "loss": 0.0027,
+      "reward": 1.7079237699508667,
+      "reward_std": 0.1069163903594017,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7079237401485443,
+      "step": 573
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 245.5234375,
+      "epoch": 0.2802734375,
+      "grad_norm": 0.8129066081542312,
+      "kl": 0.0462646484375,
+      "learning_rate": 9.29931640625e-07,
+      "loss": 0.0018,
+      "reward": 1.6988362073898315,
+      "reward_std": 0.011203366797417402,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6988362371921539,
+      "step": 574
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 209.3984375,
+      "epoch": 0.28076171875,
+      "grad_norm": 0.993947791093584,
+      "kl": 0.06201171875,
+      "learning_rate": 9.298095703125e-07,
+      "loss": 0.0025,
+      "reward": 1.794031023979187,
+      "reward_std": 0.08120781742036343,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.8174684643745422,
+      "step": 575
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 365.640625,
+      "epoch": 0.28125,
+      "grad_norm": 6.676572461323387,
+      "kl": 0.040283203125,
+      "learning_rate": 9.296874999999999e-07,
+      "loss": 0.0016,
+      "reward": 1.726797878742218,
+      "reward_std": 0.08194676041603088,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.726797878742218,
+      "step": 576
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 246.9609375,
+      "epoch": 0.28173828125,
+      "grad_norm": 1.5079255512272232,
+      "kl": 0.060791015625,
+      "learning_rate": 9.295654296874999e-07,
+      "loss": 0.0024,
+      "reward": 1.7783808708190918,
+      "reward_std": 0.049073804169893265,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7783808708190918,
+      "step": 577
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 367.9296875,
+      "epoch": 0.2822265625,
+      "grad_norm": 1.3798475015598377,
+      "kl": 0.0418701171875,
+      "learning_rate": 9.294433593749999e-07,
+      "loss": 0.0017,
+      "reward": 1.7986710667610168,
+      "reward_std": 0.03962104860693216,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7986710667610168,
+      "step": 578
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 281.7578125,
+      "epoch": 0.28271484375,
+      "grad_norm": 2.505394028512915,
+      "kl": 0.0567626953125,
+      "learning_rate": 9.293212890625e-07,
+      "loss": 0.0023,
+      "reward": 1.6889582872390747,
+      "reward_std": 0.07442482188344002,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6889582574367523,
+      "step": 579
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 361.0390625,
+      "epoch": 0.283203125,
+      "grad_norm": 1.8850278687560447,
+      "kl": 0.0411376953125,
+      "learning_rate": 9.2919921875e-07,
+      "loss": 0.0016,
+      "reward": 1.6971967816352844,
+      "reward_std": 0.09730785340070724,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6971967816352844,
+      "step": 580
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 300.4609375,
+      "epoch": 0.28369140625,
+      "grad_norm": 1.7641909702416805,
+      "kl": 0.0494384765625,
+      "learning_rate": 9.290771484375e-07,
+      "loss": 0.002,
+      "reward": 1.7254841923713684,
+      "reward_std": 0.09819715097546577,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7332966923713684,
+      "step": 581
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 210.7109375,
+      "epoch": 0.2841796875,
+      "grad_norm": 1.5034625672902855,
+      "kl": 0.044677734375,
+      "learning_rate": 9.28955078125e-07,
+      "loss": 0.0018,
+      "reward": 1.6941693425178528,
+      "reward_std": 0.11884243786334991,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6941693425178528,
+      "step": 582
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 342.484375,
+      "epoch": 0.28466796875,
+      "grad_norm": 1.8739175117936375,
+      "kl": 0.056640625,
+      "learning_rate": 9.288330078124999e-07,
+      "loss": 0.0023,
+      "reward": 1.7098997831344604,
+      "reward_std": 0.13007067143917084,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.7489623129367828,
+      "step": 583
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 243.8828125,
+      "epoch": 0.28515625,
+      "grad_norm": 3.302249530616915,
+      "kl": 0.0550537109375,
+      "learning_rate": 9.287109374999999e-07,
+      "loss": 0.0022,
+      "reward": 1.8262977600097656,
+      "reward_std": 0.07570694014430046,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8262978196144104,
+      "step": 584
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 271.34375,
+      "epoch": 0.28564453125,
+      "grad_norm": 2.3247621756543406,
+      "kl": 0.039794921875,
+      "learning_rate": 9.285888671875e-07,
+      "loss": 0.0016,
+      "reward": 1.691820740699768,
+      "reward_std": 0.10432455316185951,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6918207406997681,
+      "step": 585
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 252.078125,
+      "epoch": 0.2861328125,
+      "grad_norm": 2.919815872077742,
+      "kl": 0.0537109375,
+      "learning_rate": 9.28466796875e-07,
+      "loss": 0.0021,
+      "reward": 1.8132377862930298,
+      "reward_std": 0.0450489092618227,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8132377862930298,
+      "step": 586
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 260.9453125,
+      "epoch": 0.28662109375,
+      "grad_norm": 2.315450631479818,
+      "kl": 0.0491943359375,
+      "learning_rate": 9.283447265625e-07,
+      "loss": 0.002,
+      "reward": 1.567336082458496,
+      "reward_std": 0.04566051810979843,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.5673360526561737,
+      "step": 587
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 269.9453125,
+      "epoch": 0.287109375,
+      "grad_norm": 4.866170468108119,
+      "kl": 0.0443115234375,
+      "learning_rate": 9.2822265625e-07,
+      "loss": 0.0018,
+      "reward": 1.7104328870773315,
+      "reward_std": 0.047424353659152985,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7104328274726868,
+      "step": 588
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 320.1484375,
+      "epoch": 0.28759765625,
+      "grad_norm": 2.464877601750045,
+      "kl": 0.0465087890625,
+      "learning_rate": 9.281005859374999e-07,
+      "loss": 0.0019,
+      "reward": 1.6946337819099426,
+      "reward_std": 0.13272637128829956,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.7258838415145874,
+      "step": 589
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 371.453125,
+      "epoch": 0.2880859375,
+      "grad_norm": 2.8034456562750654,
+      "kl": 0.037841796875,
+      "learning_rate": 9.279785156249999e-07,
+      "loss": 0.0015,
+      "reward": 1.7395535707473755,
+      "reward_std": 0.10018676891922951,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7473660111427307,
+      "step": 590
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 315.546875,
+      "epoch": 0.28857421875,
+      "grad_norm": 7.447215195080596,
+      "kl": 0.043701171875,
+      "learning_rate": 9.278564453124999e-07,
+      "loss": 0.0017,
+      "reward": 1.69717139005661,
+      "reward_std": 0.09286946710199118,
+      "rewards/format_reward": 0.9453125,
+      "rewards/ocr_reward": 0.7518589496612549,
+      "step": 591
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 220.8125,
+      "epoch": 0.2890625,
+      "grad_norm": 1.4897448677701148,
+      "kl": 0.0584716796875,
+      "learning_rate": 9.27734375e-07,
+      "loss": 0.0023,
+      "reward": 1.7233901023864746,
+      "reward_std": 0.04082547128200531,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7233900725841522,
+      "step": 592
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 360.1953125,
+      "epoch": 0.28955078125,
+      "grad_norm": 3.7207228740501317,
+      "kl": 0.0531005859375,
+      "learning_rate": 9.276123046875e-07,
+      "loss": 0.0021,
+      "reward": 1.641968011856079,
+      "reward_std": 0.1139497272670269,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6575929820537567,
+      "step": 593
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 379.921875,
+      "epoch": 0.2900390625,
+      "grad_norm": 2.237099552618115,
+      "kl": 0.03662109375,
+      "learning_rate": 9.27490234375e-07,
+      "loss": 0.0015,
+      "reward": 1.646517038345337,
+      "reward_std": 0.28582026064395905,
+      "rewards/format_reward": 0.9375,
+      "rewards/ocr_reward": 0.7090170085430145,
+      "step": 594
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 272.109375,
+      "epoch": 0.29052734375,
+      "grad_norm": 3.3208620909986246,
+      "kl": 0.0455322265625,
+      "learning_rate": 9.273681640625e-07,
+      "loss": 0.0018,
+      "reward": 1.6810371279716492,
+      "reward_std": 0.08739523217082024,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6810370683670044,
+      "step": 595
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 261.03125,
+      "epoch": 0.291015625,
+      "grad_norm": 0.9791867105353927,
+      "kl": 0.04736328125,
+      "learning_rate": 9.272460937499999e-07,
+      "loss": 0.0019,
+      "reward": 1.8734647035598755,
+      "reward_std": 0.031122705899178982,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8734646737575531,
+      "step": 596
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 302.09375,
+      "epoch": 0.29150390625,
+      "grad_norm": 2.1825079397965843,
+      "kl": 0.0369873046875,
+      "learning_rate": 9.271240234374999e-07,
+      "loss": 0.0015,
+      "reward": 1.8181806802749634,
+      "reward_std": 0.06168582662940025,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8181805908679962,
+      "step": 597
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 272.9296875,
+      "epoch": 0.2919921875,
+      "grad_norm": 2.584490232315663,
+      "kl": 0.044677734375,
+      "learning_rate": 9.27001953125e-07,
+      "loss": 0.0018,
+      "reward": 1.6417737007141113,
+      "reward_std": 0.03647463582456112,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6417737007141113,
+      "step": 598
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 256.6953125,
+      "epoch": 0.29248046875,
+      "grad_norm": 2.4277242597465607,
+      "kl": 0.0513916015625,
+      "learning_rate": 9.268798828125e-07,
+      "loss": 0.0021,
+      "reward": 1.7535077929496765,
+      "reward_std": 0.08582048118114471,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7535077333450317,
+      "step": 599
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 274.9609375,
+      "epoch": 0.29296875,
+      "grad_norm": 12.486389397389315,
+      "kl": 0.0555419921875,
+      "learning_rate": 9.267578125e-07,
+      "loss": 0.0022,
+      "reward": 1.7247052192687988,
+      "reward_std": 0.06530194543302059,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.724705159664154,
+      "step": 600
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 321.46875,
+      "epoch": 0.29345703125,
+      "grad_norm": 2.0579889539520035,
+      "kl": 0.04736328125,
+      "learning_rate": 9.266357421875e-07,
+      "loss": 0.0019,
+      "reward": 1.7377859354019165,
+      "reward_std": 0.08668200299143791,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7377859652042389,
+      "step": 601
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 364.4296875,
+      "epoch": 0.2939453125,
+      "grad_norm": 1.2811733254368138,
+      "kl": 0.035400390625,
+      "learning_rate": 9.265136718749999e-07,
+      "loss": 0.0014,
+      "reward": 1.6522246599197388,
+      "reward_std": 0.10386989638209343,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.660037100315094,
+      "step": 602
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 327.015625,
+      "epoch": 0.29443359375,
+      "grad_norm": 2.525240888001395,
+      "kl": 0.0458984375,
+      "learning_rate": 9.263916015624999e-07,
+      "loss": 0.0018,
+      "reward": 1.655815601348877,
+      "reward_std": 0.11304668337106705,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6636281311511993,
+      "step": 603
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 271.46875,
+      "epoch": 0.294921875,
+      "grad_norm": 10.03655987535627,
+      "kl": 0.0621337890625,
+      "learning_rate": 9.262695312499999e-07,
+      "loss": 0.0025,
+      "reward": 1.736948013305664,
+      "reward_std": 0.16118024289608002,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.7681980729103088,
+      "step": 604
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 334.9765625,
+      "epoch": 0.29541015625,
+      "grad_norm": 3.25054352753453,
+      "kl": 0.04638671875,
+      "learning_rate": 9.261474609375e-07,
+      "loss": 0.0019,
+      "reward": 1.6929279565811157,
+      "reward_std": 0.08746526017785072,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7007405161857605,
+      "step": 605
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 292.3359375,
+      "epoch": 0.2958984375,
+      "grad_norm": 1.9216710744456194,
+      "kl": 0.0396728515625,
+      "learning_rate": 9.26025390625e-07,
+      "loss": 0.0016,
+      "reward": 1.7309820652008057,
+      "reward_std": 0.08170492202043533,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7309820353984833,
+      "step": 606
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 299.8359375,
+      "epoch": 0.29638671875,
+      "grad_norm": 1.833893246452737,
+      "kl": 0.0567626953125,
+      "learning_rate": 9.259033203125e-07,
+      "loss": 0.0023,
+      "reward": 1.6237656474113464,
+      "reward_std": 0.07675194926559925,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6237656772136688,
+      "step": 607
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 284.375,
+      "epoch": 0.296875,
+      "grad_norm": 5.031728369153867,
+      "kl": 0.052734375,
+      "learning_rate": 9.2578125e-07,
+      "loss": 0.0021,
+      "reward": 1.7372384667396545,
+      "reward_std": 0.07356595061719418,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7450509369373322,
+      "step": 608
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 306.8359375,
+      "epoch": 0.29736328125,
+      "grad_norm": 2.248212440247843,
+      "kl": 0.05078125,
+      "learning_rate": 9.256591796874999e-07,
+      "loss": 0.002,
+      "reward": 1.7162050604820251,
+      "reward_std": 0.0456718523055315,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7162051498889923,
+      "step": 609
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 238.515625,
+      "epoch": 0.2978515625,
+      "grad_norm": 1.7714015306015924,
+      "kl": 0.0457763671875,
+      "learning_rate": 9.255371093749999e-07,
+      "loss": 0.0018,
+      "reward": 1.6449219584465027,
+      "reward_std": 0.04260050132870674,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6449219286441803,
+      "step": 610
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 275.484375,
+      "epoch": 0.29833984375,
+      "grad_norm": 2.296362418962897,
+      "kl": 0.0465087890625,
+      "learning_rate": 9.254150390625e-07,
+      "loss": 0.0019,
+      "reward": 1.755751132965088,
+      "reward_std": 0.11303677409887314,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7557511329650879,
+      "step": 611
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 311.6171875,
+      "epoch": 0.298828125,
+      "grad_norm": 2.6229221995817738,
+      "kl": 0.047607421875,
+      "learning_rate": 9.2529296875e-07,
+      "loss": 0.0019,
+      "reward": 1.6748383045196533,
+      "reward_std": 0.08769623376429081,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6826508045196533,
+      "step": 612
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 305.8203125,
+      "epoch": 0.29931640625,
+      "grad_norm": 2.472905090535034,
+      "kl": 0.0384521484375,
+      "learning_rate": 9.251708984375e-07,
+      "loss": 0.0015,
+      "reward": 1.675347626209259,
+      "reward_std": 0.06301023997366428,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6753476560115814,
+      "step": 613
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 247.7578125,
+      "epoch": 0.2998046875,
+      "grad_norm": 1.968304299505306,
+      "kl": 0.060791015625,
+      "learning_rate": 9.25048828125e-07,
+      "loss": 0.0024,
+      "reward": 1.7971341013908386,
+      "reward_std": 0.04744567163288593,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7971341013908386,
+      "step": 614
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 292.796875,
+      "epoch": 0.30029296875,
+      "grad_norm": 4.384171526185067,
+      "kl": 0.051025390625,
+      "learning_rate": 9.249267578124999e-07,
+      "loss": 0.002,
+      "reward": 1.5328530669212341,
+      "reward_std": 0.06077993102371693,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.5328530073165894,
+      "step": 615
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 349.578125,
+      "epoch": 0.30078125,
+      "grad_norm": 9.232583830494594,
+      "kl": 0.0443115234375,
+      "learning_rate": 9.248046874999999e-07,
+      "loss": 0.0018,
+      "reward": 1.686236560344696,
+      "reward_std": 0.046148573979735374,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6862365305423737,
+      "step": 616
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 271.75,
+      "epoch": 0.30126953125,
+      "grad_norm": 1.5236429587824718,
+      "kl": 0.0550537109375,
+      "learning_rate": 9.246826171874999e-07,
+      "loss": 0.0022,
+      "reward": 1.7975013256072998,
+      "reward_std": 0.045856970362365246,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7975013852119446,
+      "step": 617
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 295.796875,
+      "epoch": 0.3017578125,
+      "grad_norm": 4.24143148058318,
+      "kl": 0.0596923828125,
+      "learning_rate": 9.24560546875e-07,
+      "loss": 0.0024,
+      "reward": 1.7057366967201233,
+      "reward_std": 0.09794734045863152,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7057366371154785,
+      "step": 618
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 251.40625,
+      "epoch": 0.30224609375,
+      "grad_norm": 9.882057657700463,
+      "kl": 0.055908203125,
+      "learning_rate": 9.244384765625e-07,
+      "loss": 0.0022,
+      "reward": 1.6871796250343323,
+      "reward_std": 0.0694831982254982,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6871796250343323,
+      "step": 619
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 291.8359375,
+      "epoch": 0.302734375,
+      "grad_norm": 1.9889738924594182,
+      "kl": 0.0484619140625,
+      "learning_rate": 9.2431640625e-07,
+      "loss": 0.0019,
+      "reward": 1.784572958946228,
+      "reward_std": 0.05175241082906723,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7845728695392609,
+      "step": 620
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 333.1484375,
+      "epoch": 0.30322265625,
+      "grad_norm": 2.316432033456783,
+      "kl": 0.0416259765625,
+      "learning_rate": 9.241943359375e-07,
+      "loss": 0.0017,
+      "reward": 1.8488008379936218,
+      "reward_std": 0.06617510505020618,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8488008677959442,
+      "step": 621
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 310.6953125,
+      "epoch": 0.3037109375,
+      "grad_norm": 2.9435316736306847,
+      "kl": 0.05517578125,
+      "learning_rate": 9.240722656249999e-07,
+      "loss": 0.0022,
+      "reward": 1.6083208918571472,
+      "reward_std": 0.15882696211338043,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6239458322525024,
+      "step": 622
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 209.2734375,
+      "epoch": 0.30419921875,
+      "grad_norm": 2.620065207948406,
+      "kl": 0.05712890625,
+      "learning_rate": 9.239501953124999e-07,
+      "loss": 0.0023,
+      "reward": 1.5121939182281494,
+      "reward_std": 0.08841052651405334,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.5121939033269882,
+      "step": 623
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 396.5,
+      "epoch": 0.3046875,
+      "grad_norm": 1.706973036482709,
+      "kl": 0.0498046875,
+      "learning_rate": 9.23828125e-07,
+      "loss": 0.002,
+      "reward": 1.7409059405326843,
+      "reward_std": 0.14900105446577072,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7487184107303619,
+      "step": 624
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 208.3359375,
+      "epoch": 0.30517578125,
+      "grad_norm": 1.697511564265202,
+      "kl": 0.0692138671875,
+      "learning_rate": 9.237060546875e-07,
+      "loss": 0.0028,
+      "reward": 1.623015284538269,
+      "reward_std": 0.08251120336353779,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6230152547359467,
+      "step": 625
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 280.28125,
+      "epoch": 0.3056640625,
+      "grad_norm": 1.6225110716919982,
+      "kl": 0.0494384765625,
+      "learning_rate": 9.23583984375e-07,
+      "loss": 0.002,
+      "reward": 1.8155426383018494,
+      "reward_std": 0.040754200890660286,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8155426383018494,
+      "step": 626
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 219.4296875,
+      "epoch": 0.30615234375,
+      "grad_norm": 5.245194521239568,
+      "kl": 0.0635986328125,
+      "learning_rate": 9.234619140625e-07,
+      "loss": 0.0025,
+      "reward": 1.7196524143218994,
+      "reward_std": 0.16773709654808044,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7274648249149323,
+      "step": 627
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 366.7109375,
+      "epoch": 0.306640625,
+      "grad_norm": 2.495211042283095,
+      "kl": 0.041748046875,
+      "learning_rate": 9.233398437499999e-07,
+      "loss": 0.0017,
+      "reward": 1.7418628334999084,
+      "reward_std": 0.06394334509968758,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7418628334999084,
+      "step": 628
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 318.515625,
+      "epoch": 0.30712890625,
+      "grad_norm": 1.074724101016986,
+      "kl": 0.0457763671875,
+      "learning_rate": 9.232177734374999e-07,
+      "loss": 0.0018,
+      "reward": 1.6888737678527832,
+      "reward_std": 0.15227380208671093,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6966862678527832,
+      "step": 629
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 252.9765625,
+      "epoch": 0.3076171875,
+      "grad_norm": 2.138600967420769,
+      "kl": 0.05224609375,
+      "learning_rate": 9.230957031249999e-07,
+      "loss": 0.0021,
+      "reward": 1.528347134590149,
+      "reward_std": 0.06925049610435963,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.5283471196889877,
+      "step": 630
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 299.2109375,
+      "epoch": 0.30810546875,
+      "grad_norm": 2.2724969029807904,
+      "kl": 0.050048828125,
+      "learning_rate": 9.229736328125e-07,
+      "loss": 0.002,
+      "reward": 1.6192744374275208,
+      "reward_std": 0.10097651556134224,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6270869076251984,
+      "step": 631
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 354.6796875,
+      "epoch": 0.30859375,
+      "grad_norm": 4.734654446629603,
+      "kl": 0.0465087890625,
+      "learning_rate": 9.228515625e-07,
+      "loss": 0.0019,
+      "reward": 1.5857577323913574,
+      "reward_std": 0.14710739254951477,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.5935702323913574,
+      "step": 632
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 280.828125,
+      "epoch": 0.30908203125,
+      "grad_norm": 1.3342057084147274,
+      "kl": 0.0533447265625,
+      "learning_rate": 9.227294921875e-07,
+      "loss": 0.0021,
+      "reward": 1.7136409878730774,
+      "reward_std": 0.10766054317355156,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7292659878730774,
+      "step": 633
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 340.0703125,
+      "epoch": 0.3095703125,
+      "grad_norm": 1.5671664183297946,
+      "kl": 0.0543212890625,
+      "learning_rate": 9.22607421875e-07,
+      "loss": 0.0022,
+      "reward": 1.7468852996826172,
+      "reward_std": 0.1310337483882904,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.76251021027565,
+      "step": 634
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 294.53125,
+      "epoch": 0.31005859375,
+      "grad_norm": 1.1794567116723214,
+      "kl": 0.0552978515625,
+      "learning_rate": 9.224853515624999e-07,
+      "loss": 0.0022,
+      "reward": 1.6757075786590576,
+      "reward_std": 0.07465480640530586,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6757076382637024,
+      "step": 635
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 350.1328125,
+      "epoch": 0.310546875,
+      "grad_norm": 1.1485463519752817,
+      "kl": 0.0455322265625,
+      "learning_rate": 9.223632812499999e-07,
+      "loss": 0.0018,
+      "reward": 1.8436731696128845,
+      "reward_std": 0.05472866632044315,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8436731696128845,
+      "step": 636
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 242.2265625,
+      "epoch": 0.31103515625,
+      "grad_norm": 1.6053099530571169,
+      "kl": 0.04443359375,
+      "learning_rate": 9.222412109375e-07,
+      "loss": 0.0018,
+      "reward": 1.828328251838684,
+      "reward_std": 0.07346354052424431,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8283282518386841,
+      "step": 637
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 334.484375,
+      "epoch": 0.3115234375,
+      "grad_norm": 2.3253920128947945,
+      "kl": 0.053466796875,
+      "learning_rate": 9.22119140625e-07,
+      "loss": 0.0021,
+      "reward": 1.528764247894287,
+      "reward_std": 0.16795818135142326,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.5678267776966095,
+      "step": 638
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 256.125,
+      "epoch": 0.31201171875,
+      "grad_norm": 6.0280239889864164,
+      "kl": 0.058837890625,
+      "learning_rate": 9.219970703125e-07,
+      "loss": 0.0024,
+      "reward": 1.783986210823059,
+      "reward_std": 0.06189366802573204,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7917985916137695,
+      "step": 639
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 326.7109375,
+      "epoch": 0.3125,
+      "grad_norm": 2.344773690623761,
+      "kl": 0.04766845703125,
+      "learning_rate": 9.21875e-07,
+      "loss": 0.0019,
+      "reward": 1.6732546091079712,
+      "reward_std": 0.20847465842962265,
+      "rewards/format_reward": 0.9453125,
+      "rewards/ocr_reward": 0.7279421091079712,
+      "step": 640
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 233.515625,
+      "epoch": 0.31298828125,
+      "grad_norm": 7.004317625286649,
+      "kl": 0.041259765625,
+      "learning_rate": 9.217529296874999e-07,
+      "loss": 0.0016,
+      "reward": 1.760383129119873,
+      "reward_std": 0.04730805940926075,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7603830993175507,
+      "step": 641
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 302.4140625,
+      "epoch": 0.3134765625,
+      "grad_norm": 3.3601207436539684,
+      "kl": 0.0477294921875,
+      "learning_rate": 9.216308593749999e-07,
+      "loss": 0.0019,
+      "reward": 1.750933825969696,
+      "reward_std": 0.04815097339451313,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7509337961673737,
+      "step": 642
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 244.2265625,
+      "epoch": 0.31396484375,
+      "grad_norm": 1.5510742673980848,
+      "kl": 0.059814453125,
+      "learning_rate": 9.215087890624999e-07,
+      "loss": 0.0024,
+      "reward": 1.720008671283722,
+      "reward_std": 0.04548669047653675,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7200086712837219,
+      "step": 643
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 344.296875,
+      "epoch": 0.314453125,
+      "grad_norm": 1.4934380093652202,
+      "kl": 0.055419921875,
+      "learning_rate": 9.2138671875e-07,
+      "loss": 0.0022,
+      "reward": 1.7194246053695679,
+      "reward_std": 0.11597402952611446,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7350495755672455,
+      "step": 644
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 271.40625,
+      "epoch": 0.31494140625,
+      "grad_norm": 2.2139528602712155,
+      "kl": 0.0509033203125,
+      "learning_rate": 9.212646484375e-07,
+      "loss": 0.002,
+      "reward": 1.7015312910079956,
+      "reward_std": 0.03155198786407709,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7015312910079956,
+      "step": 645
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 261.7578125,
+      "epoch": 0.3154296875,
+      "grad_norm": 1.1749981752079521,
+      "kl": 0.0499267578125,
+      "learning_rate": 9.21142578125e-07,
+      "loss": 0.002,
+      "reward": 1.6304461359977722,
+      "reward_std": 0.12662875652313232,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.6538836359977722,
+      "step": 646
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 458.6484375,
+      "epoch": 0.31591796875,
+      "grad_norm": 1.9319087488376623,
+      "kl": 0.0384521484375,
+      "learning_rate": 9.210205078125e-07,
+      "loss": 0.0015,
+      "reward": 1.594020962715149,
+      "reward_std": 0.20690031349658966,
+      "rewards/format_reward": 0.9453125,
+      "rewards/ocr_reward": 0.6487084329128265,
+      "step": 647
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 269.0625,
+      "epoch": 0.31640625,
+      "grad_norm": 4.887517766882272,
+      "kl": 0.0421142578125,
+      "learning_rate": 9.208984374999999e-07,
+      "loss": 0.0017,
+      "reward": 1.6909980773925781,
+      "reward_std": 0.045924630016088486,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6909981518983841,
+      "step": 648
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 333.6640625,
+      "epoch": 0.31689453125,
+      "grad_norm": 5.793761071887375,
+      "kl": 0.0443115234375,
+      "learning_rate": 9.207763671874999e-07,
+      "loss": 0.0018,
+      "reward": 1.7228538393974304,
+      "reward_std": 0.11347953602671623,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7228538393974304,
+      "step": 649
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 296.6640625,
+      "epoch": 0.3173828125,
+      "grad_norm": 1.974099723600187,
+      "kl": 0.0489501953125,
+      "learning_rate": 9.206542968749999e-07,
+      "loss": 0.002,
+      "reward": 1.7972348928451538,
+      "reward_std": 0.08608914166688919,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7972348928451538,
+      "step": 650
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 259.0546875,
+      "epoch": 0.31787109375,
+      "grad_norm": 1.0500416763251224,
+      "kl": 0.05810546875,
+      "learning_rate": 9.205322265625e-07,
+      "loss": 0.0023,
+      "reward": 1.6828134655952454,
+      "reward_std": 0.04013410210609436,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.682813435792923,
+      "step": 651
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 298.4375,
+      "epoch": 0.318359375,
+      "grad_norm": 2.2876063816784025,
+      "kl": 0.0438232421875,
+      "learning_rate": 9.2041015625e-07,
+      "loss": 0.0018,
+      "reward": 1.6353506445884705,
+      "reward_std": 0.06418109219521284,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6353506445884705,
+      "step": 652
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 327.3984375,
+      "epoch": 0.31884765625,
+      "grad_norm": 4.503532269564074,
+      "kl": 0.04638671875,
+      "learning_rate": 9.202880859375e-07,
+      "loss": 0.0019,
+      "reward": 1.6205086708068848,
+      "reward_std": 0.06150331161916256,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6205087304115295,
+      "step": 653
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 309.3125,
+      "epoch": 0.3193359375,
+      "grad_norm": 2.2645762992688674,
+      "kl": 0.0555419921875,
+      "learning_rate": 9.201660156249999e-07,
+      "loss": 0.0022,
+      "reward": 1.7717258930206299,
+      "reward_std": 0.11558713018894196,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7873509228229523,
+      "step": 654
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 240.8046875,
+      "epoch": 0.31982421875,
+      "grad_norm": 2.5450846485367165,
+      "kl": 0.067626953125,
+      "learning_rate": 9.200439453124999e-07,
+      "loss": 0.0027,
+      "reward": 1.62615168094635,
+      "reward_std": 0.08513330668210983,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6261517405509949,
+      "step": 655
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 284.3046875,
+      "epoch": 0.3203125,
+      "grad_norm": 1.3612683167143704,
+      "kl": 0.044921875,
+      "learning_rate": 9.199218749999999e-07,
+      "loss": 0.0018,
+      "reward": 1.7125912308692932,
+      "reward_std": 0.028453302569687366,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.712591290473938,
+      "step": 656
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 298.6953125,
+      "epoch": 0.32080078125,
+      "grad_norm": 1.485856746527386,
+      "kl": 0.0552978515625,
+      "learning_rate": 9.197998046875e-07,
+      "loss": 0.0022,
+      "reward": 1.7644490003585815,
+      "reward_std": 0.05199288483709097,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7722615003585815,
+      "step": 657
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 303.5703125,
+      "epoch": 0.3212890625,
+      "grad_norm": 2.4798625266117824,
+      "kl": 0.0465087890625,
+      "learning_rate": 9.19677734375e-07,
+      "loss": 0.0019,
+      "reward": 1.6799516081809998,
+      "reward_std": 0.09173119999468327,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6799516975879669,
+      "step": 658
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 298.4609375,
+      "epoch": 0.32177734375,
+      "grad_norm": 1.7859241168898383,
+      "kl": 0.0496826171875,
+      "learning_rate": 9.195556640625e-07,
+      "loss": 0.002,
+      "reward": 1.6372400522232056,
+      "reward_std": 0.06941110268235207,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6450526714324951,
+      "step": 659
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 253.21875,
+      "epoch": 0.322265625,
+      "grad_norm": 9.488602048011655,
+      "kl": 0.05810546875,
+      "learning_rate": 9.1943359375e-07,
+      "loss": 0.0023,
+      "reward": 1.744973599910736,
+      "reward_std": 0.07817739248275757,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7449735701084137,
+      "step": 660
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 306.84375,
+      "epoch": 0.32275390625,
+      "grad_norm": 1.4547620498319576,
+      "kl": 0.047119140625,
+      "learning_rate": 9.193115234374999e-07,
+      "loss": 0.0019,
+      "reward": 1.713306725025177,
+      "reward_std": 0.050102658569812775,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7133066952228546,
+      "step": 661
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 242.6171875,
+      "epoch": 0.3232421875,
+      "grad_norm": 1.5620710613142204,
+      "kl": 0.053466796875,
+      "learning_rate": 9.191894531249999e-07,
+      "loss": 0.0021,
+      "reward": 1.6234807968139648,
+      "reward_std": 0.10660821199417114,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6391057670116425,
+      "step": 662
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 284.1484375,
+      "epoch": 0.32373046875,
+      "grad_norm": 2.8851167506317354,
+      "kl": 0.0604248046875,
+      "learning_rate": 9.190673828124999e-07,
+      "loss": 0.0024,
+      "reward": 1.7698102593421936,
+      "reward_std": 0.09677816927433014,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7698102295398712,
+      "step": 663
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 325.7421875,
+      "epoch": 0.32421875,
+      "grad_norm": 0.7451981174641832,
+      "kl": 0.0447998046875,
+      "learning_rate": 9.189453125e-07,
+      "loss": 0.0018,
+      "reward": 1.6291025876998901,
+      "reward_std": 0.08335762098431587,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6291025280952454,
+      "step": 664
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 284.9453125,
+      "epoch": 0.32470703125,
+      "grad_norm": 12.413290735105186,
+      "kl": 0.053955078125,
+      "learning_rate": 9.188232421875e-07,
+      "loss": 0.0022,
+      "reward": 1.7409712076187134,
+      "reward_std": 0.06279715150594711,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7409711480140686,
+      "step": 665
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 220.6875,
+      "epoch": 0.3251953125,
+      "grad_norm": 2.01957679366167,
+      "kl": 0.0726318359375,
+      "learning_rate": 9.18701171875e-07,
+      "loss": 0.0029,
+      "reward": 1.8215317130088806,
+      "reward_std": 0.035058433189988136,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8215316832065582,
+      "step": 666
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 221.796875,
+      "epoch": 0.32568359375,
+      "grad_norm": 1.526764750037048,
+      "kl": 0.0648193359375,
+      "learning_rate": 9.185791015625e-07,
+      "loss": 0.0026,
+      "reward": 1.5901724696159363,
+      "reward_std": 0.1056349128484726,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.5979849547147751,
+      "step": 667
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 323.4609375,
+      "epoch": 0.326171875,
+      "grad_norm": 2.608301473030279,
+      "kl": 0.055419921875,
+      "learning_rate": 9.184570312499999e-07,
+      "loss": 0.0022,
+      "reward": 1.6940342783927917,
+      "reward_std": 0.14149951934814453,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7174717485904694,
+      "step": 668
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 308.4921875,
+      "epoch": 0.32666015625,
+      "grad_norm": 2.87920366371091,
+      "kl": 0.0506591796875,
+      "learning_rate": 9.183349609374999e-07,
+      "loss": 0.002,
+      "reward": 1.698991298675537,
+      "reward_std": 0.14888149499893188,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.7302412986755371,
+      "step": 669
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 292.3828125,
+      "epoch": 0.3271484375,
+      "grad_norm": 2.6608957988350466,
+      "kl": 0.05029296875,
+      "learning_rate": 9.18212890625e-07,
+      "loss": 0.002,
+      "reward": 1.738844633102417,
+      "reward_std": 0.10035024397075176,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7466571033000946,
+      "step": 670
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 307.953125,
+      "epoch": 0.32763671875,
+      "grad_norm": 1.0057918255069163,
+      "kl": 0.0528564453125,
+      "learning_rate": 9.180908203125e-07,
+      "loss": 0.0021,
+      "reward": 1.6742581129074097,
+      "reward_std": 0.09272240474820137,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6898830831050873,
+      "step": 671
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 314.078125,
+      "epoch": 0.328125,
+      "grad_norm": 2.8489826502257394,
+      "kl": 0.0623779296875,
+      "learning_rate": 9.1796875e-07,
+      "loss": 0.0025,
+      "reward": 1.7578362226486206,
+      "reward_std": 0.1680883914232254,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.7890861630439758,
+      "step": 672
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 376.671875,
+      "epoch": 0.32861328125,
+      "grad_norm": 9.232271074394879,
+      "kl": 0.0506591796875,
+      "learning_rate": 9.178466796875e-07,
+      "loss": 0.002,
+      "reward": 1.664437174797058,
+      "reward_std": 0.11197399348020554,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.6956871449947357,
+      "step": 673
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 314.578125,
+      "epoch": 0.3291015625,
+      "grad_norm": 1.317088116181306,
+      "kl": 0.0521240234375,
+      "learning_rate": 9.177246093749999e-07,
+      "loss": 0.0021,
+      "reward": 1.7777928113937378,
+      "reward_std": 0.06812568381428719,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7777928411960602,
+      "step": 674
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 288.6796875,
+      "epoch": 0.32958984375,
+      "grad_norm": 8.928077235738657,
+      "kl": 0.0562744140625,
+      "learning_rate": 9.176025390624999e-07,
+      "loss": 0.0023,
+      "reward": 1.752385139465332,
+      "reward_std": 0.08091514930129051,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7523851096630096,
+      "step": 675
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 307.4375,
+      "epoch": 0.330078125,
+      "grad_norm": 3.3096762270610833,
+      "kl": 0.055419921875,
+      "learning_rate": 9.174804687499999e-07,
+      "loss": 0.0022,
+      "reward": 1.693404495716095,
+      "reward_std": 0.09680695086717606,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6934045851230621,
+      "step": 676
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 287.6796875,
+      "epoch": 0.33056640625,
+      "grad_norm": 3.731533977246003,
+      "kl": 0.09912109375,
+      "learning_rate": 9.173583984375e-07,
+      "loss": 0.004,
+      "reward": 1.6468342542648315,
+      "reward_std": 0.06382020935416222,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6468342244625092,
+      "step": 677
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 339.1328125,
+      "epoch": 0.3310546875,
+      "grad_norm": 3.732612140042579,
+      "kl": 0.05029296875,
+      "learning_rate": 9.17236328125e-07,
+      "loss": 0.002,
+      "reward": 1.7785282731056213,
+      "reward_std": 0.14171504974365234,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7785282731056213,
+      "step": 678
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 281.671875,
+      "epoch": 0.33154296875,
+      "grad_norm": 18.476333671843648,
+      "kl": 0.0657958984375,
+      "learning_rate": 9.171142578125e-07,
+      "loss": 0.0026,
+      "reward": 1.6994601488113403,
+      "reward_std": 0.054649246856570244,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6994601488113403,
+      "step": 679
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 243.6953125,
+      "epoch": 0.33203125,
+      "grad_norm": 3.4222567750636594,
+      "kl": 0.0540771484375,
+      "learning_rate": 9.169921875e-07,
+      "loss": 0.0022,
+      "reward": 1.7493921518325806,
+      "reward_std": 0.036320459097623825,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7493922114372253,
+      "step": 680
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 270.046875,
+      "epoch": 0.33251953125,
+      "grad_norm": 7.10011144738821,
+      "kl": 0.0543212890625,
+      "learning_rate": 9.168701171874999e-07,
+      "loss": 0.0022,
+      "reward": 1.6045172810554504,
+      "reward_std": 0.06905798241496086,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.604517251253128,
+      "step": 681
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 344.96875,
+      "epoch": 0.3330078125,
+      "grad_norm": 2.739310274689876,
+      "kl": 0.053955078125,
+      "learning_rate": 9.167480468749999e-07,
+      "loss": 0.0022,
+      "reward": 1.7031362056732178,
+      "reward_std": 0.0952284187078476,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7109486758708954,
+      "step": 682
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 314.96875,
+      "epoch": 0.33349609375,
+      "grad_norm": 1.8552315668461727,
+      "kl": 0.0484619140625,
+      "learning_rate": 9.166259765625e-07,
+      "loss": 0.0019,
+      "reward": 1.6751747131347656,
+      "reward_std": 0.03803575597703457,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6751746535301208,
+      "step": 683
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 260.1953125,
+      "epoch": 0.333984375,
+      "grad_norm": 3.66299552441634,
+      "kl": 0.064208984375,
+      "learning_rate": 9.1650390625e-07,
+      "loss": 0.0026,
+      "reward": 1.6129703521728516,
+      "reward_std": 0.06539808213710785,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6129703521728516,
+      "step": 684
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 388.4453125,
+      "epoch": 0.33447265625,
+      "grad_norm": 1.7148741325377912,
+      "kl": 0.052978515625,
+      "learning_rate": 9.163818359375e-07,
+      "loss": 0.0021,
+      "reward": 1.6778011322021484,
+      "reward_std": 0.16429652273654938,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.7168635725975037,
+      "step": 685
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 295.640625,
+      "epoch": 0.3349609375,
+      "grad_norm": 2.4636169099366687,
+      "kl": 0.052001953125,
+      "learning_rate": 9.16259765625e-07,
+      "loss": 0.0021,
+      "reward": 1.7410337924957275,
+      "reward_std": 0.10263085551559925,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7566587924957275,
+      "step": 686
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 287.3125,
+      "epoch": 0.33544921875,
+      "grad_norm": 2.3867093626757043,
+      "kl": 0.0496826171875,
+      "learning_rate": 9.161376953124999e-07,
+      "loss": 0.002,
+      "reward": 1.7729321718215942,
+      "reward_std": 0.04040984623134136,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7729321420192719,
+      "step": 687
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 305.40625,
+      "epoch": 0.3359375,
+      "grad_norm": 2.7157119941800283,
+      "kl": 0.059326171875,
+      "learning_rate": 9.160156249999999e-07,
+      "loss": 0.0024,
+      "reward": 1.644744098186493,
+      "reward_std": 0.08117583952844143,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6447441577911377,
+      "step": 688
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 285.765625,
+      "epoch": 0.33642578125,
+      "grad_norm": 3.1337083108597916,
+      "kl": 0.057861328125,
+      "learning_rate": 9.158935546874999e-07,
+      "loss": 0.0023,
+      "reward": 1.7134816646575928,
+      "reward_std": 0.10441340506076813,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7134817242622375,
+      "step": 689
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 237.7734375,
+      "epoch": 0.3369140625,
+      "grad_norm": 3.76318572842791,
+      "kl": 0.05908203125,
+      "learning_rate": 9.15771484375e-07,
+      "loss": 0.0024,
+      "reward": 1.673618733882904,
+      "reward_std": 0.055534401908516884,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6736188232898712,
+      "step": 690
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 327.1875,
+      "epoch": 0.33740234375,
+      "grad_norm": 3.0202608593298432,
+      "kl": 0.0506591796875,
+      "learning_rate": 9.156494140625e-07,
+      "loss": 0.002,
+      "reward": 1.7747870087623596,
+      "reward_std": 0.10330940037965775,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7747870087623596,
+      "step": 691
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 286.5078125,
+      "epoch": 0.337890625,
+      "grad_norm": 2.0419796805050003,
+      "kl": 0.05224609375,
+      "learning_rate": 9.1552734375e-07,
+      "loss": 0.0021,
+      "reward": 1.6370163559913635,
+      "reward_std": 0.09477332793176174,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6526413559913635,
+      "step": 692
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 468.140625,
+      "epoch": 0.33837890625,
+      "grad_norm": 1.6907575692886263,
+      "kl": 0.0462646484375,
+      "learning_rate": 9.154052734375e-07,
+      "loss": 0.0019,
+      "reward": 1.7515615820884705,
+      "reward_std": 0.1177232563495636,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7671865224838257,
+      "step": 693
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 319.28125,
+      "epoch": 0.3388671875,
+      "grad_norm": 2.8360519678229092,
+      "kl": 0.0552978515625,
+      "learning_rate": 9.152832031249999e-07,
+      "loss": 0.0022,
+      "reward": 1.6726796627044678,
+      "reward_std": 0.11348319053649902,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6883046329021454,
+      "step": 694
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 267.8515625,
+      "epoch": 0.33935546875,
+      "grad_norm": 2.3989655228404994,
+      "kl": 0.0654296875,
+      "learning_rate": 9.151611328124999e-07,
+      "loss": 0.0026,
+      "reward": 1.5922715663909912,
+      "reward_std": 0.09356234222650528,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.6391465961933136,
+      "step": 695
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 287.9296875,
+      "epoch": 0.33984375,
+      "grad_norm": 2.653042005534019,
+      "kl": 0.053955078125,
+      "learning_rate": 9.150390625e-07,
+      "loss": 0.0022,
+      "reward": 1.656396508216858,
+      "reward_std": 0.09683545306324959,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6642089486122131,
+      "step": 696
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 219.328125,
+      "epoch": 0.34033203125,
+      "grad_norm": 1.7573427123722254,
+      "kl": 0.06591796875,
+      "learning_rate": 9.149169921875e-07,
+      "loss": 0.0026,
+      "reward": 1.6544893980026245,
+      "reward_std": 0.0390294985845685,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6544894278049469,
+      "step": 697
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 361.8984375,
+      "epoch": 0.3408203125,
+      "grad_norm": 1.3553270738396268,
+      "kl": 0.05078125,
+      "learning_rate": 9.14794921875e-07,
+      "loss": 0.002,
+      "reward": 1.7640778422355652,
+      "reward_std": 0.07602404989302158,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7718902826309204,
+      "step": 698
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 329.078125,
+      "epoch": 0.34130859375,
+      "grad_norm": 3.683035859736295,
+      "kl": 0.0499267578125,
+      "learning_rate": 9.146728515625e-07,
+      "loss": 0.002,
+      "reward": 1.7418290376663208,
+      "reward_std": 0.1612987220287323,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7652665674686432,
+      "step": 699
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 392.75,
+      "epoch": 0.341796875,
+      "grad_norm": 3.298949549269414,
+      "kl": 0.0498046875,
+      "learning_rate": 9.145507812499999e-07,
+      "loss": 0.002,
+      "reward": 1.6274558901786804,
+      "reward_std": 0.15485302917659283,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.6665183305740356,
+      "step": 700
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 330.75,
+      "epoch": 0.34228515625,
+      "grad_norm": 7.338680707895053,
+      "kl": 0.0615234375,
+      "learning_rate": 9.144287109374999e-07,
+      "loss": 0.0025,
+      "reward": 1.7153563499450684,
+      "reward_std": 0.13466084748506546,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7387937903404236,
+      "step": 701
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 348.375,
+      "epoch": 0.3427734375,
+      "grad_norm": 1.4740042030073908,
+      "kl": 0.0465087890625,
+      "learning_rate": 9.143066406249999e-07,
+      "loss": 0.0019,
+      "reward": 1.674963891506195,
+      "reward_std": 0.04929056763648987,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6749638915061951,
+      "step": 702
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 341.7578125,
+      "epoch": 0.34326171875,
+      "grad_norm": 2.2370564002640707,
+      "kl": 0.0498046875,
+      "learning_rate": 9.141845703125e-07,
+      "loss": 0.002,
+      "reward": 1.6746094226837158,
+      "reward_std": 0.1111318301409483,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.705859363079071,
+      "step": 703
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 239.7578125,
+      "epoch": 0.34375,
+      "grad_norm": 3.652860145128934,
+      "kl": 0.0562744140625,
+      "learning_rate": 9.140625e-07,
+      "loss": 0.0022,
+      "reward": 1.8176313638687134,
+      "reward_std": 0.10441552102565765,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.817631334066391,
+      "step": 704
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 328.59375,
+      "epoch": 0.34423828125,
+      "grad_norm": 1.9373839999803215,
+      "kl": 0.052734375,
+      "learning_rate": 9.139404296875e-07,
+      "loss": 0.0021,
+      "reward": 1.6220948100090027,
+      "reward_std": 0.12009907513856888,
+      "rewards/format_reward": 0.9296875,
+      "rewards/ocr_reward": 0.6924073398113251,
+      "step": 705
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 280.734375,
+      "epoch": 0.3447265625,
+      "grad_norm": 10.496349482097362,
+      "kl": 0.05029296875,
+      "learning_rate": 9.13818359375e-07,
+      "loss": 0.002,
+      "reward": 1.7156425714492798,
+      "reward_std": 0.10354878753423691,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.7468925714492798,
+      "step": 706
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 340.6796875,
+      "epoch": 0.34521484375,
+      "grad_norm": 2.189163149145361,
+      "kl": 0.043701171875,
+      "learning_rate": 9.136962890624999e-07,
+      "loss": 0.0017,
+      "reward": 1.7362082600593567,
+      "reward_std": 0.1519409567117691,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7596457600593567,
+      "step": 707
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 221.6640625,
+      "epoch": 0.345703125,
+      "grad_norm": 3.342079279569258,
+      "kl": 0.0635986328125,
+      "learning_rate": 9.135742187499999e-07,
+      "loss": 0.0025,
+      "reward": 1.8435426950454712,
+      "reward_std": 0.03380415961146355,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8435426652431488,
+      "step": 708
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 316.875,
+      "epoch": 0.34619140625,
+      "grad_norm": 2.1844352528050766,
+      "kl": 0.048583984375,
+      "learning_rate": 9.134521484375e-07,
+      "loss": 0.0019,
+      "reward": 1.6824636459350586,
+      "reward_std": 0.10241992585361004,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7059011459350586,
+      "step": 709
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 270.828125,
+      "epoch": 0.3466796875,
+      "grad_norm": 23.655131129237514,
+      "kl": 0.0670166015625,
+      "learning_rate": 9.13330078125e-07,
+      "loss": 0.0027,
+      "reward": 1.7630151510238647,
+      "reward_std": 0.10404928401112556,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7630151808261871,
+      "step": 710
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 425.203125,
+      "epoch": 0.34716796875,
+      "grad_norm": 3.1467811559428855,
+      "kl": 0.039794921875,
+      "learning_rate": 9.132080078125e-07,
+      "loss": 0.0016,
+      "reward": 1.6210336685180664,
+      "reward_std": 0.10416779294610023,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6210336685180664,
+      "step": 711
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 257.421875,
+      "epoch": 0.34765625,
+      "grad_norm": 2.5883626552063275,
+      "kl": 0.0665283203125,
+      "learning_rate": 9.130859375e-07,
+      "loss": 0.0027,
+      "reward": 1.679788887500763,
+      "reward_std": 0.08418247289955616,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6797888875007629,
+      "step": 712
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 311.5546875,
+      "epoch": 0.34814453125,
+      "grad_norm": 4.799696463307074,
+      "kl": 0.0499267578125,
+      "learning_rate": 9.129638671874999e-07,
+      "loss": 0.002,
+      "reward": 1.6627951860427856,
+      "reward_std": 0.21561793982982635,
+      "rewards/format_reward": 0.9453125,
+      "rewards/ocr_reward": 0.7174826860427856,
+      "step": 713
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 307.8125,
+      "epoch": 0.3486328125,
+      "grad_norm": 5.690753458769312,
+      "kl": 0.055908203125,
+      "learning_rate": 9.128417968749999e-07,
+      "loss": 0.0022,
+      "reward": 1.596695363521576,
+      "reward_std": 0.08007179386913776,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.5966953039169312,
+      "step": 714
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 334.34375,
+      "epoch": 0.34912109375,
+      "grad_norm": 1.9981939045151302,
+      "kl": 0.0426025390625,
+      "learning_rate": 9.127197265624999e-07,
+      "loss": 0.0017,
+      "reward": 1.65777987241745,
+      "reward_std": 0.07475204393267632,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6577799022197723,
+      "step": 715
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 395.1171875,
+      "epoch": 0.349609375,
+      "grad_norm": 1.0717553143893126,
+      "kl": 0.039306640625,
+      "learning_rate": 9.1259765625e-07,
+      "loss": 0.0016,
+      "reward": 1.5546205639839172,
+      "reward_std": 0.13567753694951534,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.6014955639839172,
+      "step": 716
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 415.1015625,
+      "epoch": 0.35009765625,
+      "grad_norm": 3.8384389147264586,
+      "kl": 0.046142578125,
+      "learning_rate": 9.124755859375e-07,
+      "loss": 0.0018,
+      "reward": 1.665941596031189,
+      "reward_std": 0.16234686970710754,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.7128165364265442,
+      "step": 717
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 250.4296875,
+      "epoch": 0.3505859375,
+      "grad_norm": 5.987053658956865,
+      "kl": 0.0538330078125,
+      "learning_rate": 9.12353515625e-07,
+      "loss": 0.0022,
+      "reward": 1.6448271870613098,
+      "reward_std": 0.04302874393761158,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6448271870613098,
+      "step": 718
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 318.46875,
+      "epoch": 0.35107421875,
+      "grad_norm": 1.5749796860637693,
+      "kl": 0.0450439453125,
+      "learning_rate": 9.122314453125e-07,
+      "loss": 0.0018,
+      "reward": 1.682013988494873,
+      "reward_std": 0.16238265484571457,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6976390182971954,
+      "step": 719
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 284.234375,
+      "epoch": 0.3515625,
+      "grad_norm": 1.321614461326094,
+      "kl": 0.052978515625,
+      "learning_rate": 9.121093749999999e-07,
+      "loss": 0.0021,
+      "reward": 1.6903913617134094,
+      "reward_std": 0.06298444792628288,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6903913915157318,
+      "step": 720
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 310.5390625,
+      "epoch": 0.35205078125,
+      "grad_norm": 1.521983159109129,
+      "kl": 0.05126953125,
+      "learning_rate": 9.119873046874999e-07,
+      "loss": 0.002,
+      "reward": 1.662535011768341,
+      "reward_std": 0.09836256504058838,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6703475117683411,
+      "step": 721
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 421.8046875,
+      "epoch": 0.3525390625,
+      "grad_norm": 5.592012602896816,
+      "kl": 0.0384521484375,
+      "learning_rate": 9.11865234375e-07,
+      "loss": 0.0015,
+      "reward": 1.6349376440048218,
+      "reward_std": 0.2715572118759155,
+      "rewards/format_reward": 0.9375,
+      "rewards/ocr_reward": 0.6974376440048218,
+      "step": 722
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 275.828125,
+      "epoch": 0.35302734375,
+      "grad_norm": 7.607326995892132,
+      "kl": 0.0521240234375,
+      "learning_rate": 9.117431640625e-07,
+      "loss": 0.0021,
+      "reward": 1.7890739440917969,
+      "reward_std": 0.09455129504203796,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7890739738941193,
+      "step": 723
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 274.28125,
+      "epoch": 0.353515625,
+      "grad_norm": 2.0564996524853925,
+      "kl": 0.048095703125,
+      "learning_rate": 9.1162109375e-07,
+      "loss": 0.0019,
+      "reward": 1.75455242395401,
+      "reward_std": 0.05431245639920235,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.75455242395401,
+      "step": 724
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 242.390625,
+      "epoch": 0.35400390625,
+      "grad_norm": 1.891536592962387,
+      "kl": 0.0587158203125,
+      "learning_rate": 9.114990234375e-07,
+      "loss": 0.0023,
+      "reward": 1.6842128038406372,
+      "reward_std": 0.0393197163939476,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6842128038406372,
+      "step": 725
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 258.7109375,
+      "epoch": 0.3544921875,
+      "grad_norm": 2.6735308908162017,
+      "kl": 0.050537109375,
+      "learning_rate": 9.113769531249999e-07,
+      "loss": 0.002,
+      "reward": 1.677639126777649,
+      "reward_std": 0.04795477353036404,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6776390969753265,
+      "step": 726
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 373.1953125,
+      "epoch": 0.35498046875,
+      "grad_norm": 4.067919313994053,
+      "kl": 0.0478515625,
+      "learning_rate": 9.112548828124999e-07,
+      "loss": 0.0019,
+      "reward": 1.759274661540985,
+      "reward_std": 0.16164502501487732,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7670871615409851,
+      "step": 727
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 238.03125,
+      "epoch": 0.35546875,
+      "grad_norm": 1.4554737342898283,
+      "kl": 0.05859375,
+      "learning_rate": 9.111328124999999e-07,
+      "loss": 0.0023,
+      "reward": 1.6114553213119507,
+      "reward_std": 0.07473801448941231,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6192677319049835,
+      "step": 728
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 284.0078125,
+      "epoch": 0.35595703125,
+      "grad_norm": 5.937471894743553,
+      "kl": 0.0450439453125,
+      "learning_rate": 9.110107421875e-07,
+      "loss": 0.0018,
+      "reward": 1.8060181140899658,
+      "reward_std": 0.06944678723812103,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8060181140899658,
+      "step": 729
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 283.1640625,
+      "epoch": 0.3564453125,
+      "grad_norm": 2.892417832234497,
+      "kl": 0.046875,
+      "learning_rate": 9.10888671875e-07,
+      "loss": 0.0019,
+      "reward": 1.699116826057434,
+      "reward_std": 0.030583031941205263,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6991168558597565,
+      "step": 730
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 354.78125,
+      "epoch": 0.35693359375,
+      "grad_norm": 4.291871230697797,
+      "kl": 0.05224609375,
+      "learning_rate": 9.107666015625e-07,
+      "loss": 0.0021,
+      "reward": 1.6441110372543335,
+      "reward_std": 0.06929890811443329,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6441109776496887,
+      "step": 731
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 261.1640625,
+      "epoch": 0.357421875,
+      "grad_norm": 5.6899357611370975,
+      "kl": 0.0576171875,
+      "learning_rate": 9.1064453125e-07,
+      "loss": 0.0023,
+      "reward": 1.7429944276809692,
+      "reward_std": 0.05181153491139412,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7429944574832916,
+      "step": 732
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 302.9765625,
+      "epoch": 0.35791015625,
+      "grad_norm": 2.0271310342750906,
+      "kl": 0.045654296875,
+      "learning_rate": 9.105224609374999e-07,
+      "loss": 0.0018,
+      "reward": 1.7651514410972595,
+      "reward_std": 0.05858886428177357,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7651514708995819,
+      "step": 733
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 302.46875,
+      "epoch": 0.3583984375,
+      "grad_norm": 4.625382081677046,
+      "kl": 0.056640625,
+      "learning_rate": 9.104003906249999e-07,
+      "loss": 0.0023,
+      "reward": 1.7296615242958069,
+      "reward_std": 0.18934501707553864,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7374739944934845,
+      "step": 734
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 289.25,
+      "epoch": 0.35888671875,
+      "grad_norm": 2.106702124053642,
+      "kl": 0.0462646484375,
+      "learning_rate": 9.102783203125e-07,
+      "loss": 0.0019,
+      "reward": 1.6757431626319885,
+      "reward_std": 0.03387642838060856,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6757431626319885,
+      "step": 735
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 250.421875,
+      "epoch": 0.359375,
+      "grad_norm": 2.2254393181907464,
+      "kl": 0.056884765625,
+      "learning_rate": 9.1015625e-07,
+      "loss": 0.0023,
+      "reward": 1.672728419303894,
+      "reward_std": 0.057467855513095856,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6727283895015717,
+      "step": 736
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 281.921875,
+      "epoch": 0.35986328125,
+      "grad_norm": 2.8705551314702804,
+      "kl": 0.047607421875,
+      "learning_rate": 9.100341796875e-07,
+      "loss": 0.0019,
+      "reward": 1.7556483745574951,
+      "reward_std": 0.12223165854811668,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7634609639644623,
+      "step": 737
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 278.859375,
+      "epoch": 0.3603515625,
+      "grad_norm": 1.9718644163448455,
+      "kl": 0.064208984375,
+      "learning_rate": 9.09912109375e-07,
+      "loss": 0.0026,
+      "reward": 1.5958901643753052,
+      "reward_std": 0.1189500167965889,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6037026047706604,
+      "step": 738
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 273.140625,
+      "epoch": 0.36083984375,
+      "grad_norm": 1.1551556849612885,
+      "kl": 0.053466796875,
+      "learning_rate": 9.097900390624999e-07,
+      "loss": 0.0021,
+      "reward": 1.6770064234733582,
+      "reward_std": 0.06842825934290886,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6770065128803253,
+      "step": 739
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 261.5,
+      "epoch": 0.361328125,
+      "grad_norm": 1.611938756026289,
+      "kl": 0.0496826171875,
+      "learning_rate": 9.096679687499999e-07,
+      "loss": 0.002,
+      "reward": 1.871577262878418,
+      "reward_std": 0.08976521715521812,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8793897330760956,
+      "step": 740
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 227.3046875,
+      "epoch": 0.36181640625,
+      "grad_norm": 2.2338765528780593,
+      "kl": 0.06201171875,
+      "learning_rate": 9.095458984374999e-07,
+      "loss": 0.0025,
+      "reward": 1.7528924942016602,
+      "reward_std": 0.06052309833467007,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7528924942016602,
+      "step": 741
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 233.9609375,
+      "epoch": 0.3623046875,
+      "grad_norm": 2.2843239877131483,
+      "kl": 0.04931640625,
+      "learning_rate": 9.09423828125e-07,
+      "loss": 0.002,
+      "reward": 1.7976442575454712,
+      "reward_std": 0.07765695080161095,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7976443469524384,
+      "step": 742
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 234.171875,
+      "epoch": 0.36279296875,
+      "grad_norm": 2.5837045435100285,
+      "kl": 0.054443359375,
+      "learning_rate": 9.093017578125e-07,
+      "loss": 0.0022,
+      "reward": 1.7078853845596313,
+      "reward_std": 0.08771786838769913,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7156979441642761,
+      "step": 743
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 252.65625,
+      "epoch": 0.36328125,
+      "grad_norm": 14.063807731932368,
+      "kl": 0.05712890625,
+      "learning_rate": 9.091796875e-07,
+      "loss": 0.0023,
+      "reward": 1.705945611000061,
+      "reward_std": 0.08700169250369072,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7059455513954163,
+      "step": 744
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 278.1796875,
+      "epoch": 0.36376953125,
+      "grad_norm": 88.25210889413222,
+      "kl": 0.0533447265625,
+      "learning_rate": 9.090576171875e-07,
+      "loss": 0.0021,
+      "reward": 1.6465200781822205,
+      "reward_std": 0.10988815873861313,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6465200483798981,
+      "step": 745
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 322.8203125,
+      "epoch": 0.3642578125,
+      "grad_norm": 7.516718824656179,
+      "kl": 0.051513671875,
+      "learning_rate": 9.089355468749999e-07,
+      "loss": 0.0021,
+      "reward": 1.7468097805976868,
+      "reward_std": 0.06035367026925087,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7468098104000092,
+      "step": 746
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 266.4765625,
+      "epoch": 0.36474609375,
+      "grad_norm": 2.90080670052233,
+      "kl": 0.082275390625,
+      "learning_rate": 9.088134765624999e-07,
+      "loss": 0.0033,
+      "reward": 1.7886146306991577,
+      "reward_std": 0.053633132949471474,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7886146605014801,
+      "step": 747
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 308.3984375,
+      "epoch": 0.365234375,
+      "grad_norm": 2.4070521070996658,
+      "kl": 0.0474853515625,
+      "learning_rate": 9.0869140625e-07,
+      "loss": 0.0019,
+      "reward": 1.7509766221046448,
+      "reward_std": 0.07239764928817749,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7509766519069672,
+      "step": 748
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 297.3203125,
+      "epoch": 0.36572265625,
+      "grad_norm": 2.3297506701189885,
+      "kl": 0.0506591796875,
+      "learning_rate": 9.085693359375e-07,
+      "loss": 0.002,
+      "reward": 1.7397636771202087,
+      "reward_std": 0.07227146998047829,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7397636771202087,
+      "step": 749
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 271.75,
+      "epoch": 0.3662109375,
+      "grad_norm": 2.4906923300155035,
+      "kl": 0.049560546875,
+      "learning_rate": 9.08447265625e-07,
+      "loss": 0.002,
+      "reward": 1.7281315326690674,
+      "reward_std": 0.09530112892389297,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7281315326690674,
+      "step": 750
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 311.296875,
+      "epoch": 0.36669921875,
+      "grad_norm": 2.095615441296317,
+      "kl": 0.083740234375,
+      "learning_rate": 9.083251953125e-07,
+      "loss": 0.0033,
+      "reward": 1.8014087677001953,
+      "reward_std": 0.1527663916349411,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8014088273048401,
+      "step": 751
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 374.421875,
+      "epoch": 0.3671875,
+      "grad_norm": 2.023204451439646,
+      "kl": 0.05126953125,
+      "learning_rate": 9.082031249999999e-07,
+      "loss": 0.0021,
+      "reward": 1.5856056809425354,
+      "reward_std": 0.12917165458202362,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.6090432107448578,
+      "step": 752
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 308.1953125,
+      "epoch": 0.36767578125,
+      "grad_norm": 4.535857246107816,
+      "kl": 0.05615234375,
+      "learning_rate": 9.080810546874999e-07,
+      "loss": 0.0022,
+      "reward": 1.551247239112854,
+      "reward_std": 0.18378467857837677,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.5746847093105316,
+      "step": 753
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 211.421875,
+      "epoch": 0.3681640625,
+      "grad_norm": 10.79203763732622,
+      "kl": 0.1080322265625,
+      "learning_rate": 9.079589843749999e-07,
+      "loss": 0.0043,
+      "reward": 1.7111627459526062,
+      "reward_std": 0.11090904846787453,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7111627459526062,
+      "step": 754
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 337.5859375,
+      "epoch": 0.36865234375,
+      "grad_norm": 4.366419277780804,
+      "kl": 0.0460205078125,
+      "learning_rate": 9.078369140625e-07,
+      "loss": 0.0018,
+      "reward": 1.5475510954856873,
+      "reward_std": 0.1516926810145378,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.5788010954856873,
+      "step": 755
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 270.40625,
+      "epoch": 0.369140625,
+      "grad_norm": 2.2502977034316816,
+      "kl": 0.0596923828125,
+      "learning_rate": 9.0771484375e-07,
+      "loss": 0.0024,
+      "reward": 1.6759621500968933,
+      "reward_std": 0.08574535697698593,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6837746500968933,
+      "step": 756
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 304.6953125,
+      "epoch": 0.36962890625,
+      "grad_norm": 3.0394652562883557,
+      "kl": 0.045166015625,
+      "learning_rate": 9.075927734375e-07,
+      "loss": 0.0018,
+      "reward": 1.6703930497169495,
+      "reward_std": 0.10942208580672741,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6782055497169495,
+      "step": 757
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 202.7109375,
+      "epoch": 0.3701171875,
+      "grad_norm": 3.209213137923711,
+      "kl": 0.06884765625,
+      "learning_rate": 9.07470703125e-07,
+      "loss": 0.0028,
+      "reward": 1.6818158030509949,
+      "reward_std": 0.06707624718546867,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6818158030509949,
+      "step": 758
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 284.671875,
+      "epoch": 0.37060546875,
+      "grad_norm": 6.314452162326053,
+      "kl": 0.0498046875,
+      "learning_rate": 9.073486328124999e-07,
+      "loss": 0.002,
+      "reward": 1.7439817786216736,
+      "reward_std": 0.06930938735604286,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7439817786216736,
+      "step": 759
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 251.3359375,
+      "epoch": 0.37109375,
+      "grad_norm": 1.6588947555909435,
+      "kl": 0.052490234375,
+      "learning_rate": 9.072265624999999e-07,
+      "loss": 0.0021,
+      "reward": 1.7676947116851807,
+      "reward_std": 0.06368311867117882,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7676947116851807,
+      "step": 760
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 315.0625,
+      "epoch": 0.37158203125,
+      "grad_norm": 2.056420743637371,
+      "kl": 0.0501708984375,
+      "learning_rate": 9.071044921874999e-07,
+      "loss": 0.002,
+      "reward": 1.5630112886428833,
+      "reward_std": 0.12552234530448914,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.5864488482475281,
+      "step": 761
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 276.34375,
+      "epoch": 0.3720703125,
+      "grad_norm": 2.008715753441554,
+      "kl": 0.062255859375,
+      "learning_rate": 9.06982421875e-07,
+      "loss": 0.0025,
+      "reward": 1.591386616230011,
+      "reward_std": 0.11909160390496254,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.607011616230011,
+      "step": 762
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 301.421875,
+      "epoch": 0.37255859375,
+      "grad_norm": 6.277949214463844,
+      "kl": 0.05859375,
+      "learning_rate": 9.068603515625e-07,
+      "loss": 0.0023,
+      "reward": 1.6171656847000122,
+      "reward_std": 0.048231493681669235,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6171657145023346,
+      "step": 763
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 318.671875,
+      "epoch": 0.373046875,
+      "grad_norm": 5.012112695502121,
+      "kl": 0.0579833984375,
+      "learning_rate": 9.0673828125e-07,
+      "loss": 0.0023,
+      "reward": 1.7434178590774536,
+      "reward_std": 0.06155427545309067,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7434178590774536,
+      "step": 764
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 323.7578125,
+      "epoch": 0.37353515625,
+      "grad_norm": 9.599500758693086,
+      "kl": 0.0579833984375,
+      "learning_rate": 9.066162109375e-07,
+      "loss": 0.0023,
+      "reward": 1.5466606616973877,
+      "reward_std": 0.09597665816545486,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.5544731467962265,
+      "step": 765
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 236.09375,
+      "epoch": 0.3740234375,
+      "grad_norm": 7.306759003859089,
+      "kl": 0.0556640625,
+      "learning_rate": 9.064941406249999e-07,
+      "loss": 0.0022,
+      "reward": 1.763745129108429,
+      "reward_std": 0.08324461057782173,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7793701589107513,
+      "step": 766
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 257.3828125,
+      "epoch": 0.37451171875,
+      "grad_norm": 1.8312574638865227,
+      "kl": 0.0537109375,
+      "learning_rate": 9.063720703124999e-07,
+      "loss": 0.0021,
+      "reward": 1.7746469378471375,
+      "reward_std": 0.04006502404808998,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7746469378471375,
+      "step": 767
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 305.1953125,
+      "epoch": 0.375,
+      "grad_norm": 1.2098375787612152,
+      "kl": 0.04638671875,
+      "learning_rate": 9.0625e-07,
+      "loss": 0.0019,
+      "reward": 1.7166728377342224,
+      "reward_std": 0.05403112433850765,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7166728675365448,
+      "step": 768
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 287.984375,
+      "epoch": 0.37548828125,
+      "grad_norm": 8.565656666405385,
+      "kl": 0.050537109375,
+      "learning_rate": 9.061279296875e-07,
+      "loss": 0.002,
+      "reward": 1.6393229365348816,
+      "reward_std": 0.08363521099090576,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6393230259418488,
+      "step": 769
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 295.203125,
+      "epoch": 0.3759765625,
+      "grad_norm": 1.638069098109109,
+      "kl": 0.0606689453125,
+      "learning_rate": 9.06005859375e-07,
+      "loss": 0.0024,
+      "reward": 1.7592090964317322,
+      "reward_std": 0.11197786778211594,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7670215368270874,
+      "step": 770
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 326.5078125,
+      "epoch": 0.37646484375,
+      "grad_norm": 5.669521003197282,
+      "kl": 0.046875,
+      "learning_rate": 9.058837890625e-07,
+      "loss": 0.0019,
+      "reward": 1.7937055826187134,
+      "reward_std": 0.04042255226522684,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7937055230140686,
+      "step": 771
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 342.2421875,
+      "epoch": 0.376953125,
+      "grad_norm": 2.4131694725255524,
+      "kl": 0.04736328125,
+      "learning_rate": 9.057617187499999e-07,
+      "loss": 0.0019,
+      "reward": 1.754515528678894,
+      "reward_std": 0.08119422942399979,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.762328028678894,
+      "step": 772
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 316.125,
+      "epoch": 0.37744140625,
+      "grad_norm": 1.2158435987969012,
+      "kl": 0.0474853515625,
+      "learning_rate": 9.056396484374999e-07,
+      "loss": 0.0019,
+      "reward": 1.589455008506775,
+      "reward_std": 0.15698669105768204,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.6128924638032913,
+      "step": 773
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 227.1875,
+      "epoch": 0.3779296875,
+      "grad_norm": 3.511854371924245,
+      "kl": 0.064208984375,
+      "learning_rate": 9.055175781249999e-07,
+      "loss": 0.0026,
+      "reward": 1.747837781906128,
+      "reward_std": 0.047062634490430355,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7478377819061279,
+      "step": 774
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 304.6875,
+      "epoch": 0.37841796875,
+      "grad_norm": 2.035616546962937,
+      "kl": 0.0478515625,
+      "learning_rate": 9.053955078125e-07,
+      "loss": 0.0019,
+      "reward": 1.7458081245422363,
+      "reward_std": 0.1068628765642643,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7536205947399139,
+      "step": 775
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 374.9296875,
+      "epoch": 0.37890625,
+      "grad_norm": 9.725323832534293,
+      "kl": 0.052490234375,
+      "learning_rate": 9.052734375e-07,
+      "loss": 0.0021,
+      "reward": 1.630423367023468,
+      "reward_std": 0.16277416795492172,
+      "rewards/format_reward": 0.921875,
+      "rewards/ocr_reward": 0.7085483372211456,
+      "step": 776
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 365.5390625,
+      "epoch": 0.37939453125,
+      "grad_norm": 2.746445302407796,
+      "kl": 0.056640625,
+      "learning_rate": 9.051513671875e-07,
+      "loss": 0.0023,
+      "reward": 1.6005674600601196,
+      "reward_std": 0.1270945593714714,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6083799302577972,
+      "step": 777
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 332.7265625,
+      "epoch": 0.3798828125,
+      "grad_norm": 2.171791972938971,
+      "kl": 0.0400390625,
+      "learning_rate": 9.05029296875e-07,
+      "loss": 0.0016,
+      "reward": 1.71004056930542,
+      "reward_std": 0.09835747629404068,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7100405395030975,
+      "step": 778
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 340.8984375,
+      "epoch": 0.38037109375,
+      "grad_norm": 1.4601597679507083,
+      "kl": 0.0455322265625,
+      "learning_rate": 9.049072265624999e-07,
+      "loss": 0.0018,
+      "reward": 1.6127532720565796,
+      "reward_std": 0.08331700228154659,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6127532124519348,
+      "step": 779
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 273.890625,
+      "epoch": 0.380859375,
+      "grad_norm": 1.245741857334542,
+      "kl": 0.0604248046875,
+      "learning_rate": 9.047851562499999e-07,
+      "loss": 0.0024,
+      "reward": 1.7605129480361938,
+      "reward_std": 0.0731951892375946,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7605129182338715,
+      "step": 780
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 377.7578125,
+      "epoch": 0.38134765625,
+      "grad_norm": 1.9107655030172803,
+      "kl": 0.042724609375,
+      "learning_rate": 9.046630859375e-07,
+      "loss": 0.0017,
+      "reward": 1.7617830038070679,
+      "reward_std": 0.1986825242638588,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.7930330038070679,
+      "step": 781
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 302.421875,
+      "epoch": 0.3818359375,
+      "grad_norm": 1.6052928141201563,
+      "kl": 0.0528564453125,
+      "learning_rate": 9.04541015625e-07,
+      "loss": 0.0021,
+      "reward": 1.6557468175888062,
+      "reward_std": 0.1146387904882431,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6713717877864838,
+      "step": 782
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 370.234375,
+      "epoch": 0.38232421875,
+      "grad_norm": 3.5152924375718095,
+      "kl": 0.0445556640625,
+      "learning_rate": 9.044189453125e-07,
+      "loss": 0.0018,
+      "reward": 1.7099875807762146,
+      "reward_std": 0.10192125290632248,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.7412375807762146,
+      "step": 783
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 266.75,
+      "epoch": 0.3828125,
+      "grad_norm": 1.513013153822231,
+      "kl": 0.059814453125,
+      "learning_rate": 9.04296875e-07,
+      "loss": 0.0024,
+      "reward": 1.7009785175323486,
+      "reward_std": 0.07997079566121101,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7087909579277039,
+      "step": 784
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 255.765625,
+      "epoch": 0.38330078125,
+      "grad_norm": 1.1283536516038533,
+      "kl": 0.0535888671875,
+      "learning_rate": 9.041748046874999e-07,
+      "loss": 0.0021,
+      "reward": 1.795514464378357,
+      "reward_std": 0.03493136540055275,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7955144643783569,
+      "step": 785
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 380.125,
+      "epoch": 0.3837890625,
+      "grad_norm": 1.7312441195961588,
+      "kl": 0.0504150390625,
+      "learning_rate": 9.040527343749999e-07,
+      "loss": 0.002,
+      "reward": 1.606820523738861,
+      "reward_std": 0.12857604026794434,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6224455237388611,
+      "step": 786
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 418.40625,
+      "epoch": 0.38427734375,
+      "grad_norm": 2.4139628304327583,
+      "kl": 0.0506591796875,
+      "learning_rate": 9.039306640624999e-07,
+      "loss": 0.002,
+      "reward": 1.6258866786956787,
+      "reward_std": 0.22364450991153717,
+      "rewards/format_reward": 0.9375,
+      "rewards/ocr_reward": 0.6883866786956787,
+      "step": 787
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 322.34375,
+      "epoch": 0.384765625,
+      "grad_norm": 1.0442715242086436,
+      "kl": 0.0576171875,
+      "learning_rate": 9.0380859375e-07,
+      "loss": 0.0023,
+      "reward": 1.6823328137397766,
+      "reward_std": 0.033012090250849724,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6823328137397766,
+      "step": 788
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 393.1796875,
+      "epoch": 0.38525390625,
+      "grad_norm": 3.6998708553756336,
+      "kl": 0.051025390625,
+      "learning_rate": 9.036865234375e-07,
+      "loss": 0.002,
+      "reward": 1.6819748878479004,
+      "reward_std": 0.10724844038486481,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.689787358045578,
+      "step": 789
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 228.703125,
+      "epoch": 0.3857421875,
+      "grad_norm": 2.743911349386069,
+      "kl": 0.0635986328125,
+      "learning_rate": 9.03564453125e-07,
+      "loss": 0.0025,
+      "reward": 1.6518617272377014,
+      "reward_std": 0.08327071741223335,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.651861697435379,
+      "step": 790
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 269.3359375,
+      "epoch": 0.38623046875,
+      "grad_norm": 2.558950840214557,
+      "kl": 0.06005859375,
+      "learning_rate": 9.034423828125e-07,
+      "loss": 0.0024,
+      "reward": 1.8231335282325745,
+      "reward_std": 0.0741860456764698,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8231335282325745,
+      "step": 791
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 351.84375,
+      "epoch": 0.38671875,
+      "grad_norm": 2.495274964010672,
+      "kl": 0.0565185546875,
+      "learning_rate": 9.033203124999999e-07,
+      "loss": 0.0023,
+      "reward": 1.7564613819122314,
+      "reward_std": 0.12410943582654,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7642738223075867,
+      "step": 792
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 280.9453125,
+      "epoch": 0.38720703125,
+      "grad_norm": 2.7224758525530466,
+      "kl": 0.0693359375,
+      "learning_rate": 9.031982421874999e-07,
+      "loss": 0.0028,
+      "reward": 1.6794022917747498,
+      "reward_std": 0.0662822276353836,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.679402232170105,
+      "step": 793
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 304.828125,
+      "epoch": 0.3876953125,
+      "grad_norm": 2.008117882656302,
+      "kl": 0.047119140625,
+      "learning_rate": 9.03076171875e-07,
+      "loss": 0.0019,
+      "reward": 1.7753472328186035,
+      "reward_std": 0.06647790595889091,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7753472328186035,
+      "step": 794
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 341.9765625,
+      "epoch": 0.38818359375,
+      "grad_norm": 1.7981907802676043,
+      "kl": 0.0562744140625,
+      "learning_rate": 9.029541015625e-07,
+      "loss": 0.0022,
+      "reward": 1.6716668605804443,
+      "reward_std": 0.10441191494464874,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6794794797897339,
+      "step": 795
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 321.2109375,
+      "epoch": 0.388671875,
+      "grad_norm": 2.811941047744118,
+      "kl": 0.0623779296875,
+      "learning_rate": 9.0283203125e-07,
+      "loss": 0.0025,
+      "reward": 1.7318763136863708,
+      "reward_std": 0.13041818886995316,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7396888434886932,
+      "step": 796
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 324.8515625,
+      "epoch": 0.38916015625,
+      "grad_norm": 1.5360755449383108,
+      "kl": 0.0634765625,
+      "learning_rate": 9.027099609375e-07,
+      "loss": 0.0025,
+      "reward": 1.62107652425766,
+      "reward_std": 0.11381476372480392,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6367015540599823,
+      "step": 797
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 272.1484375,
+      "epoch": 0.3896484375,
+      "grad_norm": 2.2214500756443547,
+      "kl": 0.06005859375,
+      "learning_rate": 9.025878906249999e-07,
+      "loss": 0.0024,
+      "reward": 1.75680810213089,
+      "reward_std": 0.12856251932680607,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7724330723285675,
+      "step": 798
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 250.2734375,
+      "epoch": 0.39013671875,
+      "grad_norm": 6.470318010002288,
+      "kl": 0.0697021484375,
+      "learning_rate": 9.024658203124999e-07,
+      "loss": 0.0028,
+      "reward": 1.7349693775177002,
+      "reward_std": 0.05125601589679718,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7349693477153778,
+      "step": 799
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 365.96875,
+      "epoch": 0.390625,
+      "grad_norm": 4.746876315115609,
+      "kl": 0.0447998046875,
+      "learning_rate": 9.023437499999999e-07,
+      "loss": 0.0018,
+      "reward": 1.6792126893997192,
+      "reward_std": 0.10291677340865135,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6948377192020416,
+      "step": 800
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 229.828125,
+      "epoch": 0.39111328125,
+      "grad_norm": 5.930786243054409,
+      "kl": 0.069091796875,
+      "learning_rate": 9.022216796875e-07,
+      "loss": 0.0028,
+      "reward": 1.64633446931839,
+      "reward_std": 0.03413202054798603,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6463344395160675,
+      "step": 801
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 384.28125,
+      "epoch": 0.3916015625,
+      "grad_norm": 2.7295402764397503,
+      "kl": 0.0416259765625,
+      "learning_rate": 9.02099609375e-07,
+      "loss": 0.0017,
+      "reward": 1.7840456366539001,
+      "reward_std": 0.11326225847005844,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7918581366539001,
+      "step": 802
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 294.3828125,
+      "epoch": 0.39208984375,
+      "grad_norm": 2.061940610036514,
+      "kl": 0.060302734375,
+      "learning_rate": 9.019775390625e-07,
+      "loss": 0.0024,
+      "reward": 1.684591829776764,
+      "reward_std": 0.039285000413656235,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6845918297767639,
+      "step": 803
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 255.90625,
+      "epoch": 0.392578125,
+      "grad_norm": 2.6902536765952516,
+      "kl": 0.0595703125,
+      "learning_rate": 9.0185546875e-07,
+      "loss": 0.0024,
+      "reward": 1.6753877997398376,
+      "reward_std": 0.0330571923404932,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6753877997398376,
+      "step": 804
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 229.28125,
+      "epoch": 0.39306640625,
+      "grad_norm": 1.8411761165738731,
+      "kl": 0.0643310546875,
+      "learning_rate": 9.017333984374999e-07,
+      "loss": 0.0026,
+      "reward": 1.7131445407867432,
+      "reward_std": 0.043391112238168716,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7131445109844208,
+      "step": 805
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 269.6640625,
+      "epoch": 0.3935546875,
+      "grad_norm": 2.7482643969953817,
+      "kl": 0.05810546875,
+      "learning_rate": 9.016113281249999e-07,
+      "loss": 0.0023,
+      "reward": 1.7672026753425598,
+      "reward_std": 0.14146682620048523,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7672027349472046,
+      "step": 806
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 243.8984375,
+      "epoch": 0.39404296875,
+      "grad_norm": 5.7000530933748434,
+      "kl": 0.0579833984375,
+      "learning_rate": 9.014892578125e-07,
+      "loss": 0.0023,
+      "reward": 1.7555674314498901,
+      "reward_std": 0.0818701907992363,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7555674016475677,
+      "step": 807
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 316.0234375,
+      "epoch": 0.39453125,
+      "grad_norm": 2.716019769835689,
+      "kl": 0.0574951171875,
+      "learning_rate": 9.013671875e-07,
+      "loss": 0.0023,
+      "reward": 1.7889222502708435,
+      "reward_std": 0.07327684760093689,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7889222204685211,
+      "step": 808
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 379.015625,
+      "epoch": 0.39501953125,
+      "grad_norm": 1.0051393363186003,
+      "kl": 0.046142578125,
+      "learning_rate": 9.012451171875e-07,
+      "loss": 0.0018,
+      "reward": 1.823382318019867,
+      "reward_std": 0.08756531029939651,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8311948478221893,
+      "step": 809
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 336.9609375,
+      "epoch": 0.3955078125,
+      "grad_norm": 5.605975136552543,
+      "kl": 0.0535888671875,
+      "learning_rate": 9.01123046875e-07,
+      "loss": 0.0021,
+      "reward": 1.6305594444274902,
+      "reward_std": 0.18838153779506683,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.6774344146251678,
+      "step": 810
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 271.0390625,
+      "epoch": 0.39599609375,
+      "grad_norm": 2.347124532736606,
+      "kl": 0.067626953125,
+      "learning_rate": 9.010009765624999e-07,
+      "loss": 0.0027,
+      "reward": 1.6546881794929504,
+      "reward_std": 0.043467432260513306,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6546881794929504,
+      "step": 811
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 317.421875,
+      "epoch": 0.396484375,
+      "grad_norm": 5.529194590040078,
+      "kl": 0.0498046875,
+      "learning_rate": 9.008789062499999e-07,
+      "loss": 0.002,
+      "reward": 1.9438674449920654,
+      "reward_std": 0.1620844528079033,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.9516799449920654,
+      "step": 812
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 384.53125,
+      "epoch": 0.39697265625,
+      "grad_norm": 4.064564658886712,
+      "kl": 0.0567626953125,
+      "learning_rate": 9.007568359374999e-07,
+      "loss": 0.0023,
+      "reward": 1.7015685439109802,
+      "reward_std": 0.19768846035003662,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7250060141086578,
+      "step": 813
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 363.6015625,
+      "epoch": 0.3974609375,
+      "grad_norm": 3.3533767553179086,
+      "kl": 0.0438232421875,
+      "learning_rate": 9.00634765625e-07,
+      "loss": 0.0018,
+      "reward": 1.708820104598999,
+      "reward_std": 0.19447695463895798,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.7400700449943542,
+      "step": 814
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 284.9765625,
+      "epoch": 0.39794921875,
+      "grad_norm": 2.6790906488328483,
+      "kl": 0.044921875,
+      "learning_rate": 9.005126953125e-07,
+      "loss": 0.0018,
+      "reward": 1.721143901348114,
+      "reward_std": 0.06836184859275818,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.721143901348114,
+      "step": 815
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 224.3203125,
+      "epoch": 0.3984375,
+      "grad_norm": 1.1009725102471428,
+      "kl": 0.0548095703125,
+      "learning_rate": 9.00390625e-07,
+      "loss": 0.0022,
+      "reward": 1.8940476775169373,
+      "reward_std": 0.03376696538180113,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8940476477146149,
+      "step": 816
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 271.0,
+      "epoch": 0.39892578125,
+      "grad_norm": 14.243353602718932,
+      "kl": 0.05517578125,
+      "learning_rate": 9.002685546875e-07,
+      "loss": 0.0022,
+      "reward": 1.7576437592506409,
+      "reward_std": 0.08673252165317535,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7576436996459961,
+      "step": 817
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 280.03125,
+      "epoch": 0.3994140625,
+      "grad_norm": 4.958911702356191,
+      "kl": 0.0601806640625,
+      "learning_rate": 9.001464843749999e-07,
+      "loss": 0.0024,
+      "reward": 1.7922693490982056,
+      "reward_std": 0.07825984340161085,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8000818490982056,
+      "step": 818
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 331.109375,
+      "epoch": 0.39990234375,
+      "grad_norm": 1.3155145245659365,
+      "kl": 0.050537109375,
+      "learning_rate": 9.000244140624999e-07,
+      "loss": 0.002,
+      "reward": 1.6974967122077942,
+      "reward_std": 0.11296156048774719,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7053092420101166,
+      "step": 819
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 345.65625,
+      "epoch": 0.400390625,
+      "grad_norm": 2.13339913891259,
+      "kl": 0.055419921875,
+      "learning_rate": 8.9990234375e-07,
+      "loss": 0.0022,
+      "reward": 1.707070529460907,
+      "reward_std": 0.12426425144076347,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7148829698562622,
+      "step": 820
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 284.984375,
+      "epoch": 0.40087890625,
+      "grad_norm": 3.546816241737904,
+      "kl": 0.063232421875,
+      "learning_rate": 8.997802734375e-07,
+      "loss": 0.0025,
+      "reward": 1.7018118500709534,
+      "reward_std": 0.15557154268026352,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.717436820268631,
+      "step": 821
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 321.2421875,
+      "epoch": 0.4013671875,
+      "grad_norm": 2.7078843795022296,
+      "kl": 0.05029296875,
+      "learning_rate": 8.99658203125e-07,
+      "loss": 0.002,
+      "reward": 1.6248914003372192,
+      "reward_std": 0.09886835888028145,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.624891385436058,
+      "step": 822
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 322.65625,
+      "epoch": 0.40185546875,
+      "grad_norm": 1.1173934118480147,
+      "kl": 0.056396484375,
+      "learning_rate": 8.995361328125e-07,
+      "loss": 0.0023,
+      "reward": 1.670366883277893,
+      "reward_std": 0.022474923171103,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6703668832778931,
+      "step": 823
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 293.5546875,
+      "epoch": 0.40234375,
+      "grad_norm": 1.1487567312767635,
+      "kl": 0.0540771484375,
+      "learning_rate": 8.994140624999999e-07,
+      "loss": 0.0022,
+      "reward": 1.6762340068817139,
+      "reward_std": 0.06469432264566422,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6762339472770691,
+      "step": 824
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 305.2578125,
+      "epoch": 0.40283203125,
+      "grad_norm": 0.47294641259340225,
+      "kl": 0.041015625,
+      "learning_rate": 8.992919921874999e-07,
+      "loss": 0.0016,
+      "reward": 1.9129234552383423,
+      "reward_std": 0.011541639920324087,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.9129234850406647,
+      "step": 825
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 365.625,
+      "epoch": 0.4033203125,
+      "grad_norm": 2.0908075256979757,
+      "kl": 0.0526123046875,
+      "learning_rate": 8.991699218749999e-07,
+      "loss": 0.0021,
+      "reward": 1.5521747469902039,
+      "reward_std": 0.1392434984445572,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.5990498065948486,
+      "step": 826
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 315.71875,
+      "epoch": 0.40380859375,
+      "grad_norm": 1.0870502036918956,
+      "kl": 0.0484619140625,
+      "learning_rate": 8.990478515625e-07,
+      "loss": 0.0019,
+      "reward": 1.6554855108261108,
+      "reward_std": 0.15189751982688904,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.6867355108261108,
+      "step": 827
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 337.6640625,
+      "epoch": 0.404296875,
+      "grad_norm": 1.5086234778630288,
+      "kl": 0.0494384765625,
+      "learning_rate": 8.9892578125e-07,
+      "loss": 0.002,
+      "reward": 1.5656054019927979,
+      "reward_std": 0.13260553404688835,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.5890428274869919,
+      "step": 828
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 270.6328125,
+      "epoch": 0.40478515625,
+      "grad_norm": 3.1905532448295366,
+      "kl": 0.054931640625,
+      "learning_rate": 8.988037109375e-07,
+      "loss": 0.0022,
+      "reward": 1.792038083076477,
+      "reward_std": 0.08523118868470192,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7920379936695099,
+      "step": 829
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 272.6484375,
+      "epoch": 0.4052734375,
+      "grad_norm": 1.4703480432855132,
+      "kl": 0.052978515625,
+      "learning_rate": 8.98681640625e-07,
+      "loss": 0.0021,
+      "reward": 1.7558820843696594,
+      "reward_std": 0.04787625931203365,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7558820843696594,
+      "step": 830
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 319.6484375,
+      "epoch": 0.40576171875,
+      "grad_norm": 7.185703738083162,
+      "kl": 0.04248046875,
+      "learning_rate": 8.985595703124999e-07,
+      "loss": 0.0017,
+      "reward": 1.8221890926361084,
+      "reward_std": 0.05866616778075695,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8221890926361084,
+      "step": 831
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 386.2890625,
+      "epoch": 0.40625,
+      "grad_norm": 2.145560956292342,
+      "kl": 0.063232421875,
+      "learning_rate": 8.984374999999999e-07,
+      "loss": 0.0025,
+      "reward": 1.685830295085907,
+      "reward_std": 0.036165340803563595,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6858302354812622,
+      "step": 832
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 254.8515625,
+      "epoch": 0.40673828125,
+      "grad_norm": 3.391928796703693,
+      "kl": 0.0562744140625,
+      "learning_rate": 8.983154296875e-07,
+      "loss": 0.0023,
+      "reward": 1.6803425550460815,
+      "reward_std": 0.10987947136163712,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6803425848484039,
+      "step": 833
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 365.0703125,
+      "epoch": 0.4072265625,
+      "grad_norm": 2.2044595955803206,
+      "kl": 0.043701171875,
+      "learning_rate": 8.98193359375e-07,
+      "loss": 0.0017,
+      "reward": 1.7496721744537354,
+      "reward_std": 0.12323963642120361,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.757484644651413,
+      "step": 834
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 247.0546875,
+      "epoch": 0.40771484375,
+      "grad_norm": 3.3613379939285344,
+      "kl": 0.0556640625,
+      "learning_rate": 8.980712890625e-07,
+      "loss": 0.0022,
+      "reward": 1.6558890342712402,
+      "reward_std": 0.05606374144554138,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.655889093875885,
+      "step": 835
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 249.203125,
+      "epoch": 0.408203125,
+      "grad_norm": 1.3604816411152902,
+      "kl": 0.0491943359375,
+      "learning_rate": 8.9794921875e-07,
+      "loss": 0.002,
+      "reward": 1.8900187015533447,
+      "reward_std": 0.06370699405670166,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8900187015533447,
+      "step": 836
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 348.5625,
+      "epoch": 0.40869140625,
+      "grad_norm": 2.3095956319983113,
+      "kl": 0.0531005859375,
+      "learning_rate": 8.978271484374999e-07,
+      "loss": 0.0021,
+      "reward": 1.5155598521232605,
+      "reward_std": 0.11974064260721207,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.5546222925186157,
+      "step": 837
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 288.6015625,
+      "epoch": 0.4091796875,
+      "grad_norm": 1.6895406595858493,
+      "kl": 0.05511474609375,
+      "learning_rate": 8.977050781249999e-07,
+      "loss": 0.0022,
+      "reward": 1.7988107204437256,
+      "reward_std": 0.04724998027086258,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7988106906414032,
+      "step": 838
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 314.4609375,
+      "epoch": 0.40966796875,
+      "grad_norm": 38.657918876895465,
+      "kl": 0.05810546875,
+      "learning_rate": 8.975830078124999e-07,
+      "loss": 0.0023,
+      "reward": 1.707718014717102,
+      "reward_std": 0.056786952540278435,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.707718014717102,
+      "step": 839
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 352.0546875,
+      "epoch": 0.41015625,
+      "grad_norm": 3.54984380280518,
+      "kl": 0.043701171875,
+      "learning_rate": 8.974609375e-07,
+      "loss": 0.0017,
+      "reward": 1.6362690329551697,
+      "reward_std": 0.046866053715348244,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6362690329551697,
+      "step": 840
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 360.84375,
+      "epoch": 0.41064453125,
+      "grad_norm": 4.880454547688104,
+      "kl": 0.0343017578125,
+      "learning_rate": 8.973388671875e-07,
+      "loss": 0.0014,
+      "reward": 1.6713696718215942,
+      "reward_std": 0.07554645650088787,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6791820526123047,
+      "step": 841
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 259.75,
+      "epoch": 0.4111328125,
+      "grad_norm": 3.5422070331713558,
+      "kl": 0.047607421875,
+      "learning_rate": 8.97216796875e-07,
+      "loss": 0.0019,
+      "reward": 1.76535165309906,
+      "reward_std": 0.07970313355326653,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7731641829013824,
+      "step": 842
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 342.625,
+      "epoch": 0.41162109375,
+      "grad_norm": 1.6668469246862412,
+      "kl": 0.0472412109375,
+      "learning_rate": 8.970947265625e-07,
+      "loss": 0.0019,
+      "reward": 1.647118866443634,
+      "reward_std": 0.15605220571160316,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.6861813068389893,
+      "step": 843
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 318.8125,
+      "epoch": 0.412109375,
+      "grad_norm": 1.4480209975960932,
+      "kl": 0.036865234375,
+      "learning_rate": 8.969726562499999e-07,
+      "loss": 0.0015,
+      "reward": 1.7060487270355225,
+      "reward_std": 0.19439689815044403,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.7372986376285553,
+      "step": 844
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 351.375,
+      "epoch": 0.41259765625,
+      "grad_norm": 2.6692780266475387,
+      "kl": 0.05126953125,
+      "learning_rate": 8.968505859374999e-07,
+      "loss": 0.0021,
+      "reward": 1.7914454340934753,
+      "reward_std": 0.07013567723333836,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7914454638957977,
+      "step": 845
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 440.234375,
+      "epoch": 0.4130859375,
+      "grad_norm": 1.4785225765927579,
+      "kl": 0.0511474609375,
+      "learning_rate": 8.96728515625e-07,
+      "loss": 0.002,
+      "reward": 1.6806397438049316,
+      "reward_std": 0.09639265388250351,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6884523034095764,
+      "step": 846
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 331.46875,
+      "epoch": 0.41357421875,
+      "grad_norm": 0.978438992258654,
+      "kl": 0.0433349609375,
+      "learning_rate": 8.966064453125e-07,
+      "loss": 0.0017,
+      "reward": 1.7947252988815308,
+      "reward_std": 0.12237262353301048,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.8103502690792084,
+      "step": 847
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 284.859375,
+      "epoch": 0.4140625,
+      "grad_norm": 2.8553868780442206,
+      "kl": 0.053466796875,
+      "learning_rate": 8.96484375e-07,
+      "loss": 0.0021,
+      "reward": 1.7657200694084167,
+      "reward_std": 0.12218839675188065,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7891575396060944,
+      "step": 848
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 270.046875,
+      "epoch": 0.41455078125,
+      "grad_norm": 1.2336624642234275,
+      "kl": 0.06689453125,
+      "learning_rate": 8.963623046875e-07,
+      "loss": 0.0027,
+      "reward": 1.6515643000602722,
+      "reward_std": 0.09395093843340874,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.675001859664917,
+      "step": 849
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 289.1015625,
+      "epoch": 0.4150390625,
+      "grad_norm": 1.6078249545004046,
+      "kl": 0.058837890625,
+      "learning_rate": 8.96240234375e-07,
+      "loss": 0.0024,
+      "reward": 1.6375129222869873,
+      "reward_std": 0.09645092487335205,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6375128775835037,
+      "step": 850
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 259.734375,
+      "epoch": 0.41552734375,
+      "grad_norm": 1.7476214032090949,
+      "kl": 0.0460205078125,
+      "learning_rate": 8.961181640624999e-07,
+      "loss": 0.0018,
+      "reward": 1.8477584719657898,
+      "reward_std": 0.020351408515125513,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8477585017681122,
+      "step": 851
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 277.203125,
+      "epoch": 0.416015625,
+      "grad_norm": 1.538198841160422,
+      "kl": 0.0655517578125,
+      "learning_rate": 8.959960937499999e-07,
+      "loss": 0.0026,
+      "reward": 1.731358528137207,
+      "reward_std": 0.09056920558214188,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.731358528137207,
+      "step": 852
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 303.8671875,
+      "epoch": 0.41650390625,
+      "grad_norm": 5.895599134478584,
+      "kl": 0.069091796875,
+      "learning_rate": 8.958740234375e-07,
+      "loss": 0.0028,
+      "reward": 1.6020338535308838,
+      "reward_std": 0.1456664614379406,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.617658793926239,
+      "step": 853
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 264.546875,
+      "epoch": 0.4169921875,
+      "grad_norm": 9.469721145412421,
+      "kl": 0.056396484375,
+      "learning_rate": 8.95751953125e-07,
+      "loss": 0.0023,
+      "reward": 1.7787832021713257,
+      "reward_std": 0.025636928156018257,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7787831723690033,
+      "step": 854
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 304.7265625,
+      "epoch": 0.41748046875,
+      "grad_norm": 1.667838887256776,
+      "kl": 0.0594482421875,
+      "learning_rate": 8.956298828125e-07,
+      "loss": 0.0024,
+      "reward": 1.8459165692329407,
+      "reward_std": 0.11014392226934433,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8537290096282959,
+      "step": 855
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 329.84375,
+      "epoch": 0.41796875,
+      "grad_norm": 4.431806930390354,
+      "kl": 0.0511474609375,
+      "learning_rate": 8.955078125e-07,
+      "loss": 0.002,
+      "reward": 1.7043548822402954,
+      "reward_std": 0.10635066404938698,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.712167501449585,
+      "step": 856
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 353.4921875,
+      "epoch": 0.41845703125,
+      "grad_norm": 2.770248233041983,
+      "kl": 0.0433349609375,
+      "learning_rate": 8.953857421874999e-07,
+      "loss": 0.0017,
+      "reward": 1.7795735597610474,
+      "reward_std": 0.12282518297433853,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.795198529958725,
+      "step": 857
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 275.84375,
+      "epoch": 0.4189453125,
+      "grad_norm": 2.12159812965168,
+      "kl": 0.064697265625,
+      "learning_rate": 8.952636718749999e-07,
+      "loss": 0.0026,
+      "reward": 1.587533950805664,
+      "reward_std": 0.1150995921343565,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.6344089508056641,
+      "step": 858
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 300.8828125,
+      "epoch": 0.41943359375,
+      "grad_norm": 1.8214435810008032,
+      "kl": 0.0404052734375,
+      "learning_rate": 8.951416015624999e-07,
+      "loss": 0.0016,
+      "reward": 1.7444366216659546,
+      "reward_std": 0.11982932686805725,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7600616216659546,
+      "step": 859
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 363.28125,
+      "epoch": 0.419921875,
+      "grad_norm": 1.745129886806224,
+      "kl": 0.0435791015625,
+      "learning_rate": 8.9501953125e-07,
+      "loss": 0.0017,
+      "reward": 1.84866863489151,
+      "reward_std": 0.039832524955272675,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8486685752868652,
+      "step": 860
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 302.9609375,
+      "epoch": 0.42041015625,
+      "grad_norm": 2.169553869726486,
+      "kl": 0.0478515625,
+      "learning_rate": 8.948974609375e-07,
+      "loss": 0.0019,
+      "reward": 1.6781877279281616,
+      "reward_std": 0.11633714661002159,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.7094376981258392,
+      "step": 861
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 229.546875,
+      "epoch": 0.4208984375,
+      "grad_norm": 2.890081333787121,
+      "kl": 0.05615234375,
+      "learning_rate": 8.94775390625e-07,
+      "loss": 0.0022,
+      "reward": 1.7455247640609741,
+      "reward_std": 0.09918822348117828,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7455247640609741,
+      "step": 862
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 297.1796875,
+      "epoch": 0.42138671875,
+      "grad_norm": 1.885623336317658,
+      "kl": 0.054443359375,
+      "learning_rate": 8.946533203125e-07,
+      "loss": 0.0022,
+      "reward": 1.7564916610717773,
+      "reward_std": 0.12973085790872574,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7721166908740997,
+      "step": 863
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 334.8359375,
+      "epoch": 0.421875,
+      "grad_norm": 10.017435172797613,
+      "kl": 0.1231689453125,
+      "learning_rate": 8.945312499999999e-07,
+      "loss": 0.0049,
+      "reward": 1.6419134140014648,
+      "reward_std": 0.15503490716218948,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.6653508841991425,
+      "step": 864
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 332.3359375,
+      "epoch": 0.42236328125,
+      "grad_norm": 5.291462812901847,
+      "kl": 0.0546875,
+      "learning_rate": 8.944091796874999e-07,
+      "loss": 0.0022,
+      "reward": 1.619509994983673,
+      "reward_std": 0.1739499308168888,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.6429474651813507,
+      "step": 865
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 332.203125,
+      "epoch": 0.4228515625,
+      "grad_norm": 3.9430144083478615,
+      "kl": 0.0474853515625,
+      "learning_rate": 8.94287109375e-07,
+      "loss": 0.0019,
+      "reward": 1.7385854721069336,
+      "reward_std": 0.03805091604590416,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7385854721069336,
+      "step": 866
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 308.59375,
+      "epoch": 0.42333984375,
+      "grad_norm": 1.6092457486819296,
+      "kl": 0.04736328125,
+      "learning_rate": 8.941650390625e-07,
+      "loss": 0.0019,
+      "reward": 1.8048319220542908,
+      "reward_std": 0.06229471415281296,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8048319518566132,
+      "step": 867
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 400.0546875,
+      "epoch": 0.423828125,
+      "grad_norm": 1.9104697019990664,
+      "kl": 0.0382080078125,
+      "learning_rate": 8.9404296875e-07,
+      "loss": 0.0015,
+      "reward": 1.6721869707107544,
+      "reward_std": 0.2335866540670395,
+      "rewards/format_reward": 0.9453125,
+      "rewards/ocr_reward": 0.7268744707107544,
+      "step": 868
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 304.390625,
+      "epoch": 0.42431640625,
+      "grad_norm": 1.4769192488084104,
+      "kl": 0.0577392578125,
+      "learning_rate": 8.939208984375e-07,
+      "loss": 0.0023,
+      "reward": 1.7876529693603516,
+      "reward_std": 0.12172145396471024,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.8032780587673187,
+      "step": 869
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 266.2265625,
+      "epoch": 0.4248046875,
+      "grad_norm": 2.4912707719685816,
+      "kl": 0.063232421875,
+      "learning_rate": 8.937988281249999e-07,
+      "loss": 0.0025,
+      "reward": 1.7117069959640503,
+      "reward_std": 0.10087519139051437,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7195195257663727,
+      "step": 870
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 268.890625,
+      "epoch": 0.42529296875,
+      "grad_norm": 2.904180822248156,
+      "kl": 0.0533447265625,
+      "learning_rate": 8.936767578124999e-07,
+      "loss": 0.0021,
+      "reward": 1.6977179646492004,
+      "reward_std": 0.061658382415771484,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.697717934846878,
+      "step": 871
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 302.3203125,
+      "epoch": 0.42578125,
+      "grad_norm": 3.9810543136057706,
+      "kl": 0.05419921875,
+      "learning_rate": 8.935546874999999e-07,
+      "loss": 0.0022,
+      "reward": 1.778558611869812,
+      "reward_std": 0.13054338097572327,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7941837012767792,
+      "step": 872
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 258.5,
+      "epoch": 0.42626953125,
+      "grad_norm": 2.638694510235747,
+      "kl": 0.0634765625,
+      "learning_rate": 8.934326171875e-07,
+      "loss": 0.0025,
+      "reward": 1.684062123298645,
+      "reward_std": 0.1073136255145073,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6918745934963226,
+      "step": 873
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 320.8359375,
+      "epoch": 0.4267578125,
+      "grad_norm": 1.0328136935198113,
+      "kl": 0.040283203125,
+      "learning_rate": 8.93310546875e-07,
+      "loss": 0.0016,
+      "reward": 1.7540948987007141,
+      "reward_std": 0.057166170328855515,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7540949583053589,
+      "step": 874
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 274.1953125,
+      "epoch": 0.42724609375,
+      "grad_norm": 7.360158040184964,
+      "kl": 0.0521240234375,
+      "learning_rate": 8.931884765625e-07,
+      "loss": 0.0021,
+      "reward": 1.7804943919181824,
+      "reward_std": 0.02563006430864334,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7804943323135376,
+      "step": 875
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 249.265625,
+      "epoch": 0.427734375,
+      "grad_norm": 2.550928083120494,
+      "kl": 0.070556640625,
+      "learning_rate": 8.9306640625e-07,
+      "loss": 0.0028,
+      "reward": 1.721437394618988,
+      "reward_std": 0.09169731847941875,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.721437394618988,
+      "step": 876
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 333.578125,
+      "epoch": 0.42822265625,
+      "grad_norm": 4.314294285455361,
+      "kl": 0.0531005859375,
+      "learning_rate": 8.929443359374999e-07,
+      "loss": 0.0021,
+      "reward": 1.7071447968482971,
+      "reward_std": 0.12683348171412945,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7227697968482971,
+      "step": 877
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 291.53125,
+      "epoch": 0.4287109375,
+      "grad_norm": 7.896509785870648,
+      "kl": 0.0496826171875,
+      "learning_rate": 8.928222656249999e-07,
+      "loss": 0.002,
+      "reward": 1.698940396308899,
+      "reward_std": 0.06823573168367147,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6989404261112213,
+      "step": 878
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 302.1953125,
+      "epoch": 0.42919921875,
+      "grad_norm": 4.419894880080495,
+      "kl": 0.0576171875,
+      "learning_rate": 8.927001953125e-07,
+      "loss": 0.0023,
+      "reward": 1.6944845914840698,
+      "reward_std": 0.13580431789159775,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7022970914840698,
+      "step": 879
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 340.640625,
+      "epoch": 0.4296875,
+      "grad_norm": 3.1624664713185777,
+      "kl": 0.0535888671875,
+      "learning_rate": 8.92578125e-07,
+      "loss": 0.0021,
+      "reward": 1.669293999671936,
+      "reward_std": 0.1342175379395485,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.669293999671936,
+      "step": 880
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 256.4453125,
+      "epoch": 0.43017578125,
+      "grad_norm": 2.394405821979668,
+      "kl": 0.0677490234375,
+      "learning_rate": 8.924560546875e-07,
+      "loss": 0.0027,
+      "reward": 1.7102238535881042,
+      "reward_std": 0.07026012241840363,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7180363833904266,
+      "step": 881
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 371.7578125,
+      "epoch": 0.4306640625,
+      "grad_norm": 1.9581328307353232,
+      "kl": 0.0467529296875,
+      "learning_rate": 8.92333984375e-07,
+      "loss": 0.0019,
+      "reward": 1.7540261149406433,
+      "reward_std": 0.10421252250671387,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7618384957313538,
+      "step": 882
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 366.375,
+      "epoch": 0.43115234375,
+      "grad_norm": 2.6355277149440064,
+      "kl": 0.0487060546875,
+      "learning_rate": 8.922119140624999e-07,
+      "loss": 0.0019,
+      "reward": 1.5595695972442627,
+      "reward_std": 0.058571480214595795,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.5595695376396179,
+      "step": 883
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 369.453125,
+      "epoch": 0.431640625,
+      "grad_norm": 2.4619908418967618,
+      "kl": 0.0504150390625,
+      "learning_rate": 8.920898437499999e-07,
+      "loss": 0.002,
+      "reward": 1.718446969985962,
+      "reward_std": 0.15201827883720398,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.7496969699859619,
+      "step": 884
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 301.796875,
+      "epoch": 0.43212890625,
+      "grad_norm": 1.9043119997675124,
+      "kl": 0.0589599609375,
+      "learning_rate": 8.919677734374999e-07,
+      "loss": 0.0024,
+      "reward": 1.6135079860687256,
+      "reward_std": 0.0632172767072916,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6135080456733704,
+      "step": 885
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 276.9453125,
+      "epoch": 0.4326171875,
+      "grad_norm": 2.828936256887094,
+      "kl": 0.0567626953125,
+      "learning_rate": 8.91845703125e-07,
+      "loss": 0.0023,
+      "reward": 1.8562658429145813,
+      "reward_std": 0.043327707797288895,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8562657833099365,
+      "step": 886
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 327.5703125,
+      "epoch": 0.43310546875,
+      "grad_norm": 3.794004727125142,
+      "kl": 0.061767578125,
+      "learning_rate": 8.917236328125e-07,
+      "loss": 0.0025,
+      "reward": 1.6978505849838257,
+      "reward_std": 0.09938319772481918,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6978505551815033,
+      "step": 887
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 247.9375,
+      "epoch": 0.43359375,
+      "grad_norm": 1.7545127538372571,
+      "kl": 0.050048828125,
+      "learning_rate": 8.916015625e-07,
+      "loss": 0.002,
+      "reward": 1.7462196350097656,
+      "reward_std": 0.08687572181224823,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7540321350097656,
+      "step": 888
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 322.984375,
+      "epoch": 0.43408203125,
+      "grad_norm": 4.59557739433223,
+      "kl": 0.053466796875,
+      "learning_rate": 8.914794921875e-07,
+      "loss": 0.0021,
+      "reward": 1.664870023727417,
+      "reward_std": 0.13343672454357147,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.680495023727417,
+      "step": 889
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 368.6796875,
+      "epoch": 0.4345703125,
+      "grad_norm": 3.0527472360411747,
+      "kl": 0.0570068359375,
+      "learning_rate": 8.913574218749999e-07,
+      "loss": 0.0023,
+      "reward": 1.633752703666687,
+      "reward_std": 0.2018553614616394,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.657190203666687,
+      "step": 890
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 230.8671875,
+      "epoch": 0.43505859375,
+      "grad_norm": 5.7762219418155025,
+      "kl": 0.05517578125,
+      "learning_rate": 8.912353515624999e-07,
+      "loss": 0.0022,
+      "reward": 1.684194028377533,
+      "reward_std": 0.09600569307804108,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6841940879821777,
+      "step": 891
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 343.671875,
+      "epoch": 0.435546875,
+      "grad_norm": 3.3065383732267257,
+      "kl": 0.0523681640625,
+      "learning_rate": 8.9111328125e-07,
+      "loss": 0.0021,
+      "reward": 1.6547590494155884,
+      "reward_std": 0.19414672255516052,
+      "rewards/format_reward": 0.9453125,
+      "rewards/ocr_reward": 0.7094466388225555,
+      "step": 892
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 322.4921875,
+      "epoch": 0.43603515625,
+      "grad_norm": 1.4003093807212736,
+      "kl": 0.063720703125,
+      "learning_rate": 8.909912109375e-07,
+      "loss": 0.0025,
+      "reward": 1.7039158940315247,
+      "reward_std": 0.11482829600572586,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7117283940315247,
+      "step": 893
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 246.6640625,
+      "epoch": 0.4365234375,
+      "grad_norm": 1.3160510217088606,
+      "kl": 0.0574951171875,
+      "learning_rate": 8.90869140625e-07,
+      "loss": 0.0023,
+      "reward": 1.833851397037506,
+      "reward_std": 0.026355454698204994,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8338513970375061,
+      "step": 894
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 250.1171875,
+      "epoch": 0.43701171875,
+      "grad_norm": 1.099488871794088,
+      "kl": 0.0526123046875,
+      "learning_rate": 8.907470703125e-07,
+      "loss": 0.0021,
+      "reward": 1.735145926475525,
+      "reward_std": 0.050868917256593704,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7351458072662354,
+      "step": 895
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 290.3515625,
+      "epoch": 0.4375,
+      "grad_norm": 10.520352255307145,
+      "kl": 0.049560546875,
+      "learning_rate": 8.906249999999999e-07,
+      "loss": 0.002,
+      "reward": 1.5713690519332886,
+      "reward_std": 0.17703481018543243,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.5869940519332886,
+      "step": 896
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 255.0,
+      "epoch": 0.43798828125,
+      "grad_norm": 4.9102977822696525,
+      "kl": 0.059814453125,
+      "learning_rate": 8.905029296874999e-07,
+      "loss": 0.0024,
+      "reward": 1.6745886206626892,
+      "reward_std": 0.056372467428445816,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6745886504650116,
+      "step": 897
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 316.609375,
+      "epoch": 0.4384765625,
+      "grad_norm": 2.850983593865307,
+      "kl": 0.04638671875,
+      "learning_rate": 8.903808593749999e-07,
+      "loss": 0.0019,
+      "reward": 1.7233811616897583,
+      "reward_std": 0.07739730924367905,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7311936020851135,
+      "step": 898
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 311.828125,
+      "epoch": 0.43896484375,
+      "grad_norm": 2.0785423808690977,
+      "kl": 0.0546875,
+      "learning_rate": 8.902587890625e-07,
+      "loss": 0.0022,
+      "reward": 1.764865517616272,
+      "reward_std": 0.06689143739640713,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7648655772209167,
+      "step": 899
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 359.4765625,
+      "epoch": 0.439453125,
+      "grad_norm": 3.4689071084431946,
+      "kl": 0.0462646484375,
+      "learning_rate": 8.9013671875e-07,
+      "loss": 0.0018,
+      "reward": 1.6617870926856995,
+      "reward_std": 0.1315966732800007,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.6852246224880219,
+      "step": 900
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 366.421875,
+      "epoch": 0.43994140625,
+      "grad_norm": 1.5582536488441514,
+      "kl": 0.0484619140625,
+      "learning_rate": 8.900146484375e-07,
+      "loss": 0.0019,
+      "reward": 1.6939795017242432,
+      "reward_std": 0.1498698815703392,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.7252295911312103,
+      "step": 901
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 241.890625,
+      "epoch": 0.4404296875,
+      "grad_norm": 3.2999043304034026,
+      "kl": 0.0615234375,
+      "learning_rate": 8.89892578125e-07,
+      "loss": 0.0025,
+      "reward": 1.6509242057800293,
+      "reward_std": 0.10151878371834755,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6509242355823517,
+      "step": 902
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 363.03125,
+      "epoch": 0.44091796875,
+      "grad_norm": 16.23235566949286,
+      "kl": 0.0509033203125,
+      "learning_rate": 8.897705078124999e-07,
+      "loss": 0.002,
+      "reward": 1.7497307658195496,
+      "reward_std": 0.06852127611637115,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7497306764125824,
+      "step": 903
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 353.1875,
+      "epoch": 0.44140625,
+      "grad_norm": 2.539616901726096,
+      "kl": 0.0562744140625,
+      "learning_rate": 8.896484374999999e-07,
+      "loss": 0.0023,
+      "reward": 1.6935822367668152,
+      "reward_std": 0.14617926999926567,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7170197069644928,
+      "step": 904
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 369.1015625,
+      "epoch": 0.44189453125,
+      "grad_norm": 1.9069482845643857,
+      "kl": 0.050048828125,
+      "learning_rate": 8.895263671875e-07,
+      "loss": 0.002,
+      "reward": 1.6976945996284485,
+      "reward_std": 0.10638157278299332,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7055070698261261,
+      "step": 905
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 265.7734375,
+      "epoch": 0.4423828125,
+      "grad_norm": 3.849069538906998,
+      "kl": 0.0516357421875,
+      "learning_rate": 8.89404296875e-07,
+      "loss": 0.0021,
+      "reward": 1.7132678627967834,
+      "reward_std": 0.138364490121603,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7132679224014282,
+      "step": 906
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 208.0390625,
+      "epoch": 0.44287109375,
+      "grad_norm": 2.305802120564667,
+      "kl": 0.0523681640625,
+      "learning_rate": 8.892822265625e-07,
+      "loss": 0.0021,
+      "reward": 1.7869673371315002,
+      "reward_std": 0.07257464155554771,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7869673371315002,
+      "step": 907
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 356.8671875,
+      "epoch": 0.443359375,
+      "grad_norm": 26.058746364247334,
+      "kl": 0.055908203125,
+      "learning_rate": 8.8916015625e-07,
+      "loss": 0.0022,
+      "reward": 1.628940463066101,
+      "reward_std": 0.13616503030061722,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6445655226707458,
+      "step": 908
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 262.578125,
+      "epoch": 0.44384765625,
+      "grad_norm": 2.122149008743692,
+      "kl": 0.048095703125,
+      "learning_rate": 8.890380859374999e-07,
+      "loss": 0.0019,
+      "reward": 1.7516308426856995,
+      "reward_std": 0.0674322908744216,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7594433426856995,
+      "step": 909
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 294.0546875,
+      "epoch": 0.4443359375,
+      "grad_norm": 4.580725380018095,
+      "kl": 0.0489501953125,
+      "learning_rate": 8.889160156249999e-07,
+      "loss": 0.002,
+      "reward": 1.730670690536499,
+      "reward_std": 0.11633214727044106,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7462956309318542,
+      "step": 910
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 324.3828125,
+      "epoch": 0.44482421875,
+      "grad_norm": 1.320650252057893,
+      "kl": 0.0423583984375,
+      "learning_rate": 8.887939453124999e-07,
+      "loss": 0.0017,
+      "reward": 1.7391434907913208,
+      "reward_std": 0.19686751067638397,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7547684013843536,
+      "step": 911
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 329.6328125,
+      "epoch": 0.4453125,
+      "grad_norm": 1.4523590967417215,
+      "kl": 0.0565185546875,
+      "learning_rate": 8.88671875e-07,
+      "loss": 0.0023,
+      "reward": 1.5424267649650574,
+      "reward_std": 0.07458284497261047,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.550239235162735,
+      "step": 912
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 314.3515625,
+      "epoch": 0.44580078125,
+      "grad_norm": 1.719086973866284,
+      "kl": 0.052734375,
+      "learning_rate": 8.885498046875e-07,
+      "loss": 0.0021,
+      "reward": 1.642267882823944,
+      "reward_std": 0.12693988159298897,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.6657053828239441,
+      "step": 913
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 307.3359375,
+      "epoch": 0.4462890625,
+      "grad_norm": 3.2810083273339217,
+      "kl": 0.0501708984375,
+      "learning_rate": 8.88427734375e-07,
+      "loss": 0.002,
+      "reward": 1.6578189134597778,
+      "reward_std": 0.14238969795405865,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.6890688836574554,
+      "step": 914
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 257.0546875,
+      "epoch": 0.44677734375,
+      "grad_norm": 2.701614835256679,
+      "kl": 0.0416259765625,
+      "learning_rate": 8.883056640625e-07,
+      "loss": 0.0017,
+      "reward": 1.8191250562667847,
+      "reward_std": 0.08679736405611038,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8191250264644623,
+      "step": 915
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 328.2890625,
+      "epoch": 0.447265625,
+      "grad_norm": 4.414560910867886,
+      "kl": 0.0560302734375,
+      "learning_rate": 8.881835937499999e-07,
+      "loss": 0.0022,
+      "reward": 1.700971245765686,
+      "reward_std": 0.0659741573035717,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7009712755680084,
+      "step": 916
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 363.6953125,
+      "epoch": 0.44775390625,
+      "grad_norm": 1.7777346701649772,
+      "kl": 0.041259765625,
+      "learning_rate": 8.880615234374999e-07,
+      "loss": 0.0017,
+      "reward": 1.7923877239227295,
+      "reward_std": 0.052391206845641136,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7923877835273743,
+      "step": 917
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 277.9921875,
+      "epoch": 0.4482421875,
+      "grad_norm": 0.9486222650729225,
+      "kl": 0.0435791015625,
+      "learning_rate": 8.87939453125e-07,
+      "loss": 0.0017,
+      "reward": 1.6959292888641357,
+      "reward_std": 0.02422085404396057,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6959293782711029,
+      "step": 918
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 366.7734375,
+      "epoch": 0.44873046875,
+      "grad_norm": 1.6490253942008113,
+      "kl": 0.052490234375,
+      "learning_rate": 8.878173828125e-07,
+      "loss": 0.0021,
+      "reward": 1.5897186398506165,
+      "reward_std": 0.13733144104480743,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.5975310802459717,
+      "step": 919
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 328.1015625,
+      "epoch": 0.44921875,
+      "grad_norm": 1.4659485502265033,
+      "kl": 0.0418701171875,
+      "learning_rate": 8.876953125e-07,
+      "loss": 0.0017,
+      "reward": 1.6723748445510864,
+      "reward_std": 0.09266382362693548,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6723748296499252,
+      "step": 920
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 381.0234375,
+      "epoch": 0.44970703125,
+      "grad_norm": 2.0567450128282423,
+      "kl": 0.0418701171875,
+      "learning_rate": 8.875732421875e-07,
+      "loss": 0.0017,
+      "reward": 1.635401725769043,
+      "reward_std": 0.11173927411437035,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6432141959667206,
+      "step": 921
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 338.125,
+      "epoch": 0.4501953125,
+      "grad_norm": 6.406156350449351,
+      "kl": 0.041748046875,
+      "learning_rate": 8.874511718749999e-07,
+      "loss": 0.0017,
+      "reward": 1.7291421294212341,
+      "reward_std": 0.051562756299972534,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7291421294212341,
+      "step": 922
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 304.4765625,
+      "epoch": 0.45068359375,
+      "grad_norm": 2.9529489375072915,
+      "kl": 0.0458984375,
+      "learning_rate": 8.873291015624999e-07,
+      "loss": 0.0018,
+      "reward": 1.7142540216445923,
+      "reward_std": 0.157925084233284,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7298789620399475,
+      "step": 923
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 269.0546875,
+      "epoch": 0.451171875,
+      "grad_norm": 0.9225384580987055,
+      "kl": 0.059326171875,
+      "learning_rate": 8.872070312499999e-07,
+      "loss": 0.0024,
+      "reward": 1.7622966170310974,
+      "reward_std": 0.06992994248867035,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7701090574264526,
+      "step": 924
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 352.0703125,
+      "epoch": 0.45166015625,
+      "grad_norm": 0.8543291431386741,
+      "kl": 0.0465087890625,
+      "learning_rate": 8.870849609375e-07,
+      "loss": 0.0019,
+      "reward": 1.664566159248352,
+      "reward_std": 0.04729248210787773,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.664566159248352,
+      "step": 925
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 279.671875,
+      "epoch": 0.4521484375,
+      "grad_norm": 4.361104873897493,
+      "kl": 0.051025390625,
+      "learning_rate": 8.86962890625e-07,
+      "loss": 0.002,
+      "reward": 1.6637241840362549,
+      "reward_std": 0.06688250973820686,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6637241840362549,
+      "step": 926
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 351.9765625,
+      "epoch": 0.45263671875,
+      "grad_norm": 1.321086242390277,
+      "kl": 0.0428466796875,
+      "learning_rate": 8.868408203125e-07,
+      "loss": 0.0017,
+      "reward": 1.609758734703064,
+      "reward_std": 0.1022709459066391,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.6331963092088699,
+      "step": 927
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 269.4140625,
+      "epoch": 0.453125,
+      "grad_norm": 4.639254611969434,
+      "kl": 0.0499267578125,
+      "learning_rate": 8.8671875e-07,
+      "loss": 0.002,
+      "reward": 1.7151271104812622,
+      "reward_std": 0.056340851821005344,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7151271104812622,
+      "step": 928
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 252.8671875,
+      "epoch": 0.45361328125,
+      "grad_norm": 9.59117348810988,
+      "kl": 0.044921875,
+      "learning_rate": 8.865966796874999e-07,
+      "loss": 0.0018,
+      "reward": 1.7646648287773132,
+      "reward_std": 0.08957374095916748,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7724774181842804,
+      "step": 929
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 401.25,
+      "epoch": 0.4541015625,
+      "grad_norm": 1.774508659785477,
+      "kl": 0.0496826171875,
+      "learning_rate": 8.864746093749999e-07,
+      "loss": 0.002,
+      "reward": 1.6190925240516663,
+      "reward_std": 0.1272077076137066,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6269050240516663,
+      "step": 930
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 363.6953125,
+      "epoch": 0.45458984375,
+      "grad_norm": 1.9603229874947314,
+      "kl": 0.0439453125,
+      "learning_rate": 8.863525390625e-07,
+      "loss": 0.0018,
+      "reward": 1.7904832363128662,
+      "reward_std": 0.0836594682186842,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7982957363128662,
+      "step": 931
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 353.421875,
+      "epoch": 0.455078125,
+      "grad_norm": 3.3693206055984968,
+      "kl": 0.0513916015625,
+      "learning_rate": 8.8623046875e-07,
+      "loss": 0.0021,
+      "reward": 1.662086844444275,
+      "reward_std": 0.10136513970792294,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6698993444442749,
+      "step": 932
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 296.234375,
+      "epoch": 0.45556640625,
+      "grad_norm": 2.867780998149891,
+      "kl": 0.0440673828125,
+      "learning_rate": 8.861083984375e-07,
+      "loss": 0.0018,
+      "reward": 1.7205028533935547,
+      "reward_std": 0.11783993989229202,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7205029428005219,
+      "step": 933
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 283.390625,
+      "epoch": 0.4560546875,
+      "grad_norm": 3.335016088362262,
+      "kl": 0.0521240234375,
+      "learning_rate": 8.85986328125e-07,
+      "loss": 0.0021,
+      "reward": 1.6430580615997314,
+      "reward_std": 0.1293087601661682,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.6664955615997314,
+      "step": 934
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 225.234375,
+      "epoch": 0.45654296875,
+      "grad_norm": 3.2388328242370283,
+      "kl": 0.0621337890625,
+      "learning_rate": 8.858642578124999e-07,
+      "loss": 0.0025,
+      "reward": 1.7366413474082947,
+      "reward_std": 0.06143258325755596,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7366413474082947,
+      "step": 935
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 286.390625,
+      "epoch": 0.45703125,
+      "grad_norm": 6.307742284245101,
+      "kl": 0.044921875,
+      "learning_rate": 8.857421874999999e-07,
+      "loss": 0.0018,
+      "reward": 1.8411588072776794,
+      "reward_std": 0.09207257255911827,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8411588072776794,
+      "step": 936
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 310.828125,
+      "epoch": 0.45751953125,
+      "grad_norm": 1.8548370757528454,
+      "kl": 0.0482177734375,
+      "learning_rate": 8.856201171874999e-07,
+      "loss": 0.0019,
+      "reward": 1.673714518547058,
+      "reward_std": 0.12045683711767197,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6737145185470581,
+      "step": 937
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 261.4453125,
+      "epoch": 0.4580078125,
+      "grad_norm": 2.9790179157150005,
+      "kl": 0.0499267578125,
+      "learning_rate": 8.85498046875e-07,
+      "loss": 0.002,
+      "reward": 1.758617639541626,
+      "reward_std": 0.06485863775014877,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7586176097393036,
+      "step": 938
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 364.4375,
+      "epoch": 0.45849609375,
+      "grad_norm": 2.1066399082293747,
+      "kl": 0.0489501953125,
+      "learning_rate": 8.853759765625e-07,
+      "loss": 0.002,
+      "reward": 1.6640775203704834,
+      "reward_std": 0.08030284568667412,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6640775203704834,
+      "step": 939
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 282.6640625,
+      "epoch": 0.458984375,
+      "grad_norm": 29.994085492419032,
+      "kl": 0.0548095703125,
+      "learning_rate": 8.8525390625e-07,
+      "loss": 0.0022,
+      "reward": 1.742246389389038,
+      "reward_std": 0.11800673604011536,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7500588893890381,
+      "step": 940
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 275.8203125,
+      "epoch": 0.45947265625,
+      "grad_norm": 2.0008366557399246,
+      "kl": 0.057861328125,
+      "learning_rate": 8.851318359375e-07,
+      "loss": 0.0023,
+      "reward": 1.8033297061920166,
+      "reward_std": 0.15194324404001236,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.8267672061920166,
+      "step": 941
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 364.8125,
+      "epoch": 0.4599609375,
+      "grad_norm": 1.242202564610936,
+      "kl": 0.04638671875,
+      "learning_rate": 8.850097656249999e-07,
+      "loss": 0.0019,
+      "reward": 1.5236690640449524,
+      "reward_std": 0.09883632883429527,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.5471065491437912,
+      "step": 942
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 411.1484375,
+      "epoch": 0.46044921875,
+      "grad_norm": 2.723081001967419,
+      "kl": 0.0477294921875,
+      "learning_rate": 8.848876953124999e-07,
+      "loss": 0.0019,
+      "reward": 1.7074534893035889,
+      "reward_std": 0.08867547661066055,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7152659893035889,
+      "step": 943
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 312.8203125,
+      "epoch": 0.4609375,
+      "grad_norm": 2.9268520095350783,
+      "kl": 0.0587158203125,
+      "learning_rate": 8.84765625e-07,
+      "loss": 0.0023,
+      "reward": 1.7078036665916443,
+      "reward_std": 0.04931185767054558,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7078036367893219,
+      "step": 944
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 294.390625,
+      "epoch": 0.46142578125,
+      "grad_norm": 2.101619140746079,
+      "kl": 0.044921875,
+      "learning_rate": 8.846435546875e-07,
+      "loss": 0.0018,
+      "reward": 1.7718039155006409,
+      "reward_std": 0.051894426345825195,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7718039155006409,
+      "step": 945
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 287.5546875,
+      "epoch": 0.4619140625,
+      "grad_norm": 0.8404176478040042,
+      "kl": 0.0435791015625,
+      "learning_rate": 8.84521484375e-07,
+      "loss": 0.0017,
+      "reward": 1.7640173435211182,
+      "reward_std": 0.07772124605253339,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7718298435211182,
+      "step": 946
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 160.078125,
+      "epoch": 0.46240234375,
+      "grad_norm": 1.1816393651871933,
+      "kl": 0.058837890625,
+      "learning_rate": 8.843994140625e-07,
+      "loss": 0.0024,
+      "reward": 1.8239731788635254,
+      "reward_std": 0.0738510899245739,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8317857086658478,
+      "step": 947
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 343.6796875,
+      "epoch": 0.462890625,
+      "grad_norm": 2.4437099072575146,
+      "kl": 0.0467529296875,
+      "learning_rate": 8.8427734375e-07,
+      "loss": 0.0019,
+      "reward": 1.8321685194969177,
+      "reward_std": 0.06024608574807644,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8321685194969177,
+      "step": 948
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 202.265625,
+      "epoch": 0.46337890625,
+      "grad_norm": 1.6390280058599591,
+      "kl": 0.064697265625,
+      "learning_rate": 8.841552734374999e-07,
+      "loss": 0.0026,
+      "reward": 1.795024573802948,
+      "reward_std": 0.08007996901869774,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7950246036052704,
+      "step": 949
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 268.3671875,
+      "epoch": 0.4638671875,
+      "grad_norm": 7.952462151127041,
+      "kl": 0.0531005859375,
+      "learning_rate": 8.840332031249999e-07,
+      "loss": 0.0021,
+      "reward": 1.6938014030456543,
+      "reward_std": 0.0921289250254631,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6938014030456543,
+      "step": 950
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 329.28125,
+      "epoch": 0.46435546875,
+      "grad_norm": 2.6547911721421067,
+      "kl": 0.0528564453125,
+      "learning_rate": 8.839111328125e-07,
+      "loss": 0.0021,
+      "reward": 1.7591851353645325,
+      "reward_std": 0.14495818316936493,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7826226055622101,
+      "step": 951
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 328.2265625,
+      "epoch": 0.46484375,
+      "grad_norm": 35.96771698306349,
+      "kl": 0.1925048828125,
+      "learning_rate": 8.837890625e-07,
+      "loss": 0.0077,
+      "reward": 1.7612931728363037,
+      "reward_std": 0.1344320885837078,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7847306728363037,
+      "step": 952
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 360.1015625,
+      "epoch": 0.46533203125,
+      "grad_norm": 15.788401904321928,
+      "kl": 0.038330078125,
+      "learning_rate": 8.836669921875e-07,
+      "loss": 0.0015,
+      "reward": 1.7165034413337708,
+      "reward_std": 0.08753632940351963,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.724315881729126,
+      "step": 953
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 360.203125,
+      "epoch": 0.4658203125,
+      "grad_norm": 1.8975472946536276,
+      "kl": 0.0462646484375,
+      "learning_rate": 8.83544921875e-07,
+      "loss": 0.0018,
+      "reward": 1.653282880783081,
+      "reward_std": 0.14220409467816353,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.668907880783081,
+      "step": 954
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 330.84375,
+      "epoch": 0.46630859375,
+      "grad_norm": 0.9088916050596484,
+      "kl": 0.0372314453125,
+      "learning_rate": 8.834228515624999e-07,
+      "loss": 0.0015,
+      "reward": 1.8434149026870728,
+      "reward_std": 0.028221886605024338,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8434148728847504,
+      "step": 955
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 276.3203125,
+      "epoch": 0.466796875,
+      "grad_norm": 2.81285479890254,
+      "kl": 0.060546875,
+      "learning_rate": 8.833007812499999e-07,
+      "loss": 0.0024,
+      "reward": 1.6376739144325256,
+      "reward_std": 0.12609807774424553,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6454864144325256,
+      "step": 956
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 253.2421875,
+      "epoch": 0.46728515625,
+      "grad_norm": 0.7538661853407663,
+      "kl": 0.0445556640625,
+      "learning_rate": 8.831787109374999e-07,
+      "loss": 0.0018,
+      "reward": 1.6063887476921082,
+      "reward_std": 0.09519611299037933,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.6376387178897858,
+      "step": 957
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 322.9453125,
+      "epoch": 0.4677734375,
+      "grad_norm": 1.6060344661519697,
+      "kl": 0.0537109375,
+      "learning_rate": 8.83056640625e-07,
+      "loss": 0.0021,
+      "reward": 1.572835922241211,
+      "reward_std": 0.2594187408685684,
+      "rewards/format_reward": 0.9296875,
+      "rewards/ocr_reward": 0.6431483775377274,
+      "step": 958
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 295.53125,
+      "epoch": 0.46826171875,
+      "grad_norm": 3.1560722562556003,
+      "kl": 0.049072265625,
+      "learning_rate": 8.829345703125e-07,
+      "loss": 0.002,
+      "reward": 1.6071619987487793,
+      "reward_std": 0.10899307206273079,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6227870583534241,
+      "step": 959
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 216.1015625,
+      "epoch": 0.46875,
+      "grad_norm": 2.778150778773273,
+      "kl": 0.0599365234375,
+      "learning_rate": 8.828125e-07,
+      "loss": 0.0024,
+      "reward": 1.7072476148605347,
+      "reward_std": 0.03206057846546173,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7072476148605347,
+      "step": 960
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 277.4453125,
+      "epoch": 0.46923828125,
+      "grad_norm": 2.505049331757069,
+      "kl": 0.0565185546875,
+      "learning_rate": 8.826904296875e-07,
+      "loss": 0.0023,
+      "reward": 1.7165246605873108,
+      "reward_std": 0.11047841422259808,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.7477746307849884,
+      "step": 961
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 282.125,
+      "epoch": 0.4697265625,
+      "grad_norm": 2.3133113705274453,
+      "kl": 0.058349609375,
+      "learning_rate": 8.825683593749999e-07,
+      "loss": 0.0023,
+      "reward": 1.663506269454956,
+      "reward_std": 0.14057481661438942,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.6947563290596008,
+      "step": 962
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 292.5078125,
+      "epoch": 0.47021484375,
+      "grad_norm": 1.694135344638883,
+      "kl": 0.05712890625,
+      "learning_rate": 8.824462890624999e-07,
+      "loss": 0.0023,
+      "reward": 1.8244240880012512,
+      "reward_std": 0.05446392297744751,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8244240880012512,
+      "step": 963
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 383.609375,
+      "epoch": 0.470703125,
+      "grad_norm": 2.6371365345290045,
+      "kl": 0.0440673828125,
+      "learning_rate": 8.8232421875e-07,
+      "loss": 0.0018,
+      "reward": 1.7416203618049622,
+      "reward_std": 0.12130639143288136,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7650578618049622,
+      "step": 964
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 379.6484375,
+      "epoch": 0.47119140625,
+      "grad_norm": 2.218591135498477,
+      "kl": 0.04278564453125,
+      "learning_rate": 8.822021484375e-07,
+      "loss": 0.0017,
+      "reward": 1.6755053400993347,
+      "reward_std": 0.14992902055382729,
+      "rewards/format_reward": 0.9296875,
+      "rewards/ocr_reward": 0.7458178997039795,
+      "step": 965
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 356.3359375,
+      "epoch": 0.4716796875,
+      "grad_norm": 1.303009090371895,
+      "kl": 0.061279296875,
+      "learning_rate": 8.82080078125e-07,
+      "loss": 0.0025,
+      "reward": 1.6562331914901733,
+      "reward_std": 0.08586933836340904,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6718582212924957,
+      "step": 966
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 257.40625,
+      "epoch": 0.47216796875,
+      "grad_norm": 9.095150959885645,
+      "kl": 0.0653076171875,
+      "learning_rate": 8.819580078125e-07,
+      "loss": 0.0026,
+      "reward": 1.7505657076835632,
+      "reward_std": 0.04661328159272671,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.750565767288208,
+      "step": 967
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 373.2890625,
+      "epoch": 0.47265625,
+      "grad_norm": 2.6818988160026658,
+      "kl": 0.05078125,
+      "learning_rate": 8.818359374999999e-07,
+      "loss": 0.002,
+      "reward": 1.7254713773727417,
+      "reward_std": 0.2372339516878128,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.7645338177680969,
+      "step": 968
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 228.75,
+      "epoch": 0.47314453125,
+      "grad_norm": 2.2365369221179696,
+      "kl": 0.062744140625,
+      "learning_rate": 8.817138671874999e-07,
+      "loss": 0.0025,
+      "reward": 1.7773956656455994,
+      "reward_std": 0.0699392519891262,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7773956060409546,
+      "step": 969
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 298.4921875,
+      "epoch": 0.4736328125,
+      "grad_norm": 3.807273507290948,
+      "kl": 0.0625,
+      "learning_rate": 8.815917968749999e-07,
+      "loss": 0.0025,
+      "reward": 1.6723923683166504,
+      "reward_std": 0.1734137311577797,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.680204838514328,
+      "step": 970
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 313.5625,
+      "epoch": 0.47412109375,
+      "grad_norm": 0.8599955165133477,
+      "kl": 0.0482177734375,
+      "learning_rate": 8.814697265625e-07,
+      "loss": 0.0019,
+      "reward": 1.854150652885437,
+      "reward_std": 0.06166762858629227,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.854150652885437,
+      "step": 971
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 355.28125,
+      "epoch": 0.474609375,
+      "grad_norm": 4.899318801004212,
+      "kl": 0.043701171875,
+      "learning_rate": 8.8134765625e-07,
+      "loss": 0.0017,
+      "reward": 1.817629873752594,
+      "reward_std": 0.09293503686785698,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8254423439502716,
+      "step": 972
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 268.8203125,
+      "epoch": 0.47509765625,
+      "grad_norm": 4.869813713992535,
+      "kl": 0.0604248046875,
+      "learning_rate": 8.812255859375e-07,
+      "loss": 0.0024,
+      "reward": 1.7895490527153015,
+      "reward_std": 0.06284810416400433,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7895489931106567,
+      "step": 973
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 275.2265625,
+      "epoch": 0.4755859375,
+      "grad_norm": 2.71150507007993,
+      "kl": 0.0546875,
+      "learning_rate": 8.81103515625e-07,
+      "loss": 0.0022,
+      "reward": 1.8050071597099304,
+      "reward_std": 0.11932638473808765,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.8206321597099304,
+      "step": 974
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 254.890625,
+      "epoch": 0.47607421875,
+      "grad_norm": 2.495906498649002,
+      "kl": 0.0635986328125,
+      "learning_rate": 8.809814453124999e-07,
+      "loss": 0.0025,
+      "reward": 1.6766229271888733,
+      "reward_std": 0.06276751309633255,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6766228377819061,
+      "step": 975
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 299.2890625,
+      "epoch": 0.4765625,
+      "grad_norm": 2.0928693525491595,
+      "kl": 0.048828125,
+      "learning_rate": 8.808593749999999e-07,
+      "loss": 0.002,
+      "reward": 1.6983801126480103,
+      "reward_std": 0.11064053699374199,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7140050232410431,
+      "step": 976
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 276.6796875,
+      "epoch": 0.47705078125,
+      "grad_norm": 1.9579863122715575,
+      "kl": 0.0552978515625,
+      "learning_rate": 8.807373046875e-07,
+      "loss": 0.0022,
+      "reward": 1.6679657697677612,
+      "reward_std": 0.05069480650126934,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6679657995700836,
+      "step": 977
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 369.921875,
+      "epoch": 0.4775390625,
+      "grad_norm": 1.0533835681539812,
+      "kl": 0.0489501953125,
+      "learning_rate": 8.80615234375e-07,
+      "loss": 0.002,
+      "reward": 1.7244895100593567,
+      "reward_std": 0.11370780691504478,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7401144802570343,
+      "step": 978
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 395.9609375,
+      "epoch": 0.47802734375,
+      "grad_norm": 0.9675050638605003,
+      "kl": 0.038330078125,
+      "learning_rate": 8.804931640625e-07,
+      "loss": 0.0015,
+      "reward": 1.7015687227249146,
+      "reward_std": 0.1075466200709343,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7171937227249146,
+      "step": 979
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 289.4140625,
+      "epoch": 0.478515625,
+      "grad_norm": 1.5989887143012946,
+      "kl": 0.0556640625,
+      "learning_rate": 8.8037109375e-07,
+      "loss": 0.0022,
+      "reward": 1.647861123085022,
+      "reward_std": 0.08899911493062973,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.647861123085022,
+      "step": 980
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 366.03125,
+      "epoch": 0.47900390625,
+      "grad_norm": 3.564295998020266,
+      "kl": 0.047119140625,
+      "learning_rate": 8.802490234374999e-07,
+      "loss": 0.0019,
+      "reward": 1.699999213218689,
+      "reward_std": 0.20631136745214462,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.723436713218689,
+      "step": 981
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 232.4765625,
+      "epoch": 0.4794921875,
+      "grad_norm": 16.58975911359156,
+      "kl": 0.0689697265625,
+      "learning_rate": 8.801269531249999e-07,
+      "loss": 0.0028,
+      "reward": 1.6581519842147827,
+      "reward_std": 0.06756994873285294,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6581519246101379,
+      "step": 982
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 233.953125,
+      "epoch": 0.47998046875,
+      "grad_norm": 2.7300942691577283,
+      "kl": 0.05859375,
+      "learning_rate": 8.800048828124999e-07,
+      "loss": 0.0023,
+      "reward": 1.7354393601417542,
+      "reward_std": 0.050481900572776794,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7354393303394318,
+      "step": 983
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 281.8671875,
+      "epoch": 0.48046875,
+      "grad_norm": 4.98249531747594,
+      "kl": 0.0531005859375,
+      "learning_rate": 8.798828125e-07,
+      "loss": 0.0021,
+      "reward": 1.7789223194122314,
+      "reward_std": 0.10021020472049713,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7789223790168762,
+      "step": 984
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 318.734375,
+      "epoch": 0.48095703125,
+      "grad_norm": 2.6662511183569135,
+      "kl": 0.0576171875,
+      "learning_rate": 8.797607421875e-07,
+      "loss": 0.0023,
+      "reward": 1.7876138091087341,
+      "reward_std": 0.09649738110601902,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7954262793064117,
+      "step": 985
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 387.53125,
+      "epoch": 0.4814453125,
+      "grad_norm": 1.910422280476843,
+      "kl": 0.0419921875,
+      "learning_rate": 8.79638671875e-07,
+      "loss": 0.0017,
+      "reward": 1.7141448259353638,
+      "reward_std": 0.129779651761055,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7297699153423309,
+      "step": 986
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 279.3359375,
+      "epoch": 0.48193359375,
+      "grad_norm": 4.7292076134081364,
+      "kl": 0.058837890625,
+      "learning_rate": 8.795166015625e-07,
+      "loss": 0.0023,
+      "reward": 1.5576480627059937,
+      "reward_std": 0.08005259186029434,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.5576481074094772,
+      "step": 987
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 304.90625,
+      "epoch": 0.482421875,
+      "grad_norm": 88.09217055784015,
+      "kl": 0.0555419921875,
+      "learning_rate": 8.793945312499999e-07,
+      "loss": 0.0022,
+      "reward": 1.7375428676605225,
+      "reward_std": 0.055084478110075,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7375428080558777,
+      "step": 988
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 411.5390625,
+      "epoch": 0.48291015625,
+      "grad_norm": 2.034132921180751,
+      "kl": 0.04638671875,
+      "learning_rate": 8.792724609374999e-07,
+      "loss": 0.0019,
+      "reward": 1.5709097981452942,
+      "reward_std": 0.16416695713996887,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.602159857749939,
+      "step": 989
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 309.984375,
+      "epoch": 0.4833984375,
+      "grad_norm": 2.0802002056866566,
+      "kl": 0.0771484375,
+      "learning_rate": 8.79150390625e-07,
+      "loss": 0.0031,
+      "reward": 1.762831211090088,
+      "reward_std": 0.13553397357463837,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7862686514854431,
+      "step": 990
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 277.3203125,
+      "epoch": 0.48388671875,
+      "grad_norm": 2.7772153375663637,
+      "kl": 0.091552734375,
+      "learning_rate": 8.790283203125e-07,
+      "loss": 0.0037,
+      "reward": 1.6474461555480957,
+      "reward_std": 0.05931936576962471,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6474461555480957,
+      "step": 991
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 330.5703125,
+      "epoch": 0.484375,
+      "grad_norm": 6.876528890436644,
+      "kl": 0.072265625,
+      "learning_rate": 8.7890625e-07,
+      "loss": 0.0029,
+      "reward": 1.698776364326477,
+      "reward_std": 0.12324061989784241,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.714401364326477,
+      "step": 992
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 360.3359375,
+      "epoch": 0.48486328125,
+      "grad_norm": 1.9851363650800362,
+      "kl": 0.0592041015625,
+      "learning_rate": 8.787841796875e-07,
+      "loss": 0.0024,
+      "reward": 1.696526050567627,
+      "reward_std": 0.10686031728982925,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7199635207653046,
+      "step": 993
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 285.546875,
+      "epoch": 0.4853515625,
+      "grad_norm": 0.6005806822321215,
+      "kl": 0.039794921875,
+      "learning_rate": 8.786621093749999e-07,
+      "loss": 0.0016,
+      "reward": 1.7581510543823242,
+      "reward_std": 0.02178693562746048,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7581509947776794,
+      "step": 994
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 313.90625,
+      "epoch": 0.48583984375,
+      "grad_norm": 1.2977429398294698,
+      "kl": 0.0615234375,
+      "learning_rate": 8.785400390624999e-07,
+      "loss": 0.0025,
+      "reward": 1.6917137503623962,
+      "reward_std": 0.0859937984496355,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6995262205600739,
+      "step": 995
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 367.3984375,
+      "epoch": 0.486328125,
+      "grad_norm": 5.4475694378610235,
+      "kl": 0.044921875,
+      "learning_rate": 8.784179687499999e-07,
+      "loss": 0.0018,
+      "reward": 1.7169365882873535,
+      "reward_std": 0.12018711119890213,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7325615584850311,
+      "step": 996
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 345.0703125,
+      "epoch": 0.48681640625,
+      "grad_norm": 1.8640936228979166,
+      "kl": 0.0543212890625,
+      "learning_rate": 8.782958984375e-07,
+      "loss": 0.0022,
+      "reward": 1.7613821029663086,
+      "reward_std": 0.09000418707728386,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7613821029663086,
+      "step": 997
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 311.7734375,
+      "epoch": 0.4873046875,
+      "grad_norm": 3.3218342595257826,
+      "kl": 0.064453125,
+      "learning_rate": 8.78173828125e-07,
+      "loss": 0.0026,
+      "reward": 1.7463974952697754,
+      "reward_std": 0.06820238195359707,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7463975548744202,
+      "step": 998
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 298.9765625,
+      "epoch": 0.48779296875,
+      "grad_norm": 2.845066128105519,
+      "kl": 0.045654296875,
+      "learning_rate": 8.780517578125e-07,
+      "loss": 0.0018,
+      "reward": 1.7427108883857727,
+      "reward_std": 0.05628257617354393,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7427108585834503,
+      "step": 999
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 322.265625,
+      "epoch": 0.48828125,
+      "grad_norm": 1.9373093856251078,
+      "kl": 0.0430908203125,
+      "learning_rate": 8.779296875e-07,
+      "loss": 0.0017,
+      "reward": 1.673474371433258,
+      "reward_std": 0.06652860343456268,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6734744310379028,
+      "step": 1000
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 292.2109375,
+      "epoch": 0.48876953125,
+      "grad_norm": 1.0767612289001378,
+      "kl": 0.05712890625,
+      "learning_rate": 8.778076171874999e-07,
+      "loss": 0.0023,
+      "reward": 1.7587948441505432,
+      "reward_std": 0.07515900582075119,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7666072845458984,
+      "step": 1001
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 345.5625,
+      "epoch": 0.4892578125,
+      "grad_norm": 3.2104609137717213,
+      "kl": 0.0506591796875,
+      "learning_rate": 8.776855468749999e-07,
+      "loss": 0.002,
+      "reward": 1.6220356822013855,
+      "reward_std": 0.17616816610097885,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6376607120037079,
+      "step": 1002
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 325.5078125,
+      "epoch": 0.48974609375,
+      "grad_norm": 3.146050014446822,
+      "kl": 0.0667724609375,
+      "learning_rate": 8.775634765625e-07,
+      "loss": 0.0027,
+      "reward": 1.7525697350502014,
+      "reward_std": 0.05434555187821388,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.752569705247879,
+      "step": 1003
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 256.6484375,
+      "epoch": 0.490234375,
+      "grad_norm": 1.5821218198575908,
+      "kl": 0.059814453125,
+      "learning_rate": 8.7744140625e-07,
+      "loss": 0.0024,
+      "reward": 1.7353711128234863,
+      "reward_std": 0.10459060035645962,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7353711128234863,
+      "step": 1004
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 181.5703125,
+      "epoch": 0.49072265625,
+      "grad_norm": 2.4207497788820755,
+      "kl": 0.076171875,
+      "learning_rate": 8.773193359375e-07,
+      "loss": 0.0031,
+      "reward": 1.7326418161392212,
+      "reward_std": 0.1155674196779728,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7326418459415436,
+      "step": 1005
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 298.421875,
+      "epoch": 0.4912109375,
+      "grad_norm": 1.288491196574845,
+      "kl": 0.0489501953125,
+      "learning_rate": 8.77197265625e-07,
+      "loss": 0.002,
+      "reward": 1.7518397569656372,
+      "reward_std": 0.12005745619535446,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7674647867679596,
+      "step": 1006
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 294.6015625,
+      "epoch": 0.49169921875,
+      "grad_norm": 2.17017216108325,
+      "kl": 0.05712890625,
+      "learning_rate": 8.770751953124999e-07,
+      "loss": 0.0023,
+      "reward": 1.7059745788574219,
+      "reward_std": 0.09743463061749935,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7137870192527771,
+      "step": 1007
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 363.2578125,
+      "epoch": 0.4921875,
+      "grad_norm": 2.2836236753098285,
+      "kl": 0.04638671875,
+      "learning_rate": 8.769531249999999e-07,
+      "loss": 0.0019,
+      "reward": 1.8077695965766907,
+      "reward_std": 0.07913680747151375,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8077695965766907,
+      "step": 1008
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 326.1796875,
+      "epoch": 0.49267578125,
+      "grad_norm": 2.175372559341028,
+      "kl": 0.057861328125,
+      "learning_rate": 8.768310546874999e-07,
+      "loss": 0.0023,
+      "reward": 1.5813584327697754,
+      "reward_std": 0.1646919883787632,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.620420902967453,
+      "step": 1009
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 277.109375,
+      "epoch": 0.4931640625,
+      "grad_norm": 4.3957866299990584,
+      "kl": 0.0538330078125,
+      "learning_rate": 8.76708984375e-07,
+      "loss": 0.0022,
+      "reward": 1.8353816866874695,
+      "reward_std": 0.08745286241173744,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8353817164897919,
+      "step": 1010
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 340.359375,
+      "epoch": 0.49365234375,
+      "grad_norm": 2.6582112897234027,
+      "kl": 0.049560546875,
+      "learning_rate": 8.765869140625e-07,
+      "loss": 0.002,
+      "reward": 1.784598708152771,
+      "reward_std": 0.0864131823182106,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7924111783504486,
+      "step": 1011
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 350.03125,
+      "epoch": 0.494140625,
+      "grad_norm": 1.71535782271039,
+      "kl": 0.04443359375,
+      "learning_rate": 8.7646484375e-07,
+      "loss": 0.0018,
+      "reward": 1.7793409824371338,
+      "reward_std": 0.08340132981538773,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7949659824371338,
+      "step": 1012
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 241.046875,
+      "epoch": 0.49462890625,
+      "grad_norm": 1.5058958043333488,
+      "kl": 0.0576171875,
+      "learning_rate": 8.763427734375e-07,
+      "loss": 0.0023,
+      "reward": 1.7034955024719238,
+      "reward_std": 0.054896529763936996,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7034954726696014,
+      "step": 1013
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 358.375,
+      "epoch": 0.4951171875,
+      "grad_norm": 2.2521914639437264,
+      "kl": 0.041748046875,
+      "learning_rate": 8.762207031249999e-07,
+      "loss": 0.0017,
+      "reward": 1.7619941234588623,
+      "reward_std": 0.05280686542391777,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7619940936565399,
+      "step": 1014
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 342.5078125,
+      "epoch": 0.49560546875,
+      "grad_norm": 2.6329502608180997,
+      "kl": 0.046630859375,
+      "learning_rate": 8.760986328124999e-07,
+      "loss": 0.0019,
+      "reward": 1.652110517024994,
+      "reward_std": 0.0947786420583725,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.6833605170249939,
+      "step": 1015
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 340.859375,
+      "epoch": 0.49609375,
+      "grad_norm": 9.694014679211683,
+      "kl": 0.0516357421875,
+      "learning_rate": 8.759765625e-07,
+      "loss": 0.0021,
+      "reward": 1.6479641199111938,
+      "reward_std": 0.15935315564274788,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.6870265901088715,
+      "step": 1016
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 360.9921875,
+      "epoch": 0.49658203125,
+      "grad_norm": 3.105492193769874,
+      "kl": 0.0606689453125,
+      "learning_rate": 8.758544921875e-07,
+      "loss": 0.0024,
+      "reward": 1.6694360971450806,
+      "reward_std": 0.15797552838921547,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.6928735375404358,
+      "step": 1017
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 289.890625,
+      "epoch": 0.4970703125,
+      "grad_norm": 1.937880245962877,
+      "kl": 0.06005859375,
+      "learning_rate": 8.75732421875e-07,
+      "loss": 0.0024,
+      "reward": 1.6215600371360779,
+      "reward_std": 0.17177317291498184,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6293725073337555,
+      "step": 1018
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 269.0703125,
+      "epoch": 0.49755859375,
+      "grad_norm": 14.494394764668058,
+      "kl": 0.0552978515625,
+      "learning_rate": 8.756103515625e-07,
+      "loss": 0.0022,
+      "reward": 1.6862713098526,
+      "reward_std": 0.08157765120267868,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6862713694572449,
+      "step": 1019
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 271.6171875,
+      "epoch": 0.498046875,
+      "grad_norm": 1.0520254258307151,
+      "kl": 0.0523681640625,
+      "learning_rate": 8.754882812499999e-07,
+      "loss": 0.0021,
+      "reward": 1.700273334980011,
+      "reward_std": 0.10829027369618416,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7158983647823334,
+      "step": 1020
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 298.84375,
+      "epoch": 0.49853515625,
+      "grad_norm": 4.450345699769664,
+      "kl": 0.0531005859375,
+      "learning_rate": 8.753662109374999e-07,
+      "loss": 0.0021,
+      "reward": 1.7399001717567444,
+      "reward_std": 0.07643388211727142,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7477126717567444,
+      "step": 1021
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 254.078125,
+      "epoch": 0.4990234375,
+      "grad_norm": 1.7817445597680743,
+      "kl": 0.0594482421875,
+      "learning_rate": 8.752441406249999e-07,
+      "loss": 0.0024,
+      "reward": 1.7631664872169495,
+      "reward_std": 0.10064388811588287,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7787915170192719,
+      "step": 1022
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 347.2890625,
+      "epoch": 0.49951171875,
+      "grad_norm": 0.7791878426138603,
+      "kl": 0.0509033203125,
+      "learning_rate": 8.751220703125e-07,
+      "loss": 0.002,
+      "reward": 1.8146781921386719,
+      "reward_std": 0.040183124132454395,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8146781921386719,
+      "step": 1023
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 288.7734375,
+      "epoch": 0.5,
+      "grad_norm": 7.200748288611341,
+      "kl": 0.0555419921875,
+      "learning_rate": 8.75e-07,
+      "loss": 0.0022,
+      "reward": 1.6464455127716064,
+      "reward_std": 0.11078909412026405,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6620705127716064,
+      "step": 1024
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 311.5625,
+      "epoch": 0.50048828125,
+      "grad_norm": 1.3967289593260515,
+      "kl": 0.0596923828125,
+      "learning_rate": 8.748779296875e-07,
+      "loss": 0.0024,
+      "reward": 1.7132092714309692,
+      "reward_std": 0.06034594029188156,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7132093012332916,
+      "step": 1025
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 268.6328125,
+      "epoch": 0.5009765625,
+      "grad_norm": 1.143532694929036,
+      "kl": 0.0494384765625,
+      "learning_rate": 8.74755859375e-07,
+      "loss": 0.002,
+      "reward": 1.7486969828605652,
+      "reward_std": 0.08863399224355817,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7643219530582428,
+      "step": 1026
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 356.1875,
+      "epoch": 0.50146484375,
+      "grad_norm": 2.946621458474271,
+      "kl": 0.0443115234375,
+      "learning_rate": 8.746337890624999e-07,
+      "loss": 0.0018,
+      "reward": 1.7483346462249756,
+      "reward_std": 0.08586347103118896,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.756147176027298,
+      "step": 1027
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 361.0859375,
+      "epoch": 0.501953125,
+      "grad_norm": 3.4713510932561054,
+      "kl": 0.05322265625,
+      "learning_rate": 8.745117187499999e-07,
+      "loss": 0.0021,
+      "reward": 1.6632013320922852,
+      "reward_std": 0.17927244305610657,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.6866387724876404,
+      "step": 1028
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 397.5546875,
+      "epoch": 0.50244140625,
+      "grad_norm": 1.6093239601152483,
+      "kl": 0.0498046875,
+      "learning_rate": 8.743896484375e-07,
+      "loss": 0.002,
+      "reward": 1.6798649430274963,
+      "reward_std": 0.12823793105781078,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.7111149281263351,
+      "step": 1029
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 336.953125,
+      "epoch": 0.5029296875,
+      "grad_norm": 2.576957508996577,
+      "kl": 0.063720703125,
+      "learning_rate": 8.74267578125e-07,
+      "loss": 0.0025,
+      "reward": 1.7268919944763184,
+      "reward_std": 0.11807430163025856,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7347044944763184,
+      "step": 1030
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 304.0625,
+      "epoch": 0.50341796875,
+      "grad_norm": 1.3370534115868566,
+      "kl": 0.051025390625,
+      "learning_rate": 8.741455078125e-07,
+      "loss": 0.002,
+      "reward": 1.7975549697875977,
+      "reward_std": 0.048098307102918625,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7975549101829529,
+      "step": 1031
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 304.7265625,
+      "epoch": 0.50390625,
+      "grad_norm": 1.3836237431764185,
+      "kl": 0.0504150390625,
+      "learning_rate": 8.740234375e-07,
+      "loss": 0.002,
+      "reward": 1.634350836277008,
+      "reward_std": 0.098635109141469,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6421633064746857,
+      "step": 1032
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 396.8125,
+      "epoch": 0.50439453125,
+      "grad_norm": 2.5285386551064795,
+      "kl": 0.0504150390625,
+      "learning_rate": 8.739013671874999e-07,
+      "loss": 0.002,
+      "reward": 1.6886343359947205,
+      "reward_std": 0.1606372781097889,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7120718657970428,
+      "step": 1033
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 382.265625,
+      "epoch": 0.5048828125,
+      "grad_norm": 3.1872891481166574,
+      "kl": 0.0452880859375,
+      "learning_rate": 8.737792968749999e-07,
+      "loss": 0.0018,
+      "reward": 1.6827728748321533,
+      "reward_std": 0.12052744254469872,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6827729046344757,
+      "step": 1034
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 276.5234375,
+      "epoch": 0.50537109375,
+      "grad_norm": 1.4142083245543213,
+      "kl": 0.0538330078125,
+      "learning_rate": 8.736572265624999e-07,
+      "loss": 0.0022,
+      "reward": 1.706916630268097,
+      "reward_std": 0.13945464044809341,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7225416600704193,
+      "step": 1035
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 307.6953125,
+      "epoch": 0.505859375,
+      "grad_norm": 1.1813868455912004,
+      "kl": 0.0445556640625,
+      "learning_rate": 8.7353515625e-07,
+      "loss": 0.0018,
+      "reward": 1.8250656127929688,
+      "reward_std": 0.059078922495245934,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8250656723976135,
+      "step": 1036
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 241.765625,
+      "epoch": 0.50634765625,
+      "grad_norm": 1.9538556939291407,
+      "kl": 0.0528564453125,
+      "learning_rate": 8.734130859375e-07,
+      "loss": 0.0021,
+      "reward": 1.6294710636138916,
+      "reward_std": 0.12247138097882271,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6294711232185364,
+      "step": 1037
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 342.9296875,
+      "epoch": 0.5068359375,
+      "grad_norm": 1.4987364875717888,
+      "kl": 0.042236328125,
+      "learning_rate": 8.73291015625e-07,
+      "loss": 0.0017,
+      "reward": 1.797271490097046,
+      "reward_std": 0.05235948599874973,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7972714900970459,
+      "step": 1038
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 335.0,
+      "epoch": 0.50732421875,
+      "grad_norm": 2.833930667181314,
+      "kl": 0.04833984375,
+      "learning_rate": 8.731689453125e-07,
+      "loss": 0.0019,
+      "reward": 1.7178579568862915,
+      "reward_std": 0.09247782826423645,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7256704568862915,
+      "step": 1039
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 264.8203125,
+      "epoch": 0.5078125,
+      "grad_norm": 1.467240282257085,
+      "kl": 0.0572509765625,
+      "learning_rate": 8.730468749999999e-07,
+      "loss": 0.0023,
+      "reward": 1.7496626377105713,
+      "reward_std": 0.02964417589828372,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7496626377105713,
+      "step": 1040
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 263.703125,
+      "epoch": 0.50830078125,
+      "grad_norm": 1.108726705203492,
+      "kl": 0.052001953125,
+      "learning_rate": 8.729248046874999e-07,
+      "loss": 0.0021,
+      "reward": 1.7599297761917114,
+      "reward_std": 0.04675179207697511,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.759929746389389,
+      "step": 1041
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 238.34375,
+      "epoch": 0.5087890625,
+      "grad_norm": 1.5788272962847125,
+      "kl": 0.055908203125,
+      "learning_rate": 8.72802734375e-07,
+      "loss": 0.0022,
+      "reward": 1.8183218836784363,
+      "reward_std": 0.04584968835115433,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.818321943283081,
+      "step": 1042
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 311.1953125,
+      "epoch": 0.50927734375,
+      "grad_norm": 4.386222680431177,
+      "kl": 0.074951171875,
+      "learning_rate": 8.726806640625e-07,
+      "loss": 0.003,
+      "reward": 1.7009983658790588,
+      "reward_std": 0.1038425974547863,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7009983360767365,
+      "step": 1043
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 330.171875,
+      "epoch": 0.509765625,
+      "grad_norm": 2.3821930491899934,
+      "kl": 0.0462646484375,
+      "learning_rate": 8.7255859375e-07,
+      "loss": 0.0018,
+      "reward": 1.7736052870750427,
+      "reward_std": 0.10071777179837227,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.781417727470398,
+      "step": 1044
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 340.5078125,
+      "epoch": 0.51025390625,
+      "grad_norm": 1.549376759535485,
+      "kl": 0.052734375,
+      "learning_rate": 8.724365234375e-07,
+      "loss": 0.0021,
+      "reward": 1.7131693959236145,
+      "reward_std": 0.07255561649799347,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7131693959236145,
+      "step": 1045
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 320.6015625,
+      "epoch": 0.5107421875,
+      "grad_norm": 6.712788585227676,
+      "kl": 0.1573486328125,
+      "learning_rate": 8.72314453125e-07,
+      "loss": 0.0063,
+      "reward": 1.6211495399475098,
+      "reward_std": 0.13179854303598404,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.6602120995521545,
+      "step": 1046
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 308.1171875,
+      "epoch": 0.51123046875,
+      "grad_norm": 3.0574803857364286,
+      "kl": 0.04736328125,
+      "learning_rate": 8.721923828124999e-07,
+      "loss": 0.0019,
+      "reward": 1.7683227062225342,
+      "reward_std": 0.08765990659594536,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7761352360248566,
+      "step": 1047
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 257.8046875,
+      "epoch": 0.51171875,
+      "grad_norm": 2.023235694735734,
+      "kl": 0.065185546875,
+      "learning_rate": 8.720703124999999e-07,
+      "loss": 0.0026,
+      "reward": 1.6004237532615662,
+      "reward_std": 0.05043849162757397,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6004238128662109,
+      "step": 1048
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 279.609375,
+      "epoch": 0.51220703125,
+      "grad_norm": 1.880850379976763,
+      "kl": 0.058837890625,
+      "learning_rate": 8.719482421875e-07,
+      "loss": 0.0024,
+      "reward": 1.828034520149231,
+      "reward_std": 0.05495187267661095,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.828034520149231,
+      "step": 1049
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 290.7421875,
+      "epoch": 0.5126953125,
+      "grad_norm": 1.737728691407687,
+      "kl": 0.05517578125,
+      "learning_rate": 8.71826171875e-07,
+      "loss": 0.0022,
+      "reward": 1.560300588607788,
+      "reward_std": 0.07925301790237427,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.5681131184101105,
+      "step": 1050
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 270.6328125,
+      "epoch": 0.51318359375,
+      "grad_norm": 2.886774795094905,
+      "kl": 0.0634765625,
+      "learning_rate": 8.717041015625e-07,
+      "loss": 0.0025,
+      "reward": 1.6774318218231201,
+      "reward_std": 0.06801902502775192,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6852443218231201,
+      "step": 1051
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 409.0859375,
+      "epoch": 0.513671875,
+      "grad_norm": 1.0122422402580602,
+      "kl": 0.0460205078125,
+      "learning_rate": 8.7158203125e-07,
+      "loss": 0.0018,
+      "reward": 1.7169759273529053,
+      "reward_std": 0.05733257718384266,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7169758975505829,
+      "step": 1052
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 293.25,
+      "epoch": 0.51416015625,
+      "grad_norm": 1.0407203824158495,
+      "kl": 0.0599365234375,
+      "learning_rate": 8.714599609374999e-07,
+      "loss": 0.0024,
+      "reward": 1.7637624740600586,
+      "reward_std": 0.09369587153196335,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7793874442577362,
+      "step": 1053
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 250.25,
+      "epoch": 0.5146484375,
+      "grad_norm": 44.02991363992667,
+      "kl": 0.0645751953125,
+      "learning_rate": 8.713378906249999e-07,
+      "loss": 0.0026,
+      "reward": 1.6559126377105713,
+      "reward_std": 0.057641902938485146,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6559126079082489,
+      "step": 1054
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 366.546875,
+      "epoch": 0.51513671875,
+      "grad_norm": 4.093271765716937,
+      "kl": 0.055908203125,
+      "learning_rate": 8.712158203124999e-07,
+      "loss": 0.0022,
+      "reward": 1.6613022685050964,
+      "reward_std": 0.11586426943540573,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6769272983074188,
+      "step": 1055
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 345.09375,
+      "epoch": 0.515625,
+      "grad_norm": 3.3041055571935196,
+      "kl": 0.046875,
+      "learning_rate": 8.7109375e-07,
+      "loss": 0.0019,
+      "reward": 1.7097191214561462,
+      "reward_std": 0.09788389131426811,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7253441214561462,
+      "step": 1056
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 334.1953125,
+      "epoch": 0.51611328125,
+      "grad_norm": 1.380486793481445,
+      "kl": 0.053466796875,
+      "learning_rate": 8.709716796875e-07,
+      "loss": 0.0021,
+      "reward": 1.7574412822723389,
+      "reward_std": 0.058644311502575874,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7574412822723389,
+      "step": 1057
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 289.3515625,
+      "epoch": 0.5166015625,
+      "grad_norm": 5.591919284669544,
+      "kl": 0.060302734375,
+      "learning_rate": 8.70849609375e-07,
+      "loss": 0.0024,
+      "reward": 1.8293917179107666,
+      "reward_std": 0.09176983684301376,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8293918073177338,
+      "step": 1058
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 229.9140625,
+      "epoch": 0.51708984375,
+      "grad_norm": 1.2725887032541328,
+      "kl": 0.066650390625,
+      "learning_rate": 8.707275390625e-07,
+      "loss": 0.0027,
+      "reward": 1.706933856010437,
+      "reward_std": 0.07794651389122009,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7069338262081146,
+      "step": 1059
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 200.875,
+      "epoch": 0.517578125,
+      "grad_norm": 3.145191103123939,
+      "kl": 0.077392578125,
+      "learning_rate": 8.706054687499999e-07,
+      "loss": 0.0031,
+      "reward": 1.6468673944473267,
+      "reward_std": 0.06843332573771477,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6468673646450043,
+      "step": 1060
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 303.234375,
+      "epoch": 0.51806640625,
+      "grad_norm": 2.5048711249337625,
+      "kl": 0.057861328125,
+      "learning_rate": 8.704833984374999e-07,
+      "loss": 0.0023,
+      "reward": 1.7483791708946228,
+      "reward_std": 0.10295334830880165,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7483791410923004,
+      "step": 1061
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 228.453125,
+      "epoch": 0.5185546875,
+      "grad_norm": 3.1332272679114657,
+      "kl": 0.0693359375,
+      "learning_rate": 8.70361328125e-07,
+      "loss": 0.0028,
+      "reward": 1.7026050090789795,
+      "reward_std": 0.07863837853074074,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7104175388813019,
+      "step": 1062
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 228.25,
+      "epoch": 0.51904296875,
+      "grad_norm": 2.9349932273222374,
+      "kl": 0.0595703125,
+      "learning_rate": 8.702392578125e-07,
+      "loss": 0.0024,
+      "reward": 1.8661960363388062,
+      "reward_std": 0.03855743817985058,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8661959767341614,
+      "step": 1063
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 343.734375,
+      "epoch": 0.51953125,
+      "grad_norm": 4.005208537757595,
+      "kl": 0.0533447265625,
+      "learning_rate": 8.701171875e-07,
+      "loss": 0.0021,
+      "reward": 1.6547017097473145,
+      "reward_std": 0.08106643706560135,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6547016203403473,
+      "step": 1064
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 277.265625,
+      "epoch": 0.52001953125,
+      "grad_norm": 14.385556488276366,
+      "kl": 0.056396484375,
+      "learning_rate": 8.699951171875e-07,
+      "loss": 0.0023,
+      "reward": 1.7611234784126282,
+      "reward_std": 0.06275673396885395,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7611234188079834,
+      "step": 1065
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 242.8203125,
+      "epoch": 0.5205078125,
+      "grad_norm": 2.572037094829945,
+      "kl": 0.055908203125,
+      "learning_rate": 8.698730468749999e-07,
+      "loss": 0.0022,
+      "reward": 1.8109251260757446,
+      "reward_std": 0.0447577740997076,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8109250664710999,
+      "step": 1066
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 280.0703125,
+      "epoch": 0.52099609375,
+      "grad_norm": 1.5312642359752389,
+      "kl": 0.054443359375,
+      "learning_rate": 8.697509765624999e-07,
+      "loss": 0.0022,
+      "reward": 1.7536611557006836,
+      "reward_std": 0.06718228757381439,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7536611258983612,
+      "step": 1067
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 301.5703125,
+      "epoch": 0.521484375,
+      "grad_norm": 1.3523042468821218,
+      "kl": 0.055419921875,
+      "learning_rate": 8.696289062499999e-07,
+      "loss": 0.0022,
+      "reward": 1.644126534461975,
+      "reward_std": 0.06054982542991638,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6441265642642975,
+      "step": 1068
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 271.2734375,
+      "epoch": 0.52197265625,
+      "grad_norm": 1.9861791425441333,
+      "kl": 0.0662841796875,
+      "learning_rate": 8.695068359375e-07,
+      "loss": 0.0027,
+      "reward": 1.6830092668533325,
+      "reward_std": 0.0935671292245388,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6830093264579773,
+      "step": 1069
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 355.7890625,
+      "epoch": 0.5224609375,
+      "grad_norm": 7.973684507916818,
+      "kl": 0.0648193359375,
+      "learning_rate": 8.69384765625e-07,
+      "loss": 0.0026,
+      "reward": 1.6281793117523193,
+      "reward_std": 0.15630166232585907,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6359919011592865,
+      "step": 1070
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 355.984375,
+      "epoch": 0.52294921875,
+      "grad_norm": 2.766158319030079,
+      "kl": 0.0518798828125,
+      "learning_rate": 8.692626953125e-07,
+      "loss": 0.0021,
+      "reward": 1.7701700925827026,
+      "reward_std": 0.22449339926242828,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.8170450925827026,
+      "step": 1071
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 327.3203125,
+      "epoch": 0.5234375,
+      "grad_norm": 2.20414905944699,
+      "kl": 0.0506591796875,
+      "learning_rate": 8.69140625e-07,
+      "loss": 0.002,
+      "reward": 1.783662736415863,
+      "reward_std": 0.07873168960213661,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7914752662181854,
+      "step": 1072
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 334.203125,
+      "epoch": 0.52392578125,
+      "grad_norm": 4.143705460739188,
+      "kl": 0.0576171875,
+      "learning_rate": 8.690185546874999e-07,
+      "loss": 0.0023,
+      "reward": 1.6684030294418335,
+      "reward_std": 0.07677320018410683,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6684030294418335,
+      "step": 1073
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 350.8203125,
+      "epoch": 0.5244140625,
+      "grad_norm": 2.2380443410195157,
+      "kl": 0.062255859375,
+      "learning_rate": 8.688964843749999e-07,
+      "loss": 0.0025,
+      "reward": 1.8161095976829529,
+      "reward_std": 0.054756371304392815,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8161095678806305,
+      "step": 1074
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 292.46875,
+      "epoch": 0.52490234375,
+      "grad_norm": 2.096163231473889,
+      "kl": 0.06787109375,
+      "learning_rate": 8.687744140625e-07,
+      "loss": 0.0027,
+      "reward": 1.8008560538291931,
+      "reward_std": 0.09001643769443035,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.8164810538291931,
+      "step": 1075
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 367.9375,
+      "epoch": 0.525390625,
+      "grad_norm": 9.937730648389389,
+      "kl": 0.0526123046875,
+      "learning_rate": 8.6865234375e-07,
+      "loss": 0.0021,
+      "reward": 1.7251918315887451,
+      "reward_std": 0.11758009344339371,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7486292719841003,
+      "step": 1076
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 298.7421875,
+      "epoch": 0.52587890625,
+      "grad_norm": 9.17932500787084,
+      "kl": 0.0606689453125,
+      "learning_rate": 8.685302734375e-07,
+      "loss": 0.0024,
+      "reward": 1.7291359901428223,
+      "reward_std": 0.07484306022524834,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.729136049747467,
+      "step": 1077
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 273.453125,
+      "epoch": 0.5263671875,
+      "grad_norm": 1.9438836015934406,
+      "kl": 0.058349609375,
+      "learning_rate": 8.68408203125e-07,
+      "loss": 0.0023,
+      "reward": 1.6683382987976074,
+      "reward_std": 0.07380038499832153,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6683382987976074,
+      "step": 1078
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 274.3984375,
+      "epoch": 0.52685546875,
+      "grad_norm": 5.847630596731743,
+      "kl": 0.07080078125,
+      "learning_rate": 8.682861328124999e-07,
+      "loss": 0.0028,
+      "reward": 1.7424799799919128,
+      "reward_std": 0.04051386937499046,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7424799799919128,
+      "step": 1079
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 216.6328125,
+      "epoch": 0.52734375,
+      "grad_norm": 4.09131971663552,
+      "kl": 0.060302734375,
+      "learning_rate": 8.681640624999999e-07,
+      "loss": 0.0024,
+      "reward": 1.725938320159912,
+      "reward_std": 0.07212316989898682,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7259383201599121,
+      "step": 1080
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 257.328125,
+      "epoch": 0.52783203125,
+      "grad_norm": 3.5388236065556327,
+      "kl": 0.0601806640625,
+      "learning_rate": 8.680419921874999e-07,
+      "loss": 0.0024,
+      "reward": 1.73984694480896,
+      "reward_std": 0.07245020382106304,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7398469150066376,
+      "step": 1081
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 337.59375,
+      "epoch": 0.5283203125,
+      "grad_norm": 3.757069955864066,
+      "kl": 0.0584716796875,
+      "learning_rate": 8.67919921875e-07,
+      "loss": 0.0023,
+      "reward": 1.7384961247444153,
+      "reward_std": 0.1039031371474266,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7384961247444153,
+      "step": 1082
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 359.2421875,
+      "epoch": 0.52880859375,
+      "grad_norm": 6.03160828595789,
+      "kl": 0.0555419921875,
+      "learning_rate": 8.677978515625e-07,
+      "loss": 0.0022,
+      "reward": 1.748001754283905,
+      "reward_std": 0.06500514224171638,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.748001754283905,
+      "step": 1083
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 332.5625,
+      "epoch": 0.529296875,
+      "grad_norm": 2.655696243747116,
+      "kl": 0.0491943359375,
+      "learning_rate": 8.6767578125e-07,
+      "loss": 0.002,
+      "reward": 1.8072885274887085,
+      "reward_std": 0.09110748954117298,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.8307260870933533,
+      "step": 1084
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 326.0078125,
+      "epoch": 0.52978515625,
+      "grad_norm": 3.464007827161993,
+      "kl": 0.054443359375,
+      "learning_rate": 8.675537109375e-07,
+      "loss": 0.0022,
+      "reward": 1.8391188979148865,
+      "reward_std": 0.06963248923420906,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8391189575195312,
+      "step": 1085
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 301.0,
+      "epoch": 0.5302734375,
+      "grad_norm": 5.126535621984238,
+      "kl": 0.0596923828125,
+      "learning_rate": 8.674316406249999e-07,
+      "loss": 0.0024,
+      "reward": 1.6497421264648438,
+      "reward_std": 0.07221582159399986,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6497421860694885,
+      "step": 1086
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 301.15625,
+      "epoch": 0.53076171875,
+      "grad_norm": 1.2442388532768656,
+      "kl": 0.055908203125,
+      "learning_rate": 8.673095703124999e-07,
+      "loss": 0.0022,
+      "reward": 1.7321175932884216,
+      "reward_std": 0.10106639470905066,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.739930123090744,
+      "step": 1087
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 271.734375,
+      "epoch": 0.53125,
+      "grad_norm": 2.995348861215367,
+      "kl": 0.0584716796875,
+      "learning_rate": 8.671875e-07,
+      "loss": 0.0023,
+      "reward": 1.7458354234695435,
+      "reward_std": 0.037329770624637604,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7458354234695435,
+      "step": 1088
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 396.6796875,
+      "epoch": 0.53173828125,
+      "grad_norm": 1.167096873944655,
+      "kl": 0.0460205078125,
+      "learning_rate": 8.670654296875e-07,
+      "loss": 0.0018,
+      "reward": 1.7276933789253235,
+      "reward_std": 0.136086568236351,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.7589433491230011,
+      "step": 1089
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 288.84375,
+      "epoch": 0.5322265625,
+      "grad_norm": 2.968643105816318,
+      "kl": 0.0660400390625,
+      "learning_rate": 8.66943359375e-07,
+      "loss": 0.0026,
+      "reward": 1.7143974304199219,
+      "reward_std": 0.11442429013550282,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7222099602222443,
+      "step": 1090
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 376.90625,
+      "epoch": 0.53271484375,
+      "grad_norm": 14.99214457614237,
+      "kl": 0.0484619140625,
+      "learning_rate": 8.668212890625e-07,
+      "loss": 0.0019,
+      "reward": 1.7458195090293884,
+      "reward_std": 0.05967376381158829,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7458195388317108,
+      "step": 1091
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 316.953125,
+      "epoch": 0.533203125,
+      "grad_norm": 1.261439455958631,
+      "kl": 0.0469970703125,
+      "learning_rate": 8.666992187499999e-07,
+      "loss": 0.0019,
+      "reward": 1.7515225410461426,
+      "reward_std": 0.05775933898985386,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7515226006507874,
+      "step": 1092
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 213.2890625,
+      "epoch": 0.53369140625,
+      "grad_norm": 2.9498487401383953,
+      "kl": 0.068603515625,
+      "learning_rate": 8.665771484374999e-07,
+      "loss": 0.0027,
+      "reward": 1.7203047275543213,
+      "reward_std": 0.08913041837513447,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7203047573566437,
+      "step": 1093
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 309.765625,
+      "epoch": 0.5341796875,
+      "grad_norm": 7.1364746418285545,
+      "kl": 0.0576171875,
+      "learning_rate": 8.664550781249999e-07,
+      "loss": 0.0023,
+      "reward": 1.652907907962799,
+      "reward_std": 0.13294285163283348,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6607204079627991,
+      "step": 1094
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 301.078125,
+      "epoch": 0.53466796875,
+      "grad_norm": 1.8817117462815578,
+      "kl": 0.0555419921875,
+      "learning_rate": 8.663330078125e-07,
+      "loss": 0.0022,
+      "reward": 1.721267819404602,
+      "reward_std": 0.030888373032212257,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7212677896022797,
+      "step": 1095
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 354.53125,
+      "epoch": 0.53515625,
+      "grad_norm": 3.087003895884515,
+      "kl": 0.0443115234375,
+      "learning_rate": 8.662109375e-07,
+      "loss": 0.0018,
+      "reward": 1.7337496876716614,
+      "reward_std": 0.08758010156452656,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7571871876716614,
+      "step": 1096
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 203.8515625,
+      "epoch": 0.53564453125,
+      "grad_norm": 1.6271168573011427,
+      "kl": 0.054931640625,
+      "learning_rate": 8.660888671875e-07,
+      "loss": 0.0022,
+      "reward": 1.7751588225364685,
+      "reward_std": 0.03671477176249027,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7751587927341461,
+      "step": 1097
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 346.546875,
+      "epoch": 0.5361328125,
+      "grad_norm": 1.7985380156894293,
+      "kl": 0.040283203125,
+      "learning_rate": 8.65966796875e-07,
+      "loss": 0.0016,
+      "reward": 1.6898677945137024,
+      "reward_std": 0.09911376610398293,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6976803243160248,
+      "step": 1098
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 317.21875,
+      "epoch": 0.53662109375,
+      "grad_norm": 1.7440656859976609,
+      "kl": 0.050048828125,
+      "learning_rate": 8.658447265624999e-07,
+      "loss": 0.002,
+      "reward": 1.7902414798736572,
+      "reward_std": 0.07932448014616966,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7902414798736572,
+      "step": 1099
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 282.546875,
+      "epoch": 0.537109375,
+      "grad_norm": 0.8393827425684771,
+      "kl": 0.0535888671875,
+      "learning_rate": 8.657226562499999e-07,
+      "loss": 0.0021,
+      "reward": 1.746444582939148,
+      "reward_std": 0.04779106751084328,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7464446127414703,
+      "step": 1100
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 465.546875,
+      "epoch": 0.53759765625,
+      "grad_norm": 2.5411055906974207,
+      "kl": 0.0362548828125,
+      "learning_rate": 8.656005859375e-07,
+      "loss": 0.0014,
+      "reward": 1.7083318829536438,
+      "reward_std": 0.10737061686813831,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7239568829536438,
+      "step": 1101
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 391.9765625,
+      "epoch": 0.5380859375,
+      "grad_norm": 0.8904683187080978,
+      "kl": 0.0406494140625,
+      "learning_rate": 8.65478515625e-07,
+      "loss": 0.0016,
+      "reward": 1.6586171388626099,
+      "reward_std": 0.1240275464951992,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.6820546984672546,
+      "step": 1102
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 331.546875,
+      "epoch": 0.53857421875,
+      "grad_norm": 2.333691146894965,
+      "kl": 0.043212890625,
+      "learning_rate": 8.653564453125e-07,
+      "loss": 0.0017,
+      "reward": 1.6594500541687012,
+      "reward_std": 0.07179497927427292,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6594500541687012,
+      "step": 1103
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 311.2890625,
+      "epoch": 0.5390625,
+      "grad_norm": 2.851343254553436,
+      "kl": 0.0518798828125,
+      "learning_rate": 8.65234375e-07,
+      "loss": 0.0021,
+      "reward": 1.8387314081192017,
+      "reward_std": 0.09944453835487366,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8387314081192017,
+      "step": 1104
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 301.1796875,
+      "epoch": 0.53955078125,
+      "grad_norm": 1.9310397948323363,
+      "kl": 0.04345703125,
+      "learning_rate": 8.651123046874999e-07,
+      "loss": 0.0017,
+      "reward": 1.8558620810508728,
+      "reward_std": 0.10813725739717484,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.8714870512485504,
+      "step": 1105
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 374.3359375,
+      "epoch": 0.5400390625,
+      "grad_norm": 2.7147615717436575,
+      "kl": 0.0428466796875,
+      "learning_rate": 8.649902343749999e-07,
+      "loss": 0.0017,
+      "reward": 1.696751356124878,
+      "reward_std": 0.13834229856729507,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.7280014157295227,
+      "step": 1106
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 300.7734375,
+      "epoch": 0.54052734375,
+      "grad_norm": 1.3847207971513456,
+      "kl": 0.0501708984375,
+      "learning_rate": 8.648681640624999e-07,
+      "loss": 0.002,
+      "reward": 1.6468215584754944,
+      "reward_std": 0.08769709430634975,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6624464988708496,
+      "step": 1107
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 360.703125,
+      "epoch": 0.541015625,
+      "grad_norm": 2.361071789324421,
+      "kl": 0.0533447265625,
+      "learning_rate": 8.6474609375e-07,
+      "loss": 0.0021,
+      "reward": 1.7735760807991028,
+      "reward_std": 0.12644799798727036,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7970135807991028,
+      "step": 1108
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 315.15625,
+      "epoch": 0.54150390625,
+      "grad_norm": 2.3227503298020578,
+      "kl": 0.0482177734375,
+      "learning_rate": 8.646240234375e-07,
+      "loss": 0.0019,
+      "reward": 1.6930591464042664,
+      "reward_std": 0.10155784152448177,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7164965569972992,
+      "step": 1109
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 214.6875,
+      "epoch": 0.5419921875,
+      "grad_norm": 3.0123794250756006,
+      "kl": 0.0523681640625,
+      "learning_rate": 8.64501953125e-07,
+      "loss": 0.0021,
+      "reward": 1.7508153915405273,
+      "reward_std": 0.04635917954146862,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7508153319358826,
+      "step": 1110
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 465.0546875,
+      "epoch": 0.54248046875,
+      "grad_norm": 0.5261264496982065,
+      "kl": 0.037109375,
+      "learning_rate": 8.643798828125e-07,
+      "loss": 0.0015,
+      "reward": 1.5648311376571655,
+      "reward_std": 0.14709511492401361,
+      "rewards/format_reward": 0.9375,
+      "rewards/ocr_reward": 0.6273311078548431,
+      "step": 1111
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 403.0625,
+      "epoch": 0.54296875,
+      "grad_norm": 1.5640578960440386,
+      "kl": 0.0469970703125,
+      "learning_rate": 8.642578124999999e-07,
+      "loss": 0.0019,
+      "reward": 1.8022651076316833,
+      "reward_std": 0.04896317049860954,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8022651076316833,
+      "step": 1112
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 421.1171875,
+      "epoch": 0.54345703125,
+      "grad_norm": 2.2857686368129295,
+      "kl": 0.042724609375,
+      "learning_rate": 8.641357421874999e-07,
+      "loss": 0.0017,
+      "reward": 1.7114735841751099,
+      "reward_std": 0.17102890089154243,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.7505361139774323,
+      "step": 1113
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 307.453125,
+      "epoch": 0.5439453125,
+      "grad_norm": 2.4536320336668997,
+      "kl": 0.0411376953125,
+      "learning_rate": 8.64013671875e-07,
+      "loss": 0.0016,
+      "reward": 1.6378782987594604,
+      "reward_std": 0.08712486177682877,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.6691283285617828,
+      "step": 1114
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 345.21875,
+      "epoch": 0.54443359375,
+      "grad_norm": 1.739157825797545,
+      "kl": 0.0460205078125,
+      "learning_rate": 8.638916015625e-07,
+      "loss": 0.0018,
+      "reward": 1.755341649055481,
+      "reward_std": 0.04750080406665802,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.755341649055481,
+      "step": 1115
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 349.7734375,
+      "epoch": 0.544921875,
+      "grad_norm": 2.4358654204024375,
+      "kl": 0.0413818359375,
+      "learning_rate": 8.6376953125e-07,
+      "loss": 0.0017,
+      "reward": 1.7550008893013,
+      "reward_std": 0.04658900573849678,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7550008594989777,
+      "step": 1116
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 256.9375,
+      "epoch": 0.54541015625,
+      "grad_norm": 1.9727736242781981,
+      "kl": 0.0411376953125,
+      "learning_rate": 8.636474609375e-07,
+      "loss": 0.0016,
+      "reward": 1.8357142806053162,
+      "reward_std": 0.043268971145153046,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8357143700122833,
+      "step": 1117
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 338.1484375,
+      "epoch": 0.5458984375,
+      "grad_norm": 1.4259508975204152,
+      "kl": 0.0421142578125,
+      "learning_rate": 8.635253906249999e-07,
+      "loss": 0.0017,
+      "reward": 1.7081193327903748,
+      "reward_std": 0.04622589237987995,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7081193625926971,
+      "step": 1118
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 271.2109375,
+      "epoch": 0.54638671875,
+      "grad_norm": 21.16092755028298,
+      "kl": 0.0484619140625,
+      "learning_rate": 8.634033203124999e-07,
+      "loss": 0.0019,
+      "reward": 1.7775554656982422,
+      "reward_std": 0.06883841939270496,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7775554060935974,
+      "step": 1119
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 223.1328125,
+      "epoch": 0.546875,
+      "grad_norm": 1.8238098647122996,
+      "kl": 0.071044921875,
+      "learning_rate": 8.632812499999999e-07,
+      "loss": 0.0028,
+      "reward": 1.782721757888794,
+      "reward_std": 0.03212573006749153,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.782721757888794,
+      "step": 1120
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 293.3125,
+      "epoch": 0.54736328125,
+      "grad_norm": 1.316049654009593,
+      "kl": 0.0457763671875,
+      "learning_rate": 8.631591796875e-07,
+      "loss": 0.0018,
+      "reward": 1.8062964081764221,
+      "reward_std": 0.053434714674949646,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8062964081764221,
+      "step": 1121
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 328.375,
+      "epoch": 0.5478515625,
+      "grad_norm": 2.177144782177925,
+      "kl": 0.0462646484375,
+      "learning_rate": 8.63037109375e-07,
+      "loss": 0.0019,
+      "reward": 1.6950576901435852,
+      "reward_std": 0.17912092059850693,
+      "rewards/format_reward": 0.9453125,
+      "rewards/ocr_reward": 0.7497451901435852,
+      "step": 1122
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 260.453125,
+      "epoch": 0.54833984375,
+      "grad_norm": 1.8973596678524318,
+      "kl": 0.0445556640625,
+      "learning_rate": 8.629150390625e-07,
+      "loss": 0.0018,
+      "reward": 1.6502639651298523,
+      "reward_std": 0.042238444089889526,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6502639055252075,
+      "step": 1123
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 366.46875,
+      "epoch": 0.548828125,
+      "grad_norm": 1.620960824121817,
+      "kl": 0.067138671875,
+      "learning_rate": 8.6279296875e-07,
+      "loss": 0.0027,
+      "reward": 1.682121753692627,
+      "reward_std": 0.18632768094539642,
+      "rewards/format_reward": 0.9453125,
+      "rewards/ocr_reward": 0.736809253692627,
+      "step": 1124
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 327.09375,
+      "epoch": 0.54931640625,
+      "grad_norm": 1.8774955491831953,
+      "kl": 0.0504150390625,
+      "learning_rate": 8.626708984374999e-07,
+      "loss": 0.002,
+      "reward": 1.661731779575348,
+      "reward_std": 0.06446626409888268,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6617318093776703,
+      "step": 1125
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 318.8515625,
+      "epoch": 0.5498046875,
+      "grad_norm": 1.2653808730315304,
+      "kl": 0.0457763671875,
+      "learning_rate": 8.625488281249999e-07,
+      "loss": 0.0018,
+      "reward": 1.7855925559997559,
+      "reward_std": 0.08860567212104797,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7855925559997559,
+      "step": 1126
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 208.34375,
+      "epoch": 0.55029296875,
+      "grad_norm": 2.4810925421537715,
+      "kl": 0.05078125,
+      "learning_rate": 8.624267578125e-07,
+      "loss": 0.002,
+      "reward": 1.8083539009094238,
+      "reward_std": 0.07869580388069153,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8083539605140686,
+      "step": 1127
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 226.9453125,
+      "epoch": 0.55078125,
+      "grad_norm": 1.170883156742559,
+      "kl": 0.052001953125,
+      "learning_rate": 8.623046875e-07,
+      "loss": 0.0021,
+      "reward": 1.82011079788208,
+      "reward_std": 0.025017164181917906,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8201107978820801,
+      "step": 1128
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 282.84375,
+      "epoch": 0.55126953125,
+      "grad_norm": 0.7270591612895813,
+      "kl": 0.050048828125,
+      "learning_rate": 8.621826171875e-07,
+      "loss": 0.002,
+      "reward": 1.7170042395591736,
+      "reward_std": 0.0804044771939516,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7248167097568512,
+      "step": 1129
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 341.328125,
+      "epoch": 0.5517578125,
+      "grad_norm": 2.0226104624847783,
+      "kl": 0.0504150390625,
+      "learning_rate": 8.62060546875e-07,
+      "loss": 0.002,
+      "reward": 1.6977909207344055,
+      "reward_std": 0.07109425030648708,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6977909505367279,
+      "step": 1130
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 286.484375,
+      "epoch": 0.55224609375,
+      "grad_norm": 1.0935418228016645,
+      "kl": 0.046875,
+      "learning_rate": 8.619384765625e-07,
+      "loss": 0.0019,
+      "reward": 1.7301682233810425,
+      "reward_std": 0.0707546304911375,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7379806041717529,
+      "step": 1131
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 246.953125,
+      "epoch": 0.552734375,
+      "grad_norm": 2.088569309643272,
+      "kl": 0.0562744140625,
+      "learning_rate": 8.618164062499999e-07,
+      "loss": 0.0022,
+      "reward": 1.7825233340263367,
+      "reward_std": 0.06269277073442936,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7825233638286591,
+      "step": 1132
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 306.640625,
+      "epoch": 0.55322265625,
+      "grad_norm": 1.6778708166777785,
+      "kl": 0.0460205078125,
+      "learning_rate": 8.616943359374999e-07,
+      "loss": 0.0018,
+      "reward": 1.6941341757774353,
+      "reward_std": 0.03843311499804258,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6941341161727905,
+      "step": 1133
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 323.390625,
+      "epoch": 0.5537109375,
+      "grad_norm": 2.8756770323876784,
+      "kl": 0.0501708984375,
+      "learning_rate": 8.61572265625e-07,
+      "loss": 0.002,
+      "reward": 1.7191390991210938,
+      "reward_std": 0.05277089774608612,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7191390693187714,
+      "step": 1134
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 277.8671875,
+      "epoch": 0.55419921875,
+      "grad_norm": 1.7093735784110484,
+      "kl": 0.0504150390625,
+      "learning_rate": 8.614501953125e-07,
+      "loss": 0.002,
+      "reward": 1.875854730606079,
+      "reward_std": 0.03535257466137409,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8758547604084015,
+      "step": 1135
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 297.7109375,
+      "epoch": 0.5546875,
+      "grad_norm": 2.1214394895752355,
+      "kl": 0.05419921875,
+      "learning_rate": 8.61328125e-07,
+      "loss": 0.0022,
+      "reward": 1.693172812461853,
+      "reward_std": 0.10498131066560745,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6931727230548859,
+      "step": 1136
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 307.921875,
+      "epoch": 0.55517578125,
+      "grad_norm": 2.1311745798315873,
+      "kl": 0.048583984375,
+      "learning_rate": 8.612060546875e-07,
+      "loss": 0.0019,
+      "reward": 1.6516863703727722,
+      "reward_std": 0.06436803564429283,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6516863703727722,
+      "step": 1137
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 358.7890625,
+      "epoch": 0.5556640625,
+      "grad_norm": 2.5661871345952236,
+      "kl": 0.0592041015625,
+      "learning_rate": 8.610839843749999e-07,
+      "loss": 0.0024,
+      "reward": 1.5657876133918762,
+      "reward_std": 0.1475287228822708,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.5814126431941986,
+      "step": 1138
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 372.8984375,
+      "epoch": 0.55615234375,
+      "grad_norm": 1.7584895844002197,
+      "kl": 0.0433349609375,
+      "learning_rate": 8.609619140624999e-07,
+      "loss": 0.0017,
+      "reward": 1.763173222541809,
+      "reward_std": 0.09580406174063683,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7787982225418091,
+      "step": 1139
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 328.6953125,
+      "epoch": 0.556640625,
+      "grad_norm": 1.5770899012379078,
+      "kl": 0.0501708984375,
+      "learning_rate": 8.6083984375e-07,
+      "loss": 0.002,
+      "reward": 1.785545527935028,
+      "reward_std": 0.1521715521812439,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.8089830279350281,
+      "step": 1140
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 342.4375,
+      "epoch": 0.55712890625,
+      "grad_norm": 2.0376418633131888,
+      "kl": 0.0655517578125,
+      "learning_rate": 8.607177734375e-07,
+      "loss": 0.0026,
+      "reward": 1.6794911623001099,
+      "reward_std": 0.19039485603570938,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7029286623001099,
+      "step": 1141
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 206.203125,
+      "epoch": 0.5576171875,
+      "grad_norm": 4.0042765130772375,
+      "kl": 0.0548095703125,
+      "learning_rate": 8.60595703125e-07,
+      "loss": 0.0022,
+      "reward": 1.7438197135925293,
+      "reward_std": 0.1175292357802391,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7516322731971741,
+      "step": 1142
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 305.703125,
+      "epoch": 0.55810546875,
+      "grad_norm": 1.8931830827167573,
+      "kl": 0.04833984375,
+      "learning_rate": 8.604736328125e-07,
+      "loss": 0.0019,
+      "reward": 1.6692324876785278,
+      "reward_std": 0.10438600182533264,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6770449876785278,
+      "step": 1143
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 339.4140625,
+      "epoch": 0.55859375,
+      "grad_norm": 1.5525001439122468,
+      "kl": 0.0489501953125,
+      "learning_rate": 8.603515625e-07,
+      "loss": 0.002,
+      "reward": 1.722908079624176,
+      "reward_std": 0.10220470279455185,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.738533079624176,
+      "step": 1144
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 284.34375,
+      "epoch": 0.55908203125,
+      "grad_norm": 1.3304876430870214,
+      "kl": 0.051025390625,
+      "learning_rate": 8.602294921874999e-07,
+      "loss": 0.002,
+      "reward": 1.792259931564331,
+      "reward_std": 0.0483635775744915,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7922599613666534,
+      "step": 1145
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 420.015625,
+      "epoch": 0.5595703125,
+      "grad_norm": 3.74826680648072,
+      "kl": 0.04736328125,
+      "learning_rate": 8.601074218749999e-07,
+      "loss": 0.0019,
+      "reward": 1.6866852045059204,
+      "reward_std": 0.0666123665869236,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.686685174703598,
+      "step": 1146
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 364.296875,
+      "epoch": 0.56005859375,
+      "grad_norm": 1.506824333758443,
+      "kl": 0.0487060546875,
+      "learning_rate": 8.599853515625e-07,
+      "loss": 0.0019,
+      "reward": 1.7012399435043335,
+      "reward_std": 0.11691510677337646,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7246775031089783,
+      "step": 1147
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 306.3203125,
+      "epoch": 0.560546875,
+      "grad_norm": 1.229486203330246,
+      "kl": 0.048583984375,
+      "learning_rate": 8.5986328125e-07,
+      "loss": 0.0019,
+      "reward": 1.7387210130691528,
+      "reward_std": 0.1014990508556366,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7465335130691528,
+      "step": 1148
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 259.984375,
+      "epoch": 0.56103515625,
+      "grad_norm": 2.293838234033414,
+      "kl": 0.0511474609375,
+      "learning_rate": 8.597412109375e-07,
+      "loss": 0.002,
+      "reward": 1.7903647422790527,
+      "reward_std": 0.07567498832941055,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.8138022422790527,
+      "step": 1149
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 368.15625,
+      "epoch": 0.5615234375,
+      "grad_norm": 11.895148102191571,
+      "kl": 0.0526123046875,
+      "learning_rate": 8.59619140625e-07,
+      "loss": 0.0021,
+      "reward": 1.7975794076919556,
+      "reward_std": 0.09720364585518837,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7975793480873108,
+      "step": 1150
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 353.8828125,
+      "epoch": 0.56201171875,
+      "grad_norm": 2.3961074495667747,
+      "kl": 0.0467529296875,
+      "learning_rate": 8.594970703124999e-07,
+      "loss": 0.0019,
+      "reward": 1.6959925889968872,
+      "reward_std": 0.1357579454779625,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7038050889968872,
+      "step": 1151
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 318.46875,
+      "epoch": 0.5625,
+      "grad_norm": 3.689726718036065,
+      "kl": 0.0567626953125,
+      "learning_rate": 8.593749999999999e-07,
+      "loss": 0.0023,
+      "reward": 1.7538256645202637,
+      "reward_std": 0.07644342631101608,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7538256645202637,
+      "step": 1152
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 280.9921875,
+      "epoch": 0.56298828125,
+      "grad_norm": 2.075275971718928,
+      "kl": 0.0587158203125,
+      "learning_rate": 8.592529296874999e-07,
+      "loss": 0.0023,
+      "reward": 1.788736641407013,
+      "reward_std": 0.047330291010439396,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7887366712093353,
+      "step": 1153
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 375.765625,
+      "epoch": 0.5634765625,
+      "grad_norm": 2.5741019637692033,
+      "kl": 0.0557861328125,
+      "learning_rate": 8.59130859375e-07,
+      "loss": 0.0022,
+      "reward": 1.5938833951950073,
+      "reward_std": 0.11518048122525215,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.6251333653926849,
+      "step": 1154
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 340.2734375,
+      "epoch": 0.56396484375,
+      "grad_norm": 2.3696482124699134,
+      "kl": 0.048095703125,
+      "learning_rate": 8.590087890625e-07,
+      "loss": 0.0019,
+      "reward": 1.690087914466858,
+      "reward_std": 0.106233149766922,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6979004740715027,
+      "step": 1155
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 347.296875,
+      "epoch": 0.564453125,
+      "grad_norm": 2.4027424722018864,
+      "kl": 0.041015625,
+      "learning_rate": 8.5888671875e-07,
+      "loss": 0.0016,
+      "reward": 1.812968671321869,
+      "reward_std": 0.044363994151353836,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8129686117172241,
+      "step": 1156
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 286.6484375,
+      "epoch": 0.56494140625,
+      "grad_norm": 2.829388054231261,
+      "kl": 0.052001953125,
+      "learning_rate": 8.587646484375e-07,
+      "loss": 0.0021,
+      "reward": 1.6969123482704163,
+      "reward_std": 0.12178021855652332,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.7359748482704163,
+      "step": 1157
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 225.4375,
+      "epoch": 0.5654296875,
+      "grad_norm": 19.7758891461679,
+      "kl": 0.052734375,
+      "learning_rate": 8.586425781249999e-07,
+      "loss": 0.0021,
+      "reward": 1.7072020769119263,
+      "reward_std": 0.0726108830422163,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.722827136516571,
+      "step": 1158
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 340.9296875,
+      "epoch": 0.56591796875,
+      "grad_norm": 8.959080922512666,
+      "kl": 0.05517578125,
+      "learning_rate": 8.585205078124999e-07,
+      "loss": 0.0022,
+      "reward": 1.684401273727417,
+      "reward_std": 0.08838875964283943,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.684401273727417,
+      "step": 1159
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 417.0859375,
+      "epoch": 0.56640625,
+      "grad_norm": 2.362357041373118,
+      "kl": 0.039306640625,
+      "learning_rate": 8.583984375e-07,
+      "loss": 0.0016,
+      "reward": 1.6522272229194641,
+      "reward_std": 0.11733454465866089,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.6834772229194641,
+      "step": 1160
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 280.859375,
+      "epoch": 0.56689453125,
+      "grad_norm": 11.949152567538816,
+      "kl": 0.046630859375,
+      "learning_rate": 8.582763671875e-07,
+      "loss": 0.0019,
+      "reward": 1.7947958111763,
+      "reward_std": 0.08994543924927711,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8026082813739777,
+      "step": 1161
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 305.59375,
+      "epoch": 0.5673828125,
+      "grad_norm": 1.9920746576348605,
+      "kl": 0.045166015625,
+      "learning_rate": 8.58154296875e-07,
+      "loss": 0.0018,
+      "reward": 1.666768193244934,
+      "reward_std": 0.09091871604323387,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6745807230472565,
+      "step": 1162
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 281.375,
+      "epoch": 0.56787109375,
+      "grad_norm": 2.2336338961392954,
+      "kl": 0.0648193359375,
+      "learning_rate": 8.580322265625e-07,
+      "loss": 0.0026,
+      "reward": 1.5089243650436401,
+      "reward_std": 0.1571076586842537,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.5245493352413177,
+      "step": 1163
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 322.21875,
+      "epoch": 0.568359375,
+      "grad_norm": 1.6665465636302936,
+      "kl": 0.046142578125,
+      "learning_rate": 8.579101562499999e-07,
+      "loss": 0.0018,
+      "reward": 1.6286611557006836,
+      "reward_std": 0.09474155679345131,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6442860960960388,
+      "step": 1164
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 257.5234375,
+      "epoch": 0.56884765625,
+      "grad_norm": 2.6701091262123073,
+      "kl": 0.051025390625,
+      "learning_rate": 8.577880859374999e-07,
+      "loss": 0.002,
+      "reward": 1.7830933332443237,
+      "reward_std": 0.11209750175476074,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.790905773639679,
+      "step": 1165
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 366.9921875,
+      "epoch": 0.5693359375,
+      "grad_norm": 1.289301287486059,
+      "kl": 0.03955078125,
+      "learning_rate": 8.576660156249999e-07,
+      "loss": 0.0016,
+      "reward": 1.768127977848053,
+      "reward_std": 0.11993209552019835,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.783752977848053,
+      "step": 1166
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 307.171875,
+      "epoch": 0.56982421875,
+      "grad_norm": 1.9298565392126688,
+      "kl": 0.04833984375,
+      "learning_rate": 8.575439453125e-07,
+      "loss": 0.0019,
+      "reward": 1.7926509380340576,
+      "reward_std": 0.08671310544013977,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8004634380340576,
+      "step": 1167
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 262.203125,
+      "epoch": 0.5703125,
+      "grad_norm": 2.3663116967309654,
+      "kl": 0.0501708984375,
+      "learning_rate": 8.57421875e-07,
+      "loss": 0.002,
+      "reward": 1.712095022201538,
+      "reward_std": 0.13929815590381622,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7199075222015381,
+      "step": 1168
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 322.5078125,
+      "epoch": 0.57080078125,
+      "grad_norm": 1.7141572985706985,
+      "kl": 0.0439453125,
+      "learning_rate": 8.572998046875e-07,
+      "loss": 0.0018,
+      "reward": 1.6946678757667542,
+      "reward_std": 0.0815641526132822,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7024803757667542,
+      "step": 1169
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 398.078125,
+      "epoch": 0.5712890625,
+      "grad_norm": 3.523924490731831,
+      "kl": 0.0640869140625,
+      "learning_rate": 8.57177734375e-07,
+      "loss": 0.0026,
+      "reward": 1.6033125519752502,
+      "reward_std": 0.16777217388153076,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.6423750221729279,
+      "step": 1170
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 306.8359375,
+      "epoch": 0.57177734375,
+      "grad_norm": 1.2742692467315286,
+      "kl": 0.0611572265625,
+      "learning_rate": 8.570556640624999e-07,
+      "loss": 0.0024,
+      "reward": 1.6901500225067139,
+      "reward_std": 0.07790947519242764,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6901499927043915,
+      "step": 1171
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 286.875,
+      "epoch": 0.572265625,
+      "grad_norm": 1.1420114365574225,
+      "kl": 0.05029296875,
+      "learning_rate": 8.569335937499999e-07,
+      "loss": 0.002,
+      "reward": 1.7600011825561523,
+      "reward_std": 0.04347742348909378,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7600011825561523,
+      "step": 1172
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 300.640625,
+      "epoch": 0.57275390625,
+      "grad_norm": 1.9539279563519465,
+      "kl": 0.052978515625,
+      "learning_rate": 8.568115234375e-07,
+      "loss": 0.0021,
+      "reward": 1.744015395641327,
+      "reward_std": 0.04951014555990696,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7440153956413269,
+      "step": 1173
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 329.8359375,
+      "epoch": 0.5732421875,
+      "grad_norm": 2.247065979267746,
+      "kl": 0.0506591796875,
+      "learning_rate": 8.56689453125e-07,
+      "loss": 0.002,
+      "reward": 1.649504840373993,
+      "reward_std": 0.12423533946275711,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6495048403739929,
+      "step": 1174
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 346.0,
+      "epoch": 0.57373046875,
+      "grad_norm": 1.111441732375308,
+      "kl": 0.0504150390625,
+      "learning_rate": 8.565673828125e-07,
+      "loss": 0.002,
+      "reward": 1.743337869644165,
+      "reward_std": 0.04013508930802345,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7433378994464874,
+      "step": 1175
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 386.9609375,
+      "epoch": 0.57421875,
+      "grad_norm": 2.1368401123680476,
+      "kl": 0.0535888671875,
+      "learning_rate": 8.564453125e-07,
+      "loss": 0.0021,
+      "reward": 1.6390271186828613,
+      "reward_std": 0.16274896264076233,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.6624647080898285,
+      "step": 1176
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 258.6953125,
+      "epoch": 0.57470703125,
+      "grad_norm": 4.624399047687805,
+      "kl": 0.111328125,
+      "learning_rate": 8.563232421874999e-07,
+      "loss": 0.0045,
+      "reward": 1.5596601963043213,
+      "reward_std": 0.0850033089518547,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.5596601665019989,
+      "step": 1177
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 314.0546875,
+      "epoch": 0.5751953125,
+      "grad_norm": 2.2574279851451604,
+      "kl": 0.0426025390625,
+      "learning_rate": 8.562011718749999e-07,
+      "loss": 0.0017,
+      "reward": 1.732949137687683,
+      "reward_std": 0.036547823809087276,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7329491078853607,
+      "step": 1178
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 271.4453125,
+      "epoch": 0.57568359375,
+      "grad_norm": 3.7525805144535487,
+      "kl": 0.0596923828125,
+      "learning_rate": 8.560791015624999e-07,
+      "loss": 0.0024,
+      "reward": 1.653287649154663,
+      "reward_std": 0.11773675680160522,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6532876789569855,
+      "step": 1179
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 350.1015625,
+      "epoch": 0.576171875,
+      "grad_norm": 5.2466468575854215,
+      "kl": 0.0731201171875,
+      "learning_rate": 8.5595703125e-07,
+      "loss": 0.0029,
+      "reward": 1.6203824877738953,
+      "reward_std": 0.12023291178047657,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.6594450175762177,
+      "step": 1180
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 277.7890625,
+      "epoch": 0.57666015625,
+      "grad_norm": 2.0042003028636453,
+      "kl": 0.0506591796875,
+      "learning_rate": 8.558349609375e-07,
+      "loss": 0.002,
+      "reward": 1.6139835119247437,
+      "reward_std": 0.12955578044056892,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.621796041727066,
+      "step": 1181
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 364.6328125,
+      "epoch": 0.5771484375,
+      "grad_norm": 1.827852163834602,
+      "kl": 0.0418701171875,
+      "learning_rate": 8.55712890625e-07,
+      "loss": 0.0017,
+      "reward": 1.7956476211547852,
+      "reward_std": 0.07434218749403954,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8034601211547852,
+      "step": 1182
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 313.1875,
+      "epoch": 0.57763671875,
+      "grad_norm": 1.4216545847402544,
+      "kl": 0.04736328125,
+      "learning_rate": 8.555908203125e-07,
+      "loss": 0.0019,
+      "reward": 1.7386606931686401,
+      "reward_std": 0.06302103772759438,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7386606633663177,
+      "step": 1183
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 281.140625,
+      "epoch": 0.578125,
+      "grad_norm": 1.436370223265228,
+      "kl": 0.077880859375,
+      "learning_rate": 8.554687499999999e-07,
+      "loss": 0.0031,
+      "reward": 1.8124098181724548,
+      "reward_std": 0.04216676577925682,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8124098777770996,
+      "step": 1184
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 273.890625,
+      "epoch": 0.57861328125,
+      "grad_norm": 1.0587591031913912,
+      "kl": 0.060546875,
+      "learning_rate": 8.553466796874999e-07,
+      "loss": 0.0024,
+      "reward": 1.7749245166778564,
+      "reward_std": 0.07318684877827764,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7827369868755341,
+      "step": 1185
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 264.8125,
+      "epoch": 0.5791015625,
+      "grad_norm": 1.7255970036733406,
+      "kl": 0.0589599609375,
+      "learning_rate": 8.55224609375e-07,
+      "loss": 0.0024,
+      "reward": 1.7037720680236816,
+      "reward_std": 0.05063655413687229,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7115845680236816,
+      "step": 1186
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 367.875,
+      "epoch": 0.57958984375,
+      "grad_norm": 2.1334824778608232,
+      "kl": 0.061767578125,
+      "learning_rate": 8.551025390625e-07,
+      "loss": 0.0025,
+      "reward": 1.7053207755088806,
+      "reward_std": 0.20426107943058014,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7209457159042358,
+      "step": 1187
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 322.46875,
+      "epoch": 0.580078125,
+      "grad_norm": 24.364302338249043,
+      "kl": 0.05615234375,
+      "learning_rate": 8.5498046875e-07,
+      "loss": 0.0022,
+      "reward": 1.665935754776001,
+      "reward_std": 0.116399385035038,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6737483143806458,
+      "step": 1188
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 231.0390625,
+      "epoch": 0.58056640625,
+      "grad_norm": 2.7033766379682644,
+      "kl": 0.0628662109375,
+      "learning_rate": 8.548583984375e-07,
+      "loss": 0.0025,
+      "reward": 1.8331878185272217,
+      "reward_std": 0.05261234473437071,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8331877589225769,
+      "step": 1189
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 250.7265625,
+      "epoch": 0.5810546875,
+      "grad_norm": 17.90905176018613,
+      "kl": 0.0579833984375,
+      "learning_rate": 8.547363281249999e-07,
+      "loss": 0.0023,
+      "reward": 1.6796801686286926,
+      "reward_std": 0.09237649664282799,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6874926686286926,
+      "step": 1190
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 288.078125,
+      "epoch": 0.58154296875,
+      "grad_norm": 2.1262717212577313,
+      "kl": 0.0618896484375,
+      "learning_rate": 8.546142578124999e-07,
+      "loss": 0.0025,
+      "reward": 1.6501364707946777,
+      "reward_std": 0.0826064795255661,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6501363515853882,
+      "step": 1191
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 236.3125,
+      "epoch": 0.58203125,
+      "grad_norm": 1.4136272078115328,
+      "kl": 0.047607421875,
+      "learning_rate": 8.544921874999999e-07,
+      "loss": 0.0019,
+      "reward": 1.8067971467971802,
+      "reward_std": 0.03229185566306114,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8067971765995026,
+      "step": 1192
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 295.8046875,
+      "epoch": 0.58251953125,
+      "grad_norm": 2.047535780569528,
+      "kl": 0.0599365234375,
+      "learning_rate": 8.543701171875e-07,
+      "loss": 0.0024,
+      "reward": 1.6728439927101135,
+      "reward_std": 0.1287621632218361,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6884690225124359,
+      "step": 1193
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 256.59375,
+      "epoch": 0.5830078125,
+      "grad_norm": 1.557581460070875,
+      "kl": 0.07373046875,
+      "learning_rate": 8.54248046875e-07,
+      "loss": 0.0029,
+      "reward": 1.7042672038078308,
+      "reward_std": 0.13340860605239868,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7198922336101532,
+      "step": 1194
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 325.5078125,
+      "epoch": 0.58349609375,
+      "grad_norm": 2.4518824995762207,
+      "kl": 0.05712890625,
+      "learning_rate": 8.541259765625e-07,
+      "loss": 0.0023,
+      "reward": 1.6440874338150024,
+      "reward_std": 0.14590797573328018,
+      "rewards/format_reward": 0.9453125,
+      "rewards/ocr_reward": 0.6987749636173248,
+      "step": 1195
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 389.21875,
+      "epoch": 0.583984375,
+      "grad_norm": 7.367664763550004,
+      "kl": 0.048095703125,
+      "learning_rate": 8.5400390625e-07,
+      "loss": 0.0019,
+      "reward": 1.708031952381134,
+      "reward_std": 0.13708262518048286,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.723656952381134,
+      "step": 1196
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 389.921875,
+      "epoch": 0.58447265625,
+      "grad_norm": 5.15694588705896,
+      "kl": 0.056884765625,
+      "learning_rate": 8.538818359374999e-07,
+      "loss": 0.0023,
+      "reward": 1.557603120803833,
+      "reward_std": 0.18934200704097748,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.5888532102108002,
+      "step": 1197
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 247.828125,
+      "epoch": 0.5849609375,
+      "grad_norm": 8.59471617688442,
+      "kl": 0.06298828125,
+      "learning_rate": 8.537597656249999e-07,
+      "loss": 0.0025,
+      "reward": 1.7653963565826416,
+      "reward_std": 0.06373865529894829,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7653963565826416,
+      "step": 1198
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 424.328125,
+      "epoch": 0.58544921875,
+      "grad_norm": 1.5188060960183658,
+      "kl": 0.0498046875,
+      "learning_rate": 8.536376953125e-07,
+      "loss": 0.002,
+      "reward": 1.5980682969093323,
+      "reward_std": 0.14940915256738663,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.6371308267116547,
+      "step": 1199
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 244.234375,
+      "epoch": 0.5859375,
+      "grad_norm": 3.9345332601410505,
+      "kl": 0.0758056640625,
+      "learning_rate": 8.53515625e-07,
+      "loss": 0.003,
+      "reward": 1.6427003741264343,
+      "reward_std": 0.07084774971008301,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6427003443241119,
+      "step": 1200
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 285.0390625,
+      "epoch": 0.58642578125,
+      "grad_norm": 1.6826818386421434,
+      "kl": 0.07373046875,
+      "learning_rate": 8.533935546875e-07,
+      "loss": 0.003,
+      "reward": 1.664411723613739,
+      "reward_std": 0.16828951984643936,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.6878492832183838,
+      "step": 1201
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 358.9765625,
+      "epoch": 0.5869140625,
+      "grad_norm": 3.836908468134239,
+      "kl": 0.05517578125,
+      "learning_rate": 8.53271484375e-07,
+      "loss": 0.0022,
+      "reward": 1.614501714706421,
+      "reward_std": 0.20206372626125813,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.6535641849040985,
+      "step": 1202
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 297.9453125,
+      "epoch": 0.58740234375,
+      "grad_norm": 2.9305798211200287,
+      "kl": 0.0498046875,
+      "learning_rate": 8.531494140624999e-07,
+      "loss": 0.002,
+      "reward": 1.7278985977172852,
+      "reward_std": 0.11820728331804276,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7435235381126404,
+      "step": 1203
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 301.671875,
+      "epoch": 0.587890625,
+      "grad_norm": 2.5378734213626157,
+      "kl": 0.056640625,
+      "learning_rate": 8.530273437499999e-07,
+      "loss": 0.0023,
+      "reward": 1.7331331968307495,
+      "reward_std": 0.12400734424591064,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7409456968307495,
+      "step": 1204
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 295.3984375,
+      "epoch": 0.58837890625,
+      "grad_norm": 2.6673697152137237,
+      "kl": 0.0645751953125,
+      "learning_rate": 8.529052734374999e-07,
+      "loss": 0.0026,
+      "reward": 1.7612251043319702,
+      "reward_std": 0.07167639397084713,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.761225014925003,
+      "step": 1205
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 306.84375,
+      "epoch": 0.5888671875,
+      "grad_norm": 1.282713456349074,
+      "kl": 0.06201171875,
+      "learning_rate": 8.52783203125e-07,
+      "loss": 0.0025,
+      "reward": 1.7675436735153198,
+      "reward_std": 0.06219838559627533,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7675436437129974,
+      "step": 1206
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 262.609375,
+      "epoch": 0.58935546875,
+      "grad_norm": 1.6085902533879708,
+      "kl": 0.073486328125,
+      "learning_rate": 8.526611328125e-07,
+      "loss": 0.0029,
+      "reward": 1.7036328315734863,
+      "reward_std": 0.07522736862301826,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7114453315734863,
+      "step": 1207
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 302.15625,
+      "epoch": 0.58984375,
+      "grad_norm": 1.4976152138206247,
+      "kl": 0.0673828125,
+      "learning_rate": 8.525390625e-07,
+      "loss": 0.0027,
+      "reward": 1.6411904096603394,
+      "reward_std": 0.09779999405145645,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.649002879858017,
+      "step": 1208
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 340.6875,
+      "epoch": 0.59033203125,
+      "grad_norm": 1.346538056309748,
+      "kl": 0.0423583984375,
+      "learning_rate": 8.524169921875e-07,
+      "loss": 0.0017,
+      "reward": 1.7001066207885742,
+      "reward_std": 0.1550520807504654,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7235440611839294,
+      "step": 1209
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 356.0,
+      "epoch": 0.5908203125,
+      "grad_norm": 1.7030655116642164,
+      "kl": 0.05322265625,
+      "learning_rate": 8.522949218749999e-07,
+      "loss": 0.0021,
+      "reward": 1.6805211901664734,
+      "reward_std": 0.15443892404437065,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.7195836007595062,
+      "step": 1210
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 317.15625,
+      "epoch": 0.59130859375,
+      "grad_norm": 3.015177679321377,
+      "kl": 0.0623779296875,
+      "learning_rate": 8.521728515624999e-07,
+      "loss": 0.0025,
+      "reward": 1.6988528370857239,
+      "reward_std": 0.1044110469520092,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7144778072834015,
+      "step": 1211
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 383.34375,
+      "epoch": 0.591796875,
+      "grad_norm": 1.183423081882842,
+      "kl": 0.06494140625,
+      "learning_rate": 8.5205078125e-07,
+      "loss": 0.0026,
+      "reward": 1.6010417938232422,
+      "reward_std": 0.14411456137895584,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.6244792938232422,
+      "step": 1212
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 324.4921875,
+      "epoch": 0.59228515625,
+      "grad_norm": 3.816793739656266,
+      "kl": 0.117919921875,
+      "learning_rate": 8.519287109375e-07,
+      "loss": 0.0047,
+      "reward": 1.7807039022445679,
+      "reward_std": 0.11940962262451649,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7885164320468903,
+      "step": 1213
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 302.96875,
+      "epoch": 0.5927734375,
+      "grad_norm": 1.2559013257637506,
+      "kl": 0.05029296875,
+      "learning_rate": 8.51806640625e-07,
+      "loss": 0.002,
+      "reward": 1.7532151341438293,
+      "reward_std": 0.09881580621004105,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7688401639461517,
+      "step": 1214
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 258.6171875,
+      "epoch": 0.59326171875,
+      "grad_norm": 3.6468537542322106,
+      "kl": 0.072509765625,
+      "learning_rate": 8.516845703125e-07,
+      "loss": 0.0029,
+      "reward": 1.6600202918052673,
+      "reward_std": 0.061623964458703995,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6600202918052673,
+      "step": 1215
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 304.5859375,
+      "epoch": 0.59375,
+      "grad_norm": 10.981884504101897,
+      "kl": 0.05712890625,
+      "learning_rate": 8.515624999999999e-07,
+      "loss": 0.0023,
+      "reward": 1.701629638671875,
+      "reward_std": 0.0891575813293457,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7016295790672302,
+      "step": 1216
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 344.890625,
+      "epoch": 0.59423828125,
+      "grad_norm": 1.4336654046512236,
+      "kl": 0.0540771484375,
+      "learning_rate": 8.514404296874999e-07,
+      "loss": 0.0022,
+      "reward": 1.7428684830665588,
+      "reward_std": 0.08639609813690186,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7506809830665588,
+      "step": 1217
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 215.171875,
+      "epoch": 0.5947265625,
+      "grad_norm": 2.776622750108565,
+      "kl": 0.0618896484375,
+      "learning_rate": 8.513183593749999e-07,
+      "loss": 0.0025,
+      "reward": 1.8936978578567505,
+      "reward_std": 0.03348179440945387,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8936978578567505,
+      "step": 1218
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 342.7734375,
+      "epoch": 0.59521484375,
+      "grad_norm": 1.8814077810205045,
+      "kl": 0.0614013671875,
+      "learning_rate": 8.511962890625e-07,
+      "loss": 0.0025,
+      "reward": 1.7222504615783691,
+      "reward_std": 0.10825235769152641,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7378754019737244,
+      "step": 1219
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 276.734375,
+      "epoch": 0.595703125,
+      "grad_norm": 4.9487866605632975,
+      "kl": 0.050048828125,
+      "learning_rate": 8.5107421875e-07,
+      "loss": 0.002,
+      "reward": 1.6460736989974976,
+      "reward_std": 0.09841511398553848,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6538861691951752,
+      "step": 1220
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 298.9765625,
+      "epoch": 0.59619140625,
+      "grad_norm": 3.162686127759236,
+      "kl": 0.065673828125,
+      "learning_rate": 8.509521484375e-07,
+      "loss": 0.0026,
+      "reward": 1.6684702634811401,
+      "reward_std": 0.10185368359088898,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.676282674074173,
+      "step": 1221
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 365.0078125,
+      "epoch": 0.5966796875,
+      "grad_norm": 1.9616464372870683,
+      "kl": 0.0635986328125,
+      "learning_rate": 8.50830078125e-07,
+      "loss": 0.0025,
+      "reward": 1.640607476234436,
+      "reward_std": 0.14903107285499573,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6562323570251465,
+      "step": 1222
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 297.4921875,
+      "epoch": 0.59716796875,
+      "grad_norm": 4.351483415683568,
+      "kl": 0.056396484375,
+      "learning_rate": 8.507080078124999e-07,
+      "loss": 0.0023,
+      "reward": 1.6847114562988281,
+      "reward_std": 0.060587236657738686,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6847114562988281,
+      "step": 1223
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 433.6875,
+      "epoch": 0.59765625,
+      "grad_norm": 1.0863930931712735,
+      "kl": 0.0416259765625,
+      "learning_rate": 8.505859374999999e-07,
+      "loss": 0.0017,
+      "reward": 1.7114101648330688,
+      "reward_std": 0.1884886771440506,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7348476648330688,
+      "step": 1224
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 272.0234375,
+      "epoch": 0.59814453125,
+      "grad_norm": 4.182483948402709,
+      "kl": 0.060791015625,
+      "learning_rate": 8.504638671875e-07,
+      "loss": 0.0024,
+      "reward": 1.8124624490737915,
+      "reward_std": 0.06934082508087158,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8124624788761139,
+      "step": 1225
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 265.5703125,
+      "epoch": 0.5986328125,
+      "grad_norm": 1.8143814977652135,
+      "kl": 0.05712890625,
+      "learning_rate": 8.50341796875e-07,
+      "loss": 0.0023,
+      "reward": 1.7989888787269592,
+      "reward_std": 0.06971035525202751,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7989888489246368,
+      "step": 1226
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 295.265625,
+      "epoch": 0.59912109375,
+      "grad_norm": 1.3565201503680722,
+      "kl": 0.0521240234375,
+      "learning_rate": 8.502197265625e-07,
+      "loss": 0.0021,
+      "reward": 1.723208248615265,
+      "reward_std": 0.07503095269203186,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7310207486152649,
+      "step": 1227
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 347.375,
+      "epoch": 0.599609375,
+      "grad_norm": 2.093422094136838,
+      "kl": 0.0616455078125,
+      "learning_rate": 8.5009765625e-07,
+      "loss": 0.0025,
+      "reward": 1.780647873878479,
+      "reward_std": 0.05587127059698105,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7806479036808014,
+      "step": 1228
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 284.6328125,
+      "epoch": 0.60009765625,
+      "grad_norm": 0.9638564944473897,
+      "kl": 0.04931640625,
+      "learning_rate": 8.499755859375e-07,
+      "loss": 0.002,
+      "reward": 1.8005688786506653,
+      "reward_std": 0.034580922685563564,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8005689084529877,
+      "step": 1229
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 302.4609375,
+      "epoch": 0.6005859375,
+      "grad_norm": 1.7588410237791303,
+      "kl": 0.0498046875,
+      "learning_rate": 8.498535156249999e-07,
+      "loss": 0.002,
+      "reward": 1.7482208609580994,
+      "reward_std": 0.11355694010853767,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7560333609580994,
+      "step": 1230
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 230.7109375,
+      "epoch": 0.60107421875,
+      "grad_norm": 5.4986353498353235,
+      "kl": 0.0703125,
+      "learning_rate": 8.497314453124999e-07,
+      "loss": 0.0028,
+      "reward": 1.8072319626808167,
+      "reward_std": 0.09327958524227142,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.822856992483139,
+      "step": 1231
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 435.9609375,
+      "epoch": 0.6015625,
+      "grad_norm": 1.5860451056769687,
+      "kl": 0.05078125,
+      "learning_rate": 8.49609375e-07,
+      "loss": 0.002,
+      "reward": 1.631383240222931,
+      "reward_std": 0.1514478251338005,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.6548207402229309,
+      "step": 1232
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 247.2109375,
+      "epoch": 0.60205078125,
+      "grad_norm": 5.160310522295723,
+      "kl": 0.064697265625,
+      "learning_rate": 8.494873046875e-07,
+      "loss": 0.0026,
+      "reward": 1.824979543685913,
+      "reward_std": 0.06196466274559498,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8249796032905579,
+      "step": 1233
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 242.578125,
+      "epoch": 0.6025390625,
+      "grad_norm": 3.0896098116019375,
+      "kl": 0.068603515625,
+      "learning_rate": 8.49365234375e-07,
+      "loss": 0.0027,
+      "reward": 1.6698785424232483,
+      "reward_std": 0.17456145584583282,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6776910722255707,
+      "step": 1234
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 263.078125,
+      "epoch": 0.60302734375,
+      "grad_norm": 2.3461866135262275,
+      "kl": 0.0556640625,
+      "learning_rate": 8.492431640625e-07,
+      "loss": 0.0022,
+      "reward": 1.726996123790741,
+      "reward_std": 0.07286924868822098,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7269961833953857,
+      "step": 1235
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 338.4765625,
+      "epoch": 0.603515625,
+      "grad_norm": 3.2008131777902302,
+      "kl": 0.076171875,
+      "learning_rate": 8.491210937499999e-07,
+      "loss": 0.0031,
+      "reward": 1.5925570726394653,
+      "reward_std": 0.13758273422718048,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.6159945428371429,
+      "step": 1236
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 328.09375,
+      "epoch": 0.60400390625,
+      "grad_norm": 1.0869290753732679,
+      "kl": 0.0523681640625,
+      "learning_rate": 8.489990234374999e-07,
+      "loss": 0.0021,
+      "reward": 1.6631884574890137,
+      "reward_std": 0.1325419619679451,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.6944384574890137,
+      "step": 1237
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 260.390625,
+      "epoch": 0.6044921875,
+      "grad_norm": 1.043664689306585,
+      "kl": 0.0596923828125,
+      "learning_rate": 8.48876953125e-07,
+      "loss": 0.0024,
+      "reward": 1.7231544256210327,
+      "reward_std": 0.029385648667812347,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7231544256210327,
+      "step": 1238
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 261.046875,
+      "epoch": 0.60498046875,
+      "grad_norm": 1.9882566923730944,
+      "kl": 0.0679931640625,
+      "learning_rate": 8.487548828125e-07,
+      "loss": 0.0027,
+      "reward": 1.755352258682251,
+      "reward_std": 0.050556398928165436,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.755352258682251,
+      "step": 1239
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 291.1875,
+      "epoch": 0.60546875,
+      "grad_norm": 0.9718933967102993,
+      "kl": 0.0498046875,
+      "learning_rate": 8.486328125e-07,
+      "loss": 0.002,
+      "reward": 1.7807682752609253,
+      "reward_std": 0.05785749014467001,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7807681560516357,
+      "step": 1240
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 386.15625,
+      "epoch": 0.60595703125,
+      "grad_norm": 1.0864992081357003,
+      "kl": 0.0439453125,
+      "learning_rate": 8.485107421875e-07,
+      "loss": 0.0018,
+      "reward": 1.8006258606910706,
+      "reward_std": 0.10033701360225677,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.8162508606910706,
+      "step": 1241
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 279.28125,
+      "epoch": 0.6064453125,
+      "grad_norm": 0.72379267103834,
+      "kl": 0.0555419921875,
+      "learning_rate": 8.48388671875e-07,
+      "loss": 0.0022,
+      "reward": 1.7179449796676636,
+      "reward_std": 0.10580763639882207,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.7491949796676636,
+      "step": 1242
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 297.1953125,
+      "epoch": 0.60693359375,
+      "grad_norm": 6.134340243573936,
+      "kl": 0.056640625,
+      "learning_rate": 8.482666015624999e-07,
+      "loss": 0.0023,
+      "reward": 1.6223798394203186,
+      "reward_std": 0.08309117332100868,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6223797798156738,
+      "step": 1243
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 261.03125,
+      "epoch": 0.607421875,
+      "grad_norm": 2.981575045817795,
+      "kl": 0.06689453125,
+      "learning_rate": 8.481445312499999e-07,
+      "loss": 0.0027,
+      "reward": 1.5559495091438293,
+      "reward_std": 0.12914244830608368,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.571574479341507,
+      "step": 1244
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 331.5703125,
+      "epoch": 0.60791015625,
+      "grad_norm": 1.167173976520968,
+      "kl": 0.0479736328125,
+      "learning_rate": 8.480224609375e-07,
+      "loss": 0.0019,
+      "reward": 1.8290737867355347,
+      "reward_std": 0.09445438906550407,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.8446987867355347,
+      "step": 1245
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 380.4921875,
+      "epoch": 0.6083984375,
+      "grad_norm": 2.3473086338411733,
+      "kl": 0.041259765625,
+      "learning_rate": 8.47900390625e-07,
+      "loss": 0.0017,
+      "reward": 1.7552416920661926,
+      "reward_std": 0.0686273779720068,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7552417516708374,
+      "step": 1246
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 433.984375,
+      "epoch": 0.60888671875,
+      "grad_norm": 1.989690821238528,
+      "kl": 0.0418701171875,
+      "learning_rate": 8.477783203125e-07,
+      "loss": 0.0017,
+      "reward": 1.7533529996871948,
+      "reward_std": 0.08260135725140572,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7533529996871948,
+      "step": 1247
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 392.46875,
+      "epoch": 0.609375,
+      "grad_norm": 4.174383689747545,
+      "kl": 0.0361328125,
+      "learning_rate": 8.4765625e-07,
+      "loss": 0.0014,
+      "reward": 1.7376724481582642,
+      "reward_std": 0.12889265269041061,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7532974779605865,
+      "step": 1248
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 316.9375,
+      "epoch": 0.60986328125,
+      "grad_norm": 1.41606671516539,
+      "kl": 0.0467529296875,
+      "learning_rate": 8.475341796874999e-07,
+      "loss": 0.0019,
+      "reward": 1.7911608219146729,
+      "reward_std": 0.05567508563399315,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7911607921123505,
+      "step": 1249
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 277.8046875,
+      "epoch": 0.6103515625,
+      "grad_norm": 1.3841122351592616,
+      "kl": 0.0531005859375,
+      "learning_rate": 8.474121093749999e-07,
+      "loss": 0.0021,
+      "reward": 1.8352203965187073,
+      "reward_std": 0.06681127846240997,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8352203369140625,
+      "step": 1250
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 255.4140625,
+      "epoch": 0.61083984375,
+      "grad_norm": 1.6245690807772388,
+      "kl": 0.054443359375,
+      "learning_rate": 8.472900390624999e-07,
+      "loss": 0.0022,
+      "reward": 1.83678537607193,
+      "reward_std": 0.0678851343691349,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8367853164672852,
+      "step": 1251
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 317.6015625,
+      "epoch": 0.611328125,
+      "grad_norm": 1.6847918430394793,
+      "kl": 0.0633544921875,
+      "learning_rate": 8.4716796875e-07,
+      "loss": 0.0025,
+      "reward": 1.6871824860572815,
+      "reward_std": 0.12895482033491135,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6949949860572815,
+      "step": 1252
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 270.8671875,
+      "epoch": 0.61181640625,
+      "grad_norm": 1.9808612056878117,
+      "kl": 0.047119140625,
+      "learning_rate": 8.470458984375e-07,
+      "loss": 0.0019,
+      "reward": 1.8585364818572998,
+      "reward_std": 0.05595720373094082,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8585363328456879,
+      "step": 1253
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 257.1953125,
+      "epoch": 0.6123046875,
+      "grad_norm": 1.023636015557283,
+      "kl": 0.0531005859375,
+      "learning_rate": 8.46923828125e-07,
+      "loss": 0.0021,
+      "reward": 1.7553237080574036,
+      "reward_std": 0.017358798999339342,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7553236782550812,
+      "step": 1254
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 272.390625,
+      "epoch": 0.61279296875,
+      "grad_norm": 2.129666626613869,
+      "kl": 0.0482177734375,
+      "learning_rate": 8.468017578125e-07,
+      "loss": 0.0019,
+      "reward": 1.830765187740326,
+      "reward_std": 0.06046690791845322,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8307652175426483,
+      "step": 1255
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 270.875,
+      "epoch": 0.61328125,
+      "grad_norm": 5.092569077503816,
+      "kl": 0.072021484375,
+      "learning_rate": 8.466796874999999e-07,
+      "loss": 0.0029,
+      "reward": 1.7521468997001648,
+      "reward_std": 0.11612342670559883,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.75995934009552,
+      "step": 1256
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 236.5859375,
+      "epoch": 0.61376953125,
+      "grad_norm": 2.542365050667952,
+      "kl": 0.06787109375,
+      "learning_rate": 8.465576171874999e-07,
+      "loss": 0.0027,
+      "reward": 1.8093348741531372,
+      "reward_std": 0.05134081654250622,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8093349635601044,
+      "step": 1257
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 228.34375,
+      "epoch": 0.6142578125,
+      "grad_norm": 2.0593288502085576,
+      "kl": 0.0782470703125,
+      "learning_rate": 8.46435546875e-07,
+      "loss": 0.0031,
+      "reward": 1.7897635102272034,
+      "reward_std": 0.08628207445144653,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7975760698318481,
+      "step": 1258
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 285.0390625,
+      "epoch": 0.61474609375,
+      "grad_norm": 1.1846536082668164,
+      "kl": 0.0538330078125,
+      "learning_rate": 8.463134765625e-07,
+      "loss": 0.0022,
+      "reward": 1.6509920954704285,
+      "reward_std": 0.08322879299521446,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6588045656681061,
+      "step": 1259
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 340.6796875,
+      "epoch": 0.615234375,
+      "grad_norm": 9.144569025352508,
+      "kl": 0.0601806640625,
+      "learning_rate": 8.4619140625e-07,
+      "loss": 0.0024,
+      "reward": 1.7124608755111694,
+      "reward_std": 0.06501621380448341,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7124608755111694,
+      "step": 1260
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 268.5546875,
+      "epoch": 0.61572265625,
+      "grad_norm": 10.55754939249481,
+      "kl": 0.060302734375,
+      "learning_rate": 8.460693359375e-07,
+      "loss": 0.0024,
+      "reward": 1.7932811379432678,
+      "reward_std": 0.07128015346825123,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7932811081409454,
+      "step": 1261
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 191.984375,
+      "epoch": 0.6162109375,
+      "grad_norm": 71.34719881454178,
+      "kl": 0.06298828125,
+      "learning_rate": 8.459472656249999e-07,
+      "loss": 0.0025,
+      "reward": 1.7777682542800903,
+      "reward_std": 0.025185417383909225,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7777682244777679,
+      "step": 1262
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 273.7578125,
+      "epoch": 0.61669921875,
+      "grad_norm": 1.978131656908925,
+      "kl": 0.061767578125,
+      "learning_rate": 8.458251953124999e-07,
+      "loss": 0.0025,
+      "reward": 1.6713601350784302,
+      "reward_std": 0.12586339935660362,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6869851052761078,
+      "step": 1263
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 266.6796875,
+      "epoch": 0.6171875,
+      "grad_norm": 1.5988305057821919,
+      "kl": 0.0751953125,
+      "learning_rate": 8.457031249999999e-07,
+      "loss": 0.003,
+      "reward": 1.75057852268219,
+      "reward_std": 0.0573820099234581,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7505785524845123,
+      "step": 1264
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 295.5546875,
+      "epoch": 0.61767578125,
+      "grad_norm": 1.4597428566631678,
+      "kl": 0.0667724609375,
+      "learning_rate": 8.455810546875e-07,
+      "loss": 0.0027,
+      "reward": 1.759526014328003,
+      "reward_std": 0.08681388199329376,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7673385143280029,
+      "step": 1265
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 228.53125,
+      "epoch": 0.6181640625,
+      "grad_norm": 3.422813642948489,
+      "kl": 0.08837890625,
+      "learning_rate": 8.45458984375e-07,
+      "loss": 0.0035,
+      "reward": 1.8277055025100708,
+      "reward_std": 0.08797085843980312,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8355179727077484,
+      "step": 1266
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 286.109375,
+      "epoch": 0.61865234375,
+      "grad_norm": 1.3015209293279653,
+      "kl": 0.0609130859375,
+      "learning_rate": 8.453369140625e-07,
+      "loss": 0.0024,
+      "reward": 1.7601238489151,
+      "reward_std": 0.03359607141464949,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7601238191127777,
+      "step": 1267
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 223.8828125,
+      "epoch": 0.619140625,
+      "grad_norm": 3.1082145060006856,
+      "kl": 0.0732421875,
+      "learning_rate": 8.4521484375e-07,
+      "loss": 0.0029,
+      "reward": 1.5394993424415588,
+      "reward_std": 0.0939161665737629,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.5394993126392365,
+      "step": 1268
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 254.5078125,
+      "epoch": 0.61962890625,
+      "grad_norm": 1.281242601050256,
+      "kl": 0.0672607421875,
+      "learning_rate": 8.450927734374999e-07,
+      "loss": 0.0027,
+      "reward": 1.7604122757911682,
+      "reward_std": 0.08974438905715942,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7604122757911682,
+      "step": 1269
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 342.515625,
+      "epoch": 0.6201171875,
+      "grad_norm": 3.739110086504897,
+      "kl": 0.05712890625,
+      "learning_rate": 8.449707031249999e-07,
+      "loss": 0.0023,
+      "reward": 1.8326544761657715,
+      "reward_std": 0.05452083423733711,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8326544463634491,
+      "step": 1270
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 248.171875,
+      "epoch": 0.62060546875,
+      "grad_norm": 2.0306719948385865,
+      "kl": 0.06689453125,
+      "learning_rate": 8.448486328125e-07,
+      "loss": 0.0027,
+      "reward": 1.6453559398651123,
+      "reward_std": 0.06446324661374092,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6453558802604675,
+      "step": 1271
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 259.484375,
+      "epoch": 0.62109375,
+      "grad_norm": 2.743793220567594,
+      "kl": 0.0662841796875,
+      "learning_rate": 8.447265625e-07,
+      "loss": 0.0026,
+      "reward": 1.7001383304595947,
+      "reward_std": 0.09162449836730957,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7001383602619171,
+      "step": 1272
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 245.734375,
+      "epoch": 0.62158203125,
+      "grad_norm": 2.553544875125356,
+      "kl": 0.0584716796875,
+      "learning_rate": 8.446044921875e-07,
+      "loss": 0.0023,
+      "reward": 1.5885206460952759,
+      "reward_std": 0.047395724803209305,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.5885206460952759,
+      "step": 1273
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 193.375,
+      "epoch": 0.6220703125,
+      "grad_norm": 0.8661435940898954,
+      "kl": 0.057373046875,
+      "learning_rate": 8.44482421875e-07,
+      "loss": 0.0023,
+      "reward": 1.8218601942062378,
+      "reward_std": 0.047537509351968765,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.821860134601593,
+      "step": 1274
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 244.9140625,
+      "epoch": 0.62255859375,
+      "grad_norm": 1.8229102343241281,
+      "kl": 0.0611572265625,
+      "learning_rate": 8.443603515624999e-07,
+      "loss": 0.0024,
+      "reward": 1.7554479241371155,
+      "reward_std": 0.06095794588327408,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7554478943347931,
+      "step": 1275
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 234.875,
+      "epoch": 0.623046875,
+      "grad_norm": 5.054715442884952,
+      "kl": 0.056640625,
+      "learning_rate": 8.442382812499999e-07,
+      "loss": 0.0023,
+      "reward": 1.698002815246582,
+      "reward_std": 0.1263159103691578,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.705815315246582,
+      "step": 1276
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 279.109375,
+      "epoch": 0.62353515625,
+      "grad_norm": 1.3577851009475093,
+      "kl": 0.05859375,
+      "learning_rate": 8.441162109374999e-07,
+      "loss": 0.0023,
+      "reward": 1.7819681763648987,
+      "reward_std": 0.05448628589510918,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7819681465625763,
+      "step": 1277
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 323.9609375,
+      "epoch": 0.6240234375,
+      "grad_norm": 1.9557945914662318,
+      "kl": 0.0556640625,
+      "learning_rate": 8.43994140625e-07,
+      "loss": 0.0022,
+      "reward": 1.5706565976142883,
+      "reward_std": 0.10779277980327606,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.5784690678119659,
+      "step": 1278
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 191.9609375,
+      "epoch": 0.62451171875,
+      "grad_norm": 9.30380292114862,
+      "kl": 0.053955078125,
+      "learning_rate": 8.438720703125e-07,
+      "loss": 0.0022,
+      "reward": 1.780591070652008,
+      "reward_std": 0.047663201577961445,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7805911004543304,
+      "step": 1279
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 314.7109375,
+      "epoch": 0.625,
+      "grad_norm": 1.1932154787420253,
+      "kl": 0.0540771484375,
+      "learning_rate": 8.4375e-07,
+      "loss": 0.0022,
+      "reward": 1.7884827852249146,
+      "reward_std": 0.07211063336580992,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7962952554225922,
+      "step": 1280
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 289.7265625,
+      "epoch": 0.62548828125,
+      "grad_norm": 1.9144731486079674,
+      "kl": 0.03955078125,
+      "learning_rate": 8.436279296875e-07,
+      "loss": 0.0016,
+      "reward": 1.8027944564819336,
+      "reward_std": 0.04255840554833412,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.802794486284256,
+      "step": 1281
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 322.203125,
+      "epoch": 0.6259765625,
+      "grad_norm": 2.772928558355846,
+      "kl": 0.0596923828125,
+      "learning_rate": 8.435058593749999e-07,
+      "loss": 0.0024,
+      "reward": 1.731988787651062,
+      "reward_std": 0.09315790981054306,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7319887578487396,
+      "step": 1282
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 380.1953125,
+      "epoch": 0.62646484375,
+      "grad_norm": 9.787372043948942,
+      "kl": 0.0592041015625,
+      "learning_rate": 8.433837890624999e-07,
+      "loss": 0.0024,
+      "reward": 1.7648069858551025,
+      "reward_std": 0.03516199626028538,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7648070156574249,
+      "step": 1283
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 394.4765625,
+      "epoch": 0.626953125,
+      "grad_norm": 3.356579451338363,
+      "kl": 0.05126953125,
+      "learning_rate": 8.4326171875e-07,
+      "loss": 0.0021,
+      "reward": 1.696887195110321,
+      "reward_std": 0.05591726675629616,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6968871355056763,
+      "step": 1284
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 346.6015625,
+      "epoch": 0.62744140625,
+      "grad_norm": 2.549785582844497,
+      "kl": 0.0439453125,
+      "learning_rate": 8.431396484375e-07,
+      "loss": 0.0018,
+      "reward": 1.7408929467201233,
+      "reward_std": 0.11647412180900574,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7487053871154785,
+      "step": 1285
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 354.4609375,
+      "epoch": 0.6279296875,
+      "grad_norm": 0.9021938993838211,
+      "kl": 0.0540771484375,
+      "learning_rate": 8.43017578125e-07,
+      "loss": 0.0022,
+      "reward": 1.758631408214569,
+      "reward_std": 0.126407902687788,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7820688784122467,
+      "step": 1286
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 344.09375,
+      "epoch": 0.62841796875,
+      "grad_norm": 1.3267018883224448,
+      "kl": 0.0491943359375,
+      "learning_rate": 8.428955078125e-07,
+      "loss": 0.002,
+      "reward": 1.632334589958191,
+      "reward_std": 0.0630562799051404,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6401470899581909,
+      "step": 1287
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 296.5625,
+      "epoch": 0.62890625,
+      "grad_norm": 2.2552351150707017,
+      "kl": 0.048828125,
+      "learning_rate": 8.427734374999999e-07,
+      "loss": 0.002,
+      "reward": 1.8420506715774536,
+      "reward_std": 0.1419878453016281,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8498630821704865,
+      "step": 1288
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 293.1171875,
+      "epoch": 0.62939453125,
+      "grad_norm": 3.9365564848072605,
+      "kl": 0.0616455078125,
+      "learning_rate": 8.426513671874999e-07,
+      "loss": 0.0025,
+      "reward": 1.6480534076690674,
+      "reward_std": 0.04998471587896347,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6480533927679062,
+      "step": 1289
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 238.265625,
+      "epoch": 0.6298828125,
+      "grad_norm": 11.182204805928025,
+      "kl": 0.071044921875,
+      "learning_rate": 8.425292968749999e-07,
+      "loss": 0.0028,
+      "reward": 1.7481674551963806,
+      "reward_std": 0.10754155367612839,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7481675148010254,
+      "step": 1290
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 283.03125,
+      "epoch": 0.63037109375,
+      "grad_norm": 9.473971973141426,
+      "kl": 0.0615234375,
+      "learning_rate": 8.424072265625e-07,
+      "loss": 0.0025,
+      "reward": 1.7282034158706665,
+      "reward_std": 0.08554265275597572,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7282033860683441,
+      "step": 1291
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 303.9609375,
+      "epoch": 0.630859375,
+      "grad_norm": 1.5297115240623664,
+      "kl": 0.054931640625,
+      "learning_rate": 8.4228515625e-07,
+      "loss": 0.0022,
+      "reward": 1.7187672853469849,
+      "reward_std": 0.06834917794913054,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7265797853469849,
+      "step": 1292
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 323.2890625,
+      "epoch": 0.63134765625,
+      "grad_norm": 1.0070423771790409,
+      "kl": 0.048095703125,
+      "learning_rate": 8.421630859375e-07,
+      "loss": 0.0019,
+      "reward": 1.7618906497955322,
+      "reward_std": 0.0947088971734047,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7697031795978546,
+      "step": 1293
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 361.09375,
+      "epoch": 0.6318359375,
+      "grad_norm": 2.568966029071052,
+      "kl": 0.056396484375,
+      "learning_rate": 8.42041015625e-07,
+      "loss": 0.0023,
+      "reward": 1.6242307424545288,
+      "reward_std": 0.21024633944034576,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.663293182849884,
+      "step": 1294
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 349.21875,
+      "epoch": 0.63232421875,
+      "grad_norm": 1.9848309178933314,
+      "kl": 0.049560546875,
+      "learning_rate": 8.419189453124999e-07,
+      "loss": 0.002,
+      "reward": 1.7481633424758911,
+      "reward_std": 0.12243251502513885,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7716008424758911,
+      "step": 1295
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 303.59375,
+      "epoch": 0.6328125,
+      "grad_norm": 0.8761196952724171,
+      "kl": 0.0399169921875,
+      "learning_rate": 8.417968749999999e-07,
+      "loss": 0.0016,
+      "reward": 1.7893099188804626,
+      "reward_std": 0.05286476016044617,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7893097996711731,
+      "step": 1296
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 265.4296875,
+      "epoch": 0.63330078125,
+      "grad_norm": 1.1095061436724811,
+      "kl": 0.0584716796875,
+      "learning_rate": 8.416748046875e-07,
+      "loss": 0.0023,
+      "reward": 1.7433611750602722,
+      "reward_std": 0.061368606984615326,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7433610558509827,
+      "step": 1297
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 312.3125,
+      "epoch": 0.6337890625,
+      "grad_norm": 2.146602454130791,
+      "kl": 0.055419921875,
+      "learning_rate": 8.41552734375e-07,
+      "loss": 0.0022,
+      "reward": 1.7003250122070312,
+      "reward_std": 0.08811355289071798,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7081375122070312,
+      "step": 1298
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 339.0859375,
+      "epoch": 0.63427734375,
+      "grad_norm": 1.165844265780615,
+      "kl": 0.05322265625,
+      "learning_rate": 8.414306640625e-07,
+      "loss": 0.0021,
+      "reward": 1.6436746716499329,
+      "reward_std": 0.0825019795447588,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6436747312545776,
+      "step": 1299
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 328.765625,
+      "epoch": 0.634765625,
+      "grad_norm": 2.5464365422498356,
+      "kl": 0.0504150390625,
+      "learning_rate": 8.4130859375e-07,
+      "loss": 0.002,
+      "reward": 1.7102563381195068,
+      "reward_std": 0.0774708678945899,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7180688977241516,
+      "step": 1300
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 202.3984375,
+      "epoch": 0.63525390625,
+      "grad_norm": 2.7704272264732666,
+      "kl": 0.0579833984375,
+      "learning_rate": 8.411865234374999e-07,
+      "loss": 0.0023,
+      "reward": 1.7323628664016724,
+      "reward_std": 0.08244866505265236,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7323628962039948,
+      "step": 1301
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 309.9296875,
+      "epoch": 0.6357421875,
+      "grad_norm": 1.5304947901397634,
+      "kl": 0.0517578125,
+      "learning_rate": 8.410644531249999e-07,
+      "loss": 0.0021,
+      "reward": 1.77633798122406,
+      "reward_std": 0.09737828373908997,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7841504514217377,
+      "step": 1302
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 250.390625,
+      "epoch": 0.63623046875,
+      "grad_norm": 2.9720279627250954,
+      "kl": 0.0599365234375,
+      "learning_rate": 8.409423828124999e-07,
+      "loss": 0.0024,
+      "reward": 1.7398386597633362,
+      "reward_std": 0.06009085476398468,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7398386597633362,
+      "step": 1303
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 330.8359375,
+      "epoch": 0.63671875,
+      "grad_norm": 1.4673255697862866,
+      "kl": 0.06982421875,
+      "learning_rate": 8.408203125e-07,
+      "loss": 0.0028,
+      "reward": 1.6804990768432617,
+      "reward_std": 0.05310311168432236,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6804989874362946,
+      "step": 1304
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 295.875,
+      "epoch": 0.63720703125,
+      "grad_norm": 1.4253383817755978,
+      "kl": 0.057373046875,
+      "learning_rate": 8.406982421875e-07,
+      "loss": 0.0023,
+      "reward": 1.830526053905487,
+      "reward_std": 0.05299729108810425,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8305260539054871,
+      "step": 1305
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 396.9140625,
+      "epoch": 0.6376953125,
+      "grad_norm": 2.353756599931053,
+      "kl": 0.047607421875,
+      "learning_rate": 8.40576171875e-07,
+      "loss": 0.0019,
+      "reward": 1.719884991645813,
+      "reward_std": 0.11661730334162712,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.727697491645813,
+      "step": 1306
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 358.5703125,
+      "epoch": 0.63818359375,
+      "grad_norm": 1.3478820253260286,
+      "kl": 0.0499267578125,
+      "learning_rate": 8.404541015625e-07,
+      "loss": 0.002,
+      "reward": 1.6699483394622803,
+      "reward_std": 0.1071729026734829,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6777608394622803,
+      "step": 1307
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 219.5546875,
+      "epoch": 0.638671875,
+      "grad_norm": 1.8256350632514393,
+      "kl": 0.06689453125,
+      "learning_rate": 8.403320312499999e-07,
+      "loss": 0.0027,
+      "reward": 1.8012477159500122,
+      "reward_std": 0.0809515118598938,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8012477159500122,
+      "step": 1308
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 275.3359375,
+      "epoch": 0.63916015625,
+      "grad_norm": 4.051138050422444,
+      "kl": 0.0504150390625,
+      "learning_rate": 8.402099609374999e-07,
+      "loss": 0.002,
+      "reward": 1.8088411688804626,
+      "reward_std": 0.07655365020036697,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8088411688804626,
+      "step": 1309
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 278.5703125,
+      "epoch": 0.6396484375,
+      "grad_norm": 5.526840892766896,
+      "kl": 0.05615234375,
+      "learning_rate": 8.40087890625e-07,
+      "loss": 0.0022,
+      "reward": 1.7295674085617065,
+      "reward_std": 0.06708750128746033,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7295673787593842,
+      "step": 1310
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 336.0078125,
+      "epoch": 0.64013671875,
+      "grad_norm": 1.608420576473483,
+      "kl": 0.050537109375,
+      "learning_rate": 8.399658203125e-07,
+      "loss": 0.002,
+      "reward": 1.7628620862960815,
+      "reward_std": 0.0696718655526638,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7706745862960815,
+      "step": 1311
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 267.0,
+      "epoch": 0.640625,
+      "grad_norm": 1.5968411371770552,
+      "kl": 0.057373046875,
+      "learning_rate": 8.3984375e-07,
+      "loss": 0.0023,
+      "reward": 1.652459740638733,
+      "reward_std": 0.06461456045508385,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6524598002433777,
+      "step": 1312
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 315.1875,
+      "epoch": 0.64111328125,
+      "grad_norm": 1.3200737326998475,
+      "kl": 0.054443359375,
+      "learning_rate": 8.397216796875e-07,
+      "loss": 0.0022,
+      "reward": 1.6885486841201782,
+      "reward_std": 0.08856038376688957,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6963611841201782,
+      "step": 1313
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 255.09375,
+      "epoch": 0.6416015625,
+      "grad_norm": 3.6728233406933257,
+      "kl": 0.068603515625,
+      "learning_rate": 8.395996093749999e-07,
+      "loss": 0.0027,
+      "reward": 1.6466514468193054,
+      "reward_std": 0.0514130312949419,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6544639468193054,
+      "step": 1314
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 295.0390625,
+      "epoch": 0.64208984375,
+      "grad_norm": 0.8191385325359082,
+      "kl": 0.0511474609375,
+      "learning_rate": 8.394775390624999e-07,
+      "loss": 0.002,
+      "reward": 1.7703859210014343,
+      "reward_std": 0.0926944687962532,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7860109210014343,
+      "step": 1315
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 302.75,
+      "epoch": 0.642578125,
+      "grad_norm": 3.0861231360855617,
+      "kl": 0.0599365234375,
+      "learning_rate": 8.393554687499999e-07,
+      "loss": 0.0024,
+      "reward": 1.6689003109931946,
+      "reward_std": 0.07885997742414474,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6689003109931946,
+      "step": 1316
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 296.296875,
+      "epoch": 0.64306640625,
+      "grad_norm": 1.8166865063096989,
+      "kl": 0.0635986328125,
+      "learning_rate": 8.392333984375e-07,
+      "loss": 0.0025,
+      "reward": 1.6987890005111694,
+      "reward_std": 0.06034014839679003,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6987889111042023,
+      "step": 1317
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 349.046875,
+      "epoch": 0.6435546875,
+      "grad_norm": 1.4887931508827008,
+      "kl": 0.0628662109375,
+      "learning_rate": 8.39111328125e-07,
+      "loss": 0.0025,
+      "reward": 1.7936866283416748,
+      "reward_std": 0.04510762542486191,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7936865985393524,
+      "step": 1318
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 326.3671875,
+      "epoch": 0.64404296875,
+      "grad_norm": 1.2967345838531843,
+      "kl": 0.050537109375,
+      "learning_rate": 8.389892578125e-07,
+      "loss": 0.002,
+      "reward": 1.83639657497406,
+      "reward_std": 0.06598273664712906,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8363966047763824,
+      "step": 1319
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 253.5625,
+      "epoch": 0.64453125,
+      "grad_norm": 1.8104292750631013,
+      "kl": 0.067626953125,
+      "learning_rate": 8.388671875e-07,
+      "loss": 0.0027,
+      "reward": 1.7048075199127197,
+      "reward_std": 0.05657285824418068,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.704807460308075,
+      "step": 1320
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 333.359375,
+      "epoch": 0.64501953125,
+      "grad_norm": 2.7804914867197734,
+      "kl": 0.0479736328125,
+      "learning_rate": 8.387451171874999e-07,
+      "loss": 0.0019,
+      "reward": 1.791284441947937,
+      "reward_std": 0.04943067207932472,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.791284441947937,
+      "step": 1321
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 392.2578125,
+      "epoch": 0.6455078125,
+      "grad_norm": 1.5521266813840282,
+      "kl": 0.0557861328125,
+      "learning_rate": 8.386230468749999e-07,
+      "loss": 0.0022,
+      "reward": 1.6612219214439392,
+      "reward_std": 0.06563910469412804,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6612218618392944,
+      "step": 1322
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 268.65625,
+      "epoch": 0.64599609375,
+      "grad_norm": 1.6124206023884073,
+      "kl": 0.056396484375,
+      "learning_rate": 8.385009765625e-07,
+      "loss": 0.0023,
+      "reward": 1.753632366657257,
+      "reward_std": 0.051005132496356964,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7536323666572571,
+      "step": 1323
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 302.9765625,
+      "epoch": 0.646484375,
+      "grad_norm": 2.247706598191221,
+      "kl": 0.054443359375,
+      "learning_rate": 8.3837890625e-07,
+      "loss": 0.0022,
+      "reward": 1.7354570031166077,
+      "reward_std": 0.16325188055634499,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7510820627212524,
+      "step": 1324
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 255.796875,
+      "epoch": 0.64697265625,
+      "grad_norm": 11.389486659767021,
+      "kl": 0.0579833984375,
+      "learning_rate": 8.382568359375e-07,
+      "loss": 0.0023,
+      "reward": 1.7502111196517944,
+      "reward_std": 0.0659194141626358,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7502111196517944,
+      "step": 1325
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 305.5390625,
+      "epoch": 0.6474609375,
+      "grad_norm": 1.2834360713798052,
+      "kl": 0.0615234375,
+      "learning_rate": 8.38134765625e-07,
+      "loss": 0.0025,
+      "reward": 1.69877290725708,
+      "reward_std": 0.052922509610652924,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6987729072570801,
+      "step": 1326
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 315.453125,
+      "epoch": 0.64794921875,
+      "grad_norm": 1.2944757450752098,
+      "kl": 0.058837890625,
+      "learning_rate": 8.380126953125e-07,
+      "loss": 0.0024,
+      "reward": 1.7563305497169495,
+      "reward_std": 0.08665376901626587,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7563305497169495,
+      "step": 1327
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 291.6796875,
+      "epoch": 0.6484375,
+      "grad_norm": 6.608818467370714,
+      "kl": 0.0654296875,
+      "learning_rate": 8.378906249999999e-07,
+      "loss": 0.0026,
+      "reward": 1.6104682683944702,
+      "reward_std": 0.08941986411809921,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6104682385921478,
+      "step": 1328
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 261.015625,
+      "epoch": 0.64892578125,
+      "grad_norm": 1.7084744934823917,
+      "kl": 0.06494140625,
+      "learning_rate": 8.377685546874999e-07,
+      "loss": 0.0026,
+      "reward": 1.7628703117370605,
+      "reward_std": 0.044559099711477757,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7628703117370605,
+      "step": 1329
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 290.265625,
+      "epoch": 0.6494140625,
+      "grad_norm": 1.0774403862289603,
+      "kl": 0.054443359375,
+      "learning_rate": 8.37646484375e-07,
+      "loss": 0.0022,
+      "reward": 1.8073540329933167,
+      "reward_std": 0.07767094019800425,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8151665329933167,
+      "step": 1330
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 281.7421875,
+      "epoch": 0.64990234375,
+      "grad_norm": 1.8398660445850628,
+      "kl": 0.0673828125,
+      "learning_rate": 8.375244140625e-07,
+      "loss": 0.0027,
+      "reward": 1.6594313383102417,
+      "reward_std": 0.10600551217794418,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6672438383102417,
+      "step": 1331
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 220.0859375,
+      "epoch": 0.650390625,
+      "grad_norm": 3.934324761283697,
+      "kl": 0.08056640625,
+      "learning_rate": 8.3740234375e-07,
+      "loss": 0.0032,
+      "reward": 1.6837170720100403,
+      "reward_std": 0.029794931411743164,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6837171018123627,
+      "step": 1332
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 308.984375,
+      "epoch": 0.65087890625,
+      "grad_norm": 13.797314264854801,
+      "kl": 0.062744140625,
+      "learning_rate": 8.372802734375e-07,
+      "loss": 0.0025,
+      "reward": 1.8004740476608276,
+      "reward_std": 0.053687095642089844,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8004740178585052,
+      "step": 1333
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 236.578125,
+      "epoch": 0.6513671875,
+      "grad_norm": 1.1330439181277785,
+      "kl": 0.04736328125,
+      "learning_rate": 8.371582031249999e-07,
+      "loss": 0.0019,
+      "reward": 1.6666799783706665,
+      "reward_std": 0.10937470942735672,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6744924187660217,
+      "step": 1334
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 287.859375,
+      "epoch": 0.65185546875,
+      "grad_norm": 1.4553589678453058,
+      "kl": 0.0582275390625,
+      "learning_rate": 8.370361328124999e-07,
+      "loss": 0.0023,
+      "reward": 1.6906811594963074,
+      "reward_std": 0.04443385824561119,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6906810998916626,
+      "step": 1335
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 333.890625,
+      "epoch": 0.65234375,
+      "grad_norm": 1.302159303083921,
+      "kl": 0.048095703125,
+      "learning_rate": 8.369140625e-07,
+      "loss": 0.0019,
+      "reward": 1.7355791926383972,
+      "reward_std": 0.1092800498008728,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7512041926383972,
+      "step": 1336
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 288.7109375,
+      "epoch": 0.65283203125,
+      "grad_norm": 17.77091921210839,
+      "kl": 0.0572509765625,
+      "learning_rate": 8.367919921875e-07,
+      "loss": 0.0023,
+      "reward": 1.644793450832367,
+      "reward_std": 0.09384549781680107,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6526058912277222,
+      "step": 1337
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 289.3046875,
+      "epoch": 0.6533203125,
+      "grad_norm": 0.9214814360203658,
+      "kl": 0.0531005859375,
+      "learning_rate": 8.36669921875e-07,
+      "loss": 0.0021,
+      "reward": 1.7342381477355957,
+      "reward_std": 0.03282667603343725,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7342380881309509,
+      "step": 1338
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 333.3359375,
+      "epoch": 0.65380859375,
+      "grad_norm": 1.2792896824125273,
+      "kl": 0.0487060546875,
+      "learning_rate": 8.365478515625e-07,
+      "loss": 0.0019,
+      "reward": 1.8167948126792908,
+      "reward_std": 0.05022166669368744,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8167948722839355,
+      "step": 1339
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 234.703125,
+      "epoch": 0.654296875,
+      "grad_norm": 2.0308611626495954,
+      "kl": 0.05078125,
+      "learning_rate": 8.3642578125e-07,
+      "loss": 0.002,
+      "reward": 1.793544888496399,
+      "reward_std": 0.05571754090487957,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7935448884963989,
+      "step": 1340
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 353.4609375,
+      "epoch": 0.65478515625,
+      "grad_norm": 2.8603926926077285,
+      "kl": 0.0635986328125,
+      "learning_rate": 8.363037109374999e-07,
+      "loss": 0.0025,
+      "reward": 1.7558925151824951,
+      "reward_std": 0.09720181487500668,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7558925449848175,
+      "step": 1341
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 303.359375,
+      "epoch": 0.6552734375,
+      "grad_norm": 1.7594024320160508,
+      "kl": 0.049072265625,
+      "learning_rate": 8.361816406249999e-07,
+      "loss": 0.002,
+      "reward": 1.7895704507827759,
+      "reward_std": 0.060751235112547874,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7895704209804535,
+      "step": 1342
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 273.984375,
+      "epoch": 0.65576171875,
+      "grad_norm": 2.025592104259594,
+      "kl": 0.0482177734375,
+      "learning_rate": 8.360595703125e-07,
+      "loss": 0.0019,
+      "reward": 1.7954835891723633,
+      "reward_std": 0.11320845782756805,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8032960891723633,
+      "step": 1343
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 299.828125,
+      "epoch": 0.65625,
+      "grad_norm": 2.5560286885728267,
+      "kl": 0.05908203125,
+      "learning_rate": 8.359375e-07,
+      "loss": 0.0024,
+      "reward": 1.6292362213134766,
+      "reward_std": 0.13106617331504822,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.637048751115799,
+      "step": 1344
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 338.296875,
+      "epoch": 0.65673828125,
+      "grad_norm": 2.542594283261598,
+      "kl": 0.0533447265625,
+      "learning_rate": 8.358154296875e-07,
+      "loss": 0.0021,
+      "reward": 1.7747212648391724,
+      "reward_std": 0.08434459567070007,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7747212648391724,
+      "step": 1345
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 306.21875,
+      "epoch": 0.6572265625,
+      "grad_norm": 1.7311059727406346,
+      "kl": 0.056396484375,
+      "learning_rate": 8.35693359375e-07,
+      "loss": 0.0023,
+      "reward": 1.7278847694396973,
+      "reward_std": 0.06932184100151062,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7278847694396973,
+      "step": 1346
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 299.7265625,
+      "epoch": 0.65771484375,
+      "grad_norm": 0.8011187117027543,
+      "kl": 0.0498046875,
+      "learning_rate": 8.355712890624999e-07,
+      "loss": 0.002,
+      "reward": 1.7831463813781738,
+      "reward_std": 0.018837594892829657,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7831464111804962,
+      "step": 1347
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 274.265625,
+      "epoch": 0.658203125,
+      "grad_norm": 1.535578949505016,
+      "kl": 0.0528564453125,
+      "learning_rate": 8.354492187499999e-07,
+      "loss": 0.0021,
+      "reward": 1.7664051055908203,
+      "reward_std": 0.0737844929099083,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7664050757884979,
+      "step": 1348
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 235.421875,
+      "epoch": 0.65869140625,
+      "grad_norm": 2.622932104029845,
+      "kl": 0.0594482421875,
+      "learning_rate": 8.353271484374999e-07,
+      "loss": 0.0024,
+      "reward": 1.6524591445922852,
+      "reward_std": 0.0812476146966219,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6524590253829956,
+      "step": 1349
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 344.984375,
+      "epoch": 0.6591796875,
+      "grad_norm": 1.1970666562029746,
+      "kl": 0.060302734375,
+      "learning_rate": 8.35205078125e-07,
+      "loss": 0.0024,
+      "reward": 1.6671356558799744,
+      "reward_std": 0.09243928454816341,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6827606558799744,
+      "step": 1350
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 353.109375,
+      "epoch": 0.65966796875,
+      "grad_norm": 2.009394767469386,
+      "kl": 0.0521240234375,
+      "learning_rate": 8.350830078125e-07,
+      "loss": 0.0021,
+      "reward": 1.629963755607605,
+      "reward_std": 0.10920102149248123,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.637776255607605,
+      "step": 1351
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 308.5859375,
+      "epoch": 0.66015625,
+      "grad_norm": 2.3653616861770193,
+      "kl": 0.0565185546875,
+      "learning_rate": 8.349609375e-07,
+      "loss": 0.0023,
+      "reward": 1.7094528079032898,
+      "reward_std": 0.07993777468800545,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7172653079032898,
+      "step": 1352
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 294.7265625,
+      "epoch": 0.66064453125,
+      "grad_norm": 1.03341094245473,
+      "kl": 0.04931640625,
+      "learning_rate": 8.348388671875e-07,
+      "loss": 0.002,
+      "reward": 1.8251619338989258,
+      "reward_std": 0.03396361041814089,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8251619935035706,
+      "step": 1353
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 274.6953125,
+      "epoch": 0.6611328125,
+      "grad_norm": 3.4116771293429715,
+      "kl": 0.06494140625,
+      "learning_rate": 8.347167968749999e-07,
+      "loss": 0.0026,
+      "reward": 1.6079095005989075,
+      "reward_std": 0.1288512572646141,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6157219111919403,
+      "step": 1354
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 429.8203125,
+      "epoch": 0.66162109375,
+      "grad_norm": 1.5812188323632634,
+      "kl": 0.04443359375,
+      "learning_rate": 8.345947265624999e-07,
+      "loss": 0.0018,
+      "reward": 1.760659396648407,
+      "reward_std": 0.10924211144447327,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7684718370437622,
+      "step": 1355
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 392.6015625,
+      "epoch": 0.662109375,
+      "grad_norm": 1.3464559463319818,
+      "kl": 0.0501708984375,
+      "learning_rate": 8.3447265625e-07,
+      "loss": 0.002,
+      "reward": 1.6251134872436523,
+      "reward_std": 0.19322798028588295,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.65636345744133,
+      "step": 1356
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 367.7734375,
+      "epoch": 0.66259765625,
+      "grad_norm": 2.458918621457383,
+      "kl": 0.0506591796875,
+      "learning_rate": 8.343505859375e-07,
+      "loss": 0.002,
+      "reward": 1.6254653930664062,
+      "reward_std": 0.20456621050834656,
+      "rewards/format_reward": 0.90625,
+      "rewards/ocr_reward": 0.719215452671051,
+      "step": 1357
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 262.5625,
+      "epoch": 0.6630859375,
+      "grad_norm": 1.2995869911698037,
+      "kl": 0.0513916015625,
+      "learning_rate": 8.34228515625e-07,
+      "loss": 0.0021,
+      "reward": 1.7724117040634155,
+      "reward_std": 0.05441422015428543,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7724116742610931,
+      "step": 1358
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 375.9765625,
+      "epoch": 0.66357421875,
+      "grad_norm": 3.3800856344759063,
+      "kl": 0.055908203125,
+      "learning_rate": 8.341064453125e-07,
+      "loss": 0.0022,
+      "reward": 1.7442671656608582,
+      "reward_std": 0.14173447713255882,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7677046656608582,
+      "step": 1359
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 342.1484375,
+      "epoch": 0.6640625,
+      "grad_norm": 2.559332784444127,
+      "kl": 0.0445556640625,
+      "learning_rate": 8.339843749999999e-07,
+      "loss": 0.0018,
+      "reward": 1.716669738292694,
+      "reward_std": 0.11901552230119705,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7322947978973389,
+      "step": 1360
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 297.25,
+      "epoch": 0.66455078125,
+      "grad_norm": 1.4593259935506697,
+      "kl": 0.05419921875,
+      "learning_rate": 8.338623046874999e-07,
+      "loss": 0.0022,
+      "reward": 1.7508392333984375,
+      "reward_std": 0.02747677080333233,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7508392930030823,
+      "step": 1361
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 328.84375,
+      "epoch": 0.6650390625,
+      "grad_norm": 1.2002979458589371,
+      "kl": 0.0438232421875,
+      "learning_rate": 8.337402343749999e-07,
+      "loss": 0.0018,
+      "reward": 1.81014883518219,
+      "reward_std": 0.036064352840185165,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8101487755775452,
+      "step": 1362
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 316.1875,
+      "epoch": 0.66552734375,
+      "grad_norm": 2.6295827835981287,
+      "kl": 0.07568359375,
+      "learning_rate": 8.336181640625e-07,
+      "loss": 0.003,
+      "reward": 1.706138789653778,
+      "reward_std": 0.1014098059386015,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7217637896537781,
+      "step": 1363
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 254.4296875,
+      "epoch": 0.666015625,
+      "grad_norm": 3.4631557074514765,
+      "kl": 0.0574951171875,
+      "learning_rate": 8.3349609375e-07,
+      "loss": 0.0023,
+      "reward": 1.6869778037071228,
+      "reward_std": 0.1357739120721817,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6869778335094452,
+      "step": 1364
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 378.296875,
+      "epoch": 0.66650390625,
+      "grad_norm": 1.5320217928751798,
+      "kl": 0.044677734375,
+      "learning_rate": 8.333740234375e-07,
+      "loss": 0.0018,
+      "reward": 1.6233786344528198,
+      "reward_std": 0.08880849182605743,
+      "rewards/format_reward": 0.9453125,
+      "rewards/ocr_reward": 0.6780661046504974,
+      "step": 1365
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 355.3984375,
+      "epoch": 0.6669921875,
+      "grad_norm": 3.0485251313362323,
+      "kl": 0.049072265625,
+      "learning_rate": 8.33251953125e-07,
+      "loss": 0.002,
+      "reward": 1.7159647345542908,
+      "reward_std": 0.04883173480629921,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7159647643566132,
+      "step": 1366
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 395.9375,
+      "epoch": 0.66748046875,
+      "grad_norm": 3.6031654217252314,
+      "kl": 0.0576171875,
+      "learning_rate": 8.331298828124999e-07,
+      "loss": 0.0023,
+      "reward": 1.7141339778900146,
+      "reward_std": 0.1232108511030674,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7297589182853699,
+      "step": 1367
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 302.6484375,
+      "epoch": 0.66796875,
+      "grad_norm": 2.3747920815803014,
+      "kl": 0.0528564453125,
+      "learning_rate": 8.330078124999999e-07,
+      "loss": 0.0021,
+      "reward": 1.63826584815979,
+      "reward_std": 0.07934099994599819,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6460783183574677,
+      "step": 1368
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 340.859375,
+      "epoch": 0.66845703125,
+      "grad_norm": 1.0962500762337954,
+      "kl": 0.05908203125,
+      "learning_rate": 8.328857421875e-07,
+      "loss": 0.0024,
+      "reward": 1.6661372780799866,
+      "reward_std": 0.14820329658687115,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.697387307882309,
+      "step": 1369
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 339.5078125,
+      "epoch": 0.6689453125,
+      "grad_norm": 12.019208496709846,
+      "kl": 0.053466796875,
+      "learning_rate": 8.32763671875e-07,
+      "loss": 0.0021,
+      "reward": 1.6565269231796265,
+      "reward_std": 0.11510607227683067,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6721519827842712,
+      "step": 1370
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 354.03125,
+      "epoch": 0.66943359375,
+      "grad_norm": 4.559375150848394,
+      "kl": 0.0618896484375,
+      "learning_rate": 8.326416015625e-07,
+      "loss": 0.0025,
+      "reward": 1.6015617847442627,
+      "reward_std": 0.11551137268543243,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.6249993145465851,
+      "step": 1371
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 294.6328125,
+      "epoch": 0.669921875,
+      "grad_norm": 1.3152796356639234,
+      "kl": 0.0606689453125,
+      "learning_rate": 8.3251953125e-07,
+      "loss": 0.0024,
+      "reward": 1.7060803174972534,
+      "reward_std": 0.08381591830402613,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7217053174972534,
+      "step": 1372
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 263.1796875,
+      "epoch": 0.67041015625,
+      "grad_norm": 2.0534328187220456,
+      "kl": 0.0609130859375,
+      "learning_rate": 8.323974609374999e-07,
+      "loss": 0.0024,
+      "reward": 1.726146936416626,
+      "reward_std": 0.033384598791599274,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.726146936416626,
+      "step": 1373
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 295.5078125,
+      "epoch": 0.6708984375,
+      "grad_norm": 0.6956670519280784,
+      "kl": 0.0565185546875,
+      "learning_rate": 8.322753906249999e-07,
+      "loss": 0.0023,
+      "reward": 1.674700915813446,
+      "reward_std": 0.08457869663834572,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.698138415813446,
+      "step": 1374
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 276.4375,
+      "epoch": 0.67138671875,
+      "grad_norm": 1.8185143553728975,
+      "kl": 0.0467529296875,
+      "learning_rate": 8.321533203124999e-07,
+      "loss": 0.0019,
+      "reward": 1.8650157451629639,
+      "reward_std": 0.054776063188910484,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8650156855583191,
+      "step": 1375
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 353.65625,
+      "epoch": 0.671875,
+      "grad_norm": 0.7337982459358227,
+      "kl": 0.03857421875,
+      "learning_rate": 8.3203125e-07,
+      "loss": 0.0015,
+      "reward": 1.7965154647827148,
+      "reward_std": 0.038863107562065125,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7965154945850372,
+      "step": 1376
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 287.0,
+      "epoch": 0.67236328125,
+      "grad_norm": 0.940234983069783,
+      "kl": 0.0484619140625,
+      "learning_rate": 8.319091796875e-07,
+      "loss": 0.0019,
+      "reward": 1.7178753018379211,
+      "reward_std": 0.03893340937793255,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7178753018379211,
+      "step": 1377
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 348.5625,
+      "epoch": 0.6728515625,
+      "grad_norm": 3.0895577377191903,
+      "kl": 0.0479736328125,
+      "learning_rate": 8.31787109375e-07,
+      "loss": 0.0019,
+      "reward": 1.6909393668174744,
+      "reward_std": 0.03531087189912796,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6909393668174744,
+      "step": 1378
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 293.78125,
+      "epoch": 0.67333984375,
+      "grad_norm": 5.314939113631747,
+      "kl": 0.0555419921875,
+      "learning_rate": 8.316650390625e-07,
+      "loss": 0.0022,
+      "reward": 1.8328039646148682,
+      "reward_std": 0.18444261699914932,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8406165242195129,
+      "step": 1379
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 294.2578125,
+      "epoch": 0.673828125,
+      "grad_norm": 2.773926019270338,
+      "kl": 0.0574951171875,
+      "learning_rate": 8.315429687499999e-07,
+      "loss": 0.0023,
+      "reward": 1.754637897014618,
+      "reward_std": 0.07902231067419052,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7546378672122955,
+      "step": 1380
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 268.3125,
+      "epoch": 0.67431640625,
+      "grad_norm": 2.5991565514669133,
+      "kl": 0.05126953125,
+      "learning_rate": 8.314208984374999e-07,
+      "loss": 0.002,
+      "reward": 1.697754681110382,
+      "reward_std": 0.10455015674233437,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7055672109127045,
+      "step": 1381
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 268.9609375,
+      "epoch": 0.6748046875,
+      "grad_norm": 1.523278355501712,
+      "kl": 0.0596923828125,
+      "learning_rate": 8.31298828125e-07,
+      "loss": 0.0024,
+      "reward": 1.7877840995788574,
+      "reward_std": 0.10126758366823196,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7877840399742126,
+      "step": 1382
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 265.90625,
+      "epoch": 0.67529296875,
+      "grad_norm": 1.7215147395484285,
+      "kl": 0.0465087890625,
+      "learning_rate": 8.311767578125e-07,
+      "loss": 0.0019,
+      "reward": 1.7264689207077026,
+      "reward_std": 0.0403452143073082,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.726468950510025,
+      "step": 1383
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 356.3125,
+      "epoch": 0.67578125,
+      "grad_norm": 8.257297851754577,
+      "kl": 0.054931640625,
+      "learning_rate": 8.310546875e-07,
+      "loss": 0.0022,
+      "reward": 1.7433820962905884,
+      "reward_std": 0.18031665682792664,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.774632066488266,
+      "step": 1384
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 375.0859375,
+      "epoch": 0.67626953125,
+      "grad_norm": 1.0654545701165232,
+      "kl": 0.0400390625,
+      "learning_rate": 8.309326171875e-07,
+      "loss": 0.0016,
+      "reward": 1.7454291582107544,
+      "reward_std": 0.0993618592619896,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7610541582107544,
+      "step": 1385
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 411.7109375,
+      "epoch": 0.6767578125,
+      "grad_norm": 1.040028404639345,
+      "kl": 0.0380859375,
+      "learning_rate": 8.308105468749999e-07,
+      "loss": 0.0015,
+      "reward": 1.760416865348816,
+      "reward_std": 0.0644846223294735,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7604168355464935,
+      "step": 1386
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 258.84375,
+      "epoch": 0.67724609375,
+      "grad_norm": 3.9520714635227354,
+      "kl": 0.05078125,
+      "learning_rate": 8.306884765624999e-07,
+      "loss": 0.002,
+      "reward": 1.7678569555282593,
+      "reward_std": 0.04989023134112358,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.767857015132904,
+      "step": 1387
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 315.5703125,
+      "epoch": 0.677734375,
+      "grad_norm": 2.9876370676551103,
+      "kl": 0.0631103515625,
+      "learning_rate": 8.305664062499999e-07,
+      "loss": 0.0025,
+      "reward": 1.741922914981842,
+      "reward_std": 0.04209707863628864,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.741922914981842,
+      "step": 1388
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 322.703125,
+      "epoch": 0.67822265625,
+      "grad_norm": 2.5716646270109456,
+      "kl": 0.0513916015625,
+      "learning_rate": 8.304443359375e-07,
+      "loss": 0.0021,
+      "reward": 1.6752015352249146,
+      "reward_std": 0.0383878406137228,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6752015054225922,
+      "step": 1389
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 342.4609375,
+      "epoch": 0.6787109375,
+      "grad_norm": 3.5362926281368234,
+      "kl": 0.046142578125,
+      "learning_rate": 8.30322265625e-07,
+      "loss": 0.0018,
+      "reward": 1.8196292519569397,
+      "reward_std": 0.11842495948076248,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8274418413639069,
+      "step": 1390
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 340.296875,
+      "epoch": 0.67919921875,
+      "grad_norm": 1.7884111867788441,
+      "kl": 0.050537109375,
+      "learning_rate": 8.302001953125e-07,
+      "loss": 0.002,
+      "reward": 1.6618223786354065,
+      "reward_std": 0.07712319865822792,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6618224382400513,
+      "step": 1391
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 325.703125,
+      "epoch": 0.6796875,
+      "grad_norm": 2.6027744639630392,
+      "kl": 0.0611572265625,
+      "learning_rate": 8.30078125e-07,
+      "loss": 0.0024,
+      "reward": 1.5982427597045898,
+      "reward_std": 0.08532186597585678,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.5982428193092346,
+      "step": 1392
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 320.203125,
+      "epoch": 0.68017578125,
+      "grad_norm": 5.619667205772122,
+      "kl": 0.0548095703125,
+      "learning_rate": 8.299560546874999e-07,
+      "loss": 0.0022,
+      "reward": 1.825063407421112,
+      "reward_std": 0.07088461332023144,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8328758478164673,
+      "step": 1393
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 302.09375,
+      "epoch": 0.6806640625,
+      "grad_norm": 4.094562358242973,
+      "kl": 0.0579833984375,
+      "learning_rate": 8.298339843749999e-07,
+      "loss": 0.0023,
+      "reward": 1.619062602519989,
+      "reward_std": 0.0742390900850296,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.619062602519989,
+      "step": 1394
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 230.1875,
+      "epoch": 0.68115234375,
+      "grad_norm": 1.3270748091394964,
+      "kl": 0.05126953125,
+      "learning_rate": 8.297119140625e-07,
+      "loss": 0.0021,
+      "reward": 1.7332074046134949,
+      "reward_std": 0.08660921268165112,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7488323748111725,
+      "step": 1395
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 257.9765625,
+      "epoch": 0.681640625,
+      "grad_norm": 2.4733721239899285,
+      "kl": 0.064453125,
+      "learning_rate": 8.2958984375e-07,
+      "loss": 0.0026,
+      "reward": 1.7022396922111511,
+      "reward_std": 0.07674708962440491,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7022397220134735,
+      "step": 1396
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 351.8203125,
+      "epoch": 0.68212890625,
+      "grad_norm": 11.678019935504977,
+      "kl": 0.0526123046875,
+      "learning_rate": 8.294677734375e-07,
+      "loss": 0.0021,
+      "reward": 1.7020042538642883,
+      "reward_std": 0.0902528464794159,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7020042836666107,
+      "step": 1397
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 369.46875,
+      "epoch": 0.6826171875,
+      "grad_norm": 1.9958555775047342,
+      "kl": 0.0479736328125,
+      "learning_rate": 8.29345703125e-07,
+      "loss": 0.0019,
+      "reward": 1.612401008605957,
+      "reward_std": 0.11361010372638702,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6280259191989899,
+      "step": 1398
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 192.4609375,
+      "epoch": 0.68310546875,
+      "grad_norm": 5.611286013828831,
+      "kl": 0.067626953125,
+      "learning_rate": 8.292236328124999e-07,
+      "loss": 0.0027,
+      "reward": 1.6931315064430237,
+      "reward_std": 0.0486298855394125,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6931315362453461,
+      "step": 1399
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 284.75,
+      "epoch": 0.68359375,
+      "grad_norm": 64.51783733112462,
+      "kl": 0.068115234375,
+      "learning_rate": 8.291015624999999e-07,
+      "loss": 0.0027,
+      "reward": 1.7985500693321228,
+      "reward_std": 0.1456453576683998,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.8219876885414124,
+      "step": 1400
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 325.5625,
+      "epoch": 0.68408203125,
+      "grad_norm": 1.4134996928177288,
+      "kl": 0.0511474609375,
+      "learning_rate": 8.289794921874999e-07,
+      "loss": 0.002,
+      "reward": 1.7496825456619263,
+      "reward_std": 0.063983004540205,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7574950754642487,
+      "step": 1401
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 334.15625,
+      "epoch": 0.6845703125,
+      "grad_norm": 2.2409064158617453,
+      "kl": 0.0560302734375,
+      "learning_rate": 8.28857421875e-07,
+      "loss": 0.0022,
+      "reward": 1.5890800952911377,
+      "reward_std": 0.07782717980444431,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.5968926250934601,
+      "step": 1402
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 363.0078125,
+      "epoch": 0.68505859375,
+      "grad_norm": 1.0794027539847428,
+      "kl": 0.0517578125,
+      "learning_rate": 8.287353515625e-07,
+      "loss": 0.0021,
+      "reward": 1.7144798636436462,
+      "reward_std": 0.08601437509059906,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7144798934459686,
+      "step": 1403
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 279.0546875,
+      "epoch": 0.685546875,
+      "grad_norm": 3.5803094144613534,
+      "kl": 0.06982421875,
+      "learning_rate": 8.2861328125e-07,
+      "loss": 0.0028,
+      "reward": 1.7153080701828003,
+      "reward_std": 0.12694889307022095,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7231204807758331,
+      "step": 1404
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 264.25,
+      "epoch": 0.68603515625,
+      "grad_norm": 2.24836561629631,
+      "kl": 0.07275390625,
+      "learning_rate": 8.284912109375e-07,
+      "loss": 0.0029,
+      "reward": 1.707879662513733,
+      "reward_std": 0.07356316037476063,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7078795731067657,
+      "step": 1405
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 305.0625,
+      "epoch": 0.6865234375,
+      "grad_norm": 5.0710615285595075,
+      "kl": 0.0543212890625,
+      "learning_rate": 8.283691406249999e-07,
+      "loss": 0.0022,
+      "reward": 1.8069834113121033,
+      "reward_std": 0.08053146488964558,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8069833815097809,
+      "step": 1406
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 313.1484375,
+      "epoch": 0.68701171875,
+      "grad_norm": 1.4195625786352468,
+      "kl": 0.0478515625,
+      "learning_rate": 8.282470703124999e-07,
+      "loss": 0.0019,
+      "reward": 1.8579445481300354,
+      "reward_std": 0.06742975115776062,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8657570779323578,
+      "step": 1407
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 277.71875,
+      "epoch": 0.6875,
+      "grad_norm": 1.2744757065801622,
+      "kl": 0.049560546875,
+      "learning_rate": 8.28125e-07,
+      "loss": 0.002,
+      "reward": 1.8057802319526672,
+      "reward_std": 0.11631088703870773,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.8214052319526672,
+      "step": 1408
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 304.703125,
+      "epoch": 0.68798828125,
+      "grad_norm": 1.8422456478028055,
+      "kl": 0.064697265625,
+      "learning_rate": 8.280029296875e-07,
+      "loss": 0.0026,
+      "reward": 1.7374829053878784,
+      "reward_std": 0.10645648092031479,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7452954351902008,
+      "step": 1409
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 238.625,
+      "epoch": 0.6884765625,
+      "grad_norm": 1.4604901987015795,
+      "kl": 0.0531005859375,
+      "learning_rate": 8.27880859375e-07,
+      "loss": 0.0021,
+      "reward": 1.8335306644439697,
+      "reward_std": 0.03559792507439852,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8335305750370026,
+      "step": 1410
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 341.5625,
+      "epoch": 0.68896484375,
+      "grad_norm": 2.0010636772477475,
+      "kl": 0.0567626953125,
+      "learning_rate": 8.277587890625e-07,
+      "loss": 0.0023,
+      "reward": 1.7226684093475342,
+      "reward_std": 0.0325869033113122,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7226683795452118,
+      "step": 1411
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 352.5390625,
+      "epoch": 0.689453125,
+      "grad_norm": 4.139675114890247,
+      "kl": 0.0548095703125,
+      "learning_rate": 8.2763671875e-07,
+      "loss": 0.0022,
+      "reward": 1.688076138496399,
+      "reward_std": 0.09778516367077827,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6880761086940765,
+      "step": 1412
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 310.7890625,
+      "epoch": 0.68994140625,
+      "grad_norm": 1.0825288165225206,
+      "kl": 0.0504150390625,
+      "learning_rate": 8.275146484374999e-07,
+      "loss": 0.002,
+      "reward": 1.7078955173492432,
+      "reward_std": 0.10900576412677765,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7235205173492432,
+      "step": 1413
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 339.7421875,
+      "epoch": 0.6904296875,
+      "grad_norm": 1.048683826956388,
+      "kl": 0.0548095703125,
+      "learning_rate": 8.273925781249999e-07,
+      "loss": 0.0022,
+      "reward": 1.711770236492157,
+      "reward_std": 0.14532910659909248,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.743020236492157,
+      "step": 1414
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 210.6796875,
+      "epoch": 0.69091796875,
+      "grad_norm": 3.6499422191186257,
+      "kl": 0.079833984375,
+      "learning_rate": 8.272705078125e-07,
+      "loss": 0.0032,
+      "reward": 1.7406352758407593,
+      "reward_std": 0.07238475233316422,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7406352758407593,
+      "step": 1415
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 240.4765625,
+      "epoch": 0.69140625,
+      "grad_norm": 6.765975646442193,
+      "kl": 0.057373046875,
+      "learning_rate": 8.271484375e-07,
+      "loss": 0.0023,
+      "reward": 1.7682831287384033,
+      "reward_std": 0.06250830553472042,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7682830989360809,
+      "step": 1416
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 261.4921875,
+      "epoch": 0.69189453125,
+      "grad_norm": 2.9978780027516225,
+      "kl": 0.06787109375,
+      "learning_rate": 8.270263671875e-07,
+      "loss": 0.0027,
+      "reward": 1.7275251150131226,
+      "reward_std": 0.03290243726223707,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7275251746177673,
+      "step": 1417
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 310.8671875,
+      "epoch": 0.6923828125,
+      "grad_norm": 0.9989255723691591,
+      "kl": 0.0592041015625,
+      "learning_rate": 8.26904296875e-07,
+      "loss": 0.0024,
+      "reward": 1.6132749319076538,
+      "reward_std": 0.14219776540994644,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.6523374617099762,
+      "step": 1418
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 393.25,
+      "epoch": 0.69287109375,
+      "grad_norm": 1.733952595360354,
+      "kl": 0.0599365234375,
+      "learning_rate": 8.267822265624999e-07,
+      "loss": 0.0024,
+      "reward": 1.529246211051941,
+      "reward_std": 0.21004829555749893,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.5683087408542633,
+      "step": 1419
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 363.4140625,
+      "epoch": 0.693359375,
+      "grad_norm": 1.4642430835196691,
+      "kl": 0.06689453125,
+      "learning_rate": 8.266601562499999e-07,
+      "loss": 0.0027,
+      "reward": 1.7179248332977295,
+      "reward_std": 0.07703246548771858,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7179248332977295,
+      "step": 1420
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 301.890625,
+      "epoch": 0.69384765625,
+      "grad_norm": 0.9887674725498403,
+      "kl": 0.0482177734375,
+      "learning_rate": 8.265380859375e-07,
+      "loss": 0.0019,
+      "reward": 1.8166847229003906,
+      "reward_std": 0.1480160653591156,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.8323096930980682,
+      "step": 1421
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 319.015625,
+      "epoch": 0.6943359375,
+      "grad_norm": 2.2480619414400524,
+      "kl": 0.06787109375,
+      "learning_rate": 8.26416015625e-07,
+      "loss": 0.0027,
+      "reward": 1.640427827835083,
+      "reward_std": 0.15429722517728806,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6560528576374054,
+      "step": 1422
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 321.796875,
+      "epoch": 0.69482421875,
+      "grad_norm": 1.6615444011731868,
+      "kl": 0.0548095703125,
+      "learning_rate": 8.262939453125e-07,
+      "loss": 0.0022,
+      "reward": 1.8311384916305542,
+      "reward_std": 0.08753996156156063,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8389509916305542,
+      "step": 1423
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 303.15625,
+      "epoch": 0.6953125,
+      "grad_norm": 1.3951149530350935,
+      "kl": 0.0712890625,
+      "learning_rate": 8.26171875e-07,
+      "loss": 0.0028,
+      "reward": 1.7672319412231445,
+      "reward_std": 0.1136610172688961,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7672319114208221,
+      "step": 1424
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 340.6796875,
+      "epoch": 0.69580078125,
+      "grad_norm": 1.1270021475821117,
+      "kl": 0.043212890625,
+      "learning_rate": 8.260498046875e-07,
+      "loss": 0.0017,
+      "reward": 1.7945731282234192,
+      "reward_std": 0.10133310779929161,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.8180106282234192,
+      "step": 1425
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 252.3515625,
+      "epoch": 0.6962890625,
+      "grad_norm": 1.0404208747858652,
+      "kl": 0.0528564453125,
+      "learning_rate": 8.259277343749999e-07,
+      "loss": 0.0021,
+      "reward": 1.8590461611747742,
+      "reward_std": 0.06993057578802109,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8590461909770966,
+      "step": 1426
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 350.4140625,
+      "epoch": 0.69677734375,
+      "grad_norm": 1.5437058523157996,
+      "kl": 0.0621337890625,
+      "learning_rate": 8.258056640624999e-07,
+      "loss": 0.0025,
+      "reward": 1.622244954109192,
+      "reward_std": 0.10384193528443575,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6378699541091919,
+      "step": 1427
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 272.0859375,
+      "epoch": 0.697265625,
+      "grad_norm": 1.7190179987884586,
+      "kl": 0.0633544921875,
+      "learning_rate": 8.2568359375e-07,
+      "loss": 0.0025,
+      "reward": 1.7580605745315552,
+      "reward_std": 0.05973019078373909,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7580606043338776,
+      "step": 1428
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 294.4296875,
+      "epoch": 0.69775390625,
+      "grad_norm": 1.6679202767670824,
+      "kl": 0.053955078125,
+      "learning_rate": 8.255615234375e-07,
+      "loss": 0.0022,
+      "reward": 1.8018113374710083,
+      "reward_std": 0.049905733205378056,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8018112778663635,
+      "step": 1429
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 349.078125,
+      "epoch": 0.6982421875,
+      "grad_norm": 1.2612943936774128,
+      "kl": 0.0543212890625,
+      "learning_rate": 8.25439453125e-07,
+      "loss": 0.0022,
+      "reward": 1.7309202551841736,
+      "reward_std": 0.09569451212882996,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7387327551841736,
+      "step": 1430
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 279.1875,
+      "epoch": 0.69873046875,
+      "grad_norm": 1.6270467995733127,
+      "kl": 0.06689453125,
+      "learning_rate": 8.253173828125e-07,
+      "loss": 0.0027,
+      "reward": 1.8153039813041687,
+      "reward_std": 0.0769112091511488,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.8309289515018463,
+      "step": 1431
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 238.2265625,
+      "epoch": 0.69921875,
+      "grad_norm": 3.113671634396718,
+      "kl": 0.05908203125,
+      "learning_rate": 8.251953124999999e-07,
+      "loss": 0.0024,
+      "reward": 1.7506902813911438,
+      "reward_std": 0.05832826718688011,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7506902813911438,
+      "step": 1432
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 263.28125,
+      "epoch": 0.69970703125,
+      "grad_norm": 1.5482948608367026,
+      "kl": 0.052490234375,
+      "learning_rate": 8.250732421874999e-07,
+      "loss": 0.0021,
+      "reward": 1.7495105266571045,
+      "reward_std": 0.047743687871843576,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7495104968547821,
+      "step": 1433
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 337.703125,
+      "epoch": 0.7001953125,
+      "grad_norm": 3.575458871440732,
+      "kl": 0.0628662109375,
+      "learning_rate": 8.24951171875e-07,
+      "loss": 0.0025,
+      "reward": 1.7153109312057495,
+      "reward_std": 0.10487351939082146,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7231234312057495,
+      "step": 1434
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 306.1015625,
+      "epoch": 0.70068359375,
+      "grad_norm": 0.9120133104435602,
+      "kl": 0.05419921875,
+      "learning_rate": 8.248291015625e-07,
+      "loss": 0.0022,
+      "reward": 1.70259028673172,
+      "reward_std": 0.0484690060839057,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.70259028673172,
+      "step": 1435
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 253.8828125,
+      "epoch": 0.701171875,
+      "grad_norm": 2.4781810496741126,
+      "kl": 0.0616455078125,
+      "learning_rate": 8.2470703125e-07,
+      "loss": 0.0025,
+      "reward": 1.8051986694335938,
+      "reward_std": 0.05168750695884228,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8051986396312714,
+      "step": 1436
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 251.0234375,
+      "epoch": 0.70166015625,
+      "grad_norm": 1.959151036800492,
+      "kl": 0.0552978515625,
+      "learning_rate": 8.245849609375e-07,
+      "loss": 0.0022,
+      "reward": 1.7046823501586914,
+      "reward_std": 0.07530912198126316,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.704682320356369,
+      "step": 1437
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 267.8671875,
+      "epoch": 0.7021484375,
+      "grad_norm": 1.1853692300427936,
+      "kl": 0.0565185546875,
+      "learning_rate": 8.24462890625e-07,
+      "loss": 0.0023,
+      "reward": 1.7881206274032593,
+      "reward_std": 0.07596137002110481,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7959331572055817,
+      "step": 1438
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 258.453125,
+      "epoch": 0.70263671875,
+      "grad_norm": 8.816391483092268,
+      "kl": 0.4215087890625,
+      "learning_rate": 8.243408203124999e-07,
+      "loss": 0.0169,
+      "reward": 1.803566336631775,
+      "reward_std": 0.08476324006915092,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8113788068294525,
+      "step": 1439
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 203.2578125,
+      "epoch": 0.703125,
+      "grad_norm": 3.150118996033216,
+      "kl": 0.079345703125,
+      "learning_rate": 8.242187499999999e-07,
+      "loss": 0.0032,
+      "reward": 1.65059894323349,
+      "reward_std": 0.1842002421617508,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.65059894323349,
+      "step": 1440
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 300.8125,
+      "epoch": 0.70361328125,
+      "grad_norm": 1.8365019943222014,
+      "kl": 0.047119140625,
+      "learning_rate": 8.240966796875e-07,
+      "loss": 0.0019,
+      "reward": 1.7905904650688171,
+      "reward_std": 0.026320545002818108,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7905905246734619,
+      "step": 1441
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 273.65625,
+      "epoch": 0.7041015625,
+      "grad_norm": 10.324751382988245,
+      "kl": 0.0635986328125,
+      "learning_rate": 8.23974609375e-07,
+      "loss": 0.0025,
+      "reward": 1.636955440044403,
+      "reward_std": 0.16419149935245514,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6447679400444031,
+      "step": 1442
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 272.6953125,
+      "epoch": 0.70458984375,
+      "grad_norm": 1.5794799873389354,
+      "kl": 0.0592041015625,
+      "learning_rate": 8.238525390625e-07,
+      "loss": 0.0024,
+      "reward": 1.7604875564575195,
+      "reward_std": 0.09106075949966908,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7604875266551971,
+      "step": 1443
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 304.96875,
+      "epoch": 0.705078125,
+      "grad_norm": 1.7122619531111243,
+      "kl": 0.049560546875,
+      "learning_rate": 8.2373046875e-07,
+      "loss": 0.002,
+      "reward": 1.7385912537574768,
+      "reward_std": 0.15688905864953995,
+      "rewards/format_reward": 0.9453125,
+      "rewards/ocr_reward": 0.7932787239551544,
+      "step": 1444
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 250.359375,
+      "epoch": 0.70556640625,
+      "grad_norm": 4.933104035300985,
+      "kl": 0.0655517578125,
+      "learning_rate": 8.236083984374999e-07,
+      "loss": 0.0026,
+      "reward": 1.6635677814483643,
+      "reward_std": 0.3314622938632965,
+      "rewards/format_reward": 0.859375,
+      "rewards/ocr_reward": 0.8041927814483643,
+      "step": 1445
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 344.765625,
+      "epoch": 0.7060546875,
+      "grad_norm": 7.123204221199448,
+      "kl": 0.0577392578125,
+      "learning_rate": 8.234863281249999e-07,
+      "loss": 0.0023,
+      "reward": 1.5581657886505127,
+      "reward_std": 0.23571809381246567,
+      "rewards/format_reward": 0.8828125,
+      "rewards/ocr_reward": 0.6753532588481903,
+      "step": 1446
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 349.203125,
+      "epoch": 0.70654296875,
+      "grad_norm": 1.701577139579483,
+      "kl": 0.052490234375,
+      "learning_rate": 8.233642578125e-07,
+      "loss": 0.0021,
+      "reward": 1.5181033611297607,
+      "reward_std": 0.24801450222730637,
+      "rewards/format_reward": 0.90625,
+      "rewards/ocr_reward": 0.6118534803390503,
+      "step": 1447
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 324.609375,
+      "epoch": 0.70703125,
+      "grad_norm": 1.7700024228747016,
+      "kl": 0.0506591796875,
+      "learning_rate": 8.232421875e-07,
+      "loss": 0.002,
+      "reward": 1.7385361194610596,
+      "reward_std": 0.1337948441505432,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.7775986790657043,
+      "step": 1448
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 342.0859375,
+      "epoch": 0.70751953125,
+      "grad_norm": 0.9369244908723074,
+      "kl": 0.0423583984375,
+      "learning_rate": 8.231201171875e-07,
+      "loss": 0.0017,
+      "reward": 1.7505207657814026,
+      "reward_std": 0.17919845134019852,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7739582657814026,
+      "step": 1449
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 315.28125,
+      "epoch": 0.7080078125,
+      "grad_norm": 1.7043675709930337,
+      "kl": 0.0504150390625,
+      "learning_rate": 8.22998046875e-07,
+      "loss": 0.002,
+      "reward": 1.778750240802765,
+      "reward_std": 0.11969216167926788,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7865626811981201,
+      "step": 1450
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 303.0234375,
+      "epoch": 0.70849609375,
+      "grad_norm": 3.7096740843912497,
+      "kl": 0.075439453125,
+      "learning_rate": 8.228759765625e-07,
+      "loss": 0.003,
+      "reward": 1.6811388731002808,
+      "reward_std": 0.16221491992473602,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.7123888731002808,
+      "step": 1451
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 355.7890625,
+      "epoch": 0.708984375,
+      "grad_norm": 1.1016182213271797,
+      "kl": 0.0509033203125,
+      "learning_rate": 8.227539062499999e-07,
+      "loss": 0.002,
+      "reward": 1.730841338634491,
+      "reward_std": 0.043069666251540184,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7308413684368134,
+      "step": 1452
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 280.8046875,
+      "epoch": 0.70947265625,
+      "grad_norm": 4.52514586838674,
+      "kl": 0.0596923828125,
+      "learning_rate": 8.226318359374999e-07,
+      "loss": 0.0024,
+      "reward": 1.6379446983337402,
+      "reward_std": 0.09933317825198174,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6379446387290955,
+      "step": 1453
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 340.078125,
+      "epoch": 0.7099609375,
+      "grad_norm": 1.5113110300717163,
+      "kl": 0.0423583984375,
+      "learning_rate": 8.22509765625e-07,
+      "loss": 0.0017,
+      "reward": 1.743843913078308,
+      "reward_std": 0.09296439960598946,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.7750938832759857,
+      "step": 1454
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 301.2890625,
+      "epoch": 0.71044921875,
+      "grad_norm": 2.5506627271636586,
+      "kl": 0.0540771484375,
+      "learning_rate": 8.223876953125e-07,
+      "loss": 0.0022,
+      "reward": 1.8323869109153748,
+      "reward_std": 0.10052505135536194,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8401993811130524,
+      "step": 1455
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 365.2421875,
+      "epoch": 0.7109375,
+      "grad_norm": 3.1270600079448694,
+      "kl": 0.0478515625,
+      "learning_rate": 8.22265625e-07,
+      "loss": 0.0019,
+      "reward": 1.7445816397666931,
+      "reward_std": 0.09944414719939232,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7680192291736603,
+      "step": 1456
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 317.7578125,
+      "epoch": 0.71142578125,
+      "grad_norm": 2.430403544666908,
+      "kl": 0.0513916015625,
+      "learning_rate": 8.221435546875e-07,
+      "loss": 0.0021,
+      "reward": 1.7487914562225342,
+      "reward_std": 0.07037571631371975,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7487914264202118,
+      "step": 1457
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 423.875,
+      "epoch": 0.7119140625,
+      "grad_norm": 2.5085519820373166,
+      "kl": 0.0556640625,
+      "learning_rate": 8.220214843749999e-07,
+      "loss": 0.0022,
+      "reward": 1.7057527303695679,
+      "reward_std": 0.13188474997878075,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7291902005672455,
+      "step": 1458
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 308.3515625,
+      "epoch": 0.71240234375,
+      "grad_norm": 2.925211143069262,
+      "kl": 0.0548095703125,
+      "learning_rate": 8.218994140624999e-07,
+      "loss": 0.0022,
+      "reward": 1.6985459327697754,
+      "reward_std": 0.09991316497325897,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7063583731651306,
+      "step": 1459
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 365.0703125,
+      "epoch": 0.712890625,
+      "grad_norm": 0.8890589616956593,
+      "kl": 0.0518798828125,
+      "learning_rate": 8.217773437499999e-07,
+      "loss": 0.0021,
+      "reward": 1.8091995120048523,
+      "reward_std": 0.03047786932438612,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8091995716094971,
+      "step": 1460
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 416.828125,
+      "epoch": 0.71337890625,
+      "grad_norm": 19.189378131745773,
+      "kl": 0.055419921875,
+      "learning_rate": 8.216552734375e-07,
+      "loss": 0.0022,
+      "reward": 1.7730653285980225,
+      "reward_std": 0.07386335171759129,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7808778285980225,
+      "step": 1461
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 349.3046875,
+      "epoch": 0.7138671875,
+      "grad_norm": 2.5112538884341795,
+      "kl": 0.051025390625,
+      "learning_rate": 8.21533203125e-07,
+      "loss": 0.002,
+      "reward": 1.7594855427742004,
+      "reward_std": 0.0999723095446825,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7751105725765228,
+      "step": 1462
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 431.09375,
+      "epoch": 0.71435546875,
+      "grad_norm": 1.8674018464220214,
+      "kl": 0.0516357421875,
+      "learning_rate": 8.214111328125e-07,
+      "loss": 0.0021,
+      "reward": 1.768634557723999,
+      "reward_std": 0.15559392422437668,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7842595875263214,
+      "step": 1463
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 337.4921875,
+      "epoch": 0.71484375,
+      "grad_norm": 3.647003211757384,
+      "kl": 0.05517578125,
+      "learning_rate": 8.212890625e-07,
+      "loss": 0.0022,
+      "reward": 1.6912202835083008,
+      "reward_std": 0.10662208870053291,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6912202537059784,
+      "step": 1464
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 364.1953125,
+      "epoch": 0.71533203125,
+      "grad_norm": 1.9989805075274047,
+      "kl": 0.0462646484375,
+      "learning_rate": 8.211669921874999e-07,
+      "loss": 0.0019,
+      "reward": 1.8012118935585022,
+      "reward_std": 0.04404502548277378,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8012118637561798,
+      "step": 1465
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 277.46875,
+      "epoch": 0.7158203125,
+      "grad_norm": 1.920187943953283,
+      "kl": 0.066650390625,
+      "learning_rate": 8.210449218749999e-07,
+      "loss": 0.0027,
+      "reward": 1.689796507358551,
+      "reward_std": 0.08326592482626438,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6897964179515839,
+      "step": 1466
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 235.328125,
+      "epoch": 0.71630859375,
+      "grad_norm": 1.177187426188002,
+      "kl": 0.0546875,
+      "learning_rate": 8.209228515625e-07,
+      "loss": 0.0022,
+      "reward": 1.8154129385948181,
+      "reward_std": 0.05495606176555157,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8154129683971405,
+      "step": 1467
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 379.4296875,
+      "epoch": 0.716796875,
+      "grad_norm": 2.430884718722628,
+      "kl": 0.0477294921875,
+      "learning_rate": 8.2080078125e-07,
+      "loss": 0.0019,
+      "reward": 1.6982349157333374,
+      "reward_std": 0.1398230344057083,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7138599455356598,
+      "step": 1468
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 465.640625,
+      "epoch": 0.71728515625,
+      "grad_norm": 17.02941879508463,
+      "kl": 0.0479736328125,
+      "learning_rate": 8.206787109375e-07,
+      "loss": 0.0019,
+      "reward": 1.6150004267692566,
+      "reward_std": 0.21229281276464462,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.6618753671646118,
+      "step": 1469
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 371.484375,
+      "epoch": 0.7177734375,
+      "grad_norm": 2.690446110295151,
+      "kl": 0.052490234375,
+      "learning_rate": 8.20556640625e-07,
+      "loss": 0.0021,
+      "reward": 1.6503348350524902,
+      "reward_std": 0.1022627055644989,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6581473350524902,
+      "step": 1470
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 353.4375,
+      "epoch": 0.71826171875,
+      "grad_norm": 1.031554242337561,
+      "kl": 0.052001953125,
+      "learning_rate": 8.204345703124999e-07,
+      "loss": 0.0021,
+      "reward": 1.7112751603126526,
+      "reward_std": 0.13028262928128242,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7347126603126526,
+      "step": 1471
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 281.0234375,
+      "epoch": 0.71875,
+      "grad_norm": 2.5851949705933013,
+      "kl": 0.062744140625,
+      "learning_rate": 8.203124999999999e-07,
+      "loss": 0.0025,
+      "reward": 1.6422898769378662,
+      "reward_std": 0.12438905239105225,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6501024663448334,
+      "step": 1472
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 354.234375,
+      "epoch": 0.71923828125,
+      "grad_norm": 6.193724547415232,
+      "kl": 0.078125,
+      "learning_rate": 8.201904296874999e-07,
+      "loss": 0.0031,
+      "reward": 1.8023394346237183,
+      "reward_std": 0.09207788482308388,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8023395538330078,
+      "step": 1473
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 303.5625,
+      "epoch": 0.7197265625,
+      "grad_norm": 1.2219439151470035,
+      "kl": 0.0506591796875,
+      "learning_rate": 8.20068359375e-07,
+      "loss": 0.002,
+      "reward": 1.777301549911499,
+      "reward_std": 0.04901622235774994,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.785114049911499,
+      "step": 1474
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 261.9140625,
+      "epoch": 0.72021484375,
+      "grad_norm": 2.927095284762868,
+      "kl": 0.0487060546875,
+      "learning_rate": 8.199462890625e-07,
+      "loss": 0.0019,
+      "reward": 1.715105950832367,
+      "reward_std": 0.12777616456151009,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7229184210300446,
+      "step": 1475
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 353.546875,
+      "epoch": 0.720703125,
+      "grad_norm": 3.516281392962193,
+      "kl": 0.0496826171875,
+      "learning_rate": 8.1982421875e-07,
+      "loss": 0.002,
+      "reward": 1.6445563435554504,
+      "reward_std": 0.1418607532978058,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6601813733577728,
+      "step": 1476
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 334.234375,
+      "epoch": 0.72119140625,
+      "grad_norm": 1.3865604707622783,
+      "kl": 0.0531005859375,
+      "learning_rate": 8.197021484375e-07,
+      "loss": 0.0021,
+      "reward": 1.711554229259491,
+      "reward_std": 0.08468777127563953,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7193666994571686,
+      "step": 1477
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 311.078125,
+      "epoch": 0.7216796875,
+      "grad_norm": 1.345200066011625,
+      "kl": 0.065673828125,
+      "learning_rate": 8.195800781249999e-07,
+      "loss": 0.0026,
+      "reward": 1.7353711128234863,
+      "reward_std": 0.13099960051476955,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7588086724281311,
+      "step": 1478
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 324.4765625,
+      "epoch": 0.72216796875,
+      "grad_norm": 1.584912796001927,
+      "kl": 0.056884765625,
+      "learning_rate": 8.194580078124999e-07,
+      "loss": 0.0023,
+      "reward": 1.76387220621109,
+      "reward_std": 0.11961934715509415,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7638722062110901,
+      "step": 1479
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 334.9140625,
+      "epoch": 0.72265625,
+      "grad_norm": 1.7559205041484878,
+      "kl": 0.0538330078125,
+      "learning_rate": 8.193359375e-07,
+      "loss": 0.0022,
+      "reward": 1.7752057313919067,
+      "reward_std": 0.05388793349266052,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7752057611942291,
+      "step": 1480
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 287.1328125,
+      "epoch": 0.72314453125,
+      "grad_norm": 3.609119053953651,
+      "kl": 0.0548095703125,
+      "learning_rate": 8.192138671875e-07,
+      "loss": 0.0022,
+      "reward": 1.7668498158454895,
+      "reward_std": 0.05071160942316055,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7668498754501343,
+      "step": 1481
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 373.0390625,
+      "epoch": 0.7236328125,
+      "grad_norm": 2.9702748681991893,
+      "kl": 0.0516357421875,
+      "learning_rate": 8.19091796875e-07,
+      "loss": 0.0021,
+      "reward": 1.7055724263191223,
+      "reward_std": 0.14055679365992546,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7211975157260895,
+      "step": 1482
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 367.5234375,
+      "epoch": 0.72412109375,
+      "grad_norm": 2.6429417488503884,
+      "kl": 0.045166015625,
+      "learning_rate": 8.189697265625e-07,
+      "loss": 0.0018,
+      "reward": 1.8638358116149902,
+      "reward_std": 0.09294469654560089,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8638357818126678,
+      "step": 1483
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 280.1015625,
+      "epoch": 0.724609375,
+      "grad_norm": 1.1890261444927173,
+      "kl": 0.0614013671875,
+      "learning_rate": 8.188476562499999e-07,
+      "loss": 0.0025,
+      "reward": 1.6774348616600037,
+      "reward_std": 0.11033051460981369,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6852473616600037,
+      "step": 1484
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 297.4375,
+      "epoch": 0.72509765625,
+      "grad_norm": 1.8392107416740417,
+      "kl": 0.061279296875,
+      "learning_rate": 8.187255859374999e-07,
+      "loss": 0.0025,
+      "reward": 1.6773231625556946,
+      "reward_std": 0.12323976308107376,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6851356625556946,
+      "step": 1485
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 353.390625,
+      "epoch": 0.7255859375,
+      "grad_norm": 2.4085650228970623,
+      "kl": 0.06103515625,
+      "learning_rate": 8.186035156249999e-07,
+      "loss": 0.0024,
+      "reward": 1.7235342264175415,
+      "reward_std": 0.16048508323729038,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7469716966152191,
+      "step": 1486
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 329.8671875,
+      "epoch": 0.72607421875,
+      "grad_norm": 2.408009729634376,
+      "kl": 0.0439453125,
+      "learning_rate": 8.184814453125e-07,
+      "loss": 0.0018,
+      "reward": 1.7089346051216125,
+      "reward_std": 0.0976857841014862,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7089346349239349,
+      "step": 1487
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 264.7421875,
+      "epoch": 0.7265625,
+      "grad_norm": 1.6142248756995168,
+      "kl": 0.0546875,
+      "learning_rate": 8.18359375e-07,
+      "loss": 0.0022,
+      "reward": 1.774111568927765,
+      "reward_std": 0.09651333093643188,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7819240987300873,
+      "step": 1488
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 400.3515625,
+      "epoch": 0.72705078125,
+      "grad_norm": 1.8517869550068955,
+      "kl": 0.0472412109375,
+      "learning_rate": 8.182373046875e-07,
+      "loss": 0.0019,
+      "reward": 1.7990041971206665,
+      "reward_std": 0.14311717450618744,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.8146291375160217,
+      "step": 1489
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 312.8984375,
+      "epoch": 0.7275390625,
+      "grad_norm": 2.7862564678417985,
+      "kl": 0.04931640625,
+      "learning_rate": 8.18115234375e-07,
+      "loss": 0.002,
+      "reward": 1.8134875893592834,
+      "reward_std": 0.046054454520344734,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8134876191616058,
+      "step": 1490
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 281.5546875,
+      "epoch": 0.72802734375,
+      "grad_norm": 1.0550017725621663,
+      "kl": 0.060791015625,
+      "learning_rate": 8.179931640624999e-07,
+      "loss": 0.0024,
+      "reward": 1.8162503838539124,
+      "reward_std": 0.043524582870304585,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8162504434585571,
+      "step": 1491
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 254.5703125,
+      "epoch": 0.728515625,
+      "grad_norm": 2.833553892053886,
+      "kl": 0.071044921875,
+      "learning_rate": 8.178710937499999e-07,
+      "loss": 0.0028,
+      "reward": 1.6208914518356323,
+      "reward_std": 0.1067028883844614,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6287039518356323,
+      "step": 1492
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 291.8671875,
+      "epoch": 0.72900390625,
+      "grad_norm": 2.8589313865508745,
+      "kl": 0.0618896484375,
+      "learning_rate": 8.177490234375e-07,
+      "loss": 0.0025,
+      "reward": 1.6766908764839172,
+      "reward_std": 0.06825340539216995,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6766908168792725,
+      "step": 1493
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 319.9765625,
+      "epoch": 0.7294921875,
+      "grad_norm": 2.124207189204002,
+      "kl": 0.0760498046875,
+      "learning_rate": 8.17626953125e-07,
+      "loss": 0.003,
+      "reward": 1.5833302736282349,
+      "reward_std": 0.1273394152522087,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.6067677438259125,
+      "step": 1494
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 261.203125,
+      "epoch": 0.72998046875,
+      "grad_norm": 2.3973851983698773,
+      "kl": 0.067626953125,
+      "learning_rate": 8.175048828125e-07,
+      "loss": 0.0027,
+      "reward": 1.7951343655586243,
+      "reward_std": 0.024024500511586666,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7951343059539795,
+      "step": 1495
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 300.328125,
+      "epoch": 0.73046875,
+      "grad_norm": 1.3073917262465702,
+      "kl": 0.055419921875,
+      "learning_rate": 8.173828125e-07,
+      "loss": 0.0022,
+      "reward": 1.7663521766662598,
+      "reward_std": 0.03600446879863739,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7663521468639374,
+      "step": 1496
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 405.453125,
+      "epoch": 0.73095703125,
+      "grad_norm": 1.6664383912533873,
+      "kl": 0.056396484375,
+      "learning_rate": 8.172607421874999e-07,
+      "loss": 0.0023,
+      "reward": 1.6536216139793396,
+      "reward_std": 0.16317107900977135,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.6770591139793396,
+      "step": 1497
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 298.703125,
+      "epoch": 0.7314453125,
+      "grad_norm": 2.6043460259230633,
+      "kl": 0.052001953125,
+      "learning_rate": 8.171386718749999e-07,
+      "loss": 0.0021,
+      "reward": 1.8190729022026062,
+      "reward_std": 0.07409404963254929,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8190728724002838,
+      "step": 1498
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 411.03125,
+      "epoch": 0.73193359375,
+      "grad_norm": 1.6907569298922398,
+      "kl": 0.0511474609375,
+      "learning_rate": 8.170166015624999e-07,
+      "loss": 0.002,
+      "reward": 1.6964725852012634,
+      "reward_std": 0.07454644329845905,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7042850852012634,
+      "step": 1499
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 280.859375,
+      "epoch": 0.732421875,
+      "grad_norm": 2.688496165901201,
+      "kl": 0.060546875,
+      "learning_rate": 8.1689453125e-07,
+      "loss": 0.0024,
+      "reward": 1.7929801940917969,
+      "reward_std": 0.058575745671987534,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7929801940917969,
+      "step": 1500
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 301.828125,
+      "epoch": 0.73291015625,
+      "grad_norm": 2.8535089955662105,
+      "kl": 0.069091796875,
+      "learning_rate": 8.167724609375e-07,
+      "loss": 0.0028,
+      "reward": 1.6650619506835938,
+      "reward_std": 0.07004339620471,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6650619506835938,
+      "step": 1501
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 237.9765625,
+      "epoch": 0.7333984375,
+      "grad_norm": 2.0939627649247443,
+      "kl": 0.06982421875,
+      "learning_rate": 8.16650390625e-07,
+      "loss": 0.0028,
+      "reward": 1.6487025022506714,
+      "reward_std": 0.0736217126250267,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6487023830413818,
+      "step": 1502
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 363.0234375,
+      "epoch": 0.73388671875,
+      "grad_norm": 1.835761690123511,
+      "kl": 0.058349609375,
+      "learning_rate": 8.165283203125e-07,
+      "loss": 0.0023,
+      "reward": 1.6299150586128235,
+      "reward_std": 0.16713447123765945,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.6689775288105011,
+      "step": 1503
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 331.5703125,
+      "epoch": 0.734375,
+      "grad_norm": 1.7502378181934324,
+      "kl": 0.0660400390625,
+      "learning_rate": 8.164062499999999e-07,
+      "loss": 0.0026,
+      "reward": 1.7362866401672363,
+      "reward_std": 0.06938813626766205,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7362865805625916,
+      "step": 1504
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 380.046875,
+      "epoch": 0.73486328125,
+      "grad_norm": 1.925910858116271,
+      "kl": 0.045654296875,
+      "learning_rate": 8.162841796874999e-07,
+      "loss": 0.0018,
+      "reward": 1.76516455411911,
+      "reward_std": 0.08768405765295029,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7729770541191101,
+      "step": 1505
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 263.421875,
+      "epoch": 0.7353515625,
+      "grad_norm": 1.8350835868922448,
+      "kl": 0.08154296875,
+      "learning_rate": 8.16162109375e-07,
+      "loss": 0.0033,
+      "reward": 1.7183210253715515,
+      "reward_std": 0.09937049448490143,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7261334359645844,
+      "step": 1506
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 275.296875,
+      "epoch": 0.73583984375,
+      "grad_norm": 1.2480606209927823,
+      "kl": 0.056884765625,
+      "learning_rate": 8.160400390625e-07,
+      "loss": 0.0023,
+      "reward": 1.800473690032959,
+      "reward_std": 0.036239128559827805,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8004737496376038,
+      "step": 1507
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 263.53125,
+      "epoch": 0.736328125,
+      "grad_norm": 3.8267954710393566,
+      "kl": 0.058349609375,
+      "learning_rate": 8.1591796875e-07,
+      "loss": 0.0023,
+      "reward": 1.8211953043937683,
+      "reward_std": 0.055461274459958076,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8211952745914459,
+      "step": 1508
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 428.0234375,
+      "epoch": 0.73681640625,
+      "grad_norm": 2.245415335980976,
+      "kl": 0.056640625,
+      "learning_rate": 8.157958984375e-07,
+      "loss": 0.0023,
+      "reward": 1.6801503896713257,
+      "reward_std": 0.15717144310474396,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.7114003896713257,
+      "step": 1509
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 355.7421875,
+      "epoch": 0.7373046875,
+      "grad_norm": 0.8186989855394431,
+      "kl": 0.0587158203125,
+      "learning_rate": 8.15673828125e-07,
+      "loss": 0.0023,
+      "reward": 1.7053476572036743,
+      "reward_std": 0.09524018689990044,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7131602764129639,
+      "step": 1510
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 292.296875,
+      "epoch": 0.73779296875,
+      "grad_norm": 3.6173846814752046,
+      "kl": 0.05419921875,
+      "learning_rate": 8.155517578124999e-07,
+      "loss": 0.0022,
+      "reward": 1.7306747436523438,
+      "reward_std": 0.10750394687056541,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7384872734546661,
+      "step": 1511
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 396.4921875,
+      "epoch": 0.73828125,
+      "grad_norm": 1.951320596223026,
+      "kl": 0.066162109375,
+      "learning_rate": 8.154296874999999e-07,
+      "loss": 0.0026,
+      "reward": 1.6698977947235107,
+      "reward_std": 0.17629149928689003,
+      "rewards/format_reward": 0.9453125,
+      "rewards/ocr_reward": 0.7245852947235107,
+      "step": 1512
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 297.9609375,
+      "epoch": 0.73876953125,
+      "grad_norm": 1.6633533126989715,
+      "kl": 0.059326171875,
+      "learning_rate": 8.153076171875e-07,
+      "loss": 0.0024,
+      "reward": 1.724345088005066,
+      "reward_std": 0.07205065805464983,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7321575880050659,
+      "step": 1513
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 420.828125,
+      "epoch": 0.7392578125,
+      "grad_norm": 2.1092767969234525,
+      "kl": 0.045166015625,
+      "learning_rate": 8.15185546875e-07,
+      "loss": 0.0018,
+      "reward": 1.6450571417808533,
+      "reward_std": 0.17002198845148087,
+      "rewards/format_reward": 0.9453125,
+      "rewards/ocr_reward": 0.6997447311878204,
+      "step": 1514
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 361.03125,
+      "epoch": 0.73974609375,
+      "grad_norm": 1.0066903202791224,
+      "kl": 0.06298828125,
+      "learning_rate": 8.150634765625e-07,
+      "loss": 0.0025,
+      "reward": 1.6437667608261108,
+      "reward_std": 0.10886374488472939,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.6672042906284332,
+      "step": 1515
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 417.671875,
+      "epoch": 0.740234375,
+      "grad_norm": 1.0622351578079063,
+      "kl": 0.060546875,
+      "learning_rate": 8.1494140625e-07,
+      "loss": 0.0024,
+      "reward": 1.641761600971222,
+      "reward_std": 0.15896305441856384,
+      "rewards/format_reward": 0.9296875,
+      "rewards/ocr_reward": 0.7120741009712219,
+      "step": 1516
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 288.7421875,
+      "epoch": 0.74072265625,
+      "grad_norm": 1.6360500618274396,
+      "kl": 0.0634765625,
+      "learning_rate": 8.148193359374999e-07,
+      "loss": 0.0025,
+      "reward": 1.7401413321495056,
+      "reward_std": 0.042983127757906914,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.740141361951828,
+      "step": 1517
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 359.8828125,
+      "epoch": 0.7412109375,
+      "grad_norm": 1.010630811381439,
+      "kl": 0.0531005859375,
+      "learning_rate": 8.146972656249999e-07,
+      "loss": 0.0021,
+      "reward": 1.7111788988113403,
+      "reward_std": 0.07130059599876404,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7111788690090179,
+      "step": 1518
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 308.734375,
+      "epoch": 0.74169921875,
+      "grad_norm": 0.8278353373184272,
+      "kl": 0.0540771484375,
+      "learning_rate": 8.145751953125e-07,
+      "loss": 0.0022,
+      "reward": 1.8538936972618103,
+      "reward_std": 0.11458700150251389,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.8695186972618103,
+      "step": 1519
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 369.609375,
+      "epoch": 0.7421875,
+      "grad_norm": 1.433959106877648,
+      "kl": 0.0457763671875,
+      "learning_rate": 8.14453125e-07,
+      "loss": 0.0018,
+      "reward": 1.8906309008598328,
+      "reward_std": 0.06328525394201279,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8906309306621552,
+      "step": 1520
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 231.28125,
+      "epoch": 0.74267578125,
+      "grad_norm": 8.396740339740772,
+      "kl": 0.075927734375,
+      "learning_rate": 8.143310546875e-07,
+      "loss": 0.003,
+      "reward": 1.7359008193016052,
+      "reward_std": 0.10937487334012985,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7359007894992828,
+      "step": 1521
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 237.2109375,
+      "epoch": 0.7431640625,
+      "grad_norm": 2.401371893041721,
+      "kl": 0.0625,
+      "learning_rate": 8.14208984375e-07,
+      "loss": 0.0025,
+      "reward": 1.8299207091331482,
+      "reward_std": 0.05006260797381401,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8299207091331482,
+      "step": 1522
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 377.5390625,
+      "epoch": 0.74365234375,
+      "grad_norm": 4.919411402041056,
+      "kl": 0.0687255859375,
+      "learning_rate": 8.140869140625e-07,
+      "loss": 0.0027,
+      "reward": 1.7033655643463135,
+      "reward_std": 0.13213280774652958,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7189904749393463,
+      "step": 1523
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 329.6640625,
+      "epoch": 0.744140625,
+      "grad_norm": 3.5288846647599983,
+      "kl": 0.0665283203125,
+      "learning_rate": 8.139648437499999e-07,
+      "loss": 0.0027,
+      "reward": 1.6737890839576721,
+      "reward_std": 0.11412935890257359,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6816015839576721,
+      "step": 1524
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 340.6171875,
+      "epoch": 0.74462890625,
+      "grad_norm": 0.9645495205101616,
+      "kl": 0.0430908203125,
+      "learning_rate": 8.138427734374999e-07,
+      "loss": 0.0017,
+      "reward": 1.7587640285491943,
+      "reward_std": 0.05514438450336456,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7587640285491943,
+      "step": 1525
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 283.875,
+      "epoch": 0.7451171875,
+      "grad_norm": 2.1056851901873856,
+      "kl": 0.0640869140625,
+      "learning_rate": 8.13720703125e-07,
+      "loss": 0.0026,
+      "reward": 1.68757826089859,
+      "reward_std": 0.0944238007068634,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6875782012939453,
+      "step": 1526
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 294.8828125,
+      "epoch": 0.74560546875,
+      "grad_norm": 12.263008903251595,
+      "kl": 0.0643310546875,
+      "learning_rate": 8.135986328125e-07,
+      "loss": 0.0026,
+      "reward": 1.6637163162231445,
+      "reward_std": 0.087074875831604,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6715288162231445,
+      "step": 1527
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 299.90625,
+      "epoch": 0.74609375,
+      "grad_norm": 0.7627901351331267,
+      "kl": 0.050537109375,
+      "learning_rate": 8.134765625e-07,
+      "loss": 0.002,
+      "reward": 1.863888144493103,
+      "reward_std": 0.08409961871802807,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8717006146907806,
+      "step": 1528
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 343.4296875,
+      "epoch": 0.74658203125,
+      "grad_norm": 1.4130142844576217,
+      "kl": 0.0479736328125,
+      "learning_rate": 8.133544921875e-07,
+      "loss": 0.0019,
+      "reward": 1.8731828331947327,
+      "reward_std": 0.04130223486572504,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8731828331947327,
+      "step": 1529
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 384.859375,
+      "epoch": 0.7470703125,
+      "grad_norm": 1.9620363842722353,
+      "kl": 0.052978515625,
+      "learning_rate": 8.132324218749999e-07,
+      "loss": 0.0021,
+      "reward": 1.7268319129943848,
+      "reward_std": 0.07933101058006287,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7346444129943848,
+      "step": 1530
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 274.53125,
+      "epoch": 0.74755859375,
+      "grad_norm": 8.38649985748051,
+      "kl": 0.0621337890625,
+      "learning_rate": 8.131103515624999e-07,
+      "loss": 0.0025,
+      "reward": 1.716759443283081,
+      "reward_std": 0.08667516149580479,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.724571943283081,
+      "step": 1531
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 272.7265625,
+      "epoch": 0.748046875,
+      "grad_norm": 1.7653142086688058,
+      "kl": 0.076416015625,
+      "learning_rate": 8.1298828125e-07,
+      "loss": 0.003,
+      "reward": 1.8313519358634949,
+      "reward_std": 0.060592420399188995,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8313519060611725,
+      "step": 1532
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 241.2109375,
+      "epoch": 0.74853515625,
+      "grad_norm": 2.6054561123555398,
+      "kl": 0.0703125,
+      "learning_rate": 8.128662109375e-07,
+      "loss": 0.0028,
+      "reward": 1.737118661403656,
+      "reward_std": 0.10131100192666054,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7371186316013336,
+      "step": 1533
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 228.8984375,
+      "epoch": 0.7490234375,
+      "grad_norm": 2.674357738045574,
+      "kl": 0.0667724609375,
+      "learning_rate": 8.12744140625e-07,
+      "loss": 0.0027,
+      "reward": 1.7102715373039246,
+      "reward_std": 0.05548026505857706,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.710271567106247,
+      "step": 1534
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 256.125,
+      "epoch": 0.74951171875,
+      "grad_norm": 4.73739128631788,
+      "kl": 0.0626220703125,
+      "learning_rate": 8.126220703125e-07,
+      "loss": 0.0025,
+      "reward": 1.7168715000152588,
+      "reward_std": 0.04072634130716324,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7168715000152588,
+      "step": 1535
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 312.046875,
+      "epoch": 0.75,
+      "grad_norm": 1.1110552148698716,
+      "kl": 0.0604248046875,
+      "learning_rate": 8.125e-07,
+      "loss": 0.0024,
+      "reward": 1.8226452469825745,
+      "reward_std": 0.07101005595177412,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8226452171802521,
+      "step": 1536
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 268.375,
+      "epoch": 0.75048828125,
+      "grad_norm": 1.8999368365222582,
+      "kl": 0.06689453125,
+      "learning_rate": 8.123779296874999e-07,
+      "loss": 0.0027,
+      "reward": 1.7307413220405579,
+      "reward_std": 0.06915171444416046,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7307413220405579,
+      "step": 1537
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 315.84375,
+      "epoch": 0.7509765625,
+      "grad_norm": 1.3088249128930414,
+      "kl": 0.0545654296875,
+      "learning_rate": 8.122558593749999e-07,
+      "loss": 0.0022,
+      "reward": 1.7781055569648743,
+      "reward_std": 0.11129429191350937,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7781055569648743,
+      "step": 1538
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 326.0390625,
+      "epoch": 0.75146484375,
+      "grad_norm": 1.8135902702393156,
+      "kl": 0.064453125,
+      "learning_rate": 8.121337890625e-07,
+      "loss": 0.0026,
+      "reward": 1.7776609063148499,
+      "reward_std": 0.05267609283328056,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7776609361171722,
+      "step": 1539
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 343.5703125,
+      "epoch": 0.751953125,
+      "grad_norm": 4.248969243149114,
+      "kl": 0.061767578125,
+      "learning_rate": 8.1201171875e-07,
+      "loss": 0.0025,
+      "reward": 1.6320134997367859,
+      "reward_std": 0.16212911903858185,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.671076089143753,
+      "step": 1540
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 320.0703125,
+      "epoch": 0.75244140625,
+      "grad_norm": 3.2351824322471487,
+      "kl": 0.0506591796875,
+      "learning_rate": 8.118896484375e-07,
+      "loss": 0.002,
+      "reward": 1.8071049451828003,
+      "reward_std": 0.03557584714144468,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8071048855781555,
+      "step": 1541
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 301.484375,
+      "epoch": 0.7529296875,
+      "grad_norm": 2.1607593809932912,
+      "kl": 0.0684814453125,
+      "learning_rate": 8.11767578125e-07,
+      "loss": 0.0027,
+      "reward": 1.7182350158691406,
+      "reward_std": 0.0703788474202156,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7182350158691406,
+      "step": 1542
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 345.171875,
+      "epoch": 0.75341796875,
+      "grad_norm": 2.28986197589543,
+      "kl": 0.0521240234375,
+      "learning_rate": 8.116455078124999e-07,
+      "loss": 0.0021,
+      "reward": 1.6649247407913208,
+      "reward_std": 0.10756101086735725,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.664924681186676,
+      "step": 1543
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 274.265625,
+      "epoch": 0.75390625,
+      "grad_norm": 1.3873712534548976,
+      "kl": 0.0587158203125,
+      "learning_rate": 8.115234374999999e-07,
+      "loss": 0.0023,
+      "reward": 1.7909113764762878,
+      "reward_std": 0.05301499832421541,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7909113466739655,
+      "step": 1544
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 332.96875,
+      "epoch": 0.75439453125,
+      "grad_norm": 1.3747071192917304,
+      "kl": 0.0538330078125,
+      "learning_rate": 8.114013671875e-07,
+      "loss": 0.0021,
+      "reward": 1.5880799293518066,
+      "reward_std": 0.05071425810456276,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.5880799889564514,
+      "step": 1545
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 280.078125,
+      "epoch": 0.7548828125,
+      "grad_norm": 2.082728546980293,
+      "kl": 0.0687255859375,
+      "learning_rate": 8.11279296875e-07,
+      "loss": 0.0027,
+      "reward": 1.7272522449493408,
+      "reward_std": 0.11839665472507477,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7272522151470184,
+      "step": 1546
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 289.8125,
+      "epoch": 0.75537109375,
+      "grad_norm": 4.2783261615543555,
+      "kl": 0.0557861328125,
+      "learning_rate": 8.111572265625e-07,
+      "loss": 0.0022,
+      "reward": 1.6325949430465698,
+      "reward_std": 0.08264567703008652,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.6716574430465698,
+      "step": 1547
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 326.4609375,
+      "epoch": 0.755859375,
+      "grad_norm": 1.1440391734134507,
+      "kl": 0.046630859375,
+      "learning_rate": 8.1103515625e-07,
+      "loss": 0.0019,
+      "reward": 1.71382474899292,
+      "reward_std": 0.045681871473789215,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7138247489929199,
+      "step": 1548
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 279.328125,
+      "epoch": 0.75634765625,
+      "grad_norm": 10.451777449180478,
+      "kl": 0.0516357421875,
+      "learning_rate": 8.109130859375e-07,
+      "loss": 0.0021,
+      "reward": 1.6753268241882324,
+      "reward_std": 0.021205293014645576,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.67532679438591,
+      "step": 1549
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 293.796875,
+      "epoch": 0.7568359375,
+      "grad_norm": 2.3203833368592903,
+      "kl": 0.0751953125,
+      "learning_rate": 8.107910156249999e-07,
+      "loss": 0.003,
+      "reward": 1.7479038834571838,
+      "reward_std": 0.1040516346693039,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7557163834571838,
+      "step": 1550
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 459.453125,
+      "epoch": 0.75732421875,
+      "grad_norm": 1.314358162889798,
+      "kl": 0.05078125,
+      "learning_rate": 8.106689453124999e-07,
+      "loss": 0.002,
+      "reward": 1.6848346590995789,
+      "reward_std": 0.15354808419942856,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.7160846590995789,
+      "step": 1551
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 323.9921875,
+      "epoch": 0.7578125,
+      "grad_norm": 2.609690852803103,
+      "kl": 0.055908203125,
+      "learning_rate": 8.10546875e-07,
+      "loss": 0.0022,
+      "reward": 1.7020440697669983,
+      "reward_std": 0.11408869549632072,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7176690995693207,
+      "step": 1552
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 250.4375,
+      "epoch": 0.75830078125,
+      "grad_norm": 1.6918813158728625,
+      "kl": 0.0628662109375,
+      "learning_rate": 8.104248046875e-07,
+      "loss": 0.0025,
+      "reward": 1.7733458280563354,
+      "reward_std": 0.1404724046587944,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7889708578586578,
+      "step": 1553
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 273.5546875,
+      "epoch": 0.7587890625,
+      "grad_norm": 1.7954408988834158,
+      "kl": 0.059326171875,
+      "learning_rate": 8.10302734375e-07,
+      "loss": 0.0024,
+      "reward": 1.7370250225067139,
+      "reward_std": 0.059584882110357285,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7370250523090363,
+      "step": 1554
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 332.9375,
+      "epoch": 0.75927734375,
+      "grad_norm": 1.500988736398781,
+      "kl": 0.047119140625,
+      "learning_rate": 8.101806640625e-07,
+      "loss": 0.0019,
+      "reward": 1.8506624698638916,
+      "reward_std": 0.09908335283398628,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8584749698638916,
+      "step": 1555
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 398.3359375,
+      "epoch": 0.759765625,
+      "grad_norm": 2.5780846344055774,
+      "kl": 0.04541015625,
+      "learning_rate": 8.100585937499999e-07,
+      "loss": 0.0018,
+      "reward": 1.6247803568840027,
+      "reward_std": 0.14903922379016876,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.6638428568840027,
+      "step": 1556
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 322.1484375,
+      "epoch": 0.76025390625,
+      "grad_norm": 1.6802574412935145,
+      "kl": 0.0535888671875,
+      "learning_rate": 8.099365234374999e-07,
+      "loss": 0.0021,
+      "reward": 1.7854554653167725,
+      "reward_std": 0.0747103076428175,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7854554057121277,
+      "step": 1557
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 349.140625,
+      "epoch": 0.7607421875,
+      "grad_norm": 3.53135423693984,
+      "kl": 0.0521240234375,
+      "learning_rate": 8.098144531249999e-07,
+      "loss": 0.0021,
+      "reward": 1.5581438541412354,
+      "reward_std": 0.08005472645163536,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.6050188541412354,
+      "step": 1558
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 332.15625,
+      "epoch": 0.76123046875,
+      "grad_norm": 1.2263929278952201,
+      "kl": 0.0550537109375,
+      "learning_rate": 8.096923828125e-07,
+      "loss": 0.0022,
+      "reward": 1.7725134491920471,
+      "reward_std": 0.09821948781609535,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.8115759491920471,
+      "step": 1559
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 218.1484375,
+      "epoch": 0.76171875,
+      "grad_norm": 4.559002764522234,
+      "kl": 0.068115234375,
+      "learning_rate": 8.095703125e-07,
+      "loss": 0.0027,
+      "reward": 1.747908115386963,
+      "reward_std": 0.017046626191586256,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7479080855846405,
+      "step": 1560
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 361.4765625,
+      "epoch": 0.76220703125,
+      "grad_norm": 2.6821850910454974,
+      "kl": 0.0567626953125,
+      "learning_rate": 8.094482421875e-07,
+      "loss": 0.0023,
+      "reward": 1.6794939041137695,
+      "reward_std": 0.0593208484351635,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6794938743114471,
+      "step": 1561
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 283.1796875,
+      "epoch": 0.7626953125,
+      "grad_norm": 1.4073846788389592,
+      "kl": 0.05224609375,
+      "learning_rate": 8.09326171875e-07,
+      "loss": 0.0021,
+      "reward": 1.820260226726532,
+      "reward_std": 0.04938836395740509,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8202601671218872,
+      "step": 1562
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 212.3515625,
+      "epoch": 0.76318359375,
+      "grad_norm": 1.0253536738713116,
+      "kl": 0.068359375,
+      "learning_rate": 8.092041015624999e-07,
+      "loss": 0.0027,
+      "reward": 1.6596548557281494,
+      "reward_std": 0.02243457455188036,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6596548557281494,
+      "step": 1563
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 217.390625,
+      "epoch": 0.763671875,
+      "grad_norm": 0.802675306572281,
+      "kl": 0.06494140625,
+      "learning_rate": 8.090820312499999e-07,
+      "loss": 0.0026,
+      "reward": 1.7809888124465942,
+      "reward_std": 0.038061970844864845,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7809888422489166,
+      "step": 1564
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 309.953125,
+      "epoch": 0.76416015625,
+      "grad_norm": 1.8997263090024157,
+      "kl": 0.0560302734375,
+      "learning_rate": 8.089599609375e-07,
+      "loss": 0.0022,
+      "reward": 1.653722107410431,
+      "reward_std": 0.12127144634723663,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6615345478057861,
+      "step": 1565
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 313.703125,
+      "epoch": 0.7646484375,
+      "grad_norm": 1.958461815256613,
+      "kl": 0.0506591796875,
+      "learning_rate": 8.08837890625e-07,
+      "loss": 0.002,
+      "reward": 1.713492214679718,
+      "reward_std": 0.1120409145951271,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7291173040866852,
+      "step": 1566
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 335.421875,
+      "epoch": 0.76513671875,
+      "grad_norm": 1.0413990963846795,
+      "kl": 0.0498046875,
+      "learning_rate": 8.087158203125e-07,
+      "loss": 0.002,
+      "reward": 1.7677712440490723,
+      "reward_std": 0.09032433852553368,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7833963632583618,
+      "step": 1567
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 332.4765625,
+      "epoch": 0.765625,
+      "grad_norm": 2.975801159257183,
+      "kl": 0.0538330078125,
+      "learning_rate": 8.0859375e-07,
+      "loss": 0.0022,
+      "reward": 1.6949644684791565,
+      "reward_std": 0.1156335175037384,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7105894386768341,
+      "step": 1568
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 268.09375,
+      "epoch": 0.76611328125,
+      "grad_norm": 4.913374457578766,
+      "kl": 0.065185546875,
+      "learning_rate": 8.084716796874999e-07,
+      "loss": 0.0026,
+      "reward": 1.8527822494506836,
+      "reward_std": 0.03366856276988983,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.852782130241394,
+      "step": 1569
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 319.296875,
+      "epoch": 0.7666015625,
+      "grad_norm": 1.240155973042573,
+      "kl": 0.0506591796875,
+      "learning_rate": 8.083496093749999e-07,
+      "loss": 0.002,
+      "reward": 1.7566204071044922,
+      "reward_std": 0.0804799273610115,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7644328773021698,
+      "step": 1570
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 284.1640625,
+      "epoch": 0.76708984375,
+      "grad_norm": 1.4265984505569123,
+      "kl": 0.052001953125,
+      "learning_rate": 8.082275390624999e-07,
+      "loss": 0.0021,
+      "reward": 1.7467219233512878,
+      "reward_std": 0.017143062315881252,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7467218637466431,
+      "step": 1571
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 221.53125,
+      "epoch": 0.767578125,
+      "grad_norm": 1.5345523611187817,
+      "kl": 0.060546875,
+      "learning_rate": 8.0810546875e-07,
+      "loss": 0.0024,
+      "reward": 1.8325753211975098,
+      "reward_std": 0.04120937455445528,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8325753211975098,
+      "step": 1572
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 402.21875,
+      "epoch": 0.76806640625,
+      "grad_norm": 1.4045255992327337,
+      "kl": 0.0546875,
+      "learning_rate": 8.079833984375e-07,
+      "loss": 0.0022,
+      "reward": 1.6535959243774414,
+      "reward_std": 0.10518948920071125,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.6770334243774414,
+      "step": 1573
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 477.7421875,
+      "epoch": 0.7685546875,
+      "grad_norm": 1.4480910955522743,
+      "kl": 0.056396484375,
+      "learning_rate": 8.07861328125e-07,
+      "loss": 0.0023,
+      "reward": 1.575450837612152,
+      "reward_std": 0.0833788514137268,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.6223257780075073,
+      "step": 1574
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 328.40625,
+      "epoch": 0.76904296875,
+      "grad_norm": 1.6388667341544991,
+      "kl": 0.0498046875,
+      "learning_rate": 8.077392578125e-07,
+      "loss": 0.002,
+      "reward": 1.776998221874237,
+      "reward_std": 0.09045989066362381,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.8004356920719147,
+      "step": 1575
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 335.3671875,
+      "epoch": 0.76953125,
+      "grad_norm": 4.580808288577953,
+      "kl": 0.06787109375,
+      "learning_rate": 8.076171874999999e-07,
+      "loss": 0.0027,
+      "reward": 1.7042137384414673,
+      "reward_std": 0.15083208680152893,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.7354637086391449,
+      "step": 1576
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 357.4765625,
+      "epoch": 0.77001953125,
+      "grad_norm": 2.019507688897045,
+      "kl": 0.0489501953125,
+      "learning_rate": 8.074951171874999e-07,
+      "loss": 0.002,
+      "reward": 1.6543389558792114,
+      "reward_std": 0.1535024270415306,
+      "rewards/format_reward": 0.9453125,
+      "rewards/ocr_reward": 0.7090264856815338,
+      "step": 1577
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 338.75,
+      "epoch": 0.7705078125,
+      "grad_norm": 1.5898119888098918,
+      "kl": 0.0535888671875,
+      "learning_rate": 8.07373046875e-07,
+      "loss": 0.0021,
+      "reward": 1.6351118683815002,
+      "reward_std": 0.1109085101634264,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.6585493683815002,
+      "step": 1578
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 308.078125,
+      "epoch": 0.77099609375,
+      "grad_norm": 0.8244536832784812,
+      "kl": 0.0699462890625,
+      "learning_rate": 8.072509765625e-07,
+      "loss": 0.0028,
+      "reward": 1.7688223123550415,
+      "reward_std": 0.048665997572243214,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7688223123550415,
+      "step": 1579
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 362.9140625,
+      "epoch": 0.771484375,
+      "grad_norm": 7.833675662090654,
+      "kl": 0.0458984375,
+      "learning_rate": 8.0712890625e-07,
+      "loss": 0.0018,
+      "reward": 1.766732096672058,
+      "reward_std": 0.037401504814624786,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7667320668697357,
+      "step": 1580
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 329.5703125,
+      "epoch": 0.77197265625,
+      "grad_norm": 1.272735275661589,
+      "kl": 0.0555419921875,
+      "learning_rate": 8.070068359375e-07,
+      "loss": 0.0022,
+      "reward": 1.8723936080932617,
+      "reward_std": 0.06921904534101486,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.8880185484886169,
+      "step": 1581
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 349.109375,
+      "epoch": 0.7724609375,
+      "grad_norm": 1.2808243375099266,
+      "kl": 0.0645751953125,
+      "learning_rate": 8.068847656249999e-07,
+      "loss": 0.0026,
+      "reward": 1.6261619925498962,
+      "reward_std": 0.07076285779476166,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6261619329452515,
+      "step": 1582
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 354.578125,
+      "epoch": 0.77294921875,
+      "grad_norm": 2.3321912897118713,
+      "kl": 0.078369140625,
+      "learning_rate": 8.067626953124999e-07,
+      "loss": 0.0031,
+      "reward": 1.7845726013183594,
+      "reward_std": 0.15707527101039886,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.8001976609230042,
+      "step": 1583
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 374.8984375,
+      "epoch": 0.7734375,
+      "grad_norm": 1.0990319632980867,
+      "kl": 0.0711669921875,
+      "learning_rate": 8.066406249999999e-07,
+      "loss": 0.0028,
+      "reward": 1.7625375986099243,
+      "reward_std": 0.05330556631088257,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7703501284122467,
+      "step": 1584
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 308.3359375,
+      "epoch": 0.77392578125,
+      "grad_norm": 2.118844572781893,
+      "kl": 0.06396484375,
+      "learning_rate": 8.065185546875e-07,
+      "loss": 0.0026,
+      "reward": 1.7572776079177856,
+      "reward_std": 0.09189710766077042,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7572776079177856,
+      "step": 1585
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 288.7734375,
+      "epoch": 0.7744140625,
+      "grad_norm": 3.9816311052864553,
+      "kl": 0.0728759765625,
+      "learning_rate": 8.06396484375e-07,
+      "loss": 0.0029,
+      "reward": 1.7010331749916077,
+      "reward_std": 0.1283012256026268,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7166581749916077,
+      "step": 1586
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 325.9140625,
+      "epoch": 0.77490234375,
+      "grad_norm": 1.3209118767681105,
+      "kl": 0.050537109375,
+      "learning_rate": 8.062744140625e-07,
+      "loss": 0.002,
+      "reward": 1.8046178817749023,
+      "reward_std": 0.10538148693740368,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8124303817749023,
+      "step": 1587
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 359.1484375,
+      "epoch": 0.775390625,
+      "grad_norm": 2.5132872532943624,
+      "kl": 0.046875,
+      "learning_rate": 8.0615234375e-07,
+      "loss": 0.0019,
+      "reward": 1.7433744668960571,
+      "reward_std": 0.09972074255347252,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.75118687748909,
+      "step": 1588
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 342.2578125,
+      "epoch": 0.77587890625,
+      "grad_norm": 3.40521583010745,
+      "kl": 0.085693359375,
+      "learning_rate": 8.060302734374999e-07,
+      "loss": 0.0034,
+      "reward": 1.628357172012329,
+      "reward_std": 0.09522592648863792,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6361695826053619,
+      "step": 1589
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 373.2265625,
+      "epoch": 0.7763671875,
+      "grad_norm": 3.0455379805887093,
+      "kl": 0.0606689453125,
+      "learning_rate": 8.059082031249999e-07,
+      "loss": 0.0024,
+      "reward": 1.641897439956665,
+      "reward_std": 0.08232817053794861,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6418974995613098,
+      "step": 1590
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 291.2734375,
+      "epoch": 0.77685546875,
+      "grad_norm": 2.2430367344910427,
+      "kl": 0.0614013671875,
+      "learning_rate": 8.057861328125e-07,
+      "loss": 0.0025,
+      "reward": 1.768738031387329,
+      "reward_std": 0.07021267339587212,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7687380015850067,
+      "step": 1591
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 284.3828125,
+      "epoch": 0.77734375,
+      "grad_norm": 2.20938289635979,
+      "kl": 0.069091796875,
+      "learning_rate": 8.056640625e-07,
+      "loss": 0.0028,
+      "reward": 1.8064799904823303,
+      "reward_std": 0.04143555276095867,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8064799904823303,
+      "step": 1592
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 314.671875,
+      "epoch": 0.77783203125,
+      "grad_norm": 2.7105879555153303,
+      "kl": 0.060791015625,
+      "learning_rate": 8.055419921875e-07,
+      "loss": 0.0024,
+      "reward": 1.6281877756118774,
+      "reward_std": 0.1271475814282894,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6281877756118774,
+      "step": 1593
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 266.84375,
+      "epoch": 0.7783203125,
+      "grad_norm": 5.064693794868452,
+      "kl": 0.0628662109375,
+      "learning_rate": 8.05419921875e-07,
+      "loss": 0.0025,
+      "reward": 1.704953670501709,
+      "reward_std": 0.09572456032037735,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.704953670501709,
+      "step": 1594
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 304.296875,
+      "epoch": 0.77880859375,
+      "grad_norm": 1.2322362890361453,
+      "kl": 0.0523681640625,
+      "learning_rate": 8.052978515624999e-07,
+      "loss": 0.0021,
+      "reward": 1.7966317534446716,
+      "reward_std": 0.09780865162611008,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8044441640377045,
+      "step": 1595
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 300.6875,
+      "epoch": 0.779296875,
+      "grad_norm": 2.587066136267263,
+      "kl": 0.0574951171875,
+      "learning_rate": 8.051757812499999e-07,
+      "loss": 0.0023,
+      "reward": 1.748351275920868,
+      "reward_std": 0.11127368733286858,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7483512759208679,
+      "step": 1596
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 224.96875,
+      "epoch": 0.77978515625,
+      "grad_norm": 8.678514629911282,
+      "kl": 0.0655517578125,
+      "learning_rate": 8.050537109374999e-07,
+      "loss": 0.0026,
+      "reward": 1.7842652797698975,
+      "reward_std": 0.056360941380262375,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7842652797698975,
+      "step": 1597
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 285.6796875,
+      "epoch": 0.7802734375,
+      "grad_norm": 3.8186079651609486,
+      "kl": 0.0589599609375,
+      "learning_rate": 8.04931640625e-07,
+      "loss": 0.0024,
+      "reward": 1.8417965769767761,
+      "reward_std": 0.07890859059989452,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8496091067790985,
+      "step": 1598
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 301.578125,
+      "epoch": 0.78076171875,
+      "grad_norm": 2.6414016724776146,
+      "kl": 0.0634765625,
+      "learning_rate": 8.048095703125e-07,
+      "loss": 0.0025,
+      "reward": 1.8113459348678589,
+      "reward_std": 0.042547447606921196,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8113458752632141,
+      "step": 1599
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 310.65625,
+      "epoch": 0.78125,
+      "grad_norm": 2.7042761180533192,
+      "kl": 0.0718994140625,
+      "learning_rate": 8.046875e-07,
+      "loss": 0.0029,
+      "reward": 1.7982996702194214,
+      "reward_std": 0.10386446584016085,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8061122000217438,
+      "step": 1600
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 248.8203125,
+      "epoch": 0.78173828125,
+      "grad_norm": 1.1262604316715779,
+      "kl": 0.078125,
+      "learning_rate": 8.045654296875e-07,
+      "loss": 0.0031,
+      "reward": 1.8404181599617004,
+      "reward_std": 0.03405761159956455,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8404182195663452,
+      "step": 1601
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 263.75,
+      "epoch": 0.7822265625,
+      "grad_norm": 2.3428168026992586,
+      "kl": 0.064697265625,
+      "learning_rate": 8.044433593749999e-07,
+      "loss": 0.0026,
+      "reward": 1.770385503768921,
+      "reward_std": 0.06261442601680756,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7703855335712433,
+      "step": 1602
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 240.7109375,
+      "epoch": 0.78271484375,
+      "grad_norm": 1.4573875580192406,
+      "kl": 0.0693359375,
+      "learning_rate": 8.043212890624999e-07,
+      "loss": 0.0028,
+      "reward": 1.8531925678253174,
+      "reward_std": 0.04907483607530594,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8531925678253174,
+      "step": 1603
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 451.0859375,
+      "epoch": 0.783203125,
+      "grad_norm": 2.097256901008272,
+      "kl": 0.04833984375,
+      "learning_rate": 8.0419921875e-07,
+      "loss": 0.0019,
+      "reward": 1.6914434432983398,
+      "reward_std": 0.12963934242725372,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7070684731006622,
+      "step": 1604
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 338.40625,
+      "epoch": 0.78369140625,
+      "grad_norm": 1.9320837029873765,
+      "kl": 0.0601806640625,
+      "learning_rate": 8.040771484375e-07,
+      "loss": 0.0024,
+      "reward": 1.680255651473999,
+      "reward_std": 0.1190883181989193,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6880680620670319,
+      "step": 1605
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 273.9375,
+      "epoch": 0.7841796875,
+      "grad_norm": 1.0873386862814498,
+      "kl": 0.0552978515625,
+      "learning_rate": 8.03955078125e-07,
+      "loss": 0.0022,
+      "reward": 1.7301841378211975,
+      "reward_std": 0.03086886089295149,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7301841080188751,
+      "step": 1606
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 254.640625,
+      "epoch": 0.78466796875,
+      "grad_norm": 1.305516177619871,
+      "kl": 0.07568359375,
+      "learning_rate": 8.038330078125e-07,
+      "loss": 0.003,
+      "reward": 1.651597023010254,
+      "reward_std": 0.0745653323829174,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6515969634056091,
+      "step": 1607
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 238.890625,
+      "epoch": 0.78515625,
+      "grad_norm": 1.853930940155658,
+      "kl": 0.0611572265625,
+      "learning_rate": 8.037109375e-07,
+      "loss": 0.0024,
+      "reward": 1.7472956776618958,
+      "reward_std": 0.036410000175237656,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.747295618057251,
+      "step": 1608
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 253.0390625,
+      "epoch": 0.78564453125,
+      "grad_norm": 1.5524349811107778,
+      "kl": 0.0557861328125,
+      "learning_rate": 8.035888671874999e-07,
+      "loss": 0.0022,
+      "reward": 1.757796585559845,
+      "reward_std": 0.096245177090168,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.773421585559845,
+      "step": 1609
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 223.859375,
+      "epoch": 0.7861328125,
+      "grad_norm": 12.21460617267679,
+      "kl": 0.0509033203125,
+      "learning_rate": 8.034667968749999e-07,
+      "loss": 0.002,
+      "reward": 1.6556835770606995,
+      "reward_std": 0.08177720569074154,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6556835770606995,
+      "step": 1610
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 334.9609375,
+      "epoch": 0.78662109375,
+      "grad_norm": 1.2988283875580688,
+      "kl": 0.0513916015625,
+      "learning_rate": 8.033447265625e-07,
+      "loss": 0.0021,
+      "reward": 1.7968943119049072,
+      "reward_std": 0.03818834759294987,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7968942821025848,
+      "step": 1611
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 318.8359375,
+      "epoch": 0.787109375,
+      "grad_norm": 1.853996721692202,
+      "kl": 0.0478515625,
+      "learning_rate": 8.0322265625e-07,
+      "loss": 0.0019,
+      "reward": 1.6934837102890015,
+      "reward_std": 0.06388338282704353,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6934837400913239,
+      "step": 1612
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 280.0859375,
+      "epoch": 0.78759765625,
+      "grad_norm": 0.9164065489554429,
+      "kl": 0.0616455078125,
+      "learning_rate": 8.031005859375e-07,
+      "loss": 0.0025,
+      "reward": 1.6735413074493408,
+      "reward_std": 0.0621509775519371,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6735413372516632,
+      "step": 1613
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 327.4375,
+      "epoch": 0.7880859375,
+      "grad_norm": 2.82590067781753,
+      "kl": 0.0567626953125,
+      "learning_rate": 8.02978515625e-07,
+      "loss": 0.0023,
+      "reward": 1.6877517700195312,
+      "reward_std": 0.0880160890519619,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6877517700195312,
+      "step": 1614
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 264.6640625,
+      "epoch": 0.78857421875,
+      "grad_norm": 20.08903138023436,
+      "kl": 0.062744140625,
+      "learning_rate": 8.028564453124999e-07,
+      "loss": 0.0025,
+      "reward": 1.762800931930542,
+      "reward_std": 0.0888824425637722,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.762800931930542,
+      "step": 1615
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 276.515625,
+      "epoch": 0.7890625,
+      "grad_norm": 1.7330784289366532,
+      "kl": 0.0504150390625,
+      "learning_rate": 8.027343749999999e-07,
+      "loss": 0.002,
+      "reward": 1.8259278535842896,
+      "reward_std": 0.08520985394716263,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.8415527939796448,
+      "step": 1616
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 274.75,
+      "epoch": 0.78955078125,
+      "grad_norm": 2.062097230316505,
+      "kl": 0.06298828125,
+      "learning_rate": 8.026123046875e-07,
+      "loss": 0.0025,
+      "reward": 1.7127341032028198,
+      "reward_std": 0.049558693543076515,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.712734043598175,
+      "step": 1617
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 273.4140625,
+      "epoch": 0.7900390625,
+      "grad_norm": 1.6783295426613631,
+      "kl": 0.065185546875,
+      "learning_rate": 8.02490234375e-07,
+      "loss": 0.0026,
+      "reward": 1.8034849166870117,
+      "reward_std": 0.10387159883975983,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8034849166870117,
+      "step": 1618
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 230.15625,
+      "epoch": 0.79052734375,
+      "grad_norm": 1.6933921135873553,
+      "kl": 0.0609130859375,
+      "learning_rate": 8.023681640625e-07,
+      "loss": 0.0024,
+      "reward": 1.8547474145889282,
+      "reward_std": 0.07110052555799484,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8547475039958954,
+      "step": 1619
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 287.0234375,
+      "epoch": 0.791015625,
+      "grad_norm": 2.7831972038485997,
+      "kl": 0.070068359375,
+      "learning_rate": 8.0224609375e-07,
+      "loss": 0.0028,
+      "reward": 1.6170747876167297,
+      "reward_std": 0.07357279863208532,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6170747876167297,
+      "step": 1620
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 366.2109375,
+      "epoch": 0.79150390625,
+      "grad_norm": 1.7306710169661095,
+      "kl": 0.060302734375,
+      "learning_rate": 8.021240234375e-07,
+      "loss": 0.0024,
+      "reward": 1.7135973572731018,
+      "reward_std": 0.04537785239517689,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7135973572731018,
+      "step": 1621
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 286.7265625,
+      "epoch": 0.7919921875,
+      "grad_norm": 2.1555906518927137,
+      "kl": 0.0592041015625,
+      "learning_rate": 8.020019531249999e-07,
+      "loss": 0.0024,
+      "reward": 1.6998938918113708,
+      "reward_std": 0.07550182193517685,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6998938918113708,
+      "step": 1622
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 284.84375,
+      "epoch": 0.79248046875,
+      "grad_norm": 1.4507712079046071,
+      "kl": 0.0517578125,
+      "learning_rate": 8.018798828124999e-07,
+      "loss": 0.0021,
+      "reward": 1.7838214635849,
+      "reward_std": 0.08774328604340553,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7838214635848999,
+      "step": 1623
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 345.6171875,
+      "epoch": 0.79296875,
+      "grad_norm": 1.0757521287144136,
+      "kl": 0.041259765625,
+      "learning_rate": 8.017578125e-07,
+      "loss": 0.0017,
+      "reward": 1.8050659894943237,
+      "reward_std": 0.036978503689169884,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.805065929889679,
+      "step": 1624
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 334.75,
+      "epoch": 0.79345703125,
+      "grad_norm": 7.947108074112008,
+      "kl": 0.051513671875,
+      "learning_rate": 8.016357421875e-07,
+      "loss": 0.0021,
+      "reward": 1.6861704587936401,
+      "reward_std": 0.038627080619335175,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6861703991889954,
+      "step": 1625
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 318.2734375,
+      "epoch": 0.7939453125,
+      "grad_norm": 1.9454989447472923,
+      "kl": 0.06591796875,
+      "learning_rate": 8.01513671875e-07,
+      "loss": 0.0026,
+      "reward": 1.6758694648742676,
+      "reward_std": 0.05895833298563957,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6758694648742676,
+      "step": 1626
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 281.75,
+      "epoch": 0.79443359375,
+      "grad_norm": 0.7165968159288184,
+      "kl": 0.0621337890625,
+      "learning_rate": 8.013916015625e-07,
+      "loss": 0.0025,
+      "reward": 1.6823166608810425,
+      "reward_std": 0.02876619715243578,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6823166906833649,
+      "step": 1627
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 340.921875,
+      "epoch": 0.794921875,
+      "grad_norm": 1.5106278082685252,
+      "kl": 0.0543212890625,
+      "learning_rate": 8.012695312499999e-07,
+      "loss": 0.0022,
+      "reward": 1.6847730875015259,
+      "reward_std": 0.13465760834515095,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7082105278968811,
+      "step": 1628
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 299.421875,
+      "epoch": 0.79541015625,
+      "grad_norm": 3.32714688701594,
+      "kl": 0.063720703125,
+      "learning_rate": 8.011474609374999e-07,
+      "loss": 0.0025,
+      "reward": 1.7635406851768494,
+      "reward_std": 0.10127770528197289,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7635407149791718,
+      "step": 1629
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 287.3984375,
+      "epoch": 0.7958984375,
+      "grad_norm": 1.051302145633701,
+      "kl": 0.070556640625,
+      "learning_rate": 8.01025390625e-07,
+      "loss": 0.0028,
+      "reward": 1.6394500732421875,
+      "reward_std": 0.11420125816948712,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.6707001626491547,
+      "step": 1630
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 323.1640625,
+      "epoch": 0.79638671875,
+      "grad_norm": 4.617980559742919,
+      "kl": 0.056396484375,
+      "learning_rate": 8.009033203125e-07,
+      "loss": 0.0023,
+      "reward": 1.6397234201431274,
+      "reward_std": 0.1288561257533729,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6553484499454498,
+      "step": 1631
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 288.515625,
+      "epoch": 0.796875,
+      "grad_norm": 3.2567614792509887,
+      "kl": 0.065185546875,
+      "learning_rate": 8.0078125e-07,
+      "loss": 0.0026,
+      "reward": 1.552538812160492,
+      "reward_std": 0.054762667044997215,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.5525388121604919,
+      "step": 1632
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 271.671875,
+      "epoch": 0.79736328125,
+      "grad_norm": 1.051014835566516,
+      "kl": 0.0572509765625,
+      "learning_rate": 8.006591796875e-07,
+      "loss": 0.0023,
+      "reward": 1.8010156750679016,
+      "reward_std": 0.047447606921195984,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8088282346725464,
+      "step": 1633
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 291.84375,
+      "epoch": 0.7978515625,
+      "grad_norm": 2.2192496100152415,
+      "kl": 0.0694580078125,
+      "learning_rate": 8.00537109375e-07,
+      "loss": 0.0028,
+      "reward": 1.7100372314453125,
+      "reward_std": 0.07988406717777252,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7100372314453125,
+      "step": 1634
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 344.8828125,
+      "epoch": 0.79833984375,
+      "grad_norm": 6.815933212112274,
+      "kl": 0.0489501953125,
+      "learning_rate": 8.004150390624999e-07,
+      "loss": 0.002,
+      "reward": 1.5929869413375854,
+      "reward_std": 0.12428093701601028,
+      "rewards/format_reward": 0.9453125,
+      "rewards/ocr_reward": 0.6476744413375854,
+      "step": 1635
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 338.5625,
+      "epoch": 0.798828125,
+      "grad_norm": 4.025394315862172,
+      "kl": 0.057373046875,
+      "learning_rate": 8.002929687499999e-07,
+      "loss": 0.0023,
+      "reward": 1.6940549612045288,
+      "reward_std": 0.12819510325789452,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7174924910068512,
+      "step": 1636
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 200.109375,
+      "epoch": 0.79931640625,
+      "grad_norm": 58.06981888749972,
+      "kl": 0.065673828125,
+      "learning_rate": 8.001708984375e-07,
+      "loss": 0.0026,
+      "reward": 1.725978434085846,
+      "reward_std": 0.02466776454821229,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.725978434085846,
+      "step": 1637
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 265.09375,
+      "epoch": 0.7998046875,
+      "grad_norm": 7.519107809173853,
+      "kl": 0.0826416015625,
+      "learning_rate": 8.00048828125e-07,
+      "loss": 0.0033,
+      "reward": 1.7485601305961609,
+      "reward_std": 0.04266110900789499,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7485601305961609,
+      "step": 1638
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 319.234375,
+      "epoch": 0.80029296875,
+      "grad_norm": 3.1218867448796446,
+      "kl": 0.0673828125,
+      "learning_rate": 7.999267578125e-07,
+      "loss": 0.0027,
+      "reward": 1.772888958454132,
+      "reward_std": 0.04786605387926102,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7728888988494873,
+      "step": 1639
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 318.421875,
+      "epoch": 0.80078125,
+      "grad_norm": 3.916540661111048,
+      "kl": 0.064697265625,
+      "learning_rate": 7.998046875e-07,
+      "loss": 0.0026,
+      "reward": 1.6346943378448486,
+      "reward_std": 0.15634194761514664,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.6581318378448486,
+      "step": 1640
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 302.046875,
+      "epoch": 0.80126953125,
+      "grad_norm": 2.7275559731450985,
+      "kl": 0.068359375,
+      "learning_rate": 7.996826171874999e-07,
+      "loss": 0.0027,
+      "reward": 1.7609490156173706,
+      "reward_std": 0.09491265751421452,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7687614560127258,
+      "step": 1641
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 375.953125,
+      "epoch": 0.8017578125,
+      "grad_norm": 1.3559434809235391,
+      "kl": 0.05126953125,
+      "learning_rate": 7.995605468749999e-07,
+      "loss": 0.002,
+      "reward": 1.7670413851737976,
+      "reward_std": 0.046386873349547386,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7670413553714752,
+      "step": 1642
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 307.6484375,
+      "epoch": 0.80224609375,
+      "grad_norm": 0.9556319282815477,
+      "kl": 0.060302734375,
+      "learning_rate": 7.994384765625e-07,
+      "loss": 0.0024,
+      "reward": 1.7157460451126099,
+      "reward_std": 0.11387444660067558,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.7548085451126099,
+      "step": 1643
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 327.09375,
+      "epoch": 0.802734375,
+      "grad_norm": 1.7945424457176717,
+      "kl": 0.0653076171875,
+      "learning_rate": 7.9931640625e-07,
+      "loss": 0.0026,
+      "reward": 1.6921892762184143,
+      "reward_std": 0.18082339316606522,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7156267762184143,
+      "step": 1644
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 227.6015625,
+      "epoch": 0.80322265625,
+      "grad_norm": 1.75248051233542,
+      "kl": 0.0631103515625,
+      "learning_rate": 7.991943359375e-07,
+      "loss": 0.0025,
+      "reward": 1.728013813495636,
+      "reward_std": 0.12820342928171158,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.751451313495636,
+      "step": 1645
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 335.4140625,
+      "epoch": 0.8037109375,
+      "grad_norm": 1.5536038507658307,
+      "kl": 0.054443359375,
+      "learning_rate": 7.99072265625e-07,
+      "loss": 0.0022,
+      "reward": 1.7276506423950195,
+      "reward_std": 0.08504182286560535,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7354631721973419,
+      "step": 1646
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 345.8671875,
+      "epoch": 0.80419921875,
+      "grad_norm": 1.3916694913938594,
+      "kl": 0.056884765625,
+      "learning_rate": 7.989501953125e-07,
+      "loss": 0.0023,
+      "reward": 1.7095491290092468,
+      "reward_std": 0.12051964923739433,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7329866290092468,
+      "step": 1647
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 213.9375,
+      "epoch": 0.8046875,
+      "grad_norm": 3.2993635236882883,
+      "kl": 0.0543212890625,
+      "learning_rate": 7.988281249999999e-07,
+      "loss": 0.0022,
+      "reward": 1.8719586730003357,
+      "reward_std": 0.06403150595724583,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8797712028026581,
+      "step": 1648
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 251.46875,
+      "epoch": 0.80517578125,
+      "grad_norm": 1.5159143122250482,
+      "kl": 0.0556640625,
+      "learning_rate": 7.987060546874999e-07,
+      "loss": 0.0022,
+      "reward": 1.6899768710136414,
+      "reward_std": 0.026911514345556498,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6899769306182861,
+      "step": 1649
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 275.15625,
+      "epoch": 0.8056640625,
+      "grad_norm": 1.7764803050121032,
+      "kl": 0.0616455078125,
+      "learning_rate": 7.98583984375e-07,
+      "loss": 0.0025,
+      "reward": 1.7939913868904114,
+      "reward_std": 0.08574027381837368,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8018038868904114,
+      "step": 1650
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 352.875,
+      "epoch": 0.80615234375,
+      "grad_norm": 1.7844460075537483,
+      "kl": 0.0601806640625,
+      "learning_rate": 7.984619140625e-07,
+      "loss": 0.0024,
+      "reward": 1.7695591449737549,
+      "reward_std": 0.07760765310376883,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7773716747760773,
+      "step": 1651
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 338.5078125,
+      "epoch": 0.806640625,
+      "grad_norm": 0.8825730937574552,
+      "kl": 0.04833984375,
+      "learning_rate": 7.9833984375e-07,
+      "loss": 0.0019,
+      "reward": 1.680052638053894,
+      "reward_std": 0.056173376739025116,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.680052638053894,
+      "step": 1652
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 268.84375,
+      "epoch": 0.80712890625,
+      "grad_norm": 1.582841548895619,
+      "kl": 0.0606689453125,
+      "learning_rate": 7.982177734375e-07,
+      "loss": 0.0024,
+      "reward": 1.8114255666732788,
+      "reward_std": 0.0704609714448452,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8114255368709564,
+      "step": 1653
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 286.46875,
+      "epoch": 0.8076171875,
+      "grad_norm": 3.246295454745955,
+      "kl": 0.0618896484375,
+      "learning_rate": 7.980957031249999e-07,
+      "loss": 0.0025,
+      "reward": 1.7257680296897888,
+      "reward_std": 0.097720542922616,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7413930892944336,
+      "step": 1654
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 210.828125,
+      "epoch": 0.80810546875,
+      "grad_norm": 8.02326668523963,
+      "kl": 0.06982421875,
+      "learning_rate": 7.979736328124999e-07,
+      "loss": 0.0028,
+      "reward": 1.832155466079712,
+      "reward_std": 0.06834479048848152,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8321554660797119,
+      "step": 1655
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 299.4609375,
+      "epoch": 0.80859375,
+      "grad_norm": 1.8274593522243785,
+      "kl": 0.0556640625,
+      "learning_rate": 7.978515624999999e-07,
+      "loss": 0.0022,
+      "reward": 1.7873517274856567,
+      "reward_std": 0.030621130019426346,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7873516976833344,
+      "step": 1656
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 264.140625,
+      "epoch": 0.80908203125,
+      "grad_norm": 1.4152329913916,
+      "kl": 0.0572509765625,
+      "learning_rate": 7.977294921875e-07,
+      "loss": 0.0023,
+      "reward": 1.7179552912712097,
+      "reward_std": 0.09283644892275333,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7179553210735321,
+      "step": 1657
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 292.5078125,
+      "epoch": 0.8095703125,
+      "grad_norm": 1.913575589493602,
+      "kl": 0.07080078125,
+      "learning_rate": 7.97607421875e-07,
+      "loss": 0.0028,
+      "reward": 1.7112517356872559,
+      "reward_std": 0.08975563384592533,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7190642654895782,
+      "step": 1658
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 310.5703125,
+      "epoch": 0.81005859375,
+      "grad_norm": 2.458378061669866,
+      "kl": 0.0548095703125,
+      "learning_rate": 7.974853515625e-07,
+      "loss": 0.0022,
+      "reward": 1.7066927552223206,
+      "reward_std": 0.0858432799577713,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7066927552223206,
+      "step": 1659
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 337.359375,
+      "epoch": 0.810546875,
+      "grad_norm": 17.6320865532267,
+      "kl": 0.0396728515625,
+      "learning_rate": 7.9736328125e-07,
+      "loss": 0.0016,
+      "reward": 1.7677738666534424,
+      "reward_std": 0.04016917198896408,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7677737772464752,
+      "step": 1660
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 324.046875,
+      "epoch": 0.81103515625,
+      "grad_norm": 2.7897545470605953,
+      "kl": 0.0859375,
+      "learning_rate": 7.972412109374999e-07,
+      "loss": 0.0034,
+      "reward": 1.7481929063796997,
+      "reward_std": 0.1298337448388338,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7560054063796997,
+      "step": 1661
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 293.28125,
+      "epoch": 0.8115234375,
+      "grad_norm": 1.3955624722306827,
+      "kl": 0.0496826171875,
+      "learning_rate": 7.971191406249999e-07,
+      "loss": 0.002,
+      "reward": 1.782720685005188,
+      "reward_std": 0.04922756180167198,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.782720685005188,
+      "step": 1662
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 250.265625,
+      "epoch": 0.81201171875,
+      "grad_norm": 2.3186462742034055,
+      "kl": 0.076171875,
+      "learning_rate": 7.969970703125e-07,
+      "loss": 0.003,
+      "reward": 1.715933918952942,
+      "reward_std": 0.09554797038435936,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7159339785575867,
+      "step": 1663
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 331.203125,
+      "epoch": 0.8125,
+      "grad_norm": 1.3672621736408754,
+      "kl": 0.0516357421875,
+      "learning_rate": 7.96875e-07,
+      "loss": 0.0021,
+      "reward": 1.6866209506988525,
+      "reward_std": 0.0732644684612751,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7022460103034973,
+      "step": 1664
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 305.0390625,
+      "epoch": 0.81298828125,
+      "grad_norm": 2.4881291764185476,
+      "kl": 0.053466796875,
+      "learning_rate": 7.967529296875e-07,
+      "loss": 0.0021,
+      "reward": 1.7344902157783508,
+      "reward_std": 0.056121040135622025,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7344902157783508,
+      "step": 1665
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 234.109375,
+      "epoch": 0.8134765625,
+      "grad_norm": 1.9066576061889415,
+      "kl": 0.056396484375,
+      "learning_rate": 7.96630859375e-07,
+      "loss": 0.0023,
+      "reward": 1.777056872844696,
+      "reward_std": 0.10177679359912872,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7770569026470184,
+      "step": 1666
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 295.15625,
+      "epoch": 0.81396484375,
+      "grad_norm": 5.827878805206846,
+      "kl": 0.05078125,
+      "learning_rate": 7.965087890624999e-07,
+      "loss": 0.002,
+      "reward": 1.8067973852157593,
+      "reward_std": 0.0667799562215805,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8067973554134369,
+      "step": 1667
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 365.53125,
+      "epoch": 0.814453125,
+      "grad_norm": 1.8284939496819252,
+      "kl": 0.0498046875,
+      "learning_rate": 7.963867187499999e-07,
+      "loss": 0.002,
+      "reward": 1.7949933409690857,
+      "reward_std": 0.12090729176998138,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8028059005737305,
+      "step": 1668
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 337.7578125,
+      "epoch": 0.81494140625,
+      "grad_norm": 1.7262715269151432,
+      "kl": 0.060791015625,
+      "learning_rate": 7.962646484374999e-07,
+      "loss": 0.0024,
+      "reward": 1.7913283109664917,
+      "reward_std": 0.09738441929221153,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7991408109664917,
+      "step": 1669
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 323.7421875,
+      "epoch": 0.8154296875,
+      "grad_norm": 3.374343895722311,
+      "kl": 0.04833984375,
+      "learning_rate": 7.96142578125e-07,
+      "loss": 0.0019,
+      "reward": 1.7700502276420593,
+      "reward_std": 0.11497660167515278,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7934877574443817,
+      "step": 1670
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 353.046875,
+      "epoch": 0.81591796875,
+      "grad_norm": 8.785283536535555,
+      "kl": 0.053466796875,
+      "learning_rate": 7.960205078125e-07,
+      "loss": 0.0021,
+      "reward": 1.803626537322998,
+      "reward_std": 0.04715009219944477,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8036265671253204,
+      "step": 1671
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 363.1796875,
+      "epoch": 0.81640625,
+      "grad_norm": 3.7883503464800756,
+      "kl": 0.05322265625,
+      "learning_rate": 7.958984375e-07,
+      "loss": 0.0021,
+      "reward": 1.789641559123993,
+      "reward_std": 0.07576981373131275,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7974540293216705,
+      "step": 1672
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 293.4296875,
+      "epoch": 0.81689453125,
+      "grad_norm": 2.623805320468466,
+      "kl": 0.05810546875,
+      "learning_rate": 7.957763671875e-07,
+      "loss": 0.0023,
+      "reward": 1.6763262748718262,
+      "reward_std": 0.07890587951987982,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6763262748718262,
+      "step": 1673
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 342.6484375,
+      "epoch": 0.8173828125,
+      "grad_norm": 1.265922144311732,
+      "kl": 0.0582275390625,
+      "learning_rate": 7.956542968749999e-07,
+      "loss": 0.0023,
+      "reward": 1.8311368823051453,
+      "reward_std": 0.05044192261993885,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.83113694190979,
+      "step": 1674
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 269.3828125,
+      "epoch": 0.81787109375,
+      "grad_norm": 1.1222356683541728,
+      "kl": 0.0572509765625,
+      "learning_rate": 7.955322265624999e-07,
+      "loss": 0.0023,
+      "reward": 1.777391493320465,
+      "reward_std": 0.028398778289556503,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7773914933204651,
+      "step": 1675
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 195.671875,
+      "epoch": 0.818359375,
+      "grad_norm": 1.3969206681569204,
+      "kl": 0.0718994140625,
+      "learning_rate": 7.9541015625e-07,
+      "loss": 0.0029,
+      "reward": 1.7802749872207642,
+      "reward_std": 0.03433122206479311,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7802750468254089,
+      "step": 1676
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 318.2421875,
+      "epoch": 0.81884765625,
+      "grad_norm": 1.7764370939806322,
+      "kl": 0.0650634765625,
+      "learning_rate": 7.952880859375e-07,
+      "loss": 0.0026,
+      "reward": 1.754819393157959,
+      "reward_std": 0.05870789662003517,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7548194527626038,
+      "step": 1677
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 339.0078125,
+      "epoch": 0.8193359375,
+      "grad_norm": 3.8365527733566775,
+      "kl": 0.0601806640625,
+      "learning_rate": 7.95166015625e-07,
+      "loss": 0.0024,
+      "reward": 1.7233573198318481,
+      "reward_std": 0.07569370232522488,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7233573496341705,
+      "step": 1678
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 338.8203125,
+      "epoch": 0.81982421875,
+      "grad_norm": 0.9365014960349338,
+      "kl": 0.0455322265625,
+      "learning_rate": 7.950439453125e-07,
+      "loss": 0.0018,
+      "reward": 1.6805170774459839,
+      "reward_std": 0.10303526744246483,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6961420774459839,
+      "step": 1679
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 286.375,
+      "epoch": 0.8203125,
+      "grad_norm": 2.7631417410653833,
+      "kl": 0.0693359375,
+      "learning_rate": 7.949218749999999e-07,
+      "loss": 0.0028,
+      "reward": 1.8013280034065247,
+      "reward_std": 0.04317835159599781,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8013280034065247,
+      "step": 1680
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 361.4921875,
+      "epoch": 0.82080078125,
+      "grad_norm": 1.7477349200279404,
+      "kl": 0.05322265625,
+      "learning_rate": 7.947998046874999e-07,
+      "loss": 0.0021,
+      "reward": 1.7636698484420776,
+      "reward_std": 0.08129507303237915,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7636699080467224,
+      "step": 1681
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 304.2890625,
+      "epoch": 0.8212890625,
+      "grad_norm": 42.813192741926215,
+      "kl": 0.0697021484375,
+      "learning_rate": 7.946777343749999e-07,
+      "loss": 0.0028,
+      "reward": 1.707559585571289,
+      "reward_std": 0.04496626928448677,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7075595855712891,
+      "step": 1682
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 306.2734375,
+      "epoch": 0.82177734375,
+      "grad_norm": 0.9238209123448747,
+      "kl": 0.061279296875,
+      "learning_rate": 7.945556640625e-07,
+      "loss": 0.0024,
+      "reward": 1.7082937955856323,
+      "reward_std": 0.08139174059033394,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7161062955856323,
+      "step": 1683
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 284.890625,
+      "epoch": 0.822265625,
+      "grad_norm": 1.8243450346823835,
+      "kl": 0.0543212890625,
+      "learning_rate": 7.9443359375e-07,
+      "loss": 0.0022,
+      "reward": 1.7618046402931213,
+      "reward_std": 0.08494714740663767,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7696171402931213,
+      "step": 1684
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 331.28125,
+      "epoch": 0.82275390625,
+      "grad_norm": 0.9658134449963954,
+      "kl": 0.0517578125,
+      "learning_rate": 7.943115234375e-07,
+      "loss": 0.0021,
+      "reward": 1.8145250082015991,
+      "reward_std": 0.0333581417798996,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8145250082015991,
+      "step": 1685
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 333.1171875,
+      "epoch": 0.8232421875,
+      "grad_norm": 3.3053961272613166,
+      "kl": 0.0567626953125,
+      "learning_rate": 7.94189453125e-07,
+      "loss": 0.0023,
+      "reward": 1.7290484309196472,
+      "reward_std": 0.07806419394910336,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.736860990524292,
+      "step": 1686
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 253.3828125,
+      "epoch": 0.82373046875,
+      "grad_norm": 2.2314315017058552,
+      "kl": 0.0634765625,
+      "learning_rate": 7.940673828124999e-07,
+      "loss": 0.0025,
+      "reward": 1.694116473197937,
+      "reward_std": 0.09638424962759018,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6941164433956146,
+      "step": 1687
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 250.6484375,
+      "epoch": 0.82421875,
+      "grad_norm": 28.71281793769175,
+      "kl": 0.072509765625,
+      "learning_rate": 7.939453124999999e-07,
+      "loss": 0.0029,
+      "reward": 1.6306800842285156,
+      "reward_std": 0.06786506250500679,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6306800842285156,
+      "step": 1688
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 308.7734375,
+      "epoch": 0.82470703125,
+      "grad_norm": 1.81316275312339,
+      "kl": 0.062255859375,
+      "learning_rate": 7.938232421875e-07,
+      "loss": 0.0025,
+      "reward": 1.754611313343048,
+      "reward_std": 0.04153428506106138,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7546113431453705,
+      "step": 1689
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 307.328125,
+      "epoch": 0.8251953125,
+      "grad_norm": 1.230137752824096,
+      "kl": 0.0703125,
+      "learning_rate": 7.93701171875e-07,
+      "loss": 0.0028,
+      "reward": 1.7025874853134155,
+      "reward_std": 0.08435030654072762,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7025875449180603,
+      "step": 1690
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 253.2109375,
+      "epoch": 0.82568359375,
+      "grad_norm": 3.3713817064505265,
+      "kl": 0.072509765625,
+      "learning_rate": 7.935791015625e-07,
+      "loss": 0.0029,
+      "reward": 1.6434346437454224,
+      "reward_std": 0.04744470492005348,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6434346735477448,
+      "step": 1691
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 261.234375,
+      "epoch": 0.826171875,
+      "grad_norm": 1.7471049654231616,
+      "kl": 0.052978515625,
+      "learning_rate": 7.9345703125e-07,
+      "loss": 0.0021,
+      "reward": 1.7282820343971252,
+      "reward_std": 0.08323949202895164,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.73609459400177,
+      "step": 1692
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 304.8046875,
+      "epoch": 0.82666015625,
+      "grad_norm": 1.8268182609321926,
+      "kl": 0.0521240234375,
+      "learning_rate": 7.933349609375e-07,
+      "loss": 0.0021,
+      "reward": 1.845442295074463,
+      "reward_std": 0.08247396722435951,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8454422950744629,
+      "step": 1693
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 272.28125,
+      "epoch": 0.8271484375,
+      "grad_norm": 2.2899500423574617,
+      "kl": 0.0655517578125,
+      "learning_rate": 7.932128906249999e-07,
+      "loss": 0.0026,
+      "reward": 1.7103111743927002,
+      "reward_std": 0.018862903118133545,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7103111147880554,
+      "step": 1694
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 280.203125,
+      "epoch": 0.82763671875,
+      "grad_norm": 0.824676866426935,
+      "kl": 0.0635986328125,
+      "learning_rate": 7.930908203124999e-07,
+      "loss": 0.0025,
+      "reward": 1.7673900723457336,
+      "reward_std": 0.05198059044778347,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7673900127410889,
+      "step": 1695
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 313.6796875,
+      "epoch": 0.828125,
+      "grad_norm": 1.5355026194431203,
+      "kl": 0.066650390625,
+      "learning_rate": 7.9296875e-07,
+      "loss": 0.0027,
+      "reward": 1.683157503604889,
+      "reward_std": 0.14624864608049393,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6987824440002441,
+      "step": 1696
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 294.890625,
+      "epoch": 0.82861328125,
+      "grad_norm": 2.0932753654505145,
+      "kl": 0.0615234375,
+      "learning_rate": 7.928466796875e-07,
+      "loss": 0.0025,
+      "reward": 1.7546579837799072,
+      "reward_std": 0.048308661207556725,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7546580135822296,
+      "step": 1697
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 300.875,
+      "epoch": 0.8291015625,
+      "grad_norm": 1.4463454973748548,
+      "kl": 0.0565185546875,
+      "learning_rate": 7.92724609375e-07,
+      "loss": 0.0023,
+      "reward": 1.8585106134414673,
+      "reward_std": 0.07304185070097446,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8585106730461121,
+      "step": 1698
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 285.109375,
+      "epoch": 0.82958984375,
+      "grad_norm": 2.8574585912703454,
+      "kl": 0.052734375,
+      "learning_rate": 7.926025390625e-07,
+      "loss": 0.0021,
+      "reward": 1.8252478241920471,
+      "reward_std": 0.06224694475531578,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8252477645874023,
+      "step": 1699
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 309.15625,
+      "epoch": 0.830078125,
+      "grad_norm": 3.057914572093619,
+      "kl": 0.047119140625,
+      "learning_rate": 7.924804687499999e-07,
+      "loss": 0.0019,
+      "reward": 1.7930091619491577,
+      "reward_std": 0.0563307236880064,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7930091023445129,
+      "step": 1700
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 249.3984375,
+      "epoch": 0.83056640625,
+      "grad_norm": 4.684114511035403,
+      "kl": 0.078125,
+      "learning_rate": 7.923583984374999e-07,
+      "loss": 0.0031,
+      "reward": 1.716322124004364,
+      "reward_std": 0.10844194889068604,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7163220942020416,
+      "step": 1701
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 246.4140625,
+      "epoch": 0.8310546875,
+      "grad_norm": 0.8021038944890889,
+      "kl": 0.053466796875,
+      "learning_rate": 7.92236328125e-07,
+      "loss": 0.0021,
+      "reward": 1.882490634918213,
+      "reward_std": 0.033562688156962395,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8824906647205353,
+      "step": 1702
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 321.125,
+      "epoch": 0.83154296875,
+      "grad_norm": 1.6259472943086517,
+      "kl": 0.0560302734375,
+      "learning_rate": 7.921142578125e-07,
+      "loss": 0.0022,
+      "reward": 1.7306804060935974,
+      "reward_std": 0.06768567860126495,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.730680376291275,
+      "step": 1703
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 302.0625,
+      "epoch": 0.83203125,
+      "grad_norm": 1.5177838768420855,
+      "kl": 0.0523681640625,
+      "learning_rate": 7.919921875e-07,
+      "loss": 0.0021,
+      "reward": 1.7253316640853882,
+      "reward_std": 0.08401273377239704,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7331441044807434,
+      "step": 1704
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 261.3203125,
+      "epoch": 0.83251953125,
+      "grad_norm": 3.735972907900447,
+      "kl": 0.0751953125,
+      "learning_rate": 7.918701171875e-07,
+      "loss": 0.003,
+      "reward": 1.7001928091049194,
+      "reward_std": 0.12967666238546371,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7001928091049194,
+      "step": 1705
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 257.890625,
+      "epoch": 0.8330078125,
+      "grad_norm": 1.4428376073481957,
+      "kl": 0.072021484375,
+      "learning_rate": 7.91748046875e-07,
+      "loss": 0.0029,
+      "reward": 1.723404347896576,
+      "reward_std": 0.055715300142765045,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7234043180942535,
+      "step": 1706
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 259.4765625,
+      "epoch": 0.83349609375,
+      "grad_norm": 1.345764950057352,
+      "kl": 0.0791015625,
+      "learning_rate": 7.916259765624999e-07,
+      "loss": 0.0032,
+      "reward": 1.6827195286750793,
+      "reward_std": 0.04551626928150654,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6827195584774017,
+      "step": 1707
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 360.6796875,
+      "epoch": 0.833984375,
+      "grad_norm": 1.3356449765278338,
+      "kl": 0.048828125,
+      "learning_rate": 7.915039062499999e-07,
+      "loss": 0.002,
+      "reward": 1.700093388557434,
+      "reward_std": 0.07758311927318573,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7000934183597565,
+      "step": 1708
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 306.9765625,
+      "epoch": 0.83447265625,
+      "grad_norm": 4.208157265473066,
+      "kl": 0.0489501953125,
+      "learning_rate": 7.913818359375e-07,
+      "loss": 0.002,
+      "reward": 1.6747546792030334,
+      "reward_std": 0.05638587847352028,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6747547090053558,
+      "step": 1709
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 280.0859375,
+      "epoch": 0.8349609375,
+      "grad_norm": 1.1933173641003354,
+      "kl": 0.057861328125,
+      "learning_rate": 7.91259765625e-07,
+      "loss": 0.0023,
+      "reward": 1.814025104045868,
+      "reward_std": 0.031041912734508514,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8140251636505127,
+      "step": 1710
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 336.109375,
+      "epoch": 0.83544921875,
+      "grad_norm": 1.533800629531482,
+      "kl": 0.0560302734375,
+      "learning_rate": 7.911376953125e-07,
+      "loss": 0.0022,
+      "reward": 1.785912573337555,
+      "reward_std": 0.04343899525702,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7859126031398773,
+      "step": 1711
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 302.8203125,
+      "epoch": 0.8359375,
+      "grad_norm": 1.5278482313965254,
+      "kl": 0.05859375,
+      "learning_rate": 7.91015625e-07,
+      "loss": 0.0023,
+      "reward": 1.6969901323318481,
+      "reward_std": 0.05987878702580929,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6969901621341705,
+      "step": 1712
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 305.40625,
+      "epoch": 0.83642578125,
+      "grad_norm": 2.174348828215157,
+      "kl": 0.0538330078125,
+      "learning_rate": 7.908935546874999e-07,
+      "loss": 0.0022,
+      "reward": 1.6450940370559692,
+      "reward_std": 0.13033273071050644,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6529065370559692,
+      "step": 1713
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 339.21875,
+      "epoch": 0.8369140625,
+      "grad_norm": 2.4062321676761877,
+      "kl": 0.0526123046875,
+      "learning_rate": 7.907714843749999e-07,
+      "loss": 0.0021,
+      "reward": 1.8309618830680847,
+      "reward_std": 0.04240616038441658,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8309618830680847,
+      "step": 1714
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 280.1171875,
+      "epoch": 0.83740234375,
+      "grad_norm": 2.977096488750238,
+      "kl": 0.05517578125,
+      "learning_rate": 7.906494140625e-07,
+      "loss": 0.0022,
+      "reward": 1.7772547602653503,
+      "reward_std": 0.07366564497351646,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.777254730463028,
+      "step": 1715
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 328.8203125,
+      "epoch": 0.837890625,
+      "grad_norm": 1.5557139163461535,
+      "kl": 0.0499267578125,
+      "learning_rate": 7.9052734375e-07,
+      "loss": 0.002,
+      "reward": 1.7700649499893188,
+      "reward_std": 0.04422549903392792,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7700649499893188,
+      "step": 1716
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 282.1796875,
+      "epoch": 0.83837890625,
+      "grad_norm": 2.338925760005317,
+      "kl": 0.0511474609375,
+      "learning_rate": 7.904052734375e-07,
+      "loss": 0.002,
+      "reward": 1.6442299485206604,
+      "reward_std": 0.09395516850054264,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6520424783229828,
+      "step": 1717
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 186.1328125,
+      "epoch": 0.8388671875,
+      "grad_norm": 1.824044711639337,
+      "kl": 0.0684814453125,
+      "learning_rate": 7.90283203125e-07,
+      "loss": 0.0027,
+      "reward": 1.5608445405960083,
+      "reward_std": 0.09194111078977585,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.5608445107936859,
+      "step": 1718
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 256.234375,
+      "epoch": 0.83935546875,
+      "grad_norm": 4.462873508127259,
+      "kl": 0.05078125,
+      "learning_rate": 7.901611328125e-07,
+      "loss": 0.002,
+      "reward": 1.8095470070838928,
+      "reward_std": 0.05928418226540089,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8095470666885376,
+      "step": 1719
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 278.0859375,
+      "epoch": 0.83984375,
+      "grad_norm": 1.7361959977725214,
+      "kl": 0.05419921875,
+      "learning_rate": 7.900390624999999e-07,
+      "loss": 0.0022,
+      "reward": 1.811360478401184,
+      "reward_std": 0.03823063708841801,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8113605082035065,
+      "step": 1720
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 277.4140625,
+      "epoch": 0.84033203125,
+      "grad_norm": 2.1880703343070445,
+      "kl": 0.0506591796875,
+      "learning_rate": 7.899169921874999e-07,
+      "loss": 0.002,
+      "reward": 1.8319576978683472,
+      "reward_std": 0.08859403431415558,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8397701978683472,
+      "step": 1721
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 341.0,
+      "epoch": 0.8408203125,
+      "grad_norm": 1.090543206713142,
+      "kl": 0.0567626953125,
+      "learning_rate": 7.89794921875e-07,
+      "loss": 0.0023,
+      "reward": 1.854802429676056,
+      "reward_std": 0.045012121088802814,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8548024296760559,
+      "step": 1722
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 371.2265625,
+      "epoch": 0.84130859375,
+      "grad_norm": 2.292205761747624,
+      "kl": 0.0625,
+      "learning_rate": 7.896728515625e-07,
+      "loss": 0.0025,
+      "reward": 1.6879829168319702,
+      "reward_std": 0.08614437095820904,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.687982976436615,
+      "step": 1723
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 294.21875,
+      "epoch": 0.841796875,
+      "grad_norm": 2.59542146501557,
+      "kl": 0.058349609375,
+      "learning_rate": 7.8955078125e-07,
+      "loss": 0.0023,
+      "reward": 1.6968461871147156,
+      "reward_std": 0.041891030967235565,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6968461871147156,
+      "step": 1724
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 233.75,
+      "epoch": 0.84228515625,
+      "grad_norm": 1.920538563839018,
+      "kl": 0.0645751953125,
+      "learning_rate": 7.894287109375e-07,
+      "loss": 0.0026,
+      "reward": 1.6629520654678345,
+      "reward_std": 0.02853654231876135,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6629520356655121,
+      "step": 1725
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 307.484375,
+      "epoch": 0.8427734375,
+      "grad_norm": 1.6048607833077935,
+      "kl": 0.047119140625,
+      "learning_rate": 7.893066406249999e-07,
+      "loss": 0.0019,
+      "reward": 1.7042565941810608,
+      "reward_std": 0.07790570706129074,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7198816537857056,
+      "step": 1726
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 236.890625,
+      "epoch": 0.84326171875,
+      "grad_norm": 1.3785295989211974,
+      "kl": 0.06787109375,
+      "learning_rate": 7.891845703124999e-07,
+      "loss": 0.0027,
+      "reward": 1.6507259607315063,
+      "reward_std": 0.03808063454926014,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6507259607315063,
+      "step": 1727
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 267.890625,
+      "epoch": 0.84375,
+      "grad_norm": 12.126077178793409,
+      "kl": 0.0609130859375,
+      "learning_rate": 7.890625e-07,
+      "loss": 0.0024,
+      "reward": 1.749779462814331,
+      "reward_std": 0.04450598731637001,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.749779462814331,
+      "step": 1728
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 288.5859375,
+      "epoch": 0.84423828125,
+      "grad_norm": 1.3126743985604528,
+      "kl": 0.0645751953125,
+      "learning_rate": 7.889404296875e-07,
+      "loss": 0.0026,
+      "reward": 1.726485550403595,
+      "reward_std": 0.04436471126973629,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.726485550403595,
+      "step": 1729
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 305.6953125,
+      "epoch": 0.8447265625,
+      "grad_norm": 7.765244544687918,
+      "kl": 0.0594482421875,
+      "learning_rate": 7.88818359375e-07,
+      "loss": 0.0024,
+      "reward": 1.559519112110138,
+      "reward_std": 0.044531380757689476,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.5595191121101379,
+      "step": 1730
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 319.71875,
+      "epoch": 0.84521484375,
+      "grad_norm": 1.507983096496928,
+      "kl": 0.0557861328125,
+      "learning_rate": 7.886962890625e-07,
+      "loss": 0.0022,
+      "reward": 1.634689450263977,
+      "reward_std": 0.1870577111840248,
+      "rewards/format_reward": 0.9453125,
+      "rewards/ocr_reward": 0.689376950263977,
+      "step": 1731
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 308.0234375,
+      "epoch": 0.845703125,
+      "grad_norm": 0.6714636709114369,
+      "kl": 0.05126953125,
+      "learning_rate": 7.8857421875e-07,
+      "loss": 0.002,
+      "reward": 1.9045502543449402,
+      "reward_std": 0.06615402922034264,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.912362813949585,
+      "step": 1732
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 225.84375,
+      "epoch": 0.84619140625,
+      "grad_norm": 2.1809232819190214,
+      "kl": 0.064697265625,
+      "learning_rate": 7.884521484374999e-07,
+      "loss": 0.0026,
+      "reward": 1.6859930753707886,
+      "reward_std": 0.07783360034227371,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6859930753707886,
+      "step": 1733
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 247.8515625,
+      "epoch": 0.8466796875,
+      "grad_norm": 1.498211478873343,
+      "kl": 0.068603515625,
+      "learning_rate": 7.883300781249999e-07,
+      "loss": 0.0027,
+      "reward": 1.773053526878357,
+      "reward_std": 0.050117356702685356,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7730535268783569,
+      "step": 1734
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 258.3359375,
+      "epoch": 0.84716796875,
+      "grad_norm": 3.1690030279370487,
+      "kl": 0.0716552734375,
+      "learning_rate": 7.882080078125e-07,
+      "loss": 0.0029,
+      "reward": 1.632994532585144,
+      "reward_std": 0.06776593998074532,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6329945027828217,
+      "step": 1735
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 399.078125,
+      "epoch": 0.84765625,
+      "grad_norm": 3.785740665297623,
+      "kl": 0.0543212890625,
+      "learning_rate": 7.880859375e-07,
+      "loss": 0.0022,
+      "reward": 1.757651686668396,
+      "reward_std": 0.07453594170510769,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7654642462730408,
+      "step": 1736
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 299.1796875,
+      "epoch": 0.84814453125,
+      "grad_norm": 0.7651577403292609,
+      "kl": 0.0570068359375,
+      "learning_rate": 7.879638671875e-07,
+      "loss": 0.0023,
+      "reward": 1.7877587676048279,
+      "reward_std": 0.055866248439997435,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7955712676048279,
+      "step": 1737
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 398.3203125,
+      "epoch": 0.8486328125,
+      "grad_norm": 0.9326597932338185,
+      "kl": 0.04638671875,
+      "learning_rate": 7.87841796875e-07,
+      "loss": 0.0019,
+      "reward": 1.7322826385498047,
+      "reward_std": 0.06718971207737923,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7322825789451599,
+      "step": 1738
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 339.9296875,
+      "epoch": 0.84912109375,
+      "grad_norm": 1.093915850549881,
+      "kl": 0.051025390625,
+      "learning_rate": 7.877197265624999e-07,
+      "loss": 0.002,
+      "reward": 1.7318394184112549,
+      "reward_std": 0.057227155193686485,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7318393290042877,
+      "step": 1739
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 312.0625,
+      "epoch": 0.849609375,
+      "grad_norm": 4.525173371174026,
+      "kl": 0.077880859375,
+      "learning_rate": 7.875976562499999e-07,
+      "loss": 0.0031,
+      "reward": 1.5092061758041382,
+      "reward_std": 0.12106321007013321,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.5248312056064606,
+      "step": 1740
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 280.8046875,
+      "epoch": 0.85009765625,
+      "grad_norm": 2.8086114016486823,
+      "kl": 0.071533203125,
+      "learning_rate": 7.874755859375e-07,
+      "loss": 0.0029,
+      "reward": 1.820200264453888,
+      "reward_std": 0.0870150737464428,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8202002048492432,
+      "step": 1741
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 236.40625,
+      "epoch": 0.8505859375,
+      "grad_norm": 3.4822870448370913,
+      "kl": 0.047607421875,
+      "learning_rate": 7.87353515625e-07,
+      "loss": 0.0019,
+      "reward": 1.8253133296966553,
+      "reward_std": 0.07836700230836868,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8253132998943329,
+      "step": 1742
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 335.7578125,
+      "epoch": 0.85107421875,
+      "grad_norm": 2.114293687003822,
+      "kl": 0.04248046875,
+      "learning_rate": 7.872314453125e-07,
+      "loss": 0.0017,
+      "reward": 1.8304061889648438,
+      "reward_std": 0.12630556523799896,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.8460312485694885,
+      "step": 1743
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 293.8671875,
+      "epoch": 0.8515625,
+      "grad_norm": 2.6990671836659295,
+      "kl": 0.05908203125,
+      "learning_rate": 7.87109375e-07,
+      "loss": 0.0024,
+      "reward": 1.7995912432670593,
+      "reward_std": 0.04738871939480305,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7995912134647369,
+      "step": 1744
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 293.3359375,
+      "epoch": 0.85205078125,
+      "grad_norm": 1.14016156478151,
+      "kl": 0.06689453125,
+      "learning_rate": 7.869873046875e-07,
+      "loss": 0.0027,
+      "reward": 1.6955284476280212,
+      "reward_std": 0.13801120221614838,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.7345908880233765,
+      "step": 1745
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 396.328125,
+      "epoch": 0.8525390625,
+      "grad_norm": 1.7919196097725265,
+      "kl": 0.0452880859375,
+      "learning_rate": 7.868652343749999e-07,
+      "loss": 0.0018,
+      "reward": 1.7723374962806702,
+      "reward_std": 0.09062624350190163,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7801499664783478,
+      "step": 1746
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 263.28125,
+      "epoch": 0.85302734375,
+      "grad_norm": 2.2144660721415805,
+      "kl": 0.0555419921875,
+      "learning_rate": 7.867431640624999e-07,
+      "loss": 0.0022,
+      "reward": 1.814075231552124,
+      "reward_std": 0.08035072684288025,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.814075231552124,
+      "step": 1747
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 290.34375,
+      "epoch": 0.853515625,
+      "grad_norm": 2.5544601480394498,
+      "kl": 0.0596923828125,
+      "learning_rate": 7.8662109375e-07,
+      "loss": 0.0024,
+      "reward": 1.67475825548172,
+      "reward_std": 0.09878268092870712,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6747583150863647,
+      "step": 1748
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 273.3671875,
+      "epoch": 0.85400390625,
+      "grad_norm": 1.2963780193553962,
+      "kl": 0.0528564453125,
+      "learning_rate": 7.864990234375e-07,
+      "loss": 0.0021,
+      "reward": 1.7922492623329163,
+      "reward_std": 0.04872659081593156,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7922492027282715,
+      "step": 1749
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 400.25,
+      "epoch": 0.8544921875,
+      "grad_norm": 2.338549025732979,
+      "kl": 0.0543212890625,
+      "learning_rate": 7.86376953125e-07,
+      "loss": 0.0022,
+      "reward": 1.772305965423584,
+      "reward_std": 0.07593853399157524,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.780118465423584,
+      "step": 1750
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 365.546875,
+      "epoch": 0.85498046875,
+      "grad_norm": 1.4071606737568558,
+      "kl": 0.04296875,
+      "learning_rate": 7.862548828125e-07,
+      "loss": 0.0017,
+      "reward": 1.8112922310829163,
+      "reward_std": 0.13108721747994423,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.8425421714782715,
+      "step": 1751
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 324.6328125,
+      "epoch": 0.85546875,
+      "grad_norm": 3.826688951216383,
+      "kl": 0.0850830078125,
+      "learning_rate": 7.861328124999999e-07,
+      "loss": 0.0034,
+      "reward": 1.6129182577133179,
+      "reward_std": 0.13975085318088531,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6285432279109955,
+      "step": 1752
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 312.6328125,
+      "epoch": 0.85595703125,
+      "grad_norm": 0.9707651176685911,
+      "kl": 0.0546875,
+      "learning_rate": 7.860107421874999e-07,
+      "loss": 0.0022,
+      "reward": 1.7708771228790283,
+      "reward_std": 0.022707084193825722,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7708771228790283,
+      "step": 1753
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 362.515625,
+      "epoch": 0.8564453125,
+      "grad_norm": 1.4575860899322022,
+      "kl": 0.0499267578125,
+      "learning_rate": 7.858886718749999e-07,
+      "loss": 0.002,
+      "reward": 1.7548741698265076,
+      "reward_std": 0.12130584567785263,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7704991102218628,
+      "step": 1754
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 387.8203125,
+      "epoch": 0.85693359375,
+      "grad_norm": 1.7544323097135777,
+      "kl": 0.0548095703125,
+      "learning_rate": 7.857666015625e-07,
+      "loss": 0.0022,
+      "reward": 1.6898673176765442,
+      "reward_std": 0.1721840798854828,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7054923176765442,
+      "step": 1755
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 380.5234375,
+      "epoch": 0.857421875,
+      "grad_norm": 0.8604056131796117,
+      "kl": 0.050537109375,
+      "learning_rate": 7.8564453125e-07,
+      "loss": 0.002,
+      "reward": 1.7485257983207703,
+      "reward_std": 0.15745490044355392,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.7875882983207703,
+      "step": 1756
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 366.8359375,
+      "epoch": 0.85791015625,
+      "grad_norm": 1.4416503344043057,
+      "kl": 0.057861328125,
+      "learning_rate": 7.855224609375e-07,
+      "loss": 0.0023,
+      "reward": 1.7979487776756287,
+      "reward_std": 0.09817294403910637,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7979487776756287,
+      "step": 1757
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 318.09375,
+      "epoch": 0.8583984375,
+      "grad_norm": 5.069045278301706,
+      "kl": 0.0528564453125,
+      "learning_rate": 7.85400390625e-07,
+      "loss": 0.0021,
+      "reward": 1.7911220788955688,
+      "reward_std": 0.10761953145265579,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.8067470788955688,
+      "step": 1758
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 331.5,
+      "epoch": 0.85888671875,
+      "grad_norm": 1.5478469273798983,
+      "kl": 0.0439453125,
+      "learning_rate": 7.852783203124999e-07,
+      "loss": 0.0018,
+      "reward": 1.7176623344421387,
+      "reward_std": 0.11607952415943146,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.7645373642444611,
+      "step": 1759
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 418.921875,
+      "epoch": 0.859375,
+      "grad_norm": 0.8812677172192789,
+      "kl": 0.056640625,
+      "learning_rate": 7.851562499999999e-07,
+      "loss": 0.0023,
+      "reward": 1.5803175568580627,
+      "reward_std": 0.12807496264576912,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.6115675568580627,
+      "step": 1760
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 278.8515625,
+      "epoch": 0.85986328125,
+      "grad_norm": 3.5600117966088054,
+      "kl": 0.0543212890625,
+      "learning_rate": 7.850341796875e-07,
+      "loss": 0.0022,
+      "reward": 1.7184030413627625,
+      "reward_std": 0.07983948290348053,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7262155115604401,
+      "step": 1761
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 254.03125,
+      "epoch": 0.8603515625,
+      "grad_norm": 9.189097579338886,
+      "kl": 0.055419921875,
+      "learning_rate": 7.84912109375e-07,
+      "loss": 0.0022,
+      "reward": 1.691203534603119,
+      "reward_std": 0.07379813119769096,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6912035048007965,
+      "step": 1762
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 263.8828125,
+      "epoch": 0.86083984375,
+      "grad_norm": 1.6292809358924043,
+      "kl": 0.062255859375,
+      "learning_rate": 7.847900390625e-07,
+      "loss": 0.0025,
+      "reward": 1.616748571395874,
+      "reward_std": 0.07066140696406364,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6245611011981964,
+      "step": 1763
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 239.6328125,
+      "epoch": 0.861328125,
+      "grad_norm": 8.127274020590354,
+      "kl": 0.08251953125,
+      "learning_rate": 7.8466796875e-07,
+      "loss": 0.0033,
+      "reward": 1.6578654646873474,
+      "reward_std": 0.11017253622412682,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6578654944896698,
+      "step": 1764
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 331.4453125,
+      "epoch": 0.86181640625,
+      "grad_norm": 1.8627529528124558,
+      "kl": 0.05224609375,
+      "learning_rate": 7.845458984374999e-07,
+      "loss": 0.0021,
+      "reward": 1.793116271495819,
+      "reward_std": 0.10687560588121414,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8009287714958191,
+      "step": 1765
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 350.15625,
+      "epoch": 0.8623046875,
+      "grad_norm": 5.016437160343661,
+      "kl": 0.05029296875,
+      "learning_rate": 7.844238281249999e-07,
+      "loss": 0.002,
+      "reward": 1.758280873298645,
+      "reward_std": 0.04120416380465031,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.758280873298645,
+      "step": 1766
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 415.0859375,
+      "epoch": 0.86279296875,
+      "grad_norm": 2.458305708230358,
+      "kl": 0.0460205078125,
+      "learning_rate": 7.843017578124999e-07,
+      "loss": 0.0018,
+      "reward": 1.6915509700775146,
+      "reward_std": 0.14069624990224838,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7071759104728699,
+      "step": 1767
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 294.53125,
+      "epoch": 0.86328125,
+      "grad_norm": 1.4127014544761989,
+      "kl": 0.067138671875,
+      "learning_rate": 7.841796875e-07,
+      "loss": 0.0027,
+      "reward": 1.727443516254425,
+      "reward_std": 0.09978067316114902,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.735256016254425,
+      "step": 1768
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 305.046875,
+      "epoch": 0.86376953125,
+      "grad_norm": 1.3815442374612499,
+      "kl": 0.0565185546875,
+      "learning_rate": 7.840576171875e-07,
+      "loss": 0.0023,
+      "reward": 1.7928959131240845,
+      "reward_std": 0.08073288947343826,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7928958535194397,
+      "step": 1769
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 288.1953125,
+      "epoch": 0.8642578125,
+      "grad_norm": 4.466680027866366,
+      "kl": 0.054931640625,
+      "learning_rate": 7.83935546875e-07,
+      "loss": 0.0022,
+      "reward": 1.7177514433860779,
+      "reward_std": 0.08392149582505226,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7177514135837555,
+      "step": 1770
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 344.921875,
+      "epoch": 0.86474609375,
+      "grad_norm": 1.1403297589321426,
+      "kl": 0.0496826171875,
+      "learning_rate": 7.838134765625e-07,
+      "loss": 0.002,
+      "reward": 1.70395165681839,
+      "reward_std": 0.04686661344021559,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7039515972137451,
+      "step": 1771
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 275.1953125,
+      "epoch": 0.865234375,
+      "grad_norm": 10.706867765852694,
+      "kl": 0.05419921875,
+      "learning_rate": 7.836914062499999e-07,
+      "loss": 0.0022,
+      "reward": 1.7995309829711914,
+      "reward_std": 0.03605970740318298,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.799530953168869,
+      "step": 1772
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 391.9609375,
+      "epoch": 0.86572265625,
+      "grad_norm": 3.3271446204369073,
+      "kl": 0.051025390625,
+      "learning_rate": 7.835693359374999e-07,
+      "loss": 0.002,
+      "reward": 1.6900931596755981,
+      "reward_std": 0.18629964627325535,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.7369681894779205,
+      "step": 1773
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 383.296875,
+      "epoch": 0.8662109375,
+      "grad_norm": 1.834654441326854,
+      "kl": 0.053466796875,
+      "learning_rate": 7.83447265625e-07,
+      "loss": 0.0021,
+      "reward": 1.714508295059204,
+      "reward_std": 0.11370455846190453,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.7613833248615265,
+      "step": 1774
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 271.765625,
+      "epoch": 0.86669921875,
+      "grad_norm": 1.879783754964238,
+      "kl": 0.05615234375,
+      "learning_rate": 7.833251953125e-07,
+      "loss": 0.0022,
+      "reward": 1.630328118801117,
+      "reward_std": 0.08714995346963406,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6381406188011169,
+      "step": 1775
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 277.265625,
+      "epoch": 0.8671875,
+      "grad_norm": 2.054382936637815,
+      "kl": 0.0517578125,
+      "learning_rate": 7.83203125e-07,
+      "loss": 0.0021,
+      "reward": 1.6842593550682068,
+      "reward_std": 0.028140094596892595,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6842593252658844,
+      "step": 1776
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 249.4609375,
+      "epoch": 0.86767578125,
+      "grad_norm": 1.6929850993037547,
+      "kl": 0.049560546875,
+      "learning_rate": 7.830810546875e-07,
+      "loss": 0.002,
+      "reward": 1.776337742805481,
+      "reward_std": 0.04738312214612961,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.776337742805481,
+      "step": 1777
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 292.15625,
+      "epoch": 0.8681640625,
+      "grad_norm": 1.944714939624994,
+      "kl": 0.046630859375,
+      "learning_rate": 7.829589843749999e-07,
+      "loss": 0.0019,
+      "reward": 1.8062950372695923,
+      "reward_std": 0.0485474169254303,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8062950074672699,
+      "step": 1778
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 286.921875,
+      "epoch": 0.86865234375,
+      "grad_norm": 2.0500856307717155,
+      "kl": 0.0758056640625,
+      "learning_rate": 7.828369140624999e-07,
+      "loss": 0.003,
+      "reward": 1.7174754738807678,
+      "reward_std": 0.05034205690026283,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7174754738807678,
+      "step": 1779
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 307.578125,
+      "epoch": 0.869140625,
+      "grad_norm": 1.8640037636723337,
+      "kl": 0.049560546875,
+      "learning_rate": 7.827148437499999e-07,
+      "loss": 0.002,
+      "reward": 1.6384202241897583,
+      "reward_std": 0.10762511938810349,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6462327837944031,
+      "step": 1780
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 256.34375,
+      "epoch": 0.86962890625,
+      "grad_norm": 3.8282446965440684,
+      "kl": 0.052978515625,
+      "learning_rate": 7.825927734375e-07,
+      "loss": 0.0021,
+      "reward": 1.77534019947052,
+      "reward_std": 0.057393044233322144,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7753402590751648,
+      "step": 1781
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 269.5390625,
+      "epoch": 0.8701171875,
+      "grad_norm": 1.8964741899587358,
+      "kl": 0.0552978515625,
+      "learning_rate": 7.82470703125e-07,
+      "loss": 0.0022,
+      "reward": 1.774406909942627,
+      "reward_std": 0.1195422075688839,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7744069397449493,
+      "step": 1782
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 331.875,
+      "epoch": 0.87060546875,
+      "grad_norm": 1.4724984337179923,
+      "kl": 0.06591796875,
+      "learning_rate": 7.823486328125e-07,
+      "loss": 0.0026,
+      "reward": 1.695317268371582,
+      "reward_std": 0.09004146233201027,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7031297087669373,
+      "step": 1783
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 326.9609375,
+      "epoch": 0.87109375,
+      "grad_norm": 0.6448629109262315,
+      "kl": 0.04736328125,
+      "learning_rate": 7.822265625e-07,
+      "loss": 0.0019,
+      "reward": 1.9076035022735596,
+      "reward_std": 0.01943269930779934,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.907603532075882,
+      "step": 1784
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 257.0234375,
+      "epoch": 0.87158203125,
+      "grad_norm": 3.027195875222421,
+      "kl": 0.0672607421875,
+      "learning_rate": 7.821044921874999e-07,
+      "loss": 0.0027,
+      "reward": 1.689346194267273,
+      "reward_std": 0.08278231136500835,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6893462538719177,
+      "step": 1785
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 308.359375,
+      "epoch": 0.8720703125,
+      "grad_norm": 1.1478726616336268,
+      "kl": 0.0518798828125,
+      "learning_rate": 7.819824218749999e-07,
+      "loss": 0.0021,
+      "reward": 1.7398544549942017,
+      "reward_std": 0.08145036175847054,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.7789169549942017,
+      "step": 1786
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 285.3671875,
+      "epoch": 0.87255859375,
+      "grad_norm": 11.542962874754854,
+      "kl": 0.087890625,
+      "learning_rate": 7.818603515625e-07,
+      "loss": 0.0035,
+      "reward": 1.6417620182037354,
+      "reward_std": 0.12737858295440674,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6573870182037354,
+      "step": 1787
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 250.75,
+      "epoch": 0.873046875,
+      "grad_norm": 2.404778691827622,
+      "kl": 0.05078125,
+      "learning_rate": 7.8173828125e-07,
+      "loss": 0.002,
+      "reward": 1.8236736059188843,
+      "reward_std": 0.03153271973133087,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8236735463142395,
+      "step": 1788
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 276.8984375,
+      "epoch": 0.87353515625,
+      "grad_norm": 2.4749194133053596,
+      "kl": 0.0501708984375,
+      "learning_rate": 7.816162109375e-07,
+      "loss": 0.002,
+      "reward": 1.7504101991653442,
+      "reward_std": 0.08443843200802803,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7582226991653442,
+      "step": 1789
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 335.7421875,
+      "epoch": 0.8740234375,
+      "grad_norm": 2.6927007447476257,
+      "kl": 0.0517578125,
+      "learning_rate": 7.81494140625e-07,
+      "loss": 0.0021,
+      "reward": 1.6656638979911804,
+      "reward_std": 0.12951365113258362,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6734763383865356,
+      "step": 1790
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 266.71875,
+      "epoch": 0.87451171875,
+      "grad_norm": 3.271122934848648,
+      "kl": 0.047607421875,
+      "learning_rate": 7.813720703125e-07,
+      "loss": 0.0019,
+      "reward": 1.746010661125183,
+      "reward_std": 0.09499474987387657,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7460106015205383,
+      "step": 1791
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 220.2421875,
+      "epoch": 0.875,
+      "grad_norm": 1.9497103555365891,
+      "kl": 0.076171875,
+      "learning_rate": 7.812499999999999e-07,
+      "loss": 0.003,
+      "reward": 1.683960497379303,
+      "reward_std": 0.07071896642446518,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6839604675769806,
+      "step": 1792
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 307.1484375,
+      "epoch": 0.87548828125,
+      "grad_norm": 4.006011455889697,
+      "kl": 0.06005859375,
+      "learning_rate": 7.811279296874999e-07,
+      "loss": 0.0024,
+      "reward": 1.8330675959587097,
+      "reward_std": 0.023156346287578344,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8330676555633545,
+      "step": 1793
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 242.7265625,
+      "epoch": 0.8759765625,
+      "grad_norm": 25.852237909125545,
+      "kl": 0.062744140625,
+      "learning_rate": 7.81005859375e-07,
+      "loss": 0.0025,
+      "reward": 1.7323620319366455,
+      "reward_std": 0.049556052312254906,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7323620617389679,
+      "step": 1794
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 245.765625,
+      "epoch": 0.87646484375,
+      "grad_norm": 1.5076425145126342,
+      "kl": 0.0516357421875,
+      "learning_rate": 7.808837890625e-07,
+      "loss": 0.0021,
+      "reward": 1.819112241268158,
+      "reward_std": 0.0596193540841341,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8191123008728027,
+      "step": 1795
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 298.5703125,
+      "epoch": 0.876953125,
+      "grad_norm": 3.047457685966905,
+      "kl": 0.054443359375,
+      "learning_rate": 7.8076171875e-07,
+      "loss": 0.0022,
+      "reward": 1.673986792564392,
+      "reward_std": 0.09043450467288494,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6739867627620697,
+      "step": 1796
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 228.609375,
+      "epoch": 0.87744140625,
+      "grad_norm": 1.1587782691548503,
+      "kl": 0.0494384765625,
+      "learning_rate": 7.806396484375e-07,
+      "loss": 0.002,
+      "reward": 1.7295081615447998,
+      "reward_std": 0.06940071284770966,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7295081615447998,
+      "step": 1797
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 272.0703125,
+      "epoch": 0.8779296875,
+      "grad_norm": 4.452290043361228,
+      "kl": 0.0526123046875,
+      "learning_rate": 7.805175781249999e-07,
+      "loss": 0.0021,
+      "reward": 1.8323208689689636,
+      "reward_std": 0.05967606604099274,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8323208391666412,
+      "step": 1798
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 315.703125,
+      "epoch": 0.87841796875,
+      "grad_norm": 25.202792928468167,
+      "kl": 0.05419921875,
+      "learning_rate": 7.803955078124999e-07,
+      "loss": 0.0022,
+      "reward": 1.7258835434913635,
+      "reward_std": 0.09938307851552963,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7258834838867188,
+      "step": 1799
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 319.296875,
+      "epoch": 0.87890625,
+      "grad_norm": 0.6818241842690064,
+      "kl": 0.043701171875,
+      "learning_rate": 7.802734375e-07,
+      "loss": 0.0017,
+      "reward": 1.7057358026504517,
+      "reward_std": 0.05737200379371643,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7057357132434845,
+      "step": 1800
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 278.0,
+      "epoch": 0.87939453125,
+      "grad_norm": 3.693729462628242,
+      "kl": 0.062744140625,
+      "learning_rate": 7.801513671875e-07,
+      "loss": 0.0025,
+      "reward": 1.7509536743164062,
+      "reward_std": 0.04812243953347206,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7509536445140839,
+      "step": 1801
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 241.8984375,
+      "epoch": 0.8798828125,
+      "grad_norm": 1.9779481675448194,
+      "kl": 0.042724609375,
+      "learning_rate": 7.80029296875e-07,
+      "loss": 0.0017,
+      "reward": 1.8703011870384216,
+      "reward_std": 0.03746516443789005,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8703011870384216,
+      "step": 1802
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 268.8984375,
+      "epoch": 0.88037109375,
+      "grad_norm": 2.2905824394928884,
+      "kl": 0.059326171875,
+      "learning_rate": 7.799072265625e-07,
+      "loss": 0.0024,
+      "reward": 1.8006829619407654,
+      "reward_std": 0.0814764704555273,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8006830215454102,
+      "step": 1803
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 242.2265625,
+      "epoch": 0.880859375,
+      "grad_norm": 1.6573366743968407,
+      "kl": 0.0570068359375,
+      "learning_rate": 7.7978515625e-07,
+      "loss": 0.0023,
+      "reward": 1.6909406185150146,
+      "reward_std": 0.0707071777433157,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.690940648317337,
+      "step": 1804
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 268.0625,
+      "epoch": 0.88134765625,
+      "grad_norm": 0.7192785248577067,
+      "kl": 0.051513671875,
+      "learning_rate": 7.796630859374999e-07,
+      "loss": 0.0021,
+      "reward": 1.6431750655174255,
+      "reward_std": 0.06791674718260765,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6431750655174255,
+      "step": 1805
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 279.5703125,
+      "epoch": 0.8818359375,
+      "grad_norm": 0.9208200253080467,
+      "kl": 0.058349609375,
+      "learning_rate": 7.795410156249999e-07,
+      "loss": 0.0023,
+      "reward": 1.709853172302246,
+      "reward_std": 0.11433164775371552,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7098531723022461,
+      "step": 1806
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 223.265625,
+      "epoch": 0.88232421875,
+      "grad_norm": 2.164142841901239,
+      "kl": 0.0660400390625,
+      "learning_rate": 7.794189453125e-07,
+      "loss": 0.0026,
+      "reward": 1.6406881213188171,
+      "reward_std": 0.11811601743102074,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6406880915164948,
+      "step": 1807
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 244.09375,
+      "epoch": 0.8828125,
+      "grad_norm": 15.416769114837617,
+      "kl": 0.072509765625,
+      "learning_rate": 7.79296875e-07,
+      "loss": 0.0029,
+      "reward": 1.8091920614242554,
+      "reward_std": 0.032884467393159866,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.809192031621933,
+      "step": 1808
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 283.3046875,
+      "epoch": 0.88330078125,
+      "grad_norm": 2.391571899624504,
+      "kl": 0.0584716796875,
+      "learning_rate": 7.791748046875e-07,
+      "loss": 0.0023,
+      "reward": 1.8211405277252197,
+      "reward_std": 0.05889258533716202,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.821140468120575,
+      "step": 1809
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 323.2421875,
+      "epoch": 0.8837890625,
+      "grad_norm": 1.7474116859623878,
+      "kl": 0.0506591796875,
+      "learning_rate": 7.79052734375e-07,
+      "loss": 0.002,
+      "reward": 1.7022829055786133,
+      "reward_std": 0.04944469407200813,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7022829353809357,
+      "step": 1810
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 281.1875,
+      "epoch": 0.88427734375,
+      "grad_norm": 5.108476758820766,
+      "kl": 0.0616455078125,
+      "learning_rate": 7.789306640624999e-07,
+      "loss": 0.0025,
+      "reward": 1.65779048204422,
+      "reward_std": 0.11469753831624985,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.65779048204422,
+      "step": 1811
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 316.09375,
+      "epoch": 0.884765625,
+      "grad_norm": 1.4333680344113544,
+      "kl": 0.0460205078125,
+      "learning_rate": 7.788085937499999e-07,
+      "loss": 0.0018,
+      "reward": 1.8354427814483643,
+      "reward_std": 0.10553473606705666,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8354427516460419,
+      "step": 1812
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 201.796875,
+      "epoch": 0.88525390625,
+      "grad_norm": 1.5118729896701895,
+      "kl": 0.0584716796875,
+      "learning_rate": 7.786865234375e-07,
+      "loss": 0.0023,
+      "reward": 1.817187786102295,
+      "reward_std": 0.08914723992347717,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8171877861022949,
+      "step": 1813
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 247.328125,
+      "epoch": 0.8857421875,
+      "grad_norm": 6.425239274241706,
+      "kl": 0.060791015625,
+      "learning_rate": 7.78564453125e-07,
+      "loss": 0.0024,
+      "reward": 1.7643995881080627,
+      "reward_std": 0.0862666517496109,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7643995881080627,
+      "step": 1814
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 314.5390625,
+      "epoch": 0.88623046875,
+      "grad_norm": 6.990205543539001,
+      "kl": 0.07421875,
+      "learning_rate": 7.784423828125e-07,
+      "loss": 0.003,
+      "reward": 1.6783007383346558,
+      "reward_std": 0.08350778743624687,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6783007085323334,
+      "step": 1815
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 246.078125,
+      "epoch": 0.88671875,
+      "grad_norm": 3.51961258176851,
+      "kl": 0.0556640625,
+      "learning_rate": 7.783203125e-07,
+      "loss": 0.0022,
+      "reward": 1.7718433737754822,
+      "reward_std": 0.054395925253629684,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7718433439731598,
+      "step": 1816
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 203.296875,
+      "epoch": 0.88720703125,
+      "grad_norm": 2.1702787043708143,
+      "kl": 0.0628662109375,
+      "learning_rate": 7.781982421875e-07,
+      "loss": 0.0025,
+      "reward": 1.8164880275726318,
+      "reward_std": 0.0386070990934968,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.816488116979599,
+      "step": 1817
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 276.2734375,
+      "epoch": 0.8876953125,
+      "grad_norm": 1.594469695809148,
+      "kl": 0.056640625,
+      "learning_rate": 7.780761718749999e-07,
+      "loss": 0.0023,
+      "reward": 1.6637941598892212,
+      "reward_std": 0.04839322529733181,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6637941598892212,
+      "step": 1818
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 317.59375,
+      "epoch": 0.88818359375,
+      "grad_norm": 1.0269338480997001,
+      "kl": 0.060302734375,
+      "learning_rate": 7.779541015624999e-07,
+      "loss": 0.0024,
+      "reward": 1.8385123014450073,
+      "reward_std": 0.044711560010910034,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8385123014450073,
+      "step": 1819
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 341.6875,
+      "epoch": 0.888671875,
+      "grad_norm": 4.6582457557107615,
+      "kl": 0.0445556640625,
+      "learning_rate": 7.7783203125e-07,
+      "loss": 0.0018,
+      "reward": 1.7252464294433594,
+      "reward_std": 0.08425504341721535,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.733058899641037,
+      "step": 1820
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 278.6640625,
+      "epoch": 0.88916015625,
+      "grad_norm": 4.495257505799833,
+      "kl": 0.0631103515625,
+      "learning_rate": 7.777099609375e-07,
+      "loss": 0.0025,
+      "reward": 1.815511703491211,
+      "reward_std": 0.05697597935795784,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8155117332935333,
+      "step": 1821
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 224.21875,
+      "epoch": 0.8896484375,
+      "grad_norm": 1.5187517576726908,
+      "kl": 0.07177734375,
+      "learning_rate": 7.77587890625e-07,
+      "loss": 0.0029,
+      "reward": 1.7230549454689026,
+      "reward_std": 0.03447245853021741,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7230549454689026,
+      "step": 1822
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 369.4140625,
+      "epoch": 0.89013671875,
+      "grad_norm": 1.5792144097013674,
+      "kl": 0.0489501953125,
+      "learning_rate": 7.774658203125e-07,
+      "loss": 0.002,
+      "reward": 1.6508527398109436,
+      "reward_std": 0.12545301765203476,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6586652100086212,
+      "step": 1823
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 277.2265625,
+      "epoch": 0.890625,
+      "grad_norm": 1.7338004675325442,
+      "kl": 0.0616455078125,
+      "learning_rate": 7.773437499999999e-07,
+      "loss": 0.0025,
+      "reward": 1.6528041362762451,
+      "reward_std": 0.03595791570842266,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6528041362762451,
+      "step": 1824
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 265.875,
+      "epoch": 0.89111328125,
+      "grad_norm": 1.3828966259193087,
+      "kl": 0.0540771484375,
+      "learning_rate": 7.772216796874999e-07,
+      "loss": 0.0022,
+      "reward": 1.6901865601539612,
+      "reward_std": 0.06458355858922005,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6979990303516388,
+      "step": 1825
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 307.0390625,
+      "epoch": 0.8916015625,
+      "grad_norm": 4.53384888949427,
+      "kl": 0.0604248046875,
+      "learning_rate": 7.77099609375e-07,
+      "loss": 0.0024,
+      "reward": 1.7263333797454834,
+      "reward_std": 0.06643800996243954,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7341458201408386,
+      "step": 1826
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 266.4140625,
+      "epoch": 0.89208984375,
+      "grad_norm": 1.7484243028024995,
+      "kl": 0.0562744140625,
+      "learning_rate": 7.769775390625e-07,
+      "loss": 0.0022,
+      "reward": 1.7096668481826782,
+      "reward_std": 0.1043664738535881,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7096668183803558,
+      "step": 1827
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 297.5859375,
+      "epoch": 0.892578125,
+      "grad_norm": 4.9974540266792,
+      "kl": 0.0611572265625,
+      "learning_rate": 7.7685546875e-07,
+      "loss": 0.0025,
+      "reward": 1.6894102096557617,
+      "reward_std": 0.0981958694756031,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6894101500511169,
+      "step": 1828
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 287.0703125,
+      "epoch": 0.89306640625,
+      "grad_norm": 3.5144777679347463,
+      "kl": 0.060546875,
+      "learning_rate": 7.767333984375e-07,
+      "loss": 0.0024,
+      "reward": 1.7617112398147583,
+      "reward_std": 0.09093910502269864,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7695237696170807,
+      "step": 1829
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 416.875,
+      "epoch": 0.8935546875,
+      "grad_norm": 1.5653767539180587,
+      "kl": 0.040771484375,
+      "learning_rate": 7.76611328125e-07,
+      "loss": 0.0016,
+      "reward": 1.8352625370025635,
+      "reward_std": 0.09809044748544693,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8430750966072083,
+      "step": 1830
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 204.125,
+      "epoch": 0.89404296875,
+      "grad_norm": 1.9658571112390546,
+      "kl": 0.0611572265625,
+      "learning_rate": 7.764892578124999e-07,
+      "loss": 0.0024,
+      "reward": 1.862768530845642,
+      "reward_std": 0.025783130899071693,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8627684712409973,
+      "step": 1831
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 383.453125,
+      "epoch": 0.89453125,
+      "grad_norm": 3.184036254441203,
+      "kl": 0.0498046875,
+      "learning_rate": 7.763671874999999e-07,
+      "loss": 0.002,
+      "reward": 1.756974220275879,
+      "reward_std": 0.04832346737384796,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7569742202758789,
+      "step": 1832
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 301.0390625,
+      "epoch": 0.89501953125,
+      "grad_norm": 1.7521194443833326,
+      "kl": 0.0618896484375,
+      "learning_rate": 7.762451171875e-07,
+      "loss": 0.0025,
+      "reward": 1.7110464572906494,
+      "reward_std": 0.07836447097361088,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7110464870929718,
+      "step": 1833
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 307.0859375,
+      "epoch": 0.8955078125,
+      "grad_norm": 11.051729675768927,
+      "kl": 0.0628662109375,
+      "learning_rate": 7.76123046875e-07,
+      "loss": 0.0025,
+      "reward": 1.6928837299346924,
+      "reward_std": 0.09242498874664307,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6928837299346924,
+      "step": 1834
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 293.4765625,
+      "epoch": 0.89599609375,
+      "grad_norm": 1.9611838635137748,
+      "kl": 0.0665283203125,
+      "learning_rate": 7.760009765625e-07,
+      "loss": 0.0027,
+      "reward": 1.7181519269943237,
+      "reward_std": 0.08656962960958481,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7181519567966461,
+      "step": 1835
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 345.765625,
+      "epoch": 0.896484375,
+      "grad_norm": 1.9097853521680372,
+      "kl": 0.063232421875,
+      "learning_rate": 7.7587890625e-07,
+      "loss": 0.0025,
+      "reward": 1.6719039678573608,
+      "reward_std": 0.0817815288901329,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6719039082527161,
+      "step": 1836
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 330.1484375,
+      "epoch": 0.89697265625,
+      "grad_norm": 2.040065547317354,
+      "kl": 0.054443359375,
+      "learning_rate": 7.757568359374999e-07,
+      "loss": 0.0022,
+      "reward": 1.8175336122512817,
+      "reward_std": 0.092707434669137,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.825346052646637,
+      "step": 1837
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 246.5703125,
+      "epoch": 0.8974609375,
+      "grad_norm": 2.114483844672761,
+      "kl": 0.06591796875,
+      "learning_rate": 7.756347656249999e-07,
+      "loss": 0.0026,
+      "reward": 1.7319183945655823,
+      "reward_std": 0.047073543071746826,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7319183647632599,
+      "step": 1838
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 321.71875,
+      "epoch": 0.89794921875,
+      "grad_norm": 0.7428215101894872,
+      "kl": 0.0401611328125,
+      "learning_rate": 7.755126953125e-07,
+      "loss": 0.0016,
+      "reward": 1.7587011456489563,
+      "reward_std": 0.026800723746418953,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7587011754512787,
+      "step": 1839
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 339.921875,
+      "epoch": 0.8984375,
+      "grad_norm": 0.7629811197679781,
+      "kl": 0.0484619140625,
+      "learning_rate": 7.75390625e-07,
+      "loss": 0.0019,
+      "reward": 1.6852461099624634,
+      "reward_std": 0.08999980986118317,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6930586099624634,
+      "step": 1840
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 361.3984375,
+      "epoch": 0.89892578125,
+      "grad_norm": 1.5555072595949755,
+      "kl": 0.0543212890625,
+      "learning_rate": 7.752685546875e-07,
+      "loss": 0.0022,
+      "reward": 1.7511460781097412,
+      "reward_std": 0.06476838141679764,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7511460781097412,
+      "step": 1841
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 282.75,
+      "epoch": 0.8994140625,
+      "grad_norm": 2.754364916244924,
+      "kl": 0.0587158203125,
+      "learning_rate": 7.75146484375e-07,
+      "loss": 0.0024,
+      "reward": 1.8262133598327637,
+      "reward_std": 0.02120867930352688,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8262133896350861,
+      "step": 1842
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 319.7421875,
+      "epoch": 0.89990234375,
+      "grad_norm": 24.641127364889815,
+      "kl": 0.0570068359375,
+      "learning_rate": 7.750244140625e-07,
+      "loss": 0.0023,
+      "reward": 1.6971803903579712,
+      "reward_std": 0.05197112262248993,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6971803903579712,
+      "step": 1843
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 247.484375,
+      "epoch": 0.900390625,
+      "grad_norm": 2.1238794464311006,
+      "kl": 0.06982421875,
+      "learning_rate": 7.749023437499999e-07,
+      "loss": 0.0028,
+      "reward": 1.6669594049453735,
+      "reward_std": 0.04614550992846489,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6669594645500183,
+      "step": 1844
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 341.78125,
+      "epoch": 0.90087890625,
+      "grad_norm": 2.071912757412851,
+      "kl": 0.0523681640625,
+      "learning_rate": 7.747802734374999e-07,
+      "loss": 0.0021,
+      "reward": 1.6606204509735107,
+      "reward_std": 0.08798486739397049,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6684330701828003,
+      "step": 1845
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 334.546875,
+      "epoch": 0.9013671875,
+      "grad_norm": 3.3768722950453633,
+      "kl": 0.050048828125,
+      "learning_rate": 7.74658203125e-07,
+      "loss": 0.002,
+      "reward": 1.7388845682144165,
+      "reward_std": 0.05811982438899577,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7545095980167389,
+      "step": 1846
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 301.4609375,
+      "epoch": 0.90185546875,
+      "grad_norm": 3.1836866801117893,
+      "kl": 0.0430908203125,
+      "learning_rate": 7.745361328125e-07,
+      "loss": 0.0017,
+      "reward": 1.8226521015167236,
+      "reward_std": 0.04751377273350954,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8226520419120789,
+      "step": 1847
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 367.1484375,
+      "epoch": 0.90234375,
+      "grad_norm": 1.576033496726682,
+      "kl": 0.0771484375,
+      "learning_rate": 7.744140625e-07,
+      "loss": 0.0031,
+      "reward": 1.7408050298690796,
+      "reward_std": 0.17640165239572525,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.7720550298690796,
+      "step": 1848
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 217.8671875,
+      "epoch": 0.90283203125,
+      "grad_norm": 1.7373002567871683,
+      "kl": 0.0501708984375,
+      "learning_rate": 7.742919921875e-07,
+      "loss": 0.002,
+      "reward": 1.8163398504257202,
+      "reward_std": 0.04968139063566923,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8163398206233978,
+      "step": 1849
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 267.84375,
+      "epoch": 0.9033203125,
+      "grad_norm": 3.105106822155688,
+      "kl": 0.0472412109375,
+      "learning_rate": 7.741699218749999e-07,
+      "loss": 0.0019,
+      "reward": 1.8374771475791931,
+      "reward_std": 0.09784207679331303,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8452896475791931,
+      "step": 1850
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 373.21875,
+      "epoch": 0.90380859375,
+      "grad_norm": 1.089428365307123,
+      "kl": 0.0489501953125,
+      "learning_rate": 7.740478515624999e-07,
+      "loss": 0.002,
+      "reward": 1.68122398853302,
+      "reward_std": 0.09672827832400799,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6968489587306976,
+      "step": 1851
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 261.0546875,
+      "epoch": 0.904296875,
+      "grad_norm": 0.9032820450625452,
+      "kl": 0.0506591796875,
+      "learning_rate": 7.739257812499999e-07,
+      "loss": 0.002,
+      "reward": 1.7232590913772583,
+      "reward_std": 0.0855883564800024,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7310715913772583,
+      "step": 1852
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 263.8203125,
+      "epoch": 0.90478515625,
+      "grad_norm": 2.910697140965429,
+      "kl": 0.0596923828125,
+      "learning_rate": 7.738037109375e-07,
+      "loss": 0.0024,
+      "reward": 1.718904733657837,
+      "reward_std": 0.05999594181776047,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7189047038555145,
+      "step": 1853
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 289.71875,
+      "epoch": 0.9052734375,
+      "grad_norm": 2.3512710493981044,
+      "kl": 0.062744140625,
+      "learning_rate": 7.73681640625e-07,
+      "loss": 0.0025,
+      "reward": 1.8199704885482788,
+      "reward_std": 0.17502456158399582,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8199705183506012,
+      "step": 1854
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 333.9453125,
+      "epoch": 0.90576171875,
+      "grad_norm": 1.7378278510340661,
+      "kl": 0.055419921875,
+      "learning_rate": 7.735595703125e-07,
+      "loss": 0.0022,
+      "reward": 1.7747780680656433,
+      "reward_std": 0.08231132477521896,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7747780382633209,
+      "step": 1855
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 309.96875,
+      "epoch": 0.90625,
+      "grad_norm": 1.3484996843881978,
+      "kl": 0.06640625,
+      "learning_rate": 7.734375e-07,
+      "loss": 0.0027,
+      "reward": 1.7257348895072937,
+      "reward_std": 0.08233419992029667,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7335473895072937,
+      "step": 1856
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 353.859375,
+      "epoch": 0.90673828125,
+      "grad_norm": 1.3532753106816202,
+      "kl": 0.0523681640625,
+      "learning_rate": 7.733154296874999e-07,
+      "loss": 0.0021,
+      "reward": 1.6416913270950317,
+      "reward_std": 0.11033252347260714,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6495038270950317,
+      "step": 1857
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 341.0625,
+      "epoch": 0.9072265625,
+      "grad_norm": 2.4747324412246208,
+      "kl": 0.06201171875,
+      "learning_rate": 7.731933593749999e-07,
+      "loss": 0.0025,
+      "reward": 1.686651587486267,
+      "reward_std": 0.11174037307500839,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6944640278816223,
+      "step": 1858
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 367.75,
+      "epoch": 0.90771484375,
+      "grad_norm": 2.5596722124199562,
+      "kl": 0.0435791015625,
+      "learning_rate": 7.730712890625e-07,
+      "loss": 0.0017,
+      "reward": 1.7805684804916382,
+      "reward_std": 0.0784122459590435,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7883809506893158,
+      "step": 1859
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 266.2109375,
+      "epoch": 0.908203125,
+      "grad_norm": 1.9096008823123074,
+      "kl": 0.0513916015625,
+      "learning_rate": 7.7294921875e-07,
+      "loss": 0.0021,
+      "reward": 1.645488977432251,
+      "reward_std": 0.07388130389153957,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6533015072345734,
+      "step": 1860
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 335.8046875,
+      "epoch": 0.90869140625,
+      "grad_norm": 1.9563618836244545,
+      "kl": 0.057861328125,
+      "learning_rate": 7.728271484375e-07,
+      "loss": 0.0023,
+      "reward": 1.600885808467865,
+      "reward_std": 0.12279289960861206,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6086983382701874,
+      "step": 1861
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 308.578125,
+      "epoch": 0.9091796875,
+      "grad_norm": 2.251229228911326,
+      "kl": 0.06201171875,
+      "learning_rate": 7.72705078125e-07,
+      "loss": 0.0025,
+      "reward": 1.6833316087722778,
+      "reward_std": 0.09088350087404251,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6833316385746002,
+      "step": 1862
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 237.953125,
+      "epoch": 0.90966796875,
+      "grad_norm": 4.494937362372943,
+      "kl": 0.0693359375,
+      "learning_rate": 7.725830078124999e-07,
+      "loss": 0.0028,
+      "reward": 1.7052226066589355,
+      "reward_std": 0.0832928977906704,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7052225768566132,
+      "step": 1863
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 216.203125,
+      "epoch": 0.91015625,
+      "grad_norm": 0.8112151237513328,
+      "kl": 0.061279296875,
+      "learning_rate": 7.724609374999999e-07,
+      "loss": 0.0025,
+      "reward": 1.7318594455718994,
+      "reward_std": 0.03134281374514103,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.731859415769577,
+      "step": 1864
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 290.4453125,
+      "epoch": 0.91064453125,
+      "grad_norm": 2.793216129592739,
+      "kl": 0.068603515625,
+      "learning_rate": 7.723388671874999e-07,
+      "loss": 0.0027,
+      "reward": 1.750407099723816,
+      "reward_std": 0.12610271200537682,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7582195699214935,
+      "step": 1865
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 341.59375,
+      "epoch": 0.9111328125,
+      "grad_norm": 1.4003090946656476,
+      "kl": 0.0469970703125,
+      "learning_rate": 7.72216796875e-07,
+      "loss": 0.0019,
+      "reward": 1.7669113874435425,
+      "reward_std": 0.05195538140833378,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7669114768505096,
+      "step": 1866
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 237.6953125,
+      "epoch": 0.91162109375,
+      "grad_norm": 12.65215383630023,
+      "kl": 0.055908203125,
+      "learning_rate": 7.720947265625e-07,
+      "loss": 0.0022,
+      "reward": 1.841326653957367,
+      "reward_std": 0.046704126521945,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8413266539573669,
+      "step": 1867
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 294.6484375,
+      "epoch": 0.912109375,
+      "grad_norm": 1.6673497617014856,
+      "kl": 0.0653076171875,
+      "learning_rate": 7.7197265625e-07,
+      "loss": 0.0026,
+      "reward": 1.7550670504570007,
+      "reward_std": 0.08225375413894653,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7628795802593231,
+      "step": 1868
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 284.6328125,
+      "epoch": 0.91259765625,
+      "grad_norm": 1.5372288043835853,
+      "kl": 0.0531005859375,
+      "learning_rate": 7.718505859375e-07,
+      "loss": 0.0021,
+      "reward": 1.7609045505523682,
+      "reward_std": 0.03866549767553806,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.760904461145401,
+      "step": 1869
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 285.96875,
+      "epoch": 0.9130859375,
+      "grad_norm": 3.1166984800175563,
+      "kl": 0.06201171875,
+      "learning_rate": 7.717285156249999e-07,
+      "loss": 0.0025,
+      "reward": 1.7748718857765198,
+      "reward_std": 0.04408053681254387,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7748719453811646,
+      "step": 1870
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 252.65625,
+      "epoch": 0.91357421875,
+      "grad_norm": 1.146220052210111,
+      "kl": 0.059814453125,
+      "learning_rate": 7.716064453124999e-07,
+      "loss": 0.0024,
+      "reward": 1.8123140931129456,
+      "reward_std": 0.06602787971496582,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8123140633106232,
+      "step": 1871
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 291.8359375,
+      "epoch": 0.9140625,
+      "grad_norm": 2.7210699250281505,
+      "kl": 0.0550537109375,
+      "learning_rate": 7.71484375e-07,
+      "loss": 0.0022,
+      "reward": 1.7665232419967651,
+      "reward_std": 0.012389869894832373,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7665232121944427,
+      "step": 1872
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 326.6953125,
+      "epoch": 0.91455078125,
+      "grad_norm": 1.827791651361238,
+      "kl": 0.05517578125,
+      "learning_rate": 7.713623046875e-07,
+      "loss": 0.0022,
+      "reward": 1.8029692769050598,
+      "reward_std": 0.07247792184352875,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8029692471027374,
+      "step": 1873
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 191.203125,
+      "epoch": 0.9150390625,
+      "grad_norm": 1.5789037304261104,
+      "kl": 0.0679931640625,
+      "learning_rate": 7.71240234375e-07,
+      "loss": 0.0027,
+      "reward": 1.7826859951019287,
+      "reward_std": 0.07684960961341858,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7826859951019287,
+      "step": 1874
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 298.1875,
+      "epoch": 0.91552734375,
+      "grad_norm": 3.343706764989121,
+      "kl": 0.066650390625,
+      "learning_rate": 7.711181640625e-07,
+      "loss": 0.0027,
+      "reward": 1.7790513634681702,
+      "reward_std": 0.032321374863386154,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7790513634681702,
+      "step": 1875
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 405.9609375,
+      "epoch": 0.916015625,
+      "grad_norm": 2.533953944850406,
+      "kl": 0.048095703125,
+      "learning_rate": 7.709960937499999e-07,
+      "loss": 0.0019,
+      "reward": 1.7507587671279907,
+      "reward_std": 0.06509637832641602,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7507588565349579,
+      "step": 1876
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 424.703125,
+      "epoch": 0.91650390625,
+      "grad_norm": 0.7586952119724258,
+      "kl": 0.046875,
+      "learning_rate": 7.708740234374999e-07,
+      "loss": 0.0019,
+      "reward": 1.7596052885055542,
+      "reward_std": 0.12552650086581707,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7830427885055542,
+      "step": 1877
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 349.7890625,
+      "epoch": 0.9169921875,
+      "grad_norm": 1.6249630598487124,
+      "kl": 0.0576171875,
+      "learning_rate": 7.707519531249999e-07,
+      "loss": 0.0023,
+      "reward": 1.6994884610176086,
+      "reward_std": 0.03150587156414986,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6994884312152863,
+      "step": 1878
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 232.3671875,
+      "epoch": 0.91748046875,
+      "grad_norm": 2.026286135731339,
+      "kl": 0.0614013671875,
+      "learning_rate": 7.706298828125e-07,
+      "loss": 0.0025,
+      "reward": 1.8732419610023499,
+      "reward_std": 0.06732478551566601,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8732418417930603,
+      "step": 1879
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 446.859375,
+      "epoch": 0.91796875,
+      "grad_norm": 2.345806175165156,
+      "kl": 0.040771484375,
+      "learning_rate": 7.705078125e-07,
+      "loss": 0.0016,
+      "reward": 1.6373432874679565,
+      "reward_std": 0.19714245945215225,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.6764057576656342,
+      "step": 1880
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 266.4765625,
+      "epoch": 0.91845703125,
+      "grad_norm": 2.349540924433874,
+      "kl": 0.0516357421875,
+      "learning_rate": 7.703857421875e-07,
+      "loss": 0.0021,
+      "reward": 1.746773898601532,
+      "reward_std": 0.10035060532391071,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.762398898601532,
+      "step": 1881
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 432.234375,
+      "epoch": 0.9189453125,
+      "grad_norm": 2.33896483912966,
+      "kl": 0.060546875,
+      "learning_rate": 7.70263671875e-07,
+      "loss": 0.0024,
+      "reward": 1.564791977405548,
+      "reward_std": 0.12818468734622002,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.5882294774055481,
+      "step": 1882
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 274.984375,
+      "epoch": 0.91943359375,
+      "grad_norm": 2.2240687275141218,
+      "kl": 0.05029296875,
+      "learning_rate": 7.701416015624999e-07,
+      "loss": 0.002,
+      "reward": 1.7980252504348755,
+      "reward_std": 0.08232726529240608,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8058376908302307,
+      "step": 1883
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 330.09375,
+      "epoch": 0.919921875,
+      "grad_norm": 2.8745265642260365,
+      "kl": 0.0523681640625,
+      "learning_rate": 7.700195312499999e-07,
+      "loss": 0.0021,
+      "reward": 1.7382362484931946,
+      "reward_std": 0.12476624548435211,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7538612484931946,
+      "step": 1884
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 294.75,
+      "epoch": 0.92041015625,
+      "grad_norm": 3.686867510401221,
+      "kl": 0.056640625,
+      "learning_rate": 7.698974609375e-07,
+      "loss": 0.0023,
+      "reward": 1.7156809568405151,
+      "reward_std": 0.08216442540287971,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7156809270381927,
+      "step": 1885
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 295.0,
+      "epoch": 0.9208984375,
+      "grad_norm": 6.288769712744168,
+      "kl": 0.0609130859375,
+      "learning_rate": 7.69775390625e-07,
+      "loss": 0.0024,
+      "reward": 1.7297690510749817,
+      "reward_std": 0.04128149338066578,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7297690212726593,
+      "step": 1886
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 237.8125,
+      "epoch": 0.92138671875,
+      "grad_norm": 2.0369024494011256,
+      "kl": 0.0589599609375,
+      "learning_rate": 7.696533203125e-07,
+      "loss": 0.0024,
+      "reward": 1.752552568912506,
+      "reward_std": 0.02822397742420435,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7525525689125061,
+      "step": 1887
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 328.0,
+      "epoch": 0.921875,
+      "grad_norm": 1.2842086090273468,
+      "kl": 0.0498046875,
+      "learning_rate": 7.6953125e-07,
+      "loss": 0.002,
+      "reward": 1.8643844723701477,
+      "reward_std": 0.03368113562464714,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8643843829631805,
+      "step": 1888
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 350.71875,
+      "epoch": 0.92236328125,
+      "grad_norm": 1.318950870858453,
+      "kl": 0.0462646484375,
+      "learning_rate": 7.694091796875e-07,
+      "loss": 0.0019,
+      "reward": 1.648529589176178,
+      "reward_std": 0.057421027682721615,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6563420593738556,
+      "step": 1889
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 282.390625,
+      "epoch": 0.9228515625,
+      "grad_norm": 1.577865853545429,
+      "kl": 0.082275390625,
+      "learning_rate": 7.692871093749999e-07,
+      "loss": 0.0033,
+      "reward": 1.63528710603714,
+      "reward_std": 0.06157683953642845,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6352871656417847,
+      "step": 1890
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 326.3359375,
+      "epoch": 0.92333984375,
+      "grad_norm": 7.518556987855353,
+      "kl": 0.06005859375,
+      "learning_rate": 7.691650390624999e-07,
+      "loss": 0.0024,
+      "reward": 1.722363293170929,
+      "reward_std": 0.1048150509595871,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.730175793170929,
+      "step": 1891
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 324.1640625,
+      "epoch": 0.923828125,
+      "grad_norm": 1.507211128713716,
+      "kl": 0.073486328125,
+      "learning_rate": 7.6904296875e-07,
+      "loss": 0.0029,
+      "reward": 1.7711586356163025,
+      "reward_std": 0.08003518357872963,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7711586952209473,
+      "step": 1892
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 309.4765625,
+      "epoch": 0.92431640625,
+      "grad_norm": 2.085935424953024,
+      "kl": 0.0565185546875,
+      "learning_rate": 7.689208984375e-07,
+      "loss": 0.0023,
+      "reward": 1.7579456567764282,
+      "reward_std": 0.06935618259012699,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7579456567764282,
+      "step": 1893
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 464.4140625,
+      "epoch": 0.9248046875,
+      "grad_norm": 1.3818555531186942,
+      "kl": 0.0494384765625,
+      "learning_rate": 7.68798828125e-07,
+      "loss": 0.002,
+      "reward": 1.8424060940742493,
+      "reward_std": 0.09461657330393791,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8502185940742493,
+      "step": 1894
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 318.734375,
+      "epoch": 0.92529296875,
+      "grad_norm": 1.1368563853147728,
+      "kl": 0.0433349609375,
+      "learning_rate": 7.686767578125e-07,
+      "loss": 0.0017,
+      "reward": 1.7353255152702332,
+      "reward_std": 0.056853363290429115,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7587630748748779,
+      "step": 1895
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 362.1171875,
+      "epoch": 0.92578125,
+      "grad_norm": 2.2064650956492744,
+      "kl": 0.06591796875,
+      "learning_rate": 7.685546874999999e-07,
+      "loss": 0.0026,
+      "reward": 1.7270656824111938,
+      "reward_std": 0.1103198304772377,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7348781824111938,
+      "step": 1896
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 314.03125,
+      "epoch": 0.92626953125,
+      "grad_norm": 1.4559467756111681,
+      "kl": 0.06201171875,
+      "learning_rate": 7.684326171874999e-07,
+      "loss": 0.0025,
+      "reward": 1.750020146369934,
+      "reward_std": 0.06828867271542549,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7500201165676117,
+      "step": 1897
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 384.8046875,
+      "epoch": 0.9267578125,
+      "grad_norm": 1.792759355086428,
+      "kl": 0.0550537109375,
+      "learning_rate": 7.68310546875e-07,
+      "loss": 0.0022,
+      "reward": 1.638475477695465,
+      "reward_std": 0.1530410349369049,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6541005373001099,
+      "step": 1898
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 300.265625,
+      "epoch": 0.92724609375,
+      "grad_norm": 4.437485735045951,
+      "kl": 0.0570068359375,
+      "learning_rate": 7.681884765625e-07,
+      "loss": 0.0023,
+      "reward": 1.79349684715271,
+      "reward_std": 0.03604122344404459,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7934968173503876,
+      "step": 1899
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 314.796875,
+      "epoch": 0.927734375,
+      "grad_norm": 2.779442073043061,
+      "kl": 0.0621337890625,
+      "learning_rate": 7.6806640625e-07,
+      "loss": 0.0025,
+      "reward": 1.6727771162986755,
+      "reward_std": 0.0650419145822525,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6727770864963531,
+      "step": 1900
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 313.4609375,
+      "epoch": 0.92822265625,
+      "grad_norm": 1.2941439692735104,
+      "kl": 0.0511474609375,
+      "learning_rate": 7.679443359375e-07,
+      "loss": 0.002,
+      "reward": 1.7836529612541199,
+      "reward_std": 0.10273768194019794,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7992779314517975,
+      "step": 1901
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 298.625,
+      "epoch": 0.9287109375,
+      "grad_norm": 1.451926128352837,
+      "kl": 0.058349609375,
+      "learning_rate": 7.67822265625e-07,
+      "loss": 0.0023,
+      "reward": 1.775130271911621,
+      "reward_std": 0.09728646278381348,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7829427421092987,
+      "step": 1902
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 264.890625,
+      "epoch": 0.92919921875,
+      "grad_norm": 2.2595384689614835,
+      "kl": 0.0582275390625,
+      "learning_rate": 7.677001953124999e-07,
+      "loss": 0.0023,
+      "reward": 1.7409818768501282,
+      "reward_std": 0.0586724728345871,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7409819066524506,
+      "step": 1903
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 303.546875,
+      "epoch": 0.9296875,
+      "grad_norm": 0.6888205497832584,
+      "kl": 0.060791015625,
+      "learning_rate": 7.675781249999999e-07,
+      "loss": 0.0024,
+      "reward": 1.8382083773612976,
+      "reward_std": 0.033903589239344,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.84602090716362,
+      "step": 1904
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 240.578125,
+      "epoch": 0.93017578125,
+      "grad_norm": 3.8284256312930305,
+      "kl": 0.0533447265625,
+      "learning_rate": 7.674560546875e-07,
+      "loss": 0.0021,
+      "reward": 1.8051932454109192,
+      "reward_std": 0.038204182870686054,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8051932752132416,
+      "step": 1905
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 365.984375,
+      "epoch": 0.9306640625,
+      "grad_norm": 1.1662088703849192,
+      "kl": 0.0560302734375,
+      "learning_rate": 7.67333984375e-07,
+      "loss": 0.0022,
+      "reward": 1.6394376754760742,
+      "reward_std": 0.12621871381998062,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.6706876754760742,
+      "step": 1906
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 389.7109375,
+      "epoch": 0.93115234375,
+      "grad_norm": 1.0735713355110765,
+      "kl": 0.0506591796875,
+      "learning_rate": 7.672119140625e-07,
+      "loss": 0.002,
+      "reward": 1.775869071483612,
+      "reward_std": 0.038261422887444496,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7758690416812897,
+      "step": 1907
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 350.578125,
+      "epoch": 0.931640625,
+      "grad_norm": 1.1925985760085656,
+      "kl": 0.039306640625,
+      "learning_rate": 7.6708984375e-07,
+      "loss": 0.0016,
+      "reward": 1.8779195547103882,
+      "reward_std": 0.10916906967759132,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.893544614315033,
+      "step": 1908
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 238.703125,
+      "epoch": 0.93212890625,
+      "grad_norm": 0.8754908923158865,
+      "kl": 0.0565185546875,
+      "learning_rate": 7.669677734374999e-07,
+      "loss": 0.0023,
+      "reward": 1.790212869644165,
+      "reward_std": 0.04031490348279476,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7902128398418427,
+      "step": 1909
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 275.78125,
+      "epoch": 0.9326171875,
+      "grad_norm": 1.130446425832009,
+      "kl": 0.0740966796875,
+      "learning_rate": 7.668457031249999e-07,
+      "loss": 0.003,
+      "reward": 1.737060308456421,
+      "reward_std": 0.09539984166622162,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7526853680610657,
+      "step": 1910
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 246.2109375,
+      "epoch": 0.93310546875,
+      "grad_norm": 1.6278036854891171,
+      "kl": 0.0521240234375,
+      "learning_rate": 7.667236328125e-07,
+      "loss": 0.0021,
+      "reward": 1.7540555000305176,
+      "reward_std": 0.04432438686490059,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7540555000305176,
+      "step": 1911
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 377.65625,
+      "epoch": 0.93359375,
+      "grad_norm": 2.1925742495284313,
+      "kl": 0.0595703125,
+      "learning_rate": 7.666015625e-07,
+      "loss": 0.0024,
+      "reward": 1.7391607761383057,
+      "reward_std": 0.06034187972545624,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7391607463359833,
+      "step": 1912
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 259.921875,
+      "epoch": 0.93408203125,
+      "grad_norm": 7.166107534027712,
+      "kl": 0.066650390625,
+      "learning_rate": 7.664794921875e-07,
+      "loss": 0.0027,
+      "reward": 1.7412755489349365,
+      "reward_std": 0.06487971171736717,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7490880191326141,
+      "step": 1913
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 279.40625,
+      "epoch": 0.9345703125,
+      "grad_norm": 1.2690228720660945,
+      "kl": 0.0467529296875,
+      "learning_rate": 7.66357421875e-07,
+      "loss": 0.0019,
+      "reward": 1.739248275756836,
+      "reward_std": 0.03249887889251113,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7392483055591583,
+      "step": 1914
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 377.0078125,
+      "epoch": 0.93505859375,
+      "grad_norm": 1.7901065626462564,
+      "kl": 0.0469970703125,
+      "learning_rate": 7.662353515625e-07,
+      "loss": 0.0019,
+      "reward": 1.7768760919570923,
+      "reward_std": 0.0804726853966713,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7846885025501251,
+      "step": 1915
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 315.75,
+      "epoch": 0.935546875,
+      "grad_norm": 1.5712939062202214,
+      "kl": 0.0623779296875,
+      "learning_rate": 7.661132812499999e-07,
+      "loss": 0.0025,
+      "reward": 1.786317765712738,
+      "reward_std": 0.08603505790233612,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7863178253173828,
+      "step": 1916
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 302.0546875,
+      "epoch": 0.93603515625,
+      "grad_norm": 1.2722576840995556,
+      "kl": 0.055908203125,
+      "learning_rate": 7.659912109374999e-07,
+      "loss": 0.0022,
+      "reward": 1.8206439018249512,
+      "reward_std": 0.05164727196097374,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8206439316272736,
+      "step": 1917
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 271.4140625,
+      "epoch": 0.9365234375,
+      "grad_norm": 0.9577017742295563,
+      "kl": 0.070556640625,
+      "learning_rate": 7.65869140625e-07,
+      "loss": 0.0028,
+      "reward": 1.764600396156311,
+      "reward_std": 0.06939095444977283,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7724128663539886,
+      "step": 1918
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 333.96875,
+      "epoch": 0.93701171875,
+      "grad_norm": 1.1704098534116705,
+      "kl": 0.0428466796875,
+      "learning_rate": 7.657470703125e-07,
+      "loss": 0.0017,
+      "reward": 1.7799164652824402,
+      "reward_std": 0.06408461276441813,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7877289652824402,
+      "step": 1919
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 337.3203125,
+      "epoch": 0.9375,
+      "grad_norm": 1.3081495549462145,
+      "kl": 0.0550537109375,
+      "learning_rate": 7.65625e-07,
+      "loss": 0.0022,
+      "reward": 1.8275092840194702,
+      "reward_std": 0.12271393835544586,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.8431342542171478,
+      "step": 1920
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 399.5703125,
+      "epoch": 0.93798828125,
+      "grad_norm": 2.0893342759380125,
+      "kl": 0.0570068359375,
+      "learning_rate": 7.655029296875e-07,
+      "loss": 0.0023,
+      "reward": 1.62141752243042,
+      "reward_std": 0.07201961986720562,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6214175224304199,
+      "step": 1921
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 276.0078125,
+      "epoch": 0.9384765625,
+      "grad_norm": 1.199646307200552,
+      "kl": 0.06201171875,
+      "learning_rate": 7.653808593749999e-07,
+      "loss": 0.0025,
+      "reward": 1.7694358825683594,
+      "reward_std": 0.0673837810754776,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.769435852766037,
+      "step": 1922
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 316.625,
+      "epoch": 0.93896484375,
+      "grad_norm": 0.9488691507074507,
+      "kl": 0.0556640625,
+      "learning_rate": 7.652587890624999e-07,
+      "loss": 0.0022,
+      "reward": 1.7294191718101501,
+      "reward_std": 0.06298989057540894,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7294191718101501,
+      "step": 1923
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 308.5390625,
+      "epoch": 0.939453125,
+      "grad_norm": 0.9744407426363972,
+      "kl": 0.0570068359375,
+      "learning_rate": 7.6513671875e-07,
+      "loss": 0.0023,
+      "reward": 1.7692174911499023,
+      "reward_std": 0.12869003787636757,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7926550805568695,
+      "step": 1924
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 305.7265625,
+      "epoch": 0.93994140625,
+      "grad_norm": 8.440290119049392,
+      "kl": 0.048095703125,
+      "learning_rate": 7.650146484375e-07,
+      "loss": 0.0019,
+      "reward": 1.7950489521026611,
+      "reward_std": 0.06832708790898323,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7950489521026611,
+      "step": 1925
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 275.078125,
+      "epoch": 0.9404296875,
+      "grad_norm": 1.8177029228869115,
+      "kl": 0.0528564453125,
+      "learning_rate": 7.64892578125e-07,
+      "loss": 0.0021,
+      "reward": 1.6869670152664185,
+      "reward_std": 0.14585554599761963,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6947795152664185,
+      "step": 1926
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 283.0546875,
+      "epoch": 0.94091796875,
+      "grad_norm": 1.3445342169878876,
+      "kl": 0.0511474609375,
+      "learning_rate": 7.647705078125e-07,
+      "loss": 0.002,
+      "reward": 1.7540799379348755,
+      "reward_std": 0.06522182933986187,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7540798783302307,
+      "step": 1927
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 335.9453125,
+      "epoch": 0.94140625,
+      "grad_norm": 3.3655946441991906,
+      "kl": 0.0565185546875,
+      "learning_rate": 7.646484375e-07,
+      "loss": 0.0023,
+      "reward": 1.79484623670578,
+      "reward_std": 0.07020819000899792,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.79484623670578,
+      "step": 1928
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 325.4921875,
+      "epoch": 0.94189453125,
+      "grad_norm": 2.7406095890255506,
+      "kl": 0.04931640625,
+      "learning_rate": 7.645263671874999e-07,
+      "loss": 0.002,
+      "reward": 1.650872528553009,
+      "reward_std": 0.07257736101746559,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.658685028553009,
+      "step": 1929
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 315.9609375,
+      "epoch": 0.9423828125,
+      "grad_norm": 9.439333223570415,
+      "kl": 0.061279296875,
+      "learning_rate": 7.644042968749999e-07,
+      "loss": 0.0025,
+      "reward": 1.7402021884918213,
+      "reward_std": 0.11112450435757637,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7558271884918213,
+      "step": 1930
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 251.953125,
+      "epoch": 0.94287109375,
+      "grad_norm": 3.0515199906985773,
+      "kl": 0.046875,
+      "learning_rate": 7.642822265625e-07,
+      "loss": 0.0019,
+      "reward": 1.806718111038208,
+      "reward_std": 0.04643261060118675,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8067179918289185,
+      "step": 1931
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 252.828125,
+      "epoch": 0.943359375,
+      "grad_norm": 2.3895842970175463,
+      "kl": 0.044189453125,
+      "learning_rate": 7.6416015625e-07,
+      "loss": 0.0018,
+      "reward": 1.8205534219741821,
+      "reward_std": 0.05191616341471672,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8205534815788269,
+      "step": 1932
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 333.4609375,
+      "epoch": 0.94384765625,
+      "grad_norm": 1.7762575067749533,
+      "kl": 0.0479736328125,
+      "learning_rate": 7.640380859375e-07,
+      "loss": 0.0019,
+      "reward": 1.8342650532722473,
+      "reward_std": 0.06186963617801666,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8342650830745697,
+      "step": 1933
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 430.515625,
+      "epoch": 0.9443359375,
+      "grad_norm": 1.1300241222412084,
+      "kl": 0.0462646484375,
+      "learning_rate": 7.63916015625e-07,
+      "loss": 0.0019,
+      "reward": 1.7758485078811646,
+      "reward_std": 0.0529699232429266,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7758485078811646,
+      "step": 1934
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 256.7890625,
+      "epoch": 0.94482421875,
+      "grad_norm": 1.4612311004000913,
+      "kl": 0.048828125,
+      "learning_rate": 7.637939453124999e-07,
+      "loss": 0.002,
+      "reward": 1.7642263770103455,
+      "reward_std": 0.0411844439804554,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7642263472080231,
+      "step": 1935
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 363.5703125,
+      "epoch": 0.9453125,
+      "grad_norm": 1.0895138935674837,
+      "kl": 0.039306640625,
+      "learning_rate": 7.636718749999999e-07,
+      "loss": 0.0016,
+      "reward": 1.7819878458976746,
+      "reward_std": 0.11622267588973045,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.789800375699997,
+      "step": 1936
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 296.3046875,
+      "epoch": 0.94580078125,
+      "grad_norm": 1.116509437268169,
+      "kl": 0.049072265625,
+      "learning_rate": 7.635498046875e-07,
+      "loss": 0.002,
+      "reward": 1.7431734204292297,
+      "reward_std": 0.06907767802476883,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.750985860824585,
+      "step": 1937
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 209.5625,
+      "epoch": 0.9462890625,
+      "grad_norm": 1.0548626164801436,
+      "kl": 0.05615234375,
+      "learning_rate": 7.63427734375e-07,
+      "loss": 0.0022,
+      "reward": 1.7038698196411133,
+      "reward_std": 0.08116939291357994,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7038698196411133,
+      "step": 1938
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 285.7890625,
+      "epoch": 0.94677734375,
+      "grad_norm": 2.6074049824933714,
+      "kl": 0.063232421875,
+      "learning_rate": 7.633056640625e-07,
+      "loss": 0.0025,
+      "reward": 1.6791431903839111,
+      "reward_std": 0.11179608106613159,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6791431903839111,
+      "step": 1939
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 318.265625,
+      "epoch": 0.947265625,
+      "grad_norm": 4.189314836063207,
+      "kl": 0.0457763671875,
+      "learning_rate": 7.6318359375e-07,
+      "loss": 0.0018,
+      "reward": 1.7924708127975464,
+      "reward_std": 0.04897610656917095,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7924707531929016,
+      "step": 1940
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 309.3828125,
+      "epoch": 0.94775390625,
+      "grad_norm": 1.1917903075664644,
+      "kl": 0.0635986328125,
+      "learning_rate": 7.630615234375e-07,
+      "loss": 0.0025,
+      "reward": 1.7675382494926453,
+      "reward_std": 0.09949354082345963,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7753507494926453,
+      "step": 1941
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 331.703125,
+      "epoch": 0.9482421875,
+      "grad_norm": 0.6607591548251206,
+      "kl": 0.04150390625,
+      "learning_rate": 7.629394531249999e-07,
+      "loss": 0.0017,
+      "reward": 1.8325649499893188,
+      "reward_std": 0.01903275726363063,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8325649201869965,
+      "step": 1942
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 282.6015625,
+      "epoch": 0.94873046875,
+      "grad_norm": 6.132868339589314,
+      "kl": 0.073974609375,
+      "learning_rate": 7.628173828124999e-07,
+      "loss": 0.003,
+      "reward": 1.6471970677375793,
+      "reward_std": 0.060605697333812714,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6550095677375793,
+      "step": 1943
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 298.546875,
+      "epoch": 0.94921875,
+      "grad_norm": 1.4264393045627874,
+      "kl": 0.0548095703125,
+      "learning_rate": 7.626953125e-07,
+      "loss": 0.0022,
+      "reward": 1.7925902605056763,
+      "reward_std": 0.07345704361796379,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8004027009010315,
+      "step": 1944
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 269.046875,
+      "epoch": 0.94970703125,
+      "grad_norm": 1.319335546915897,
+      "kl": 0.049560546875,
+      "learning_rate": 7.625732421875e-07,
+      "loss": 0.002,
+      "reward": 1.7566935420036316,
+      "reward_std": 0.11580286920070648,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7723186016082764,
+      "step": 1945
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 259.7109375,
+      "epoch": 0.9501953125,
+      "grad_norm": 2.0534734192819637,
+      "kl": 0.0673828125,
+      "learning_rate": 7.62451171875e-07,
+      "loss": 0.0027,
+      "reward": 1.7132260203361511,
+      "reward_std": 0.08049709908664227,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7210385203361511,
+      "step": 1946
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 346.140625,
+      "epoch": 0.95068359375,
+      "grad_norm": 2.215564027477621,
+      "kl": 0.0567626953125,
+      "learning_rate": 7.623291015625e-07,
+      "loss": 0.0023,
+      "reward": 1.6834967136383057,
+      "reward_std": 0.04565897583961487,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6834966838359833,
+      "step": 1947
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 266.2734375,
+      "epoch": 0.951171875,
+      "grad_norm": 2.075455827754385,
+      "kl": 0.0616455078125,
+      "learning_rate": 7.622070312499999e-07,
+      "loss": 0.0025,
+      "reward": 1.688484787940979,
+      "reward_std": 0.09864621236920357,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.696297287940979,
+      "step": 1948
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 215.140625,
+      "epoch": 0.95166015625,
+      "grad_norm": 2.250374045260722,
+      "kl": 0.05810546875,
+      "learning_rate": 7.620849609374999e-07,
+      "loss": 0.0023,
+      "reward": 1.8399544954299927,
+      "reward_std": 0.07792560383677483,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8399545550346375,
+      "step": 1949
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 283.359375,
+      "epoch": 0.9521484375,
+      "grad_norm": 1.8302443569238318,
+      "kl": 0.0623779296875,
+      "learning_rate": 7.619628906249999e-07,
+      "loss": 0.0025,
+      "reward": 1.690042495727539,
+      "reward_std": 0.07748877070844173,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6900425255298615,
+      "step": 1950
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 317.0,
+      "epoch": 0.95263671875,
+      "grad_norm": 1.2995294061711256,
+      "kl": 0.056396484375,
+      "learning_rate": 7.618408203125e-07,
+      "loss": 0.0023,
+      "reward": 1.7628344893455505,
+      "reward_std": 0.038826122879981995,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7628344595432281,
+      "step": 1951
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 267.875,
+      "epoch": 0.953125,
+      "grad_norm": 0.8592355590617015,
+      "kl": 0.0640869140625,
+      "learning_rate": 7.6171875e-07,
+      "loss": 0.0026,
+      "reward": 1.6795039176940918,
+      "reward_std": 0.03331707790493965,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6795038878917694,
+      "step": 1952
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 279.90625,
+      "epoch": 0.95361328125,
+      "grad_norm": 7.492200822054816,
+      "kl": 0.08251953125,
+      "learning_rate": 7.615966796875e-07,
+      "loss": 0.0033,
+      "reward": 1.6888149976730347,
+      "reward_std": 0.1778181865811348,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7122524678707123,
+      "step": 1953
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 307.5859375,
+      "epoch": 0.9541015625,
+      "grad_norm": 1.7680737074288075,
+      "kl": 0.060791015625,
+      "learning_rate": 7.61474609375e-07,
+      "loss": 0.0024,
+      "reward": 1.7545133829116821,
+      "reward_std": 0.07330542802810669,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7623258829116821,
+      "step": 1954
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 317.7421875,
+      "epoch": 0.95458984375,
+      "grad_norm": 1.5553080968803128,
+      "kl": 0.0546875,
+      "learning_rate": 7.613525390624999e-07,
+      "loss": 0.0022,
+      "reward": 1.8474570512771606,
+      "reward_std": 0.06518928147852421,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8474570512771606,
+      "step": 1955
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 295.25,
+      "epoch": 0.955078125,
+      "grad_norm": 3.5111551151395557,
+      "kl": 0.0557861328125,
+      "learning_rate": 7.612304687499999e-07,
+      "loss": 0.0022,
+      "reward": 1.6904324293136597,
+      "reward_std": 0.04466338828206062,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6904323995113373,
+      "step": 1956
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 330.453125,
+      "epoch": 0.95556640625,
+      "grad_norm": 1.8392727464500473,
+      "kl": 0.066162109375,
+      "learning_rate": 7.611083984375e-07,
+      "loss": 0.0027,
+      "reward": 1.7047904133796692,
+      "reward_std": 0.07609418779611588,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7126030325889587,
+      "step": 1957
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 279.6875,
+      "epoch": 0.9560546875,
+      "grad_norm": 4.599343237367128,
+      "kl": 0.073486328125,
+      "learning_rate": 7.60986328125e-07,
+      "loss": 0.0029,
+      "reward": 1.6910215616226196,
+      "reward_std": 0.06167110428214073,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.691021591424942,
+      "step": 1958
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 308.0703125,
+      "epoch": 0.95654296875,
+      "grad_norm": 1.7998521981288202,
+      "kl": 0.0550537109375,
+      "learning_rate": 7.608642578125e-07,
+      "loss": 0.0022,
+      "reward": 1.8349308371543884,
+      "reward_std": 0.06764688296243548,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.8505558371543884,
+      "step": 1959
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 332.53125,
+      "epoch": 0.95703125,
+      "grad_norm": 1.7450693187577557,
+      "kl": 0.057373046875,
+      "learning_rate": 7.607421875e-07,
+      "loss": 0.0023,
+      "reward": 1.5837258696556091,
+      "reward_std": 0.10083448141813278,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.5915383994579315,
+      "step": 1960
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 325.9921875,
+      "epoch": 0.95751953125,
+      "grad_norm": 11.114277968224194,
+      "kl": 0.0599365234375,
+      "learning_rate": 7.606201171874999e-07,
+      "loss": 0.0024,
+      "reward": 1.6976925134658813,
+      "reward_std": 0.056451691314578056,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6976925134658813,
+      "step": 1961
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 261.359375,
+      "epoch": 0.9580078125,
+      "grad_norm": 2.105224164489077,
+      "kl": 0.074951171875,
+      "learning_rate": 7.604980468749999e-07,
+      "loss": 0.003,
+      "reward": 1.6166620254516602,
+      "reward_std": 0.08987650275230408,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6244744658470154,
+      "step": 1962
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 289.96875,
+      "epoch": 0.95849609375,
+      "grad_norm": 0.9690709225249844,
+      "kl": 0.0579833984375,
+      "learning_rate": 7.603759765624999e-07,
+      "loss": 0.0023,
+      "reward": 1.6878407001495361,
+      "reward_std": 0.07451405934989452,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6878407299518585,
+      "step": 1963
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 381.375,
+      "epoch": 0.958984375,
+      "grad_norm": 3.78849539137508,
+      "kl": 0.0511474609375,
+      "learning_rate": 7.6025390625e-07,
+      "loss": 0.002,
+      "reward": 1.6614224910736084,
+      "reward_std": 0.15857132896780968,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6770474314689636,
+      "step": 1964
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 386.59375,
+      "epoch": 0.95947265625,
+      "grad_norm": 0.9652488508161328,
+      "kl": 0.0633544921875,
+      "learning_rate": 7.601318359375e-07,
+      "loss": 0.0025,
+      "reward": 1.6580791473388672,
+      "reward_std": 0.11845768243074417,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.7049541175365448,
+      "step": 1965
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 264.3125,
+      "epoch": 0.9599609375,
+      "grad_norm": 1.8006023215240339,
+      "kl": 0.071044921875,
+      "learning_rate": 7.60009765625e-07,
+      "loss": 0.0028,
+      "reward": 1.6227675080299377,
+      "reward_std": 0.12311100959777832,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6227675080299377,
+      "step": 1966
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 317.796875,
+      "epoch": 0.96044921875,
+      "grad_norm": 1.2712786186046117,
+      "kl": 0.10009765625,
+      "learning_rate": 7.598876953125e-07,
+      "loss": 0.004,
+      "reward": 1.69350266456604,
+      "reward_std": 0.051613882184028625,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6935026347637177,
+      "step": 1967
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 295.4765625,
+      "epoch": 0.9609375,
+      "grad_norm": 5.457319655705029,
+      "kl": 0.0501708984375,
+      "learning_rate": 7.597656249999999e-07,
+      "loss": 0.002,
+      "reward": 1.769425630569458,
+      "reward_std": 0.040609823539853096,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7694256603717804,
+      "step": 1968
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 382.875,
+      "epoch": 0.96142578125,
+      "grad_norm": 1.1418180815570933,
+      "kl": 0.0518798828125,
+      "learning_rate": 7.596435546874999e-07,
+      "loss": 0.0021,
+      "reward": 1.7559481859207153,
+      "reward_std": 0.03939475491642952,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7559481859207153,
+      "step": 1969
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 344.5546875,
+      "epoch": 0.9619140625,
+      "grad_norm": 2.761562135305564,
+      "kl": 0.0643310546875,
+      "learning_rate": 7.59521484375e-07,
+      "loss": 0.0026,
+      "reward": 1.6901981830596924,
+      "reward_std": 0.044297732412815094,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.69019815325737,
+      "step": 1970
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 331.3125,
+      "epoch": 0.96240234375,
+      "grad_norm": 4.959957474481586,
+      "kl": 0.061279296875,
+      "learning_rate": 7.593994140625e-07,
+      "loss": 0.0024,
+      "reward": 1.7054769396781921,
+      "reward_std": 0.12026718631386757,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7054769396781921,
+      "step": 1971
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 255.2421875,
+      "epoch": 0.962890625,
+      "grad_norm": 1.0195643681683435,
+      "kl": 0.0621337890625,
+      "learning_rate": 7.5927734375e-07,
+      "loss": 0.0025,
+      "reward": 1.7764147520065308,
+      "reward_std": 0.022609219886362553,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7764147520065308,
+      "step": 1972
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 394.8359375,
+      "epoch": 0.96337890625,
+      "grad_norm": 2.7446568495906796,
+      "kl": 0.0595703125,
+      "learning_rate": 7.591552734375e-07,
+      "loss": 0.0024,
+      "reward": 1.7252334952354431,
+      "reward_std": 0.21081995964050293,
+      "rewards/format_reward": 0.9375,
+      "rewards/ocr_reward": 0.7877334952354431,
+      "step": 1973
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 354.2734375,
+      "epoch": 0.9638671875,
+      "grad_norm": 0.8602906688907507,
+      "kl": 0.068603515625,
+      "learning_rate": 7.59033203125e-07,
+      "loss": 0.0027,
+      "reward": 1.701697051525116,
+      "reward_std": 0.06423486396670341,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7095095813274384,
+      "step": 1974
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 312.953125,
+      "epoch": 0.96435546875,
+      "grad_norm": 2.2124515036462893,
+      "kl": 0.06787109375,
+      "learning_rate": 7.589111328124999e-07,
+      "loss": 0.0027,
+      "reward": 1.7300501465797424,
+      "reward_std": 0.11370932310819626,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7378626465797424,
+      "step": 1975
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 300.4765625,
+      "epoch": 0.96484375,
+      "grad_norm": 1.2753647461496138,
+      "kl": 0.068115234375,
+      "learning_rate": 7.587890624999999e-07,
+      "loss": 0.0027,
+      "reward": 1.7049716711044312,
+      "reward_std": 0.04964887537062168,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7049716711044312,
+      "step": 1976
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 338.2421875,
+      "epoch": 0.96533203125,
+      "grad_norm": 1.3004843395679404,
+      "kl": 0.071044921875,
+      "learning_rate": 7.586669921875e-07,
+      "loss": 0.0028,
+      "reward": 1.7647384405136108,
+      "reward_std": 0.09294159710407257,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7647384405136108,
+      "step": 1977
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 277.484375,
+      "epoch": 0.9658203125,
+      "grad_norm": 2.020273111626442,
+      "kl": 0.073486328125,
+      "learning_rate": 7.58544921875e-07,
+      "loss": 0.0029,
+      "reward": 1.660966157913208,
+      "reward_std": 0.10214090719819069,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6687787771224976,
+      "step": 1978
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 277.21875,
+      "epoch": 0.96630859375,
+      "grad_norm": 3.3338455450291704,
+      "kl": 0.0609130859375,
+      "learning_rate": 7.584228515625e-07,
+      "loss": 0.0024,
+      "reward": 1.774294674396515,
+      "reward_std": 0.07802858576178551,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7742947041988373,
+      "step": 1979
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 295.3046875,
+      "epoch": 0.966796875,
+      "grad_norm": 1.4604029448276346,
+      "kl": 0.0670166015625,
+      "learning_rate": 7.5830078125e-07,
+      "loss": 0.0027,
+      "reward": 1.7650516033172607,
+      "reward_std": 0.10301512852311134,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7806766629219055,
+      "step": 1980
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 428.0546875,
+      "epoch": 0.96728515625,
+      "grad_norm": 1.6943394591205752,
+      "kl": 0.0499267578125,
+      "learning_rate": 7.581787109374999e-07,
+      "loss": 0.002,
+      "reward": 1.5032365322113037,
+      "reward_std": 0.17277055978775024,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.5422990322113037,
+      "step": 1981
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 329.65625,
+      "epoch": 0.9677734375,
+      "grad_norm": 2.8707007057084284,
+      "kl": 0.067626953125,
+      "learning_rate": 7.580566406249999e-07,
+      "loss": 0.0027,
+      "reward": 1.7244834303855896,
+      "reward_std": 0.09691913425922394,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7244834303855896,
+      "step": 1982
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 306.1015625,
+      "epoch": 0.96826171875,
+      "grad_norm": 2.317509515130158,
+      "kl": 0.0565185546875,
+      "learning_rate": 7.579345703125e-07,
+      "loss": 0.0023,
+      "reward": 1.8406411409378052,
+      "reward_std": 0.04954299796372652,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8406412601470947,
+      "step": 1983
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 393.0625,
+      "epoch": 0.96875,
+      "grad_norm": 1.1665337790056094,
+      "kl": 0.0460205078125,
+      "learning_rate": 7.578125e-07,
+      "loss": 0.0018,
+      "reward": 1.871698260307312,
+      "reward_std": 0.08394120261073112,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.879510760307312,
+      "step": 1984
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 290.65625,
+      "epoch": 0.96923828125,
+      "grad_norm": 1.5997848800347867,
+      "kl": 0.07080078125,
+      "learning_rate": 7.576904296875e-07,
+      "loss": 0.0028,
+      "reward": 1.6359334588050842,
+      "reward_std": 0.05299815069884062,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6359334290027618,
+      "step": 1985
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 251.8359375,
+      "epoch": 0.9697265625,
+      "grad_norm": 1.5599863734636639,
+      "kl": 0.0576171875,
+      "learning_rate": 7.57568359375e-07,
+      "loss": 0.0023,
+      "reward": 1.8334488272666931,
+      "reward_std": 0.046138789504766464,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8334488272666931,
+      "step": 1986
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 321.8984375,
+      "epoch": 0.97021484375,
+      "grad_norm": 1.444134658928476,
+      "kl": 0.078125,
+      "learning_rate": 7.574462890625e-07,
+      "loss": 0.0031,
+      "reward": 1.6236762404441833,
+      "reward_std": 0.04829781036823988,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6236762404441833,
+      "step": 1987
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 305.1953125,
+      "epoch": 0.970703125,
+      "grad_norm": 1.758426859641077,
+      "kl": 0.0589599609375,
+      "learning_rate": 7.573242187499999e-07,
+      "loss": 0.0024,
+      "reward": 1.7658716440200806,
+      "reward_std": 0.09004973247647285,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7658716142177582,
+      "step": 1988
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 350.7890625,
+      "epoch": 0.97119140625,
+      "grad_norm": 1.6967311663572766,
+      "kl": 0.053955078125,
+      "learning_rate": 7.572021484374999e-07,
+      "loss": 0.0022,
+      "reward": 1.6358023881912231,
+      "reward_std": 0.11093928292393684,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6436149477958679,
+      "step": 1989
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 406.8828125,
+      "epoch": 0.9716796875,
+      "grad_norm": 2.04207112904878,
+      "kl": 0.0439453125,
+      "learning_rate": 7.57080078125e-07,
+      "loss": 0.0018,
+      "reward": 1.81356942653656,
+      "reward_std": 0.050269074738025665,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8213819265365601,
+      "step": 1990
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 355.890625,
+      "epoch": 0.97216796875,
+      "grad_norm": 6.093675872108313,
+      "kl": 0.0615234375,
+      "learning_rate": 7.569580078125e-07,
+      "loss": 0.0025,
+      "reward": 1.7886452674865723,
+      "reward_std": 0.1061076745390892,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7964576780796051,
+      "step": 1991
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 286.5078125,
+      "epoch": 0.97265625,
+      "grad_norm": 3.270820256088369,
+      "kl": 0.06689453125,
+      "learning_rate": 7.568359375e-07,
+      "loss": 0.0027,
+      "reward": 1.8523313999176025,
+      "reward_std": 0.07106838375329971,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8523313105106354,
+      "step": 1992
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 320.21875,
+      "epoch": 0.97314453125,
+      "grad_norm": 1.8113236486460977,
+      "kl": 0.05078125,
+      "learning_rate": 7.567138671875e-07,
+      "loss": 0.002,
+      "reward": 1.7407814264297485,
+      "reward_std": 0.10060215182602406,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7485939860343933,
+      "step": 1993
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 284.203125,
+      "epoch": 0.9736328125,
+      "grad_norm": 3.923636866884382,
+      "kl": 0.0592041015625,
+      "learning_rate": 7.565917968749999e-07,
+      "loss": 0.0024,
+      "reward": 1.7928686141967773,
+      "reward_std": 0.07088093087077141,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.792868584394455,
+      "step": 1994
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 295.65625,
+      "epoch": 0.97412109375,
+      "grad_norm": 1.0205069593502663,
+      "kl": 0.0491943359375,
+      "learning_rate": 7.564697265624999e-07,
+      "loss": 0.002,
+      "reward": 1.820485532283783,
+      "reward_std": 0.034951613284647465,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.820485532283783,
+      "step": 1995
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 398.3125,
+      "epoch": 0.974609375,
+      "grad_norm": 1.3146869441919158,
+      "kl": 0.0570068359375,
+      "learning_rate": 7.5634765625e-07,
+      "loss": 0.0023,
+      "reward": 1.6975049376487732,
+      "reward_std": 0.050795383751392365,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6975049078464508,
+      "step": 1996
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 311.9765625,
+      "epoch": 0.97509765625,
+      "grad_norm": 2.103512397807353,
+      "kl": 0.0506591796875,
+      "learning_rate": 7.562255859375e-07,
+      "loss": 0.002,
+      "reward": 1.7807487845420837,
+      "reward_std": 0.06361746462062001,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7885612845420837,
+      "step": 1997
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 270.015625,
+      "epoch": 0.9755859375,
+      "grad_norm": 9.688121646518365,
+      "kl": 0.076416015625,
+      "learning_rate": 7.56103515625e-07,
+      "loss": 0.0031,
+      "reward": 1.704875409603119,
+      "reward_std": 0.09089740738272667,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7126878798007965,
+      "step": 1998
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 333.953125,
+      "epoch": 0.97607421875,
+      "grad_norm": 1.7750779721775813,
+      "kl": 0.0582275390625,
+      "learning_rate": 7.559814453125e-07,
+      "loss": 0.0023,
+      "reward": 1.7654090523719788,
+      "reward_std": 0.07578187435865402,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7654090225696564,
+      "step": 1999
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 392.6640625,
+      "epoch": 0.9765625,
+      "grad_norm": 6.238100855818762,
+      "kl": 0.0582275390625,
+      "learning_rate": 7.55859375e-07,
+      "loss": 0.0023,
+      "reward": 1.7102959752082825,
+      "reward_std": 0.13805482536554337,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7259210050106049,
+      "step": 2000
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 291.859375,
+      "epoch": 0.97705078125,
+      "grad_norm": 4.341560277329405,
+      "kl": 0.054443359375,
+      "learning_rate": 7.557373046874999e-07,
+      "loss": 0.0022,
+      "reward": 1.7868390083312988,
+      "reward_std": 0.04986852779984474,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7868389785289764,
+      "step": 2001
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 361.96875,
+      "epoch": 0.9775390625,
+      "grad_norm": 1.11717831151428,
+      "kl": 0.0552978515625,
+      "learning_rate": 7.556152343749999e-07,
+      "loss": 0.0022,
+      "reward": 1.6372390389442444,
+      "reward_std": 0.04036341607570648,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6372390389442444,
+      "step": 2002
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 332.09375,
+      "epoch": 0.97802734375,
+      "grad_norm": 1.1083383023566933,
+      "kl": 0.0694580078125,
+      "learning_rate": 7.554931640625e-07,
+      "loss": 0.0028,
+      "reward": 1.6198468804359436,
+      "reward_std": 0.08751692995429039,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.62765933573246,
+      "step": 2003
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 245.453125,
+      "epoch": 0.978515625,
+      "grad_norm": 3.2731263361849963,
+      "kl": 0.0699462890625,
+      "learning_rate": 7.5537109375e-07,
+      "loss": 0.0028,
+      "reward": 1.7005380988121033,
+      "reward_std": 0.07136748731136322,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7005380988121033,
+      "step": 2004
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 321.125,
+      "epoch": 0.97900390625,
+      "grad_norm": 4.932970901055641,
+      "kl": 0.056396484375,
+      "learning_rate": 7.552490234375e-07,
+      "loss": 0.0023,
+      "reward": 1.799683392047882,
+      "reward_std": 0.060001108795404434,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7996833622455597,
+      "step": 2005
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 313.4140625,
+      "epoch": 0.9794921875,
+      "grad_norm": 1.5941330883157996,
+      "kl": 0.0606689453125,
+      "learning_rate": 7.55126953125e-07,
+      "loss": 0.0024,
+      "reward": 1.773667812347412,
+      "reward_std": 0.058895327150821686,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7892928421497345,
+      "step": 2006
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 330.0703125,
+      "epoch": 0.97998046875,
+      "grad_norm": 1.3767151749195397,
+      "kl": 0.0626220703125,
+      "learning_rate": 7.550048828124999e-07,
+      "loss": 0.0025,
+      "reward": 1.7313017845153809,
+      "reward_std": 0.08502375334501266,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7391143441200256,
+      "step": 2007
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 307.9453125,
+      "epoch": 0.98046875,
+      "grad_norm": 2.620215945991878,
+      "kl": 0.0706787109375,
+      "learning_rate": 7.548828124999999e-07,
+      "loss": 0.0028,
+      "reward": 1.762086808681488,
+      "reward_std": 0.09928128868341446,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.769899308681488,
+      "step": 2008
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 288.2734375,
+      "epoch": 0.98095703125,
+      "grad_norm": 3.8108526407917065,
+      "kl": 0.0550537109375,
+      "learning_rate": 7.547607421875e-07,
+      "loss": 0.0022,
+      "reward": 1.695708990097046,
+      "reward_std": 0.052436916157603264,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6957089602947235,
+      "step": 2009
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 318.9140625,
+      "epoch": 0.9814453125,
+      "grad_norm": 1.733038006998932,
+      "kl": 0.0518798828125,
+      "learning_rate": 7.54638671875e-07,
+      "loss": 0.0021,
+      "reward": 1.791795015335083,
+      "reward_std": 0.05815849453210831,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.791795015335083,
+      "step": 2010
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 277.28125,
+      "epoch": 0.98193359375,
+      "grad_norm": 3.978067562200423,
+      "kl": 0.069091796875,
+      "learning_rate": 7.545166015625e-07,
+      "loss": 0.0028,
+      "reward": 1.7538942098617554,
+      "reward_std": 0.10411181300878525,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7617067396640778,
+      "step": 2011
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 256.6875,
+      "epoch": 0.982421875,
+      "grad_norm": 5.320638926802918,
+      "kl": 0.062255859375,
+      "learning_rate": 7.5439453125e-07,
+      "loss": 0.0025,
+      "reward": 1.755543053150177,
+      "reward_std": 0.07938620075583458,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.755543053150177,
+      "step": 2012
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 263.5390625,
+      "epoch": 0.98291015625,
+      "grad_norm": 2.7469000275015745,
+      "kl": 0.058837890625,
+      "learning_rate": 7.542724609375e-07,
+      "loss": 0.0024,
+      "reward": 1.6718215942382812,
+      "reward_std": 0.09080488607287407,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6718215942382812,
+      "step": 2013
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 314.5703125,
+      "epoch": 0.9833984375,
+      "grad_norm": 1.7108353133321768,
+      "kl": 0.0496826171875,
+      "learning_rate": 7.541503906249999e-07,
+      "loss": 0.002,
+      "reward": 1.7525351643562317,
+      "reward_std": 0.06778106465935707,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7525351941585541,
+      "step": 2014
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 392.4765625,
+      "epoch": 0.98388671875,
+      "grad_norm": 1.4726300800994188,
+      "kl": 0.051513671875,
+      "learning_rate": 7.540283203124999e-07,
+      "loss": 0.0021,
+      "reward": 1.7786903977394104,
+      "reward_std": 0.03883876092731953,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7786904275417328,
+      "step": 2015
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 294.390625,
+      "epoch": 0.984375,
+      "grad_norm": 2.204556954621402,
+      "kl": 0.0611572265625,
+      "learning_rate": 7.5390625e-07,
+      "loss": 0.0024,
+      "reward": 1.788576900959015,
+      "reward_std": 0.05577550455927849,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7885768711566925,
+      "step": 2016
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 344.125,
+      "epoch": 0.98486328125,
+      "grad_norm": 1.666818054703339,
+      "kl": 0.048095703125,
+      "learning_rate": 7.537841796875e-07,
+      "loss": 0.0019,
+      "reward": 1.7710611820220947,
+      "reward_std": 0.1724838688969612,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.8101237118244171,
+      "step": 2017
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 287.90625,
+      "epoch": 0.9853515625,
+      "grad_norm": 1.4819925595821943,
+      "kl": 0.055419921875,
+      "learning_rate": 7.53662109375e-07,
+      "loss": 0.0022,
+      "reward": 1.844101369380951,
+      "reward_std": 0.11457358300685883,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8519138097763062,
+      "step": 2018
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 319.1640625,
+      "epoch": 0.98583984375,
+      "grad_norm": 0.863402575226768,
+      "kl": 0.057373046875,
+      "learning_rate": 7.535400390625e-07,
+      "loss": 0.0023,
+      "reward": 1.8190799951553345,
+      "reward_std": 0.028183109126985073,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8190799951553345,
+      "step": 2019
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 278.9609375,
+      "epoch": 0.986328125,
+      "grad_norm": 1.693685033843237,
+      "kl": 0.0555419921875,
+      "learning_rate": 7.534179687499999e-07,
+      "loss": 0.0022,
+      "reward": 1.8829106092453003,
+      "reward_std": 0.03998455451801419,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8829106092453003,
+      "step": 2020
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 290.8046875,
+      "epoch": 0.98681640625,
+      "grad_norm": 1.5870071937237666,
+      "kl": 0.0589599609375,
+      "learning_rate": 7.532958984374999e-07,
+      "loss": 0.0024,
+      "reward": 1.7445420026779175,
+      "reward_std": 0.05026637949049473,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7445419728755951,
+      "step": 2021
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 345.890625,
+      "epoch": 0.9873046875,
+      "grad_norm": 1.6854847331554719,
+      "kl": 0.0511474609375,
+      "learning_rate": 7.53173828125e-07,
+      "loss": 0.002,
+      "reward": 1.7165476083755493,
+      "reward_std": 0.1217353455722332,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7399851083755493,
+      "step": 2022
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 266.1875,
+      "epoch": 0.98779296875,
+      "grad_norm": 3.876567272736264,
+      "kl": 0.0650634765625,
+      "learning_rate": 7.530517578125e-07,
+      "loss": 0.0026,
+      "reward": 1.648318886756897,
+      "reward_std": 0.11310148239135742,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.656131386756897,
+      "step": 2023
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 250.765625,
+      "epoch": 0.98828125,
+      "grad_norm": 17.515994932795444,
+      "kl": 0.0703125,
+      "learning_rate": 7.529296875e-07,
+      "loss": 0.0028,
+      "reward": 1.788986623287201,
+      "reward_std": 0.04432579409331083,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7889866828918457,
+      "step": 2024
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 357.109375,
+      "epoch": 0.98876953125,
+      "grad_norm": 3.17134976005998,
+      "kl": 0.056640625,
+      "learning_rate": 7.528076171875e-07,
+      "loss": 0.0023,
+      "reward": 1.741170048713684,
+      "reward_std": 0.1307641789317131,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7489825487136841,
+      "step": 2025
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 202.671875,
+      "epoch": 0.9892578125,
+      "grad_norm": 0.6360837641452156,
+      "kl": 0.063720703125,
+      "learning_rate": 7.52685546875e-07,
+      "loss": 0.0025,
+      "reward": 1.833198606967926,
+      "reward_std": 0.033319685608148575,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8331986367702484,
+      "step": 2026
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 300.640625,
+      "epoch": 0.98974609375,
+      "grad_norm": 2.1336492840699175,
+      "kl": 0.057373046875,
+      "learning_rate": 7.525634765624999e-07,
+      "loss": 0.0023,
+      "reward": 1.6746537685394287,
+      "reward_std": 0.06350501254200935,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6746538877487183,
+      "step": 2027
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 224.0703125,
+      "epoch": 0.990234375,
+      "grad_norm": 4.759167762843545,
+      "kl": 0.064453125,
+      "learning_rate": 7.524414062499999e-07,
+      "loss": 0.0026,
+      "reward": 1.7838603258132935,
+      "reward_std": 0.09581628814339638,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7838603258132935,
+      "step": 2028
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 382.75,
+      "epoch": 0.99072265625,
+      "grad_norm": 1.6603971592521138,
+      "kl": 0.063232421875,
+      "learning_rate": 7.523193359375e-07,
+      "loss": 0.0025,
+      "reward": 1.6969883441925049,
+      "reward_std": 0.08057832717895508,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6969882547855377,
+      "step": 2029
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 368.3125,
+      "epoch": 0.9912109375,
+      "grad_norm": 1.180993131330784,
+      "kl": 0.0533447265625,
+      "learning_rate": 7.52197265625e-07,
+      "loss": 0.0021,
+      "reward": 1.6063008308410645,
+      "reward_std": 0.17890335619449615,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.6453633606433868,
+      "step": 2030
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 366.0234375,
+      "epoch": 0.99169921875,
+      "grad_norm": 1.095038299634487,
+      "kl": 0.0523681640625,
+      "learning_rate": 7.520751953125e-07,
+      "loss": 0.0021,
+      "reward": 1.779970109462738,
+      "reward_std": 0.08126384392380714,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7955950498580933,
+      "step": 2031
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 336.8984375,
+      "epoch": 0.9921875,
+      "grad_norm": 2.6979143608108265,
+      "kl": 0.0673828125,
+      "learning_rate": 7.51953125e-07,
+      "loss": 0.0027,
+      "reward": 1.740858554840088,
+      "reward_std": 0.09589342772960663,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7408585846424103,
+      "step": 2032
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 281.609375,
+      "epoch": 0.99267578125,
+      "grad_norm": 2.848196704773645,
+      "kl": 0.05908203125,
+      "learning_rate": 7.518310546874999e-07,
+      "loss": 0.0024,
+      "reward": 1.7175134420394897,
+      "reward_std": 0.028206244111061096,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.717513382434845,
+      "step": 2033
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 318.7890625,
+      "epoch": 0.9931640625,
+      "grad_norm": 3.5557294743989054,
+      "kl": 0.0601806640625,
+      "learning_rate": 7.517089843749999e-07,
+      "loss": 0.0024,
+      "reward": 1.8203625082969666,
+      "reward_std": 0.060490844771265984,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8203625082969666,
+      "step": 2034
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 346.21875,
+      "epoch": 0.99365234375,
+      "grad_norm": 1.016603411671492,
+      "kl": 0.0650634765625,
+      "learning_rate": 7.515869140625e-07,
+      "loss": 0.0026,
+      "reward": 1.7698943614959717,
+      "reward_std": 0.05688617751002312,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7698944211006165,
+      "step": 2035
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 339.234375,
+      "epoch": 0.994140625,
+      "grad_norm": 1.1139849774388095,
+      "kl": 0.0531005859375,
+      "learning_rate": 7.5146484375e-07,
+      "loss": 0.0021,
+      "reward": 1.829136312007904,
+      "reward_std": 0.030549502931535244,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8291363418102264,
+      "step": 2036
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 267.609375,
+      "epoch": 0.99462890625,
+      "grad_norm": 1.9862434556565576,
+      "kl": 0.08837890625,
+      "learning_rate": 7.513427734375e-07,
+      "loss": 0.0035,
+      "reward": 1.7540498971939087,
+      "reward_std": 0.019931727088987827,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7540498673915863,
+      "step": 2037
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 249.328125,
+      "epoch": 0.9951171875,
+      "grad_norm": 1.245846895225628,
+      "kl": 0.066650390625,
+      "learning_rate": 7.51220703125e-07,
+      "loss": 0.0027,
+      "reward": 1.775355041027069,
+      "reward_std": 0.03905859775841236,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7753550708293915,
+      "step": 2038
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 303.9609375,
+      "epoch": 0.99560546875,
+      "grad_norm": 5.356625380854759,
+      "kl": 0.0936279296875,
+      "learning_rate": 7.510986328125e-07,
+      "loss": 0.0037,
+      "reward": 1.7761430740356445,
+      "reward_std": 0.08487707003951073,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7761430144309998,
+      "step": 2039
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 336.609375,
+      "epoch": 0.99609375,
+      "grad_norm": 0.8395847923657573,
+      "kl": 0.0499267578125,
+      "learning_rate": 7.509765624999999e-07,
+      "loss": 0.002,
+      "reward": 1.8729313015937805,
+      "reward_std": 0.02620452456176281,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8729313611984253,
+      "step": 2040
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 281.625,
+      "epoch": 0.99658203125,
+      "grad_norm": 2.022128826305776,
+      "kl": 0.052734375,
+      "learning_rate": 7.508544921874999e-07,
+      "loss": 0.0021,
+      "reward": 1.725024938583374,
+      "reward_std": 0.12236949801445007,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.732837438583374,
+      "step": 2041
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 280.859375,
+      "epoch": 0.9970703125,
+      "grad_norm": 15.315894492212703,
+      "kl": 0.0631103515625,
+      "learning_rate": 7.50732421875e-07,
+      "loss": 0.0025,
+      "reward": 1.7646106481552124,
+      "reward_std": 0.09433956071734428,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7724231779575348,
+      "step": 2042
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 309.3671875,
+      "epoch": 0.99755859375,
+      "grad_norm": 8.3408933772686,
+      "kl": 0.07275390625,
+      "learning_rate": 7.506103515625e-07,
+      "loss": 0.0029,
+      "reward": 1.7954939603805542,
+      "reward_std": 0.060113584622740746,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.795494019985199,
+      "step": 2043
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 302.3515625,
+      "epoch": 0.998046875,
+      "grad_norm": 2.462496443372101,
+      "kl": 0.0589599609375,
+      "learning_rate": 7.5048828125e-07,
+      "loss": 0.0024,
+      "reward": 1.7298526167869568,
+      "reward_std": 0.10707394033670425,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7298526465892792,
+      "step": 2044
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 273.171875,
+      "epoch": 0.99853515625,
+      "grad_norm": 2.026729878970871,
+      "kl": 0.0565185546875,
+      "learning_rate": 7.503662109375e-07,
+      "loss": 0.0023,
+      "reward": 1.7790692448616028,
+      "reward_std": 0.07894434407353401,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7868817448616028,
+      "step": 2045
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 307.328125,
+      "epoch": 0.9990234375,
+      "grad_norm": 2.3300701728667375,
+      "kl": 0.0714111328125,
+      "learning_rate": 7.502441406249999e-07,
+      "loss": 0.0029,
+      "reward": 1.7110105156898499,
+      "reward_std": 0.15207843482494354,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.7422605454921722,
+      "step": 2046
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 379.68031311035156,
+      "epoch": 0.99951171875,
+      "grad_norm": 1.141841899027945,
+      "kl": 0.05810546875,
+      "learning_rate": 7.501220703124999e-07,
+      "loss": 0.0024,
+      "reward": 1.8359350562095642,
+      "reward_std": 0.14897098392248154,
+      "rewards/format_reward": 0.9754097759723663,
+      "rewards/ocr_reward": 0.8605252206325531,
+      "step": 2047
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 268.5625,
+      "epoch": 1.00048828125,
+      "grad_norm": 3.803502318684469,
+      "kl": 0.0550537109375,
+      "learning_rate": 7.5e-07,
+      "loss": 0.0022,
+      "reward": 1.8090072274208069,
+      "reward_std": 0.06662950664758682,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8090072870254517,
+      "step": 2048
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 266.046875,
+      "epoch": 1.0009765625,
+      "grad_norm": 0.7862946563465897,
+      "kl": 0.06298828125,
+      "learning_rate": 7.498779296875e-07,
+      "loss": 0.0025,
+      "reward": 1.6712990999221802,
+      "reward_std": 0.02280174382030964,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6712990701198578,
+      "step": 2049
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 293.5078125,
+      "epoch": 1.00146484375,
+      "grad_norm": 1.342303670259137,
+      "kl": 0.0587158203125,
+      "learning_rate": 7.49755859375e-07,
+      "loss": 0.0023,
+      "reward": 1.840239703655243,
+      "reward_std": 0.023719463497400284,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8402397036552429,
+      "step": 2050
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 267.3828125,
+      "epoch": 1.001953125,
+      "grad_norm": 0.9572879054411417,
+      "kl": 0.0562744140625,
+      "learning_rate": 7.496337890625e-07,
+      "loss": 0.0023,
+      "reward": 1.8105382919311523,
+      "reward_std": 0.09160010330379009,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8183507919311523,
+      "step": 2051
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 382.640625,
+      "epoch": 1.00244140625,
+      "grad_norm": 1.6102653045301574,
+      "kl": 0.05078125,
+      "learning_rate": 7.4951171875e-07,
+      "loss": 0.002,
+      "reward": 1.6806508302688599,
+      "reward_std": 0.1597279291599989,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.7275258004665375,
+      "step": 2052
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 471.0,
+      "epoch": 1.0029296875,
+      "grad_norm": 1.4804709133667804,
+      "kl": 0.050537109375,
+      "learning_rate": 7.493896484374999e-07,
+      "loss": 0.002,
+      "reward": 1.804791808128357,
+      "reward_std": 0.11673609726130962,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.8204168379306793,
+      "step": 2053
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 285.546875,
+      "epoch": 1.00341796875,
+      "grad_norm": 1.9657773937285294,
+      "kl": 0.056396484375,
+      "learning_rate": 7.492675781249999e-07,
+      "loss": 0.0023,
+      "reward": 1.8031712174415588,
+      "reward_std": 0.11098561063408852,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8109836876392365,
+      "step": 2054
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 437.2265625,
+      "epoch": 1.00390625,
+      "grad_norm": 1.6895047631875901,
+      "kl": 0.053955078125,
+      "learning_rate": 7.491455078125e-07,
+      "loss": 0.0022,
+      "reward": 1.648207187652588,
+      "reward_std": 0.2681009843945503,
+      "rewards/format_reward": 0.9453125,
+      "rewards/ocr_reward": 0.7028946876525879,
+      "step": 2055
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 352.71875,
+      "epoch": 1.00439453125,
+      "grad_norm": 3.0164245238907608,
+      "kl": 0.0562744140625,
+      "learning_rate": 7.490234375e-07,
+      "loss": 0.0023,
+      "reward": 1.7384542226791382,
+      "reward_std": 0.09973935224115849,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7462667226791382,
+      "step": 2056
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 303.0078125,
+      "epoch": 1.0048828125,
+      "grad_norm": 1.4926521960283892,
+      "kl": 0.0579833984375,
+      "learning_rate": 7.489013671875e-07,
+      "loss": 0.0023,
+      "reward": 1.8106223940849304,
+      "reward_std": 0.02411152981221676,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8106224536895752,
+      "step": 2057
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 337.171875,
+      "epoch": 1.00537109375,
+      "grad_norm": 1.418929150113678,
+      "kl": 0.0513916015625,
+      "learning_rate": 7.48779296875e-07,
+      "loss": 0.0021,
+      "reward": 1.733910322189331,
+      "reward_std": 0.11833417788147926,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7417227923870087,
+      "step": 2058
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 344.359375,
+      "epoch": 1.005859375,
+      "grad_norm": 2.1455363975809427,
+      "kl": 0.0540771484375,
+      "learning_rate": 7.486572265624999e-07,
+      "loss": 0.0022,
+      "reward": 1.7620959281921387,
+      "reward_std": 0.13864869251847267,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.7933458983898163,
+      "step": 2059
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 352.7578125,
+      "epoch": 1.00634765625,
+      "grad_norm": 1.4711170006450227,
+      "kl": 0.0628662109375,
+      "learning_rate": 7.485351562499999e-07,
+      "loss": 0.0025,
+      "reward": 1.8471481800079346,
+      "reward_std": 0.04248751141130924,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8471481502056122,
+      "step": 2060
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 326.0859375,
+      "epoch": 1.0068359375,
+      "grad_norm": 1.6633546292914565,
+      "kl": 0.0538330078125,
+      "learning_rate": 7.484130859374999e-07,
+      "loss": 0.0022,
+      "reward": 1.6721433401107788,
+      "reward_std": 0.08107060939073563,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.695580929517746,
+      "step": 2061
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 387.359375,
+      "epoch": 1.00732421875,
+      "grad_norm": 2.7740994248622304,
+      "kl": 0.0533447265625,
+      "learning_rate": 7.48291015625e-07,
+      "loss": 0.0021,
+      "reward": 1.72020024061203,
+      "reward_std": 0.09270552173256874,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.72801274061203,
+      "step": 2062
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 296.21875,
+      "epoch": 1.0078125,
+      "grad_norm": 1.8930966049480564,
+      "kl": 0.0594482421875,
+      "learning_rate": 7.481689453125e-07,
+      "loss": 0.0024,
+      "reward": 1.8536216616630554,
+      "reward_std": 0.06580028869211674,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.8692466914653778,
+      "step": 2063
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 268.9453125,
+      "epoch": 1.00830078125,
+      "grad_norm": 5.427251340055625,
+      "kl": 0.0599365234375,
+      "learning_rate": 7.48046875e-07,
+      "loss": 0.0024,
+      "reward": 1.766296148300171,
+      "reward_std": 0.07562026381492615,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7819211483001709,
+      "step": 2064
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 246.7265625,
+      "epoch": 1.0087890625,
+      "grad_norm": 1.6714670851072095,
+      "kl": 0.0499267578125,
+      "learning_rate": 7.479248046875e-07,
+      "loss": 0.002,
+      "reward": 1.8139212131500244,
+      "reward_std": 0.08759323135018349,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8217337727546692,
+      "step": 2065
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 458.5234375,
+      "epoch": 1.00927734375,
+      "grad_norm": 1.4835031644240106,
+      "kl": 0.0606689453125,
+      "learning_rate": 7.478027343749999e-07,
+      "loss": 0.0024,
+      "reward": 1.5658519268035889,
+      "reward_std": 0.17432072386145592,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.5971018970012665,
+      "step": 2066
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 339.8125,
+      "epoch": 1.009765625,
+      "grad_norm": 1.002420848386625,
+      "kl": 0.06494140625,
+      "learning_rate": 7.476806640624999e-07,
+      "loss": 0.0026,
+      "reward": 1.7776638269424438,
+      "reward_std": 0.08371632359921932,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7854763865470886,
+      "step": 2067
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 250.859375,
+      "epoch": 1.01025390625,
+      "grad_norm": 1.8316432776762526,
+      "kl": 0.055908203125,
+      "learning_rate": 7.4755859375e-07,
+      "loss": 0.0022,
+      "reward": 1.7354426980018616,
+      "reward_std": 0.08602847345173359,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.735442727804184,
+      "step": 2068
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 290.9609375,
+      "epoch": 1.0107421875,
+      "grad_norm": 0.8791339224441008,
+      "kl": 0.0540771484375,
+      "learning_rate": 7.474365234375e-07,
+      "loss": 0.0022,
+      "reward": 1.8300225734710693,
+      "reward_std": 0.035275645554065704,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.830022543668747,
+      "step": 2069
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 357.171875,
+      "epoch": 1.01123046875,
+      "grad_norm": 1.4982277249016536,
+      "kl": 0.04736328125,
+      "learning_rate": 7.47314453125e-07,
+      "loss": 0.0019,
+      "reward": 1.8361040353775024,
+      "reward_std": 0.03841123543679714,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8361040949821472,
+      "step": 2070
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 337.234375,
+      "epoch": 1.01171875,
+      "grad_norm": 0.6837506894975471,
+      "kl": 0.0616455078125,
+      "learning_rate": 7.471923828125e-07,
+      "loss": 0.0025,
+      "reward": 1.788848340511322,
+      "reward_std": 0.058198969811201096,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7888484299182892,
+      "step": 2071
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 313.6015625,
+      "epoch": 1.01220703125,
+      "grad_norm": 1.443895916653485,
+      "kl": 0.077392578125,
+      "learning_rate": 7.470703125e-07,
+      "loss": 0.0031,
+      "reward": 1.6802573204040527,
+      "reward_std": 0.11816703528165817,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6880699098110199,
+      "step": 2072
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 270.5859375,
+      "epoch": 1.0126953125,
+      "grad_norm": 6.059167846056267,
+      "kl": 0.065673828125,
+      "learning_rate": 7.469482421874999e-07,
+      "loss": 0.0026,
+      "reward": 1.7388933897018433,
+      "reward_std": 0.07620543800294399,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7388934195041656,
+      "step": 2073
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 265.5078125,
+      "epoch": 1.01318359375,
+      "grad_norm": 2.3817776057089093,
+      "kl": 0.06494140625,
+      "learning_rate": 7.468261718749999e-07,
+      "loss": 0.0026,
+      "reward": 1.7072933316230774,
+      "reward_std": 0.0740668810904026,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.707293301820755,
+      "step": 2074
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 214.8671875,
+      "epoch": 1.013671875,
+      "grad_norm": 1.3422401028685387,
+      "kl": 0.072998046875,
+      "learning_rate": 7.467041015625e-07,
+      "loss": 0.0029,
+      "reward": 1.733224332332611,
+      "reward_std": 0.06582791358232498,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7332243919372559,
+      "step": 2075
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 364.046875,
+      "epoch": 1.01416015625,
+      "grad_norm": 0.9975798038955767,
+      "kl": 0.061767578125,
+      "learning_rate": 7.4658203125e-07,
+      "loss": 0.0025,
+      "reward": 1.645218014717102,
+      "reward_std": 0.02710463386029005,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.645218014717102,
+      "step": 2076
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 265.125,
+      "epoch": 1.0146484375,
+      "grad_norm": 1.565205712470546,
+      "kl": 0.07861328125,
+      "learning_rate": 7.464599609375e-07,
+      "loss": 0.0031,
+      "reward": 1.6886191368103027,
+      "reward_std": 0.03423266182653606,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.688619077205658,
+      "step": 2077
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 244.8984375,
+      "epoch": 1.01513671875,
+      "grad_norm": 2.642889571657758,
+      "kl": 0.0645751953125,
+      "learning_rate": 7.46337890625e-07,
+      "loss": 0.0026,
+      "reward": 1.787465751171112,
+      "reward_std": 0.04049981106072664,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7874657511711121,
+      "step": 2078
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 331.75,
+      "epoch": 1.015625,
+      "grad_norm": 2.426800209345326,
+      "kl": 0.0562744140625,
+      "learning_rate": 7.462158203124999e-07,
+      "loss": 0.0023,
+      "reward": 1.71806001663208,
+      "reward_std": 0.030627473257482052,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7180599868297577,
+      "step": 2079
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 404.2890625,
+      "epoch": 1.01611328125,
+      "grad_norm": 5.675745821516389,
+      "kl": 0.062255859375,
+      "learning_rate": 7.460937499999999e-07,
+      "loss": 0.0025,
+      "reward": 1.7228577136993408,
+      "reward_std": 0.10195358097553253,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7306701838970184,
+      "step": 2080
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 365.0390625,
+      "epoch": 1.0166015625,
+      "grad_norm": 3.7013692307890995,
+      "kl": 0.060302734375,
+      "learning_rate": 7.459716796875e-07,
+      "loss": 0.0024,
+      "reward": 1.9432930946350098,
+      "reward_std": 0.15386238880455494,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.9432931840419769,
+      "step": 2081
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 296.078125,
+      "epoch": 1.01708984375,
+      "grad_norm": 2.032809989173598,
+      "kl": 0.076416015625,
+      "learning_rate": 7.45849609375e-07,
+      "loss": 0.0031,
+      "reward": 1.7166752815246582,
+      "reward_std": 0.0454743467271328,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7166752815246582,
+      "step": 2082
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 294.65625,
+      "epoch": 1.017578125,
+      "grad_norm": 3.864692981065383,
+      "kl": 0.0621337890625,
+      "learning_rate": 7.457275390625e-07,
+      "loss": 0.0025,
+      "reward": 1.8227131962776184,
+      "reward_std": 0.0507346335798502,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.822713166475296,
+      "step": 2083
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 378.96875,
+      "epoch": 1.01806640625,
+      "grad_norm": 1.0624085888750547,
+      "kl": 0.05126953125,
+      "learning_rate": 7.4560546875e-07,
+      "loss": 0.0021,
+      "reward": 1.7786809802055359,
+      "reward_std": 0.10613211244344711,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7864934504032135,
+      "step": 2084
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 312.7265625,
+      "epoch": 1.0185546875,
+      "grad_norm": 2.255916713761177,
+      "kl": 0.075927734375,
+      "learning_rate": 7.454833984375e-07,
+      "loss": 0.003,
+      "reward": 1.7361916899681091,
+      "reward_std": 0.1337970271706581,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7440041303634644,
+      "step": 2085
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 288.0859375,
+      "epoch": 1.01904296875,
+      "grad_norm": 3.5672731701933262,
+      "kl": 0.0615234375,
+      "learning_rate": 7.453613281249999e-07,
+      "loss": 0.0025,
+      "reward": 1.834282636642456,
+      "reward_std": 0.04526693467050791,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8342825770378113,
+      "step": 2086
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 343.8515625,
+      "epoch": 1.01953125,
+      "grad_norm": 1.1390787112646121,
+      "kl": 0.0599365234375,
+      "learning_rate": 7.452392578124999e-07,
+      "loss": 0.0024,
+      "reward": 1.8966719508171082,
+      "reward_std": 0.14545264467597008,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.9044845402240753,
+      "step": 2087
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 300.3671875,
+      "epoch": 1.02001953125,
+      "grad_norm": 1.1424293003741923,
+      "kl": 0.05712890625,
+      "learning_rate": 7.451171875e-07,
+      "loss": 0.0023,
+      "reward": 1.776362955570221,
+      "reward_std": 0.08313069678843021,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7841754257678986,
+      "step": 2088
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 285.109375,
+      "epoch": 1.0205078125,
+      "grad_norm": 1.2961993858286134,
+      "kl": 0.0609130859375,
+      "learning_rate": 7.449951171875e-07,
+      "loss": 0.0024,
+      "reward": 1.7457592487335205,
+      "reward_std": 0.06624248251318932,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7457592785358429,
+      "step": 2089
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 302.46875,
+      "epoch": 1.02099609375,
+      "grad_norm": 2.9122243864865833,
+      "kl": 0.0662841796875,
+      "learning_rate": 7.44873046875e-07,
+      "loss": 0.0027,
+      "reward": 1.7659137845039368,
+      "reward_std": 0.09149673208594322,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7815387845039368,
+      "step": 2090
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 347.5703125,
+      "epoch": 1.021484375,
+      "grad_norm": 1.7837165721571753,
+      "kl": 0.0560302734375,
+      "learning_rate": 7.447509765625e-07,
+      "loss": 0.0022,
+      "reward": 1.7793264389038086,
+      "reward_std": 0.07757101766765118,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.779326468706131,
+      "step": 2091
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 271.6875,
+      "epoch": 1.02197265625,
+      "grad_norm": 2.6677175324191764,
+      "kl": 0.0672607421875,
+      "learning_rate": 7.446289062499999e-07,
+      "loss": 0.0027,
+      "reward": 1.7153024673461914,
+      "reward_std": 0.06006733886897564,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7153024673461914,
+      "step": 2092
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 253.6484375,
+      "epoch": 1.0224609375,
+      "grad_norm": 8.212754923875098,
+      "kl": 0.06787109375,
+      "learning_rate": 7.445068359374999e-07,
+      "loss": 0.0027,
+      "reward": 1.731951892375946,
+      "reward_std": 0.08415350876748562,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7319517731666565,
+      "step": 2093
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 327.8359375,
+      "epoch": 1.02294921875,
+      "grad_norm": 1.0081680404176827,
+      "kl": 0.059326171875,
+      "learning_rate": 7.44384765625e-07,
+      "loss": 0.0024,
+      "reward": 1.7743852734565735,
+      "reward_std": 0.06954375258646905,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7743852734565735,
+      "step": 2094
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 343.75,
+      "epoch": 1.0234375,
+      "grad_norm": 2.3423641729543694,
+      "kl": 0.07568359375,
+      "learning_rate": 7.442626953125e-07,
+      "loss": 0.003,
+      "reward": 1.8153335452079773,
+      "reward_std": 0.06889502890408039,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8153335452079773,
+      "step": 2095
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 348.1171875,
+      "epoch": 1.02392578125,
+      "grad_norm": 0.9005825292004632,
+      "kl": 0.06982421875,
+      "learning_rate": 7.44140625e-07,
+      "loss": 0.0028,
+      "reward": 1.7364252805709839,
+      "reward_std": 0.14264655858278275,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.7676753103733063,
+      "step": 2096
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 260.9609375,
+      "epoch": 1.0244140625,
+      "grad_norm": 1.2457369377691487,
+      "kl": 0.0660400390625,
+      "learning_rate": 7.440185546875e-07,
+      "loss": 0.0026,
+      "reward": 1.8361563086509705,
+      "reward_std": 0.03824903070926666,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8361562192440033,
+      "step": 2097
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 309.1171875,
+      "epoch": 1.02490234375,
+      "grad_norm": 4.994694191481811,
+      "kl": 0.070556640625,
+      "learning_rate": 7.43896484375e-07,
+      "loss": 0.0028,
+      "reward": 1.7435556650161743,
+      "reward_std": 0.08704771101474762,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7513681650161743,
+      "step": 2098
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 334.4140625,
+      "epoch": 1.025390625,
+      "grad_norm": 1.291822341118298,
+      "kl": 0.069091796875,
+      "learning_rate": 7.437744140624999e-07,
+      "loss": 0.0028,
+      "reward": 1.729736089706421,
+      "reward_std": 0.05247452110052109,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7297360599040985,
+      "step": 2099
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 302.8671875,
+      "epoch": 1.02587890625,
+      "grad_norm": 1.6815056470609293,
+      "kl": 0.063720703125,
+      "learning_rate": 7.436523437499999e-07,
+      "loss": 0.0026,
+      "reward": 1.813611924648285,
+      "reward_std": 0.048070028424263,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8136118948459625,
+      "step": 2100
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 269.421875,
+      "epoch": 1.0263671875,
+      "grad_norm": 2.2241505771119563,
+      "kl": 0.07421875,
+      "learning_rate": 7.435302734375e-07,
+      "loss": 0.003,
+      "reward": 1.8664068579673767,
+      "reward_std": 0.04198060557246208,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8664068281650543,
+      "step": 2101
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 337.03125,
+      "epoch": 1.02685546875,
+      "grad_norm": 1.3461961566886906,
+      "kl": 0.0640869140625,
+      "learning_rate": 7.43408203125e-07,
+      "loss": 0.0026,
+      "reward": 1.7394928336143494,
+      "reward_std": 0.11257979273796082,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7473053336143494,
+      "step": 2102
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 335.8046875,
+      "epoch": 1.02734375,
+      "grad_norm": 0.7096896402429057,
+      "kl": 0.0537109375,
+      "learning_rate": 7.432861328125e-07,
+      "loss": 0.0022,
+      "reward": 1.7980987429618835,
+      "reward_std": 0.1013258621096611,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.8137237429618835,
+      "step": 2103
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 233.5625,
+      "epoch": 1.02783203125,
+      "grad_norm": 0.9569277555942687,
+      "kl": 0.0828857421875,
+      "learning_rate": 7.431640625e-07,
+      "loss": 0.0033,
+      "reward": 1.8101829886436462,
+      "reward_std": 0.045853691175580025,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8101829886436462,
+      "step": 2104
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 279.3125,
+      "epoch": 1.0283203125,
+      "grad_norm": 4.832884831931728,
+      "kl": 0.0743408203125,
+      "learning_rate": 7.430419921874999e-07,
+      "loss": 0.003,
+      "reward": 1.7681997418403625,
+      "reward_std": 0.12344841938465834,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7760122716426849,
+      "step": 2105
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 258.640625,
+      "epoch": 1.02880859375,
+      "grad_norm": 3.3258791760247073,
+      "kl": 0.06689453125,
+      "learning_rate": 7.429199218749999e-07,
+      "loss": 0.0027,
+      "reward": 1.7421391010284424,
+      "reward_std": 0.05865258723497391,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7421391606330872,
+      "step": 2106
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 355.921875,
+      "epoch": 1.029296875,
+      "grad_norm": 2.6371942953766623,
+      "kl": 0.066650390625,
+      "learning_rate": 7.427978515625e-07,
+      "loss": 0.0027,
+      "reward": 1.6952205896377563,
+      "reward_std": 0.1647278480231762,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.7420955300331116,
+      "step": 2107
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 306.5234375,
+      "epoch": 1.02978515625,
+      "grad_norm": 2.0605570090114793,
+      "kl": 0.058349609375,
+      "learning_rate": 7.4267578125e-07,
+      "loss": 0.0023,
+      "reward": 1.773497223854065,
+      "reward_std": 0.22887670993804932,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.8047472238540649,
+      "step": 2108
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 242.0,
+      "epoch": 1.0302734375,
+      "grad_norm": 2.492828590978083,
+      "kl": 0.06640625,
+      "learning_rate": 7.425537109375e-07,
+      "loss": 0.0027,
+      "reward": 1.7053377032279968,
+      "reward_std": 0.1504954844713211,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7287752032279968,
+      "step": 2109
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 307.8984375,
+      "epoch": 1.03076171875,
+      "grad_norm": 2.696773965633565,
+      "kl": 0.07080078125,
+      "learning_rate": 7.42431640625e-07,
+      "loss": 0.0028,
+      "reward": 1.8146610260009766,
+      "reward_std": 0.12038443237543106,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.8302860260009766,
+      "step": 2110
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 335.90625,
+      "epoch": 1.03125,
+      "grad_norm": 1.8989371313788723,
+      "kl": 0.0650634765625,
+      "learning_rate": 7.423095703125e-07,
+      "loss": 0.0026,
+      "reward": 1.7706368565559387,
+      "reward_std": 0.2233428657054901,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.8096993565559387,
+      "step": 2111
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 373.6640625,
+      "epoch": 1.03173828125,
+      "grad_norm": 3.6497635388956224,
+      "kl": 0.140625,
+      "learning_rate": 7.421874999999999e-07,
+      "loss": 0.0056,
+      "reward": 1.586828589439392,
+      "reward_std": 0.30886563658714294,
+      "rewards/format_reward": 0.9375,
+      "rewards/ocr_reward": 0.6493285894393921,
+      "step": 2112
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 361.25,
+      "epoch": 1.0322265625,
+      "grad_norm": 0.9780344434658866,
+      "kl": 0.06201171875,
+      "learning_rate": 7.420654296874999e-07,
+      "loss": 0.0025,
+      "reward": 1.62257981300354,
+      "reward_std": 0.3575499951839447,
+      "rewards/format_reward": 0.9140625,
+      "rewards/ocr_reward": 0.70851731300354,
+      "step": 2113
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 371.1640625,
+      "epoch": 1.03271484375,
+      "grad_norm": 5.949761627807109,
+      "kl": 0.065185546875,
+      "learning_rate": 7.41943359375e-07,
+      "loss": 0.0026,
+      "reward": 1.6299309730529785,
+      "reward_std": 0.39395518600940704,
+      "rewards/format_reward": 0.9140625,
+      "rewards/ocr_reward": 0.7158684730529785,
+      "step": 2114
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 299.59375,
+      "epoch": 1.033203125,
+      "grad_norm": 1.059347621749564,
+      "kl": 0.062744140625,
+      "learning_rate": 7.418212890625e-07,
+      "loss": 0.0025,
+      "reward": 1.7748578786849976,
+      "reward_std": 0.18243324011564255,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.8061079382896423,
+      "step": 2115
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 430.53125,
+      "epoch": 1.03369140625,
+      "grad_norm": 0.6484997754740194,
+      "kl": 0.0679931640625,
+      "learning_rate": 7.4169921875e-07,
+      "loss": 0.0027,
+      "reward": 1.6713528037071228,
+      "reward_std": 0.351689875125885,
+      "rewards/format_reward": 0.921875,
+      "rewards/ocr_reward": 0.7494778335094452,
+      "step": 2116
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 385.7109375,
+      "epoch": 1.0341796875,
+      "grad_norm": 2.682455320676119,
+      "kl": 0.0614013671875,
+      "learning_rate": 7.415771484375e-07,
+      "loss": 0.0025,
+      "reward": 1.7464085221290588,
+      "reward_std": 0.1380649134516716,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7698459923267365,
+      "step": 2117
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 316.53125,
+      "epoch": 1.03466796875,
+      "grad_norm": 0.9380873546654088,
+      "kl": 0.0721435546875,
+      "learning_rate": 7.414550781249999e-07,
+      "loss": 0.0029,
+      "reward": 1.8222784996032715,
+      "reward_std": 0.10763486847281456,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.8379034996032715,
+      "step": 2118
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 323.125,
+      "epoch": 1.03515625,
+      "grad_norm": 1.7089694241065019,
+      "kl": 0.066650390625,
+      "learning_rate": 7.413330078124999e-07,
+      "loss": 0.0027,
+      "reward": 1.680859923362732,
+      "reward_std": 0.1279044784605503,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.7121100127696991,
+      "step": 2119
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 368.1015625,
+      "epoch": 1.03564453125,
+      "grad_norm": 1.184804985444957,
+      "kl": 0.0596923828125,
+      "learning_rate": 7.412109375e-07,
+      "loss": 0.0024,
+      "reward": 1.7026260495185852,
+      "reward_std": 0.0845637135207653,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7104385793209076,
+      "step": 2120
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 312.8984375,
+      "epoch": 1.0361328125,
+      "grad_norm": 2.4689879281350584,
+      "kl": 0.0672607421875,
+      "learning_rate": 7.410888671875e-07,
+      "loss": 0.0027,
+      "reward": 1.6870477795600891,
+      "reward_std": 0.08825328946113586,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6948603093624115,
+      "step": 2121
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 255.4609375,
+      "epoch": 1.03662109375,
+      "grad_norm": 2.637185167724473,
+      "kl": 0.073974609375,
+      "learning_rate": 7.40966796875e-07,
+      "loss": 0.003,
+      "reward": 1.7651128768920898,
+      "reward_std": 0.04329609777778387,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7651128768920898,
+      "step": 2122
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 350.7109375,
+      "epoch": 1.037109375,
+      "grad_norm": 15.312775728411562,
+      "kl": 0.059814453125,
+      "learning_rate": 7.408447265625e-07,
+      "loss": 0.0024,
+      "reward": 1.7873907089233398,
+      "reward_std": 0.053318215534090996,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7873907387256622,
+      "step": 2123
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 275.375,
+      "epoch": 1.03759765625,
+      "grad_norm": 2.1162197557292513,
+      "kl": 0.086181640625,
+      "learning_rate": 7.4072265625e-07,
+      "loss": 0.0034,
+      "reward": 1.637177586555481,
+      "reward_std": 0.0317330677062273,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6371775567531586,
+      "step": 2124
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 349.6171875,
+      "epoch": 1.0380859375,
+      "grad_norm": 5.324096223818963,
+      "kl": 0.058837890625,
+      "learning_rate": 7.406005859374999e-07,
+      "loss": 0.0024,
+      "reward": 1.7509996891021729,
+      "reward_std": 0.06184336729347706,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7509996891021729,
+      "step": 2125
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 299.1875,
+      "epoch": 1.03857421875,
+      "grad_norm": 0.9586175770588368,
+      "kl": 0.0633544921875,
+      "learning_rate": 7.404785156249999e-07,
+      "loss": 0.0025,
+      "reward": 1.820866346359253,
+      "reward_std": 0.11166086047887802,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.8599288463592529,
+      "step": 2126
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 276.234375,
+      "epoch": 1.0390625,
+      "grad_norm": 1.9880497607902226,
+      "kl": 0.063232421875,
+      "learning_rate": 7.403564453125e-07,
+      "loss": 0.0025,
+      "reward": 1.682478904724121,
+      "reward_std": 0.03829295188188553,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6824789345264435,
+      "step": 2127
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 345.234375,
+      "epoch": 1.03955078125,
+      "grad_norm": 0.9645795198072094,
+      "kl": 0.0556640625,
+      "learning_rate": 7.40234375e-07,
+      "loss": 0.0022,
+      "reward": 1.6462610960006714,
+      "reward_std": 0.03332418855279684,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.646261066198349,
+      "step": 2128
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 362.3671875,
+      "epoch": 1.0400390625,
+      "grad_norm": 1.5537365872327011,
+      "kl": 0.072509765625,
+      "learning_rate": 7.401123046875e-07,
+      "loss": 0.0029,
+      "reward": 1.7381998300552368,
+      "reward_std": 0.12407108163461089,
+      "rewards/format_reward": 0.9453125,
+      "rewards/ocr_reward": 0.792887270450592,
+      "step": 2129
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 288.203125,
+      "epoch": 1.04052734375,
+      "grad_norm": 2.7636605699535606,
+      "kl": 0.0556640625,
+      "learning_rate": 7.39990234375e-07,
+      "loss": 0.0022,
+      "reward": 1.6674214005470276,
+      "reward_std": 0.03596335183829069,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.66742143034935,
+      "step": 2130
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 223.0859375,
+      "epoch": 1.041015625,
+      "grad_norm": 1.2451863266792458,
+      "kl": 0.07861328125,
+      "learning_rate": 7.398681640624999e-07,
+      "loss": 0.0031,
+      "reward": 1.7419597506523132,
+      "reward_std": 0.0864316001534462,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7497721910476685,
+      "step": 2131
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 359.0390625,
+      "epoch": 1.04150390625,
+      "grad_norm": 1.5936629511193108,
+      "kl": 0.0469970703125,
+      "learning_rate": 7.397460937499999e-07,
+      "loss": 0.0019,
+      "reward": 1.6851105093955994,
+      "reward_std": 0.0796204935759306,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.692922979593277,
+      "step": 2132
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 287.2421875,
+      "epoch": 1.0419921875,
+      "grad_norm": 3.690196248709246,
+      "kl": 0.0635986328125,
+      "learning_rate": 7.396240234375e-07,
+      "loss": 0.0025,
+      "reward": 1.7646411657333374,
+      "reward_std": 0.08438229188323021,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7724536657333374,
+      "step": 2133
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 407.53125,
+      "epoch": 1.04248046875,
+      "grad_norm": 2.1257395476547387,
+      "kl": 0.04931640625,
+      "learning_rate": 7.39501953125e-07,
+      "loss": 0.002,
+      "reward": 1.6398783326148987,
+      "reward_std": 0.19317952543497086,
+      "rewards/format_reward": 0.921875,
+      "rewards/ocr_reward": 0.7180033326148987,
+      "step": 2134
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 281.9765625,
+      "epoch": 1.04296875,
+      "grad_norm": 0.8869364175450244,
+      "kl": 0.0697021484375,
+      "learning_rate": 7.393798828125e-07,
+      "loss": 0.0028,
+      "reward": 1.6968178749084473,
+      "reward_std": 0.11358075961470604,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7046304047107697,
+      "step": 2135
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 232.8828125,
+      "epoch": 1.04345703125,
+      "grad_norm": 2.2017880020005243,
+      "kl": 0.064453125,
+      "learning_rate": 7.392578125e-07,
+      "loss": 0.0026,
+      "reward": 1.795127511024475,
+      "reward_std": 0.044227102771401405,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7951274216175079,
+      "step": 2136
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 348.1328125,
+      "epoch": 1.0439453125,
+      "grad_norm": 2.79303089558888,
+      "kl": 0.0516357421875,
+      "learning_rate": 7.391357421875e-07,
+      "loss": 0.0021,
+      "reward": 1.7270812392234802,
+      "reward_std": 0.11675109714269638,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7348937392234802,
+      "step": 2137
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 274.0546875,
+      "epoch": 1.04443359375,
+      "grad_norm": 1.05482411179448,
+      "kl": 0.0499267578125,
+      "learning_rate": 7.390136718749999e-07,
+      "loss": 0.002,
+      "reward": 1.8569371104240417,
+      "reward_std": 0.027390625327825546,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8569370210170746,
+      "step": 2138
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 266.578125,
+      "epoch": 1.044921875,
+      "grad_norm": 3.373738723448789,
+      "kl": 0.0653076171875,
+      "learning_rate": 7.388916015624999e-07,
+      "loss": 0.0026,
+      "reward": 1.7933273315429688,
+      "reward_std": 0.04443395556882024,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7933273315429688,
+      "step": 2139
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 340.296875,
+      "epoch": 1.04541015625,
+      "grad_norm": 0.9983903579493524,
+      "kl": 0.046630859375,
+      "learning_rate": 7.3876953125e-07,
+      "loss": 0.0019,
+      "reward": 1.681038737297058,
+      "reward_std": 0.07797625940293074,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.7201012670993805,
+      "step": 2140
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 344.15625,
+      "epoch": 1.0458984375,
+      "grad_norm": 1.8879030546706417,
+      "kl": 0.0511474609375,
+      "learning_rate": 7.386474609375e-07,
+      "loss": 0.002,
+      "reward": 1.6292105913162231,
+      "reward_std": 0.21559580974280834,
+      "rewards/format_reward": 0.9453125,
+      "rewards/ocr_reward": 0.6838980913162231,
+      "step": 2141
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 325.0078125,
+      "epoch": 1.04638671875,
+      "grad_norm": 1.3052945256803228,
+      "kl": 0.0604248046875,
+      "learning_rate": 7.38525390625e-07,
+      "loss": 0.0024,
+      "reward": 1.658437967300415,
+      "reward_std": 0.11939615942537785,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.6896880269050598,
+      "step": 2142
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 288.453125,
+      "epoch": 1.046875,
+      "grad_norm": 1.1710672837881737,
+      "kl": 0.0650634765625,
+      "learning_rate": 7.384033203125e-07,
+      "loss": 0.0026,
+      "reward": 1.8534250855445862,
+      "reward_std": 0.0744034256786108,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8612376153469086,
+      "step": 2143
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 430.9765625,
+      "epoch": 1.04736328125,
+      "grad_norm": 5.639567766118087,
+      "kl": 0.057861328125,
+      "learning_rate": 7.382812499999999e-07,
+      "loss": 0.0023,
+      "reward": 1.7248152494430542,
+      "reward_std": 0.13105768337845802,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7482527196407318,
+      "step": 2144
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 247.171875,
+      "epoch": 1.0478515625,
+      "grad_norm": 2.0263228158297935,
+      "kl": 0.0672607421875,
+      "learning_rate": 7.381591796874999e-07,
+      "loss": 0.0027,
+      "reward": 1.6987344622612,
+      "reward_std": 0.07333962060511112,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6987345218658447,
+      "step": 2145
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 332.328125,
+      "epoch": 1.04833984375,
+      "grad_norm": 0.9474657856304045,
+      "kl": 0.045654296875,
+      "learning_rate": 7.38037109375e-07,
+      "loss": 0.0018,
+      "reward": 1.8015679717063904,
+      "reward_std": 0.06693462654948235,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8093804717063904,
+      "step": 2146
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 287.84375,
+      "epoch": 1.048828125,
+      "grad_norm": 1.899611714790272,
+      "kl": 0.069580078125,
+      "learning_rate": 7.379150390625e-07,
+      "loss": 0.0028,
+      "reward": 1.776853621006012,
+      "reward_std": 0.07761351764202118,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7846660614013672,
+      "step": 2147
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 273.53125,
+      "epoch": 1.04931640625,
+      "grad_norm": 1.2684760918178732,
+      "kl": 0.072265625,
+      "learning_rate": 7.3779296875e-07,
+      "loss": 0.0029,
+      "reward": 1.7402900457382202,
+      "reward_std": 0.050347575917840004,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.740289956331253,
+      "step": 2148
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 270.546875,
+      "epoch": 1.0498046875,
+      "grad_norm": 0.8851627060755088,
+      "kl": 0.068603515625,
+      "learning_rate": 7.376708984375e-07,
+      "loss": 0.0028,
+      "reward": 1.66942298412323,
+      "reward_std": 0.06483565643429756,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6694230437278748,
+      "step": 2149
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 290.9765625,
+      "epoch": 1.05029296875,
+      "grad_norm": 1.0989385292696576,
+      "kl": 0.0732421875,
+      "learning_rate": 7.37548828125e-07,
+      "loss": 0.0029,
+      "reward": 1.734316349029541,
+      "reward_std": 0.10244572162628174,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7421287596225739,
+      "step": 2150
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 314.375,
+      "epoch": 1.05078125,
+      "grad_norm": 1.3053195164204594,
+      "kl": 0.0589599609375,
+      "learning_rate": 7.374267578124999e-07,
+      "loss": 0.0024,
+      "reward": 1.7859277725219727,
+      "reward_std": 0.09848207421600819,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.8015527129173279,
+      "step": 2151
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 249.9609375,
+      "epoch": 1.05126953125,
+      "grad_norm": 4.695553247711008,
+      "kl": 0.0660400390625,
+      "learning_rate": 7.373046874999999e-07,
+      "loss": 0.0026,
+      "reward": 1.8197780847549438,
+      "reward_std": 0.04821081645786762,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8197780549526215,
+      "step": 2152
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 338.5703125,
+      "epoch": 1.0517578125,
+      "grad_norm": 1.4462058737833505,
+      "kl": 0.0604248046875,
+      "learning_rate": 7.371826171875e-07,
+      "loss": 0.0024,
+      "reward": 1.705611228942871,
+      "reward_std": 0.04024476930499077,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7056111991405487,
+      "step": 2153
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 289.7109375,
+      "epoch": 1.05224609375,
+      "grad_norm": 3.3498088491590505,
+      "kl": 0.05126953125,
+      "learning_rate": 7.37060546875e-07,
+      "loss": 0.002,
+      "reward": 1.7300852537155151,
+      "reward_std": 0.08649061527103186,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7378977537155151,
+      "step": 2154
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 282.6328125,
+      "epoch": 1.052734375,
+      "grad_norm": 1.7860979292641492,
+      "kl": 0.066650390625,
+      "learning_rate": 7.369384765625e-07,
+      "loss": 0.0027,
+      "reward": 1.749430775642395,
+      "reward_std": 0.05913347005844116,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.749430775642395,
+      "step": 2155
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 250.8828125,
+      "epoch": 1.05322265625,
+      "grad_norm": 14.752756244291026,
+      "kl": 0.0562744140625,
+      "learning_rate": 7.3681640625e-07,
+      "loss": 0.0023,
+      "reward": 1.8864418268203735,
+      "reward_std": 0.051150595769286156,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8942543268203735,
+      "step": 2156
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 286.8359375,
+      "epoch": 1.0537109375,
+      "grad_norm": 1.4880684525219599,
+      "kl": 0.065673828125,
+      "learning_rate": 7.366943359374999e-07,
+      "loss": 0.0026,
+      "reward": 1.7557436227798462,
+      "reward_std": 0.07325353659689426,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.763556182384491,
+      "step": 2157
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 309.8203125,
+      "epoch": 1.05419921875,
+      "grad_norm": 1.227305473803353,
+      "kl": 0.05078125,
+      "learning_rate": 7.365722656249999e-07,
+      "loss": 0.002,
+      "reward": 1.6383469700813293,
+      "reward_std": 0.07099130935966969,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6461593806743622,
+      "step": 2158
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 334.7109375,
+      "epoch": 1.0546875,
+      "grad_norm": 0.7035510885180098,
+      "kl": 0.0516357421875,
+      "learning_rate": 7.364501953124999e-07,
+      "loss": 0.0021,
+      "reward": 1.8514134287834167,
+      "reward_std": 0.047458380460739136,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8514134883880615,
+      "step": 2159
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 355.8984375,
+      "epoch": 1.05517578125,
+      "grad_norm": 1.1121154130874542,
+      "kl": 0.0587158203125,
+      "learning_rate": 7.36328125e-07,
+      "loss": 0.0023,
+      "reward": 1.8369617462158203,
+      "reward_std": 0.05468747764825821,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8369618058204651,
+      "step": 2160
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 296.53125,
+      "epoch": 1.0556640625,
+      "grad_norm": 3.7658263078887484,
+      "kl": 0.056640625,
+      "learning_rate": 7.362060546875e-07,
+      "loss": 0.0023,
+      "reward": 1.7871454954147339,
+      "reward_std": 0.10257207229733467,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7949579656124115,
+      "step": 2161
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 320.6171875,
+      "epoch": 1.05615234375,
+      "grad_norm": 1.1368885648860967,
+      "kl": 0.065673828125,
+      "learning_rate": 7.36083984375e-07,
+      "loss": 0.0026,
+      "reward": 1.685727596282959,
+      "reward_std": 0.13240405172109604,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.693540096282959,
+      "step": 2162
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 311.2421875,
+      "epoch": 1.056640625,
+      "grad_norm": 1.4737797498246885,
+      "kl": 0.070068359375,
+      "learning_rate": 7.359619140625e-07,
+      "loss": 0.0028,
+      "reward": 1.6595805883407593,
+      "reward_std": 0.034869059920310974,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6595805883407593,
+      "step": 2163
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 350.234375,
+      "epoch": 1.05712890625,
+      "grad_norm": 4.315861274519875,
+      "kl": 0.0625,
+      "learning_rate": 7.358398437499999e-07,
+      "loss": 0.0025,
+      "reward": 1.779079794883728,
+      "reward_std": 0.05369388684630394,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7790797650814056,
+      "step": 2164
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 320.6875,
+      "epoch": 1.0576171875,
+      "grad_norm": 2.32247382157244,
+      "kl": 0.0498046875,
+      "learning_rate": 7.357177734374999e-07,
+      "loss": 0.002,
+      "reward": 1.7220231294631958,
+      "reward_std": 0.049990251660346985,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7220230996608734,
+      "step": 2165
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 334.7109375,
+      "epoch": 1.05810546875,
+      "grad_norm": 1.3332007134810149,
+      "kl": 0.0616455078125,
+      "learning_rate": 7.35595703125e-07,
+      "loss": 0.0025,
+      "reward": 1.776341736316681,
+      "reward_std": 0.09242127742618322,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.8075916767120361,
+      "step": 2166
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 257.34375,
+      "epoch": 1.05859375,
+      "grad_norm": 2.707627459785679,
+      "kl": 0.08056640625,
+      "learning_rate": 7.354736328125e-07,
+      "loss": 0.0032,
+      "reward": 1.7095162868499756,
+      "reward_std": 0.0930749960243702,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7173287868499756,
+      "step": 2167
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 341.8671875,
+      "epoch": 1.05908203125,
+      "grad_norm": 1.5790115563997662,
+      "kl": 0.0679931640625,
+      "learning_rate": 7.353515625e-07,
+      "loss": 0.0027,
+      "reward": 1.833968698978424,
+      "reward_std": 0.1615981161594391,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.8574061989784241,
+      "step": 2168
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 265.4609375,
+      "epoch": 1.0595703125,
+      "grad_norm": 1.216637779595074,
+      "kl": 0.067138671875,
+      "learning_rate": 7.352294921875e-07,
+      "loss": 0.0027,
+      "reward": 1.8065576553344727,
+      "reward_std": 0.048122160136699677,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8065576553344727,
+      "step": 2169
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 303.9375,
+      "epoch": 1.06005859375,
+      "grad_norm": 1.7503160947547827,
+      "kl": 0.0791015625,
+      "learning_rate": 7.35107421875e-07,
+      "loss": 0.0032,
+      "reward": 1.676461935043335,
+      "reward_std": 0.07576654106378555,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.684274435043335,
+      "step": 2170
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 345.359375,
+      "epoch": 1.060546875,
+      "grad_norm": 2.082251913418121,
+      "kl": 0.07080078125,
+      "learning_rate": 7.349853515624999e-07,
+      "loss": 0.0028,
+      "reward": 1.5780660510063171,
+      "reward_std": 0.08183467015624046,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.5780660212039948,
+      "step": 2171
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 384.2265625,
+      "epoch": 1.06103515625,
+      "grad_norm": 1.3618484884392383,
+      "kl": 0.066162109375,
+      "learning_rate": 7.348632812499999e-07,
+      "loss": 0.0026,
+      "reward": 1.6594600677490234,
+      "reward_std": 0.1468387171626091,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.6985225975513458,
+      "step": 2172
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 225.78125,
+      "epoch": 1.0615234375,
+      "grad_norm": 1.1921095797514936,
+      "kl": 0.091552734375,
+      "learning_rate": 7.347412109375e-07,
+      "loss": 0.0037,
+      "reward": 1.7010453343391418,
+      "reward_std": 0.07318814843893051,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7088578939437866,
+      "step": 2173
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 416.5546875,
+      "epoch": 1.06201171875,
+      "grad_norm": 0.8033656102067087,
+      "kl": 0.0726318359375,
+      "learning_rate": 7.34619140625e-07,
+      "loss": 0.0029,
+      "reward": 1.5880872011184692,
+      "reward_std": 0.21278053149580956,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.6271496415138245,
+      "step": 2174
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 294.2109375,
+      "epoch": 1.0625,
+      "grad_norm": 1.5869611446935907,
+      "kl": 0.07666015625,
+      "learning_rate": 7.344970703125e-07,
+      "loss": 0.0031,
+      "reward": 1.7660531997680664,
+      "reward_std": 0.09016413614153862,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7738656997680664,
+      "step": 2175
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 243.4921875,
+      "epoch": 1.06298828125,
+      "grad_norm": 1.677072145006438,
+      "kl": 0.072021484375,
+      "learning_rate": 7.34375e-07,
+      "loss": 0.0029,
+      "reward": 1.797443151473999,
+      "reward_std": 0.06796230189502239,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7974432110786438,
+      "step": 2176
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 275.8515625,
+      "epoch": 1.0634765625,
+      "grad_norm": 1.3737869324375402,
+      "kl": 0.0567626953125,
+      "learning_rate": 7.342529296874999e-07,
+      "loss": 0.0023,
+      "reward": 1.7921919226646423,
+      "reward_std": 0.03785792738199234,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7921919226646423,
+      "step": 2177
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 383.09375,
+      "epoch": 1.06396484375,
+      "grad_norm": 0.8350475539832674,
+      "kl": 0.052734375,
+      "learning_rate": 7.341308593749999e-07,
+      "loss": 0.0021,
+      "reward": 1.8188701272010803,
+      "reward_std": 0.13417918607592583,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.8423075675964355,
+      "step": 2178
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 390.6015625,
+      "epoch": 1.064453125,
+      "grad_norm": 2.0295192660753987,
+      "kl": 0.076171875,
+      "learning_rate": 7.340087890625e-07,
+      "loss": 0.003,
+      "reward": 1.6831302642822266,
+      "reward_std": 0.11725856736302376,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6987552344799042,
+      "step": 2179
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 395.7734375,
+      "epoch": 1.06494140625,
+      "grad_norm": 1.823650973787344,
+      "kl": 0.083251953125,
+      "learning_rate": 7.3388671875e-07,
+      "loss": 0.0033,
+      "reward": 1.677744746208191,
+      "reward_std": 0.09554462134838104,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6855571866035461,
+      "step": 2180
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 336.46875,
+      "epoch": 1.0654296875,
+      "grad_norm": 0.5930383971596412,
+      "kl": 0.059814453125,
+      "learning_rate": 7.337646484375e-07,
+      "loss": 0.0024,
+      "reward": 1.9693381786346436,
+      "reward_std": 0.1475313939154148,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 1.000588208436966,
+      "step": 2181
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 311.2890625,
+      "epoch": 1.06591796875,
+      "grad_norm": 0.8776224591700195,
+      "kl": 0.0567626953125,
+      "learning_rate": 7.33642578125e-07,
+      "loss": 0.0023,
+      "reward": 1.7541506886482239,
+      "reward_std": 0.04516553692519665,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7541506886482239,
+      "step": 2182
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 350.109375,
+      "epoch": 1.06640625,
+      "grad_norm": 1.6024822866707846,
+      "kl": 0.0609130859375,
+      "learning_rate": 7.335205078125e-07,
+      "loss": 0.0024,
+      "reward": 1.7111125588417053,
+      "reward_std": 0.055892692878842354,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7111125588417053,
+      "step": 2183
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 436.7421875,
+      "epoch": 1.06689453125,
+      "grad_norm": 1.2580164449344338,
+      "kl": 0.070068359375,
+      "learning_rate": 7.333984374999999e-07,
+      "loss": 0.0028,
+      "reward": 1.823473334312439,
+      "reward_std": 0.0914062550291419,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8312858641147614,
+      "step": 2184
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 320.5625,
+      "epoch": 1.0673828125,
+      "grad_norm": 2.0897595557191124,
+      "kl": 0.0743408203125,
+      "learning_rate": 7.332763671874999e-07,
+      "loss": 0.003,
+      "reward": 1.7943394780158997,
+      "reward_std": 0.071324672549963,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7943394482135773,
+      "step": 2185
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 370.859375,
+      "epoch": 1.06787109375,
+      "grad_norm": 1.711752883290858,
+      "kl": 0.072509765625,
+      "learning_rate": 7.33154296875e-07,
+      "loss": 0.0029,
+      "reward": 1.6719991564750671,
+      "reward_std": 0.05058279260993004,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6719991564750671,
+      "step": 2186
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 349.8359375,
+      "epoch": 1.068359375,
+      "grad_norm": 1.7191611604780395,
+      "kl": 0.064453125,
+      "learning_rate": 7.330322265625e-07,
+      "loss": 0.0026,
+      "reward": 1.7175182700157166,
+      "reward_std": 0.08080036751925945,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7253307402133942,
+      "step": 2187
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 221.0859375,
+      "epoch": 1.06884765625,
+      "grad_norm": 1.5113242303718457,
+      "kl": 0.0703125,
+      "learning_rate": 7.3291015625e-07,
+      "loss": 0.0028,
+      "reward": 1.8223052620887756,
+      "reward_std": 0.03729821881279349,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8223052620887756,
+      "step": 2188
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 319.984375,
+      "epoch": 1.0693359375,
+      "grad_norm": 1.8504864852407057,
+      "kl": 0.072998046875,
+      "learning_rate": 7.327880859375e-07,
+      "loss": 0.0029,
+      "reward": 1.8702041506767273,
+      "reward_std": 0.08449077978730202,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8702041506767273,
+      "step": 2189
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 318.265625,
+      "epoch": 1.06982421875,
+      "grad_norm": 1.8618054773039303,
+      "kl": 0.08642578125,
+      "learning_rate": 7.326660156249999e-07,
+      "loss": 0.0035,
+      "reward": 1.7093619108200073,
+      "reward_std": 0.04153325408697128,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7093620002269745,
+      "step": 2190
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 380.109375,
+      "epoch": 1.0703125,
+      "grad_norm": 2.721104333800809,
+      "kl": 0.078125,
+      "learning_rate": 7.325439453124999e-07,
+      "loss": 0.0031,
+      "reward": 1.7475308179855347,
+      "reward_std": 0.06819172203540802,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7475307881832123,
+      "step": 2191
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 300.4609375,
+      "epoch": 1.07080078125,
+      "grad_norm": 1.1564680853165057,
+      "kl": 0.0570068359375,
+      "learning_rate": 7.32421875e-07,
+      "loss": 0.0023,
+      "reward": 1.8769598603248596,
+      "reward_std": 0.027791874017566442,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8769599199295044,
+      "step": 2192
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 417.421875,
+      "epoch": 1.0712890625,
+      "grad_norm": 7.862477096986793,
+      "kl": 0.0655517578125,
+      "learning_rate": 7.322998046875e-07,
+      "loss": 0.0026,
+      "reward": 1.7873188257217407,
+      "reward_std": 0.1392914056777954,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.8185688853263855,
+      "step": 2193
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 268.3359375,
+      "epoch": 1.07177734375,
+      "grad_norm": 2.5077562517083343,
+      "kl": 0.071044921875,
+      "learning_rate": 7.32177734375e-07,
+      "loss": 0.0028,
+      "reward": 1.8010922074317932,
+      "reward_std": 0.0915432795882225,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8010921478271484,
+      "step": 2194
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 290.109375,
+      "epoch": 1.072265625,
+      "grad_norm": 1.8689579905691132,
+      "kl": 0.075927734375,
+      "learning_rate": 7.320556640625e-07,
+      "loss": 0.003,
+      "reward": 1.7513406872749329,
+      "reward_std": 0.09631795436143875,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7513406872749329,
+      "step": 2195
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 416.1640625,
+      "epoch": 1.07275390625,
+      "grad_norm": 1.7191972586224031,
+      "kl": 0.0577392578125,
+      "learning_rate": 7.3193359375e-07,
+      "loss": 0.0023,
+      "reward": 1.7447272539138794,
+      "reward_std": 0.16263741254806519,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.7759771645069122,
+      "step": 2196
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 321.796875,
+      "epoch": 1.0732421875,
+      "grad_norm": 8.308076466127147,
+      "kl": 0.071533203125,
+      "learning_rate": 7.318115234374999e-07,
+      "loss": 0.0029,
+      "reward": 1.70778489112854,
+      "reward_std": 0.11081130802631378,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.71559739112854,
+      "step": 2197
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 345.90625,
+      "epoch": 1.07373046875,
+      "grad_norm": 5.039129274024845,
+      "kl": 0.075439453125,
+      "learning_rate": 7.316894531249999e-07,
+      "loss": 0.003,
+      "reward": 1.765058159828186,
+      "reward_std": 0.10599537566304207,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7728706300258636,
+      "step": 2198
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 333.2109375,
+      "epoch": 1.07421875,
+      "grad_norm": 2.6078909888453574,
+      "kl": 0.071533203125,
+      "learning_rate": 7.315673828125e-07,
+      "loss": 0.0029,
+      "reward": 1.7972966432571411,
+      "reward_std": 0.05169523321092129,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7972966134548187,
+      "step": 2199
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 296.546875,
+      "epoch": 1.07470703125,
+      "grad_norm": 2.26953245897716,
+      "kl": 0.069580078125,
+      "learning_rate": 7.314453125e-07,
+      "loss": 0.0028,
+      "reward": 1.7383949160575867,
+      "reward_std": 0.08352330699563026,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7540199458599091,
+      "step": 2200
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 356.9375,
+      "epoch": 1.0751953125,
+      "grad_norm": 1.6816262192340925,
+      "kl": 0.0643310546875,
+      "learning_rate": 7.313232421875e-07,
+      "loss": 0.0026,
+      "reward": 1.6924183368682861,
+      "reward_std": 0.06870663538575172,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6924182772636414,
+      "step": 2201
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 377.75,
+      "epoch": 1.07568359375,
+      "grad_norm": 4.603195904454922,
+      "kl": 0.066162109375,
+      "learning_rate": 7.31201171875e-07,
+      "loss": 0.0026,
+      "reward": 1.8771857619285583,
+      "reward_std": 0.15731638204306364,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.900623232126236,
+      "step": 2202
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 374.4921875,
+      "epoch": 1.076171875,
+      "grad_norm": 9.605729154350279,
+      "kl": 0.0625,
+      "learning_rate": 7.310791015624999e-07,
+      "loss": 0.0025,
+      "reward": 1.7749759554862976,
+      "reward_std": 0.17696334049105644,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.80622598528862,
+      "step": 2203
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 285.359375,
+      "epoch": 1.07666015625,
+      "grad_norm": 2.172820429250745,
+      "kl": 0.0635986328125,
+      "learning_rate": 7.309570312499999e-07,
+      "loss": 0.0025,
+      "reward": 1.7500771880149841,
+      "reward_std": 0.04752637818455696,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7500771284103394,
+      "step": 2204
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 298.8984375,
+      "epoch": 1.0771484375,
+      "grad_norm": 1.4018219648742998,
+      "kl": 0.07421875,
+      "learning_rate": 7.308349609375e-07,
+      "loss": 0.003,
+      "reward": 1.7220321893692017,
+      "reward_std": 0.11039461940526962,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7298446595668793,
+      "step": 2205
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 282.5546875,
+      "epoch": 1.07763671875,
+      "grad_norm": 0.8089076092208608,
+      "kl": 0.064208984375,
+      "learning_rate": 7.30712890625e-07,
+      "loss": 0.0026,
+      "reward": 1.7933659553527832,
+      "reward_std": 0.04852168867364526,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.793365865945816,
+      "step": 2206
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 387.34375,
+      "epoch": 1.078125,
+      "grad_norm": 1.005591084680332,
+      "kl": 0.0633544921875,
+      "learning_rate": 7.305908203125e-07,
+      "loss": 0.0025,
+      "reward": 1.637376844882965,
+      "reward_std": 0.13998160883784294,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.6686268448829651,
+      "step": 2207
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 269.0546875,
+      "epoch": 1.07861328125,
+      "grad_norm": 0.8635824378840103,
+      "kl": 0.06103515625,
+      "learning_rate": 7.3046875e-07,
+      "loss": 0.0024,
+      "reward": 1.8138604164123535,
+      "reward_std": 0.016972179524600506,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8138603866100311,
+      "step": 2208
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 283.828125,
+      "epoch": 1.0791015625,
+      "grad_norm": 4.198636543673609,
+      "kl": 0.0733642578125,
+      "learning_rate": 7.303466796875e-07,
+      "loss": 0.0029,
+      "reward": 1.786705732345581,
+      "reward_std": 0.08687588106840849,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.794518232345581,
+      "step": 2209
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 296.015625,
+      "epoch": 1.07958984375,
+      "grad_norm": 3.47696025291616,
+      "kl": 0.0675048828125,
+      "learning_rate": 7.302246093749999e-07,
+      "loss": 0.0027,
+      "reward": 1.8078295588493347,
+      "reward_std": 0.08413361757993698,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8156421184539795,
+      "step": 2210
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 238.359375,
+      "epoch": 1.080078125,
+      "grad_norm": 3.8183450251736746,
+      "kl": 0.083740234375,
+      "learning_rate": 7.301025390624999e-07,
+      "loss": 0.0034,
+      "reward": 1.746371567249298,
+      "reward_std": 0.06931864097714424,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7463716566562653,
+      "step": 2211
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 358.0625,
+      "epoch": 1.08056640625,
+      "grad_norm": 4.84020947064792,
+      "kl": 0.06640625,
+      "learning_rate": 7.2998046875e-07,
+      "loss": 0.0027,
+      "reward": 1.7851145267486572,
+      "reward_std": 0.10719123855233192,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.816364586353302,
+      "step": 2212
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 382.9765625,
+      "epoch": 1.0810546875,
+      "grad_norm": 1.9009974118221236,
+      "kl": 0.0609130859375,
+      "learning_rate": 7.298583984375e-07,
+      "loss": 0.0024,
+      "reward": 1.6994649171829224,
+      "reward_std": 0.0930807814002037,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7072774171829224,
+      "step": 2213
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 344.7890625,
+      "epoch": 1.08154296875,
+      "grad_norm": 8.11275335382126,
+      "kl": 0.068115234375,
+      "learning_rate": 7.29736328125e-07,
+      "loss": 0.0027,
+      "reward": 1.7040226459503174,
+      "reward_std": 0.13488183170557022,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7274601459503174,
+      "step": 2214
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 259.3984375,
+      "epoch": 1.08203125,
+      "grad_norm": 2.137119825015467,
+      "kl": 0.07373046875,
+      "learning_rate": 7.296142578125e-07,
+      "loss": 0.0029,
+      "reward": 1.944073498249054,
+      "reward_std": 0.17653799057006836,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.9518861174583435,
+      "step": 2215
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 277.9375,
+      "epoch": 1.08251953125,
+      "grad_norm": 1.1241963585520527,
+      "kl": 0.072021484375,
+      "learning_rate": 7.294921874999999e-07,
+      "loss": 0.0029,
+      "reward": 1.6532188653945923,
+      "reward_std": 0.06231350637972355,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6610313355922699,
+      "step": 2216
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 239.546875,
+      "epoch": 1.0830078125,
+      "grad_norm": 2.7140903444876523,
+      "kl": 0.0634765625,
+      "learning_rate": 7.293701171874999e-07,
+      "loss": 0.0025,
+      "reward": 1.8621540069580078,
+      "reward_std": 0.038842491805553436,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8621540367603302,
+      "step": 2217
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 217.359375,
+      "epoch": 1.08349609375,
+      "grad_norm": 2.191163607204704,
+      "kl": 0.063720703125,
+      "learning_rate": 7.29248046875e-07,
+      "loss": 0.0026,
+      "reward": 1.8771589994430542,
+      "reward_std": 0.025433420203626156,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8771590292453766,
+      "step": 2218
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 342.3125,
+      "epoch": 1.083984375,
+      "grad_norm": 3.2019990973459733,
+      "kl": 0.064453125,
+      "learning_rate": 7.291259765625e-07,
+      "loss": 0.0026,
+      "reward": 1.6369213461875916,
+      "reward_std": 0.11391383782029152,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6447338461875916,
+      "step": 2219
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 292.75,
+      "epoch": 1.08447265625,
+      "grad_norm": 1.2457890025032394,
+      "kl": 0.07177734375,
+      "learning_rate": 7.2900390625e-07,
+      "loss": 0.0029,
+      "reward": 1.7395640015602112,
+      "reward_std": 0.06605142541229725,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7395639717578888,
+      "step": 2220
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 337.578125,
+      "epoch": 1.0849609375,
+      "grad_norm": 2.786622632317203,
+      "kl": 0.073974609375,
+      "learning_rate": 7.288818359375e-07,
+      "loss": 0.003,
+      "reward": 1.773886501789093,
+      "reward_std": 0.06187342666089535,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7738864719867706,
+      "step": 2221
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 330.6015625,
+      "epoch": 1.08544921875,
+      "grad_norm": 1.4337096043043174,
+      "kl": 0.067626953125,
+      "learning_rate": 7.28759765625e-07,
+      "loss": 0.0027,
+      "reward": 1.717581033706665,
+      "reward_std": 0.03319558780640364,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7175810039043427,
+      "step": 2222
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 276.96875,
+      "epoch": 1.0859375,
+      "grad_norm": 1.5681450356473852,
+      "kl": 0.056640625,
+      "learning_rate": 7.286376953124999e-07,
+      "loss": 0.0023,
+      "reward": 1.812729299068451,
+      "reward_std": 0.07597517222166061,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8127292990684509,
+      "step": 2223
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 237.9921875,
+      "epoch": 1.08642578125,
+      "grad_norm": 1.4098337592431196,
+      "kl": 0.07763671875,
+      "learning_rate": 7.285156249999999e-07,
+      "loss": 0.0031,
+      "reward": 1.8502396941184998,
+      "reward_std": 0.03288627602159977,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8502396941184998,
+      "step": 2224
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 250.7421875,
+      "epoch": 1.0869140625,
+      "grad_norm": 1.078144462327901,
+      "kl": 0.071044921875,
+      "learning_rate": 7.283935546875e-07,
+      "loss": 0.0028,
+      "reward": 1.8840885162353516,
+      "reward_std": 0.07063583564013243,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8919010162353516,
+      "step": 2225
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 360.9140625,
+      "epoch": 1.08740234375,
+      "grad_norm": 3.635268117383236,
+      "kl": 0.0703125,
+      "learning_rate": 7.28271484375e-07,
+      "loss": 0.0028,
+      "reward": 1.791632056236267,
+      "reward_std": 0.11924531310796738,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.8150696158409119,
+      "step": 2226
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 283.9453125,
+      "epoch": 1.087890625,
+      "grad_norm": 2.4520320812851817,
+      "kl": 0.070068359375,
+      "learning_rate": 7.281494140625e-07,
+      "loss": 0.0028,
+      "reward": 1.7973357439041138,
+      "reward_std": 0.0609661303460598,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7973355948925018,
+      "step": 2227
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 308.953125,
+      "epoch": 1.08837890625,
+      "grad_norm": 3.1691940235472074,
+      "kl": 0.08837890625,
+      "learning_rate": 7.2802734375e-07,
+      "loss": 0.0035,
+      "reward": 1.6005699038505554,
+      "reward_std": 0.058797843754291534,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6083824634552002,
+      "step": 2228
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 287.8359375,
+      "epoch": 1.0888671875,
+      "grad_norm": 1.4854856618683832,
+      "kl": 0.069091796875,
+      "learning_rate": 7.279052734374999e-07,
+      "loss": 0.0028,
+      "reward": 1.8553495407104492,
+      "reward_std": 0.07698746025562286,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8553495407104492,
+      "step": 2229
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 343.7734375,
+      "epoch": 1.08935546875,
+      "grad_norm": 1.6672821205576769,
+      "kl": 0.079345703125,
+      "learning_rate": 7.277832031249999e-07,
+      "loss": 0.0032,
+      "reward": 1.7386040091514587,
+      "reward_std": 0.09536767937242985,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7542290091514587,
+      "step": 2230
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 345.9296875,
+      "epoch": 1.08984375,
+      "grad_norm": 3.060835361852339,
+      "kl": 0.0650634765625,
+      "learning_rate": 7.276611328125e-07,
+      "loss": 0.0026,
+      "reward": 1.7035446763038635,
+      "reward_std": 0.10484276339411736,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.7426071465015411,
+      "step": 2231
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 248.453125,
+      "epoch": 1.09033203125,
+      "grad_norm": 2.383603260793994,
+      "kl": 0.0888671875,
+      "learning_rate": 7.275390625e-07,
+      "loss": 0.0036,
+      "reward": 1.7988132238388062,
+      "reward_std": 0.07059590518474579,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7988132238388062,
+      "step": 2232
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 266.7421875,
+      "epoch": 1.0908203125,
+      "grad_norm": 1.4816291696715755,
+      "kl": 0.0946044921875,
+      "learning_rate": 7.274169921875e-07,
+      "loss": 0.0038,
+      "reward": 1.8334471583366394,
+      "reward_std": 0.08519222773611546,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.856884628534317,
+      "step": 2233
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 242.78125,
+      "epoch": 1.09130859375,
+      "grad_norm": 1.8894162923830333,
+      "kl": 0.07861328125,
+      "learning_rate": 7.27294921875e-07,
+      "loss": 0.0031,
+      "reward": 1.6886449456214905,
+      "reward_std": 0.09802973223850131,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7042699754238129,
+      "step": 2234
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 241.0,
+      "epoch": 1.091796875,
+      "grad_norm": 1.062327646687958,
+      "kl": 0.0654296875,
+      "learning_rate": 7.271728515625e-07,
+      "loss": 0.0026,
+      "reward": 1.7099770307540894,
+      "reward_std": 0.0585494851693511,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7099769711494446,
+      "step": 2235
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 356.640625,
+      "epoch": 1.09228515625,
+      "grad_norm": 2.6614706971362003,
+      "kl": 0.0672607421875,
+      "learning_rate": 7.270507812499999e-07,
+      "loss": 0.0027,
+      "reward": 1.5697939991950989,
+      "reward_std": 0.12034578062593937,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.5854189693927765,
+      "step": 2236
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 282.5390625,
+      "epoch": 1.0927734375,
+      "grad_norm": 3.4880008369377125,
+      "kl": 0.084228515625,
+      "learning_rate": 7.269287109374999e-07,
+      "loss": 0.0034,
+      "reward": 1.8251853585243225,
+      "reward_std": 0.03789713280275464,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8251853585243225,
+      "step": 2237
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 273.890625,
+      "epoch": 1.09326171875,
+      "grad_norm": 1.8948511963642394,
+      "kl": 0.091064453125,
+      "learning_rate": 7.26806640625e-07,
+      "loss": 0.0036,
+      "reward": 1.7872638702392578,
+      "reward_std": 0.08164054993540049,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.8028888702392578,
+      "step": 2238
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 300.71875,
+      "epoch": 1.09375,
+      "grad_norm": 1.391838149766285,
+      "kl": 0.091796875,
+      "learning_rate": 7.266845703125e-07,
+      "loss": 0.0037,
+      "reward": 1.7387813925743103,
+      "reward_std": 0.18217945843935013,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7622189223766327,
+      "step": 2239
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 294.0546875,
+      "epoch": 1.09423828125,
+      "grad_norm": 0.7556167192817572,
+      "kl": 0.083740234375,
+      "learning_rate": 7.265625e-07,
+      "loss": 0.0033,
+      "reward": 1.7732893228530884,
+      "reward_std": 0.03759356215596199,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7732893526554108,
+      "step": 2240
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 324.28125,
+      "epoch": 1.0947265625,
+      "grad_norm": 2.16796468008093,
+      "kl": 0.079833984375,
+      "learning_rate": 7.264404296875e-07,
+      "loss": 0.0032,
+      "reward": 1.8013297319412231,
+      "reward_std": 0.15706830099225044,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.8247672319412231,
+      "step": 2241
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 403.2578125,
+      "epoch": 1.09521484375,
+      "grad_norm": 0.929112376338198,
+      "kl": 0.065185546875,
+      "learning_rate": 7.263183593749999e-07,
+      "loss": 0.0026,
+      "reward": 1.570958137512207,
+      "reward_std": 0.17315081879496574,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.602208137512207,
+      "step": 2242
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 310.65625,
+      "epoch": 1.095703125,
+      "grad_norm": 1.2746975120920747,
+      "kl": 0.0648193359375,
+      "learning_rate": 7.261962890624999e-07,
+      "loss": 0.0026,
+      "reward": 1.7777118682861328,
+      "reward_std": 0.06291940249502659,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7777118384838104,
+      "step": 2243
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 315.734375,
+      "epoch": 1.09619140625,
+      "grad_norm": 1.7464595790772883,
+      "kl": 0.070556640625,
+      "learning_rate": 7.2607421875e-07,
+      "loss": 0.0028,
+      "reward": 1.8250086903572083,
+      "reward_std": 0.1407541036605835,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.8406336605548859,
+      "step": 2244
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 329.875,
+      "epoch": 1.0966796875,
+      "grad_norm": 1.8014959178143817,
+      "kl": 0.0888671875,
+      "learning_rate": 7.259521484375e-07,
+      "loss": 0.0035,
+      "reward": 1.7720280885696411,
+      "reward_std": 0.1236952543258667,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7798406481742859,
+      "step": 2245
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 291.4765625,
+      "epoch": 1.09716796875,
+      "grad_norm": 1.692290936562916,
+      "kl": 0.07861328125,
+      "learning_rate": 7.25830078125e-07,
+      "loss": 0.0032,
+      "reward": 1.8413395881652832,
+      "reward_std": 0.05821367911994457,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8413394689559937,
+      "step": 2246
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 369.640625,
+      "epoch": 1.09765625,
+      "grad_norm": 3.439561683238805,
+      "kl": 0.0521240234375,
+      "learning_rate": 7.257080078125e-07,
+      "loss": 0.0021,
+      "reward": 1.773597240447998,
+      "reward_std": 0.060536185279488564,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7735972106456757,
+      "step": 2247
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 369.5703125,
+      "epoch": 1.09814453125,
+      "grad_norm": 3.0080579318285294,
+      "kl": 0.072021484375,
+      "learning_rate": 7.255859375e-07,
+      "loss": 0.0029,
+      "reward": 1.6555711030960083,
+      "reward_std": 0.08909568935632706,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6555710732936859,
+      "step": 2248
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 338.2578125,
+      "epoch": 1.0986328125,
+      "grad_norm": 4.282105322707064,
+      "kl": 0.0579833984375,
+      "learning_rate": 7.254638671874999e-07,
+      "loss": 0.0023,
+      "reward": 1.7793956995010376,
+      "reward_std": 0.0656171664595604,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7793957591056824,
+      "step": 2249
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 319.7578125,
+      "epoch": 1.09912109375,
+      "grad_norm": 1.1360255555472931,
+      "kl": 0.079345703125,
+      "learning_rate": 7.253417968749999e-07,
+      "loss": 0.0032,
+      "reward": 1.7589207887649536,
+      "reward_std": 0.16139283776283264,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7823582887649536,
+      "step": 2250
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 376.578125,
+      "epoch": 1.099609375,
+      "grad_norm": 1.5781494589643414,
+      "kl": 0.06640625,
+      "learning_rate": 7.252197265625e-07,
+      "loss": 0.0027,
+      "reward": 1.781304121017456,
+      "reward_std": 0.15949422121047974,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.8047415614128113,
+      "step": 2251
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 354.1484375,
+      "epoch": 1.10009765625,
+      "grad_norm": 2.2259355754649603,
+      "kl": 0.0631103515625,
+      "learning_rate": 7.2509765625e-07,
+      "loss": 0.0025,
+      "reward": 1.8216727375984192,
+      "reward_std": 0.07048023492097855,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8216726779937744,
+      "step": 2252
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 278.328125,
+      "epoch": 1.1005859375,
+      "grad_norm": 2.982676387228891,
+      "kl": 0.071533203125,
+      "learning_rate": 7.249755859375e-07,
+      "loss": 0.0029,
+      "reward": 1.5965590476989746,
+      "reward_std": 0.10238468833267689,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6043716222047806,
+      "step": 2253
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 372.8671875,
+      "epoch": 1.10107421875,
+      "grad_norm": 1.865700837610057,
+      "kl": 0.0584716796875,
+      "learning_rate": 7.24853515625e-07,
+      "loss": 0.0023,
+      "reward": 1.6730265617370605,
+      "reward_std": 0.1227874830365181,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.6964640319347382,
+      "step": 2254
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 337.9453125,
+      "epoch": 1.1015625,
+      "grad_norm": 3.122567250012638,
+      "kl": 0.07275390625,
+      "learning_rate": 7.247314453125e-07,
+      "loss": 0.0029,
+      "reward": 1.7611711025238037,
+      "reward_std": 0.10396287217736244,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7767961025238037,
+      "step": 2255
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 285.015625,
+      "epoch": 1.10205078125,
+      "grad_norm": 0.9976986455436946,
+      "kl": 0.06396484375,
+      "learning_rate": 7.246093749999999e-07,
+      "loss": 0.0026,
+      "reward": 1.740997850894928,
+      "reward_std": 0.07786927185952663,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7409978210926056,
+      "step": 2256
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 316.4453125,
+      "epoch": 1.1025390625,
+      "grad_norm": 1.1672582198818704,
+      "kl": 0.065185546875,
+      "learning_rate": 7.244873046874999e-07,
+      "loss": 0.0026,
+      "reward": 1.817870855331421,
+      "reward_std": 0.0449886042624712,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8178708851337433,
+      "step": 2257
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 290.8203125,
+      "epoch": 1.10302734375,
+      "grad_norm": 3.1200822986848706,
+      "kl": 0.0601806640625,
+      "learning_rate": 7.24365234375e-07,
+      "loss": 0.0024,
+      "reward": 1.7606118321418762,
+      "reward_std": 0.05959334224462509,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7684243321418762,
+      "step": 2258
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 298.4921875,
+      "epoch": 1.103515625,
+      "grad_norm": 3.7522311592920388,
+      "kl": 0.0587158203125,
+      "learning_rate": 7.242431640625e-07,
+      "loss": 0.0024,
+      "reward": 1.800333023071289,
+      "reward_std": 0.08324110694229603,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8081456422805786,
+      "step": 2259
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 288.1484375,
+      "epoch": 1.10400390625,
+      "grad_norm": 2.944245123139588,
+      "kl": 0.05859375,
+      "learning_rate": 7.2412109375e-07,
+      "loss": 0.0023,
+      "reward": 1.8839264512062073,
+      "reward_std": 0.0873430147767067,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8839264810085297,
+      "step": 2260
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 350.4765625,
+      "epoch": 1.1044921875,
+      "grad_norm": 1.7540471861864702,
+      "kl": 0.0521240234375,
+      "learning_rate": 7.239990234375e-07,
+      "loss": 0.0021,
+      "reward": 1.7210676670074463,
+      "reward_std": 0.14550930261611938,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7445051968097687,
+      "step": 2261
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 296.7265625,
+      "epoch": 1.10498046875,
+      "grad_norm": 3.2632375700049128,
+      "kl": 0.0548095703125,
+      "learning_rate": 7.238769531249999e-07,
+      "loss": 0.0022,
+      "reward": 1.754812240600586,
+      "reward_std": 0.04835915379226208,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7548122107982635,
+      "step": 2262
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 273.734375,
+      "epoch": 1.10546875,
+      "grad_norm": 2.9460406884659176,
+      "kl": 0.0577392578125,
+      "learning_rate": 7.237548828124999e-07,
+      "loss": 0.0023,
+      "reward": 1.8352848291397095,
+      "reward_std": 0.16885582357645035,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.8665347993373871,
+      "step": 2263
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 384.5,
+      "epoch": 1.10595703125,
+      "grad_norm": 1.0028134561756605,
+      "kl": 0.052001953125,
+      "learning_rate": 7.236328125e-07,
+      "loss": 0.0021,
+      "reward": 1.858300268650055,
+      "reward_std": 0.04617350362241268,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8583002388477325,
+      "step": 2264
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 310.625,
+      "epoch": 1.1064453125,
+      "grad_norm": 4.3938839661401135,
+      "kl": 0.0679931640625,
+      "learning_rate": 7.235107421875e-07,
+      "loss": 0.0027,
+      "reward": 1.7961427569389343,
+      "reward_std": 0.04284539166837931,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7961426973342896,
+      "step": 2265
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 244.609375,
+      "epoch": 1.10693359375,
+      "grad_norm": 1.1672021555808423,
+      "kl": 0.068115234375,
+      "learning_rate": 7.23388671875e-07,
+      "loss": 0.0027,
+      "reward": 1.7131685614585876,
+      "reward_std": 0.05846385471522808,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7131686210632324,
+      "step": 2266
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 372.4453125,
+      "epoch": 1.107421875,
+      "grad_norm": 0.856824937232512,
+      "kl": 0.06591796875,
+      "learning_rate": 7.232666015625e-07,
+      "loss": 0.0026,
+      "reward": 1.7381606698036194,
+      "reward_std": 0.17856748402118683,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7537856698036194,
+      "step": 2267
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 231.5703125,
+      "epoch": 1.10791015625,
+      "grad_norm": 3.9627794439298425,
+      "kl": 0.076416015625,
+      "learning_rate": 7.2314453125e-07,
+      "loss": 0.0031,
+      "reward": 1.6982629299163818,
+      "reward_std": 0.07101480662822723,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6982628703117371,
+      "step": 2268
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 311.5625,
+      "epoch": 1.1083984375,
+      "grad_norm": 1.914687836920094,
+      "kl": 0.072509765625,
+      "learning_rate": 7.230224609374999e-07,
+      "loss": 0.0029,
+      "reward": 1.6740421056747437,
+      "reward_std": 0.10210954397916794,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6740420460700989,
+      "step": 2269
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 322.359375,
+      "epoch": 1.10888671875,
+      "grad_norm": 1.1215367514845478,
+      "kl": 0.073486328125,
+      "learning_rate": 7.229003906249999e-07,
+      "loss": 0.0029,
+      "reward": 1.6971306204795837,
+      "reward_std": 0.11026806011795998,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7049430906772614,
+      "step": 2270
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 225.265625,
+      "epoch": 1.109375,
+      "grad_norm": 1.1173595552235849,
+      "kl": 0.0670166015625,
+      "learning_rate": 7.227783203125e-07,
+      "loss": 0.0027,
+      "reward": 1.8012632131576538,
+      "reward_std": 0.062459973618388176,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8090757131576538,
+      "step": 2271
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 304.8984375,
+      "epoch": 1.10986328125,
+      "grad_norm": 0.7894205502775127,
+      "kl": 0.0615234375,
+      "learning_rate": 7.2265625e-07,
+      "loss": 0.0025,
+      "reward": 1.776045799255371,
+      "reward_std": 0.04911462590098381,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7760457992553711,
+      "step": 2272
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 338.125,
+      "epoch": 1.1103515625,
+      "grad_norm": 1.0027845954069041,
+      "kl": 0.078857421875,
+      "learning_rate": 7.225341796875e-07,
+      "loss": 0.0032,
+      "reward": 1.722011387348175,
+      "reward_std": 0.07575457729399204,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7220114171504974,
+      "step": 2273
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 313.453125,
+      "epoch": 1.11083984375,
+      "grad_norm": 10.409760523516997,
+      "kl": 0.05712890625,
+      "learning_rate": 7.22412109375e-07,
+      "loss": 0.0023,
+      "reward": 1.7924315929412842,
+      "reward_std": 0.08167605847120285,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7924315631389618,
+      "step": 2274
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 296.5625,
+      "epoch": 1.111328125,
+      "grad_norm": 2.834746616866118,
+      "kl": 0.0628662109375,
+      "learning_rate": 7.222900390624999e-07,
+      "loss": 0.0025,
+      "reward": 1.8050841689109802,
+      "reward_std": 0.07527113519608974,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8128966391086578,
+      "step": 2275
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 270.0625,
+      "epoch": 1.11181640625,
+      "grad_norm": 2.7173474996855993,
+      "kl": 0.0703125,
+      "learning_rate": 7.221679687499999e-07,
+      "loss": 0.0028,
+      "reward": 1.7315622568130493,
+      "reward_std": 0.06561515107750893,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7393746674060822,
+      "step": 2276
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 268.0,
+      "epoch": 1.1123046875,
+      "grad_norm": 1.4927968621455245,
+      "kl": 0.068603515625,
+      "learning_rate": 7.220458984375e-07,
+      "loss": 0.0027,
+      "reward": 1.8361743092536926,
+      "reward_std": 0.03312414512038231,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8361742496490479,
+      "step": 2277
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 254.2734375,
+      "epoch": 1.11279296875,
+      "grad_norm": 3.339265407657078,
+      "kl": 0.080078125,
+      "learning_rate": 7.21923828125e-07,
+      "loss": 0.0032,
+      "reward": 1.728402554988861,
+      "reward_std": 0.13297371938824654,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7284024953842163,
+      "step": 2278
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 301.0625,
+      "epoch": 1.11328125,
+      "grad_norm": 6.372972770256252,
+      "kl": 0.083984375,
+      "learning_rate": 7.218017578125e-07,
+      "loss": 0.0034,
+      "reward": 1.7280917167663574,
+      "reward_std": 0.052303411066532135,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.728091686964035,
+      "step": 2279
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 258.84375,
+      "epoch": 1.11376953125,
+      "grad_norm": 4.351237154663654,
+      "kl": 0.088623046875,
+      "learning_rate": 7.216796875e-07,
+      "loss": 0.0035,
+      "reward": 1.7941367626190186,
+      "reward_std": 0.08051660470664501,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7941367924213409,
+      "step": 2280
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 313.8984375,
+      "epoch": 1.1142578125,
+      "grad_norm": 1.0055680467034633,
+      "kl": 0.0589599609375,
+      "learning_rate": 7.215576171875e-07,
+      "loss": 0.0024,
+      "reward": 1.7715181112289429,
+      "reward_std": 0.07638098672032356,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7715181410312653,
+      "step": 2281
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 315.2421875,
+      "epoch": 1.11474609375,
+      "grad_norm": 2.028756106382298,
+      "kl": 0.067626953125,
+      "learning_rate": 7.214355468749999e-07,
+      "loss": 0.0027,
+      "reward": 1.8816375732421875,
+      "reward_std": 0.13509927690029144,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8816376030445099,
+      "step": 2282
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 293.8515625,
+      "epoch": 1.115234375,
+      "grad_norm": 1.7934862249340708,
+      "kl": 0.070068359375,
+      "learning_rate": 7.213134765624999e-07,
+      "loss": 0.0028,
+      "reward": 1.7188656330108643,
+      "reward_std": 0.05575054790824652,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7188656330108643,
+      "step": 2283
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 253.9140625,
+      "epoch": 1.11572265625,
+      "grad_norm": 0.7312070262378836,
+      "kl": 0.07373046875,
+      "learning_rate": 7.2119140625e-07,
+      "loss": 0.003,
+      "reward": 1.8175573348999023,
+      "reward_std": 0.01690027490258217,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.81755730509758,
+      "step": 2284
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 278.078125,
+      "epoch": 1.1162109375,
+      "grad_norm": 2.030078969268682,
+      "kl": 0.05712890625,
+      "learning_rate": 7.210693359375e-07,
+      "loss": 0.0023,
+      "reward": 1.7928734421730042,
+      "reward_std": 0.06959575228393078,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7928734421730042,
+      "step": 2285
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 301.765625,
+      "epoch": 1.11669921875,
+      "grad_norm": 1.6694669880542703,
+      "kl": 0.085205078125,
+      "learning_rate": 7.20947265625e-07,
+      "loss": 0.0034,
+      "reward": 1.8147171139717102,
+      "reward_std": 0.11030293442308903,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.8303420841693878,
+      "step": 2286
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 297.234375,
+      "epoch": 1.1171875,
+      "grad_norm": 0.9274138439502736,
+      "kl": 0.06103515625,
+      "learning_rate": 7.208251953125e-07,
+      "loss": 0.0024,
+      "reward": 1.8761171102523804,
+      "reward_std": 0.04183840565383434,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8761171698570251,
+      "step": 2287
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 275.671875,
+      "epoch": 1.11767578125,
+      "grad_norm": 13.021849727212583,
+      "kl": 0.07421875,
+      "learning_rate": 7.207031249999999e-07,
+      "loss": 0.003,
+      "reward": 1.7165254354476929,
+      "reward_std": 0.092881940305233,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7243379950523376,
+      "step": 2288
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 254.03125,
+      "epoch": 1.1181640625,
+      "grad_norm": 1.334539370731693,
+      "kl": 0.08642578125,
+      "learning_rate": 7.205810546874999e-07,
+      "loss": 0.0035,
+      "reward": 1.8177083730697632,
+      "reward_std": 0.09210111945867538,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8177083432674408,
+      "step": 2289
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 347.1796875,
+      "epoch": 1.11865234375,
+      "grad_norm": 1.9031635634435449,
+      "kl": 0.0635986328125,
+      "learning_rate": 7.20458984375e-07,
+      "loss": 0.0025,
+      "reward": 1.652937114238739,
+      "reward_std": 0.07407059520483017,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6529370546340942,
+      "step": 2290
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 267.296875,
+      "epoch": 1.119140625,
+      "grad_norm": 0.8218601392312246,
+      "kl": 0.060791015625,
+      "learning_rate": 7.203369140625e-07,
+      "loss": 0.0024,
+      "reward": 1.813718318939209,
+      "reward_std": 0.07145040668547153,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.813718318939209,
+      "step": 2291
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 287.5703125,
+      "epoch": 1.11962890625,
+      "grad_norm": 1.467119269254602,
+      "kl": 0.0623779296875,
+      "learning_rate": 7.2021484375e-07,
+      "loss": 0.0025,
+      "reward": 1.740653932094574,
+      "reward_std": 0.08345598913729191,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.740653932094574,
+      "step": 2292
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 306.6328125,
+      "epoch": 1.1201171875,
+      "grad_norm": 1.0241103270793768,
+      "kl": 0.0494384765625,
+      "learning_rate": 7.200927734375e-07,
+      "loss": 0.002,
+      "reward": 1.7661115527153015,
+      "reward_std": 0.14179787784814835,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.7973615527153015,
+      "step": 2293
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 327.765625,
+      "epoch": 1.12060546875,
+      "grad_norm": 2.4337023505740434,
+      "kl": 0.057373046875,
+      "learning_rate": 7.19970703125e-07,
+      "loss": 0.0023,
+      "reward": 1.7818644642829895,
+      "reward_std": 0.13211066648364067,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7896769940853119,
+      "step": 2294
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 279.0859375,
+      "epoch": 1.12109375,
+      "grad_norm": 2.159922083493317,
+      "kl": 0.066650390625,
+      "learning_rate": 7.198486328124999e-07,
+      "loss": 0.0027,
+      "reward": 1.7772237658500671,
+      "reward_std": 0.08314445242285728,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7928487956523895,
+      "step": 2295
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 299.1328125,
+      "epoch": 1.12158203125,
+      "grad_norm": 1.7534330818508779,
+      "kl": 0.0537109375,
+      "learning_rate": 7.197265624999999e-07,
+      "loss": 0.0021,
+      "reward": 1.7676746845245361,
+      "reward_std": 0.09902366809546947,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.8067372441291809,
+      "step": 2296
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 273.7734375,
+      "epoch": 1.1220703125,
+      "grad_norm": 1.211513703798563,
+      "kl": 0.04931640625,
+      "learning_rate": 7.196044921875e-07,
+      "loss": 0.002,
+      "reward": 1.797850251197815,
+      "reward_std": 0.07715418934822083,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7978502511978149,
+      "step": 2297
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 230.0703125,
+      "epoch": 1.12255859375,
+      "grad_norm": 1.4152986860468773,
+      "kl": 0.0484619140625,
+      "learning_rate": 7.19482421875e-07,
+      "loss": 0.0019,
+      "reward": 1.9088245630264282,
+      "reward_std": 0.04718828946352005,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.908824622631073,
+      "step": 2298
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 204.6484375,
+      "epoch": 1.123046875,
+      "grad_norm": 1.3403931709546952,
+      "kl": 0.0687255859375,
+      "learning_rate": 7.193603515625e-07,
+      "loss": 0.0027,
+      "reward": 1.7832393050193787,
+      "reward_std": 0.06331999599933624,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7832392752170563,
+      "step": 2299
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 302.2421875,
+      "epoch": 1.12353515625,
+      "grad_norm": 2.1834678287173177,
+      "kl": 0.072998046875,
+      "learning_rate": 7.1923828125e-07,
+      "loss": 0.0029,
+      "reward": 1.7606186866760254,
+      "reward_std": 0.12387818098068237,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7684311270713806,
+      "step": 2300
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 312.921875,
+      "epoch": 1.1240234375,
+      "grad_norm": 1.5319637176279595,
+      "kl": 0.0673828125,
+      "learning_rate": 7.191162109374999e-07,
+      "loss": 0.0027,
+      "reward": 1.6937076449394226,
+      "reward_std": 0.09303374774754047,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6937075853347778,
+      "step": 2301
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 332.09375,
+      "epoch": 1.12451171875,
+      "grad_norm": 2.6885932706099895,
+      "kl": 0.0579833984375,
+      "learning_rate": 7.189941406249999e-07,
+      "loss": 0.0023,
+      "reward": 1.7834733128547668,
+      "reward_std": 0.042033152654767036,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7834733128547668,
+      "step": 2302
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 289.7109375,
+      "epoch": 1.125,
+      "grad_norm": 1.5126183880414965,
+      "kl": 0.0614013671875,
+      "learning_rate": 7.188720703125e-07,
+      "loss": 0.0025,
+      "reward": 1.7206319570541382,
+      "reward_std": 0.03807243797928095,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7206319570541382,
+      "step": 2303
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 268.953125,
+      "epoch": 1.12548828125,
+      "grad_norm": 2.3253192988082416,
+      "kl": 0.08740234375,
+      "learning_rate": 7.1875e-07,
+      "loss": 0.0035,
+      "reward": 1.697283923625946,
+      "reward_std": 0.038683134131133556,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.697283923625946,
+      "step": 2304
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 371.3125,
+      "epoch": 1.1259765625,
+      "grad_norm": 1.8971968478232022,
+      "kl": 0.0548095703125,
+      "learning_rate": 7.186279296875e-07,
+      "loss": 0.0022,
+      "reward": 1.5334055423736572,
+      "reward_std": 0.17225759476423264,
+      "rewards/format_reward": 0.9375,
+      "rewards/ocr_reward": 0.595905601978302,
+      "step": 2305
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 246.265625,
+      "epoch": 1.12646484375,
+      "grad_norm": 2.1324487343914655,
+      "kl": 0.086669921875,
+      "learning_rate": 7.18505859375e-07,
+      "loss": 0.0035,
+      "reward": 1.7237046957015991,
+      "reward_std": 0.059116460382938385,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7237046360969543,
+      "step": 2306
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 251.015625,
+      "epoch": 1.126953125,
+      "grad_norm": 1.8565481261961394,
+      "kl": 0.079833984375,
+      "learning_rate": 7.183837890625e-07,
+      "loss": 0.0032,
+      "reward": 1.5828680992126465,
+      "reward_std": 0.043210539035499096,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.5828680694103241,
+      "step": 2307
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 226.15625,
+      "epoch": 1.12744140625,
+      "grad_norm": 0.4105661860693138,
+      "kl": 0.0496826171875,
+      "learning_rate": 7.182617187499999e-07,
+      "loss": 0.002,
+      "reward": 1.7693156599998474,
+      "reward_std": 0.06646117940545082,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7771281003952026,
+      "step": 2308
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 266.3046875,
+      "epoch": 1.1279296875,
+      "grad_norm": 5.888256460420409,
+      "kl": 0.0693359375,
+      "learning_rate": 7.181396484374999e-07,
+      "loss": 0.0028,
+      "reward": 1.7534179091453552,
+      "reward_std": 0.0729428380727768,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7534180283546448,
+      "step": 2309
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 310.0,
+      "epoch": 1.12841796875,
+      "grad_norm": 1.3969601396928006,
+      "kl": 0.0654296875,
+      "learning_rate": 7.18017578125e-07,
+      "loss": 0.0026,
+      "reward": 1.7623464465141296,
+      "reward_std": 0.10179652273654938,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7779714465141296,
+      "step": 2310
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 219.9453125,
+      "epoch": 1.12890625,
+      "grad_norm": 1.5953364275642339,
+      "kl": 0.0555419921875,
+      "learning_rate": 7.178955078125e-07,
+      "loss": 0.0022,
+      "reward": 1.7922866940498352,
+      "reward_std": 0.032217446714639664,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7922867238521576,
+      "step": 2311
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 309.1953125,
+      "epoch": 1.12939453125,
+      "grad_norm": 1.7562620435246095,
+      "kl": 0.06103515625,
+      "learning_rate": 7.177734375e-07,
+      "loss": 0.0024,
+      "reward": 1.7869414687156677,
+      "reward_std": 0.06921962834894657,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7869414389133453,
+      "step": 2312
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 280.8671875,
+      "epoch": 1.1298828125,
+      "grad_norm": 0.6578555181903704,
+      "kl": 0.0479736328125,
+      "learning_rate": 7.176513671875e-07,
+      "loss": 0.0019,
+      "reward": 1.7676367163658142,
+      "reward_std": 0.0514880558475852,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7754492163658142,
+      "step": 2313
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 275.0,
+      "epoch": 1.13037109375,
+      "grad_norm": 6.75545813289656,
+      "kl": 0.0570068359375,
+      "learning_rate": 7.175292968749999e-07,
+      "loss": 0.0023,
+      "reward": 1.7726652026176453,
+      "reward_std": 0.03823528438806534,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7726651132106781,
+      "step": 2314
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 319.8828125,
+      "epoch": 1.130859375,
+      "grad_norm": 1.2309637241993088,
+      "kl": 0.05224609375,
+      "learning_rate": 7.174072265624999e-07,
+      "loss": 0.0021,
+      "reward": 1.7631428241729736,
+      "reward_std": 0.03950107842683792,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7631428837776184,
+      "step": 2315
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 304.3828125,
+      "epoch": 1.13134765625,
+      "grad_norm": 0.886493942657421,
+      "kl": 0.06494140625,
+      "learning_rate": 7.1728515625e-07,
+      "loss": 0.0026,
+      "reward": 1.791369915008545,
+      "reward_std": 0.06947879865765572,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7991823554039001,
+      "step": 2316
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 288.15625,
+      "epoch": 1.1318359375,
+      "grad_norm": 1.6449264544715965,
+      "kl": 0.076171875,
+      "learning_rate": 7.171630859375e-07,
+      "loss": 0.003,
+      "reward": 1.820662021636963,
+      "reward_std": 0.07318861410021782,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8206620216369629,
+      "step": 2317
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 329.15625,
+      "epoch": 1.13232421875,
+      "grad_norm": 2.512895927696398,
+      "kl": 0.095703125,
+      "learning_rate": 7.17041015625e-07,
+      "loss": 0.0038,
+      "reward": 1.6627293825149536,
+      "reward_std": 0.08104284480214119,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.662729412317276,
+      "step": 2318
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 219.03125,
+      "epoch": 1.1328125,
+      "grad_norm": 3.257367159754489,
+      "kl": 0.080810546875,
+      "learning_rate": 7.169189453125e-07,
+      "loss": 0.0032,
+      "reward": 1.7540556192398071,
+      "reward_std": 0.026656273752450943,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7540555894374847,
+      "step": 2319
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 289.09375,
+      "epoch": 1.13330078125,
+      "grad_norm": 2.3206529623904815,
+      "kl": 0.076416015625,
+      "learning_rate": 7.16796875e-07,
+      "loss": 0.0031,
+      "reward": 1.7328737378120422,
+      "reward_std": 0.06623134948313236,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7328737676143646,
+      "step": 2320
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 299.71875,
+      "epoch": 1.1337890625,
+      "grad_norm": 2.7928034489135585,
+      "kl": 0.0673828125,
+      "learning_rate": 7.166748046874999e-07,
+      "loss": 0.0027,
+      "reward": 1.7304103374481201,
+      "reward_std": 0.08190120384097099,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7304103970527649,
+      "step": 2321
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 252.1015625,
+      "epoch": 1.13427734375,
+      "grad_norm": 1.999816042395783,
+      "kl": 0.0556640625,
+      "learning_rate": 7.165527343749999e-07,
+      "loss": 0.0022,
+      "reward": 1.838409960269928,
+      "reward_std": 0.058572327718138695,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.838409960269928,
+      "step": 2322
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 357.8984375,
+      "epoch": 1.134765625,
+      "grad_norm": 1.9833817250272083,
+      "kl": 0.081298828125,
+      "learning_rate": 7.164306640625e-07,
+      "loss": 0.0032,
+      "reward": 1.7137295007705688,
+      "reward_std": 0.1032501645386219,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7137295603752136,
+      "step": 2323
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 218.0078125,
+      "epoch": 1.13525390625,
+      "grad_norm": 1.8188360125282768,
+      "kl": 0.068115234375,
+      "learning_rate": 7.1630859375e-07,
+      "loss": 0.0027,
+      "reward": 1.7000929713249207,
+      "reward_std": 0.02517910674214363,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.700093001127243,
+      "step": 2324
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 326.5703125,
+      "epoch": 1.1357421875,
+      "grad_norm": 8.765129216379982,
+      "kl": 0.0595703125,
+      "learning_rate": 7.161865234375e-07,
+      "loss": 0.0024,
+      "reward": 1.8266154527664185,
+      "reward_std": 0.05450385436415672,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8266153633594513,
+      "step": 2325
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 336.3828125,
+      "epoch": 1.13623046875,
+      "grad_norm": 2.8091258579231586,
+      "kl": 0.0650634765625,
+      "learning_rate": 7.16064453125e-07,
+      "loss": 0.0026,
+      "reward": 1.7895740866661072,
+      "reward_std": 0.13050633668899536,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7973865866661072,
+      "step": 2326
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 272.375,
+      "epoch": 1.13671875,
+      "grad_norm": 0.6840155091097224,
+      "kl": 0.06005859375,
+      "learning_rate": 7.159423828124999e-07,
+      "loss": 0.0024,
+      "reward": 1.7351736426353455,
+      "reward_std": 0.014591011684387922,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7351736426353455,
+      "step": 2327
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 301.015625,
+      "epoch": 1.13720703125,
+      "grad_norm": 1.4187623188678093,
+      "kl": 0.0736083984375,
+      "learning_rate": 7.158203124999999e-07,
+      "loss": 0.0029,
+      "reward": 1.7072078585624695,
+      "reward_std": 0.057367969304323196,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7072078585624695,
+      "step": 2328
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 339.71875,
+      "epoch": 1.1376953125,
+      "grad_norm": 0.9798231552523725,
+      "kl": 0.0670166015625,
+      "learning_rate": 7.156982421875e-07,
+      "loss": 0.0027,
+      "reward": 1.818799912929535,
+      "reward_std": 0.05518978089094162,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8187999427318573,
+      "step": 2329
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 271.6875,
+      "epoch": 1.13818359375,
+      "grad_norm": 2.8180791927814703,
+      "kl": 0.057373046875,
+      "learning_rate": 7.15576171875e-07,
+      "loss": 0.0023,
+      "reward": 1.7160167694091797,
+      "reward_std": 0.040740249678492546,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7160168290138245,
+      "step": 2330
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 300.4453125,
+      "epoch": 1.138671875,
+      "grad_norm": 2.169648391438765,
+      "kl": 0.0693359375,
+      "learning_rate": 7.154541015625e-07,
+      "loss": 0.0028,
+      "reward": 1.6581083536148071,
+      "reward_std": 0.11767758429050446,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6581082940101624,
+      "step": 2331
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 353.1875,
+      "epoch": 1.13916015625,
+      "grad_norm": 1.0398806310768511,
+      "kl": 0.056884765625,
+      "learning_rate": 7.1533203125e-07,
+      "loss": 0.0023,
+      "reward": 1.6300272941589355,
+      "reward_std": 0.08064482361078262,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6378397643566132,
+      "step": 2332
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 281.3359375,
+      "epoch": 1.1396484375,
+      "grad_norm": 2.2107422861873403,
+      "kl": 0.0625,
+      "learning_rate": 7.152099609375e-07,
+      "loss": 0.0025,
+      "reward": 1.5821011662483215,
+      "reward_std": 0.18704190105199814,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.5899136066436768,
+      "step": 2333
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 391.625,
+      "epoch": 1.14013671875,
+      "grad_norm": 0.8138393830121889,
+      "kl": 0.050048828125,
+      "learning_rate": 7.150878906249999e-07,
+      "loss": 0.002,
+      "reward": 1.7018383741378784,
+      "reward_std": 0.10387471597641706,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.7487134337425232,
+      "step": 2334
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 276.2109375,
+      "epoch": 1.140625,
+      "grad_norm": 1.7447653610028946,
+      "kl": 0.0712890625,
+      "learning_rate": 7.149658203124999e-07,
+      "loss": 0.0028,
+      "reward": 1.771507978439331,
+      "reward_std": 0.02958191279321909,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7715080082416534,
+      "step": 2335
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 416.3203125,
+      "epoch": 1.14111328125,
+      "grad_norm": 0.8398042884116915,
+      "kl": 0.04736328125,
+      "learning_rate": 7.1484375e-07,
+      "loss": 0.0019,
+      "reward": 1.6066496968269348,
+      "reward_std": 0.1151208933442831,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.6378996670246124,
+      "step": 2336
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 264.6953125,
+      "epoch": 1.1416015625,
+      "grad_norm": 4.216576593319963,
+      "kl": 0.0782470703125,
+      "learning_rate": 7.147216796875e-07,
+      "loss": 0.0031,
+      "reward": 1.6847835779190063,
+      "reward_std": 0.06190246529877186,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6847835183143616,
+      "step": 2337
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 292.1015625,
+      "epoch": 1.14208984375,
+      "grad_norm": 1.4146700885087296,
+      "kl": 0.0638427734375,
+      "learning_rate": 7.14599609375e-07,
+      "loss": 0.0026,
+      "reward": 1.741209328174591,
+      "reward_std": 0.06798835471272469,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7412092983722687,
+      "step": 2338
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 286.3125,
+      "epoch": 1.142578125,
+      "grad_norm": 0.8804028276553788,
+      "kl": 0.0650634765625,
+      "learning_rate": 7.144775390625e-07,
+      "loss": 0.0026,
+      "reward": 1.9364939332008362,
+      "reward_std": 0.07677973434329033,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.9443064332008362,
+      "step": 2339
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 363.8984375,
+      "epoch": 1.14306640625,
+      "grad_norm": 3.528715281639079,
+      "kl": 0.0560302734375,
+      "learning_rate": 7.143554687499999e-07,
+      "loss": 0.0022,
+      "reward": 1.7230896353721619,
+      "reward_std": 0.11856443714350462,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7387146353721619,
+      "step": 2340
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 310.4375,
+      "epoch": 1.1435546875,
+      "grad_norm": 2.133887430565937,
+      "kl": 0.103515625,
+      "learning_rate": 7.142333984374999e-07,
+      "loss": 0.0041,
+      "reward": 1.8173925876617432,
+      "reward_std": 0.05221419036388397,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8252050876617432,
+      "step": 2341
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 253.265625,
+      "epoch": 1.14404296875,
+      "grad_norm": 2.0667954941578897,
+      "kl": 0.061767578125,
+      "learning_rate": 7.14111328125e-07,
+      "loss": 0.0025,
+      "reward": 1.8616973161697388,
+      "reward_std": 0.0397907979786396,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8616973757743835,
+      "step": 2342
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 300.5703125,
+      "epoch": 1.14453125,
+      "grad_norm": 1.1764096283379186,
+      "kl": 0.06494140625,
+      "learning_rate": 7.139892578125e-07,
+      "loss": 0.0026,
+      "reward": 1.6104283928871155,
+      "reward_std": 0.1447310373187065,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.6338659226894379,
+      "step": 2343
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 308.2265625,
+      "epoch": 1.14501953125,
+      "grad_norm": 1.5286119984509583,
+      "kl": 0.09033203125,
+      "learning_rate": 7.138671875e-07,
+      "loss": 0.0036,
+      "reward": 1.5864279866218567,
+      "reward_std": 0.05582820437848568,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.5864280462265015,
+      "step": 2344
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 375.3125,
+      "epoch": 1.1455078125,
+      "grad_norm": 1.7441444479284598,
+      "kl": 0.050537109375,
+      "learning_rate": 7.137451171875e-07,
+      "loss": 0.002,
+      "reward": 1.8168761134147644,
+      "reward_std": 0.10111106187105179,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8246885538101196,
+      "step": 2345
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 310.4609375,
+      "epoch": 1.14599609375,
+      "grad_norm": 0.7495543880714017,
+      "kl": 0.05126953125,
+      "learning_rate": 7.13623046875e-07,
+      "loss": 0.0021,
+      "reward": 1.703368902206421,
+      "reward_std": 0.0950179323554039,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7111814320087433,
+      "step": 2346
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 305.359375,
+      "epoch": 1.146484375,
+      "grad_norm": 2.3548131843986604,
+      "kl": 0.06591796875,
+      "learning_rate": 7.135009765624999e-07,
+      "loss": 0.0026,
+      "reward": 1.7099797129631042,
+      "reward_std": 0.1034369133412838,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7177922427654266,
+      "step": 2347
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 339.3984375,
+      "epoch": 1.14697265625,
+      "grad_norm": 1.4519222766859223,
+      "kl": 0.0609130859375,
+      "learning_rate": 7.133789062499999e-07,
+      "loss": 0.0024,
+      "reward": 1.7761664390563965,
+      "reward_std": 0.05691366642713547,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7761664390563965,
+      "step": 2348
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 305.1015625,
+      "epoch": 1.1474609375,
+      "grad_norm": 2.4476278864349985,
+      "kl": 0.0703125,
+      "learning_rate": 7.132568359375e-07,
+      "loss": 0.0028,
+      "reward": 1.6659197211265564,
+      "reward_std": 0.09462928026914597,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6659197509288788,
+      "step": 2349
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 390.3515625,
+      "epoch": 1.14794921875,
+      "grad_norm": 17.700669961292856,
+      "kl": 0.05859375,
+      "learning_rate": 7.13134765625e-07,
+      "loss": 0.0023,
+      "reward": 1.6661089062690735,
+      "reward_std": 0.1225300058722496,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.6895464062690735,
+      "step": 2350
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 298.7265625,
+      "epoch": 1.1484375,
+      "grad_norm": 1.5194236550305051,
+      "kl": 0.0618896484375,
+      "learning_rate": 7.130126953125e-07,
+      "loss": 0.0025,
+      "reward": 1.8306081295013428,
+      "reward_std": 0.0984015129506588,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8384206891059875,
+      "step": 2351
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 252.96875,
+      "epoch": 1.14892578125,
+      "grad_norm": 4.927122085791297,
+      "kl": 0.055908203125,
+      "learning_rate": 7.12890625e-07,
+      "loss": 0.0022,
+      "reward": 1.7711811065673828,
+      "reward_std": 0.0485275574028492,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7711811363697052,
+      "step": 2352
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 336.6328125,
+      "epoch": 1.1494140625,
+      "grad_norm": 1.2056839611949453,
+      "kl": 0.0712890625,
+      "learning_rate": 7.127685546875e-07,
+      "loss": 0.0028,
+      "reward": 1.8243648409843445,
+      "reward_std": 0.027884284034371376,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8243648409843445,
+      "step": 2353
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 244.109375,
+      "epoch": 1.14990234375,
+      "grad_norm": 2.287808978760034,
+      "kl": 0.075927734375,
+      "learning_rate": 7.126464843749999e-07,
+      "loss": 0.003,
+      "reward": 1.8395601511001587,
+      "reward_std": 0.017794081941246986,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8395601511001587,
+      "step": 2354
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 302.375,
+      "epoch": 1.150390625,
+      "grad_norm": 3.6128285986688082,
+      "kl": 0.068603515625,
+      "learning_rate": 7.125244140624999e-07,
+      "loss": 0.0027,
+      "reward": 1.7480557560920715,
+      "reward_std": 0.11520683020353317,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7636808156967163,
+      "step": 2355
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 250.0234375,
+      "epoch": 1.15087890625,
+      "grad_norm": 1.1324473137402855,
+      "kl": 0.04541015625,
+      "learning_rate": 7.1240234375e-07,
+      "loss": 0.0018,
+      "reward": 1.7983075976371765,
+      "reward_std": 0.07985487952828407,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7983075678348541,
+      "step": 2356
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 151.546875,
+      "epoch": 1.1513671875,
+      "grad_norm": 1.8359334191454069,
+      "kl": 0.08544921875,
+      "learning_rate": 7.122802734375e-07,
+      "loss": 0.0034,
+      "reward": 1.6366276741027832,
+      "reward_std": 0.029252098873257637,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6366276144981384,
+      "step": 2357
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 312.4296875,
+      "epoch": 1.15185546875,
+      "grad_norm": 4.262206911923877,
+      "kl": 0.0587158203125,
+      "learning_rate": 7.12158203125e-07,
+      "loss": 0.0023,
+      "reward": 1.7909355163574219,
+      "reward_std": 0.05595472827553749,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7909355759620667,
+      "step": 2358
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 373.3515625,
+      "epoch": 1.15234375,
+      "grad_norm": 7.9709277642475715,
+      "kl": 0.0582275390625,
+      "learning_rate": 7.120361328125e-07,
+      "loss": 0.0023,
+      "reward": 1.8145057559013367,
+      "reward_std": 0.11433425173163414,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8223182857036591,
+      "step": 2359
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 410.15625,
+      "epoch": 1.15283203125,
+      "grad_norm": 1.3114368895833535,
+      "kl": 0.053955078125,
+      "learning_rate": 7.119140624999999e-07,
+      "loss": 0.0022,
+      "reward": 1.6761323809623718,
+      "reward_std": 0.1001717671751976,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.6995699405670166,
+      "step": 2360
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 357.5390625,
+      "epoch": 1.1533203125,
+      "grad_norm": 1.868219050538953,
+      "kl": 0.0592041015625,
+      "learning_rate": 7.117919921874999e-07,
+      "loss": 0.0024,
+      "reward": 1.7569094896316528,
+      "reward_std": 0.11767644435167313,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7647219896316528,
+      "step": 2361
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 387.0234375,
+      "epoch": 1.15380859375,
+      "grad_norm": 1.2672827889776317,
+      "kl": 0.0457763671875,
+      "learning_rate": 7.11669921875e-07,
+      "loss": 0.0018,
+      "reward": 1.7769032716751099,
+      "reward_std": 0.06862462218850851,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7769032120704651,
+      "step": 2362
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 374.6015625,
+      "epoch": 1.154296875,
+      "grad_norm": 1.2955402321867606,
+      "kl": 0.0517578125,
+      "learning_rate": 7.115478515625e-07,
+      "loss": 0.0021,
+      "reward": 1.7472400069236755,
+      "reward_std": 0.1712198220193386,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.7784900069236755,
+      "step": 2363
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 336.0546875,
+      "epoch": 1.15478515625,
+      "grad_norm": 2.2402729174427516,
+      "kl": 0.06640625,
+      "learning_rate": 7.1142578125e-07,
+      "loss": 0.0026,
+      "reward": 1.7722741961479187,
+      "reward_std": 0.1572416089475155,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7878992259502411,
+      "step": 2364
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 262.7890625,
+      "epoch": 1.1552734375,
+      "grad_norm": 1.0208911322785654,
+      "kl": 0.066650390625,
+      "learning_rate": 7.113037109375e-07,
+      "loss": 0.0027,
+      "reward": 1.755761444568634,
+      "reward_std": 0.07006818428635597,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7557614147663116,
+      "step": 2365
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 212.25,
+      "epoch": 1.15576171875,
+      "grad_norm": 2.065142149687345,
+      "kl": 0.063720703125,
+      "learning_rate": 7.11181640625e-07,
+      "loss": 0.0025,
+      "reward": 1.7702951431274414,
+      "reward_std": 0.03799489140510559,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7781076431274414,
+      "step": 2366
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 283.5234375,
+      "epoch": 1.15625,
+      "grad_norm": 1.9266816192587584,
+      "kl": 0.067138671875,
+      "learning_rate": 7.110595703124999e-07,
+      "loss": 0.0027,
+      "reward": 1.733154058456421,
+      "reward_std": 0.04852524399757385,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7331540882587433,
+      "step": 2367
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 313.8828125,
+      "epoch": 1.15673828125,
+      "grad_norm": 1.268819129630388,
+      "kl": 0.076416015625,
+      "learning_rate": 7.109374999999999e-07,
+      "loss": 0.0031,
+      "reward": 1.727283000946045,
+      "reward_std": 0.04405433498322964,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7272829711437225,
+      "step": 2368
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 236.796875,
+      "epoch": 1.1572265625,
+      "grad_norm": 1.3015855264210114,
+      "kl": 0.056396484375,
+      "learning_rate": 7.108154296875e-07,
+      "loss": 0.0023,
+      "reward": 1.7930294871330261,
+      "reward_std": 0.056975074112415314,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7930294573307037,
+      "step": 2369
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 280.6796875,
+      "epoch": 1.15771484375,
+      "grad_norm": 1.4361230941581011,
+      "kl": 0.0504150390625,
+      "learning_rate": 7.10693359375e-07,
+      "loss": 0.002,
+      "reward": 1.783621370792389,
+      "reward_std": 0.04106577858328819,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7836213707923889,
+      "step": 2370
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 303.4140625,
+      "epoch": 1.158203125,
+      "grad_norm": 1.375569448092502,
+      "kl": 0.0589599609375,
+      "learning_rate": 7.105712890625e-07,
+      "loss": 0.0024,
+      "reward": 1.7498807311058044,
+      "reward_std": 0.06763119343668222,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7576932013034821,
+      "step": 2371
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 250.375,
+      "epoch": 1.15869140625,
+      "grad_norm": 0.5023786129439751,
+      "kl": 0.05517578125,
+      "learning_rate": 7.1044921875e-07,
+      "loss": 0.0022,
+      "reward": 1.8890994787216187,
+      "reward_std": 0.020692605525255203,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8890994787216187,
+      "step": 2372
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 256.3984375,
+      "epoch": 1.1591796875,
+      "grad_norm": 1.7393139909940287,
+      "kl": 0.081298828125,
+      "learning_rate": 7.103271484374999e-07,
+      "loss": 0.0032,
+      "reward": 1.7087842226028442,
+      "reward_std": 0.033358908258378506,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7087842524051666,
+      "step": 2373
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 350.7734375,
+      "epoch": 1.15966796875,
+      "grad_norm": 1.628089694830596,
+      "kl": 0.0567626953125,
+      "learning_rate": 7.102050781249999e-07,
+      "loss": 0.0023,
+      "reward": 1.7870800495147705,
+      "reward_std": 0.04601499065756798,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7870800197124481,
+      "step": 2374
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 290.046875,
+      "epoch": 1.16015625,
+      "grad_norm": 1.0821890704171715,
+      "kl": 0.0506591796875,
+      "learning_rate": 7.100830078125e-07,
+      "loss": 0.002,
+      "reward": 1.8657442927360535,
+      "reward_std": 0.10163949802517891,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8735567629337311,
+      "step": 2375
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 298.375,
+      "epoch": 1.16064453125,
+      "grad_norm": 1.5005134329516172,
+      "kl": 0.0582275390625,
+      "learning_rate": 7.099609375e-07,
+      "loss": 0.0023,
+      "reward": 1.7599137425422668,
+      "reward_std": 0.05832270160317421,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7599137425422668,
+      "step": 2376
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 318.4453125,
+      "epoch": 1.1611328125,
+      "grad_norm": 1.1183281293568572,
+      "kl": 0.0633544921875,
+      "learning_rate": 7.098388671875e-07,
+      "loss": 0.0025,
+      "reward": 1.8047245144844055,
+      "reward_std": 0.08250847831368446,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8047245144844055,
+      "step": 2377
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 249.28125,
+      "epoch": 1.16162109375,
+      "grad_norm": 1.5202076197640586,
+      "kl": 0.056396484375,
+      "learning_rate": 7.09716796875e-07,
+      "loss": 0.0023,
+      "reward": 1.9078629612922668,
+      "reward_std": 0.029499279335141182,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.9078629016876221,
+      "step": 2378
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 249.4296875,
+      "epoch": 1.162109375,
+      "grad_norm": 1.806142323321523,
+      "kl": 0.0577392578125,
+      "learning_rate": 7.095947265625e-07,
+      "loss": 0.0023,
+      "reward": 1.755949079990387,
+      "reward_std": 0.09004699625074863,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.755949079990387,
+      "step": 2379
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 240.3359375,
+      "epoch": 1.16259765625,
+      "grad_norm": 2.5409784656610634,
+      "kl": 0.06298828125,
+      "learning_rate": 7.094726562499999e-07,
+      "loss": 0.0025,
+      "reward": 1.785530149936676,
+      "reward_std": 0.046783702448010445,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7855301201343536,
+      "step": 2380
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 421.84375,
+      "epoch": 1.1630859375,
+      "grad_norm": 1.5410866702591242,
+      "kl": 0.0582275390625,
+      "learning_rate": 7.093505859374999e-07,
+      "loss": 0.0023,
+      "reward": 1.6306228041648865,
+      "reward_std": 0.10624398104846478,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6462478041648865,
+      "step": 2381
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 342.1328125,
+      "epoch": 1.16357421875,
+      "grad_norm": 1.5076095428158183,
+      "kl": 0.0550537109375,
+      "learning_rate": 7.09228515625e-07,
+      "loss": 0.0022,
+      "reward": 1.8531184792518616,
+      "reward_std": 0.09160671941936016,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.860931009054184,
+      "step": 2382
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 410.921875,
+      "epoch": 1.1640625,
+      "grad_norm": 2.1539995428471905,
+      "kl": 0.070068359375,
+      "learning_rate": 7.091064453125e-07,
+      "loss": 0.0028,
+      "reward": 1.7696999311447144,
+      "reward_std": 0.10432733595371246,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7853248119354248,
+      "step": 2383
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 312.0,
+      "epoch": 1.16455078125,
+      "grad_norm": 2.777834781481418,
+      "kl": 0.05322265625,
+      "learning_rate": 7.08984375e-07,
+      "loss": 0.0021,
+      "reward": 1.7855026125907898,
+      "reward_std": 0.08844604343175888,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7933151125907898,
+      "step": 2384
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 285.21875,
+      "epoch": 1.1650390625,
+      "grad_norm": 2.3212115933760553,
+      "kl": 0.072021484375,
+      "learning_rate": 7.088623046875e-07,
+      "loss": 0.0029,
+      "reward": 1.658606767654419,
+      "reward_std": 0.13669633120298386,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6742317080497742,
+      "step": 2385
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 369.03125,
+      "epoch": 1.16552734375,
+      "grad_norm": 1.5471087574001265,
+      "kl": 0.061279296875,
+      "learning_rate": 7.087402343749999e-07,
+      "loss": 0.0024,
+      "reward": 1.7448172569274902,
+      "reward_std": 0.20727698504924774,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.783879816532135,
+      "step": 2386
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 267.953125,
+      "epoch": 1.166015625,
+      "grad_norm": 3.4097330170492905,
+      "kl": 0.0640869140625,
+      "learning_rate": 7.086181640624999e-07,
+      "loss": 0.0026,
+      "reward": 1.765123426914215,
+      "reward_std": 0.05697265453636646,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7651234269142151,
+      "step": 2387
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 272.265625,
+      "epoch": 1.16650390625,
+      "grad_norm": 2.5094396166271236,
+      "kl": 0.058837890625,
+      "learning_rate": 7.0849609375e-07,
+      "loss": 0.0024,
+      "reward": 1.8069196343421936,
+      "reward_std": 0.10948172211647034,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8147320747375488,
+      "step": 2388
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 382.0703125,
+      "epoch": 1.1669921875,
+      "grad_norm": 1.6288146794380969,
+      "kl": 0.073974609375,
+      "learning_rate": 7.083740234375e-07,
+      "loss": 0.003,
+      "reward": 1.7542518377304077,
+      "reward_std": 0.045296634547412395,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7542518377304077,
+      "step": 2389
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 372.3828125,
+      "epoch": 1.16748046875,
+      "grad_norm": 1.5399608721774982,
+      "kl": 0.0509033203125,
+      "learning_rate": 7.08251953125e-07,
+      "loss": 0.002,
+      "reward": 1.70972341299057,
+      "reward_std": 0.16795263439416885,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7331609427928925,
+      "step": 2390
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 310.4375,
+      "epoch": 1.16796875,
+      "grad_norm": 2.2999725959208788,
+      "kl": 0.0594482421875,
+      "learning_rate": 7.081298828125e-07,
+      "loss": 0.0024,
+      "reward": 1.8128122091293335,
+      "reward_std": 0.09195205383002758,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8128121495246887,
+      "step": 2391
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 218.0859375,
+      "epoch": 1.16845703125,
+      "grad_norm": 1.940816342699902,
+      "kl": 0.068359375,
+      "learning_rate": 7.080078125e-07,
+      "loss": 0.0027,
+      "reward": 1.747936189174652,
+      "reward_std": 0.08866530656814575,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7479361891746521,
+      "step": 2392
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 323.6640625,
+      "epoch": 1.1689453125,
+      "grad_norm": 1.765314724522433,
+      "kl": 0.052001953125,
+      "learning_rate": 7.078857421874999e-07,
+      "loss": 0.0021,
+      "reward": 1.709149956703186,
+      "reward_std": 0.06337589770555496,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.709149956703186,
+      "step": 2393
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 230.6015625,
+      "epoch": 1.16943359375,
+      "grad_norm": 7.062752985549045,
+      "kl": 0.07958984375,
+      "learning_rate": 7.077636718749999e-07,
+      "loss": 0.0032,
+      "reward": 1.6336697340011597,
+      "reward_std": 0.1141487006098032,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6414822340011597,
+      "step": 2394
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 266.6640625,
+      "epoch": 1.169921875,
+      "grad_norm": 1.0620017021682755,
+      "kl": 0.049560546875,
+      "learning_rate": 7.076416015625e-07,
+      "loss": 0.002,
+      "reward": 1.9040113687515259,
+      "reward_std": 0.05147293955087662,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.904011458158493,
+      "step": 2395
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 215.3125,
+      "epoch": 1.17041015625,
+      "grad_norm": 1.3276612147735944,
+      "kl": 0.075927734375,
+      "learning_rate": 7.0751953125e-07,
+      "loss": 0.003,
+      "reward": 1.7077276706695557,
+      "reward_std": 0.0732121616601944,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7077276408672333,
+      "step": 2396
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 247.671875,
+      "epoch": 1.1708984375,
+      "grad_norm": 1.4011487524978836,
+      "kl": 0.079833984375,
+      "learning_rate": 7.073974609375e-07,
+      "loss": 0.0032,
+      "reward": 1.7469829320907593,
+      "reward_std": 0.0623103235848248,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7469829320907593,
+      "step": 2397
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 275.90625,
+      "epoch": 1.17138671875,
+      "grad_norm": 2.1429163994559337,
+      "kl": 0.0740966796875,
+      "learning_rate": 7.07275390625e-07,
+      "loss": 0.003,
+      "reward": 1.8036177158355713,
+      "reward_std": 0.07194317691028118,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8036176562309265,
+      "step": 2398
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 287.75,
+      "epoch": 1.171875,
+      "grad_norm": 1.7405554380960897,
+      "kl": 0.066162109375,
+      "learning_rate": 7.071533203124999e-07,
+      "loss": 0.0026,
+      "reward": 1.6592023372650146,
+      "reward_std": 0.08969663083553314,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6592022776603699,
+      "step": 2399
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 220.328125,
+      "epoch": 1.17236328125,
+      "grad_norm": 1.2593548286372285,
+      "kl": 0.068115234375,
+      "learning_rate": 7.070312499999999e-07,
+      "loss": 0.0027,
+      "reward": 1.7829896211624146,
+      "reward_std": 0.0856513325124979,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7829896509647369,
+      "step": 2400
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 277.2109375,
+      "epoch": 1.1728515625,
+      "grad_norm": 3.1176602902157495,
+      "kl": 0.0859375,
+      "learning_rate": 7.069091796875e-07,
+      "loss": 0.0034,
+      "reward": 1.8581604957580566,
+      "reward_std": 0.10554312914609909,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.858160525560379,
+      "step": 2401
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 169.625,
+      "epoch": 1.17333984375,
+      "grad_norm": 1.3117450441494156,
+      "kl": 0.082763671875,
+      "learning_rate": 7.06787109375e-07,
+      "loss": 0.0033,
+      "reward": 1.706332802772522,
+      "reward_std": 0.04083455912768841,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.706332802772522,
+      "step": 2402
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 278.4140625,
+      "epoch": 1.173828125,
+      "grad_norm": 3.430690325991213,
+      "kl": 0.13623046875,
+      "learning_rate": 7.066650390625e-07,
+      "loss": 0.0055,
+      "reward": 1.6918965578079224,
+      "reward_std": 0.06476756557822227,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6918965578079224,
+      "step": 2403
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 279.0,
+      "epoch": 1.17431640625,
+      "grad_norm": 2.062517429740279,
+      "kl": 0.072509765625,
+      "learning_rate": 7.0654296875e-07,
+      "loss": 0.0029,
+      "reward": 1.6687769293785095,
+      "reward_std": 0.0822465568780899,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6687769889831543,
+      "step": 2404
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 287.5390625,
+      "epoch": 1.1748046875,
+      "grad_norm": 1.479713578737759,
+      "kl": 0.065673828125,
+      "learning_rate": 7.064208984375e-07,
+      "loss": 0.0026,
+      "reward": 1.843060851097107,
+      "reward_std": 0.05525344889611006,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8430608510971069,
+      "step": 2405
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 265.21875,
+      "epoch": 1.17529296875,
+      "grad_norm": 5.418876184032981,
+      "kl": 0.0703125,
+      "learning_rate": 7.062988281249999e-07,
+      "loss": 0.0028,
+      "reward": 1.7128131985664368,
+      "reward_std": 0.0804828368127346,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7128131687641144,
+      "step": 2406
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 231.625,
+      "epoch": 1.17578125,
+      "grad_norm": 2.7306643847833683,
+      "kl": 0.08154296875,
+      "learning_rate": 7.061767578124999e-07,
+      "loss": 0.0033,
+      "reward": 1.84114408493042,
+      "reward_std": 0.047078766860067844,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8411440849304199,
+      "step": 2407
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 257.4296875,
+      "epoch": 1.17626953125,
+      "grad_norm": 0.959063992930826,
+      "kl": 0.0633544921875,
+      "learning_rate": 7.060546875e-07,
+      "loss": 0.0025,
+      "reward": 1.8835274577140808,
+      "reward_std": 0.06786072719842196,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8913399577140808,
+      "step": 2408
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 214.578125,
+      "epoch": 1.1767578125,
+      "grad_norm": 0.8022740950274427,
+      "kl": 0.082275390625,
+      "learning_rate": 7.059326171875e-07,
+      "loss": 0.0033,
+      "reward": 1.8769137263298035,
+      "reward_std": 0.09892814233899117,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8847261667251587,
+      "step": 2409
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 250.8125,
+      "epoch": 1.17724609375,
+      "grad_norm": 1.4812068400181597,
+      "kl": 0.0830078125,
+      "learning_rate": 7.05810546875e-07,
+      "loss": 0.0033,
+      "reward": 1.8106178045272827,
+      "reward_std": 0.13285555690526962,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.8262427449226379,
+      "step": 2410
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 321.421875,
+      "epoch": 1.177734375,
+      "grad_norm": 4.6584927782887195,
+      "kl": 0.06884765625,
+      "learning_rate": 7.056884765625e-07,
+      "loss": 0.0028,
+      "reward": 1.6145755648612976,
+      "reward_std": 0.12683077156543732,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.62238809466362,
+      "step": 2411
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 262.5859375,
+      "epoch": 1.17822265625,
+      "grad_norm": 1.3273325229855206,
+      "kl": 0.0693359375,
+      "learning_rate": 7.055664062499999e-07,
+      "loss": 0.0028,
+      "reward": 1.8337931036949158,
+      "reward_std": 0.06046081706881523,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8337931036949158,
+      "step": 2412
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 271.2265625,
+      "epoch": 1.1787109375,
+      "grad_norm": 1.1873786934092632,
+      "kl": 0.062744140625,
+      "learning_rate": 7.054443359374999e-07,
+      "loss": 0.0025,
+      "reward": 1.8494738936424255,
+      "reward_std": 0.07496330887079239,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8494738638401031,
+      "step": 2413
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 291.4375,
+      "epoch": 1.17919921875,
+      "grad_norm": 1.2850630040194209,
+      "kl": 0.0634765625,
+      "learning_rate": 7.05322265625e-07,
+      "loss": 0.0025,
+      "reward": 1.740599811077118,
+      "reward_std": 0.04363143816590309,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7405998110771179,
+      "step": 2414
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 234.8359375,
+      "epoch": 1.1796875,
+      "grad_norm": 2.6529425377978475,
+      "kl": 0.07861328125,
+      "learning_rate": 7.052001953125e-07,
+      "loss": 0.0032,
+      "reward": 1.8151870369911194,
+      "reward_std": 0.13191955909132957,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.822999507188797,
+      "step": 2415
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 211.4921875,
+      "epoch": 1.18017578125,
+      "grad_norm": 2.380781065882567,
+      "kl": 0.073974609375,
+      "learning_rate": 7.05078125e-07,
+      "loss": 0.003,
+      "reward": 1.8084670305252075,
+      "reward_std": 0.05959512945264578,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8084670305252075,
+      "step": 2416
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 302.46875,
+      "epoch": 1.1806640625,
+      "grad_norm": 1.633451395929759,
+      "kl": 0.0732421875,
+      "learning_rate": 7.049560546875e-07,
+      "loss": 0.0029,
+      "reward": 1.8302597403526306,
+      "reward_std": 0.10631529986858368,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.8458847999572754,
+      "step": 2417
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 269.8984375,
+      "epoch": 1.18115234375,
+      "grad_norm": 1.095996447538376,
+      "kl": 0.065673828125,
+      "learning_rate": 7.04833984375e-07,
+      "loss": 0.0026,
+      "reward": 1.6789276599884033,
+      "reward_std": 0.07097472064197063,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6867401003837585,
+      "step": 2418
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 279.4375,
+      "epoch": 1.181640625,
+      "grad_norm": 0.6358463267113961,
+      "kl": 0.0692138671875,
+      "learning_rate": 7.047119140624999e-07,
+      "loss": 0.0028,
+      "reward": 1.7676212787628174,
+      "reward_std": 0.02877889759838581,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.767621248960495,
+      "step": 2419
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 251.0546875,
+      "epoch": 1.18212890625,
+      "grad_norm": 1.7201953005283817,
+      "kl": 0.06591796875,
+      "learning_rate": 7.045898437499999e-07,
+      "loss": 0.0026,
+      "reward": 1.6933047771453857,
+      "reward_std": 0.11904028803110123,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7089297771453857,
+      "step": 2420
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 317.84375,
+      "epoch": 1.1826171875,
+      "grad_norm": 1.642795231335406,
+      "kl": 0.076171875,
+      "learning_rate": 7.044677734375e-07,
+      "loss": 0.003,
+      "reward": 1.7209062576293945,
+      "reward_std": 0.08078465051949024,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7287188470363617,
+      "step": 2421
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 264.390625,
+      "epoch": 1.18310546875,
+      "grad_norm": 1.697016218007385,
+      "kl": 0.07861328125,
+      "learning_rate": 7.04345703125e-07,
+      "loss": 0.0031,
+      "reward": 1.7383880019187927,
+      "reward_std": 0.033076136372983456,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7383880317211151,
+      "step": 2422
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 283.96875,
+      "epoch": 1.18359375,
+      "grad_norm": 2.3807287354436486,
+      "kl": 0.0628662109375,
+      "learning_rate": 7.042236328125e-07,
+      "loss": 0.0025,
+      "reward": 1.785739779472351,
+      "reward_std": 0.0659907665103674,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7857397794723511,
+      "step": 2423
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 303.921875,
+      "epoch": 1.18408203125,
+      "grad_norm": 1.850170065076833,
+      "kl": 0.077880859375,
+      "learning_rate": 7.041015625e-07,
+      "loss": 0.0031,
+      "reward": 1.8572614789009094,
+      "reward_std": 0.03198802284896374,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8572614789009094,
+      "step": 2424
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 301.2578125,
+      "epoch": 1.1845703125,
+      "grad_norm": 1.250303267080643,
+      "kl": 0.0650634765625,
+      "learning_rate": 7.039794921874999e-07,
+      "loss": 0.0026,
+      "reward": 1.6902012825012207,
+      "reward_std": 0.04371343832463026,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6902012228965759,
+      "step": 2425
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 358.25,
+      "epoch": 1.18505859375,
+      "grad_norm": 5.468487040253603,
+      "kl": 0.0849609375,
+      "learning_rate": 7.038574218749999e-07,
+      "loss": 0.0034,
+      "reward": 1.557692527770996,
+      "reward_std": 0.11165288090705872,
+      "rewards/format_reward": 0.9296875,
+      "rewards/ocr_reward": 0.6280049979686737,
+      "step": 2426
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 258.5546875,
+      "epoch": 1.185546875,
+      "grad_norm": 1.456806917925311,
+      "kl": 0.066650390625,
+      "learning_rate": 7.037353515625e-07,
+      "loss": 0.0027,
+      "reward": 1.66695636510849,
+      "reward_std": 0.03848722204566002,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6669564247131348,
+      "step": 2427
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 331.078125,
+      "epoch": 1.18603515625,
+      "grad_norm": 2.9368301614032495,
+      "kl": 0.0667724609375,
+      "learning_rate": 7.0361328125e-07,
+      "loss": 0.0027,
+      "reward": 1.7350419759750366,
+      "reward_std": 0.09676255099475384,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7584794461727142,
+      "step": 2428
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 292.4375,
+      "epoch": 1.1865234375,
+      "grad_norm": 2.219443545795303,
+      "kl": 0.0638427734375,
+      "learning_rate": 7.034912109375e-07,
+      "loss": 0.0026,
+      "reward": 1.8254042863845825,
+      "reward_std": 0.0871292520314455,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8254042863845825,
+      "step": 2429
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 241.7265625,
+      "epoch": 1.18701171875,
+      "grad_norm": 1.0660266946811585,
+      "kl": 0.079345703125,
+      "learning_rate": 7.03369140625e-07,
+      "loss": 0.0032,
+      "reward": 1.7727646231651306,
+      "reward_std": 0.06067582964897156,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.772764652967453,
+      "step": 2430
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 309.8515625,
+      "epoch": 1.1875,
+      "grad_norm": 2.0455673981048337,
+      "kl": 0.069091796875,
+      "learning_rate": 7.032470703125e-07,
+      "loss": 0.0028,
+      "reward": 1.6600714921951294,
+      "reward_std": 0.054243333637714386,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6600715816020966,
+      "step": 2431
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 320.046875,
+      "epoch": 1.18798828125,
+      "grad_norm": 2.3469567235126343,
+      "kl": 0.074951171875,
+      "learning_rate": 7.031249999999999e-07,
+      "loss": 0.003,
+      "reward": 1.717573642730713,
+      "reward_std": 0.14434907957911491,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7410111129283905,
+      "step": 2432
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 334.8828125,
+      "epoch": 1.1884765625,
+      "grad_norm": 1.7159405891568082,
+      "kl": 0.08154296875,
+      "learning_rate": 7.030029296874999e-07,
+      "loss": 0.0033,
+      "reward": 1.7161504030227661,
+      "reward_std": 0.03489119280129671,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7161504626274109,
+      "step": 2433
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 319.6171875,
+      "epoch": 1.18896484375,
+      "grad_norm": 2.209863344385722,
+      "kl": 0.065185546875,
+      "learning_rate": 7.02880859375e-07,
+      "loss": 0.0026,
+      "reward": 1.7833570837974548,
+      "reward_std": 0.06764233857393265,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7833570539951324,
+      "step": 2434
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 303.4765625,
+      "epoch": 1.189453125,
+      "grad_norm": 5.044233806012345,
+      "kl": 0.05859375,
+      "learning_rate": 7.027587890625e-07,
+      "loss": 0.0023,
+      "reward": 1.771048367023468,
+      "reward_std": 0.033720131730660796,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.771048367023468,
+      "step": 2435
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 304.2265625,
+      "epoch": 1.18994140625,
+      "grad_norm": 2.5922434578602305,
+      "kl": 0.07177734375,
+      "learning_rate": 7.0263671875e-07,
+      "loss": 0.0029,
+      "reward": 1.6098366379737854,
+      "reward_std": 0.05740887112915516,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.609836757183075,
+      "step": 2436
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 280.0078125,
+      "epoch": 1.1904296875,
+      "grad_norm": 1.8713184275572499,
+      "kl": 0.080078125,
+      "learning_rate": 7.025146484375e-07,
+      "loss": 0.0032,
+      "reward": 1.7736141681671143,
+      "reward_std": 0.04480298818089068,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7736141979694366,
+      "step": 2437
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 362.2265625,
+      "epoch": 1.19091796875,
+      "grad_norm": 2.1515702226767512,
+      "kl": 0.0732421875,
+      "learning_rate": 7.02392578125e-07,
+      "loss": 0.0029,
+      "reward": 1.695095181465149,
+      "reward_std": 0.12620120495557785,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.7263452112674713,
+      "step": 2438
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 336.546875,
+      "epoch": 1.19140625,
+      "grad_norm": 2.5367504438666413,
+      "kl": 0.0552978515625,
+      "learning_rate": 7.022705078124999e-07,
+      "loss": 0.0022,
+      "reward": 1.7602566480636597,
+      "reward_std": 0.11810046620666981,
+      "rewards/format_reward": 0.9453125,
+      "rewards/ocr_reward": 0.8149441182613373,
+      "step": 2439
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 271.3984375,
+      "epoch": 1.19189453125,
+      "grad_norm": 1.6103282302386244,
+      "kl": 0.0760498046875,
+      "learning_rate": 7.021484375e-07,
+      "loss": 0.003,
+      "reward": 1.5700552463531494,
+      "reward_std": 0.09616255201399326,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.5856801867485046,
+      "step": 2440
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 298.2890625,
+      "epoch": 1.1923828125,
+      "grad_norm": 2.776703466020179,
+      "kl": 0.055908203125,
+      "learning_rate": 7.020263671875e-07,
+      "loss": 0.0022,
+      "reward": 1.7921187281608582,
+      "reward_std": 0.04691682942211628,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.792118638753891,
+      "step": 2441
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 434.8828125,
+      "epoch": 1.19287109375,
+      "grad_norm": 2.8510129285591836,
+      "kl": 0.0478515625,
+      "learning_rate": 7.01904296875e-07,
+      "loss": 0.0019,
+      "reward": 1.6040194630622864,
+      "reward_std": 0.1493111103773117,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.650894433259964,
+      "step": 2442
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 352.8359375,
+      "epoch": 1.193359375,
+      "grad_norm": 0.9498794503148597,
+      "kl": 0.068603515625,
+      "learning_rate": 7.017822265625e-07,
+      "loss": 0.0027,
+      "reward": 1.7161058187484741,
+      "reward_std": 0.09053925797343254,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.7551683783531189,
+      "step": 2443
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 264.7734375,
+      "epoch": 1.19384765625,
+      "grad_norm": 1.1199023458800679,
+      "kl": 0.061279296875,
+      "learning_rate": 7.0166015625e-07,
+      "loss": 0.0025,
+      "reward": 1.8098965287208557,
+      "reward_std": 0.08372041955590248,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8177090287208557,
+      "step": 2444
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 383.6015625,
+      "epoch": 1.1943359375,
+      "grad_norm": 0.47829963771188727,
+      "kl": 0.0491943359375,
+      "learning_rate": 7.015380859374999e-07,
+      "loss": 0.002,
+      "reward": 1.6234931945800781,
+      "reward_std": 0.18474455177783966,
+      "rewards/format_reward": 0.9296875,
+      "rewards/ocr_reward": 0.6938056945800781,
+      "step": 2445
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 312.484375,
+      "epoch": 1.19482421875,
+      "grad_norm": 1.6276283737432735,
+      "kl": 0.0614013671875,
+      "learning_rate": 7.014160156249999e-07,
+      "loss": 0.0025,
+      "reward": 1.7953330874443054,
+      "reward_std": 0.08542214334011078,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.8109579682350159,
+      "step": 2446
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 340.765625,
+      "epoch": 1.1953125,
+      "grad_norm": 2.960283467365649,
+      "kl": 0.070068359375,
+      "learning_rate": 7.012939453125e-07,
+      "loss": 0.0028,
+      "reward": 1.616200864315033,
+      "reward_std": 0.16303523629903793,
+      "rewards/format_reward": 0.9375,
+      "rewards/ocr_reward": 0.678700864315033,
+      "step": 2447
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 290.4296875,
+      "epoch": 1.19580078125,
+      "grad_norm": 1.8931874672712756,
+      "kl": 0.070556640625,
+      "learning_rate": 7.01171875e-07,
+      "loss": 0.0028,
+      "reward": 1.7042686939239502,
+      "reward_std": 0.10324783250689507,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.712081253528595,
+      "step": 2448
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 365.7890625,
+      "epoch": 1.1962890625,
+      "grad_norm": 0.8846851645218154,
+      "kl": 0.045654296875,
+      "learning_rate": 7.010498046875e-07,
+      "loss": 0.0018,
+      "reward": 1.826434314250946,
+      "reward_std": 0.16191211715340614,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.8576842248439789,
+      "step": 2449
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 227.3046875,
+      "epoch": 1.19677734375,
+      "grad_norm": 0.7349892567727097,
+      "kl": 0.0633544921875,
+      "learning_rate": 7.00927734375e-07,
+      "loss": 0.0025,
+      "reward": 1.8562174439430237,
+      "reward_std": 0.01508009573444724,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8562174439430237,
+      "step": 2450
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 432.4375,
+      "epoch": 1.197265625,
+      "grad_norm": 2.0795643682176217,
+      "kl": 0.07666015625,
+      "learning_rate": 7.008056640625e-07,
+      "loss": 0.0031,
+      "reward": 1.5798554420471191,
+      "reward_std": 0.09327048435807228,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.6189179420471191,
+      "step": 2451
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 352.4296875,
+      "epoch": 1.19775390625,
+      "grad_norm": 2.43960100948424,
+      "kl": 0.0667724609375,
+      "learning_rate": 7.006835937499999e-07,
+      "loss": 0.0027,
+      "reward": 1.6752365827560425,
+      "reward_std": 0.16312190517783165,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.6986740827560425,
+      "step": 2452
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 426.6953125,
+      "epoch": 1.1982421875,
+      "grad_norm": 1.783527107114228,
+      "kl": 0.0546875,
+      "learning_rate": 7.005615234374999e-07,
+      "loss": 0.0022,
+      "reward": 1.697092890739441,
+      "reward_std": 0.12336409464478493,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7127178907394409,
+      "step": 2453
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 352.796875,
+      "epoch": 1.19873046875,
+      "grad_norm": 1.4386375964027276,
+      "kl": 0.059814453125,
+      "learning_rate": 7.00439453125e-07,
+      "loss": 0.0024,
+      "reward": 1.8195868134498596,
+      "reward_std": 0.034168762154877186,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.819586843252182,
+      "step": 2454
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 308.0078125,
+      "epoch": 1.19921875,
+      "grad_norm": 1.0233839801880174,
+      "kl": 0.0572509765625,
+      "learning_rate": 7.003173828125e-07,
+      "loss": 0.0023,
+      "reward": 1.8272386193275452,
+      "reward_std": 0.05041295662522316,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8272385895252228,
+      "step": 2455
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 291.9453125,
+      "epoch": 1.19970703125,
+      "grad_norm": 1.721124868164957,
+      "kl": 0.0606689453125,
+      "learning_rate": 7.001953125e-07,
+      "loss": 0.0024,
+      "reward": 1.6735165119171143,
+      "reward_std": 0.0498051792383194,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6735165119171143,
+      "step": 2456
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 207.6640625,
+      "epoch": 1.2001953125,
+      "grad_norm": 4.63579264894847,
+      "kl": 0.0703125,
+      "learning_rate": 7.000732421875e-07,
+      "loss": 0.0028,
+      "reward": 1.8002795577049255,
+      "reward_std": 0.04197111213579774,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8002796173095703,
+      "step": 2457
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 329.3359375,
+      "epoch": 1.20068359375,
+      "grad_norm": 1.546489313566168,
+      "kl": 0.0576171875,
+      "learning_rate": 6.999511718749999e-07,
+      "loss": 0.0023,
+      "reward": 1.721842348575592,
+      "reward_std": 0.0830717384815216,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.721842348575592,
+      "step": 2458
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 274.6640625,
+      "epoch": 1.201171875,
+      "grad_norm": 5.094662458606525,
+      "kl": 0.0626220703125,
+      "learning_rate": 6.998291015624999e-07,
+      "loss": 0.0025,
+      "reward": 1.7491782903671265,
+      "reward_std": 0.08964913338422775,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7491783201694489,
+      "step": 2459
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 379.1640625,
+      "epoch": 1.20166015625,
+      "grad_norm": 1.1949232897338642,
+      "kl": 0.05615234375,
+      "learning_rate": 6.9970703125e-07,
+      "loss": 0.0022,
+      "reward": 1.8746750950813293,
+      "reward_std": 0.11067311465740204,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8824875354766846,
+      "step": 2460
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 244.4921875,
+      "epoch": 1.2021484375,
+      "grad_norm": 1.5899026672991512,
+      "kl": 0.08447265625,
+      "learning_rate": 6.995849609375e-07,
+      "loss": 0.0034,
+      "reward": 1.8029922246932983,
+      "reward_std": 0.06205196492373943,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8029922544956207,
+      "step": 2461
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 300.1953125,
+      "epoch": 1.20263671875,
+      "grad_norm": 2.103963718527489,
+      "kl": 0.0712890625,
+      "learning_rate": 6.99462890625e-07,
+      "loss": 0.0028,
+      "reward": 1.7411906719207764,
+      "reward_std": 0.07426265999674797,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7411905825138092,
+      "step": 2462
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 275.1484375,
+      "epoch": 1.203125,
+      "grad_norm": 1.2381185234846581,
+      "kl": 0.0516357421875,
+      "learning_rate": 6.993408203125e-07,
+      "loss": 0.0021,
+      "reward": 1.7142133712768555,
+      "reward_std": 0.07610474899411201,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7220259010791779,
+      "step": 2463
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 202.40625,
+      "epoch": 1.20361328125,
+      "grad_norm": 6.431279471704583,
+      "kl": 0.095703125,
+      "learning_rate": 6.9921875e-07,
+      "loss": 0.0038,
+      "reward": 1.6048645973205566,
+      "reward_std": 0.07959796488285065,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6048645377159119,
+      "step": 2464
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 236.3359375,
+      "epoch": 1.2041015625,
+      "grad_norm": 2.841010011660038,
+      "kl": 0.068603515625,
+      "learning_rate": 6.990966796874999e-07,
+      "loss": 0.0027,
+      "reward": 1.8495973944664001,
+      "reward_std": 0.05448159575462341,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8495973944664001,
+      "step": 2465
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 260.8671875,
+      "epoch": 1.20458984375,
+      "grad_norm": 0.8842872987899542,
+      "kl": 0.0574951171875,
+      "learning_rate": 6.989746093749999e-07,
+      "loss": 0.0023,
+      "reward": 1.8488314151763916,
+      "reward_std": 0.039236126467585564,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.848831444978714,
+      "step": 2466
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 353.640625,
+      "epoch": 1.205078125,
+      "grad_norm": 3.6653341295723876,
+      "kl": 0.072265625,
+      "learning_rate": 6.988525390625e-07,
+      "loss": 0.0029,
+      "reward": 1.7910266518592834,
+      "reward_std": 0.05401626043021679,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7910265922546387,
+      "step": 2467
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 209.6796875,
+      "epoch": 1.20556640625,
+      "grad_norm": 1.4644528281755704,
+      "kl": 0.078369140625,
+      "learning_rate": 6.9873046875e-07,
+      "loss": 0.0031,
+      "reward": 1.8185259103775024,
+      "reward_std": 0.01729111559689045,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8185259103775024,
+      "step": 2468
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 307.4453125,
+      "epoch": 1.2060546875,
+      "grad_norm": 0.8915286774826748,
+      "kl": 0.072021484375,
+      "learning_rate": 6.986083984375e-07,
+      "loss": 0.0029,
+      "reward": 1.7518900632858276,
+      "reward_std": 0.0792790362611413,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.7909526228904724,
+      "step": 2469
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 328.515625,
+      "epoch": 1.20654296875,
+      "grad_norm": 1.9404027572704816,
+      "kl": 0.087158203125,
+      "learning_rate": 6.98486328125e-07,
+      "loss": 0.0035,
+      "reward": 1.7426846027374268,
+      "reward_std": 0.08018626365810633,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7426846027374268,
+      "step": 2470
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 289.0625,
+      "epoch": 1.20703125,
+      "grad_norm": 1.1767884723377213,
+      "kl": 0.0731201171875,
+      "learning_rate": 6.983642578124999e-07,
+      "loss": 0.0029,
+      "reward": 1.7661176919937134,
+      "reward_std": 0.05781315267086029,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7661177515983582,
+      "step": 2471
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 287.7421875,
+      "epoch": 1.20751953125,
+      "grad_norm": 12.083794382746516,
+      "kl": 0.07373046875,
+      "learning_rate": 6.982421874999999e-07,
+      "loss": 0.0029,
+      "reward": 1.7419702410697937,
+      "reward_std": 0.019140704069286585,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7419701814651489,
+      "step": 2472
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 247.8203125,
+      "epoch": 1.2080078125,
+      "grad_norm": 2.0703187627263686,
+      "kl": 0.084228515625,
+      "learning_rate": 6.981201171875e-07,
+      "loss": 0.0034,
+      "reward": 1.7072731852531433,
+      "reward_std": 0.10907960124313831,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7150856554508209,
+      "step": 2473
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 231.4453125,
+      "epoch": 1.20849609375,
+      "grad_norm": 0.9422041926618386,
+      "kl": 0.0816650390625,
+      "learning_rate": 6.97998046875e-07,
+      "loss": 0.0033,
+      "reward": 1.7536945343017578,
+      "reward_std": 0.02776573784649372,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.753694474697113,
+      "step": 2474
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 356.34375,
+      "epoch": 1.208984375,
+      "grad_norm": 0.8433697427169689,
+      "kl": 0.0611572265625,
+      "learning_rate": 6.978759765625e-07,
+      "loss": 0.0024,
+      "reward": 1.726251244544983,
+      "reward_std": 0.06488487310707569,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7262513041496277,
+      "step": 2475
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 264.53125,
+      "epoch": 1.20947265625,
+      "grad_norm": 0.7248153544649567,
+      "kl": 0.0712890625,
+      "learning_rate": 6.9775390625e-07,
+      "loss": 0.0029,
+      "reward": 1.7210323810577393,
+      "reward_std": 0.010402468382380903,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7210325002670288,
+      "step": 2476
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 312.3984375,
+      "epoch": 1.2099609375,
+      "grad_norm": 1.8834510853065414,
+      "kl": 0.06201171875,
+      "learning_rate": 6.976318359375e-07,
+      "loss": 0.0025,
+      "reward": 1.7611924409866333,
+      "reward_std": 0.10708035714924335,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7690049111843109,
+      "step": 2477
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 274.8125,
+      "epoch": 1.21044921875,
+      "grad_norm": 4.270766248537916,
+      "kl": 0.07763671875,
+      "learning_rate": 6.975097656249999e-07,
+      "loss": 0.0031,
+      "reward": 1.814048945903778,
+      "reward_std": 0.05252527166157961,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8140489459037781,
+      "step": 2478
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 367.5390625,
+      "epoch": 1.2109375,
+      "grad_norm": 2.2657492845126486,
+      "kl": 0.0574951171875,
+      "learning_rate": 6.973876953124999e-07,
+      "loss": 0.0023,
+      "reward": 1.809904932975769,
+      "reward_std": 0.05868878960609436,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8099049031734467,
+      "step": 2479
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 325.09375,
+      "epoch": 1.21142578125,
+      "grad_norm": 4.6466935324712235,
+      "kl": 0.0562744140625,
+      "learning_rate": 6.97265625e-07,
+      "loss": 0.0023,
+      "reward": 1.7215197086334229,
+      "reward_std": 0.07658331096172333,
+      "rewards/format_reward": 0.9453125,
+      "rewards/ocr_reward": 0.7762071788311005,
+      "step": 2480
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 258.0703125,
+      "epoch": 1.2119140625,
+      "grad_norm": 14.953714286957666,
+      "kl": 0.133056640625,
+      "learning_rate": 6.971435546875e-07,
+      "loss": 0.0053,
+      "reward": 1.7927291989326477,
+      "reward_std": 0.027087991125881672,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7927291989326477,
+      "step": 2481
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 364.1015625,
+      "epoch": 1.21240234375,
+      "grad_norm": 5.068041510063571,
+      "kl": 0.0521240234375,
+      "learning_rate": 6.97021484375e-07,
+      "loss": 0.0021,
+      "reward": 1.7825981974601746,
+      "reward_std": 0.08510758727788925,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.790410727262497,
+      "step": 2482
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 250.5546875,
+      "epoch": 1.212890625,
+      "grad_norm": 1.2049058380875817,
+      "kl": 0.0714111328125,
+      "learning_rate": 6.968994140625e-07,
+      "loss": 0.0029,
+      "reward": 1.8188948035240173,
+      "reward_std": 0.025680112652480602,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8188948333263397,
+      "step": 2483
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 383.7578125,
+      "epoch": 1.21337890625,
+      "grad_norm": 7.356014600027885,
+      "kl": 0.069580078125,
+      "learning_rate": 6.967773437499999e-07,
+      "loss": 0.0028,
+      "reward": 1.7450536489486694,
+      "reward_std": 0.1266886219382286,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.752866119146347,
+      "step": 2484
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 353.0,
+      "epoch": 1.2138671875,
+      "grad_norm": 3.1051199689401043,
+      "kl": 0.0675048828125,
+      "learning_rate": 6.966552734374999e-07,
+      "loss": 0.0027,
+      "reward": 1.6235730051994324,
+      "reward_std": 0.11907243356108665,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.6470105350017548,
+      "step": 2485
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 364.953125,
+      "epoch": 1.21435546875,
+      "grad_norm": 1.6944501406666026,
+      "kl": 0.069580078125,
+      "learning_rate": 6.96533203125e-07,
+      "loss": 0.0028,
+      "reward": 1.8035091161727905,
+      "reward_std": 0.07174506038427353,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8035090863704681,
+      "step": 2486
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 314.4140625,
+      "epoch": 1.21484375,
+      "grad_norm": 1.2360053249882443,
+      "kl": 0.0732421875,
+      "learning_rate": 6.964111328125e-07,
+      "loss": 0.0029,
+      "reward": 1.6692347526550293,
+      "reward_std": 0.04010845720767975,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6692347228527069,
+      "step": 2487
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 333.6953125,
+      "epoch": 1.21533203125,
+      "grad_norm": 1.0885353537961944,
+      "kl": 0.0716552734375,
+      "learning_rate": 6.962890625e-07,
+      "loss": 0.0029,
+      "reward": 1.7111193537712097,
+      "reward_std": 0.09523628279566765,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7189318835735321,
+      "step": 2488
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 317.7265625,
+      "epoch": 1.2158203125,
+      "grad_norm": 1.2668470125667208,
+      "kl": 0.05712890625,
+      "learning_rate": 6.961669921875e-07,
+      "loss": 0.0023,
+      "reward": 1.6149799227714539,
+      "reward_std": 0.12601268105208874,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.6384174823760986,
+      "step": 2489
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 263.703125,
+      "epoch": 1.21630859375,
+      "grad_norm": 1.7178893277816036,
+      "kl": 0.0589599609375,
+      "learning_rate": 6.96044921875e-07,
+      "loss": 0.0024,
+      "reward": 1.8464585542678833,
+      "reward_std": 0.056060753762722015,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8464585840702057,
+      "step": 2490
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 291.734375,
+      "epoch": 1.216796875,
+      "grad_norm": 4.712548901479162,
+      "kl": 0.0654296875,
+      "learning_rate": 6.959228515624999e-07,
+      "loss": 0.0026,
+      "reward": 1.6734269857406616,
+      "reward_std": 0.09399673715233803,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6734269857406616,
+      "step": 2491
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 297.765625,
+      "epoch": 1.21728515625,
+      "grad_norm": 1.0758561945731477,
+      "kl": 0.0693359375,
+      "learning_rate": 6.958007812499999e-07,
+      "loss": 0.0028,
+      "reward": 1.6628954410552979,
+      "reward_std": 0.042761145159602165,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6628954112529755,
+      "step": 2492
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 241.6484375,
+      "epoch": 1.2177734375,
+      "grad_norm": 1.1584941663597192,
+      "kl": 0.076171875,
+      "learning_rate": 6.956787109375e-07,
+      "loss": 0.003,
+      "reward": 1.7079687118530273,
+      "reward_std": 0.0789231238886714,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7079687416553497,
+      "step": 2493
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 306.3359375,
+      "epoch": 1.21826171875,
+      "grad_norm": 1.964653097717732,
+      "kl": 0.062255859375,
+      "learning_rate": 6.95556640625e-07,
+      "loss": 0.0025,
+      "reward": 1.6944482326507568,
+      "reward_std": 0.03738341759890318,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6944482922554016,
+      "step": 2494
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 349.96875,
+      "epoch": 1.21875,
+      "grad_norm": 3.3640026796745857,
+      "kl": 0.0626220703125,
+      "learning_rate": 6.954345703125e-07,
+      "loss": 0.0025,
+      "reward": 1.784760594367981,
+      "reward_std": 0.06138443388044834,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.784760594367981,
+      "step": 2495
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 313.4453125,
+      "epoch": 1.21923828125,
+      "grad_norm": 3.2144653678548583,
+      "kl": 0.0732421875,
+      "learning_rate": 6.953125e-07,
+      "loss": 0.0029,
+      "reward": 1.5434470176696777,
+      "reward_std": 0.14664818346500397,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.5590719878673553,
+      "step": 2496
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 234.5625,
+      "epoch": 1.2197265625,
+      "grad_norm": 1.6026752821456773,
+      "kl": 0.0711669921875,
+      "learning_rate": 6.951904296874999e-07,
+      "loss": 0.0029,
+      "reward": 1.719383180141449,
+      "reward_std": 0.06268875673413277,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7193832099437714,
+      "step": 2497
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 258.8984375,
+      "epoch": 1.22021484375,
+      "grad_norm": 2.7339715672324685,
+      "kl": 0.09521484375,
+      "learning_rate": 6.950683593749999e-07,
+      "loss": 0.0038,
+      "reward": 1.6224533915519714,
+      "reward_std": 0.03794710151851177,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6224533319473267,
+      "step": 2498
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 292.6171875,
+      "epoch": 1.220703125,
+      "grad_norm": 3.3456055155414854,
+      "kl": 0.094970703125,
+      "learning_rate": 6.949462890625e-07,
+      "loss": 0.0038,
+      "reward": 1.687516987323761,
+      "reward_std": 0.04205773863941431,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.687516987323761,
+      "step": 2499
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 330.96875,
+      "epoch": 1.22119140625,
+      "grad_norm": 1.410321483173382,
+      "kl": 0.0670166015625,
+      "learning_rate": 6.9482421875e-07,
+      "loss": 0.0027,
+      "reward": 1.784384846687317,
+      "reward_std": 0.03612975589931011,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7843847870826721,
+      "step": 2500
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 300.984375,
+      "epoch": 1.2216796875,
+      "grad_norm": 4.366344762597936,
+      "kl": 0.078857421875,
+      "learning_rate": 6.947021484375e-07,
+      "loss": 0.0032,
+      "reward": 1.7177372574806213,
+      "reward_std": 0.1302860602736473,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7255498170852661,
+      "step": 2501
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 243.3671875,
+      "epoch": 1.22216796875,
+      "grad_norm": 1.39273870980327,
+      "kl": 0.078125,
+      "learning_rate": 6.94580078125e-07,
+      "loss": 0.0031,
+      "reward": 1.708004117012024,
+      "reward_std": 0.06258507259190083,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.7392540872097015,
+      "step": 2502
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 303.015625,
+      "epoch": 1.22265625,
+      "grad_norm": 2.5625187589958376,
+      "kl": 0.08349609375,
+      "learning_rate": 6.944580078125e-07,
+      "loss": 0.0033,
+      "reward": 1.8098444938659668,
+      "reward_std": 0.09694074839353561,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8176570236682892,
+      "step": 2503
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 396.3984375,
+      "epoch": 1.22314453125,
+      "grad_norm": 2.0931664616747683,
+      "kl": 0.0699462890625,
+      "learning_rate": 6.943359374999999e-07,
+      "loss": 0.0028,
+      "reward": 1.6923267245292664,
+      "reward_std": 0.16218779981136322,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7157641649246216,
+      "step": 2504
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 291.609375,
+      "epoch": 1.2236328125,
+      "grad_norm": 1.3978025191646846,
+      "kl": 0.0634765625,
+      "learning_rate": 6.942138671874999e-07,
+      "loss": 0.0025,
+      "reward": 1.6496607065200806,
+      "reward_std": 0.08597181178629398,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6652857065200806,
+      "step": 2505
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 323.234375,
+      "epoch": 1.22412109375,
+      "grad_norm": 2.1379914333546512,
+      "kl": 0.06591796875,
+      "learning_rate": 6.94091796875e-07,
+      "loss": 0.0026,
+      "reward": 1.7624231576919556,
+      "reward_std": 0.12387410178780556,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7780481576919556,
+      "step": 2506
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 394.0234375,
+      "epoch": 1.224609375,
+      "grad_norm": 1.1228065728537064,
+      "kl": 0.0565185546875,
+      "learning_rate": 6.939697265625e-07,
+      "loss": 0.0023,
+      "reward": 1.6814470887184143,
+      "reward_std": 0.021641411818563938,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6814470887184143,
+      "step": 2507
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 377.609375,
+      "epoch": 1.22509765625,
+      "grad_norm": 0.8026004860091579,
+      "kl": 0.0560302734375,
+      "learning_rate": 6.9384765625e-07,
+      "loss": 0.0022,
+      "reward": 1.842549443244934,
+      "reward_std": 0.04153232369571924,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8425493836402893,
+      "step": 2508
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 332.3828125,
+      "epoch": 1.2255859375,
+      "grad_norm": 2.430656263181087,
+      "kl": 0.077880859375,
+      "learning_rate": 6.937255859375e-07,
+      "loss": 0.0031,
+      "reward": 1.8032140135765076,
+      "reward_std": 0.0743367203976959,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.81102654337883,
+      "step": 2509
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 268.3828125,
+      "epoch": 1.22607421875,
+      "grad_norm": 1.168922825721485,
+      "kl": 0.08544921875,
+      "learning_rate": 6.936035156249999e-07,
+      "loss": 0.0034,
+      "reward": 1.6974853873252869,
+      "reward_std": 0.08852525055408478,
+      "rewards/format_reward": 0.9453125,
+      "rewards/ocr_reward": 0.7521729171276093,
+      "step": 2510
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 270.8984375,
+      "epoch": 1.2265625,
+      "grad_norm": 8.023737021131817,
+      "kl": 0.08056640625,
+      "learning_rate": 6.934814453124999e-07,
+      "loss": 0.0032,
+      "reward": 1.7808299660682678,
+      "reward_std": 0.04870981816202402,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.780829906463623,
+      "step": 2511
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 353.8203125,
+      "epoch": 1.22705078125,
+      "grad_norm": 3.438619709615711,
+      "kl": 0.069580078125,
+      "learning_rate": 6.93359375e-07,
+      "loss": 0.0028,
+      "reward": 1.6688467860221863,
+      "reward_std": 0.12142006307840347,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6766592860221863,
+      "step": 2512
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 287.1796875,
+      "epoch": 1.2275390625,
+      "grad_norm": 2.202825505955737,
+      "kl": 0.0712890625,
+      "learning_rate": 6.932373046875e-07,
+      "loss": 0.0028,
+      "reward": 1.6930432319641113,
+      "reward_std": 0.06635242141783237,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7008557617664337,
+      "step": 2513
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 242.890625,
+      "epoch": 1.22802734375,
+      "grad_norm": 1.4339804333793391,
+      "kl": 0.078857421875,
+      "learning_rate": 6.93115234375e-07,
+      "loss": 0.0032,
+      "reward": 1.764868676662445,
+      "reward_std": 0.05308605916798115,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7648686468601227,
+      "step": 2514
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 296.2734375,
+      "epoch": 1.228515625,
+      "grad_norm": 3.6539966716350767,
+      "kl": 0.076416015625,
+      "learning_rate": 6.929931640625e-07,
+      "loss": 0.0031,
+      "reward": 1.7111204266548157,
+      "reward_std": 0.04776516975834966,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7111203968524933,
+      "step": 2515
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 273.9296875,
+      "epoch": 1.22900390625,
+      "grad_norm": 1.3654858706509436,
+      "kl": 0.0810546875,
+      "learning_rate": 6.9287109375e-07,
+      "loss": 0.0032,
+      "reward": 1.8311191201210022,
+      "reward_std": 0.03589681722223759,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8311191201210022,
+      "step": 2516
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 345.109375,
+      "epoch": 1.2294921875,
+      "grad_norm": 1.5725270743331548,
+      "kl": 0.07763671875,
+      "learning_rate": 6.927490234374999e-07,
+      "loss": 0.0031,
+      "reward": 1.5551150441169739,
+      "reward_std": 0.0790153406560421,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.6019900143146515,
+      "step": 2517
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 306.3359375,
+      "epoch": 1.22998046875,
+      "grad_norm": 3.1962807812262266,
+      "kl": 0.0567626953125,
+      "learning_rate": 6.926269531249999e-07,
+      "loss": 0.0023,
+      "reward": 1.6948148608207703,
+      "reward_std": 0.059128282591700554,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.694814920425415,
+      "step": 2518
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 283.8828125,
+      "epoch": 1.23046875,
+      "grad_norm": 1.986553003861319,
+      "kl": 0.0697021484375,
+      "learning_rate": 6.925048828125e-07,
+      "loss": 0.0028,
+      "reward": 1.7517194151878357,
+      "reward_std": 0.04597326088696718,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7517193853855133,
+      "step": 2519
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 345.4921875,
+      "epoch": 1.23095703125,
+      "grad_norm": 1.7190974829655477,
+      "kl": 0.072509765625,
+      "learning_rate": 6.923828125e-07,
+      "loss": 0.0029,
+      "reward": 1.6288211941719055,
+      "reward_std": 0.025298184249550104,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6288211941719055,
+      "step": 2520
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 333.390625,
+      "epoch": 1.2314453125,
+      "grad_norm": 3.1290421341569092,
+      "kl": 0.079345703125,
+      "learning_rate": 6.922607421875e-07,
+      "loss": 0.0032,
+      "reward": 1.8155579566955566,
+      "reward_std": 0.10759843979030848,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.823370486497879,
+      "step": 2521
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 281.71875,
+      "epoch": 1.23193359375,
+      "grad_norm": 1.2667127723104277,
+      "kl": 0.071533203125,
+      "learning_rate": 6.92138671875e-07,
+      "loss": 0.0029,
+      "reward": 1.737762212753296,
+      "reward_std": 0.03363693691790104,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7377622127532959,
+      "step": 2522
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 249.4765625,
+      "epoch": 1.232421875,
+      "grad_norm": 3.050787985177319,
+      "kl": 0.07470703125,
+      "learning_rate": 6.920166015624999e-07,
+      "loss": 0.003,
+      "reward": 1.8481884598731995,
+      "reward_std": 0.06605091877281666,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8560009598731995,
+      "step": 2523
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 318.7421875,
+      "epoch": 1.23291015625,
+      "grad_norm": 2.338599161344737,
+      "kl": 0.065185546875,
+      "learning_rate": 6.918945312499999e-07,
+      "loss": 0.0026,
+      "reward": 1.784920573234558,
+      "reward_std": 0.06366929598152637,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7927330732345581,
+      "step": 2524
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 237.25,
+      "epoch": 1.2333984375,
+      "grad_norm": 5.581950906370106,
+      "kl": 0.0888671875,
+      "learning_rate": 6.917724609375e-07,
+      "loss": 0.0036,
+      "reward": 1.7415488362312317,
+      "reward_std": 0.04909018334001303,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7415488362312317,
+      "step": 2525
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 306.796875,
+      "epoch": 1.23388671875,
+      "grad_norm": 2.231397610748833,
+      "kl": 0.09130859375,
+      "learning_rate": 6.91650390625e-07,
+      "loss": 0.0037,
+      "reward": 1.8085330724716187,
+      "reward_std": 0.06506985053420067,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8163455426692963,
+      "step": 2526
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 217.4375,
+      "epoch": 1.234375,
+      "grad_norm": 1.557598316678241,
+      "kl": 0.0849609375,
+      "learning_rate": 6.915283203125e-07,
+      "loss": 0.0034,
+      "reward": 1.771598756313324,
+      "reward_std": 0.036864256486296654,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.771598756313324,
+      "step": 2527
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 226.5859375,
+      "epoch": 1.23486328125,
+      "grad_norm": 8.050764518205462,
+      "kl": 0.108642578125,
+      "learning_rate": 6.9140625e-07,
+      "loss": 0.0044,
+      "reward": 1.6949394345283508,
+      "reward_std": 0.11935023218393326,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6949394047260284,
+      "step": 2528
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 275.75,
+      "epoch": 1.2353515625,
+      "grad_norm": 3.577749415144858,
+      "kl": 0.072509765625,
+      "learning_rate": 6.912841796875e-07,
+      "loss": 0.0029,
+      "reward": 1.7945581078529358,
+      "reward_std": 0.026416001841425896,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7945581078529358,
+      "step": 2529
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 291.1171875,
+      "epoch": 1.23583984375,
+      "grad_norm": 1.882919193494393,
+      "kl": 0.097900390625,
+      "learning_rate": 6.911621093749999e-07,
+      "loss": 0.0039,
+      "reward": 1.7366108298301697,
+      "reward_std": 0.088971808552742,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7444233596324921,
+      "step": 2530
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 312.9921875,
+      "epoch": 1.236328125,
+      "grad_norm": 1.6856414658348984,
+      "kl": 0.072998046875,
+      "learning_rate": 6.910400390624999e-07,
+      "loss": 0.0029,
+      "reward": 1.7254244089126587,
+      "reward_std": 0.08224152028560638,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7332369983196259,
+      "step": 2531
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 260.0625,
+      "epoch": 1.23681640625,
+      "grad_norm": 2.340077383886054,
+      "kl": 0.075927734375,
+      "learning_rate": 6.9091796875e-07,
+      "loss": 0.003,
+      "reward": 1.8460680842399597,
+      "reward_std": 0.06705048866569996,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8460681140422821,
+      "step": 2532
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 272.0390625,
+      "epoch": 1.2373046875,
+      "grad_norm": 1.9943965668932906,
+      "kl": 0.110595703125,
+      "learning_rate": 6.907958984375e-07,
+      "loss": 0.0044,
+      "reward": 1.775262475013733,
+      "reward_std": 0.06797738745808601,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7752624750137329,
+      "step": 2533
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 309.0625,
+      "epoch": 1.23779296875,
+      "grad_norm": 2.2221758125368467,
+      "kl": 0.067626953125,
+      "learning_rate": 6.90673828125e-07,
+      "loss": 0.0027,
+      "reward": 1.8863377571105957,
+      "reward_std": 0.058480268344283104,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8863376975059509,
+      "step": 2534
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 359.5546875,
+      "epoch": 1.23828125,
+      "grad_norm": 2.2548699663415714,
+      "kl": 0.0633544921875,
+      "learning_rate": 6.905517578125e-07,
+      "loss": 0.0025,
+      "reward": 1.9195441007614136,
+      "reward_std": 0.04364974796772003,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.9195441007614136,
+      "step": 2535
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 295.171875,
+      "epoch": 1.23876953125,
+      "grad_norm": 4.280833973797064,
+      "kl": 0.0657958984375,
+      "learning_rate": 6.904296875e-07,
+      "loss": 0.0026,
+      "reward": 1.8286893963813782,
+      "reward_std": 0.1052445936948061,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8365019261837006,
+      "step": 2536
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 212.0390625,
+      "epoch": 1.2392578125,
+      "grad_norm": 1.0725990560276126,
+      "kl": 0.093505859375,
+      "learning_rate": 6.903076171874999e-07,
+      "loss": 0.0037,
+      "reward": 1.7462586760520935,
+      "reward_std": 0.01885821617906913,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7462586760520935,
+      "step": 2537
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 281.4296875,
+      "epoch": 1.23974609375,
+      "grad_norm": 0.5566830426478924,
+      "kl": 0.069580078125,
+      "learning_rate": 6.90185546875e-07,
+      "loss": 0.0028,
+      "reward": 1.7841619849205017,
+      "reward_std": 0.020260846242308617,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7841619849205017,
+      "step": 2538
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 389.453125,
+      "epoch": 1.240234375,
+      "grad_norm": 1.4564201896065856,
+      "kl": 0.055419921875,
+      "learning_rate": 6.900634765625e-07,
+      "loss": 0.0022,
+      "reward": 1.7457255721092224,
+      "reward_std": 0.10040692985057831,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7535381019115448,
+      "step": 2539
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 260.90625,
+      "epoch": 1.24072265625,
+      "grad_norm": 0.9193644485156054,
+      "kl": 0.07958984375,
+      "learning_rate": 6.8994140625e-07,
+      "loss": 0.0032,
+      "reward": 1.5869048237800598,
+      "reward_std": 0.060834175907075405,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6025297790765762,
+      "step": 2540
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 284.53125,
+      "epoch": 1.2412109375,
+      "grad_norm": 2.0003891138751797,
+      "kl": 0.0830078125,
+      "learning_rate": 6.898193359375e-07,
+      "loss": 0.0033,
+      "reward": 1.7775180339813232,
+      "reward_std": 0.09747044742107391,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7775180339813232,
+      "step": 2541
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 277.953125,
+      "epoch": 1.24169921875,
+      "grad_norm": 1.241308895200411,
+      "kl": 0.0694580078125,
+      "learning_rate": 6.89697265625e-07,
+      "loss": 0.0028,
+      "reward": 1.6753292679786682,
+      "reward_std": 0.07925521302968264,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6909542381763458,
+      "step": 2542
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 280.4375,
+      "epoch": 1.2421875,
+      "grad_norm": 7.373580663731735,
+      "kl": 0.083251953125,
+      "learning_rate": 6.895751953124999e-07,
+      "loss": 0.0033,
+      "reward": 1.7385675311088562,
+      "reward_std": 0.03642314299941063,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7385675311088562,
+      "step": 2543
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 303.8046875,
+      "epoch": 1.24267578125,
+      "grad_norm": 2.6589438244356502,
+      "kl": 0.078125,
+      "learning_rate": 6.894531249999999e-07,
+      "loss": 0.0031,
+      "reward": 1.6425248980522156,
+      "reward_std": 0.05202796123921871,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6425248980522156,
+      "step": 2544
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 256.640625,
+      "epoch": 1.2431640625,
+      "grad_norm": 1.7535877983308272,
+      "kl": 0.085205078125,
+      "learning_rate": 6.893310546875e-07,
+      "loss": 0.0034,
+      "reward": 1.7897852659225464,
+      "reward_std": 0.06561807543039322,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7897853255271912,
+      "step": 2545
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 267.546875,
+      "epoch": 1.24365234375,
+      "grad_norm": 1.1188283700852508,
+      "kl": 0.061767578125,
+      "learning_rate": 6.89208984375e-07,
+      "loss": 0.0025,
+      "reward": 1.8053843975067139,
+      "reward_std": 0.03231469355523586,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8053844273090363,
+      "step": 2546
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 317.90625,
+      "epoch": 1.244140625,
+      "grad_norm": 2.9696598961961973,
+      "kl": 0.0638427734375,
+      "learning_rate": 6.890869140625e-07,
+      "loss": 0.0026,
+      "reward": 1.629117488861084,
+      "reward_std": 0.0660979188978672,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6291175484657288,
+      "step": 2547
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 229.4375,
+      "epoch": 1.24462890625,
+      "grad_norm": 2.209328842454915,
+      "kl": 0.07373046875,
+      "learning_rate": 6.8896484375e-07,
+      "loss": 0.0029,
+      "reward": 1.7065168619155884,
+      "reward_std": 0.02056479558814317,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7065168619155884,
+      "step": 2548
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 236.4765625,
+      "epoch": 1.2451171875,
+      "grad_norm": 2.1506170169340852,
+      "kl": 0.0753173828125,
+      "learning_rate": 6.888427734375e-07,
+      "loss": 0.003,
+      "reward": 1.7226258516311646,
+      "reward_std": 0.06090010888874531,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7226258814334869,
+      "step": 2549
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 340.828125,
+      "epoch": 1.24560546875,
+      "grad_norm": 1.6867670137775563,
+      "kl": 0.0570068359375,
+      "learning_rate": 6.887207031249999e-07,
+      "loss": 0.0023,
+      "reward": 1.907860517501831,
+      "reward_std": 0.13618198037147522,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.9156731367111206,
+      "step": 2550
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 274.4296875,
+      "epoch": 1.24609375,
+      "grad_norm": 2.014025847589191,
+      "kl": 0.0748291015625,
+      "learning_rate": 6.885986328124999e-07,
+      "loss": 0.003,
+      "reward": 1.8035182356834412,
+      "reward_std": 0.10311203170567751,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8035181760787964,
+      "step": 2551
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 359.8671875,
+      "epoch": 1.24658203125,
+      "grad_norm": 2.460777748950473,
+      "kl": 0.065185546875,
+      "learning_rate": 6.884765625e-07,
+      "loss": 0.0026,
+      "reward": 1.7247642874717712,
+      "reward_std": 0.0778743838891387,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7325767874717712,
+      "step": 2552
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 290.859375,
+      "epoch": 1.2470703125,
+      "grad_norm": 2.066296664154434,
+      "kl": 0.0635986328125,
+      "learning_rate": 6.883544921875e-07,
+      "loss": 0.0025,
+      "reward": 1.8594765067100525,
+      "reward_std": 0.03086453676223755,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8594764471054077,
+      "step": 2553
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 288.734375,
+      "epoch": 1.24755859375,
+      "grad_norm": 1.129593989044106,
+      "kl": 0.072265625,
+      "learning_rate": 6.88232421875e-07,
+      "loss": 0.0029,
+      "reward": 1.8053827285766602,
+      "reward_std": 0.08634701371192932,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8053827881813049,
+      "step": 2554
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 297.9609375,
+      "epoch": 1.248046875,
+      "grad_norm": 2.1481848196997033,
+      "kl": 0.074462890625,
+      "learning_rate": 6.881103515625e-07,
+      "loss": 0.003,
+      "reward": 1.8480090498924255,
+      "reward_std": 0.052580492570996284,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8480090796947479,
+      "step": 2555
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 297.8359375,
+      "epoch": 1.24853515625,
+      "grad_norm": 1.3215526698458806,
+      "kl": 0.072265625,
+      "learning_rate": 6.879882812499999e-07,
+      "loss": 0.0029,
+      "reward": 1.7874248027801514,
+      "reward_std": 0.04134686943143606,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7874249219894409,
+      "step": 2556
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 326.796875,
+      "epoch": 1.2490234375,
+      "grad_norm": 7.161134007570032,
+      "kl": 0.076904296875,
+      "learning_rate": 6.878662109374999e-07,
+      "loss": 0.0031,
+      "reward": 1.7982208728790283,
+      "reward_std": 0.05789235234260559,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7982209324836731,
+      "step": 2557
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 352.59375,
+      "epoch": 1.24951171875,
+      "grad_norm": 1.5826957329843547,
+      "kl": 0.086181640625,
+      "learning_rate": 6.87744140625e-07,
+      "loss": 0.0034,
+      "reward": 1.724461555480957,
+      "reward_std": 0.05809208191931248,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7244615852832794,
+      "step": 2558
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 427.8984375,
+      "epoch": 1.25,
+      "grad_norm": 0.6970013528941209,
+      "kl": 0.0509033203125,
+      "learning_rate": 6.876220703125e-07,
+      "loss": 0.002,
+      "reward": 1.8204131126403809,
+      "reward_std": 0.08120441623032093,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8282255232334137,
+      "step": 2559
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 287.75,
+      "epoch": 1.25048828125,
+      "grad_norm": 0.9949031525763067,
+      "kl": 0.080810546875,
+      "learning_rate": 6.875e-07,
+      "loss": 0.0032,
+      "reward": 1.85645192861557,
+      "reward_std": 0.05746803432703018,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8564519584178925,
+      "step": 2560
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 338.1640625,
+      "epoch": 1.2509765625,
+      "grad_norm": 1.5878015011305773,
+      "kl": 0.0599365234375,
+      "learning_rate": 6.873779296875e-07,
+      "loss": 0.0024,
+      "reward": 1.7821994423866272,
+      "reward_std": 0.09675415605306625,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.790012001991272,
+      "step": 2561
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 302.453125,
+      "epoch": 1.25146484375,
+      "grad_norm": 2.5951982218621885,
+      "kl": 0.092041015625,
+      "learning_rate": 6.87255859375e-07,
+      "loss": 0.0037,
+      "reward": 1.6413246393203735,
+      "reward_std": 0.07367514073848724,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6413246095180511,
+      "step": 2562
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 299.953125,
+      "epoch": 1.251953125,
+      "grad_norm": 2.1313560894780688,
+      "kl": 0.06494140625,
+      "learning_rate": 6.871337890624999e-07,
+      "loss": 0.0026,
+      "reward": 1.9887361526489258,
+      "reward_std": 0.059286823496222496,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.9887359738349915,
+      "step": 2563
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 264.2890625,
+      "epoch": 1.25244140625,
+      "grad_norm": 0.9087564610351305,
+      "kl": 0.071044921875,
+      "learning_rate": 6.870117187499999e-07,
+      "loss": 0.0028,
+      "reward": 1.880197525024414,
+      "reward_std": 0.05455988273024559,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8801974654197693,
+      "step": 2564
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 241.7890625,
+      "epoch": 1.2529296875,
+      "grad_norm": 2.3160382343134533,
+      "kl": 0.097412109375,
+      "learning_rate": 6.868896484375e-07,
+      "loss": 0.0039,
+      "reward": 1.6566903591156006,
+      "reward_std": 0.09503332898020744,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6566903293132782,
+      "step": 2565
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 253.0,
+      "epoch": 1.25341796875,
+      "grad_norm": 2.2293864959901772,
+      "kl": 0.06982421875,
+      "learning_rate": 6.86767578125e-07,
+      "loss": 0.0028,
+      "reward": 1.8191727995872498,
+      "reward_std": 0.07018731534481049,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8191727995872498,
+      "step": 2566
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 237.0078125,
+      "epoch": 1.25390625,
+      "grad_norm": 3.352890296035172,
+      "kl": 0.076904296875,
+      "learning_rate": 6.866455078125e-07,
+      "loss": 0.0031,
+      "reward": 1.7632625102996826,
+      "reward_std": 0.052378684282302856,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7632625102996826,
+      "step": 2567
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 225.3125,
+      "epoch": 1.25439453125,
+      "grad_norm": 3.1814122296646916,
+      "kl": 0.0689697265625,
+      "learning_rate": 6.865234375e-07,
+      "loss": 0.0028,
+      "reward": 1.743474543094635,
+      "reward_std": 0.059906596317887306,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7434745132923126,
+      "step": 2568
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 277.859375,
+      "epoch": 1.2548828125,
+      "grad_norm": 1.2044355795614614,
+      "kl": 0.0648193359375,
+      "learning_rate": 6.864013671874999e-07,
+      "loss": 0.0026,
+      "reward": 1.7757219076156616,
+      "reward_std": 0.05339077487587929,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7757218182086945,
+      "step": 2569
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 318.734375,
+      "epoch": 1.25537109375,
+      "grad_norm": 1.50396583424587,
+      "kl": 0.0584716796875,
+      "learning_rate": 6.862792968749999e-07,
+      "loss": 0.0023,
+      "reward": 1.8511592745780945,
+      "reward_std": 0.06993940658867359,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8511592745780945,
+      "step": 2570
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 217.3203125,
+      "epoch": 1.255859375,
+      "grad_norm": 7.325974862571428,
+      "kl": 0.080078125,
+      "learning_rate": 6.861572265625e-07,
+      "loss": 0.0032,
+      "reward": 1.8245378136634827,
+      "reward_std": 0.05453048273921013,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8245378732681274,
+      "step": 2571
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 289.875,
+      "epoch": 1.25634765625,
+      "grad_norm": 2.5748832751879034,
+      "kl": 0.073486328125,
+      "learning_rate": 6.8603515625e-07,
+      "loss": 0.0029,
+      "reward": 1.7536067962646484,
+      "reward_std": 0.07038977555930614,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7536068260669708,
+      "step": 2572
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 332.296875,
+      "epoch": 1.2568359375,
+      "grad_norm": 2.2116366377933505,
+      "kl": 0.05859375,
+      "learning_rate": 6.859130859375e-07,
+      "loss": 0.0023,
+      "reward": 1.7995004653930664,
+      "reward_std": 0.09891559928655624,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8073129653930664,
+      "step": 2573
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 288.78125,
+      "epoch": 1.25732421875,
+      "grad_norm": 1.123092523187175,
+      "kl": 0.06787109375,
+      "learning_rate": 6.85791015625e-07,
+      "loss": 0.0027,
+      "reward": 1.8330579996109009,
+      "reward_std": 0.045371233485639095,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8330580592155457,
+      "step": 2574
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 286.2734375,
+      "epoch": 1.2578125,
+      "grad_norm": 2.1695911445553513,
+      "kl": 0.06787109375,
+      "learning_rate": 6.856689453125e-07,
+      "loss": 0.0027,
+      "reward": 1.8154324889183044,
+      "reward_std": 0.04039592668414116,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8154324889183044,
+      "step": 2575
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 337.015625,
+      "epoch": 1.25830078125,
+      "grad_norm": 1.1977765178723714,
+      "kl": 0.0513916015625,
+      "learning_rate": 6.855468749999999e-07,
+      "loss": 0.0021,
+      "reward": 1.7662554383277893,
+      "reward_std": 0.008739282377064228,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7662554383277893,
+      "step": 2576
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 320.625,
+      "epoch": 1.2587890625,
+      "grad_norm": 2.582999038354569,
+      "kl": 0.05078125,
+      "learning_rate": 6.854248046874999e-07,
+      "loss": 0.002,
+      "reward": 1.8732368350028992,
+      "reward_std": 0.13687162101268768,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8810493648052216,
+      "step": 2577
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 346.1875,
+      "epoch": 1.25927734375,
+      "grad_norm": 3.2603077110393186,
+      "kl": 0.07080078125,
+      "learning_rate": 6.85302734375e-07,
+      "loss": 0.0028,
+      "reward": 1.744448721408844,
+      "reward_std": 0.07884471863508224,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7444487512111664,
+      "step": 2578
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 268.2734375,
+      "epoch": 1.259765625,
+      "grad_norm": 1.5072963778520792,
+      "kl": 0.072265625,
+      "learning_rate": 6.851806640625e-07,
+      "loss": 0.0029,
+      "reward": 1.8110605478286743,
+      "reward_std": 0.0798899196088314,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8110604882240295,
+      "step": 2579
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 254.109375,
+      "epoch": 1.26025390625,
+      "grad_norm": 6.052899624466231,
+      "kl": 0.1295166015625,
+      "learning_rate": 6.8505859375e-07,
+      "loss": 0.0052,
+      "reward": 1.855854094028473,
+      "reward_std": 0.03883726242929697,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8558541238307953,
+      "step": 2580
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 229.171875,
+      "epoch": 1.2607421875,
+      "grad_norm": 2.2670697938409052,
+      "kl": 0.0751953125,
+      "learning_rate": 6.849365234375e-07,
+      "loss": 0.003,
+      "reward": 1.5954683423042297,
+      "reward_std": 0.01611372921615839,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.5954683721065521,
+      "step": 2581
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 307.5234375,
+      "epoch": 1.26123046875,
+      "grad_norm": 9.369240905527494,
+      "kl": 0.06787109375,
+      "learning_rate": 6.848144531249999e-07,
+      "loss": 0.0027,
+      "reward": 1.7278264164924622,
+      "reward_std": 0.05693458020687103,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7278264462947845,
+      "step": 2582
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 267.953125,
+      "epoch": 1.26171875,
+      "grad_norm": 1.2283989647554525,
+      "kl": 0.0574951171875,
+      "learning_rate": 6.846923828124999e-07,
+      "loss": 0.0023,
+      "reward": 1.7502474188804626,
+      "reward_std": 0.026749521493911743,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.750247448682785,
+      "step": 2583
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 298.6875,
+      "epoch": 1.26220703125,
+      "grad_norm": 1.2610728333774404,
+      "kl": 0.06201171875,
+      "learning_rate": 6.845703125e-07,
+      "loss": 0.0025,
+      "reward": 1.7522244453430176,
+      "reward_std": 0.09181947819888592,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7522244453430176,
+      "step": 2584
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 307.3828125,
+      "epoch": 1.2626953125,
+      "grad_norm": 2.414972278703281,
+      "kl": 0.06396484375,
+      "learning_rate": 6.844482421875e-07,
+      "loss": 0.0026,
+      "reward": 1.737687885761261,
+      "reward_std": 0.07903081178665161,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.737687885761261,
+      "step": 2585
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 272.75,
+      "epoch": 1.26318359375,
+      "grad_norm": 1.7270948683315666,
+      "kl": 0.04931640625,
+      "learning_rate": 6.84326171875e-07,
+      "loss": 0.002,
+      "reward": 1.781536877155304,
+      "reward_std": 0.0434822803363204,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7815368473529816,
+      "step": 2586
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 356.40625,
+      "epoch": 1.263671875,
+      "grad_norm": 1.3949112846676868,
+      "kl": 0.0535888671875,
+      "learning_rate": 6.842041015625e-07,
+      "loss": 0.0021,
+      "reward": 1.8454834818840027,
+      "reward_std": 0.05372583121061325,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8454834818840027,
+      "step": 2587
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 261.84375,
+      "epoch": 1.26416015625,
+      "grad_norm": 1.4368123149876182,
+      "kl": 0.0692138671875,
+      "learning_rate": 6.8408203125e-07,
+      "loss": 0.0028,
+      "reward": 1.6451177597045898,
+      "reward_std": 0.07861702609807253,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.6763677000999451,
+      "step": 2588
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 269.125,
+      "epoch": 1.2646484375,
+      "grad_norm": 2.8027515559043823,
+      "kl": 0.068603515625,
+      "learning_rate": 6.839599609374999e-07,
+      "loss": 0.0027,
+      "reward": 1.863362193107605,
+      "reward_std": 0.08033762127161026,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.871174693107605,
+      "step": 2589
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 303.65625,
+      "epoch": 1.26513671875,
+      "grad_norm": 1.3661088668145678,
+      "kl": 0.071533203125,
+      "learning_rate": 6.838378906249999e-07,
+      "loss": 0.0029,
+      "reward": 1.7393322587013245,
+      "reward_std": 0.052713219076395035,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7393322587013245,
+      "step": 2590
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 285.53125,
+      "epoch": 1.265625,
+      "grad_norm": 1.1496627965247463,
+      "kl": 0.05908203125,
+      "learning_rate": 6.837158203125e-07,
+      "loss": 0.0024,
+      "reward": 1.831416666507721,
+      "reward_std": 0.06289010029286146,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8314166367053986,
+      "step": 2591
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 313.3359375,
+      "epoch": 1.26611328125,
+      "grad_norm": 1.1102501988463187,
+      "kl": 0.0625,
+      "learning_rate": 6.8359375e-07,
+      "loss": 0.0025,
+      "reward": 1.9127737879753113,
+      "reward_std": 0.09909685142338276,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.9362112879753113,
+      "step": 2592
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 266.5703125,
+      "epoch": 1.2666015625,
+      "grad_norm": 2.558242186997854,
+      "kl": 0.07080078125,
+      "learning_rate": 6.834716796875e-07,
+      "loss": 0.0028,
+      "reward": 1.7129462957382202,
+      "reward_std": 0.2064364030957222,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.752008855342865,
+      "step": 2593
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 266.2421875,
+      "epoch": 1.26708984375,
+      "grad_norm": 1.4121290555246413,
+      "kl": 0.06591796875,
+      "learning_rate": 6.83349609375e-07,
+      "loss": 0.0026,
+      "reward": 1.721196711063385,
+      "reward_std": 0.045722841285169125,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7211967408657074,
+      "step": 2594
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 275.6640625,
+      "epoch": 1.267578125,
+      "grad_norm": 8.542422233364945,
+      "kl": 0.0450439453125,
+      "learning_rate": 6.832275390624999e-07,
+      "loss": 0.0018,
+      "reward": 1.845105767250061,
+      "reward_std": 0.04223616607487202,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8451057970523834,
+      "step": 2595
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 335.65625,
+      "epoch": 1.26806640625,
+      "grad_norm": 2.172156191986647,
+      "kl": 0.05712890625,
+      "learning_rate": 6.831054687499999e-07,
+      "loss": 0.0023,
+      "reward": 1.7219505906105042,
+      "reward_std": 0.05229894071817398,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7219505310058594,
+      "step": 2596
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 312.2109375,
+      "epoch": 1.2685546875,
+      "grad_norm": 4.512629289400748,
+      "kl": 0.07275390625,
+      "learning_rate": 6.829833984375e-07,
+      "loss": 0.0029,
+      "reward": 1.775171935558319,
+      "reward_std": 0.11626030504703522,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7751719057559967,
+      "step": 2597
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 236.8828125,
+      "epoch": 1.26904296875,
+      "grad_norm": 19.436272087132117,
+      "kl": 0.0650634765625,
+      "learning_rate": 6.82861328125e-07,
+      "loss": 0.0026,
+      "reward": 1.8984931111335754,
+      "reward_std": 0.047796593979001045,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8984931111335754,
+      "step": 2598
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 203.1796875,
+      "epoch": 1.26953125,
+      "grad_norm": 0.8005281955093715,
+      "kl": 0.0565185546875,
+      "learning_rate": 6.827392578125e-07,
+      "loss": 0.0023,
+      "reward": 1.9395660758018494,
+      "reward_std": 0.015174323692917824,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.9395660758018494,
+      "step": 2599
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 294.0546875,
+      "epoch": 1.27001953125,
+      "grad_norm": 1.7873236969539745,
+      "kl": 0.0601806640625,
+      "learning_rate": 6.826171875e-07,
+      "loss": 0.0024,
+      "reward": 1.729775309562683,
+      "reward_std": 0.11483496427536011,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.7610252797603607,
+      "step": 2600
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 312.34375,
+      "epoch": 1.2705078125,
+      "grad_norm": 1.5860494003883214,
+      "kl": 0.0635986328125,
+      "learning_rate": 6.824951171875e-07,
+      "loss": 0.0025,
+      "reward": 1.619213342666626,
+      "reward_std": 0.13867055252194405,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.6504633724689484,
+      "step": 2601
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 234.5625,
+      "epoch": 1.27099609375,
+      "grad_norm": 1.8263568249389657,
+      "kl": 0.0648193359375,
+      "learning_rate": 6.823730468749999e-07,
+      "loss": 0.0026,
+      "reward": 1.7087448835372925,
+      "reward_std": 0.059230593498796225,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7165573537349701,
+      "step": 2602
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 294.953125,
+      "epoch": 1.271484375,
+      "grad_norm": 2.021543206871508,
+      "kl": 0.081298828125,
+      "learning_rate": 6.822509765624999e-07,
+      "loss": 0.0033,
+      "reward": 1.6043951511383057,
+      "reward_std": 0.11108111217617989,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.6278325915336609,
+      "step": 2603
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 278.984375,
+      "epoch": 1.27197265625,
+      "grad_norm": 3.424869485308043,
+      "kl": 0.072998046875,
+      "learning_rate": 6.8212890625e-07,
+      "loss": 0.0029,
+      "reward": 1.9290322065353394,
+      "reward_std": 0.13008323311805725,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.936844676733017,
+      "step": 2604
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 275.2734375,
+      "epoch": 1.2724609375,
+      "grad_norm": 0.8833183790651663,
+      "kl": 0.0531005859375,
+      "learning_rate": 6.820068359375e-07,
+      "loss": 0.0021,
+      "reward": 1.8816287517547607,
+      "reward_std": 0.05253131175413728,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8894413113594055,
+      "step": 2605
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 407.9609375,
+      "epoch": 1.27294921875,
+      "grad_norm": 1.57460282033083,
+      "kl": 0.0523681640625,
+      "learning_rate": 6.81884765625e-07,
+      "loss": 0.0021,
+      "reward": 1.7124788165092468,
+      "reward_std": 0.07889316231012344,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7202913463115692,
+      "step": 2606
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 215.6875,
+      "epoch": 1.2734375,
+      "grad_norm": 2.311076319577126,
+      "kl": 0.060546875,
+      "learning_rate": 6.817626953125e-07,
+      "loss": 0.0024,
+      "reward": 1.8965556025505066,
+      "reward_std": 0.060334792360663414,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8965555429458618,
+      "step": 2607
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 388.203125,
+      "epoch": 1.27392578125,
+      "grad_norm": 2.312918341316606,
+      "kl": 0.0556640625,
+      "learning_rate": 6.816406249999999e-07,
+      "loss": 0.0022,
+      "reward": 1.6706057786941528,
+      "reward_std": 0.15810733288526535,
+      "rewards/format_reward": 0.9375,
+      "rewards/ocr_reward": 0.7331057786941528,
+      "step": 2608
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 275.6328125,
+      "epoch": 1.2744140625,
+      "grad_norm": 8.087988058753458,
+      "kl": 0.05908203125,
+      "learning_rate": 6.815185546874999e-07,
+      "loss": 0.0024,
+      "reward": 1.8144915699958801,
+      "reward_std": 0.04744442366063595,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8144915997982025,
+      "step": 2609
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 326.875,
+      "epoch": 1.27490234375,
+      "grad_norm": 0.5706401219102212,
+      "kl": 0.0506591796875,
+      "learning_rate": 6.81396484375e-07,
+      "loss": 0.002,
+      "reward": 1.7547515630722046,
+      "reward_std": 0.018506707157939672,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7547515630722046,
+      "step": 2610
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 277.4609375,
+      "epoch": 1.275390625,
+      "grad_norm": 12.49022768844792,
+      "kl": 0.059326171875,
+      "learning_rate": 6.812744140625e-07,
+      "loss": 0.0024,
+      "reward": 1.794619619846344,
+      "reward_std": 0.06346526741981506,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.794619619846344,
+      "step": 2611
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 220.828125,
+      "epoch": 1.27587890625,
+      "grad_norm": 1.0850062950816326,
+      "kl": 0.07958984375,
+      "learning_rate": 6.8115234375e-07,
+      "loss": 0.0032,
+      "reward": 1.7299774289131165,
+      "reward_std": 0.03509983792901039,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7299774289131165,
+      "step": 2612
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 226.71875,
+      "epoch": 1.2763671875,
+      "grad_norm": 1.080187026255585,
+      "kl": 0.0640869140625,
+      "learning_rate": 6.810302734375e-07,
+      "loss": 0.0026,
+      "reward": 1.8587305545806885,
+      "reward_std": 0.07435241714119911,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8587304651737213,
+      "step": 2613
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 253.125,
+      "epoch": 1.27685546875,
+      "grad_norm": 1.1601920921582176,
+      "kl": 0.060546875,
+      "learning_rate": 6.80908203125e-07,
+      "loss": 0.0024,
+      "reward": 1.8313266038894653,
+      "reward_std": 0.018857479095458984,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8313265740871429,
+      "step": 2614
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 293.34375,
+      "epoch": 1.27734375,
+      "grad_norm": 2.85155532714431,
+      "kl": 0.0675048828125,
+      "learning_rate": 6.807861328124999e-07,
+      "loss": 0.0027,
+      "reward": 1.8055160641670227,
+      "reward_std": 0.046973712742328644,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8055160045623779,
+      "step": 2615
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 282.84375,
+      "epoch": 1.27783203125,
+      "grad_norm": 4.513029644722789,
+      "kl": 0.0791015625,
+      "learning_rate": 6.806640624999999e-07,
+      "loss": 0.0032,
+      "reward": 1.7537464499473572,
+      "reward_std": 0.11804336681962013,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7615589499473572,
+      "step": 2616
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 309.4609375,
+      "epoch": 1.2783203125,
+      "grad_norm": 3.8194841411583798,
+      "kl": 0.053466796875,
+      "learning_rate": 6.805419921875e-07,
+      "loss": 0.0021,
+      "reward": 1.677466869354248,
+      "reward_std": 0.056195804849267006,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6774668991565704,
+      "step": 2617
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 286.2265625,
+      "epoch": 1.27880859375,
+      "grad_norm": 6.474962292439623,
+      "kl": 0.0562744140625,
+      "learning_rate": 6.80419921875e-07,
+      "loss": 0.0023,
+      "reward": 1.8547720909118652,
+      "reward_std": 0.025560058653354645,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8547720909118652,
+      "step": 2618
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 310.46875,
+      "epoch": 1.279296875,
+      "grad_norm": 1.4597995925565477,
+      "kl": 0.0693359375,
+      "learning_rate": 6.802978515625e-07,
+      "loss": 0.0028,
+      "reward": 1.6823553442955017,
+      "reward_std": 0.1308056991547346,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.7136052846908569,
+      "step": 2619
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 261.5078125,
+      "epoch": 1.27978515625,
+      "grad_norm": 0.6324777562183502,
+      "kl": 0.052978515625,
+      "learning_rate": 6.8017578125e-07,
+      "loss": 0.0021,
+      "reward": 1.6706210374832153,
+      "reward_std": 0.05375996232032776,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6706210076808929,
+      "step": 2620
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 297.0078125,
+      "epoch": 1.2802734375,
+      "grad_norm": 1.2610636513041573,
+      "kl": 0.0584716796875,
+      "learning_rate": 6.800537109374999e-07,
+      "loss": 0.0023,
+      "reward": 1.7311273217201233,
+      "reward_std": 0.192430280148983,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7545647621154785,
+      "step": 2621
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 193.671875,
+      "epoch": 1.28076171875,
+      "grad_norm": 1.678965103507942,
+      "kl": 0.068603515625,
+      "learning_rate": 6.799316406249999e-07,
+      "loss": 0.0027,
+      "reward": 1.7555344700813293,
+      "reward_std": 0.048562128096818924,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7555344700813293,
+      "step": 2622
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 269.1875,
+      "epoch": 1.28125,
+      "grad_norm": 1.4249689682498725,
+      "kl": 0.0643310546875,
+      "learning_rate": 6.798095703125e-07,
+      "loss": 0.0026,
+      "reward": 1.7415629029273987,
+      "reward_std": 0.07066285982728004,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7415629029273987,
+      "step": 2623
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 287.1640625,
+      "epoch": 1.28173828125,
+      "grad_norm": 1.3604919034116547,
+      "kl": 0.0662841796875,
+      "learning_rate": 6.796875e-07,
+      "loss": 0.0027,
+      "reward": 1.841383457183838,
+      "reward_std": 0.037516459822654724,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8413834273815155,
+      "step": 2624
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 274.109375,
+      "epoch": 1.2822265625,
+      "grad_norm": 1.0918554991669291,
+      "kl": 0.0423583984375,
+      "learning_rate": 6.795654296875e-07,
+      "loss": 0.0017,
+      "reward": 1.810799479484558,
+      "reward_std": 0.05421273224055767,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8107994794845581,
+      "step": 2625
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 241.109375,
+      "epoch": 1.28271484375,
+      "grad_norm": 0.9904225454583597,
+      "kl": 0.06640625,
+      "learning_rate": 6.79443359375e-07,
+      "loss": 0.0027,
+      "reward": 1.7526730298995972,
+      "reward_std": 0.03807441703975201,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7526730000972748,
+      "step": 2626
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 342.765625,
+      "epoch": 1.283203125,
+      "grad_norm": 1.7982981484887894,
+      "kl": 0.104248046875,
+      "learning_rate": 6.793212890625e-07,
+      "loss": 0.0042,
+      "reward": 1.5381957292556763,
+      "reward_std": 0.23323528468608856,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.5850707292556763,
+      "step": 2627
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 327.453125,
+      "epoch": 1.28369140625,
+      "grad_norm": 1.550548686839029,
+      "kl": 0.085693359375,
+      "learning_rate": 6.791992187499999e-07,
+      "loss": 0.0034,
+      "reward": 1.7918881177902222,
+      "reward_std": 0.10955053754150867,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7997006177902222,
+      "step": 2628
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 297.5625,
+      "epoch": 1.2841796875,
+      "grad_norm": 1.6403304793757816,
+      "kl": 0.0595703125,
+      "learning_rate": 6.790771484374999e-07,
+      "loss": 0.0024,
+      "reward": 1.7768383026123047,
+      "reward_std": 0.0630792174488306,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7768383026123047,
+      "step": 2629
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 299.09375,
+      "epoch": 1.28466796875,
+      "grad_norm": 2.733466306796843,
+      "kl": 0.063232421875,
+      "learning_rate": 6.78955078125e-07,
+      "loss": 0.0025,
+      "reward": 1.7490355968475342,
+      "reward_std": 0.09908445179462433,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7568481266498566,
+      "step": 2630
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 295.4609375,
+      "epoch": 1.28515625,
+      "grad_norm": 0.5505330642135668,
+      "kl": 0.05712890625,
+      "learning_rate": 6.788330078125e-07,
+      "loss": 0.0023,
+      "reward": 1.785165786743164,
+      "reward_std": 0.05979756236774847,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.8007907271385193,
+      "step": 2631
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 249.1640625,
+      "epoch": 1.28564453125,
+      "grad_norm": 2.009225132396737,
+      "kl": 0.075927734375,
+      "learning_rate": 6.787109375e-07,
+      "loss": 0.003,
+      "reward": 1.7671828269958496,
+      "reward_std": 0.06479834392666817,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7671828269958496,
+      "step": 2632
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 270.125,
+      "epoch": 1.2861328125,
+      "grad_norm": 1.7136252258972942,
+      "kl": 0.0494384765625,
+      "learning_rate": 6.785888671875e-07,
+      "loss": 0.002,
+      "reward": 1.8264079093933105,
+      "reward_std": 0.017682873643934727,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8264078795909882,
+      "step": 2633
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 268.1640625,
+      "epoch": 1.28662109375,
+      "grad_norm": 3.778508106643716,
+      "kl": 0.0667724609375,
+      "learning_rate": 6.78466796875e-07,
+      "loss": 0.0027,
+      "reward": 1.8192695379257202,
+      "reward_std": 0.055723583325743675,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.819269597530365,
+      "step": 2634
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 276.5625,
+      "epoch": 1.287109375,
+      "grad_norm": 2.0871013161582908,
+      "kl": 0.068603515625,
+      "learning_rate": 6.783447265624999e-07,
+      "loss": 0.0027,
+      "reward": 1.8692251443862915,
+      "reward_std": 0.03455257322639227,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8770376443862915,
+      "step": 2635
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 341.796875,
+      "epoch": 1.28759765625,
+      "grad_norm": 1.9442360354470494,
+      "kl": 0.0665283203125,
+      "learning_rate": 6.7822265625e-07,
+      "loss": 0.0027,
+      "reward": 1.8144180178642273,
+      "reward_std": 0.060984525829553604,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8144180476665497,
+      "step": 2636
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 318.0390625,
+      "epoch": 1.2880859375,
+      "grad_norm": 1.0365066351162422,
+      "kl": 0.0621337890625,
+      "learning_rate": 6.781005859375e-07,
+      "loss": 0.0025,
+      "reward": 1.7693456411361694,
+      "reward_std": 0.0630057118833065,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7693456411361694,
+      "step": 2637
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 322.7578125,
+      "epoch": 1.28857421875,
+      "grad_norm": 2.8683486825278046,
+      "kl": 0.056396484375,
+      "learning_rate": 6.77978515625e-07,
+      "loss": 0.0023,
+      "reward": 1.7881279587745667,
+      "reward_std": 0.058837566524744034,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7881280183792114,
+      "step": 2638
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 399.2734375,
+      "epoch": 1.2890625,
+      "grad_norm": 6.264612314146436,
+      "kl": 0.060302734375,
+      "learning_rate": 6.778564453125e-07,
+      "loss": 0.0024,
+      "reward": 1.6483284831047058,
+      "reward_std": 0.13759692385792732,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.663953423500061,
+      "step": 2639
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 299.234375,
+      "epoch": 1.28955078125,
+      "grad_norm": 1.5759987187071773,
+      "kl": 0.05615234375,
+      "learning_rate": 6.77734375e-07,
+      "loss": 0.0022,
+      "reward": 1.8786953687667847,
+      "reward_std": 0.024645724333822727,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8786953389644623,
+      "step": 2640
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 299.6328125,
+      "epoch": 1.2900390625,
+      "grad_norm": 2.6015249930837347,
+      "kl": 0.088134765625,
+      "learning_rate": 6.776123046874999e-07,
+      "loss": 0.0035,
+      "reward": 1.656754493713379,
+      "reward_std": 0.07588385604321957,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6567544937133789,
+      "step": 2641
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 249.875,
+      "epoch": 1.29052734375,
+      "grad_norm": 1.3132376713397804,
+      "kl": 0.0791015625,
+      "learning_rate": 6.774902343749999e-07,
+      "loss": 0.0032,
+      "reward": 1.7957526445388794,
+      "reward_std": 0.04471752420067787,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.795752614736557,
+      "step": 2642
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 332.828125,
+      "epoch": 1.291015625,
+      "grad_norm": 3.2946009869851753,
+      "kl": 0.0601806640625,
+      "learning_rate": 6.773681640625e-07,
+      "loss": 0.0024,
+      "reward": 1.650659203529358,
+      "reward_std": 0.1262562870979309,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.6897217035293579,
+      "step": 2643
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 305.078125,
+      "epoch": 1.29150390625,
+      "grad_norm": 3.1092957108787003,
+      "kl": 0.0665283203125,
+      "learning_rate": 6.7724609375e-07,
+      "loss": 0.0027,
+      "reward": 1.7754952907562256,
+      "reward_std": 0.11444034799933434,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7989327907562256,
+      "step": 2644
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 277.40625,
+      "epoch": 1.2919921875,
+      "grad_norm": 12.661664724175285,
+      "kl": 0.077392578125,
+      "learning_rate": 6.771240234375e-07,
+      "loss": 0.0031,
+      "reward": 1.6563068628311157,
+      "reward_std": 0.10409623384475708,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6563068330287933,
+      "step": 2645
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 381.8671875,
+      "epoch": 1.29248046875,
+      "grad_norm": 0.6055988273645182,
+      "kl": 0.05224609375,
+      "learning_rate": 6.77001953125e-07,
+      "loss": 0.0021,
+      "reward": 1.7593251466751099,
+      "reward_std": 0.026515904814004898,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7593251466751099,
+      "step": 2646
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 368.5625,
+      "epoch": 1.29296875,
+      "grad_norm": 2.019699875883687,
+      "kl": 0.06591796875,
+      "learning_rate": 6.768798828125e-07,
+      "loss": 0.0026,
+      "reward": 1.6537410616874695,
+      "reward_std": 0.19559639692306519,
+      "rewards/format_reward": 0.9375,
+      "rewards/ocr_reward": 0.7162410914897919,
+      "step": 2647
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 278.78125,
+      "epoch": 1.29345703125,
+      "grad_norm": 3.7763404898754587,
+      "kl": 0.068603515625,
+      "learning_rate": 6.767578124999999e-07,
+      "loss": 0.0027,
+      "reward": 1.827435851097107,
+      "reward_std": 0.044061899185180664,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8274357616901398,
+      "step": 2648
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 330.453125,
+      "epoch": 1.2939453125,
+      "grad_norm": 2.8015440153661784,
+      "kl": 0.065185546875,
+      "learning_rate": 6.766357421874999e-07,
+      "loss": 0.0026,
+      "reward": 1.6706737279891968,
+      "reward_std": 0.18939045071601868,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.7175487279891968,
+      "step": 2649
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 295.1484375,
+      "epoch": 1.29443359375,
+      "grad_norm": 1.9989463705585409,
+      "kl": 0.078125,
+      "learning_rate": 6.76513671875e-07,
+      "loss": 0.0031,
+      "reward": 1.7752625942230225,
+      "reward_std": 0.06523648090660572,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7752625942230225,
+      "step": 2650
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 298.7578125,
+      "epoch": 1.294921875,
+      "grad_norm": 5.2627762529444055,
+      "kl": 0.0523681640625,
+      "learning_rate": 6.763916015625e-07,
+      "loss": 0.0021,
+      "reward": 1.7596194744110107,
+      "reward_std": 0.05819558724761009,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7596194744110107,
+      "step": 2651
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 385.1875,
+      "epoch": 1.29541015625,
+      "grad_norm": 1.193829150298933,
+      "kl": 0.054443359375,
+      "learning_rate": 6.7626953125e-07,
+      "loss": 0.0022,
+      "reward": 1.7631536722183228,
+      "reward_std": 0.11396730691194534,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.8022161424160004,
+      "step": 2652
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 410.75,
+      "epoch": 1.2958984375,
+      "grad_norm": 4.511945830839449,
+      "kl": 0.0693359375,
+      "learning_rate": 6.761474609375e-07,
+      "loss": 0.0028,
+      "reward": 1.6372665762901306,
+      "reward_std": 0.12859837338328362,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.6763290762901306,
+      "step": 2653
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 297.015625,
+      "epoch": 1.29638671875,
+      "grad_norm": 7.337066580487183,
+      "kl": 0.088134765625,
+      "learning_rate": 6.760253906249999e-07,
+      "loss": 0.0035,
+      "reward": 1.770021915435791,
+      "reward_std": 0.0901176705956459,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.770021915435791,
+      "step": 2654
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 334.65625,
+      "epoch": 1.296875,
+      "grad_norm": 1.7138139340851553,
+      "kl": 0.054443359375,
+      "learning_rate": 6.759033203124999e-07,
+      "loss": 0.0022,
+      "reward": 1.6479786038398743,
+      "reward_std": 0.055697097443044186,
+      "rewards/format_reward": 0.9453125,
+      "rewards/ocr_reward": 0.7026660740375519,
+      "step": 2655
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 350.328125,
+      "epoch": 1.29736328125,
+      "grad_norm": 1.157243381436146,
+      "kl": 0.067138671875,
+      "learning_rate": 6.7578125e-07,
+      "loss": 0.0027,
+      "reward": 1.7617986798286438,
+      "reward_std": 0.12362072244286537,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.8008612096309662,
+      "step": 2656
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 302.4140625,
+      "epoch": 1.2978515625,
+      "grad_norm": 12.730576035610571,
+      "kl": 0.070556640625,
+      "learning_rate": 6.756591796875e-07,
+      "loss": 0.0028,
+      "reward": 1.6338982582092285,
+      "reward_std": 0.0442785257473588,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6338982731103897,
+      "step": 2657
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 270.1015625,
+      "epoch": 1.29833984375,
+      "grad_norm": 1.0874774416423236,
+      "kl": 0.06689453125,
+      "learning_rate": 6.75537109375e-07,
+      "loss": 0.0027,
+      "reward": 1.7247290015220642,
+      "reward_std": 0.06158460769802332,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7247289717197418,
+      "step": 2658
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 276.2109375,
+      "epoch": 1.298828125,
+      "grad_norm": 1.0818257630262431,
+      "kl": 0.0645751953125,
+      "learning_rate": 6.754150390625e-07,
+      "loss": 0.0026,
+      "reward": 1.8425450325012207,
+      "reward_std": 0.10945501737296581,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8503575325012207,
+      "step": 2659
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 284.0703125,
+      "epoch": 1.29931640625,
+      "grad_norm": 14.407404536821112,
+      "kl": 0.0506591796875,
+      "learning_rate": 6.7529296875e-07,
+      "loss": 0.002,
+      "reward": 1.8501919507980347,
+      "reward_std": 0.09266996011137962,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8580044806003571,
+      "step": 2660
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 292.46875,
+      "epoch": 1.2998046875,
+      "grad_norm": 0.8514788037499841,
+      "kl": 0.052001953125,
+      "learning_rate": 6.751708984374999e-07,
+      "loss": 0.0021,
+      "reward": 1.7188128232955933,
+      "reward_std": 0.07580004632472992,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7266253232955933,
+      "step": 2661
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 351.25,
+      "epoch": 1.30029296875,
+      "grad_norm": 0.7970795376599247,
+      "kl": 0.066650390625,
+      "learning_rate": 6.750488281249999e-07,
+      "loss": 0.0027,
+      "reward": 1.7323698997497559,
+      "reward_std": 0.11393286287784576,
+      "rewards/format_reward": 0.9453125,
+      "rewards/ocr_reward": 0.7870573997497559,
+      "step": 2662
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 337.4921875,
+      "epoch": 1.30078125,
+      "grad_norm": 2.1897551324280338,
+      "kl": 0.07568359375,
+      "learning_rate": 6.749267578125e-07,
+      "loss": 0.003,
+      "reward": 1.8059039115905762,
+      "reward_std": 0.060338267125189304,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8059038519859314,
+      "step": 2663
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 271.0390625,
+      "epoch": 1.30126953125,
+      "grad_norm": 2.9581165989544824,
+      "kl": 0.064453125,
+      "learning_rate": 6.748046875e-07,
+      "loss": 0.0026,
+      "reward": 1.7930954098701477,
+      "reward_std": 0.061221227049827576,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7930954694747925,
+      "step": 2664
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 319.15625,
+      "epoch": 1.3017578125,
+      "grad_norm": 1.6499047047869468,
+      "kl": 0.0540771484375,
+      "learning_rate": 6.746826171875e-07,
+      "loss": 0.0022,
+      "reward": 1.8659427165985107,
+      "reward_std": 0.06026996113359928,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8659427464008331,
+      "step": 2665
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 208.0625,
+      "epoch": 1.30224609375,
+      "grad_norm": 1.0955739275158136,
+      "kl": 0.07861328125,
+      "learning_rate": 6.74560546875e-07,
+      "loss": 0.0031,
+      "reward": 1.6215183734893799,
+      "reward_std": 0.05073964595794678,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6215183138847351,
+      "step": 2666
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 397.03125,
+      "epoch": 1.302734375,
+      "grad_norm": 1.8339905299535653,
+      "kl": 0.0643310546875,
+      "learning_rate": 6.744384765624999e-07,
+      "loss": 0.0026,
+      "reward": 1.716743528842926,
+      "reward_std": 0.10541088692843914,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.740181028842926,
+      "step": 2667
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 253.1640625,
+      "epoch": 1.30322265625,
+      "grad_norm": 1.3647709905403491,
+      "kl": 0.086181640625,
+      "learning_rate": 6.743164062499999e-07,
+      "loss": 0.0034,
+      "reward": 1.7058016657829285,
+      "reward_std": 0.029076790437102318,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7058016955852509,
+      "step": 2668
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 406.59375,
+      "epoch": 1.3037109375,
+      "grad_norm": 1.3669269567191786,
+      "kl": 0.044189453125,
+      "learning_rate": 6.741943359375e-07,
+      "loss": 0.0018,
+      "reward": 1.672289490699768,
+      "reward_std": 0.13343248516321182,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.7113519906997681,
+      "step": 2669
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 327.0390625,
+      "epoch": 1.30419921875,
+      "grad_norm": 0.6783532224856341,
+      "kl": 0.053955078125,
+      "learning_rate": 6.74072265625e-07,
+      "loss": 0.0022,
+      "reward": 1.7751038670539856,
+      "reward_std": 0.0778466984629631,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7985413074493408,
+      "step": 2670
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 264.03125,
+      "epoch": 1.3046875,
+      "grad_norm": 4.320924526476853,
+      "kl": 0.072021484375,
+      "learning_rate": 6.739501953125e-07,
+      "loss": 0.0029,
+      "reward": 1.6213982105255127,
+      "reward_std": 0.0660770833492279,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6213981807231903,
+      "step": 2671
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 318.609375,
+      "epoch": 1.30517578125,
+      "grad_norm": 1.4258907778375465,
+      "kl": 0.061279296875,
+      "learning_rate": 6.73828125e-07,
+      "loss": 0.0024,
+      "reward": 1.8601597547531128,
+      "reward_std": 0.11782187595963478,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8679722547531128,
+      "step": 2672
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 267.890625,
+      "epoch": 1.3056640625,
+      "grad_norm": 1.724437541506563,
+      "kl": 0.06787109375,
+      "learning_rate": 6.737060546875e-07,
+      "loss": 0.0027,
+      "reward": 1.786941945552826,
+      "reward_std": 0.0738075040280819,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7869419753551483,
+      "step": 2673
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 391.8671875,
+      "epoch": 1.30615234375,
+      "grad_norm": 1.0501594228457007,
+      "kl": 0.062255859375,
+      "learning_rate": 6.735839843749999e-07,
+      "loss": 0.0025,
+      "reward": 1.762403666973114,
+      "reward_std": 0.05871861148625612,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7702161371707916,
+      "step": 2674
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 327.015625,
+      "epoch": 1.306640625,
+      "grad_norm": 2.8131149989049526,
+      "kl": 0.069580078125,
+      "learning_rate": 6.734619140624999e-07,
+      "loss": 0.0028,
+      "reward": 1.651845395565033,
+      "reward_std": 0.13027137517929077,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.667470395565033,
+      "step": 2675
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 337.078125,
+      "epoch": 1.30712890625,
+      "grad_norm": 3.330367088072933,
+      "kl": 0.086181640625,
+      "learning_rate": 6.7333984375e-07,
+      "loss": 0.0034,
+      "reward": 1.806040346622467,
+      "reward_std": 0.043943583965301514,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8060402572154999,
+      "step": 2676
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 297.9609375,
+      "epoch": 1.3076171875,
+      "grad_norm": 10.765893801480635,
+      "kl": 0.063720703125,
+      "learning_rate": 6.732177734375e-07,
+      "loss": 0.0026,
+      "reward": 1.7391871809959412,
+      "reward_std": 0.05080571398139,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7391871213912964,
+      "step": 2677
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 262.3203125,
+      "epoch": 1.30810546875,
+      "grad_norm": 1.4238084568541345,
+      "kl": 0.0606689453125,
+      "learning_rate": 6.73095703125e-07,
+      "loss": 0.0024,
+      "reward": 1.8248883485794067,
+      "reward_std": 0.037258436903357506,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8248883485794067,
+      "step": 2678
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 276.3046875,
+      "epoch": 1.30859375,
+      "grad_norm": 1.4907117084185106,
+      "kl": 0.0635986328125,
+      "learning_rate": 6.729736328125e-07,
+      "loss": 0.0025,
+      "reward": 1.7909139394760132,
+      "reward_std": 0.06092044711112976,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7909139692783356,
+      "step": 2679
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 277.5703125,
+      "epoch": 1.30908203125,
+      "grad_norm": 2.0791465208702387,
+      "kl": 0.0679931640625,
+      "learning_rate": 6.728515624999999e-07,
+      "loss": 0.0027,
+      "reward": 1.7821356058120728,
+      "reward_std": 0.06090878788381815,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7821356058120728,
+      "step": 2680
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 251.0859375,
+      "epoch": 1.3095703125,
+      "grad_norm": 1.4915135016440937,
+      "kl": 0.0634765625,
+      "learning_rate": 6.727294921874999e-07,
+      "loss": 0.0025,
+      "reward": 1.8791195154190063,
+      "reward_std": 0.02637836430221796,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8791195452213287,
+      "step": 2681
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 273.921875,
+      "epoch": 1.31005859375,
+      "grad_norm": 2.3070951051177553,
+      "kl": 0.076171875,
+      "learning_rate": 6.72607421875e-07,
+      "loss": 0.003,
+      "reward": 1.757739543914795,
+      "reward_std": 0.06817848235368729,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7577394843101501,
+      "step": 2682
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 255.5234375,
+      "epoch": 1.310546875,
+      "grad_norm": 1.4622842311116624,
+      "kl": 0.0673828125,
+      "learning_rate": 6.724853515625e-07,
+      "loss": 0.0027,
+      "reward": 1.7414976358413696,
+      "reward_std": 0.022878904826939106,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7414976358413696,
+      "step": 2683
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 279.828125,
+      "epoch": 1.31103515625,
+      "grad_norm": 1.450865157370279,
+      "kl": 0.058349609375,
+      "learning_rate": 6.7236328125e-07,
+      "loss": 0.0023,
+      "reward": 1.7220868468284607,
+      "reward_std": 0.045497006736695766,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7220868170261383,
+      "step": 2684
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 354.9375,
+      "epoch": 1.3115234375,
+      "grad_norm": 4.128346398936986,
+      "kl": 0.142822265625,
+      "learning_rate": 6.722412109375e-07,
+      "loss": 0.0057,
+      "reward": 1.8581845164299011,
+      "reward_std": 0.0643857903778553,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8581845462322235,
+      "step": 2685
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 351.1171875,
+      "epoch": 1.31201171875,
+      "grad_norm": 2.486707810004422,
+      "kl": 0.0672607421875,
+      "learning_rate": 6.72119140625e-07,
+      "loss": 0.0027,
+      "reward": 1.81499183177948,
+      "reward_std": 0.04949922952800989,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.81499183177948,
+      "step": 2686
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 278.03125,
+      "epoch": 1.3125,
+      "grad_norm": 1.7415850172344802,
+      "kl": 0.079345703125,
+      "learning_rate": 6.719970703124999e-07,
+      "loss": 0.0032,
+      "reward": 1.8236759305000305,
+      "reward_std": 0.038199277594685555,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8236759305000305,
+      "step": 2687
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 275.2890625,
+      "epoch": 1.31298828125,
+      "grad_norm": 4.382732157563532,
+      "kl": 0.07080078125,
+      "learning_rate": 6.718749999999999e-07,
+      "loss": 0.0028,
+      "reward": 1.7863699793815613,
+      "reward_std": 0.09564121440052986,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.786370038986206,
+      "step": 2688
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 268.421875,
+      "epoch": 1.3134765625,
+      "grad_norm": 1.9957093212811292,
+      "kl": 0.06494140625,
+      "learning_rate": 6.717529296875e-07,
+      "loss": 0.0026,
+      "reward": 1.729765772819519,
+      "reward_std": 0.058095003478229046,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.729765772819519,
+      "step": 2689
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 289.09375,
+      "epoch": 1.31396484375,
+      "grad_norm": 1.5829270533122184,
+      "kl": 0.05908203125,
+      "learning_rate": 6.71630859375e-07,
+      "loss": 0.0024,
+      "reward": 1.7915682792663574,
+      "reward_std": 0.06929146684706211,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7915682792663574,
+      "step": 2690
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 317.1015625,
+      "epoch": 1.314453125,
+      "grad_norm": 0.9886014203631965,
+      "kl": 0.06201171875,
+      "learning_rate": 6.715087890625e-07,
+      "loss": 0.0025,
+      "reward": 1.7871447801589966,
+      "reward_std": 0.08929637633264065,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.810582309961319,
+      "step": 2691
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 248.1640625,
+      "epoch": 1.31494140625,
+      "grad_norm": 1.0123772399132263,
+      "kl": 0.072509765625,
+      "learning_rate": 6.7138671875e-07,
+      "loss": 0.0029,
+      "reward": 1.6426368355751038,
+      "reward_std": 0.0795272197574377,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.642636775970459,
+      "step": 2692
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 259.0,
+      "epoch": 1.3154296875,
+      "grad_norm": 0.8408158657981815,
+      "kl": 0.0609130859375,
+      "learning_rate": 6.712646484374999e-07,
+      "loss": 0.0024,
+      "reward": 1.782248616218567,
+      "reward_std": 0.026081452146172523,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7822486758232117,
+      "step": 2693
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 273.109375,
+      "epoch": 1.31591796875,
+      "grad_norm": 1.1570138238531078,
+      "kl": 0.068359375,
+      "learning_rate": 6.711425781249999e-07,
+      "loss": 0.0027,
+      "reward": 1.9411388635635376,
+      "reward_std": 0.07927910797297955,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.941138744354248,
+      "step": 2694
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 261.75,
+      "epoch": 1.31640625,
+      "grad_norm": 6.129173902050601,
+      "kl": 0.0728759765625,
+      "learning_rate": 6.710205078125e-07,
+      "loss": 0.0029,
+      "reward": 1.7619558572769165,
+      "reward_std": 0.060450656339526176,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7619557976722717,
+      "step": 2695
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 330.09375,
+      "epoch": 1.31689453125,
+      "grad_norm": 2.0134898217947166,
+      "kl": 0.07568359375,
+      "learning_rate": 6.708984375e-07,
+      "loss": 0.003,
+      "reward": 1.7178034782409668,
+      "reward_std": 0.08819794841110706,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7256160378456116,
+      "step": 2696
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 271.65625,
+      "epoch": 1.3173828125,
+      "grad_norm": 2.2035043252857203,
+      "kl": 0.075927734375,
+      "learning_rate": 6.707763671875e-07,
+      "loss": 0.003,
+      "reward": 1.7355281710624695,
+      "reward_std": 0.13643942587077618,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.7667781114578247,
+      "step": 2697
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 287.8359375,
+      "epoch": 1.31787109375,
+      "grad_norm": 1.556741176565315,
+      "kl": 0.0655517578125,
+      "learning_rate": 6.70654296875e-07,
+      "loss": 0.0026,
+      "reward": 1.8553110361099243,
+      "reward_std": 0.14732931554317474,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8553110957145691,
+      "step": 2698
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 264.515625,
+      "epoch": 1.318359375,
+      "grad_norm": 0.8254256278213256,
+      "kl": 0.0787353515625,
+      "learning_rate": 6.705322265625e-07,
+      "loss": 0.0032,
+      "reward": 1.6898934841156006,
+      "reward_std": 0.02993142046034336,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6898934543132782,
+      "step": 2699
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 261.0234375,
+      "epoch": 1.31884765625,
+      "grad_norm": 1.8226982226518016,
+      "kl": 0.0614013671875,
+      "learning_rate": 6.704101562499999e-07,
+      "loss": 0.0025,
+      "reward": 1.717129111289978,
+      "reward_std": 0.03285204339772463,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.717129111289978,
+      "step": 2700
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 243.8984375,
+      "epoch": 1.3193359375,
+      "grad_norm": 12.341387634183427,
+      "kl": 0.076416015625,
+      "learning_rate": 6.702880859374999e-07,
+      "loss": 0.0031,
+      "reward": 1.725698471069336,
+      "reward_std": 0.06217564269900322,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7256983816623688,
+      "step": 2701
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 305.1875,
+      "epoch": 1.31982421875,
+      "grad_norm": 0.9525369914253854,
+      "kl": 0.060546875,
+      "learning_rate": 6.70166015625e-07,
+      "loss": 0.0024,
+      "reward": 1.8281516432762146,
+      "reward_std": 0.03971204720437527,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8281517326831818,
+      "step": 2702
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 361.1015625,
+      "epoch": 1.3203125,
+      "grad_norm": 1.2358295612242862,
+      "kl": 0.072265625,
+      "learning_rate": 6.700439453125e-07,
+      "loss": 0.0029,
+      "reward": 1.8739069700241089,
+      "reward_std": 0.04518134891986847,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8739069700241089,
+      "step": 2703
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 206.8359375,
+      "epoch": 1.32080078125,
+      "grad_norm": 1.6234402625579745,
+      "kl": 0.077880859375,
+      "learning_rate": 6.69921875e-07,
+      "loss": 0.0031,
+      "reward": 1.6680772304534912,
+      "reward_std": 0.03605229314416647,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6680772304534912,
+      "step": 2704
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 263.234375,
+      "epoch": 1.3212890625,
+      "grad_norm": 1.019102997793149,
+      "kl": 0.08935546875,
+      "learning_rate": 6.697998046875e-07,
+      "loss": 0.0036,
+      "reward": 1.7389346361160278,
+      "reward_std": 0.04351983033120632,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7389346957206726,
+      "step": 2705
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 240.5,
+      "epoch": 1.32177734375,
+      "grad_norm": 2.8813575124650197,
+      "kl": 0.07177734375,
+      "learning_rate": 6.696777343749999e-07,
+      "loss": 0.0029,
+      "reward": 1.7355643510818481,
+      "reward_std": 0.03399805910885334,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7355643510818481,
+      "step": 2706
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 258.9765625,
+      "epoch": 1.322265625,
+      "grad_norm": 2.810469992608748,
+      "kl": 0.069091796875,
+      "learning_rate": 6.695556640624999e-07,
+      "loss": 0.0028,
+      "reward": 1.841668725013733,
+      "reward_std": 0.06313896924257278,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8416686952114105,
+      "step": 2707
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 197.8515625,
+      "epoch": 1.32275390625,
+      "grad_norm": 1.4321682955957,
+      "kl": 0.054443359375,
+      "learning_rate": 6.6943359375e-07,
+      "loss": 0.0022,
+      "reward": 1.8613044619560242,
+      "reward_std": 0.023028030525892973,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8613044023513794,
+      "step": 2708
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 278.03125,
+      "epoch": 1.3232421875,
+      "grad_norm": 1.1730734025210117,
+      "kl": 0.064453125,
+      "learning_rate": 6.693115234375e-07,
+      "loss": 0.0026,
+      "reward": 1.7823152542114258,
+      "reward_std": 0.09651216119527817,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7979402244091034,
+      "step": 2709
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 205.28125,
+      "epoch": 1.32373046875,
+      "grad_norm": 8.059925351400762,
+      "kl": 0.09912109375,
+      "learning_rate": 6.69189453125e-07,
+      "loss": 0.004,
+      "reward": 1.7996364831924438,
+      "reward_std": 0.07981680566444993,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.8152614533901215,
+      "step": 2710
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 248.3046875,
+      "epoch": 1.32421875,
+      "grad_norm": 1.3591185961038974,
+      "kl": 0.082275390625,
+      "learning_rate": 6.690673828125e-07,
+      "loss": 0.0033,
+      "reward": 1.7113600969314575,
+      "reward_std": 0.042755890637636185,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7113600373268127,
+      "step": 2711
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 340.7265625,
+      "epoch": 1.32470703125,
+      "grad_norm": 2.8367504069887737,
+      "kl": 0.0732421875,
+      "learning_rate": 6.689453125e-07,
+      "loss": 0.0029,
+      "reward": 1.7709915041923523,
+      "reward_std": 0.04804490879178047,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7709915339946747,
+      "step": 2712
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 262.34375,
+      "epoch": 1.3251953125,
+      "grad_norm": 2.423950195941969,
+      "kl": 0.048828125,
+      "learning_rate": 6.688232421874999e-07,
+      "loss": 0.002,
+      "reward": 1.8260767459869385,
+      "reward_std": 0.054210664704442024,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8260767161846161,
+      "step": 2713
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 322.8671875,
+      "epoch": 1.32568359375,
+      "grad_norm": 1.2894446032385674,
+      "kl": 0.0791015625,
+      "learning_rate": 6.687011718749999e-07,
+      "loss": 0.0032,
+      "reward": 1.7933790683746338,
+      "reward_std": 0.048833588138222694,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7933790981769562,
+      "step": 2714
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 337.09375,
+      "epoch": 1.326171875,
+      "grad_norm": 5.206795373840309,
+      "kl": 0.067626953125,
+      "learning_rate": 6.685791015625e-07,
+      "loss": 0.0027,
+      "reward": 1.712072491645813,
+      "reward_std": 0.08722497709095478,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7120724618434906,
+      "step": 2715
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 287.890625,
+      "epoch": 1.32666015625,
+      "grad_norm": 1.567961181256668,
+      "kl": 0.060546875,
+      "learning_rate": 6.6845703125e-07,
+      "loss": 0.0024,
+      "reward": 1.7127328515052795,
+      "reward_std": 0.05422433838248253,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7127328813076019,
+      "step": 2716
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 223.25,
+      "epoch": 1.3271484375,
+      "grad_norm": 1.3532097514243422,
+      "kl": 0.0728759765625,
+      "learning_rate": 6.683349609375e-07,
+      "loss": 0.0029,
+      "reward": 1.730715036392212,
+      "reward_std": 0.04247327148914337,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7307150363922119,
+      "step": 2717
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 289.703125,
+      "epoch": 1.32763671875,
+      "grad_norm": 2.413627159184983,
+      "kl": 0.08154296875,
+      "learning_rate": 6.68212890625e-07,
+      "loss": 0.0033,
+      "reward": 1.7469477653503418,
+      "reward_std": 0.15270064398646355,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7703852355480194,
+      "step": 2718
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 379.9375,
+      "epoch": 1.328125,
+      "grad_norm": 6.093449713291131,
+      "kl": 0.0732421875,
+      "learning_rate": 6.680908203125e-07,
+      "loss": 0.0029,
+      "reward": 1.7299081683158875,
+      "reward_std": 0.0472866240888834,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7299081385135651,
+      "step": 2719
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 232.8984375,
+      "epoch": 1.32861328125,
+      "grad_norm": 4.912267833376837,
+      "kl": 0.078125,
+      "learning_rate": 6.679687499999999e-07,
+      "loss": 0.0031,
+      "reward": 1.8125880360603333,
+      "reward_std": 0.06944674998521805,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8125880360603333,
+      "step": 2720
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 225.7890625,
+      "epoch": 1.3291015625,
+      "grad_norm": 1.4881380474177748,
+      "kl": 0.062744140625,
+      "learning_rate": 6.678466796875e-07,
+      "loss": 0.0025,
+      "reward": 1.7330250144004822,
+      "reward_std": 0.08363675326108932,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7408375144004822,
+      "step": 2721
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 223.390625,
+      "epoch": 1.32958984375,
+      "grad_norm": 1.4668229727045794,
+      "kl": 0.07763671875,
+      "learning_rate": 6.67724609375e-07,
+      "loss": 0.0031,
+      "reward": 1.805801808834076,
+      "reward_std": 0.06017332337796688,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8058017492294312,
+      "step": 2722
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 315.0078125,
+      "epoch": 1.330078125,
+      "grad_norm": 2.118197040137688,
+      "kl": 0.058349609375,
+      "learning_rate": 6.676025390625e-07,
+      "loss": 0.0023,
+      "reward": 1.778078854084015,
+      "reward_std": 0.09711121767759323,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.8015162944793701,
+      "step": 2723
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 233.4921875,
+      "epoch": 1.33056640625,
+      "grad_norm": 0.7593383155856351,
+      "kl": 0.083984375,
+      "learning_rate": 6.6748046875e-07,
+      "loss": 0.0034,
+      "reward": 1.5734055638313293,
+      "reward_std": 0.08365354500710964,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.5890305191278458,
+      "step": 2724
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 256.7421875,
+      "epoch": 1.3310546875,
+      "grad_norm": 14.803652390678243,
+      "kl": 0.075439453125,
+      "learning_rate": 6.673583984375e-07,
+      "loss": 0.003,
+      "reward": 1.8133496046066284,
+      "reward_std": 0.01667138608172536,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8133496046066284,
+      "step": 2725
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 345.0703125,
+      "epoch": 1.33154296875,
+      "grad_norm": 2.120863946435663,
+      "kl": 0.070068359375,
+      "learning_rate": 6.672363281249999e-07,
+      "loss": 0.0028,
+      "reward": 1.6798765659332275,
+      "reward_std": 0.12814366817474365,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6876890957355499,
+      "step": 2726
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 285.1484375,
+      "epoch": 1.33203125,
+      "grad_norm": 0.7789537405347509,
+      "kl": 0.068603515625,
+      "learning_rate": 6.671142578124999e-07,
+      "loss": 0.0027,
+      "reward": 1.7501285672187805,
+      "reward_std": 0.02368486486375332,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7501285076141357,
+      "step": 2727
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 304.7265625,
+      "epoch": 1.33251953125,
+      "grad_norm": 1.6295888889315164,
+      "kl": 0.075927734375,
+      "learning_rate": 6.669921875e-07,
+      "loss": 0.003,
+      "reward": 1.6839573979377747,
+      "reward_std": 0.04334849305450916,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6839573085308075,
+      "step": 2728
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 257.875,
+      "epoch": 1.3330078125,
+      "grad_norm": 1.6509903224943192,
+      "kl": 0.0718994140625,
+      "learning_rate": 6.668701171875e-07,
+      "loss": 0.0029,
+      "reward": 1.8505354523658752,
+      "reward_std": 0.033067792654037476,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8505354523658752,
+      "step": 2729
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 265.421875,
+      "epoch": 1.33349609375,
+      "grad_norm": 0.7796283131638133,
+      "kl": 0.08837890625,
+      "learning_rate": 6.66748046875e-07,
+      "loss": 0.0035,
+      "reward": 1.7302683591842651,
+      "reward_std": 0.06862842850387096,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7380808293819427,
+      "step": 2730
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 259.4453125,
+      "epoch": 1.333984375,
+      "grad_norm": 1.4712873612302482,
+      "kl": 0.05859375,
+      "learning_rate": 6.666259765625e-07,
+      "loss": 0.0023,
+      "reward": 1.8550618886947632,
+      "reward_std": 0.09110767394304276,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8550618886947632,
+      "step": 2731
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 299.4140625,
+      "epoch": 1.33447265625,
+      "grad_norm": 3.881608704348827,
+      "kl": 0.085693359375,
+      "learning_rate": 6.6650390625e-07,
+      "loss": 0.0034,
+      "reward": 1.7282916903495789,
+      "reward_std": 0.10343683697283268,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7517292201519012,
+      "step": 2732
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 213.9921875,
+      "epoch": 1.3349609375,
+      "grad_norm": 1.0148415053766122,
+      "kl": 0.069091796875,
+      "learning_rate": 6.663818359374999e-07,
+      "loss": 0.0028,
+      "reward": 1.8618406057357788,
+      "reward_std": 0.024386493489146233,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8618406653404236,
+      "step": 2733
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 306.609375,
+      "epoch": 1.33544921875,
+      "grad_norm": 1.0975253206002726,
+      "kl": 0.07275390625,
+      "learning_rate": 6.66259765625e-07,
+      "loss": 0.0029,
+      "reward": 1.7836071848869324,
+      "reward_std": 0.0855344720184803,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7914197146892548,
+      "step": 2734
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 320.921875,
+      "epoch": 1.3359375,
+      "grad_norm": 2.3233855799239578,
+      "kl": 0.069580078125,
+      "learning_rate": 6.661376953125e-07,
+      "loss": 0.0028,
+      "reward": 1.7295535802841187,
+      "reward_std": 0.08530437387526035,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7529910504817963,
+      "step": 2735
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 249.0625,
+      "epoch": 1.33642578125,
+      "grad_norm": 0.9699266686728515,
+      "kl": 0.077392578125,
+      "learning_rate": 6.66015625e-07,
+      "loss": 0.0031,
+      "reward": 1.841222882270813,
+      "reward_std": 0.0592461503110826,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.841222882270813,
+      "step": 2736
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 306.046875,
+      "epoch": 1.3369140625,
+      "grad_norm": 2.7201637371137823,
+      "kl": 0.092529296875,
+      "learning_rate": 6.658935546875e-07,
+      "loss": 0.0037,
+      "reward": 1.7343988418579102,
+      "reward_std": 0.1262606419622898,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.7656488418579102,
+      "step": 2737
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 326.6875,
+      "epoch": 1.33740234375,
+      "grad_norm": 2.8247996935464554,
+      "kl": 0.0908203125,
+      "learning_rate": 6.65771484375e-07,
+      "loss": 0.0036,
+      "reward": 1.7593631744384766,
+      "reward_std": 0.03225879417732358,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7593631744384766,
+      "step": 2738
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 308.5,
+      "epoch": 1.337890625,
+      "grad_norm": 1.160437436072484,
+      "kl": 0.0732421875,
+      "learning_rate": 6.656494140624999e-07,
+      "loss": 0.0029,
+      "reward": 1.7741823196411133,
+      "reward_std": 0.047216689214110374,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7741822898387909,
+      "step": 2739
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 284.953125,
+      "epoch": 1.33837890625,
+      "grad_norm": 2.843629986590572,
+      "kl": 0.07861328125,
+      "learning_rate": 6.655273437499999e-07,
+      "loss": 0.0031,
+      "reward": 1.694653332233429,
+      "reward_std": 0.07069635391235352,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6946533024311066,
+      "step": 2740
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 220.390625,
+      "epoch": 1.3388671875,
+      "grad_norm": 3.22653638503277,
+      "kl": 0.0821533203125,
+      "learning_rate": 6.654052734375e-07,
+      "loss": 0.0033,
+      "reward": 1.834531307220459,
+      "reward_std": 0.0343925547786057,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8345312476158142,
+      "step": 2741
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 313.625,
+      "epoch": 1.33935546875,
+      "grad_norm": 5.463175138878789,
+      "kl": 0.062744140625,
+      "learning_rate": 6.65283203125e-07,
+      "loss": 0.0025,
+      "reward": 1.814225673675537,
+      "reward_std": 0.024931567488238215,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8142256438732147,
+      "step": 2742
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 287.9765625,
+      "epoch": 1.33984375,
+      "grad_norm": 5.997176370030234,
+      "kl": 0.07666015625,
+      "learning_rate": 6.651611328125e-07,
+      "loss": 0.0031,
+      "reward": 1.778179109096527,
+      "reward_std": 0.08071616850793362,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7781790792942047,
+      "step": 2743
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 201.953125,
+      "epoch": 1.34033203125,
+      "grad_norm": 2.1108738481028824,
+      "kl": 0.0687255859375,
+      "learning_rate": 6.650390625e-07,
+      "loss": 0.0027,
+      "reward": 1.6546780467033386,
+      "reward_std": 0.04719951003789902,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6546780467033386,
+      "step": 2744
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 296.859375,
+      "epoch": 1.3408203125,
+      "grad_norm": 1.189954861287409,
+      "kl": 0.077880859375,
+      "learning_rate": 6.649169921875e-07,
+      "loss": 0.0031,
+      "reward": 1.722962737083435,
+      "reward_std": 0.10328607633709908,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7385877668857574,
+      "step": 2745
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 246.359375,
+      "epoch": 1.34130859375,
+      "grad_norm": 2.3195408485561986,
+      "kl": 0.078369140625,
+      "learning_rate": 6.647949218749999e-07,
+      "loss": 0.0031,
+      "reward": 1.7592060565948486,
+      "reward_std": 0.03395948093384504,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.759206086397171,
+      "step": 2746
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 302.640625,
+      "epoch": 1.341796875,
+      "grad_norm": 0.762429658572133,
+      "kl": 0.06884765625,
+      "learning_rate": 6.646728515625e-07,
+      "loss": 0.0028,
+      "reward": 1.813932180404663,
+      "reward_std": 0.09360839053988457,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.8373695611953735,
+      "step": 2747
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 224.75,
+      "epoch": 1.34228515625,
+      "grad_norm": 3.539568556920886,
+      "kl": 0.0634765625,
+      "learning_rate": 6.6455078125e-07,
+      "loss": 0.0025,
+      "reward": 1.750356376171112,
+      "reward_std": 0.049200138077139854,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7503563463687897,
+      "step": 2748
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 268.140625,
+      "epoch": 1.3427734375,
+      "grad_norm": 3.9639963865650247,
+      "kl": 0.0772705078125,
+      "learning_rate": 6.644287109375e-07,
+      "loss": 0.0031,
+      "reward": 1.6544407606124878,
+      "reward_std": 0.07485324889421463,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6544407606124878,
+      "step": 2749
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 325.546875,
+      "epoch": 1.34326171875,
+      "grad_norm": 7.157519189741742,
+      "kl": 0.0570068359375,
+      "learning_rate": 6.64306640625e-07,
+      "loss": 0.0023,
+      "reward": 1.7769380807876587,
+      "reward_std": 0.12172123789787292,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7925631105899811,
+      "step": 2750
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 381.296875,
+      "epoch": 1.34375,
+      "grad_norm": 1.380768515593198,
+      "kl": 0.053466796875,
+      "learning_rate": 6.641845703125e-07,
+      "loss": 0.0021,
+      "reward": 1.6924372911453247,
+      "reward_std": 0.11786646395921707,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.7314998209476471,
+      "step": 2751
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 353.1875,
+      "epoch": 1.34423828125,
+      "grad_norm": 2.166002705894626,
+      "kl": 0.0631103515625,
+      "learning_rate": 6.640624999999999e-07,
+      "loss": 0.0025,
+      "reward": 1.8119662404060364,
+      "reward_std": 0.0506830308586359,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8119662702083588,
+      "step": 2752
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 300.6875,
+      "epoch": 1.3447265625,
+      "grad_norm": 24.943229867842106,
+      "kl": 0.0791015625,
+      "learning_rate": 6.639404296874999e-07,
+      "loss": 0.0032,
+      "reward": 1.8568952083587646,
+      "reward_std": 0.04123697895556688,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8568951487541199,
+      "step": 2753
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 279.03125,
+      "epoch": 1.34521484375,
+      "grad_norm": 1.8708805947768723,
+      "kl": 0.090576171875,
+      "learning_rate": 6.63818359375e-07,
+      "loss": 0.0036,
+      "reward": 1.7188897132873535,
+      "reward_std": 0.056853797286748886,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7188896536827087,
+      "step": 2754
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 315.5078125,
+      "epoch": 1.345703125,
+      "grad_norm": 2.439239557617475,
+      "kl": 0.0806884765625,
+      "learning_rate": 6.636962890625e-07,
+      "loss": 0.0032,
+      "reward": 1.7047572135925293,
+      "reward_std": 0.18556798994541168,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.7438197731971741,
+      "step": 2755
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 354.171875,
+      "epoch": 1.34619140625,
+      "grad_norm": 2.160190526404616,
+      "kl": 0.0657958984375,
+      "learning_rate": 6.6357421875e-07,
+      "loss": 0.0026,
+      "reward": 1.847311556339264,
+      "reward_std": 0.07765659689903259,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8551241159439087,
+      "step": 2756
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 247.9921875,
+      "epoch": 1.3466796875,
+      "grad_norm": 2.2755146480765056,
+      "kl": 0.078857421875,
+      "learning_rate": 6.634521484375e-07,
+      "loss": 0.0031,
+      "reward": 1.8561453819274902,
+      "reward_std": 0.04817195236682892,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8561453819274902,
+      "step": 2757
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 385.390625,
+      "epoch": 1.34716796875,
+      "grad_norm": 4.259565415030043,
+      "kl": 0.064697265625,
+      "learning_rate": 6.63330078125e-07,
+      "loss": 0.0026,
+      "reward": 1.7508844137191772,
+      "reward_std": 0.14695337787270546,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7665094435214996,
+      "step": 2758
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 281.4296875,
+      "epoch": 1.34765625,
+      "grad_norm": 1.761996511284053,
+      "kl": 0.07861328125,
+      "learning_rate": 6.632080078124999e-07,
+      "loss": 0.0031,
+      "reward": 1.8259143233299255,
+      "reward_std": 0.11976262181997299,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8337267935276031,
+      "step": 2759
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 261.109375,
+      "epoch": 1.34814453125,
+      "grad_norm": 1.1530002116392095,
+      "kl": 0.075439453125,
+      "learning_rate": 6.630859374999999e-07,
+      "loss": 0.003,
+      "reward": 1.8094568252563477,
+      "reward_std": 0.09631854109466076,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.8407068252563477,
+      "step": 2760
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 264.8671875,
+      "epoch": 1.3486328125,
+      "grad_norm": 1.9409396087042068,
+      "kl": 0.0567626953125,
+      "learning_rate": 6.629638671875e-07,
+      "loss": 0.0023,
+      "reward": 1.8710192441940308,
+      "reward_std": 0.061006827279925346,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8710193037986755,
+      "step": 2761
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 253.1171875,
+      "epoch": 1.34912109375,
+      "grad_norm": 0.7799863900997498,
+      "kl": 0.085693359375,
+      "learning_rate": 6.62841796875e-07,
+      "loss": 0.0034,
+      "reward": 1.77259761095047,
+      "reward_std": 0.05002701282501221,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7725976407527924,
+      "step": 2762
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 291.484375,
+      "epoch": 1.349609375,
+      "grad_norm": 2.9890180449063792,
+      "kl": 0.072509765625,
+      "learning_rate": 6.627197265625e-07,
+      "loss": 0.0029,
+      "reward": 1.758193016052246,
+      "reward_std": 0.11531753093004227,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7581930160522461,
+      "step": 2763
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 422.0234375,
+      "epoch": 1.35009765625,
+      "grad_norm": 3.384788495208568,
+      "kl": 0.090087890625,
+      "learning_rate": 6.6259765625e-07,
+      "loss": 0.0036,
+      "reward": 1.7781252264976501,
+      "reward_std": 0.04981714114546776,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7781251966953278,
+      "step": 2764
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 282.109375,
+      "epoch": 1.3505859375,
+      "grad_norm": 2.0776218039129155,
+      "kl": 0.08349609375,
+      "learning_rate": 6.624755859374999e-07,
+      "loss": 0.0033,
+      "reward": 1.7179874777793884,
+      "reward_std": 0.06420490704476833,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7179875075817108,
+      "step": 2765
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 315.3203125,
+      "epoch": 1.35107421875,
+      "grad_norm": 1.3042813145233396,
+      "kl": 0.071533203125,
+      "learning_rate": 6.623535156249999e-07,
+      "loss": 0.0029,
+      "reward": 1.706727385520935,
+      "reward_std": 0.04921235144138336,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7067274153232574,
+      "step": 2766
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 349.0625,
+      "epoch": 1.3515625,
+      "grad_norm": 0.8583618689491556,
+      "kl": 0.05859375,
+      "learning_rate": 6.622314453125e-07,
+      "loss": 0.0023,
+      "reward": 1.8275976777076721,
+      "reward_std": 0.051028769463300705,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8275976479053497,
+      "step": 2767
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 233.046875,
+      "epoch": 1.35205078125,
+      "grad_norm": 1.3873179964338491,
+      "kl": 0.0771484375,
+      "learning_rate": 6.62109375e-07,
+      "loss": 0.0031,
+      "reward": 1.7254577279090881,
+      "reward_std": 0.12088143825531006,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7254576981067657,
+      "step": 2768
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 462.703125,
+      "epoch": 1.3525390625,
+      "grad_norm": 1.5492890007706852,
+      "kl": 0.09521484375,
+      "learning_rate": 6.619873046875e-07,
+      "loss": 0.0038,
+      "reward": 1.7280957102775574,
+      "reward_std": 0.10262476652860641,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7359082102775574,
+      "step": 2769
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 279.53125,
+      "epoch": 1.35302734375,
+      "grad_norm": 2.3373926002613374,
+      "kl": 0.065185546875,
+      "learning_rate": 6.61865234375e-07,
+      "loss": 0.0026,
+      "reward": 1.7113505005836487,
+      "reward_std": 0.056995073333382607,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7113505005836487,
+      "step": 2770
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 251.609375,
+      "epoch": 1.353515625,
+      "grad_norm": 4.3744425979305355,
+      "kl": 0.0986328125,
+      "learning_rate": 6.617431640625e-07,
+      "loss": 0.0039,
+      "reward": 1.7181638479232788,
+      "reward_std": 0.08497333526611328,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7181638479232788,
+      "step": 2771
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 309.96875,
+      "epoch": 1.35400390625,
+      "grad_norm": 14.857357422003494,
+      "kl": 0.0657958984375,
+      "learning_rate": 6.616210937499999e-07,
+      "loss": 0.0026,
+      "reward": 1.888843595981598,
+      "reward_std": 0.046841708943247795,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8888436257839203,
+      "step": 2772
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 354.734375,
+      "epoch": 1.3544921875,
+      "grad_norm": 1.8069280935451315,
+      "kl": 0.07373046875,
+      "learning_rate": 6.614990234374999e-07,
+      "loss": 0.0029,
+      "reward": 1.868907868862152,
+      "reward_std": 0.05142470262944698,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8689078092575073,
+      "step": 2773
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 231.4609375,
+      "epoch": 1.35498046875,
+      "grad_norm": 1.9204075579327249,
+      "kl": 0.069091796875,
+      "learning_rate": 6.61376953125e-07,
+      "loss": 0.0028,
+      "reward": 1.8886531591415405,
+      "reward_std": 0.08299789018929005,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8886531889438629,
+      "step": 2774
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 271.4140625,
+      "epoch": 1.35546875,
+      "grad_norm": 1.6906533792821081,
+      "kl": 0.0618896484375,
+      "learning_rate": 6.612548828125e-07,
+      "loss": 0.0025,
+      "reward": 1.8281062841415405,
+      "reward_std": 0.094516322016716,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.8437312543392181,
+      "step": 2775
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 302.765625,
+      "epoch": 1.35595703125,
+      "grad_norm": 1.6386886335437982,
+      "kl": 0.09033203125,
+      "learning_rate": 6.611328125e-07,
+      "loss": 0.0036,
+      "reward": 1.6473196148872375,
+      "reward_std": 0.07153589557856321,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6473196148872375,
+      "step": 2776
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 285.6328125,
+      "epoch": 1.3564453125,
+      "grad_norm": 3.776389069468664,
+      "kl": 0.0716552734375,
+      "learning_rate": 6.610107421875e-07,
+      "loss": 0.0029,
+      "reward": 1.7405164241790771,
+      "reward_std": 0.11073359847068787,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7483289241790771,
+      "step": 2777
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 259.328125,
+      "epoch": 1.35693359375,
+      "grad_norm": 1.1085765846395907,
+      "kl": 0.0662841796875,
+      "learning_rate": 6.608886718749999e-07,
+      "loss": 0.0027,
+      "reward": 1.8612353205680847,
+      "reward_std": 0.05960194766521454,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8612352311611176,
+      "step": 2778
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 323.8359375,
+      "epoch": 1.357421875,
+      "grad_norm": 1.1688355930446612,
+      "kl": 0.075927734375,
+      "learning_rate": 6.607666015624999e-07,
+      "loss": 0.003,
+      "reward": 1.668241798877716,
+      "reward_std": 0.0824052020907402,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6682417988777161,
+      "step": 2779
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 288.921875,
+      "epoch": 1.35791015625,
+      "grad_norm": 1.80133842186887,
+      "kl": 0.0592041015625,
+      "learning_rate": 6.6064453125e-07,
+      "loss": 0.0024,
+      "reward": 1.8754128217697144,
+      "reward_std": 0.02819860354065895,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.875412791967392,
+      "step": 2780
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 286.015625,
+      "epoch": 1.3583984375,
+      "grad_norm": 2.9845705873686876,
+      "kl": 0.082763671875,
+      "learning_rate": 6.605224609375e-07,
+      "loss": 0.0033,
+      "reward": 1.837379813194275,
+      "reward_std": 0.0600747037678957,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8373798131942749,
+      "step": 2781
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 200.03125,
+      "epoch": 1.35888671875,
+      "grad_norm": 1.9146016266718324,
+      "kl": 0.072021484375,
+      "learning_rate": 6.60400390625e-07,
+      "loss": 0.0029,
+      "reward": 1.8498224020004272,
+      "reward_std": 0.07501747971400619,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8498223423957825,
+      "step": 2782
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 285.9375,
+      "epoch": 1.359375,
+      "grad_norm": 0.9660214761219784,
+      "kl": 0.066162109375,
+      "learning_rate": 6.602783203125e-07,
+      "loss": 0.0026,
+      "reward": 1.708676815032959,
+      "reward_std": 0.05009671114385128,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.708676815032959,
+      "step": 2783
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 266.0390625,
+      "epoch": 1.35986328125,
+      "grad_norm": 1.9126001884812758,
+      "kl": 0.06884765625,
+      "learning_rate": 6.6015625e-07,
+      "loss": 0.0027,
+      "reward": 1.7439513802528381,
+      "reward_std": 0.05504639446735382,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7439513504505157,
+      "step": 2784
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 259.140625,
+      "epoch": 1.3603515625,
+      "grad_norm": 2.6388109061222647,
+      "kl": 0.0625,
+      "learning_rate": 6.600341796874999e-07,
+      "loss": 0.0025,
+      "reward": 1.8127487897872925,
+      "reward_std": 0.05138452537357807,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8127487897872925,
+      "step": 2785
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 255.34375,
+      "epoch": 1.36083984375,
+      "grad_norm": 1.9324545434757587,
+      "kl": 0.0615234375,
+      "learning_rate": 6.599121093749999e-07,
+      "loss": 0.0025,
+      "reward": 1.8103123307228088,
+      "reward_std": 0.08414742723107338,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8103123307228088,
+      "step": 2786
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 306.15625,
+      "epoch": 1.361328125,
+      "grad_norm": 1.710010117700723,
+      "kl": 0.07861328125,
+      "learning_rate": 6.597900390625e-07,
+      "loss": 0.0031,
+      "reward": 1.8647686839103699,
+      "reward_std": 0.07051170617341995,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8647686839103699,
+      "step": 2787
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 252.65625,
+      "epoch": 1.36181640625,
+      "grad_norm": 3.5098494042536115,
+      "kl": 0.09814453125,
+      "learning_rate": 6.5966796875e-07,
+      "loss": 0.0039,
+      "reward": 1.811535358428955,
+      "reward_std": 0.17406302690505981,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8115352988243103,
+      "step": 2788
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 281.03125,
+      "epoch": 1.3623046875,
+      "grad_norm": 4.488729872719589,
+      "kl": 0.054931640625,
+      "learning_rate": 6.595458984375e-07,
+      "loss": 0.0022,
+      "reward": 1.823096752166748,
+      "reward_std": 0.06310966797173023,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8230966925621033,
+      "step": 2789
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 284.9453125,
+      "epoch": 1.36279296875,
+      "grad_norm": 2.859947402634798,
+      "kl": 0.0673828125,
+      "learning_rate": 6.59423828125e-07,
+      "loss": 0.0027,
+      "reward": 1.7696452736854553,
+      "reward_std": 0.09921448305249214,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7696452140808105,
+      "step": 2790
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 293.6640625,
+      "epoch": 1.36328125,
+      "grad_norm": 1.8490800827770573,
+      "kl": 0.08642578125,
+      "learning_rate": 6.593017578124999e-07,
+      "loss": 0.0035,
+      "reward": 1.77943754196167,
+      "reward_std": 0.06473535671830177,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7794375717639923,
+      "step": 2791
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 380.546875,
+      "epoch": 1.36376953125,
+      "grad_norm": 1.1874902147313509,
+      "kl": 0.0633544921875,
+      "learning_rate": 6.591796874999999e-07,
+      "loss": 0.0025,
+      "reward": 1.8052760362625122,
+      "reward_std": 0.05710322968661785,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8052760064601898,
+      "step": 2792
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 279.5078125,
+      "epoch": 1.3642578125,
+      "grad_norm": 1.3877294374512281,
+      "kl": 0.0810546875,
+      "learning_rate": 6.590576171875e-07,
+      "loss": 0.0032,
+      "reward": 1.7053526639938354,
+      "reward_std": 0.044744652695953846,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7053526639938354,
+      "step": 2793
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 252.2890625,
+      "epoch": 1.36474609375,
+      "grad_norm": 1.7614738212994774,
+      "kl": 0.091064453125,
+      "learning_rate": 6.58935546875e-07,
+      "loss": 0.0037,
+      "reward": 1.8614672422409058,
+      "reward_std": 0.06470566987991333,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8692797422409058,
+      "step": 2794
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 236.9921875,
+      "epoch": 1.365234375,
+      "grad_norm": 0.8216449129468091,
+      "kl": 0.0640869140625,
+      "learning_rate": 6.588134765625e-07,
+      "loss": 0.0026,
+      "reward": 1.7944404482841492,
+      "reward_std": 0.07953635044395924,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8022529482841492,
+      "step": 2795
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 249.2890625,
+      "epoch": 1.36572265625,
+      "grad_norm": 3.7784315403086732,
+      "kl": 0.0648193359375,
+      "learning_rate": 6.5869140625e-07,
+      "loss": 0.0026,
+      "reward": 1.7856959700584412,
+      "reward_std": 0.06272900477051735,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7856959700584412,
+      "step": 2796
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 237.5625,
+      "epoch": 1.3662109375,
+      "grad_norm": 1.9366371199429389,
+      "kl": 0.0728759765625,
+      "learning_rate": 6.585693359375e-07,
+      "loss": 0.0029,
+      "reward": 1.7936596274375916,
+      "reward_std": 0.07175188139081001,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7936596572399139,
+      "step": 2797
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 289.078125,
+      "epoch": 1.36669921875,
+      "grad_norm": 1.3702102849644753,
+      "kl": 0.063720703125,
+      "learning_rate": 6.584472656249999e-07,
+      "loss": 0.0025,
+      "reward": 1.7357134819030762,
+      "reward_std": 0.09683592431247234,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7435259819030762,
+      "step": 2798
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 323.40625,
+      "epoch": 1.3671875,
+      "grad_norm": 0.7898266031129043,
+      "kl": 0.082275390625,
+      "learning_rate": 6.583251953124999e-07,
+      "loss": 0.0033,
+      "reward": 1.7490665912628174,
+      "reward_std": 0.09386800974607468,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7568791508674622,
+      "step": 2799
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 317.4296875,
+      "epoch": 1.36767578125,
+      "grad_norm": 1.1152710272393713,
+      "kl": 0.06396484375,
+      "learning_rate": 6.58203125e-07,
+      "loss": 0.0026,
+      "reward": 1.8169459700584412,
+      "reward_std": 0.05791633389890194,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8169459104537964,
+      "step": 2800
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 313.734375,
+      "epoch": 1.3681640625,
+      "grad_norm": 4.796604127693978,
+      "kl": 0.0958251953125,
+      "learning_rate": 6.580810546875e-07,
+      "loss": 0.0038,
+      "reward": 1.720919132232666,
+      "reward_std": 0.08066519349813461,
+      "rewards/format_reward": 0.9453125,
+      "rewards/ocr_reward": 0.7756066620349884,
+      "step": 2801
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 246.234375,
+      "epoch": 1.36865234375,
+      "grad_norm": 0.7665830601343561,
+      "kl": 0.065673828125,
+      "learning_rate": 6.57958984375e-07,
+      "loss": 0.0026,
+      "reward": 1.7669459581375122,
+      "reward_std": 0.052986389957368374,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7747583985328674,
+      "step": 2802
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 291.2109375,
+      "epoch": 1.369140625,
+      "grad_norm": 0.8869108480679029,
+      "kl": 0.052490234375,
+      "learning_rate": 6.578369140625e-07,
+      "loss": 0.0021,
+      "reward": 1.7913293838500977,
+      "reward_std": 0.057568637654185295,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7913293838500977,
+      "step": 2803
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 234.9140625,
+      "epoch": 1.36962890625,
+      "grad_norm": 1.1017743459095004,
+      "kl": 0.079833984375,
+      "learning_rate": 6.577148437499999e-07,
+      "loss": 0.0032,
+      "reward": 1.762194275856018,
+      "reward_std": 0.027863549068570137,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7621943652629852,
+      "step": 2804
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 229.3671875,
+      "epoch": 1.3701171875,
+      "grad_norm": 5.067708962892902,
+      "kl": 0.064697265625,
+      "learning_rate": 6.575927734374999e-07,
+      "loss": 0.0026,
+      "reward": 1.6529717445373535,
+      "reward_std": 0.07605472579598427,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6529717445373535,
+      "step": 2805
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 223.3203125,
+      "epoch": 1.37060546875,
+      "grad_norm": 3.5790933037952426,
+      "kl": 0.07470703125,
+      "learning_rate": 6.57470703125e-07,
+      "loss": 0.003,
+      "reward": 1.6717053651809692,
+      "reward_std": 0.06556748226284981,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6717053353786469,
+      "step": 2806
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 389.28125,
+      "epoch": 1.37109375,
+      "grad_norm": 1.1882639853118668,
+      "kl": 0.0606689453125,
+      "learning_rate": 6.573486328125e-07,
+      "loss": 0.0024,
+      "reward": 1.7812290787696838,
+      "reward_std": 0.11782369762659073,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.8046665787696838,
+      "step": 2807
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 368.7734375,
+      "epoch": 1.37158203125,
+      "grad_norm": 1.0058167484415166,
+      "kl": 0.0628662109375,
+      "learning_rate": 6.572265625e-07,
+      "loss": 0.0025,
+      "reward": 1.658070147037506,
+      "reward_std": 0.16661040857434273,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.7049451470375061,
+      "step": 2808
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 258.3359375,
+      "epoch": 1.3720703125,
+      "grad_norm": 1.5691798635044372,
+      "kl": 0.077392578125,
+      "learning_rate": 6.571044921875e-07,
+      "loss": 0.0031,
+      "reward": 1.8431367874145508,
+      "reward_std": 0.015472855884581804,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.843136727809906,
+      "step": 2809
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 373.0546875,
+      "epoch": 1.37255859375,
+      "grad_norm": 30.022616938561168,
+      "kl": 0.063232421875,
+      "learning_rate": 6.56982421875e-07,
+      "loss": 0.0025,
+      "reward": 1.5678275227546692,
+      "reward_std": 0.1511671245098114,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.5912650525569916,
+      "step": 2810
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 232.734375,
+      "epoch": 1.373046875,
+      "grad_norm": 2.0753106666854597,
+      "kl": 0.070068359375,
+      "learning_rate": 6.568603515624999e-07,
+      "loss": 0.0028,
+      "reward": 1.705108404159546,
+      "reward_std": 0.14512356370687485,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7207334041595459,
+      "step": 2811
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 357.1796875,
+      "epoch": 1.37353515625,
+      "grad_norm": 1.3679898475411463,
+      "kl": 0.052001953125,
+      "learning_rate": 6.567382812499999e-07,
+      "loss": 0.0021,
+      "reward": 1.8090946078300476,
+      "reward_std": 0.037844820879399776,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8090946674346924,
+      "step": 2812
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 267.859375,
+      "epoch": 1.3740234375,
+      "grad_norm": 1.9064678334594833,
+      "kl": 0.0635986328125,
+      "learning_rate": 6.566162109375e-07,
+      "loss": 0.0025,
+      "reward": 1.765863299369812,
+      "reward_std": 0.07344381138682365,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.765863299369812,
+      "step": 2813
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 362.28125,
+      "epoch": 1.37451171875,
+      "grad_norm": 0.7913906152817536,
+      "kl": 0.0477294921875,
+      "learning_rate": 6.56494140625e-07,
+      "loss": 0.0019,
+      "reward": 1.7781551480293274,
+      "reward_std": 0.05877980962395668,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7859676480293274,
+      "step": 2814
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 407.9375,
+      "epoch": 1.375,
+      "grad_norm": 3.040552646693815,
+      "kl": 0.0626220703125,
+      "learning_rate": 6.563720703125e-07,
+      "loss": 0.0025,
+      "reward": 1.8006147146224976,
+      "reward_std": 0.11222148686647415,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.80842724442482,
+      "step": 2815
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 310.09375,
+      "epoch": 1.37548828125,
+      "grad_norm": 1.1902464862626296,
+      "kl": 0.07080078125,
+      "learning_rate": 6.5625e-07,
+      "loss": 0.0028,
+      "reward": 1.7808747291564941,
+      "reward_std": 0.06534177996218204,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7808747291564941,
+      "step": 2816
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 367.5390625,
+      "epoch": 1.3759765625,
+      "grad_norm": 1.1270478089250884,
+      "kl": 0.0849609375,
+      "learning_rate": 6.561279296875e-07,
+      "loss": 0.0034,
+      "reward": 1.6131686568260193,
+      "reward_std": 0.13650833070278168,
+      "rewards/format_reward": 0.9453125,
+      "rewards/ocr_reward": 0.6678561568260193,
+      "step": 2817
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 346.578125,
+      "epoch": 1.37646484375,
+      "grad_norm": 2.463194086778472,
+      "kl": 0.083251953125,
+      "learning_rate": 6.560058593749999e-07,
+      "loss": 0.0033,
+      "reward": 1.743131935596466,
+      "reward_std": 0.13736629113554955,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.7743819355964661,
+      "step": 2818
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 296.8203125,
+      "epoch": 1.376953125,
+      "grad_norm": 1.655877833888544,
+      "kl": 0.061767578125,
+      "learning_rate": 6.558837890625e-07,
+      "loss": 0.0025,
+      "reward": 1.8583369255065918,
+      "reward_std": 0.06905535236001015,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8583369851112366,
+      "step": 2819
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 338.0703125,
+      "epoch": 1.37744140625,
+      "grad_norm": 1.1615671365734472,
+      "kl": 0.064208984375,
+      "learning_rate": 6.5576171875e-07,
+      "loss": 0.0026,
+      "reward": 1.8210389018058777,
+      "reward_std": 0.10824690014123917,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.8366638422012329,
+      "step": 2820
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 290.8515625,
+      "epoch": 1.3779296875,
+      "grad_norm": 1.9462189546737534,
+      "kl": 0.072265625,
+      "learning_rate": 6.556396484375e-07,
+      "loss": 0.0029,
+      "reward": 1.7309507727622986,
+      "reward_std": 0.12317908834666014,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7543882727622986,
+      "step": 2821
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 285.6796875,
+      "epoch": 1.37841796875,
+      "grad_norm": 0.7250821619105872,
+      "kl": 0.0653076171875,
+      "learning_rate": 6.55517578125e-07,
+      "loss": 0.0026,
+      "reward": 1.7630040049552917,
+      "reward_std": 0.028386560268700123,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7630040049552917,
+      "step": 2822
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 418.078125,
+      "epoch": 1.37890625,
+      "grad_norm": 1.5496349062279748,
+      "kl": 0.06787109375,
+      "learning_rate": 6.553955078125e-07,
+      "loss": 0.0027,
+      "reward": 1.7218654155731201,
+      "reward_std": 0.14879543986171484,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7374904155731201,
+      "step": 2823
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 271.3515625,
+      "epoch": 1.37939453125,
+      "grad_norm": 0.8887945048990987,
+      "kl": 0.067626953125,
+      "learning_rate": 6.552734374999999e-07,
+      "loss": 0.0027,
+      "reward": 1.754398226737976,
+      "reward_std": 0.029574115527793765,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7543981671333313,
+      "step": 2824
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 311.0,
+      "epoch": 1.3798828125,
+      "grad_norm": 1.0309054013771692,
+      "kl": 0.0648193359375,
+      "learning_rate": 6.551513671874999e-07,
+      "loss": 0.0026,
+      "reward": 1.9179275035858154,
+      "reward_std": 0.013918052427470684,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.9179275631904602,
+      "step": 2825
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 258.8125,
+      "epoch": 1.38037109375,
+      "grad_norm": 1.6179425907866827,
+      "kl": 0.062744140625,
+      "learning_rate": 6.55029296875e-07,
+      "loss": 0.0025,
+      "reward": 1.829226016998291,
+      "reward_std": 0.09412107616662979,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8292260468006134,
+      "step": 2826
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 301.25,
+      "epoch": 1.380859375,
+      "grad_norm": 1.5403818911864977,
+      "kl": 0.0736083984375,
+      "learning_rate": 6.549072265625e-07,
+      "loss": 0.0029,
+      "reward": 1.7663615942001343,
+      "reward_std": 0.02866467647254467,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7663616240024567,
+      "step": 2827
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 262.265625,
+      "epoch": 1.38134765625,
+      "grad_norm": 0.8033462865951467,
+      "kl": 0.07373046875,
+      "learning_rate": 6.5478515625e-07,
+      "loss": 0.003,
+      "reward": 1.855335772037506,
+      "reward_std": 0.044215379282832146,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8553357422351837,
+      "step": 2828
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 340.796875,
+      "epoch": 1.3818359375,
+      "grad_norm": 2.522746992374405,
+      "kl": 0.060791015625,
+      "learning_rate": 6.546630859375e-07,
+      "loss": 0.0024,
+      "reward": 1.647928237915039,
+      "reward_std": 0.13220302015542984,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.6713657677173615,
+      "step": 2829
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 363.5703125,
+      "epoch": 1.38232421875,
+      "grad_norm": 1.7436794453218056,
+      "kl": 0.0604248046875,
+      "learning_rate": 6.54541015625e-07,
+      "loss": 0.0024,
+      "reward": 1.6440320014953613,
+      "reward_std": 0.09271154180169106,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6596570014953613,
+      "step": 2830
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 228.453125,
+      "epoch": 1.3828125,
+      "grad_norm": 0.4931724331120224,
+      "kl": 0.063232421875,
+      "learning_rate": 6.544189453124999e-07,
+      "loss": 0.0025,
+      "reward": 1.8260149955749512,
+      "reward_std": 0.024739277781918645,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8260150253772736,
+      "step": 2831
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 177.4765625,
+      "epoch": 1.38330078125,
+      "grad_norm": 1.093941327614133,
+      "kl": 0.06396484375,
+      "learning_rate": 6.54296875e-07,
+      "loss": 0.0026,
+      "reward": 1.7941319942474365,
+      "reward_std": 0.017439838498830795,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7941320240497589,
+      "step": 2832
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 299.9296875,
+      "epoch": 1.3837890625,
+      "grad_norm": 1.0585896307141636,
+      "kl": 0.060791015625,
+      "learning_rate": 6.541748046875e-07,
+      "loss": 0.0024,
+      "reward": 1.8979597091674805,
+      "reward_std": 0.05379013530910015,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8979597091674805,
+      "step": 2833
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 387.5390625,
+      "epoch": 1.38427734375,
+      "grad_norm": 2.579223044774424,
+      "kl": 0.079345703125,
+      "learning_rate": 6.54052734375e-07,
+      "loss": 0.0032,
+      "reward": 1.6481378078460693,
+      "reward_std": 0.10650475323200226,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6559503078460693,
+      "step": 2834
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 303.546875,
+      "epoch": 1.384765625,
+      "grad_norm": 2.5957275431327025,
+      "kl": 0.074951171875,
+      "learning_rate": 6.539306640625e-07,
+      "loss": 0.003,
+      "reward": 1.7491188645362854,
+      "reward_std": 0.04664234071969986,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7491189241409302,
+      "step": 2835
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 372.0078125,
+      "epoch": 1.38525390625,
+      "grad_norm": 1.4332709494413776,
+      "kl": 0.08251953125,
+      "learning_rate": 6.5380859375e-07,
+      "loss": 0.0033,
+      "reward": 1.7521470189094543,
+      "reward_std": 0.07698429748415947,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7521470487117767,
+      "step": 2836
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 306.3359375,
+      "epoch": 1.3857421875,
+      "grad_norm": 0.8961647450408224,
+      "kl": 0.101806640625,
+      "learning_rate": 6.536865234374999e-07,
+      "loss": 0.0041,
+      "reward": 1.7263582348823547,
+      "reward_std": 0.05472889542579651,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7263582050800323,
+      "step": 2837
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 345.578125,
+      "epoch": 1.38623046875,
+      "grad_norm": 1.417539744141072,
+      "kl": 0.077392578125,
+      "learning_rate": 6.535644531249999e-07,
+      "loss": 0.0031,
+      "reward": 1.645662248134613,
+      "reward_std": 0.10042403638362885,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6534747779369354,
+      "step": 2838
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 193.140625,
+      "epoch": 1.38671875,
+      "grad_norm": 6.057330374770775,
+      "kl": 0.14404296875,
+      "learning_rate": 6.534423828125e-07,
+      "loss": 0.0058,
+      "reward": 1.7092814445495605,
+      "reward_std": 0.02909145038574934,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7092815637588501,
+      "step": 2839
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 376.078125,
+      "epoch": 1.38720703125,
+      "grad_norm": 0.9907276256447438,
+      "kl": 0.06494140625,
+      "learning_rate": 6.533203125e-07,
+      "loss": 0.0026,
+      "reward": 1.674263060092926,
+      "reward_std": 0.17288543283939362,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.7133256196975708,
+      "step": 2840
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 340.8125,
+      "epoch": 1.3876953125,
+      "grad_norm": 72.38821291532156,
+      "kl": 0.57373046875,
+      "learning_rate": 6.531982421875e-07,
+      "loss": 0.0229,
+      "reward": 1.7409939765930176,
+      "reward_std": 0.14576169103384018,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7566189765930176,
+      "step": 2841
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 213.6328125,
+      "epoch": 1.38818359375,
+      "grad_norm": 0.7516084081038863,
+      "kl": 0.07373046875,
+      "learning_rate": 6.53076171875e-07,
+      "loss": 0.003,
+      "reward": 1.7337377667427063,
+      "reward_std": 0.05978046730160713,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7337378263473511,
+      "step": 2842
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 336.734375,
+      "epoch": 1.388671875,
+      "grad_norm": 1.1741854698445926,
+      "kl": 0.0694580078125,
+      "learning_rate": 6.529541015625e-07,
+      "loss": 0.0028,
+      "reward": 1.6884747743606567,
+      "reward_std": 0.12016388587653637,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7040997445583344,
+      "step": 2843
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 305.5078125,
+      "epoch": 1.38916015625,
+      "grad_norm": 1.7849395697497092,
+      "kl": 0.0703125,
+      "learning_rate": 6.528320312499999e-07,
+      "loss": 0.0028,
+      "reward": 1.7630398273468018,
+      "reward_std": 0.0514018889516592,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7630398273468018,
+      "step": 2844
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 361.734375,
+      "epoch": 1.3896484375,
+      "grad_norm": 1.2904172737765798,
+      "kl": 0.065673828125,
+      "learning_rate": 6.527099609375e-07,
+      "loss": 0.0026,
+      "reward": 1.7109894752502441,
+      "reward_std": 0.037571437656879425,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7109894752502441,
+      "step": 2845
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 310.0859375,
+      "epoch": 1.39013671875,
+      "grad_norm": 0.9983955556960216,
+      "kl": 0.073974609375,
+      "learning_rate": 6.52587890625e-07,
+      "loss": 0.003,
+      "reward": 1.7116398215293884,
+      "reward_std": 0.061076716519892216,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.711639791727066,
+      "step": 2846
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 281.71875,
+      "epoch": 1.390625,
+      "grad_norm": 0.7920028351802623,
+      "kl": 0.068603515625,
+      "learning_rate": 6.524658203125e-07,
+      "loss": 0.0027,
+      "reward": 1.78658789396286,
+      "reward_std": 0.06295670091640204,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7944003939628601,
+      "step": 2847
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 319.828125,
+      "epoch": 1.39111328125,
+      "grad_norm": 2.1506316903194094,
+      "kl": 0.06982421875,
+      "learning_rate": 6.5234375e-07,
+      "loss": 0.0028,
+      "reward": 1.8838631510734558,
+      "reward_std": 0.06648493744432926,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8916757106781006,
+      "step": 2848
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 308.578125,
+      "epoch": 1.3916015625,
+      "grad_norm": 1.1112381345863096,
+      "kl": 0.07421875,
+      "learning_rate": 6.522216796875e-07,
+      "loss": 0.003,
+      "reward": 1.712832510471344,
+      "reward_std": 0.07860787212848663,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7128325700759888,
+      "step": 2849
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 306.3828125,
+      "epoch": 1.39208984375,
+      "grad_norm": 1.609890133849202,
+      "kl": 0.0626220703125,
+      "learning_rate": 6.520996093749999e-07,
+      "loss": 0.0025,
+      "reward": 1.802548348903656,
+      "reward_std": 0.039428723976016045,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8025482892990112,
+      "step": 2850
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 338.8828125,
+      "epoch": 1.392578125,
+      "grad_norm": 2.1181979161526345,
+      "kl": 0.09521484375,
+      "learning_rate": 6.519775390624999e-07,
+      "loss": 0.0038,
+      "reward": 1.7357767820358276,
+      "reward_std": 0.08965800702571869,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7357767522335052,
+      "step": 2851
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 334.421875,
+      "epoch": 1.39306640625,
+      "grad_norm": 6.007115954333245,
+      "kl": 0.0819091796875,
+      "learning_rate": 6.5185546875e-07,
+      "loss": 0.0033,
+      "reward": 1.7287788391113281,
+      "reward_std": 0.08958043158054352,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7287788093090057,
+      "step": 2852
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 306.3125,
+      "epoch": 1.3935546875,
+      "grad_norm": 1.2649144166568242,
+      "kl": 0.075927734375,
+      "learning_rate": 6.517333984375e-07,
+      "loss": 0.003,
+      "reward": 1.6118924021720886,
+      "reward_std": 0.1063384860754013,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6197049021720886,
+      "step": 2853
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 270.6875,
+      "epoch": 1.39404296875,
+      "grad_norm": 4.371721447909433,
+      "kl": 0.08251953125,
+      "learning_rate": 6.51611328125e-07,
+      "loss": 0.0033,
+      "reward": 1.5534948110580444,
+      "reward_std": 0.04652980901300907,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.5534948408603668,
+      "step": 2854
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 249.296875,
+      "epoch": 1.39453125,
+      "grad_norm": 1.1589218702703599,
+      "kl": 0.076904296875,
+      "learning_rate": 6.514892578125e-07,
+      "loss": 0.0031,
+      "reward": 1.6414119601249695,
+      "reward_std": 0.059677837416529655,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6492244899272919,
+      "step": 2855
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 300.328125,
+      "epoch": 1.39501953125,
+      "grad_norm": 2.7183716635470994,
+      "kl": 0.077392578125,
+      "learning_rate": 6.513671875e-07,
+      "loss": 0.0031,
+      "reward": 1.732553243637085,
+      "reward_std": 0.04065544903278351,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7325531840324402,
+      "step": 2856
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 318.0078125,
+      "epoch": 1.3955078125,
+      "grad_norm": 2.0094522160396378,
+      "kl": 0.0869140625,
+      "learning_rate": 6.512451171874999e-07,
+      "loss": 0.0035,
+      "reward": 1.7317038774490356,
+      "reward_std": 0.04309108108282089,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7317038774490356,
+      "step": 2857
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 290.1015625,
+      "epoch": 1.39599609375,
+      "grad_norm": 1.7850835774009906,
+      "kl": 0.0718994140625,
+      "learning_rate": 6.511230468749999e-07,
+      "loss": 0.0029,
+      "reward": 1.751394808292389,
+      "reward_std": 0.09872918948531151,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7513948082923889,
+      "step": 2858
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 351.53125,
+      "epoch": 1.396484375,
+      "grad_norm": 2.3667754366875067,
+      "kl": 0.080810546875,
+      "learning_rate": 6.510009765625e-07,
+      "loss": 0.0032,
+      "reward": 1.749050259590149,
+      "reward_std": 0.057237736880779266,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7490502893924713,
+      "step": 2859
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 265.71875,
+      "epoch": 1.39697265625,
+      "grad_norm": 4.5044551506426656,
+      "kl": 0.0618896484375,
+      "learning_rate": 6.5087890625e-07,
+      "loss": 0.0025,
+      "reward": 1.816435694694519,
+      "reward_std": 0.05485322326421738,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.816435694694519,
+      "step": 2860
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 347.5625,
+      "epoch": 1.3974609375,
+      "grad_norm": 0.9423463055806306,
+      "kl": 0.073486328125,
+      "learning_rate": 6.507568359375e-07,
+      "loss": 0.0029,
+      "reward": 1.7192687392234802,
+      "reward_std": 0.057240571826696396,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7192686796188354,
+      "step": 2861
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 336.0546875,
+      "epoch": 1.39794921875,
+      "grad_norm": 4.006446009955896,
+      "kl": 0.070068359375,
+      "learning_rate": 6.50634765625e-07,
+      "loss": 0.0028,
+      "reward": 1.7493478059768677,
+      "reward_std": 0.08323598839342594,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7493478059768677,
+      "step": 2862
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 212.28125,
+      "epoch": 1.3984375,
+      "grad_norm": 1.1324756629593455,
+      "kl": 0.075439453125,
+      "learning_rate": 6.505126953124999e-07,
+      "loss": 0.003,
+      "reward": 1.8583284616470337,
+      "reward_std": 0.01956217922270298,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8583284616470337,
+      "step": 2863
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 276.046875,
+      "epoch": 1.39892578125,
+      "grad_norm": 1.583271479867273,
+      "kl": 0.0682373046875,
+      "learning_rate": 6.503906249999999e-07,
+      "loss": 0.0027,
+      "reward": 1.8412460088729858,
+      "reward_std": 0.11462399363517761,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8490585088729858,
+      "step": 2864
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 241.421875,
+      "epoch": 1.3994140625,
+      "grad_norm": 1.1615901347183661,
+      "kl": 0.0711669921875,
+      "learning_rate": 6.502685546875e-07,
+      "loss": 0.0028,
+      "reward": 1.7544441223144531,
+      "reward_std": 0.05260493792593479,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7544440627098083,
+      "step": 2865
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 300.6875,
+      "epoch": 1.39990234375,
+      "grad_norm": 7.6165646200529284,
+      "kl": 0.0791015625,
+      "learning_rate": 6.50146484375e-07,
+      "loss": 0.0032,
+      "reward": 1.7561290264129639,
+      "reward_std": 0.09663645923137665,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7717540264129639,
+      "step": 2866
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 366.28125,
+      "epoch": 1.400390625,
+      "grad_norm": 1.1725742243241242,
+      "kl": 0.069091796875,
+      "learning_rate": 6.500244140625e-07,
+      "loss": 0.0028,
+      "reward": 1.6970765590667725,
+      "reward_std": 0.13552076928317547,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7048889398574829,
+      "step": 2867
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 232.578125,
+      "epoch": 1.40087890625,
+      "grad_norm": 3.094101668652219,
+      "kl": 0.0693359375,
+      "learning_rate": 6.4990234375e-07,
+      "loss": 0.0028,
+      "reward": 1.7442750334739685,
+      "reward_std": 0.05703293904662132,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7442750930786133,
+      "step": 2868
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 309.859375,
+      "epoch": 1.4013671875,
+      "grad_norm": 3.527416892215106,
+      "kl": 0.0927734375,
+      "learning_rate": 6.497802734375e-07,
+      "loss": 0.0037,
+      "reward": 1.658632516860962,
+      "reward_std": 0.05164991691708565,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6586325764656067,
+      "step": 2869
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 263.890625,
+      "epoch": 1.40185546875,
+      "grad_norm": 8.518640897558415,
+      "kl": 0.09228515625,
+      "learning_rate": 6.496582031249999e-07,
+      "loss": 0.0037,
+      "reward": 1.7752405405044556,
+      "reward_std": 0.04082014970481396,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7752405405044556,
+      "step": 2870
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 377.3046875,
+      "epoch": 1.40234375,
+      "grad_norm": 1.2735396040272664,
+      "kl": 0.0635986328125,
+      "learning_rate": 6.495361328124999e-07,
+      "loss": 0.0025,
+      "reward": 1.8235573172569275,
+      "reward_std": 0.04111157916486263,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8235573768615723,
+      "step": 2871
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 268.390625,
+      "epoch": 1.40283203125,
+      "grad_norm": 1.91252386313284,
+      "kl": 0.07470703125,
+      "learning_rate": 6.494140625e-07,
+      "loss": 0.003,
+      "reward": 1.7103378772735596,
+      "reward_std": 0.06228804960846901,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7103378474712372,
+      "step": 2872
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 301.828125,
+      "epoch": 1.4033203125,
+      "grad_norm": 1.1497181496044657,
+      "kl": 0.088134765625,
+      "learning_rate": 6.492919921875e-07,
+      "loss": 0.0035,
+      "reward": 1.75039541721344,
+      "reward_std": 0.04632897302508354,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7503954172134399,
+      "step": 2873
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 263.125,
+      "epoch": 1.40380859375,
+      "grad_norm": 2.0387706691630783,
+      "kl": 0.068115234375,
+      "learning_rate": 6.49169921875e-07,
+      "loss": 0.0027,
+      "reward": 1.799646258354187,
+      "reward_std": 0.09669975563883781,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.807458758354187,
+      "step": 2874
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 282.7890625,
+      "epoch": 1.404296875,
+      "grad_norm": 1.3450734188530216,
+      "kl": 0.0771484375,
+      "learning_rate": 6.490478515625e-07,
+      "loss": 0.0031,
+      "reward": 1.7853235602378845,
+      "reward_std": 0.11038247868418694,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7931360602378845,
+      "step": 2875
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 332.9609375,
+      "epoch": 1.40478515625,
+      "grad_norm": 2.8171006789126753,
+      "kl": 0.0574951171875,
+      "learning_rate": 6.489257812499999e-07,
+      "loss": 0.0023,
+      "reward": 1.7852590084075928,
+      "reward_std": 0.10786662250757217,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7930714786052704,
+      "step": 2876
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 328.9375,
+      "epoch": 1.4052734375,
+      "grad_norm": 7.972532719423657,
+      "kl": 0.0927734375,
+      "learning_rate": 6.488037109374999e-07,
+      "loss": 0.0037,
+      "reward": 1.6059449911117554,
+      "reward_std": 0.0608881339430809,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.605944961309433,
+      "step": 2877
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 415.3203125,
+      "epoch": 1.40576171875,
+      "grad_norm": 1.0381545239399501,
+      "kl": 0.062255859375,
+      "learning_rate": 6.48681640625e-07,
+      "loss": 0.0025,
+      "reward": 1.7436492443084717,
+      "reward_std": 0.10550978034734726,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7514617443084717,
+      "step": 2878
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 379.75,
+      "epoch": 1.40625,
+      "grad_norm": 0.9257238624924248,
+      "kl": 0.0810546875,
+      "learning_rate": 6.485595703125e-07,
+      "loss": 0.0032,
+      "reward": 1.7538402080535889,
+      "reward_std": 0.08971455320715904,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7616527676582336,
+      "step": 2879
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 206.1796875,
+      "epoch": 1.40673828125,
+      "grad_norm": 2.4068440590607576,
+      "kl": 0.083740234375,
+      "learning_rate": 6.484375e-07,
+      "loss": 0.0034,
+      "reward": 1.7696812748908997,
+      "reward_std": 0.05204281397163868,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7696812748908997,
+      "step": 2880
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 344.0703125,
+      "epoch": 1.4072265625,
+      "grad_norm": 3.6657345328091027,
+      "kl": 0.0927734375,
+      "learning_rate": 6.483154296875e-07,
+      "loss": 0.0037,
+      "reward": 1.7494273781776428,
+      "reward_std": 0.12914881110191345,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7650523781776428,
+      "step": 2881
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 302.15625,
+      "epoch": 1.40771484375,
+      "grad_norm": 1.3100826271644412,
+      "kl": 0.09375,
+      "learning_rate": 6.48193359375e-07,
+      "loss": 0.0038,
+      "reward": 1.7687904238700867,
+      "reward_std": 0.03958193212747574,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7687904834747314,
+      "step": 2882
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 258.21875,
+      "epoch": 1.408203125,
+      "grad_norm": 2.850476912346545,
+      "kl": 0.0791015625,
+      "learning_rate": 6.480712890624999e-07,
+      "loss": 0.0032,
+      "reward": 1.718224585056305,
+      "reward_std": 0.07007079944014549,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7182245850563049,
+      "step": 2883
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 263.0703125,
+      "epoch": 1.40869140625,
+      "grad_norm": 2.224248079259704,
+      "kl": 0.070556640625,
+      "learning_rate": 6.479492187499999e-07,
+      "loss": 0.0028,
+      "reward": 1.81133633852005,
+      "reward_std": 0.07499665580689907,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.81133633852005,
+      "step": 2884
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 302.9296875,
+      "epoch": 1.4091796875,
+      "grad_norm": 1.6913926305711484,
+      "kl": 0.0560302734375,
+      "learning_rate": 6.478271484375e-07,
+      "loss": 0.0022,
+      "reward": 1.7844181060791016,
+      "reward_std": 0.1209041029214859,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7844181060791016,
+      "step": 2885
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 329.0625,
+      "epoch": 1.40966796875,
+      "grad_norm": 1.0647796466049049,
+      "kl": 0.084228515625,
+      "learning_rate": 6.47705078125e-07,
+      "loss": 0.0034,
+      "reward": 1.8228704333305359,
+      "reward_std": 0.03462422825396061,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8228704631328583,
+      "step": 2886
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 308.7578125,
+      "epoch": 1.41015625,
+      "grad_norm": 1.4054822535501044,
+      "kl": 0.059326171875,
+      "learning_rate": 6.475830078125e-07,
+      "loss": 0.0024,
+      "reward": 1.7760130167007446,
+      "reward_std": 0.0543476827442646,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.776013046503067,
+      "step": 2887
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 265.34375,
+      "epoch": 1.41064453125,
+      "grad_norm": 6.2835453355319535,
+      "kl": 0.057373046875,
+      "learning_rate": 6.474609375e-07,
+      "loss": 0.0023,
+      "reward": 1.8040868043899536,
+      "reward_std": 0.046066829934716225,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8040868043899536,
+      "step": 2888
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 352.96875,
+      "epoch": 1.4111328125,
+      "grad_norm": 2.407813465668005,
+      "kl": 0.069580078125,
+      "learning_rate": 6.473388671874999e-07,
+      "loss": 0.0028,
+      "reward": 1.6971461772918701,
+      "reward_std": 0.08162091299891472,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6971462368965149,
+      "step": 2889
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 282.9921875,
+      "epoch": 1.41162109375,
+      "grad_norm": 6.777877992014395,
+      "kl": 0.068359375,
+      "learning_rate": 6.472167968749999e-07,
+      "loss": 0.0027,
+      "reward": 1.7807137966156006,
+      "reward_std": 0.07970836386084557,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7807137668132782,
+      "step": 2890
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 422.4453125,
+      "epoch": 1.412109375,
+      "grad_norm": 5.8315057276286675,
+      "kl": 0.046142578125,
+      "learning_rate": 6.470947265625e-07,
+      "loss": 0.0018,
+      "reward": 1.8434737920761108,
+      "reward_std": 0.06651721894741058,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8512862920761108,
+      "step": 2891
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 446.265625,
+      "epoch": 1.41259765625,
+      "grad_norm": 1.3705583029994997,
+      "kl": 0.0595703125,
+      "learning_rate": 6.4697265625e-07,
+      "loss": 0.0024,
+      "reward": 1.6831304430961609,
+      "reward_std": 0.22392578423023224,
+      "rewards/format_reward": 0.9453125,
+      "rewards/ocr_reward": 0.7378179430961609,
+      "step": 2892
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 358.6796875,
+      "epoch": 1.4130859375,
+      "grad_norm": 0.8488028443872007,
+      "kl": 0.066162109375,
+      "learning_rate": 6.468505859375e-07,
+      "loss": 0.0026,
+      "reward": 1.738794982433319,
+      "reward_std": 0.13992030546069145,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.7700450122356415,
+      "step": 2893
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 322.5625,
+      "epoch": 1.41357421875,
+      "grad_norm": 1.069830600645475,
+      "kl": 0.080322265625,
+      "learning_rate": 6.46728515625e-07,
+      "loss": 0.0032,
+      "reward": 1.4707675576210022,
+      "reward_std": 0.07445183768868446,
+      "rewards/format_reward": 0.9453125,
+      "rewards/ocr_reward": 0.5254550278186798,
+      "step": 2894
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 343.984375,
+      "epoch": 1.4140625,
+      "grad_norm": 1.2750408423135347,
+      "kl": 0.060791015625,
+      "learning_rate": 6.466064453125e-07,
+      "loss": 0.0024,
+      "reward": 1.770975410938263,
+      "reward_std": 0.11516737192869186,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7866004109382629,
+      "step": 2895
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 400.359375,
+      "epoch": 1.41455078125,
+      "grad_norm": 2.2794674346865134,
+      "kl": 0.064697265625,
+      "learning_rate": 6.464843749999999e-07,
+      "loss": 0.0026,
+      "reward": 1.7922708988189697,
+      "reward_std": 0.1690206415951252,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.8235209882259369,
+      "step": 2896
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 273.75,
+      "epoch": 1.4150390625,
+      "grad_norm": 1.0310963228503536,
+      "kl": 0.068603515625,
+      "learning_rate": 6.463623046874999e-07,
+      "loss": 0.0027,
+      "reward": 1.8120849132537842,
+      "reward_std": 0.06387075781822205,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8198973536491394,
+      "step": 2897
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 337.8046875,
+      "epoch": 1.41552734375,
+      "grad_norm": 0.941272249249113,
+      "kl": 0.0628662109375,
+      "learning_rate": 6.46240234375e-07,
+      "loss": 0.0025,
+      "reward": 1.6103965044021606,
+      "reward_std": 0.13843106850981712,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.6416464447975159,
+      "step": 2898
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 323.3359375,
+      "epoch": 1.416015625,
+      "grad_norm": 2.4628580027257514,
+      "kl": 0.0589599609375,
+      "learning_rate": 6.461181640625e-07,
+      "loss": 0.0024,
+      "reward": 1.822964370250702,
+      "reward_std": 0.13363437354564667,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.8464018404483795,
+      "step": 2899
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 311.5703125,
+      "epoch": 1.41650390625,
+      "grad_norm": 3.35939246403186,
+      "kl": 0.07763671875,
+      "learning_rate": 6.4599609375e-07,
+      "loss": 0.0031,
+      "reward": 1.8861233592033386,
+      "reward_std": 0.17267528176307678,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8939358592033386,
+      "step": 2900
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 340.5,
+      "epoch": 1.4169921875,
+      "grad_norm": 1.678376818469578,
+      "kl": 0.07861328125,
+      "learning_rate": 6.458740234375e-07,
+      "loss": 0.0031,
+      "reward": 1.904150128364563,
+      "reward_std": 0.03639446757733822,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.9041501879692078,
+      "step": 2901
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 379.0625,
+      "epoch": 1.41748046875,
+      "grad_norm": 1.8009959754813598,
+      "kl": 0.07958984375,
+      "learning_rate": 6.457519531249999e-07,
+      "loss": 0.0032,
+      "reward": 1.738788664340973,
+      "reward_std": 0.04321512393653393,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7387886047363281,
+      "step": 2902
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 261.2578125,
+      "epoch": 1.41796875,
+      "grad_norm": 1.751332386306868,
+      "kl": 0.072998046875,
+      "learning_rate": 6.456298828124999e-07,
+      "loss": 0.0029,
+      "reward": 1.8467352390289307,
+      "reward_std": 0.05003441125154495,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8467352986335754,
+      "step": 2903
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 329.796875,
+      "epoch": 1.41845703125,
+      "grad_norm": 0.8841298672283215,
+      "kl": 0.081298828125,
+      "learning_rate": 6.455078125e-07,
+      "loss": 0.0033,
+      "reward": 1.6881967186927795,
+      "reward_std": 0.09820759668946266,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7038217782974243,
+      "step": 2904
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 223.7265625,
+      "epoch": 1.4189453125,
+      "grad_norm": 2.2187376677871553,
+      "kl": 0.083984375,
+      "learning_rate": 6.453857421875e-07,
+      "loss": 0.0034,
+      "reward": 1.7173711061477661,
+      "reward_std": 0.11199202761054039,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7251836061477661,
+      "step": 2905
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 306.765625,
+      "epoch": 1.41943359375,
+      "grad_norm": 1.677314384639223,
+      "kl": 0.0687255859375,
+      "learning_rate": 6.45263671875e-07,
+      "loss": 0.0028,
+      "reward": 1.7222880125045776,
+      "reward_std": 0.08582095801830292,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7222879230976105,
+      "step": 2906
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 335.2578125,
+      "epoch": 1.419921875,
+      "grad_norm": 1.5234578995591637,
+      "kl": 0.0589599609375,
+      "learning_rate": 6.451416015625e-07,
+      "loss": 0.0024,
+      "reward": 1.786740779876709,
+      "reward_std": 0.1870395466685295,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.8179908096790314,
+      "step": 2907
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 247.8046875,
+      "epoch": 1.42041015625,
+      "grad_norm": 3.9967357862014166,
+      "kl": 0.069091796875,
+      "learning_rate": 6.4501953125e-07,
+      "loss": 0.0028,
+      "reward": 1.7316583395004272,
+      "reward_std": 0.0972440093755722,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7394708096981049,
+      "step": 2908
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 293.2890625,
+      "epoch": 1.4208984375,
+      "grad_norm": 0.9583192864484285,
+      "kl": 0.056884765625,
+      "learning_rate": 6.448974609374999e-07,
+      "loss": 0.0023,
+      "reward": 1.7740533947944641,
+      "reward_std": 0.06026652827858925,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7740534543991089,
+      "step": 2909
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 256.1484375,
+      "epoch": 1.42138671875,
+      "grad_norm": 2.6735176863175707,
+      "kl": 0.0640869140625,
+      "learning_rate": 6.447753906249999e-07,
+      "loss": 0.0026,
+      "reward": 1.8210537433624268,
+      "reward_std": 0.10449858009815216,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8288662135601044,
+      "step": 2910
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 316.5859375,
+      "epoch": 1.421875,
+      "grad_norm": 5.569660343086,
+      "kl": 0.05224609375,
+      "learning_rate": 6.446533203125e-07,
+      "loss": 0.0021,
+      "reward": 1.8247524499893188,
+      "reward_std": 0.0780985876917839,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8325649201869965,
+      "step": 2911
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 250.1953125,
+      "epoch": 1.42236328125,
+      "grad_norm": 9.353451383129727,
+      "kl": 0.068115234375,
+      "learning_rate": 6.4453125e-07,
+      "loss": 0.0027,
+      "reward": 1.7248165011405945,
+      "reward_std": 0.09427638724446297,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7248164713382721,
+      "step": 2912
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 321.3828125,
+      "epoch": 1.4228515625,
+      "grad_norm": 0.8980177691930714,
+      "kl": 0.06640625,
+      "learning_rate": 6.444091796875e-07,
+      "loss": 0.0027,
+      "reward": 1.817960262298584,
+      "reward_std": 0.02281077764928341,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8179602324962616,
+      "step": 2913
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 321.5859375,
+      "epoch": 1.42333984375,
+      "grad_norm": 1.6111400955213642,
+      "kl": 0.08740234375,
+      "learning_rate": 6.44287109375e-07,
+      "loss": 0.0035,
+      "reward": 1.7714014053344727,
+      "reward_std": 0.04745063558220863,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7714014053344727,
+      "step": 2914
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 203.0,
+      "epoch": 1.423828125,
+      "grad_norm": 0.9803662051320426,
+      "kl": 0.081298828125,
+      "learning_rate": 6.441650390625e-07,
+      "loss": 0.0032,
+      "reward": 1.8443069458007812,
+      "reward_std": 0.044496684800833464,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8443069458007812,
+      "step": 2915
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 424.640625,
+      "epoch": 1.42431640625,
+      "grad_norm": 1.0830923513904844,
+      "kl": 0.063232421875,
+      "learning_rate": 6.440429687499999e-07,
+      "loss": 0.0025,
+      "reward": 1.739950180053711,
+      "reward_std": 0.09381197765469551,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7477626502513885,
+      "step": 2916
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 294.0703125,
+      "epoch": 1.4248046875,
+      "grad_norm": 1.7415926590595752,
+      "kl": 0.07080078125,
+      "learning_rate": 6.439208984375e-07,
+      "loss": 0.0028,
+      "reward": 1.8552255630493164,
+      "reward_std": 0.04862390458583832,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8552254736423492,
+      "step": 2917
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 255.3359375,
+      "epoch": 1.42529296875,
+      "grad_norm": 2.190010550447508,
+      "kl": 0.0662841796875,
+      "learning_rate": 6.43798828125e-07,
+      "loss": 0.0026,
+      "reward": 1.6964465975761414,
+      "reward_std": 0.062107209116220474,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6964466571807861,
+      "step": 2918
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 345.234375,
+      "epoch": 1.42578125,
+      "grad_norm": 2.9783937153275017,
+      "kl": 0.069091796875,
+      "learning_rate": 6.436767578125e-07,
+      "loss": 0.0028,
+      "reward": 1.6416288614273071,
+      "reward_std": 0.06529787369072437,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6494413912296295,
+      "step": 2919
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 340.375,
+      "epoch": 1.42626953125,
+      "grad_norm": 1.6599884910259533,
+      "kl": 0.059326171875,
+      "learning_rate": 6.435546875e-07,
+      "loss": 0.0024,
+      "reward": 1.7820017337799072,
+      "reward_std": 0.06994332000613213,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7820016741752625,
+      "step": 2920
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 276.5390625,
+      "epoch": 1.4267578125,
+      "grad_norm": 0.839929372194412,
+      "kl": 0.0582275390625,
+      "learning_rate": 6.434326171875e-07,
+      "loss": 0.0023,
+      "reward": 1.812927007675171,
+      "reward_std": 0.028376199770718813,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8129269778728485,
+      "step": 2921
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 310.4921875,
+      "epoch": 1.42724609375,
+      "grad_norm": 1.3813349416908838,
+      "kl": 0.07763671875,
+      "learning_rate": 6.433105468749999e-07,
+      "loss": 0.0031,
+      "reward": 1.560662865638733,
+      "reward_std": 0.062494926154613495,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.5606628656387329,
+      "step": 2922
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 254.6015625,
+      "epoch": 1.427734375,
+      "grad_norm": 1.9195445310350872,
+      "kl": 0.064453125,
+      "learning_rate": 6.431884765624999e-07,
+      "loss": 0.0026,
+      "reward": 1.7902184128761292,
+      "reward_std": 0.07021540775895119,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7902184724807739,
+      "step": 2923
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 240.5546875,
+      "epoch": 1.42822265625,
+      "grad_norm": 1.9159652352107033,
+      "kl": 0.1015625,
+      "learning_rate": 6.4306640625e-07,
+      "loss": 0.0041,
+      "reward": 1.8406153321266174,
+      "reward_std": 0.09906695038080215,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8406153321266174,
+      "step": 2924
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 329.8046875,
+      "epoch": 1.4287109375,
+      "grad_norm": 2.002785748157656,
+      "kl": 0.06640625,
+      "learning_rate": 6.429443359375e-07,
+      "loss": 0.0027,
+      "reward": 1.7776061296463013,
+      "reward_std": 0.05872194468975067,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7776060402393341,
+      "step": 2925
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 285.3828125,
+      "epoch": 1.42919921875,
+      "grad_norm": 1.101408367276945,
+      "kl": 0.0751953125,
+      "learning_rate": 6.42822265625e-07,
+      "loss": 0.003,
+      "reward": 1.9210602045059204,
+      "reward_std": 0.04052995890378952,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.9210601449012756,
+      "step": 2926
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 257.109375,
+      "epoch": 1.4296875,
+      "grad_norm": 25.134180738645007,
+      "kl": 0.06689453125,
+      "learning_rate": 6.427001953125e-07,
+      "loss": 0.0027,
+      "reward": 1.780125081539154,
+      "reward_std": 0.042955007404088974,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7801250517368317,
+      "step": 2927
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 247.625,
+      "epoch": 1.43017578125,
+      "grad_norm": 1.3853361093593575,
+      "kl": 0.0748291015625,
+      "learning_rate": 6.42578125e-07,
+      "loss": 0.003,
+      "reward": 1.8148647546768188,
+      "reward_std": 0.05056310258805752,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8148646950721741,
+      "step": 2928
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 303.484375,
+      "epoch": 1.4306640625,
+      "grad_norm": 1.4127563383132502,
+      "kl": 0.0538330078125,
+      "learning_rate": 6.424560546874999e-07,
+      "loss": 0.0022,
+      "reward": 1.80906081199646,
+      "reward_std": 0.05354410037398338,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8090607523918152,
+      "step": 2929
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 265.8671875,
+      "epoch": 1.43115234375,
+      "grad_norm": 0.9102013320719257,
+      "kl": 0.0670166015625,
+      "learning_rate": 6.42333984375e-07,
+      "loss": 0.0027,
+      "reward": 1.8222399950027466,
+      "reward_std": 0.07436484284698963,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.822240024805069,
+      "step": 2930
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 301.015625,
+      "epoch": 1.431640625,
+      "grad_norm": 4.725685144329046,
+      "kl": 0.083740234375,
+      "learning_rate": 6.422119140625e-07,
+      "loss": 0.0033,
+      "reward": 1.7311421036720276,
+      "reward_std": 0.11611544340848923,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7389545738697052,
+      "step": 2931
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 341.328125,
+      "epoch": 1.43212890625,
+      "grad_norm": 1.5563255627352082,
+      "kl": 0.0810546875,
+      "learning_rate": 6.4208984375e-07,
+      "loss": 0.0032,
+      "reward": 1.770340383052826,
+      "reward_std": 0.07487385906279087,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7781528830528259,
+      "step": 2932
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 257.03125,
+      "epoch": 1.4326171875,
+      "grad_norm": 1.9586762224922618,
+      "kl": 0.082763671875,
+      "learning_rate": 6.419677734375e-07,
+      "loss": 0.0033,
+      "reward": 1.614130437374115,
+      "reward_std": 0.025444690138101578,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.614130437374115,
+      "step": 2933
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 306.5390625,
+      "epoch": 1.43310546875,
+      "grad_norm": 1.4419175695980417,
+      "kl": 0.080810546875,
+      "learning_rate": 6.41845703125e-07,
+      "loss": 0.0032,
+      "reward": 1.8455346822738647,
+      "reward_std": 0.20514215901494026,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.8611597120761871,
+      "step": 2934
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 295.515625,
+      "epoch": 1.43359375,
+      "grad_norm": 1.993045779944748,
+      "kl": 0.0830078125,
+      "learning_rate": 6.417236328124999e-07,
+      "loss": 0.0033,
+      "reward": 1.7336124181747437,
+      "reward_std": 0.10690167173743248,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7492374181747437,
+      "step": 2935
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 267.9609375,
+      "epoch": 1.43408203125,
+      "grad_norm": 1.283473748968174,
+      "kl": 0.095458984375,
+      "learning_rate": 6.416015624999999e-07,
+      "loss": 0.0038,
+      "reward": 1.7129297852516174,
+      "reward_std": 0.0318203317001462,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7129298150539398,
+      "step": 2936
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 311.3046875,
+      "epoch": 1.4345703125,
+      "grad_norm": 1.1453748810817357,
+      "kl": 0.0654296875,
+      "learning_rate": 6.414794921875e-07,
+      "loss": 0.0026,
+      "reward": 1.6736072897911072,
+      "reward_std": 0.08154010493308306,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6736072897911072,
+      "step": 2937
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 335.25,
+      "epoch": 1.43505859375,
+      "grad_norm": 2.3905058136733777,
+      "kl": 0.0712890625,
+      "learning_rate": 6.41357421875e-07,
+      "loss": 0.0028,
+      "reward": 1.7600257396697998,
+      "reward_std": 0.10162025317549706,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7756507098674774,
+      "step": 2938
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 311.0234375,
+      "epoch": 1.435546875,
+      "grad_norm": 0.9852440812866968,
+      "kl": 0.0693359375,
+      "learning_rate": 6.412353515625e-07,
+      "loss": 0.0028,
+      "reward": 1.7784386277198792,
+      "reward_std": 0.09795338660478592,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.8018760681152344,
+      "step": 2939
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 289.390625,
+      "epoch": 1.43603515625,
+      "grad_norm": 5.526089374651416,
+      "kl": 0.0697021484375,
+      "learning_rate": 6.4111328125e-07,
+      "loss": 0.0028,
+      "reward": 1.8081418871879578,
+      "reward_std": 0.05436134152114391,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.808141827583313,
+      "step": 2940
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 258.7734375,
+      "epoch": 1.4365234375,
+      "grad_norm": 1.4939649863180227,
+      "kl": 0.0582275390625,
+      "learning_rate": 6.409912109375e-07,
+      "loss": 0.0023,
+      "reward": 1.9053468704223633,
+      "reward_std": 0.05440020468086004,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.9053468704223633,
+      "step": 2941
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 283.109375,
+      "epoch": 1.43701171875,
+      "grad_norm": 1.8121729150206805,
+      "kl": 0.074951171875,
+      "learning_rate": 6.408691406249999e-07,
+      "loss": 0.003,
+      "reward": 1.762609839439392,
+      "reward_std": 0.025970693212002516,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7626098394393921,
+      "step": 2942
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 294.5859375,
+      "epoch": 1.4375,
+      "grad_norm": 0.9192342581628401,
+      "kl": 0.0701904296875,
+      "learning_rate": 6.407470703125e-07,
+      "loss": 0.0028,
+      "reward": 1.6859044432640076,
+      "reward_std": 0.040243260096758604,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6859044134616852,
+      "step": 2943
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 235.3671875,
+      "epoch": 1.43798828125,
+      "grad_norm": 2.475395126244144,
+      "kl": 0.08544921875,
+      "learning_rate": 6.40625e-07,
+      "loss": 0.0034,
+      "reward": 1.848134458065033,
+      "reward_std": 0.0467034000903368,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.848134458065033,
+      "step": 2944
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 229.3828125,
+      "epoch": 1.4384765625,
+      "grad_norm": 3.6098224066349096,
+      "kl": 0.075439453125,
+      "learning_rate": 6.405029296875e-07,
+      "loss": 0.003,
+      "reward": 1.812850534915924,
+      "reward_std": 0.031669266521930695,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8128505349159241,
+      "step": 2945
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 307.2109375,
+      "epoch": 1.43896484375,
+      "grad_norm": 2.222659762962882,
+      "kl": 0.07421875,
+      "learning_rate": 6.40380859375e-07,
+      "loss": 0.003,
+      "reward": 1.7910358309745789,
+      "reward_std": 0.05065750889480114,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7910358011722565,
+      "step": 2946
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 326.6484375,
+      "epoch": 1.439453125,
+      "grad_norm": 2.208671012693913,
+      "kl": 0.10302734375,
+      "learning_rate": 6.402587890625e-07,
+      "loss": 0.0041,
+      "reward": 1.6763520240783691,
+      "reward_std": 0.058261996135115623,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6763519942760468,
+      "step": 2947
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 259.3515625,
+      "epoch": 1.43994140625,
+      "grad_norm": 1.5352653822354414,
+      "kl": 0.063232421875,
+      "learning_rate": 6.401367187499999e-07,
+      "loss": 0.0025,
+      "reward": 1.755962073802948,
+      "reward_std": 0.03862538933753967,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7559620141983032,
+      "step": 2948
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 315.7265625,
+      "epoch": 1.4404296875,
+      "grad_norm": 0.698355831200674,
+      "kl": 0.06982421875,
+      "learning_rate": 6.400146484374999e-07,
+      "loss": 0.0028,
+      "reward": 1.7664831280708313,
+      "reward_std": 0.020398199558258057,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7664831578731537,
+      "step": 2949
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 258.8359375,
+      "epoch": 1.44091796875,
+      "grad_norm": 2.578363130813962,
+      "kl": 0.080810546875,
+      "learning_rate": 6.39892578125e-07,
+      "loss": 0.0032,
+      "reward": 1.7696714997291565,
+      "reward_std": 0.051741763949394226,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7696714997291565,
+      "step": 2950
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 333.1875,
+      "epoch": 1.44140625,
+      "grad_norm": 6.744614815262741,
+      "kl": 0.070068359375,
+      "learning_rate": 6.397705078125e-07,
+      "loss": 0.0028,
+      "reward": 1.787192463874817,
+      "reward_std": 0.030791327357292175,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7871924936771393,
+      "step": 2951
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 353.90625,
+      "epoch": 1.44189453125,
+      "grad_norm": 0.853256922168278,
+      "kl": 0.0648193359375,
+      "learning_rate": 6.396484375e-07,
+      "loss": 0.0026,
+      "reward": 1.7069947719573975,
+      "reward_std": 0.10049226693809032,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7226196825504303,
+      "step": 2952
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 378.875,
+      "epoch": 1.4423828125,
+      "grad_norm": 1.7414803959752738,
+      "kl": 0.0633544921875,
+      "learning_rate": 6.395263671875e-07,
+      "loss": 0.0025,
+      "reward": 1.7784687280654907,
+      "reward_std": 0.03222686983644962,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7784686982631683,
+      "step": 2953
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 242.796875,
+      "epoch": 1.44287109375,
+      "grad_norm": 0.7824543197588109,
+      "kl": 0.065185546875,
+      "learning_rate": 6.39404296875e-07,
+      "loss": 0.0026,
+      "reward": 1.835627555847168,
+      "reward_std": 0.07133413106203079,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.835627555847168,
+      "step": 2954
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 259.2421875,
+      "epoch": 1.443359375,
+      "grad_norm": 1.005077756695292,
+      "kl": 0.0574951171875,
+      "learning_rate": 6.392822265624999e-07,
+      "loss": 0.0023,
+      "reward": 1.907008171081543,
+      "reward_std": 0.12066750600934029,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.9148207008838654,
+      "step": 2955
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 459.796875,
+      "epoch": 1.44384765625,
+      "grad_norm": 1.6630553458065824,
+      "kl": 0.05712890625,
+      "learning_rate": 6.391601562499999e-07,
+      "loss": 0.0023,
+      "reward": 1.6454344391822815,
+      "reward_std": 0.130395095795393,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.6923094987869263,
+      "step": 2956
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 310.1875,
+      "epoch": 1.4443359375,
+      "grad_norm": 1.6919739972247043,
+      "kl": 0.080078125,
+      "learning_rate": 6.390380859375e-07,
+      "loss": 0.0032,
+      "reward": 1.7030593156814575,
+      "reward_std": 0.11804335564374924,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.7343093156814575,
+      "step": 2957
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 299.5,
+      "epoch": 1.44482421875,
+      "grad_norm": 3.0488067627667186,
+      "kl": 0.0574951171875,
+      "learning_rate": 6.38916015625e-07,
+      "loss": 0.0023,
+      "reward": 1.7935433387756348,
+      "reward_std": 0.11342027597129345,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.8091683387756348,
+      "step": 2958
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 255.875,
+      "epoch": 1.4453125,
+      "grad_norm": 3.417146010971531,
+      "kl": 0.08154296875,
+      "learning_rate": 6.387939453125e-07,
+      "loss": 0.0033,
+      "reward": 1.7204725742340088,
+      "reward_std": 0.10613266006112099,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7282850742340088,
+      "step": 2959
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 285.0078125,
+      "epoch": 1.44580078125,
+      "grad_norm": 7.369282649351467,
+      "kl": 0.06591796875,
+      "learning_rate": 6.38671875e-07,
+      "loss": 0.0026,
+      "reward": 1.7681906819343567,
+      "reward_std": 0.02635895786806941,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7681907117366791,
+      "step": 2960
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 318.953125,
+      "epoch": 1.4462890625,
+      "grad_norm": 2.0658434347932264,
+      "kl": 0.0645751953125,
+      "learning_rate": 6.385498046874999e-07,
+      "loss": 0.0026,
+      "reward": 1.817894995212555,
+      "reward_std": 0.07758408039808273,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8178950250148773,
+      "step": 2961
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 286.9765625,
+      "epoch": 1.44677734375,
+      "grad_norm": 0.6569603767694976,
+      "kl": 0.0533447265625,
+      "learning_rate": 6.384277343749999e-07,
+      "loss": 0.0021,
+      "reward": 1.8447397351264954,
+      "reward_std": 0.06235711555927992,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8525522649288177,
+      "step": 2962
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 326.3125,
+      "epoch": 1.447265625,
+      "grad_norm": 2.645560581989775,
+      "kl": 0.072265625,
+      "learning_rate": 6.383056640625e-07,
+      "loss": 0.0029,
+      "reward": 1.687853217124939,
+      "reward_std": 0.0805647261440754,
+      "rewards/format_reward": 0.9296875,
+      "rewards/ocr_reward": 0.758165717124939,
+      "step": 2963
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 380.5859375,
+      "epoch": 1.44775390625,
+      "grad_norm": 1.3650167038051417,
+      "kl": 0.0523681640625,
+      "learning_rate": 6.3818359375e-07,
+      "loss": 0.0021,
+      "reward": 1.7391371130943298,
+      "reward_std": 0.15477406233549118,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.7860120832920074,
+      "step": 2964
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 291.6328125,
+      "epoch": 1.4482421875,
+      "grad_norm": 1.1245251287679778,
+      "kl": 0.072998046875,
+      "learning_rate": 6.380615234375e-07,
+      "loss": 0.0029,
+      "reward": 1.646054744720459,
+      "reward_std": 0.06316448841243982,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6538672149181366,
+      "step": 2965
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 334.5546875,
+      "epoch": 1.44873046875,
+      "grad_norm": 13.043523585623863,
+      "kl": 0.0791015625,
+      "learning_rate": 6.37939453125e-07,
+      "loss": 0.0032,
+      "reward": 1.7939326763153076,
+      "reward_std": 0.06745261326432228,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8017451465129852,
+      "step": 2966
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 309.359375,
+      "epoch": 1.44921875,
+      "grad_norm": 1.57791062011593,
+      "kl": 0.060302734375,
+      "learning_rate": 6.378173828125e-07,
+      "loss": 0.0024,
+      "reward": 1.8393926620483398,
+      "reward_std": 0.018147557973861694,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8393926918506622,
+      "step": 2967
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 316.3359375,
+      "epoch": 1.44970703125,
+      "grad_norm": 1.8175153858800717,
+      "kl": 0.06005859375,
+      "learning_rate": 6.376953124999999e-07,
+      "loss": 0.0024,
+      "reward": 1.7290653586387634,
+      "reward_std": 0.12614280730485916,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7446902990341187,
+      "step": 2968
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 300.9296875,
+      "epoch": 1.4501953125,
+      "grad_norm": 9.465224240232326,
+      "kl": 0.0694580078125,
+      "learning_rate": 6.375732421874999e-07,
+      "loss": 0.0028,
+      "reward": 1.7350887060165405,
+      "reward_std": 0.11684410274028778,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7429012060165405,
+      "step": 2969
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 412.9765625,
+      "epoch": 1.45068359375,
+      "grad_norm": 2.083144051979017,
+      "kl": 0.061279296875,
+      "learning_rate": 6.37451171875e-07,
+      "loss": 0.0024,
+      "reward": 1.7892062067985535,
+      "reward_std": 0.12466869875788689,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.8048312067985535,
+      "step": 2970
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 374.1796875,
+      "epoch": 1.451171875,
+      "grad_norm": 3.731969056408829,
+      "kl": 0.06591796875,
+      "learning_rate": 6.373291015625e-07,
+      "loss": 0.0026,
+      "reward": 1.8324419260025024,
+      "reward_std": 0.07397226989269257,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8324419260025024,
+      "step": 2971
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 328.8515625,
+      "epoch": 1.45166015625,
+      "grad_norm": 2.1941261882702006,
+      "kl": 0.0714111328125,
+      "learning_rate": 6.3720703125e-07,
+      "loss": 0.0029,
+      "reward": 1.7780184149742126,
+      "reward_std": 0.20118620991706848,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.8014559149742126,
+      "step": 2972
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 247.21875,
+      "epoch": 1.4521484375,
+      "grad_norm": 1.3453507107528788,
+      "kl": 0.070556640625,
+      "learning_rate": 6.370849609375e-07,
+      "loss": 0.0028,
+      "reward": 1.6615075469017029,
+      "reward_std": 0.01416647876612842,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6615075469017029,
+      "step": 2973
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 301.203125,
+      "epoch": 1.45263671875,
+      "grad_norm": 0.941837624396483,
+      "kl": 0.071533203125,
+      "learning_rate": 6.369628906249999e-07,
+      "loss": 0.0029,
+      "reward": 1.7576044797897339,
+      "reward_std": 0.030522312968969345,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7576044797897339,
+      "step": 2974
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 289.1953125,
+      "epoch": 1.453125,
+      "grad_norm": 2.6111080609725876,
+      "kl": 0.063720703125,
+      "learning_rate": 6.368408203124999e-07,
+      "loss": 0.0025,
+      "reward": 1.748826265335083,
+      "reward_std": 0.040242042392492294,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.748826265335083,
+      "step": 2975
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 263.75,
+      "epoch": 1.45361328125,
+      "grad_norm": 9.758378083342457,
+      "kl": 0.08203125,
+      "learning_rate": 6.3671875e-07,
+      "loss": 0.0033,
+      "reward": 1.7325801849365234,
+      "reward_std": 0.1269008917734027,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7560176849365234,
+      "step": 2976
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 384.34375,
+      "epoch": 1.4541015625,
+      "grad_norm": 1.4790068606433127,
+      "kl": 0.05712890625,
+      "learning_rate": 6.365966796875e-07,
+      "loss": 0.0023,
+      "reward": 1.7784000039100647,
+      "reward_std": 0.11495145037770271,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7862125039100647,
+      "step": 2977
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 323.5234375,
+      "epoch": 1.45458984375,
+      "grad_norm": 7.445604414954171,
+      "kl": 0.090087890625,
+      "learning_rate": 6.36474609375e-07,
+      "loss": 0.0036,
+      "reward": 1.7594309449195862,
+      "reward_std": 0.05727781727910042,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7594309449195862,
+      "step": 2978
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 308.8984375,
+      "epoch": 1.455078125,
+      "grad_norm": 1.9969872662674215,
+      "kl": 0.0635986328125,
+      "learning_rate": 6.363525390625e-07,
+      "loss": 0.0025,
+      "reward": 1.8546399474143982,
+      "reward_std": 0.03894917480647564,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8546398878097534,
+      "step": 2979
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 295.3984375,
+      "epoch": 1.45556640625,
+      "grad_norm": 2.774830461991803,
+      "kl": 0.086669921875,
+      "learning_rate": 6.3623046875e-07,
+      "loss": 0.0035,
+      "reward": 1.7985565066337585,
+      "reward_std": 0.09453297778964043,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8063690066337585,
+      "step": 2980
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 282.734375,
+      "epoch": 1.4560546875,
+      "grad_norm": 1.005235350260796,
+      "kl": 0.067626953125,
+      "learning_rate": 6.361083984374999e-07,
+      "loss": 0.0027,
+      "reward": 1.8525811433792114,
+      "reward_std": 0.032127720303833485,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.852581113576889,
+      "step": 2981
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 380.15625,
+      "epoch": 1.45654296875,
+      "grad_norm": 1.480660541121175,
+      "kl": 0.06591796875,
+      "learning_rate": 6.359863281249999e-07,
+      "loss": 0.0026,
+      "reward": 1.8015734553337097,
+      "reward_std": 0.10697927977889776,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8093858957290649,
+      "step": 2982
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 266.6484375,
+      "epoch": 1.45703125,
+      "grad_norm": 1.28090728544506,
+      "kl": 0.090087890625,
+      "learning_rate": 6.358642578125e-07,
+      "loss": 0.0036,
+      "reward": 1.7251802682876587,
+      "reward_std": 0.02976925577968359,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7251803278923035,
+      "step": 2983
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 358.25,
+      "epoch": 1.45751953125,
+      "grad_norm": 1.5160356660704382,
+      "kl": 0.0509033203125,
+      "learning_rate": 6.357421875e-07,
+      "loss": 0.002,
+      "reward": 1.7424423694610596,
+      "reward_std": 0.10370543040335178,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7502549290657043,
+      "step": 2984
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 365.1875,
+      "epoch": 1.4580078125,
+      "grad_norm": 1.2745109824108936,
+      "kl": 0.06298828125,
+      "learning_rate": 6.356201171875e-07,
+      "loss": 0.0025,
+      "reward": 1.5927727818489075,
+      "reward_std": 0.12405483797192574,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.6318353116512299,
+      "step": 2985
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 364.640625,
+      "epoch": 1.45849609375,
+      "grad_norm": 2.169138878887581,
+      "kl": 0.0712890625,
+      "learning_rate": 6.35498046875e-07,
+      "loss": 0.0029,
+      "reward": 1.860952913761139,
+      "reward_std": 0.06300730584189296,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8609528839588165,
+      "step": 2986
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 322.421875,
+      "epoch": 1.458984375,
+      "grad_norm": 1.6032586983368817,
+      "kl": 0.074462890625,
+      "learning_rate": 6.353759765624999e-07,
+      "loss": 0.003,
+      "reward": 1.6849730610847473,
+      "reward_std": 0.04362546745687723,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6849730312824249,
+      "step": 2987
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 174.3125,
+      "epoch": 1.45947265625,
+      "grad_norm": 2.296346852512009,
+      "kl": 0.0687255859375,
+      "learning_rate": 6.352539062499999e-07,
+      "loss": 0.0028,
+      "reward": 1.8462890982627869,
+      "reward_std": 0.11591282114386559,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8541015088558197,
+      "step": 2988
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 331.3125,
+      "epoch": 1.4599609375,
+      "grad_norm": 4.792249158952244,
+      "kl": 0.067626953125,
+      "learning_rate": 6.351318359375e-07,
+      "loss": 0.0027,
+      "reward": 1.6084554195404053,
+      "reward_std": 0.08818965405225754,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6162679195404053,
+      "step": 2989
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 321.078125,
+      "epoch": 1.46044921875,
+      "grad_norm": 0.4828418747479682,
+      "kl": 0.05810546875,
+      "learning_rate": 6.35009765625e-07,
+      "loss": 0.0023,
+      "reward": 1.6002402305603027,
+      "reward_std": 0.12684646097477525,
+      "rewards/format_reward": 0.9375,
+      "rewards/ocr_reward": 0.6627402305603027,
+      "step": 2990
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 387.5078125,
+      "epoch": 1.4609375,
+      "grad_norm": 1.515503324615265,
+      "kl": 0.0631103515625,
+      "learning_rate": 6.348876953125e-07,
+      "loss": 0.0025,
+      "reward": 1.8527971506118774,
+      "reward_std": 0.07764232903718948,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.852797120809555,
+      "step": 2991
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 383.03125,
+      "epoch": 1.46142578125,
+      "grad_norm": 1.2235439862774495,
+      "kl": 0.0574951171875,
+      "learning_rate": 6.34765625e-07,
+      "loss": 0.0023,
+      "reward": 1.7806990146636963,
+      "reward_std": 0.05695920065045357,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7885115146636963,
+      "step": 2992
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 364.25,
+      "epoch": 1.4619140625,
+      "grad_norm": 3.314536987656733,
+      "kl": 0.0587158203125,
+      "learning_rate": 6.346435546875e-07,
+      "loss": 0.0023,
+      "reward": 1.8154310584068298,
+      "reward_std": 0.12618440762162209,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.8310559988021851,
+      "step": 2993
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 289.0390625,
+      "epoch": 1.46240234375,
+      "grad_norm": 1.2908463477638215,
+      "kl": 0.0565185546875,
+      "learning_rate": 6.345214843749999e-07,
+      "loss": 0.0023,
+      "reward": 1.7146747708320618,
+      "reward_std": 0.07501043565571308,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7224873006343842,
+      "step": 2994
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 393.8984375,
+      "epoch": 1.462890625,
+      "grad_norm": 2.9125890422786016,
+      "kl": 0.072021484375,
+      "learning_rate": 6.343994140624999e-07,
+      "loss": 0.0029,
+      "reward": 1.6301099061965942,
+      "reward_std": 0.13861995935440063,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.6535473763942719,
+      "step": 2995
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 259.2734375,
+      "epoch": 1.46337890625,
+      "grad_norm": 0.8886604709538318,
+      "kl": 0.05078125,
+      "learning_rate": 6.3427734375e-07,
+      "loss": 0.002,
+      "reward": 1.7734524011611938,
+      "reward_std": 0.020457894541323185,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7734524309635162,
+      "step": 2996
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 301.0546875,
+      "epoch": 1.4638671875,
+      "grad_norm": 1.0464030461396734,
+      "kl": 0.0601806640625,
+      "learning_rate": 6.341552734375e-07,
+      "loss": 0.0024,
+      "reward": 1.654776692390442,
+      "reward_std": 0.08548066765069962,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6704016923904419,
+      "step": 2997
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 288.515625,
+      "epoch": 1.46435546875,
+      "grad_norm": 9.606833597314674,
+      "kl": 0.059326171875,
+      "learning_rate": 6.34033203125e-07,
+      "loss": 0.0024,
+      "reward": 1.8002928495407104,
+      "reward_std": 0.06611186265945435,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8002929091453552,
+      "step": 2998
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 342.0546875,
+      "epoch": 1.46484375,
+      "grad_norm": 1.0930533697553297,
+      "kl": 0.056640625,
+      "learning_rate": 6.339111328125e-07,
+      "loss": 0.0023,
+      "reward": 1.7426326274871826,
+      "reward_std": 0.0601738141849637,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.742632657289505,
+      "step": 2999
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 326.921875,
+      "epoch": 1.46533203125,
+      "grad_norm": 0.9165980219862101,
+      "kl": 0.0672607421875,
+      "learning_rate": 6.337890625e-07,
+      "loss": 0.0027,
+      "reward": 1.829143762588501,
+      "reward_std": 0.051721951458603144,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.836956262588501,
+      "step": 3000
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 281.5625,
+      "epoch": 1.4658203125,
+      "grad_norm": 3.771010388411293,
+      "kl": 0.09716796875,
+      "learning_rate": 6.336669921874999e-07,
+      "loss": 0.0039,
+      "reward": 1.746791124343872,
+      "reward_std": 0.0833306573331356,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7546035051345825,
+      "step": 3001
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 307.3515625,
+      "epoch": 1.46630859375,
+      "grad_norm": 1.7568136419799434,
+      "kl": 0.079345703125,
+      "learning_rate": 6.33544921875e-07,
+      "loss": 0.0032,
+      "reward": 1.8903692960739136,
+      "reward_std": 0.08128884993493557,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8981817662715912,
+      "step": 3002
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 237.3359375,
+      "epoch": 1.466796875,
+      "grad_norm": 0.6670166215082387,
+      "kl": 0.0595703125,
+      "learning_rate": 6.334228515625e-07,
+      "loss": 0.0024,
+      "reward": 1.7217431664466858,
+      "reward_std": 0.052741317078471184,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7217431664466858,
+      "step": 3003
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 341.8359375,
+      "epoch": 1.46728515625,
+      "grad_norm": 0.5130515259710517,
+      "kl": 0.0673828125,
+      "learning_rate": 6.3330078125e-07,
+      "loss": 0.0027,
+      "reward": 1.747616171836853,
+      "reward_std": 0.09704152680933475,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7632412910461426,
+      "step": 3004
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 308.2578125,
+      "epoch": 1.4677734375,
+      "grad_norm": 1.4447424507562618,
+      "kl": 0.0552978515625,
+      "learning_rate": 6.331787109375e-07,
+      "loss": 0.0022,
+      "reward": 1.767389953136444,
+      "reward_std": 0.052734846249222755,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7673899531364441,
+      "step": 3005
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 344.390625,
+      "epoch": 1.46826171875,
+      "grad_norm": 2.541777603017261,
+      "kl": 0.07666015625,
+      "learning_rate": 6.33056640625e-07,
+      "loss": 0.0031,
+      "reward": 1.813210904598236,
+      "reward_std": 0.11053607612848282,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8210234045982361,
+      "step": 3006
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 370.0,
+      "epoch": 1.46875,
+      "grad_norm": 0.8804910586643099,
+      "kl": 0.0538330078125,
+      "learning_rate": 6.329345703124999e-07,
+      "loss": 0.0022,
+      "reward": 1.8383709192276,
+      "reward_std": 0.02365578804165125,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8383709490299225,
+      "step": 3007
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 331.1484375,
+      "epoch": 1.46923828125,
+      "grad_norm": 2.8323385895385247,
+      "kl": 0.066162109375,
+      "learning_rate": 6.328124999999999e-07,
+      "loss": 0.0026,
+      "reward": 1.7967005968093872,
+      "reward_std": 0.07634428888559341,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8045131862163544,
+      "step": 3008
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 244.4921875,
+      "epoch": 1.4697265625,
+      "grad_norm": 1.558692224561045,
+      "kl": 0.09521484375,
+      "learning_rate": 6.326904296875e-07,
+      "loss": 0.0038,
+      "reward": 1.6224290132522583,
+      "reward_std": 0.04988163709640503,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6224290430545807,
+      "step": 3009
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 352.375,
+      "epoch": 1.47021484375,
+      "grad_norm": 0.6934292087860076,
+      "kl": 0.0556640625,
+      "learning_rate": 6.32568359375e-07,
+      "loss": 0.0022,
+      "reward": 1.9525578022003174,
+      "reward_std": 0.031788173131644726,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.9525578618049622,
+      "step": 3010
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 373.7109375,
+      "epoch": 1.470703125,
+      "grad_norm": 1.1566353452168543,
+      "kl": 0.0509033203125,
+      "learning_rate": 6.324462890625e-07,
+      "loss": 0.002,
+      "reward": 1.80779629945755,
+      "reward_std": 0.13630902767181396,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.83123379945755,
+      "step": 3011
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 191.28125,
+      "epoch": 1.47119140625,
+      "grad_norm": 1.4657246132330377,
+      "kl": 0.0772705078125,
+      "learning_rate": 6.3232421875e-07,
+      "loss": 0.0031,
+      "reward": 1.868379831314087,
+      "reward_std": 0.05622401461005211,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8683798313140869,
+      "step": 3012
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 325.09375,
+      "epoch": 1.4716796875,
+      "grad_norm": 0.8995301250346504,
+      "kl": 0.0518798828125,
+      "learning_rate": 6.322021484375e-07,
+      "loss": 0.0021,
+      "reward": 1.7831536531448364,
+      "reward_std": 0.03840099833905697,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7831536531448364,
+      "step": 3013
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 304.7578125,
+      "epoch": 1.47216796875,
+      "grad_norm": 1.064413517900183,
+      "kl": 0.0673828125,
+      "learning_rate": 6.320800781249999e-07,
+      "loss": 0.0027,
+      "reward": 1.8467872142791748,
+      "reward_std": 0.06419426389038563,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8545996248722076,
+      "step": 3014
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 288.8203125,
+      "epoch": 1.47265625,
+      "grad_norm": 1.2422987199959086,
+      "kl": 0.0726318359375,
+      "learning_rate": 6.319580078125e-07,
+      "loss": 0.0029,
+      "reward": 1.8063626289367676,
+      "reward_std": 0.14462891966104507,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8141750693321228,
+      "step": 3015
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 288.953125,
+      "epoch": 1.47314453125,
+      "grad_norm": 2.517009818019777,
+      "kl": 0.09033203125,
+      "learning_rate": 6.318359375e-07,
+      "loss": 0.0036,
+      "reward": 1.653084933757782,
+      "reward_std": 0.098308514803648,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6530849635601044,
+      "step": 3016
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 265.8203125,
+      "epoch": 1.4736328125,
+      "grad_norm": 2.340141995970886,
+      "kl": 0.0723876953125,
+      "learning_rate": 6.317138671875e-07,
+      "loss": 0.0029,
+      "reward": 1.7496492862701416,
+      "reward_std": 0.1289630625396967,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7496492564678192,
+      "step": 3017
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 400.96875,
+      "epoch": 1.47412109375,
+      "grad_norm": 1.256597280828511,
+      "kl": 0.054443359375,
+      "learning_rate": 6.31591796875e-07,
+      "loss": 0.0022,
+      "reward": 1.8092172145843506,
+      "reward_std": 0.0746869370341301,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8170297741889954,
+      "step": 3018
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 249.609375,
+      "epoch": 1.474609375,
+      "grad_norm": 2.4683338443131673,
+      "kl": 0.074951171875,
+      "learning_rate": 6.314697265625e-07,
+      "loss": 0.003,
+      "reward": 1.6483544707298279,
+      "reward_std": 0.10350741818547249,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6561670005321503,
+      "step": 3019
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 278.5390625,
+      "epoch": 1.47509765625,
+      "grad_norm": 3.6247431205126874,
+      "kl": 0.0791015625,
+      "learning_rate": 6.313476562499999e-07,
+      "loss": 0.0032,
+      "reward": 1.7551026344299316,
+      "reward_std": 0.11083749681711197,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.755102664232254,
+      "step": 3020
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 309.40625,
+      "epoch": 1.4755859375,
+      "grad_norm": 1.0766199180438065,
+      "kl": 0.07763671875,
+      "learning_rate": 6.312255859374999e-07,
+      "loss": 0.0031,
+      "reward": 1.7589967250823975,
+      "reward_std": 0.05489533022046089,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7589967548847198,
+      "step": 3021
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 330.65625,
+      "epoch": 1.47607421875,
+      "grad_norm": 1.4208095059281178,
+      "kl": 0.0693359375,
+      "learning_rate": 6.31103515625e-07,
+      "loss": 0.0028,
+      "reward": 1.8012661933898926,
+      "reward_std": 0.045568812638521194,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8012661635875702,
+      "step": 3022
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 259.28125,
+      "epoch": 1.4765625,
+      "grad_norm": 3.075879562177541,
+      "kl": 0.0670166015625,
+      "learning_rate": 6.309814453125e-07,
+      "loss": 0.0027,
+      "reward": 1.870323121547699,
+      "reward_std": 0.03863493725657463,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.870323121547699,
+      "step": 3023
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 294.3671875,
+      "epoch": 1.47705078125,
+      "grad_norm": 6.548224072360138,
+      "kl": 0.064208984375,
+      "learning_rate": 6.30859375e-07,
+      "loss": 0.0026,
+      "reward": 1.7646169662475586,
+      "reward_std": 0.07329913601279259,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7646169662475586,
+      "step": 3024
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 308.3203125,
+      "epoch": 1.4775390625,
+      "grad_norm": 3.4394236221792247,
+      "kl": 0.081787109375,
+      "learning_rate": 6.307373046875e-07,
+      "loss": 0.0033,
+      "reward": 1.6831781268119812,
+      "reward_std": 0.07777292281389236,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6909905970096588,
+      "step": 3025
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 293.390625,
+      "epoch": 1.47802734375,
+      "grad_norm": 1.4825730777624018,
+      "kl": 0.068359375,
+      "learning_rate": 6.30615234375e-07,
+      "loss": 0.0027,
+      "reward": 1.7502532005310059,
+      "reward_std": 0.055065859109163284,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7502532303333282,
+      "step": 3026
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 264.078125,
+      "epoch": 1.478515625,
+      "grad_norm": 1.5490192480578866,
+      "kl": 0.07470703125,
+      "learning_rate": 6.304931640624999e-07,
+      "loss": 0.003,
+      "reward": 1.7950791120529175,
+      "reward_std": 0.038502528332173824,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7950790822505951,
+      "step": 3027
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 222.9375,
+      "epoch": 1.47900390625,
+      "grad_norm": 7.667208022460056,
+      "kl": 0.07861328125,
+      "learning_rate": 6.3037109375e-07,
+      "loss": 0.0031,
+      "reward": 1.8664205074310303,
+      "reward_std": 0.07143169827759266,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8664205372333527,
+      "step": 3028
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 303.2421875,
+      "epoch": 1.4794921875,
+      "grad_norm": 1.562849631053882,
+      "kl": 0.096923828125,
+      "learning_rate": 6.302490234375e-07,
+      "loss": 0.0039,
+      "reward": 1.6895395517349243,
+      "reward_std": 0.03657793905586004,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6895396113395691,
+      "step": 3029
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 336.4609375,
+      "epoch": 1.47998046875,
+      "grad_norm": 2.072472095377072,
+      "kl": 0.073974609375,
+      "learning_rate": 6.30126953125e-07,
+      "loss": 0.003,
+      "reward": 1.6448410749435425,
+      "reward_std": 0.12514834105968475,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6526535749435425,
+      "step": 3030
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 355.90625,
+      "epoch": 1.48046875,
+      "grad_norm": 4.248343394614419,
+      "kl": 0.082763671875,
+      "learning_rate": 6.300048828125e-07,
+      "loss": 0.0033,
+      "reward": 1.676950991153717,
+      "reward_std": 0.05259130522608757,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.676950991153717,
+      "step": 3031
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 246.3515625,
+      "epoch": 1.48095703125,
+      "grad_norm": 10.016521585655443,
+      "kl": 0.0672607421875,
+      "learning_rate": 6.298828125e-07,
+      "loss": 0.0027,
+      "reward": 1.855322241783142,
+      "reward_std": 0.06691266316920519,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8553222417831421,
+      "step": 3032
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 211.3125,
+      "epoch": 1.4814453125,
+      "grad_norm": 1.7764278531475133,
+      "kl": 0.056884765625,
+      "learning_rate": 6.297607421874999e-07,
+      "loss": 0.0023,
+      "reward": 1.932866632938385,
+      "reward_std": 0.05053331330418587,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.932866632938385,
+      "step": 3033
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 418.2890625,
+      "epoch": 1.48193359375,
+      "grad_norm": 2.0240030324030367,
+      "kl": 0.0572509765625,
+      "learning_rate": 6.296386718749999e-07,
+      "loss": 0.0023,
+      "reward": 1.6182212233543396,
+      "reward_std": 0.2208278402686119,
+      "rewards/format_reward": 0.9453125,
+      "rewards/ocr_reward": 0.67290860414505,
+      "step": 3034
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 332.5859375,
+      "epoch": 1.482421875,
+      "grad_norm": 1.713898440746238,
+      "kl": 0.0733642578125,
+      "learning_rate": 6.295166015625e-07,
+      "loss": 0.0029,
+      "reward": 1.7418071627616882,
+      "reward_std": 0.10038780607283115,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7496196925640106,
+      "step": 3035
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 285.8125,
+      "epoch": 1.48291015625,
+      "grad_norm": 0.9264185253043364,
+      "kl": 0.075439453125,
+      "learning_rate": 6.2939453125e-07,
+      "loss": 0.003,
+      "reward": 1.741519808769226,
+      "reward_std": 0.07616345398128033,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7493323385715485,
+      "step": 3036
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 305.7890625,
+      "epoch": 1.4833984375,
+      "grad_norm": 1.4044617030039843,
+      "kl": 0.095947265625,
+      "learning_rate": 6.292724609375e-07,
+      "loss": 0.0038,
+      "reward": 1.6602322459220886,
+      "reward_std": 0.1420225277543068,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6758573055267334,
+      "step": 3037
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 368.3203125,
+      "epoch": 1.48388671875,
+      "grad_norm": 1.9738335423607676,
+      "kl": 0.071533203125,
+      "learning_rate": 6.29150390625e-07,
+      "loss": 0.0029,
+      "reward": 1.7275782823562622,
+      "reward_std": 0.08198518864810467,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7432032227516174,
+      "step": 3038
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 305.6015625,
+      "epoch": 1.484375,
+      "grad_norm": 2.0017739219506825,
+      "kl": 0.080322265625,
+      "learning_rate": 6.290283203125e-07,
+      "loss": 0.0032,
+      "reward": 1.644084870815277,
+      "reward_std": 0.0899181142449379,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6518973708152771,
+      "step": 3039
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 256.2421875,
+      "epoch": 1.48486328125,
+      "grad_norm": 0.883112354454319,
+      "kl": 0.084228515625,
+      "learning_rate": 6.289062499999999e-07,
+      "loss": 0.0034,
+      "reward": 1.513433575630188,
+      "reward_std": 0.05119518283754587,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.5134336054325104,
+      "step": 3040
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 313.3359375,
+      "epoch": 1.4853515625,
+      "grad_norm": 1.3435499384819551,
+      "kl": 0.0771484375,
+      "learning_rate": 6.287841796875e-07,
+      "loss": 0.0031,
+      "reward": 1.7283309698104858,
+      "reward_std": 0.10164744779467583,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7283309698104858,
+      "step": 3041
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 288.0625,
+      "epoch": 1.48583984375,
+      "grad_norm": 1.5022112167151482,
+      "kl": 0.0653076171875,
+      "learning_rate": 6.28662109375e-07,
+      "loss": 0.0026,
+      "reward": 1.7406939268112183,
+      "reward_std": 0.07021256536245346,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7406939268112183,
+      "step": 3042
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 305.3359375,
+      "epoch": 1.486328125,
+      "grad_norm": 2.0786694119288205,
+      "kl": 0.083984375,
+      "learning_rate": 6.285400390625e-07,
+      "loss": 0.0034,
+      "reward": 1.7357019186019897,
+      "reward_std": 0.0432198503986001,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7357019484043121,
+      "step": 3043
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 290.1796875,
+      "epoch": 1.48681640625,
+      "grad_norm": 1.4782807841049792,
+      "kl": 0.09716796875,
+      "learning_rate": 6.2841796875e-07,
+      "loss": 0.0039,
+      "reward": 1.7358573079109192,
+      "reward_std": 0.10283184796571732,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7514822483062744,
+      "step": 3044
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 309.5390625,
+      "epoch": 1.4873046875,
+      "grad_norm": 9.234695754183694,
+      "kl": 0.10302734375,
+      "learning_rate": 6.282958984375e-07,
+      "loss": 0.0041,
+      "reward": 1.6147398948669434,
+      "reward_std": 0.14877690002322197,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.6381773948669434,
+      "step": 3045
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 238.9609375,
+      "epoch": 1.48779296875,
+      "grad_norm": 1.043601797533081,
+      "kl": 0.078369140625,
+      "learning_rate": 6.281738281249999e-07,
+      "loss": 0.0031,
+      "reward": 1.7752271890640259,
+      "reward_std": 0.06411982700228691,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7752272188663483,
+      "step": 3046
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 237.59375,
+      "epoch": 1.48828125,
+      "grad_norm": 2.505802779158192,
+      "kl": 0.06298828125,
+      "learning_rate": 6.280517578124999e-07,
+      "loss": 0.0025,
+      "reward": 1.8750739693641663,
+      "reward_std": 0.018464698921889067,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8750739097595215,
+      "step": 3047
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 259.875,
+      "epoch": 1.48876953125,
+      "grad_norm": 1.5420008942864827,
+      "kl": 0.088134765625,
+      "learning_rate": 6.279296875e-07,
+      "loss": 0.0035,
+      "reward": 1.8027490973472595,
+      "reward_std": 0.07335010170936584,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8105616271495819,
+      "step": 3048
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 289.0078125,
+      "epoch": 1.4892578125,
+      "grad_norm": 1.883570258751632,
+      "kl": 0.08447265625,
+      "learning_rate": 6.278076171875e-07,
+      "loss": 0.0034,
+      "reward": 1.8453101515769958,
+      "reward_std": 0.052738748490810394,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8453101217746735,
+      "step": 3049
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 312.65625,
+      "epoch": 1.48974609375,
+      "grad_norm": 1.9780475385606873,
+      "kl": 0.091064453125,
+      "learning_rate": 6.27685546875e-07,
+      "loss": 0.0036,
+      "reward": 1.8935607075691223,
+      "reward_std": 0.05056627467274666,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8935607373714447,
+      "step": 3050
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 270.734375,
+      "epoch": 1.490234375,
+      "grad_norm": 2.9996617070545546,
+      "kl": 0.0687255859375,
+      "learning_rate": 6.275634765625e-07,
+      "loss": 0.0027,
+      "reward": 1.8360978960990906,
+      "reward_std": 0.054630378261208534,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.836097925901413,
+      "step": 3051
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 302.3515625,
+      "epoch": 1.49072265625,
+      "grad_norm": 2.6323826664386236,
+      "kl": 0.079833984375,
+      "learning_rate": 6.2744140625e-07,
+      "loss": 0.0032,
+      "reward": 1.749899685382843,
+      "reward_std": 0.034031180664896965,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7498997449874878,
+      "step": 3052
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 333.5625,
+      "epoch": 1.4912109375,
+      "grad_norm": 1.2654812608116905,
+      "kl": 0.0703125,
+      "learning_rate": 6.273193359374999e-07,
+      "loss": 0.0028,
+      "reward": 1.781448781490326,
+      "reward_std": 0.03715716116130352,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7814488708972931,
+      "step": 3053
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 228.8203125,
+      "epoch": 1.49169921875,
+      "grad_norm": 4.420456353697728,
+      "kl": 0.07373046875,
+      "learning_rate": 6.271972656249999e-07,
+      "loss": 0.0029,
+      "reward": 1.8104448914527893,
+      "reward_std": 0.09506340697407722,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8104448914527893,
+      "step": 3054
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 359.421875,
+      "epoch": 1.4921875,
+      "grad_norm": 1.6948290597573188,
+      "kl": 0.069091796875,
+      "learning_rate": 6.270751953125e-07,
+      "loss": 0.0028,
+      "reward": 1.7458880543708801,
+      "reward_std": 0.08343839459121227,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7537006139755249,
+      "step": 3055
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 305.2734375,
+      "epoch": 1.49267578125,
+      "grad_norm": 6.382155809604849,
+      "kl": 0.069091796875,
+      "learning_rate": 6.26953125e-07,
+      "loss": 0.0028,
+      "reward": 1.8328390717506409,
+      "reward_std": 0.06546132825314999,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8406516313552856,
+      "step": 3056
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 225.0,
+      "epoch": 1.4931640625,
+      "grad_norm": 1.482140538189339,
+      "kl": 0.080078125,
+      "learning_rate": 6.268310546875e-07,
+      "loss": 0.0032,
+      "reward": 1.8376395106315613,
+      "reward_std": 0.046169581823050976,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8376395106315613,
+      "step": 3057
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 302.1171875,
+      "epoch": 1.49365234375,
+      "grad_norm": 1.7613816221555076,
+      "kl": 0.0782470703125,
+      "learning_rate": 6.26708984375e-07,
+      "loss": 0.0031,
+      "reward": 1.6370373368263245,
+      "reward_std": 0.046255904249846935,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6370373964309692,
+      "step": 3058
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 292.8046875,
+      "epoch": 1.494140625,
+      "grad_norm": 2.290078497473891,
+      "kl": 0.065185546875,
+      "learning_rate": 6.265869140624999e-07,
+      "loss": 0.0026,
+      "reward": 1.7369165420532227,
+      "reward_std": 0.14749253168702126,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7369165420532227,
+      "step": 3059
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 279.765625,
+      "epoch": 1.49462890625,
+      "grad_norm": 0.5100306804078655,
+      "kl": 0.0810546875,
+      "learning_rate": 6.264648437499999e-07,
+      "loss": 0.0032,
+      "reward": 1.8437798023223877,
+      "reward_std": 0.03653890639543533,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8437797725200653,
+      "step": 3060
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 233.2109375,
+      "epoch": 1.4951171875,
+      "grad_norm": 1.6593962077313371,
+      "kl": 0.08984375,
+      "learning_rate": 6.263427734375e-07,
+      "loss": 0.0036,
+      "reward": 1.6682219505310059,
+      "reward_std": 0.019469616003334522,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6682219803333282,
+      "step": 3061
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 265.84375,
+      "epoch": 1.49560546875,
+      "grad_norm": 1.8396284831116319,
+      "kl": 0.0830078125,
+      "learning_rate": 6.26220703125e-07,
+      "loss": 0.0033,
+      "reward": 1.727663278579712,
+      "reward_std": 0.06270462274551392,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7276632189750671,
+      "step": 3062
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 284.6171875,
+      "epoch": 1.49609375,
+      "grad_norm": 1.0117046188705436,
+      "kl": 0.0732421875,
+      "learning_rate": 6.260986328125e-07,
+      "loss": 0.0029,
+      "reward": 1.7094378471374512,
+      "reward_std": 0.02379227802157402,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7094378173351288,
+      "step": 3063
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 290.8828125,
+      "epoch": 1.49658203125,
+      "grad_norm": 1.3497291028510259,
+      "kl": 0.090576171875,
+      "learning_rate": 6.259765625e-07,
+      "loss": 0.0036,
+      "reward": 1.7751423716545105,
+      "reward_std": 0.13514219038188457,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7907673716545105,
+      "step": 3064
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 338.46875,
+      "epoch": 1.4970703125,
+      "grad_norm": 3.4190881996802682,
+      "kl": 0.0592041015625,
+      "learning_rate": 6.258544921875e-07,
+      "loss": 0.0024,
+      "reward": 1.764043927192688,
+      "reward_std": 0.07390506565570831,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.771856427192688,
+      "step": 3065
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 301.140625,
+      "epoch": 1.49755859375,
+      "grad_norm": 2.0795235433392705,
+      "kl": 0.0665283203125,
+      "learning_rate": 6.257324218749999e-07,
+      "loss": 0.0027,
+      "reward": 1.8003657460212708,
+      "reward_std": 0.05936916545033455,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8003657460212708,
+      "step": 3066
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 278.78125,
+      "epoch": 1.498046875,
+      "grad_norm": 1.2096859898867558,
+      "kl": 0.0479736328125,
+      "learning_rate": 6.256103515624999e-07,
+      "loss": 0.0019,
+      "reward": 1.7172734141349792,
+      "reward_std": 0.028629466891288757,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7172734439373016,
+      "step": 3067
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 208.25,
+      "epoch": 1.49853515625,
+      "grad_norm": 0.837342886906685,
+      "kl": 0.0615234375,
+      "learning_rate": 6.2548828125e-07,
+      "loss": 0.0025,
+      "reward": 1.7248526215553284,
+      "reward_std": 0.04399119131267071,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7248526215553284,
+      "step": 3068
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 313.0234375,
+      "epoch": 1.4990234375,
+      "grad_norm": 0.8384243546554345,
+      "kl": 0.0643310546875,
+      "learning_rate": 6.253662109375e-07,
+      "loss": 0.0026,
+      "reward": 1.7257351875305176,
+      "reward_std": 0.09183939173817635,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7413601875305176,
+      "step": 3069
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 235.1875,
+      "epoch": 1.49951171875,
+      "grad_norm": 1.1447058461259672,
+      "kl": 0.074951171875,
+      "learning_rate": 6.25244140625e-07,
+      "loss": 0.003,
+      "reward": 1.81594717502594,
+      "reward_std": 0.021475983783602715,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8159471154212952,
+      "step": 3070
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 316.921875,
+      "epoch": 1.5,
+      "grad_norm": 1.7077930126684038,
+      "kl": 0.07080078125,
+      "learning_rate": 6.251220703125e-07,
+      "loss": 0.0028,
+      "reward": 1.6829584240913391,
+      "reward_std": 0.1759318709373474,
+      "rewards/format_reward": 0.9453125,
+      "rewards/ocr_reward": 0.7376458644866943,
+      "step": 3071
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 222.5859375,
+      "epoch": 1.50048828125,
+      "grad_norm": 4.251619392395568,
+      "kl": 0.079345703125,
+      "learning_rate": 6.249999999999999e-07,
+      "loss": 0.0032,
+      "reward": 1.7641262412071228,
+      "reward_std": 0.10015225410461426,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7797512412071228,
+      "step": 3072
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 293.0546875,
+      "epoch": 1.5009765625,
+      "grad_norm": 2.037037846840877,
+      "kl": 0.0662841796875,
+      "learning_rate": 6.248779296874999e-07,
+      "loss": 0.0027,
+      "reward": 1.8416993618011475,
+      "reward_std": 0.0264980373904109,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8416993618011475,
+      "step": 3073
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 214.3125,
+      "epoch": 1.50146484375,
+      "grad_norm": 2.4016129108930446,
+      "kl": 0.07373046875,
+      "learning_rate": 6.24755859375e-07,
+      "loss": 0.003,
+      "reward": 1.884174108505249,
+      "reward_std": 0.01571572571992874,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8841741383075714,
+      "step": 3074
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 393.6953125,
+      "epoch": 1.501953125,
+      "grad_norm": 14.731726849066805,
+      "kl": 0.0576171875,
+      "learning_rate": 6.246337890625e-07,
+      "loss": 0.0023,
+      "reward": 1.8040361404418945,
+      "reward_std": 0.1080729328095913,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.8274736106395721,
+      "step": 3075
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 280.3984375,
+      "epoch": 1.50244140625,
+      "grad_norm": 2.9540282421835924,
+      "kl": 0.0684814453125,
+      "learning_rate": 6.2451171875e-07,
+      "loss": 0.0027,
+      "reward": 1.8184278011322021,
+      "reward_std": 0.05250486359000206,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8184277713298798,
+      "step": 3076
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 358.6875,
+      "epoch": 1.5029296875,
+      "grad_norm": 1.8338223896953099,
+      "kl": 0.0611572265625,
+      "learning_rate": 6.243896484375e-07,
+      "loss": 0.0024,
+      "reward": 1.7305577397346497,
+      "reward_std": 0.09738858230412006,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.7618077993392944,
+      "step": 3077
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 305.2421875,
+      "epoch": 1.50341796875,
+      "grad_norm": 1.4824856231273853,
+      "kl": 0.07666015625,
+      "learning_rate": 6.24267578125e-07,
+      "loss": 0.0031,
+      "reward": 1.8530486822128296,
+      "reward_std": 0.06430929712951183,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8530486822128296,
+      "step": 3078
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 314.5859375,
+      "epoch": 1.50390625,
+      "grad_norm": 1.2200578050818203,
+      "kl": 0.06494140625,
+      "learning_rate": 6.241455078124999e-07,
+      "loss": 0.0026,
+      "reward": 1.869605302810669,
+      "reward_std": 0.053065571933984756,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8696053326129913,
+      "step": 3079
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 281.59375,
+      "epoch": 1.50439453125,
+      "grad_norm": 2.107871829584508,
+      "kl": 0.086669921875,
+      "learning_rate": 6.240234374999999e-07,
+      "loss": 0.0035,
+      "reward": 1.7725425362586975,
+      "reward_std": 0.08174478355795145,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7725425660610199,
+      "step": 3080
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 305.765625,
+      "epoch": 1.5048828125,
+      "grad_norm": 2.090164106693488,
+      "kl": 0.0560302734375,
+      "learning_rate": 6.239013671875e-07,
+      "loss": 0.0022,
+      "reward": 1.677848756313324,
+      "reward_std": 0.06150129809975624,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6778488159179688,
+      "step": 3081
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 212.78125,
+      "epoch": 1.50537109375,
+      "grad_norm": 1.9087461795639435,
+      "kl": 0.08447265625,
+      "learning_rate": 6.23779296875e-07,
+      "loss": 0.0034,
+      "reward": 1.8541353940963745,
+      "reward_std": 0.09079751744866371,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8541353642940521,
+      "step": 3082
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 296.2890625,
+      "epoch": 1.505859375,
+      "grad_norm": 1.3215498934075522,
+      "kl": 0.066162109375,
+      "learning_rate": 6.236572265625e-07,
+      "loss": 0.0026,
+      "reward": 1.838699460029602,
+      "reward_std": 0.1073538176715374,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.8543243706226349,
+      "step": 3083
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 286.96875,
+      "epoch": 1.50634765625,
+      "grad_norm": 1.6207069275912624,
+      "kl": 0.059814453125,
+      "learning_rate": 6.2353515625e-07,
+      "loss": 0.0024,
+      "reward": 1.8489339351654053,
+      "reward_std": 0.08780923672020435,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.8958089351654053,
+      "step": 3084
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 264.8359375,
+      "epoch": 1.5068359375,
+      "grad_norm": 1.8268450463781,
+      "kl": 0.0859375,
+      "learning_rate": 6.234130859374999e-07,
+      "loss": 0.0034,
+      "reward": 1.855950951576233,
+      "reward_std": 0.04823304433375597,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8559509217739105,
+      "step": 3085
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 258.71875,
+      "epoch": 1.50732421875,
+      "grad_norm": 0.8367633020259986,
+      "kl": 0.09033203125,
+      "learning_rate": 6.232910156249999e-07,
+      "loss": 0.0036,
+      "reward": 1.7904430627822876,
+      "reward_std": 0.04001910053193569,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7904431223869324,
+      "step": 3086
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 291.59375,
+      "epoch": 1.5078125,
+      "grad_norm": 2.52179471226621,
+      "kl": 0.095703125,
+      "learning_rate": 6.231689453125e-07,
+      "loss": 0.0038,
+      "reward": 2.024749219417572,
+      "reward_std": 0.08385680988430977,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 1.0247493088245392,
+      "step": 3087
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 277.1171875,
+      "epoch": 1.50830078125,
+      "grad_norm": 1.0623002349275934,
+      "kl": 0.074951171875,
+      "learning_rate": 6.23046875e-07,
+      "loss": 0.003,
+      "reward": 1.8043740391731262,
+      "reward_std": 0.04912651889026165,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8043740093708038,
+      "step": 3088
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 340.015625,
+      "epoch": 1.5087890625,
+      "grad_norm": 2.3861784634827097,
+      "kl": 0.069580078125,
+      "learning_rate": 6.229248046875e-07,
+      "loss": 0.0028,
+      "reward": 1.7216225266456604,
+      "reward_std": 0.05122903361916542,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.721622496843338,
+      "step": 3089
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 266.96875,
+      "epoch": 1.50927734375,
+      "grad_norm": 9.04191328799389,
+      "kl": 0.0845947265625,
+      "learning_rate": 6.22802734375e-07,
+      "loss": 0.0034,
+      "reward": 1.7171977162361145,
+      "reward_std": 0.03181068133562803,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7171976864337921,
+      "step": 3090
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 292.4609375,
+      "epoch": 1.509765625,
+      "grad_norm": 1.5795526400740247,
+      "kl": 0.075439453125,
+      "learning_rate": 6.226806640625e-07,
+      "loss": 0.003,
+      "reward": 1.6946417689323425,
+      "reward_std": 0.08766061812639236,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7180792689323425,
+      "step": 3091
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 288.0234375,
+      "epoch": 1.51025390625,
+      "grad_norm": 1.7844017464871738,
+      "kl": 0.0859375,
+      "learning_rate": 6.225585937499999e-07,
+      "loss": 0.0034,
+      "reward": 1.8546817898750305,
+      "reward_std": 0.05815475434064865,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8546817898750305,
+      "step": 3092
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 233.109375,
+      "epoch": 1.5107421875,
+      "grad_norm": 0.6275503497060736,
+      "kl": 0.07763671875,
+      "learning_rate": 6.224365234374999e-07,
+      "loss": 0.0031,
+      "reward": 1.9210276007652283,
+      "reward_std": 0.014174860902130604,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.9210276007652283,
+      "step": 3093
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 281.0234375,
+      "epoch": 1.51123046875,
+      "grad_norm": 2.8960257527388484,
+      "kl": 0.07421875,
+      "learning_rate": 6.22314453125e-07,
+      "loss": 0.003,
+      "reward": 1.6736098527908325,
+      "reward_std": 0.07500293478369713,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6736098527908325,
+      "step": 3094
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 168.0625,
+      "epoch": 1.51171875,
+      "grad_norm": 3.3937763447140306,
+      "kl": 0.106201171875,
+      "learning_rate": 6.221923828125e-07,
+      "loss": 0.0043,
+      "reward": 1.6761849522590637,
+      "reward_std": 0.15080446749925613,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6839974224567413,
+      "step": 3095
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 271.1015625,
+      "epoch": 1.51220703125,
+      "grad_norm": 0.7920607825397445,
+      "kl": 0.0640869140625,
+      "learning_rate": 6.220703125e-07,
+      "loss": 0.0026,
+      "reward": 1.7301459312438965,
+      "reward_std": 0.030234874226152897,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7301459610462189,
+      "step": 3096
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 300.2890625,
+      "epoch": 1.5126953125,
+      "grad_norm": 1.725648229722019,
+      "kl": 0.0693359375,
+      "learning_rate": 6.219482421875e-07,
+      "loss": 0.0028,
+      "reward": 1.7913671731948853,
+      "reward_std": 0.04710565786808729,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7913671433925629,
+      "step": 3097
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 328.0625,
+      "epoch": 1.51318359375,
+      "grad_norm": 5.525808172297369,
+      "kl": 0.062744140625,
+      "learning_rate": 6.21826171875e-07,
+      "loss": 0.0025,
+      "reward": 1.8240219950675964,
+      "reward_std": 0.05396724492311478,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.824021965265274,
+      "step": 3098
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 286.078125,
+      "epoch": 1.513671875,
+      "grad_norm": 1.0932630221981614,
+      "kl": 0.0712890625,
+      "learning_rate": 6.217041015624999e-07,
+      "loss": 0.0029,
+      "reward": 1.882387936115265,
+      "reward_std": 0.03053974825888872,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8823879063129425,
+      "step": 3099
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 308.8828125,
+      "epoch": 1.51416015625,
+      "grad_norm": 0.8220993732465702,
+      "kl": 0.081298828125,
+      "learning_rate": 6.2158203125e-07,
+      "loss": 0.0032,
+      "reward": 1.723827600479126,
+      "reward_std": 0.02734041726216674,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.723827600479126,
+      "step": 3100
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 285.734375,
+      "epoch": 1.5146484375,
+      "grad_norm": 0.7732507508307016,
+      "kl": 0.06884765625,
+      "learning_rate": 6.214599609375e-07,
+      "loss": 0.0028,
+      "reward": 1.68502938747406,
+      "reward_std": 0.06600722670555115,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6850293874740601,
+      "step": 3101
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 276.421875,
+      "epoch": 1.51513671875,
+      "grad_norm": 1.8060542775559811,
+      "kl": 0.0791015625,
+      "learning_rate": 6.21337890625e-07,
+      "loss": 0.0032,
+      "reward": 1.725981593132019,
+      "reward_std": 0.05310596153140068,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.725981593132019,
+      "step": 3102
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 266.4375,
+      "epoch": 1.515625,
+      "grad_norm": 2.287645696309139,
+      "kl": 0.07177734375,
+      "learning_rate": 6.212158203125e-07,
+      "loss": 0.0029,
+      "reward": 1.8063457012176514,
+      "reward_std": 0.060521697625517845,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8063457310199738,
+      "step": 3103
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 261.0703125,
+      "epoch": 1.51611328125,
+      "grad_norm": 1.7967027573346939,
+      "kl": 0.0618896484375,
+      "learning_rate": 6.2109375e-07,
+      "loss": 0.0025,
+      "reward": 1.766247570514679,
+      "reward_std": 0.027749599888920784,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.766247570514679,
+      "step": 3104
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 308.84375,
+      "epoch": 1.5166015625,
+      "grad_norm": 0.4646725109012026,
+      "kl": 0.078125,
+      "learning_rate": 6.209716796874999e-07,
+      "loss": 0.0031,
+      "reward": 1.7971450686454773,
+      "reward_std": 0.024683097377419472,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7971450686454773,
+      "step": 3105
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 228.4453125,
+      "epoch": 1.51708984375,
+      "grad_norm": 1.8283999063737095,
+      "kl": 0.0662841796875,
+      "learning_rate": 6.208496093749999e-07,
+      "loss": 0.0027,
+      "reward": 1.9062353372573853,
+      "reward_std": 0.07536712661385536,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.9062353372573853,
+      "step": 3106
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 262.1171875,
+      "epoch": 1.517578125,
+      "grad_norm": 17.037657891691474,
+      "kl": 0.09130859375,
+      "learning_rate": 6.207275390625e-07,
+      "loss": 0.0037,
+      "reward": 1.7185717821121216,
+      "reward_std": 0.06076034903526306,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7185717523097992,
+      "step": 3107
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 331.8046875,
+      "epoch": 1.51806640625,
+      "grad_norm": 2.418724869062214,
+      "kl": 0.079833984375,
+      "learning_rate": 6.2060546875e-07,
+      "loss": 0.0032,
+      "reward": 1.7952438592910767,
+      "reward_std": 0.09894811734557152,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8030563592910767,
+      "step": 3108
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 298.8984375,
+      "epoch": 1.5185546875,
+      "grad_norm": 1.6978086850538485,
+      "kl": 0.072265625,
+      "learning_rate": 6.204833984375e-07,
+      "loss": 0.0029,
+      "reward": 1.7135571241378784,
+      "reward_std": 0.05942201055586338,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7135571241378784,
+      "step": 3109
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 270.5703125,
+      "epoch": 1.51904296875,
+      "grad_norm": 11.000253342045735,
+      "kl": 0.07666015625,
+      "learning_rate": 6.20361328125e-07,
+      "loss": 0.0031,
+      "reward": 1.7439785599708557,
+      "reward_std": 0.02391317579895258,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7439785599708557,
+      "step": 3110
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 302.25,
+      "epoch": 1.51953125,
+      "grad_norm": 2.1906764680903854,
+      "kl": 0.066162109375,
+      "learning_rate": 6.202392578125e-07,
+      "loss": 0.0026,
+      "reward": 1.8155664801597595,
+      "reward_std": 0.06511466577649117,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8233789801597595,
+      "step": 3111
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 224.1875,
+      "epoch": 1.52001953125,
+      "grad_norm": 3.584987719765566,
+      "kl": 0.0677490234375,
+      "learning_rate": 6.201171874999999e-07,
+      "loss": 0.0027,
+      "reward": 1.8200541734695435,
+      "reward_std": 0.049682820681482553,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8200541734695435,
+      "step": 3112
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 303.0859375,
+      "epoch": 1.5205078125,
+      "grad_norm": 2.018089591759681,
+      "kl": 0.0748291015625,
+      "learning_rate": 6.199951171875e-07,
+      "loss": 0.003,
+      "reward": 1.564685881137848,
+      "reward_std": 0.1015004925429821,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.5724983513355255,
+      "step": 3113
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 257.7890625,
+      "epoch": 1.52099609375,
+      "grad_norm": 2.3565598111007593,
+      "kl": 0.068603515625,
+      "learning_rate": 6.19873046875e-07,
+      "loss": 0.0027,
+      "reward": 1.8028762936592102,
+      "reward_std": 0.058065131306648254,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8028763234615326,
+      "step": 3114
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 287.546875,
+      "epoch": 1.521484375,
+      "grad_norm": 1.3845163583688693,
+      "kl": 0.0859375,
+      "learning_rate": 6.197509765625e-07,
+      "loss": 0.0034,
+      "reward": 1.8404591083526611,
+      "reward_std": 0.04378460347652435,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8404591083526611,
+      "step": 3115
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 303.625,
+      "epoch": 1.52197265625,
+      "grad_norm": 1.321361217819104,
+      "kl": 0.0712890625,
+      "learning_rate": 6.1962890625e-07,
+      "loss": 0.0029,
+      "reward": 1.8013597130775452,
+      "reward_std": 0.11758016794919968,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.8247972130775452,
+      "step": 3116
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 261.46875,
+      "epoch": 1.5224609375,
+      "grad_norm": 0.9992851869601573,
+      "kl": 0.0771484375,
+      "learning_rate": 6.195068359375e-07,
+      "loss": 0.0031,
+      "reward": 1.8446565866470337,
+      "reward_std": 0.04555722698569298,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8446565270423889,
+      "step": 3117
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 271.0546875,
+      "epoch": 1.52294921875,
+      "grad_norm": 1.3223466253645542,
+      "kl": 0.0623779296875,
+      "learning_rate": 6.193847656249999e-07,
+      "loss": 0.0025,
+      "reward": 1.7789299488067627,
+      "reward_std": 0.06991294771432877,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7867424488067627,
+      "step": 3118
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 350.578125,
+      "epoch": 1.5234375,
+      "grad_norm": 2.6833880146707907,
+      "kl": 0.048095703125,
+      "learning_rate": 6.192626953124999e-07,
+      "loss": 0.0019,
+      "reward": 1.8840059041976929,
+      "reward_std": 0.05926818028092384,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8840057849884033,
+      "step": 3119
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 300.46875,
+      "epoch": 1.52392578125,
+      "grad_norm": 1.4510987621579094,
+      "kl": 0.068603515625,
+      "learning_rate": 6.19140625e-07,
+      "loss": 0.0027,
+      "reward": 1.7248252034187317,
+      "reward_std": 0.07782328687608242,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7248252332210541,
+      "step": 3120
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 296.4375,
+      "epoch": 1.5244140625,
+      "grad_norm": 1.136138045433055,
+      "kl": 0.06982421875,
+      "learning_rate": 6.190185546875e-07,
+      "loss": 0.0028,
+      "reward": 1.5833680629730225,
+      "reward_std": 0.046957019716501236,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.583368107676506,
+      "step": 3121
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 264.859375,
+      "epoch": 1.52490234375,
+      "grad_norm": 5.258286501764103,
+      "kl": 0.095703125,
+      "learning_rate": 6.18896484375e-07,
+      "loss": 0.0038,
+      "reward": 1.8398154973983765,
+      "reward_std": 0.07556849718093872,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8398154675960541,
+      "step": 3122
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 238.9921875,
+      "epoch": 1.525390625,
+      "grad_norm": 3.19613212286148,
+      "kl": 0.08203125,
+      "learning_rate": 6.187744140625e-07,
+      "loss": 0.0033,
+      "reward": 1.7610740661621094,
+      "reward_std": 0.08400712162256241,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7610740661621094,
+      "step": 3123
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 241.1328125,
+      "epoch": 1.52587890625,
+      "grad_norm": 1.2440046063167502,
+      "kl": 0.0677490234375,
+      "learning_rate": 6.1865234375e-07,
+      "loss": 0.0027,
+      "reward": 1.7349917888641357,
+      "reward_std": 0.0564101692289114,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7349918186664581,
+      "step": 3124
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 239.609375,
+      "epoch": 1.5263671875,
+      "grad_norm": 1.9358611243229036,
+      "kl": 0.0606689453125,
+      "learning_rate": 6.185302734374999e-07,
+      "loss": 0.0024,
+      "reward": 1.871264934539795,
+      "reward_std": 0.01118523720651865,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8712649047374725,
+      "step": 3125
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 254.4609375,
+      "epoch": 1.52685546875,
+      "grad_norm": 0.7636233474618398,
+      "kl": 0.07373046875,
+      "learning_rate": 6.18408203125e-07,
+      "loss": 0.003,
+      "reward": 1.7732288837432861,
+      "reward_std": 0.04541287012398243,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7732289135456085,
+      "step": 3126
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 279.5703125,
+      "epoch": 1.52734375,
+      "grad_norm": 2.2485695960334566,
+      "kl": 0.078125,
+      "learning_rate": 6.182861328125e-07,
+      "loss": 0.0031,
+      "reward": 1.7269670367240906,
+      "reward_std": 0.056932706385850906,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7269670069217682,
+      "step": 3127
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 250.875,
+      "epoch": 1.52783203125,
+      "grad_norm": 2.0938435538417135,
+      "kl": 0.07080078125,
+      "learning_rate": 6.181640625e-07,
+      "loss": 0.0028,
+      "reward": 1.8258466124534607,
+      "reward_std": 0.034098366275429726,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8258466720581055,
+      "step": 3128
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 218.125,
+      "epoch": 1.5283203125,
+      "grad_norm": 6.351273063845393,
+      "kl": 0.08837890625,
+      "learning_rate": 6.180419921875e-07,
+      "loss": 0.0035,
+      "reward": 1.6825706362724304,
+      "reward_std": 0.06605061516165733,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6825706958770752,
+      "step": 3129
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 242.8828125,
+      "epoch": 1.52880859375,
+      "grad_norm": 1.73857162773802,
+      "kl": 0.0908203125,
+      "learning_rate": 6.17919921875e-07,
+      "loss": 0.0036,
+      "reward": 1.8035194873809814,
+      "reward_std": 0.06293283682316542,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8035195171833038,
+      "step": 3130
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 283.90625,
+      "epoch": 1.529296875,
+      "grad_norm": 1.8707235948004883,
+      "kl": 0.0869140625,
+      "learning_rate": 6.177978515624999e-07,
+      "loss": 0.0035,
+      "reward": 1.85841304063797,
+      "reward_std": 0.05445600301027298,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.85841304063797,
+      "step": 3131
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 294.03125,
+      "epoch": 1.52978515625,
+      "grad_norm": 1.4148200869799006,
+      "kl": 0.0732421875,
+      "learning_rate": 6.176757812499999e-07,
+      "loss": 0.0029,
+      "reward": 1.7566508054733276,
+      "reward_std": 0.0620297584682703,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7566508650779724,
+      "step": 3132
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 286.8671875,
+      "epoch": 1.5302734375,
+      "grad_norm": 3.895550568287067,
+      "kl": 0.0673828125,
+      "learning_rate": 6.175537109375e-07,
+      "loss": 0.0027,
+      "reward": 1.735254943370819,
+      "reward_std": 0.08439107239246368,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7352549433708191,
+      "step": 3133
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 236.5546875,
+      "epoch": 1.53076171875,
+      "grad_norm": 1.1219004153321612,
+      "kl": 0.0908203125,
+      "learning_rate": 6.17431640625e-07,
+      "loss": 0.0036,
+      "reward": 1.7691398859024048,
+      "reward_std": 0.03892973717302084,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7691399157047272,
+      "step": 3134
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 333.359375,
+      "epoch": 1.53125,
+      "grad_norm": 5.821411252101163,
+      "kl": 0.08349609375,
+      "learning_rate": 6.173095703125e-07,
+      "loss": 0.0033,
+      "reward": 1.6651095747947693,
+      "reward_std": 0.07258575409650803,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6651095747947693,
+      "step": 3135
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 265.3046875,
+      "epoch": 1.53173828125,
+      "grad_norm": 1.82841994581108,
+      "kl": 0.0751953125,
+      "learning_rate": 6.171875e-07,
+      "loss": 0.003,
+      "reward": 1.8692357540130615,
+      "reward_std": 0.0736299641430378,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8692357242107391,
+      "step": 3136
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 262.78125,
+      "epoch": 1.5322265625,
+      "grad_norm": 2.0403074353548045,
+      "kl": 0.08203125,
+      "learning_rate": 6.170654296875e-07,
+      "loss": 0.0033,
+      "reward": 1.61654931306839,
+      "reward_std": 0.022080027498304844,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6165493130683899,
+      "step": 3137
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 237.546875,
+      "epoch": 1.53271484375,
+      "grad_norm": 18.76627322206088,
+      "kl": 0.08447265625,
+      "learning_rate": 6.169433593749999e-07,
+      "loss": 0.0034,
+      "reward": 1.7105411887168884,
+      "reward_std": 0.09866257756948471,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7105412185192108,
+      "step": 3138
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 351.53125,
+      "epoch": 1.533203125,
+      "grad_norm": 2.305963685532532,
+      "kl": 0.058837890625,
+      "learning_rate": 6.168212890625e-07,
+      "loss": 0.0024,
+      "reward": 1.7301769852638245,
+      "reward_std": 0.13028892129659653,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7458019852638245,
+      "step": 3139
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 206.3203125,
+      "epoch": 1.53369140625,
+      "grad_norm": 0.24505066269967637,
+      "kl": 0.0689697265625,
+      "learning_rate": 6.1669921875e-07,
+      "loss": 0.0028,
+      "reward": 1.7604427337646484,
+      "reward_std": 0.028698831796646118,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.760442703962326,
+      "step": 3140
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 221.9921875,
+      "epoch": 1.5341796875,
+      "grad_norm": 1.735357218192801,
+      "kl": 0.092529296875,
+      "learning_rate": 6.165771484375e-07,
+      "loss": 0.0037,
+      "reward": 1.8620553016662598,
+      "reward_std": 0.03215474262833595,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8620553314685822,
+      "step": 3141
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 293.4375,
+      "epoch": 1.53466796875,
+      "grad_norm": 2.8803153468108436,
+      "kl": 0.076416015625,
+      "learning_rate": 6.16455078125e-07,
+      "loss": 0.0031,
+      "reward": 1.8484528064727783,
+      "reward_std": 0.07194521278142929,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8484528362751007,
+      "step": 3142
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 302.7734375,
+      "epoch": 1.53515625,
+      "grad_norm": 2.679606476186728,
+      "kl": 0.0750732421875,
+      "learning_rate": 6.163330078125e-07,
+      "loss": 0.003,
+      "reward": 1.7876355051994324,
+      "reward_std": 0.12041214294731617,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7954480051994324,
+      "step": 3143
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 331.953125,
+      "epoch": 1.53564453125,
+      "grad_norm": 1.616840595359916,
+      "kl": 0.06201171875,
+      "learning_rate": 6.162109374999999e-07,
+      "loss": 0.0025,
+      "reward": 1.8307392001152039,
+      "reward_std": 0.03423440642654896,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8307392001152039,
+      "step": 3144
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 209.140625,
+      "epoch": 1.5361328125,
+      "grad_norm": 2.036514638498422,
+      "kl": 0.10400390625,
+      "learning_rate": 6.160888671874999e-07,
+      "loss": 0.0042,
+      "reward": 1.8995371460914612,
+      "reward_std": 0.08496665954589844,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8995371758937836,
+      "step": 3145
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 261.5859375,
+      "epoch": 1.53662109375,
+      "grad_norm": 1.0505257847917335,
+      "kl": 0.0780029296875,
+      "learning_rate": 6.15966796875e-07,
+      "loss": 0.0031,
+      "reward": 1.7895857691764832,
+      "reward_std": 0.032869850285351276,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7895857095718384,
+      "step": 3146
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 357.4140625,
+      "epoch": 1.537109375,
+      "grad_norm": 2.49269461000481,
+      "kl": 0.087646484375,
+      "learning_rate": 6.158447265625e-07,
+      "loss": 0.0035,
+      "reward": 1.729568362236023,
+      "reward_std": 0.14366939291357994,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7530059218406677,
+      "step": 3147
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 275.53125,
+      "epoch": 1.53759765625,
+      "grad_norm": 0.9767868294994723,
+      "kl": 0.06982421875,
+      "learning_rate": 6.1572265625e-07,
+      "loss": 0.0028,
+      "reward": 1.9281029105186462,
+      "reward_std": 0.06500357203185558,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.9281029105186462,
+      "step": 3148
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 298.53125,
+      "epoch": 1.5380859375,
+      "grad_norm": 1.567228738812135,
+      "kl": 0.080078125,
+      "learning_rate": 6.156005859375e-07,
+      "loss": 0.0032,
+      "reward": 1.8201581239700317,
+      "reward_std": 0.07531145215034485,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8279706239700317,
+      "step": 3149
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 234.1015625,
+      "epoch": 1.53857421875,
+      "grad_norm": 1.37480935198485,
+      "kl": 0.07861328125,
+      "learning_rate": 6.15478515625e-07,
+      "loss": 0.0031,
+      "reward": 1.8080313205718994,
+      "reward_std": 0.02758025284856558,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8080313503742218,
+      "step": 3150
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 265.0390625,
+      "epoch": 1.5390625,
+      "grad_norm": 1.8428019019258013,
+      "kl": 0.096435546875,
+      "learning_rate": 6.153564453124999e-07,
+      "loss": 0.0039,
+      "reward": 1.6825060844421387,
+      "reward_std": 0.03835061937570572,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6825061142444611,
+      "step": 3151
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 282.46875,
+      "epoch": 1.53955078125,
+      "grad_norm": 1.7497641001072382,
+      "kl": 0.104736328125,
+      "learning_rate": 6.152343749999999e-07,
+      "loss": 0.0042,
+      "reward": 1.747897982597351,
+      "reward_std": 0.04787810705602169,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7478979229927063,
+      "step": 3152
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 230.34375,
+      "epoch": 1.5400390625,
+      "grad_norm": 5.833818291905867,
+      "kl": 0.089599609375,
+      "learning_rate": 6.151123046875e-07,
+      "loss": 0.0036,
+      "reward": 1.6996482610702515,
+      "reward_std": 0.033032437320798635,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6996482610702515,
+      "step": 3153
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 257.1953125,
+      "epoch": 1.54052734375,
+      "grad_norm": 3.41976551776808,
+      "kl": 0.0748291015625,
+      "learning_rate": 6.14990234375e-07,
+      "loss": 0.003,
+      "reward": 1.7531882524490356,
+      "reward_std": 0.01387872640043497,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7531882524490356,
+      "step": 3154
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 298.2578125,
+      "epoch": 1.541015625,
+      "grad_norm": 1.8858479830744364,
+      "kl": 0.067626953125,
+      "learning_rate": 6.148681640625e-07,
+      "loss": 0.0027,
+      "reward": 1.6333616375923157,
+      "reward_std": 0.07776164263486862,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6411741375923157,
+      "step": 3155
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 329.0078125,
+      "epoch": 1.54150390625,
+      "grad_norm": 0.8035865329277778,
+      "kl": 0.05712890625,
+      "learning_rate": 6.1474609375e-07,
+      "loss": 0.0023,
+      "reward": 1.7784574627876282,
+      "reward_std": 0.05039230780676007,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7784574329853058,
+      "step": 3156
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 280.9296875,
+      "epoch": 1.5419921875,
+      "grad_norm": 6.951850739468607,
+      "kl": 0.0699462890625,
+      "learning_rate": 6.146240234374999e-07,
+      "loss": 0.0028,
+      "reward": 1.7199862003326416,
+      "reward_std": 0.1958215907216072,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7199861109256744,
+      "step": 3157
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 229.9453125,
+      "epoch": 1.54248046875,
+      "grad_norm": 3.9343633726846288,
+      "kl": 0.076904296875,
+      "learning_rate": 6.145019531249999e-07,
+      "loss": 0.0031,
+      "reward": 1.8535465002059937,
+      "reward_std": 0.04394886875525117,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8535465002059937,
+      "step": 3158
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 294.109375,
+      "epoch": 1.54296875,
+      "grad_norm": 1.6757964157727798,
+      "kl": 0.0643310546875,
+      "learning_rate": 6.143798828125e-07,
+      "loss": 0.0026,
+      "reward": 1.8247731924057007,
+      "reward_std": 0.11207094416022301,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8325856924057007,
+      "step": 3159
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 375.9140625,
+      "epoch": 1.54345703125,
+      "grad_norm": 1.5482408835535821,
+      "kl": 0.057373046875,
+      "learning_rate": 6.142578125e-07,
+      "loss": 0.0023,
+      "reward": 1.7898805737495422,
+      "reward_std": 0.08811133727431297,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7898805737495422,
+      "step": 3160
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 296.7890625,
+      "epoch": 1.5439453125,
+      "grad_norm": 1.4270590005546342,
+      "kl": 0.06005859375,
+      "learning_rate": 6.141357421875e-07,
+      "loss": 0.0024,
+      "reward": 1.7193145751953125,
+      "reward_std": 0.12322738021612167,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7271271049976349,
+      "step": 3161
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 223.328125,
+      "epoch": 1.54443359375,
+      "grad_norm": 8.265490886129752,
+      "kl": 0.0648193359375,
+      "learning_rate": 6.14013671875e-07,
+      "loss": 0.0026,
+      "reward": 1.8019053936004639,
+      "reward_std": 0.03768607368692756,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8019054532051086,
+      "step": 3162
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 252.9921875,
+      "epoch": 1.544921875,
+      "grad_norm": 2.5739517984161697,
+      "kl": 0.07080078125,
+      "learning_rate": 6.138916015625e-07,
+      "loss": 0.0028,
+      "reward": 1.8906748294830322,
+      "reward_std": 0.04288986138999462,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.890674889087677,
+      "step": 3163
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 309.859375,
+      "epoch": 1.54541015625,
+      "grad_norm": 4.09072500677864,
+      "kl": 0.068115234375,
+      "learning_rate": 6.137695312499999e-07,
+      "loss": 0.0027,
+      "reward": 1.8343228101730347,
+      "reward_std": 0.07122788205742836,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8421353101730347,
+      "step": 3164
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 268.8671875,
+      "epoch": 1.5458984375,
+      "grad_norm": 2.310781538336421,
+      "kl": 0.0704345703125,
+      "learning_rate": 6.136474609374999e-07,
+      "loss": 0.0028,
+      "reward": 1.69595205783844,
+      "reward_std": 0.13838719576597214,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7115771174430847,
+      "step": 3165
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 278.8828125,
+      "epoch": 1.54638671875,
+      "grad_norm": 7.1679887718503545,
+      "kl": 0.076904296875,
+      "learning_rate": 6.13525390625e-07,
+      "loss": 0.0031,
+      "reward": 1.631429135799408,
+      "reward_std": 0.11012212559580803,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.639241635799408,
+      "step": 3166
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 383.484375,
+      "epoch": 1.546875,
+      "grad_norm": 1.8191201659721,
+      "kl": 0.0643310546875,
+      "learning_rate": 6.134033203125e-07,
+      "loss": 0.0026,
+      "reward": 1.7357022166252136,
+      "reward_std": 0.16989228129386902,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.7747646570205688,
+      "step": 3167
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 348.953125,
+      "epoch": 1.54736328125,
+      "grad_norm": 1.402226497605308,
+      "kl": 0.090576171875,
+      "learning_rate": 6.1328125e-07,
+      "loss": 0.0036,
+      "reward": 1.6996177434921265,
+      "reward_std": 0.12328409217298031,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7152426540851593,
+      "step": 3168
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 243.25,
+      "epoch": 1.5478515625,
+      "grad_norm": 1.2654508230027297,
+      "kl": 0.0609130859375,
+      "learning_rate": 6.131591796875e-07,
+      "loss": 0.0024,
+      "reward": 1.8366875052452087,
+      "reward_std": 0.04399787541478872,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8366875350475311,
+      "step": 3169
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 292.421875,
+      "epoch": 1.54833984375,
+      "grad_norm": 7.351539110964937,
+      "kl": 0.0694580078125,
+      "learning_rate": 6.130371093749999e-07,
+      "loss": 0.0028,
+      "reward": 1.8194851875305176,
+      "reward_std": 0.04994682688266039,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8194851577281952,
+      "step": 3170
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 357.1875,
+      "epoch": 1.548828125,
+      "grad_norm": 0.9587044136725793,
+      "kl": 0.0552978515625,
+      "learning_rate": 6.129150390624999e-07,
+      "loss": 0.0022,
+      "reward": 1.7184346914291382,
+      "reward_std": 0.11068252101540565,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7340596914291382,
+      "step": 3171
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 345.40625,
+      "epoch": 1.54931640625,
+      "grad_norm": 5.169780841895419,
+      "kl": 0.06201171875,
+      "learning_rate": 6.1279296875e-07,
+      "loss": 0.0025,
+      "reward": 1.6911205053329468,
+      "reward_std": 0.1017858237028122,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7067455053329468,
+      "step": 3172
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 303.140625,
+      "epoch": 1.5498046875,
+      "grad_norm": 4.360943076089211,
+      "kl": 0.058349609375,
+      "learning_rate": 6.126708984375e-07,
+      "loss": 0.0023,
+      "reward": 1.6890897750854492,
+      "reward_std": 0.1352338343858719,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.7203397750854492,
+      "step": 3173
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 309.5703125,
+      "epoch": 1.55029296875,
+      "grad_norm": 4.05868490070331,
+      "kl": 0.058837890625,
+      "learning_rate": 6.12548828125e-07,
+      "loss": 0.0024,
+      "reward": 1.8603836297988892,
+      "reward_std": 0.11744150519371033,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8681961894035339,
+      "step": 3174
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 253.578125,
+      "epoch": 1.55078125,
+      "grad_norm": 3.0900057199687456,
+      "kl": 0.063720703125,
+      "learning_rate": 6.124267578125e-07,
+      "loss": 0.0026,
+      "reward": 1.7822343111038208,
+      "reward_std": 0.04202779196202755,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7822343111038208,
+      "step": 3175
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 293.3671875,
+      "epoch": 1.55126953125,
+      "grad_norm": 1.3501893344640266,
+      "kl": 0.0716552734375,
+      "learning_rate": 6.123046875e-07,
+      "loss": 0.0029,
+      "reward": 1.9244567155838013,
+      "reward_std": 0.13922565057873726,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.9478942155838013,
+      "step": 3176
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 296.8984375,
+      "epoch": 1.5517578125,
+      "grad_norm": 1.423254075976608,
+      "kl": 0.059326171875,
+      "learning_rate": 6.121826171874999e-07,
+      "loss": 0.0024,
+      "reward": 1.890386700630188,
+      "reward_std": 0.09997991472482681,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8981991708278656,
+      "step": 3177
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 215.5546875,
+      "epoch": 1.55224609375,
+      "grad_norm": 0.7915773476493393,
+      "kl": 0.0577392578125,
+      "learning_rate": 6.120605468749999e-07,
+      "loss": 0.0023,
+      "reward": 1.784228265285492,
+      "reward_std": 0.016746554523706436,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7842282950878143,
+      "step": 3178
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 320.2734375,
+      "epoch": 1.552734375,
+      "grad_norm": 1.05922557400982,
+      "kl": 0.0587158203125,
+      "learning_rate": 6.119384765625e-07,
+      "loss": 0.0023,
+      "reward": 1.7570964097976685,
+      "reward_std": 0.12910258024930954,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7805339395999908,
+      "step": 3179
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 333.40625,
+      "epoch": 1.55322265625,
+      "grad_norm": 1.6684105733598493,
+      "kl": 0.0655517578125,
+      "learning_rate": 6.1181640625e-07,
+      "loss": 0.0026,
+      "reward": 1.5738105773925781,
+      "reward_std": 0.14181802049279213,
+      "rewards/format_reward": 0.921875,
+      "rewards/ocr_reward": 0.6519355773925781,
+      "step": 3180
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 233.9921875,
+      "epoch": 1.5537109375,
+      "grad_norm": 1.1439095055320303,
+      "kl": 0.0625,
+      "learning_rate": 6.116943359375e-07,
+      "loss": 0.0025,
+      "reward": 1.791804313659668,
+      "reward_std": 0.07595885917544365,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.791804313659668,
+      "step": 3181
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 363.046875,
+      "epoch": 1.55419921875,
+      "grad_norm": 1.538031849450602,
+      "kl": 0.06298828125,
+      "learning_rate": 6.11572265625e-07,
+      "loss": 0.0025,
+      "reward": 1.7163517475128174,
+      "reward_std": 0.06050669401884079,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7163517475128174,
+      "step": 3182
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 276.1953125,
+      "epoch": 1.5546875,
+      "grad_norm": 0.7099072244794439,
+      "kl": 0.0516357421875,
+      "learning_rate": 6.114501953124999e-07,
+      "loss": 0.0021,
+      "reward": 1.7604435086250305,
+      "reward_std": 0.019243311136960983,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7604435384273529,
+      "step": 3183
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 309.6171875,
+      "epoch": 1.55517578125,
+      "grad_norm": 1.464970168168766,
+      "kl": 0.068115234375,
+      "learning_rate": 6.113281249999999e-07,
+      "loss": 0.0027,
+      "reward": 1.7117717266082764,
+      "reward_std": 0.03939279168844223,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7117717266082764,
+      "step": 3184
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 357.2890625,
+      "epoch": 1.5556640625,
+      "grad_norm": 2.4843836102727055,
+      "kl": 0.0599365234375,
+      "learning_rate": 6.112060546875e-07,
+      "loss": 0.0024,
+      "reward": 1.7494711875915527,
+      "reward_std": 0.16199829429388046,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7729085981845856,
+      "step": 3185
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 230.5390625,
+      "epoch": 1.55615234375,
+      "grad_norm": 2.4069985981517785,
+      "kl": 0.062255859375,
+      "learning_rate": 6.11083984375e-07,
+      "loss": 0.0025,
+      "reward": 1.844676434993744,
+      "reward_std": 0.07243941724300385,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8446764647960663,
+      "step": 3186
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 284.4765625,
+      "epoch": 1.556640625,
+      "grad_norm": 1.9087556018788279,
+      "kl": 0.0859375,
+      "learning_rate": 6.109619140625e-07,
+      "loss": 0.0034,
+      "reward": 1.7857062220573425,
+      "reward_std": 0.04655470885336399,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7857063114643097,
+      "step": 3187
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 452.625,
+      "epoch": 1.55712890625,
+      "grad_norm": 2.7113439900767484,
+      "kl": 0.0533447265625,
+      "learning_rate": 6.1083984375e-07,
+      "loss": 0.0021,
+      "reward": 1.6991124153137207,
+      "reward_std": 0.18883011117577553,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.7459874153137207,
+      "step": 3188
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 426.1875,
+      "epoch": 1.5576171875,
+      "grad_norm": 5.941979108249293,
+      "kl": 0.0625,
+      "learning_rate": 6.107177734375e-07,
+      "loss": 0.0025,
+      "reward": 1.680684208869934,
+      "reward_std": 0.12884881347417831,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6963091790676117,
+      "step": 3189
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 287.421875,
+      "epoch": 1.55810546875,
+      "grad_norm": 1.2343491223909973,
+      "kl": 0.069580078125,
+      "learning_rate": 6.105957031249999e-07,
+      "loss": 0.0028,
+      "reward": 1.816174864768982,
+      "reward_std": 0.03796030767261982,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8161748945713043,
+      "step": 3190
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 309.4453125,
+      "epoch": 1.55859375,
+      "grad_norm": 5.34134665833269,
+      "kl": 0.053955078125,
+      "learning_rate": 6.104736328124999e-07,
+      "loss": 0.0022,
+      "reward": 1.7767646312713623,
+      "reward_std": 0.05293313413858414,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7767646312713623,
+      "step": 3191
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 269.59375,
+      "epoch": 1.55908203125,
+      "grad_norm": 1.857327467302615,
+      "kl": 0.070556640625,
+      "learning_rate": 6.103515625e-07,
+      "loss": 0.0028,
+      "reward": 1.6192150712013245,
+      "reward_std": 0.04519081301987171,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6192150712013245,
+      "step": 3192
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 276.8125,
+      "epoch": 1.5595703125,
+      "grad_norm": 0.7278409601873849,
+      "kl": 0.061279296875,
+      "learning_rate": 6.102294921875e-07,
+      "loss": 0.0025,
+      "reward": 1.6941944360733032,
+      "reward_std": 0.11231286264955997,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7098194360733032,
+      "step": 3193
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 276.4765625,
+      "epoch": 1.56005859375,
+      "grad_norm": 1.4439461511082938,
+      "kl": 0.0611572265625,
+      "learning_rate": 6.10107421875e-07,
+      "loss": 0.0024,
+      "reward": 1.7672069072723389,
+      "reward_std": 0.029297824949026108,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7672069072723389,
+      "step": 3194
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 303.90625,
+      "epoch": 1.560546875,
+      "grad_norm": 1.5977665784586512,
+      "kl": 0.06640625,
+      "learning_rate": 6.099853515625e-07,
+      "loss": 0.0027,
+      "reward": 1.8012299537658691,
+      "reward_std": 0.07727400679141283,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8012299239635468,
+      "step": 3195
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 306.2265625,
+      "epoch": 1.56103515625,
+      "grad_norm": 5.699754950304771,
+      "kl": 0.082763671875,
+      "learning_rate": 6.0986328125e-07,
+      "loss": 0.0033,
+      "reward": 1.669058918952942,
+      "reward_std": 0.07229340635240078,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6690589189529419,
+      "step": 3196
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 291.6875,
+      "epoch": 1.5615234375,
+      "grad_norm": 1.7331866102593816,
+      "kl": 0.060791015625,
+      "learning_rate": 6.097412109374999e-07,
+      "loss": 0.0024,
+      "reward": 1.8495106101036072,
+      "reward_std": 0.07928337901830673,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8573231399059296,
+      "step": 3197
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 287.046875,
+      "epoch": 1.56201171875,
+      "grad_norm": 1.7502170233469734,
+      "kl": 0.08056640625,
+      "learning_rate": 6.09619140625e-07,
+      "loss": 0.0032,
+      "reward": 1.7798677682876587,
+      "reward_std": 0.07166917249560356,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7798677682876587,
+      "step": 3198
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 281.2421875,
+      "epoch": 1.5625,
+      "grad_norm": 1.6271455308496765,
+      "kl": 0.0672607421875,
+      "learning_rate": 6.094970703125e-07,
+      "loss": 0.0027,
+      "reward": 1.837442696094513,
+      "reward_std": 0.08605869952589273,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.8843176364898682,
+      "step": 3199
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 236.421875,
+      "epoch": 1.56298828125,
+      "grad_norm": 1.858548397213829,
+      "kl": 0.0660400390625,
+      "learning_rate": 6.09375e-07,
+      "loss": 0.0026,
+      "reward": 1.852772295475006,
+      "reward_std": 0.04148021200671792,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8527723550796509,
+      "step": 3200
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 233.1328125,
+      "epoch": 1.5634765625,
+      "grad_norm": 2.830884430833045,
+      "kl": 0.084228515625,
+      "learning_rate": 6.092529296875e-07,
+      "loss": 0.0034,
+      "reward": 1.7869747877120972,
+      "reward_std": 0.031565818935632706,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7869747877120972,
+      "step": 3201
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 251.9140625,
+      "epoch": 1.56396484375,
+      "grad_norm": 1.7092660582715655,
+      "kl": 0.0751953125,
+      "learning_rate": 6.09130859375e-07,
+      "loss": 0.003,
+      "reward": 1.7863489985466003,
+      "reward_std": 0.11272731982171535,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.8019739985466003,
+      "step": 3202
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 304.203125,
+      "epoch": 1.564453125,
+      "grad_norm": 4.3119377697610295,
+      "kl": 0.05322265625,
+      "learning_rate": 6.090087890624999e-07,
+      "loss": 0.0021,
+      "reward": 1.8258104920387268,
+      "reward_std": 0.05819419212639332,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8258104920387268,
+      "step": 3203
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 301.03125,
+      "epoch": 1.56494140625,
+      "grad_norm": 1.7927135426124725,
+      "kl": 0.0760498046875,
+      "learning_rate": 6.088867187499999e-07,
+      "loss": 0.003,
+      "reward": 1.7928436994552612,
+      "reward_std": 0.03461040183901787,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7928436994552612,
+      "step": 3204
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 311.4375,
+      "epoch": 1.5654296875,
+      "grad_norm": 2.7188622700332865,
+      "kl": 0.064697265625,
+      "learning_rate": 6.087646484375e-07,
+      "loss": 0.0026,
+      "reward": 1.7308800220489502,
+      "reward_std": 0.15542292036116123,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7465050220489502,
+      "step": 3205
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 251.9921875,
+      "epoch": 1.56591796875,
+      "grad_norm": 1.020499144334956,
+      "kl": 0.060546875,
+      "learning_rate": 6.08642578125e-07,
+      "loss": 0.0024,
+      "reward": 1.7392455339431763,
+      "reward_std": 0.11669945158064365,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7548705637454987,
+      "step": 3206
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 296.625,
+      "epoch": 1.56640625,
+      "grad_norm": 2.073316599502687,
+      "kl": 0.08447265625,
+      "learning_rate": 6.085205078125e-07,
+      "loss": 0.0034,
+      "reward": 1.78858482837677,
+      "reward_std": 0.05400579236447811,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.78858482837677,
+      "step": 3207
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 265.953125,
+      "epoch": 1.56689453125,
+      "grad_norm": 1.0320420379679651,
+      "kl": 0.0703125,
+      "learning_rate": 6.083984375e-07,
+      "loss": 0.0028,
+      "reward": 1.7168057560920715,
+      "reward_std": 0.08419827371835709,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7246182560920715,
+      "step": 3208
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 273.953125,
+      "epoch": 1.5673828125,
+      "grad_norm": 1.1431633568387154,
+      "kl": 0.080810546875,
+      "learning_rate": 6.082763671875e-07,
+      "loss": 0.0032,
+      "reward": 1.8084399104118347,
+      "reward_std": 0.05502317473292351,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8084399402141571,
+      "step": 3209
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 239.203125,
+      "epoch": 1.56787109375,
+      "grad_norm": 3.5444712422473756,
+      "kl": 0.07470703125,
+      "learning_rate": 6.081542968749999e-07,
+      "loss": 0.003,
+      "reward": 1.7140299677848816,
+      "reward_std": 0.04421941842883825,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.714029997587204,
+      "step": 3210
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 240.7421875,
+      "epoch": 1.568359375,
+      "grad_norm": 1.3334847785571438,
+      "kl": 0.087646484375,
+      "learning_rate": 6.080322265625e-07,
+      "loss": 0.0035,
+      "reward": 1.7436646223068237,
+      "reward_std": 0.05065160011872649,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7436646223068237,
+      "step": 3211
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 358.65625,
+      "epoch": 1.56884765625,
+      "grad_norm": 2.331640767662747,
+      "kl": 0.068115234375,
+      "learning_rate": 6.0791015625e-07,
+      "loss": 0.0027,
+      "reward": 1.755677580833435,
+      "reward_std": 0.038787453435361385,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7556776106357574,
+      "step": 3212
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 278.65625,
+      "epoch": 1.5693359375,
+      "grad_norm": 1.475076168231399,
+      "kl": 0.07958984375,
+      "learning_rate": 6.077880859375e-07,
+      "loss": 0.0032,
+      "reward": 1.8441100716590881,
+      "reward_std": 0.06590352766215801,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8441100716590881,
+      "step": 3213
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 286.59375,
+      "epoch": 1.56982421875,
+      "grad_norm": 1.3134125044104092,
+      "kl": 0.09912109375,
+      "learning_rate": 6.07666015625e-07,
+      "loss": 0.004,
+      "reward": 1.8156479597091675,
+      "reward_std": 0.07976316474378109,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8234605491161346,
+      "step": 3214
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 255.3046875,
+      "epoch": 1.5703125,
+      "grad_norm": 2.259184238309457,
+      "kl": 0.065673828125,
+      "learning_rate": 6.075439453125e-07,
+      "loss": 0.0026,
+      "reward": 2.002101182937622,
+      "reward_std": 0.05331834591925144,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 1.002101182937622,
+      "step": 3215
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 308.3671875,
+      "epoch": 1.57080078125,
+      "grad_norm": 5.468710622222766,
+      "kl": 0.0555419921875,
+      "learning_rate": 6.074218749999999e-07,
+      "loss": 0.0022,
+      "reward": 1.8509008884429932,
+      "reward_std": 0.030736079439520836,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8509008884429932,
+      "step": 3216
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 300.5078125,
+      "epoch": 1.5712890625,
+      "grad_norm": 1.528191106828427,
+      "kl": 0.070068359375,
+      "learning_rate": 6.072998046874999e-07,
+      "loss": 0.0028,
+      "reward": 1.7934442162513733,
+      "reward_std": 0.017778453417122364,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7934441566467285,
+      "step": 3217
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 292.8671875,
+      "epoch": 1.57177734375,
+      "grad_norm": 2.864106160888729,
+      "kl": 0.0616455078125,
+      "learning_rate": 6.07177734375e-07,
+      "loss": 0.0025,
+      "reward": 1.809788703918457,
+      "reward_std": 0.1024474948644638,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8176011443138123,
+      "step": 3218
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 321.59375,
+      "epoch": 1.572265625,
+      "grad_norm": 3.8916992472152545,
+      "kl": 0.071533203125,
+      "learning_rate": 6.070556640625e-07,
+      "loss": 0.0029,
+      "reward": 1.6070039868354797,
+      "reward_std": 0.08922014944255352,
+      "rewards/format_reward": 0.9453125,
+      "rewards/ocr_reward": 0.661691427230835,
+      "step": 3219
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 277.90625,
+      "epoch": 1.57275390625,
+      "grad_norm": 2.5009858382320638,
+      "kl": 0.079833984375,
+      "learning_rate": 6.0693359375e-07,
+      "loss": 0.0032,
+      "reward": 1.78548663854599,
+      "reward_std": 0.062262922525405884,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.78548663854599,
+      "step": 3220
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 238.3203125,
+      "epoch": 1.5732421875,
+      "grad_norm": 0.6996858384501395,
+      "kl": 0.079833984375,
+      "learning_rate": 6.068115234375e-07,
+      "loss": 0.0032,
+      "reward": 1.783010184764862,
+      "reward_std": 0.04869150370359421,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7908226549625397,
+      "step": 3221
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 296.109375,
+      "epoch": 1.57373046875,
+      "grad_norm": 1.1006856780390493,
+      "kl": 0.0555419921875,
+      "learning_rate": 6.06689453125e-07,
+      "loss": 0.0022,
+      "reward": 1.8491575717926025,
+      "reward_std": 0.05759404879063368,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8491575717926025,
+      "step": 3222
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 286.3515625,
+      "epoch": 1.57421875,
+      "grad_norm": 1.1841499529105677,
+      "kl": 0.07666015625,
+      "learning_rate": 6.065673828124999e-07,
+      "loss": 0.0031,
+      "reward": 1.8020890951156616,
+      "reward_std": 0.036463672295212746,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.802089124917984,
+      "step": 3223
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 286.2421875,
+      "epoch": 1.57470703125,
+      "grad_norm": 0.7286182525692657,
+      "kl": 0.0599365234375,
+      "learning_rate": 6.064453125e-07,
+      "loss": 0.0024,
+      "reward": 1.7325817942619324,
+      "reward_std": 0.027954386197961867,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7325817942619324,
+      "step": 3224
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 297.71875,
+      "epoch": 1.5751953125,
+      "grad_norm": 1.237495827483586,
+      "kl": 0.06689453125,
+      "learning_rate": 6.063232421875e-07,
+      "loss": 0.0027,
+      "reward": 1.7775406241416931,
+      "reward_std": 0.08435166534036398,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.8009780943393707,
+      "step": 3225
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 376.90625,
+      "epoch": 1.57568359375,
+      "grad_norm": 0.528238479149417,
+      "kl": 0.0548095703125,
+      "learning_rate": 6.06201171875e-07,
+      "loss": 0.0022,
+      "reward": 1.8354755640029907,
+      "reward_std": 0.14160921424627304,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.8511005938053131,
+      "step": 3226
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 282.484375,
+      "epoch": 1.576171875,
+      "grad_norm": 1.8220474361249062,
+      "kl": 0.0606689453125,
+      "learning_rate": 6.060791015625e-07,
+      "loss": 0.0024,
+      "reward": 1.8181970715522766,
+      "reward_std": 0.13987145572900772,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.8338220417499542,
+      "step": 3227
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 335.859375,
+      "epoch": 1.57666015625,
+      "grad_norm": 0.6962390678727239,
+      "kl": 0.0594482421875,
+      "learning_rate": 6.0595703125e-07,
+      "loss": 0.0024,
+      "reward": 1.7669880390167236,
+      "reward_std": 0.06059642741456628,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7826130092144012,
+      "step": 3228
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 300.1640625,
+      "epoch": 1.5771484375,
+      "grad_norm": 1.5005401701296768,
+      "kl": 0.076904296875,
+      "learning_rate": 6.058349609374999e-07,
+      "loss": 0.0031,
+      "reward": 1.8269048929214478,
+      "reward_std": 0.05390936695039272,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8269048929214478,
+      "step": 3229
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 305.5234375,
+      "epoch": 1.57763671875,
+      "grad_norm": 16.482646426702743,
+      "kl": 0.069580078125,
+      "learning_rate": 6.057128906249999e-07,
+      "loss": 0.0028,
+      "reward": 1.763689935207367,
+      "reward_std": 0.19288001954555511,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7871273458003998,
+      "step": 3230
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 310.7265625,
+      "epoch": 1.578125,
+      "grad_norm": 3.7445612059262894,
+      "kl": 0.0947265625,
+      "learning_rate": 6.055908203125e-07,
+      "loss": 0.0038,
+      "reward": 1.7791760563850403,
+      "reward_std": 0.03553357906639576,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7791760265827179,
+      "step": 3231
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 318.734375,
+      "epoch": 1.57861328125,
+      "grad_norm": 15.055576583772224,
+      "kl": 0.0604248046875,
+      "learning_rate": 6.0546875e-07,
+      "loss": 0.0024,
+      "reward": 1.8308890461921692,
+      "reward_std": 0.10220515914261341,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8387015163898468,
+      "step": 3232
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 333.4609375,
+      "epoch": 1.5791015625,
+      "grad_norm": 0.9772827198196143,
+      "kl": 0.07421875,
+      "learning_rate": 6.053466796875e-07,
+      "loss": 0.003,
+      "reward": 1.8157562017440796,
+      "reward_std": 0.1360500417649746,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.8313812017440796,
+      "step": 3233
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 270.796875,
+      "epoch": 1.57958984375,
+      "grad_norm": 0.6814418196014778,
+      "kl": 0.09228515625,
+      "learning_rate": 6.05224609375e-07,
+      "loss": 0.0037,
+      "reward": 1.7003534436225891,
+      "reward_std": 0.06812034081667662,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7081659436225891,
+      "step": 3234
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 258.5078125,
+      "epoch": 1.580078125,
+      "grad_norm": 4.059148446029115,
+      "kl": 0.073974609375,
+      "learning_rate": 6.051025390625e-07,
+      "loss": 0.003,
+      "reward": 1.7905691862106323,
+      "reward_std": 0.053706713020801544,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7905691266059875,
+      "step": 3235
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 289.6328125,
+      "epoch": 1.58056640625,
+      "grad_norm": 0.89045191140724,
+      "kl": 0.057861328125,
+      "learning_rate": 6.049804687499999e-07,
+      "loss": 0.0023,
+      "reward": 1.9589157104492188,
+      "reward_std": 0.05596003495156765,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.9589157104492188,
+      "step": 3236
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 267.671875,
+      "epoch": 1.5810546875,
+      "grad_norm": 27.98655992203742,
+      "kl": 0.091796875,
+      "learning_rate": 6.048583984375e-07,
+      "loss": 0.0037,
+      "reward": 1.742477536201477,
+      "reward_std": 0.09132163226604462,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.742477536201477,
+      "step": 3237
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 311.78125,
+      "epoch": 1.58154296875,
+      "grad_norm": 1.8475477481704758,
+      "kl": 0.067626953125,
+      "learning_rate": 6.04736328125e-07,
+      "loss": 0.0027,
+      "reward": 1.7812891602516174,
+      "reward_std": 0.13560626655817032,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7969141900539398,
+      "step": 3238
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 281.109375,
+      "epoch": 1.58203125,
+      "grad_norm": 1.6327596150343278,
+      "kl": 0.087158203125,
+      "learning_rate": 6.046142578125e-07,
+      "loss": 0.0035,
+      "reward": 1.799069106578827,
+      "reward_std": 0.057514723390340805,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7990691363811493,
+      "step": 3239
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 323.203125,
+      "epoch": 1.58251953125,
+      "grad_norm": 2.100124971039901,
+      "kl": 0.0732421875,
+      "learning_rate": 6.044921875e-07,
+      "loss": 0.0029,
+      "reward": 1.7056349515914917,
+      "reward_std": 0.021463132463395596,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7056349515914917,
+      "step": 3240
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 286.109375,
+      "epoch": 1.5830078125,
+      "grad_norm": 0.9123360385826916,
+      "kl": 0.0704345703125,
+      "learning_rate": 6.043701171875e-07,
+      "loss": 0.0028,
+      "reward": 1.8157188296318054,
+      "reward_std": 0.06355854496359825,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8157188296318054,
+      "step": 3241
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 247.7421875,
+      "epoch": 1.58349609375,
+      "grad_norm": 3.3904581418786015,
+      "kl": 0.08642578125,
+      "learning_rate": 6.042480468749999e-07,
+      "loss": 0.0035,
+      "reward": 1.8644654154777527,
+      "reward_std": 0.06617464870214462,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8644654750823975,
+      "step": 3242
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 263.0390625,
+      "epoch": 1.583984375,
+      "grad_norm": 2.5280802263881643,
+      "kl": 0.06982421875,
+      "learning_rate": 6.041259765624999e-07,
+      "loss": 0.0028,
+      "reward": 1.8594006896018982,
+      "reward_std": 0.03832878777757287,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8672131299972534,
+      "step": 3243
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 235.0625,
+      "epoch": 1.58447265625,
+      "grad_norm": 1.7853672075638696,
+      "kl": 0.09375,
+      "learning_rate": 6.0400390625e-07,
+      "loss": 0.0037,
+      "reward": 1.7820322513580322,
+      "reward_std": 0.03775404021143913,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7820322811603546,
+      "step": 3244
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 211.4609375,
+      "epoch": 1.5849609375,
+      "grad_norm": 3.1479729709522544,
+      "kl": 0.09033203125,
+      "learning_rate": 6.038818359375e-07,
+      "loss": 0.0036,
+      "reward": 1.828788161277771,
+      "reward_std": 0.029659430496394634,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8287881314754486,
+      "step": 3245
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 263.7734375,
+      "epoch": 1.58544921875,
+      "grad_norm": 1.8693724346947198,
+      "kl": 0.091552734375,
+      "learning_rate": 6.03759765625e-07,
+      "loss": 0.0037,
+      "reward": 1.6129669547080994,
+      "reward_std": 0.051816992461681366,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6129669547080994,
+      "step": 3246
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 225.0625,
+      "epoch": 1.5859375,
+      "grad_norm": 2.4589967009937026,
+      "kl": 0.0771484375,
+      "learning_rate": 6.036376953125e-07,
+      "loss": 0.0031,
+      "reward": 1.776804268360138,
+      "reward_std": 0.04013761132955551,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7768042683601379,
+      "step": 3247
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 303.078125,
+      "epoch": 1.58642578125,
+      "grad_norm": 0.9274776553938363,
+      "kl": 0.080322265625,
+      "learning_rate": 6.03515625e-07,
+      "loss": 0.0032,
+      "reward": 1.7535163760185242,
+      "reward_std": 0.046172965317964554,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7535163760185242,
+      "step": 3248
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 276.0859375,
+      "epoch": 1.5869140625,
+      "grad_norm": 1.1471100947644117,
+      "kl": 0.07421875,
+      "learning_rate": 6.033935546874999e-07,
+      "loss": 0.003,
+      "reward": 1.738187551498413,
+      "reward_std": 0.0872982544824481,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7460000813007355,
+      "step": 3249
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 240.390625,
+      "epoch": 1.58740234375,
+      "grad_norm": 0.9499426055546841,
+      "kl": 0.0634765625,
+      "learning_rate": 6.032714843749999e-07,
+      "loss": 0.0025,
+      "reward": 1.8778213262557983,
+      "reward_std": 0.08278293255716562,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.9012588858604431,
+      "step": 3250
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 282.3984375,
+      "epoch": 1.587890625,
+      "grad_norm": 2.2261842170424577,
+      "kl": 0.080322265625,
+      "learning_rate": 6.031494140625e-07,
+      "loss": 0.0032,
+      "reward": 1.7778486013412476,
+      "reward_std": 0.0640218211337924,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7856611609458923,
+      "step": 3251
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 272.21875,
+      "epoch": 1.58837890625,
+      "grad_norm": 1.2139552367739217,
+      "kl": 0.0704345703125,
+      "learning_rate": 6.0302734375e-07,
+      "loss": 0.0028,
+      "reward": 1.8429046869277954,
+      "reward_std": 0.028244564309716225,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8429047465324402,
+      "step": 3252
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 346.8828125,
+      "epoch": 1.5888671875,
+      "grad_norm": 1.4532070226696283,
+      "kl": 0.0849609375,
+      "learning_rate": 6.029052734375e-07,
+      "loss": 0.0034,
+      "reward": 1.6911569833755493,
+      "reward_std": 0.1081528514623642,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6989694237709045,
+      "step": 3253
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 195.234375,
+      "epoch": 1.58935546875,
+      "grad_norm": 1.2377545429292913,
+      "kl": 0.066650390625,
+      "learning_rate": 6.02783203125e-07,
+      "loss": 0.0027,
+      "reward": 1.853829026222229,
+      "reward_std": 0.02524241991341114,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8538290560245514,
+      "step": 3254
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 243.6328125,
+      "epoch": 1.58984375,
+      "grad_norm": 1.0689435406627494,
+      "kl": 0.07568359375,
+      "learning_rate": 6.026611328124999e-07,
+      "loss": 0.003,
+      "reward": 1.7502402663230896,
+      "reward_std": 0.08583210222423077,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7580527365207672,
+      "step": 3255
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 333.609375,
+      "epoch": 1.59033203125,
+      "grad_norm": 2.129247438581581,
+      "kl": 0.07275390625,
+      "learning_rate": 6.025390624999999e-07,
+      "loss": 0.0029,
+      "reward": 1.6336244344711304,
+      "reward_std": 0.08128929510712624,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6336244642734528,
+      "step": 3256
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 234.0625,
+      "epoch": 1.5908203125,
+      "grad_norm": 2.9401186862267634,
+      "kl": 0.076904296875,
+      "learning_rate": 6.024169921875e-07,
+      "loss": 0.0031,
+      "reward": 1.7974181175231934,
+      "reward_std": 0.03139576967805624,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7974181473255157,
+      "step": 3257
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 279.015625,
+      "epoch": 1.59130859375,
+      "grad_norm": 1.7758066245944604,
+      "kl": 0.0751953125,
+      "learning_rate": 6.02294921875e-07,
+      "loss": 0.003,
+      "reward": 1.7531208395957947,
+      "reward_std": 0.02848457545042038,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7531208395957947,
+      "step": 3258
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 325.859375,
+      "epoch": 1.591796875,
+      "grad_norm": 6.7846858101834435,
+      "kl": 0.0712890625,
+      "learning_rate": 6.021728515625e-07,
+      "loss": 0.0029,
+      "reward": 1.7426277995109558,
+      "reward_std": 0.06002306379377842,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.742627739906311,
+      "step": 3259
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 286.5625,
+      "epoch": 1.59228515625,
+      "grad_norm": 3.355150773217038,
+      "kl": 0.0810546875,
+      "learning_rate": 6.0205078125e-07,
+      "loss": 0.0032,
+      "reward": 1.913890540599823,
+      "reward_std": 0.041608670726418495,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.9138904809951782,
+      "step": 3260
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 235.2421875,
+      "epoch": 1.5927734375,
+      "grad_norm": 0.9105120534656213,
+      "kl": 0.0877685546875,
+      "learning_rate": 6.019287109375e-07,
+      "loss": 0.0035,
+      "reward": 1.8028390407562256,
+      "reward_std": 0.07113232091069221,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8028390407562256,
+      "step": 3261
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 327.703125,
+      "epoch": 1.59326171875,
+      "grad_norm": 0.9245025145271322,
+      "kl": 0.07470703125,
+      "learning_rate": 6.018066406249999e-07,
+      "loss": 0.003,
+      "reward": 1.671428918838501,
+      "reward_std": 0.05243074335157871,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6714289486408234,
+      "step": 3262
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 326.9765625,
+      "epoch": 1.59375,
+      "grad_norm": 2.130691763806817,
+      "kl": 0.06982421875,
+      "learning_rate": 6.016845703124999e-07,
+      "loss": 0.0028,
+      "reward": 1.7941365838050842,
+      "reward_std": 0.09248049557209015,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.809761643409729,
+      "step": 3263
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 305.8828125,
+      "epoch": 1.59423828125,
+      "grad_norm": 1.4565066323176799,
+      "kl": 0.0625,
+      "learning_rate": 6.015625e-07,
+      "loss": 0.0025,
+      "reward": 1.7813687324523926,
+      "reward_std": 0.07458901032805443,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7891812920570374,
+      "step": 3264
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 293.3359375,
+      "epoch": 1.5947265625,
+      "grad_norm": 1.0694645510879401,
+      "kl": 0.068115234375,
+      "learning_rate": 6.014404296875e-07,
+      "loss": 0.0027,
+      "reward": 1.7209742665290833,
+      "reward_std": 0.12353447079658508,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.7678492069244385,
+      "step": 3265
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 330.6171875,
+      "epoch": 1.59521484375,
+      "grad_norm": 2.180425663820791,
+      "kl": 0.074951171875,
+      "learning_rate": 6.01318359375e-07,
+      "loss": 0.003,
+      "reward": 1.7168704271316528,
+      "reward_std": 0.10325317457318306,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7324954271316528,
+      "step": 3266
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 325.9140625,
+      "epoch": 1.595703125,
+      "grad_norm": 2.791039159238429,
+      "kl": 0.0684814453125,
+      "learning_rate": 6.011962890625e-07,
+      "loss": 0.0027,
+      "reward": 1.7321181297302246,
+      "reward_std": 0.10391049832105637,
+      "rewards/format_reward": 0.9453125,
+      "rewards/ocr_reward": 0.786805659532547,
+      "step": 3267
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 370.0078125,
+      "epoch": 1.59619140625,
+      "grad_norm": 0.8947974535479477,
+      "kl": 0.0577392578125,
+      "learning_rate": 6.010742187499999e-07,
+      "loss": 0.0023,
+      "reward": 1.8403544425964355,
+      "reward_std": 0.055374979972839355,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8481669425964355,
+      "step": 3268
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 319.0078125,
+      "epoch": 1.5966796875,
+      "grad_norm": 1.1528503859568437,
+      "kl": 0.07568359375,
+      "learning_rate": 6.009521484374999e-07,
+      "loss": 0.003,
+      "reward": 1.6485916376113892,
+      "reward_std": 0.018121136352419853,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6485916376113892,
+      "step": 3269
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 336.5078125,
+      "epoch": 1.59716796875,
+      "grad_norm": 3.0563137616187652,
+      "kl": 0.0594482421875,
+      "learning_rate": 6.00830078125e-07,
+      "loss": 0.0024,
+      "reward": 1.7807026505470276,
+      "reward_std": 0.1419503539800644,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7807026207447052,
+      "step": 3270
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 249.140625,
+      "epoch": 1.59765625,
+      "grad_norm": 1.335457862432662,
+      "kl": 0.084228515625,
+      "learning_rate": 6.007080078125e-07,
+      "loss": 0.0034,
+      "reward": 1.797263503074646,
+      "reward_std": 0.06179828941822052,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.797263503074646,
+      "step": 3271
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 258.609375,
+      "epoch": 1.59814453125,
+      "grad_norm": 1.121524259737413,
+      "kl": 0.06689453125,
+      "learning_rate": 6.005859375e-07,
+      "loss": 0.0027,
+      "reward": 1.7773959040641785,
+      "reward_std": 0.05081337783485651,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7773959338665009,
+      "step": 3272
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 290.15625,
+      "epoch": 1.5986328125,
+      "grad_norm": 2.866249679866173,
+      "kl": 0.0645751953125,
+      "learning_rate": 6.004638671875e-07,
+      "loss": 0.0026,
+      "reward": 1.8175668716430664,
+      "reward_std": 0.11312521249055862,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8253794610500336,
+      "step": 3273
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 313.453125,
+      "epoch": 1.59912109375,
+      "grad_norm": 3.606065177774678,
+      "kl": 0.0640869140625,
+      "learning_rate": 6.00341796875e-07,
+      "loss": 0.0026,
+      "reward": 1.781424641609192,
+      "reward_std": 0.08653675019741058,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7814246118068695,
+      "step": 3274
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 367.3828125,
+      "epoch": 1.599609375,
+      "grad_norm": 3.5178633189395523,
+      "kl": 0.08203125,
+      "learning_rate": 6.002197265624999e-07,
+      "loss": 0.0033,
+      "reward": 1.7668121457099915,
+      "reward_std": 0.126564159989357,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7824371457099915,
+      "step": 3275
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 368.171875,
+      "epoch": 1.60009765625,
+      "grad_norm": 0.6996774519584336,
+      "kl": 0.0472412109375,
+      "learning_rate": 6.000976562499999e-07,
+      "loss": 0.0019,
+      "reward": 1.814025104045868,
+      "reward_std": 0.12107747420668602,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.8609001040458679,
+      "step": 3276
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 388.75,
+      "epoch": 1.6005859375,
+      "grad_norm": 0.8261108370026679,
+      "kl": 0.0513916015625,
+      "learning_rate": 5.999755859375e-07,
+      "loss": 0.0021,
+      "reward": 1.7932913899421692,
+      "reward_std": 0.032305057160556316,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7932913601398468,
+      "step": 3277
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 263.3203125,
+      "epoch": 1.60107421875,
+      "grad_norm": 2.058098522878682,
+      "kl": 0.0830078125,
+      "learning_rate": 5.99853515625e-07,
+      "loss": 0.0033,
+      "reward": 1.8758089542388916,
+      "reward_std": 0.0519051980227232,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8758089244365692,
+      "step": 3278
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 378.4765625,
+      "epoch": 1.6015625,
+      "grad_norm": 3.9373950604712626,
+      "kl": 0.0494384765625,
+      "learning_rate": 5.997314453125e-07,
+      "loss": 0.002,
+      "reward": 1.8489559888839722,
+      "reward_std": 0.04422624595463276,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8489560484886169,
+      "step": 3279
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 295.7265625,
+      "epoch": 1.60205078125,
+      "grad_norm": 7.884811127959207,
+      "kl": 0.0703125,
+      "learning_rate": 5.99609375e-07,
+      "loss": 0.0028,
+      "reward": 1.6899959444999695,
+      "reward_std": 0.10859640687704086,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6978083550930023,
+      "step": 3280
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 419.2265625,
+      "epoch": 1.6025390625,
+      "grad_norm": 2.7975461752500577,
+      "kl": 0.054443359375,
+      "learning_rate": 5.994873046875e-07,
+      "loss": 0.0022,
+      "reward": 1.6196198463439941,
+      "reward_std": 0.1712161898612976,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.6664949059486389,
+      "step": 3281
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 333.0234375,
+      "epoch": 1.60302734375,
+      "grad_norm": 0.9151595270896026,
+      "kl": 0.086181640625,
+      "learning_rate": 5.993652343749999e-07,
+      "loss": 0.0034,
+      "reward": 1.7856322526931763,
+      "reward_std": 0.02972456067800522,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7856322526931763,
+      "step": 3282
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 341.7109375,
+      "epoch": 1.603515625,
+      "grad_norm": 1.7965453423126865,
+      "kl": 0.097900390625,
+      "learning_rate": 5.992431640625e-07,
+      "loss": 0.0039,
+      "reward": 1.7602424621582031,
+      "reward_std": 0.13400599360466003,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7758674323558807,
+      "step": 3283
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 371.90625,
+      "epoch": 1.60400390625,
+      "grad_norm": 1.0639662963187586,
+      "kl": 0.0548095703125,
+      "learning_rate": 5.9912109375e-07,
+      "loss": 0.0022,
+      "reward": 1.8079357147216797,
+      "reward_std": 0.18928005546331406,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.8313732445240021,
+      "step": 3284
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 366.953125,
+      "epoch": 1.6044921875,
+      "grad_norm": 1.2197720201061695,
+      "kl": 0.057373046875,
+      "learning_rate": 5.989990234375e-07,
+      "loss": 0.0023,
+      "reward": 1.821268081665039,
+      "reward_std": 0.02508594747632742,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8212681412696838,
+      "step": 3285
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 353.609375,
+      "epoch": 1.60498046875,
+      "grad_norm": 1.4231911127812176,
+      "kl": 0.0611572265625,
+      "learning_rate": 5.98876953125e-07,
+      "loss": 0.0024,
+      "reward": 1.851391077041626,
+      "reward_std": 0.12025601789355278,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.8670159578323364,
+      "step": 3286
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 335.4296875,
+      "epoch": 1.60546875,
+      "grad_norm": 1.911311177993667,
+      "kl": 0.0947265625,
+      "learning_rate": 5.987548828125e-07,
+      "loss": 0.0038,
+      "reward": 1.7131580114364624,
+      "reward_std": 0.07230347953736782,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7131580114364624,
+      "step": 3287
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 372.015625,
+      "epoch": 1.60595703125,
+      "grad_norm": 0.8159968339623103,
+      "kl": 0.0516357421875,
+      "learning_rate": 5.986328124999999e-07,
+      "loss": 0.0021,
+      "reward": 1.7010605335235596,
+      "reward_std": 0.12904052436351776,
+      "rewards/format_reward": 0.953125,
+      "rewards/ocr_reward": 0.7479356527328491,
+      "step": 3288
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 274.125,
+      "epoch": 1.6064453125,
+      "grad_norm": 0.8081713539518741,
+      "kl": 0.072509765625,
+      "learning_rate": 5.985107421874999e-07,
+      "loss": 0.0029,
+      "reward": 1.8329209685325623,
+      "reward_std": 0.02778689656406641,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8329209983348846,
+      "step": 3289
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 326.796875,
+      "epoch": 1.60693359375,
+      "grad_norm": 1.5031271056588227,
+      "kl": 0.072509765625,
+      "learning_rate": 5.98388671875e-07,
+      "loss": 0.0029,
+      "reward": 1.794043481349945,
+      "reward_std": 0.05896776542067528,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7940434813499451,
+      "step": 3290
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 398.7890625,
+      "epoch": 1.607421875,
+      "grad_norm": 1.3872359065707587,
+      "kl": 0.07470703125,
+      "learning_rate": 5.982666015625e-07,
+      "loss": 0.003,
+      "reward": 1.6995200514793396,
+      "reward_std": 0.08452805131673813,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7073325216770172,
+      "step": 3291
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 234.8046875,
+      "epoch": 1.60791015625,
+      "grad_norm": 0.8648030111794723,
+      "kl": 0.078857421875,
+      "learning_rate": 5.9814453125e-07,
+      "loss": 0.0032,
+      "reward": 1.7610323429107666,
+      "reward_std": 0.05742851458489895,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7688448131084442,
+      "step": 3292
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 355.671875,
+      "epoch": 1.6083984375,
+      "grad_norm": 6.153849152464751,
+      "kl": 0.082763671875,
+      "learning_rate": 5.980224609375e-07,
+      "loss": 0.0033,
+      "reward": 1.7795958518981934,
+      "reward_std": 0.07071587443351746,
+      "rewards/format_reward": 0.9453125,
+      "rewards/ocr_reward": 0.8342833817005157,
+      "step": 3293
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 373.34375,
+      "epoch": 1.60888671875,
+      "grad_norm": 1.0323918030975063,
+      "kl": 0.064453125,
+      "learning_rate": 5.97900390625e-07,
+      "loss": 0.0026,
+      "reward": 1.8604564666748047,
+      "reward_std": 0.04785814322531223,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8604564666748047,
+      "step": 3294
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 316.6015625,
+      "epoch": 1.609375,
+      "grad_norm": 1.4849996417871474,
+      "kl": 0.074462890625,
+      "learning_rate": 5.977783203124999e-07,
+      "loss": 0.003,
+      "reward": 1.703747808933258,
+      "reward_std": 0.08227039128541946,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7037478089332581,
+      "step": 3295
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 360.125,
+      "epoch": 1.60986328125,
+      "grad_norm": 2.1214209431752122,
+      "kl": 0.06298828125,
+      "learning_rate": 5.9765625e-07,
+      "loss": 0.0025,
+      "reward": 1.794127881526947,
+      "reward_std": 0.07666090503334999,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7941278219223022,
+      "step": 3296
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 261.859375,
+      "epoch": 1.6103515625,
+      "grad_norm": 1.6164264023490769,
+      "kl": 0.086181640625,
+      "learning_rate": 5.975341796875e-07,
+      "loss": 0.0035,
+      "reward": 1.6789074540138245,
+      "reward_std": 0.033364531584084034,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6789074838161469,
+      "step": 3297
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 333.9453125,
+      "epoch": 1.61083984375,
+      "grad_norm": 1.8073919332154889,
+      "kl": 0.076171875,
+      "learning_rate": 5.97412109375e-07,
+      "loss": 0.003,
+      "reward": 1.6800431609153748,
+      "reward_std": 0.06180498003959656,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6800430715084076,
+      "step": 3298
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 305.15625,
+      "epoch": 1.611328125,
+      "grad_norm": 1.9650430682434774,
+      "kl": 0.0849609375,
+      "learning_rate": 5.972900390625e-07,
+      "loss": 0.0034,
+      "reward": 1.720855951309204,
+      "reward_std": 0.08976828306913376,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7442933619022369,
+      "step": 3299
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 244.953125,
+      "epoch": 1.61181640625,
+      "grad_norm": 1.5026385468711767,
+      "kl": 0.07373046875,
+      "learning_rate": 5.9716796875e-07,
+      "loss": 0.0029,
+      "reward": 1.7150686383247375,
+      "reward_std": 0.10774907097220421,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7228811085224152,
+      "step": 3300
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 187.9609375,
+      "epoch": 1.6123046875,
+      "grad_norm": 3.9327500342779778,
+      "kl": 0.08203125,
+      "learning_rate": 5.970458984374999e-07,
+      "loss": 0.0033,
+      "reward": 1.7554203271865845,
+      "reward_std": 0.09172924142330885,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7554203867912292,
+      "step": 3301
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 237.0546875,
+      "epoch": 1.61279296875,
+      "grad_norm": 2.715132927951165,
+      "kl": 0.083251953125,
+      "learning_rate": 5.969238281249999e-07,
+      "loss": 0.0033,
+      "reward": 1.752245843410492,
+      "reward_std": 0.0424564378336072,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7522459030151367,
+      "step": 3302
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 195.9375,
+      "epoch": 1.61328125,
+      "grad_norm": 0.9299085475576804,
+      "kl": 0.067626953125,
+      "learning_rate": 5.968017578125e-07,
+      "loss": 0.0027,
+      "reward": 1.815238118171692,
+      "reward_std": 0.04331210441887379,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8152380585670471,
+      "step": 3303
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 269.59375,
+      "epoch": 1.61376953125,
+      "grad_norm": 1.4842707399360437,
+      "kl": 0.07080078125,
+      "learning_rate": 5.966796875e-07,
+      "loss": 0.0028,
+      "reward": 1.6607686877250671,
+      "reward_std": 0.0442405054345727,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6607686877250671,
+      "step": 3304
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 287.65625,
+      "epoch": 1.6142578125,
+      "grad_norm": 2.0590875753569335,
+      "kl": 0.064697265625,
+      "learning_rate": 5.965576171875e-07,
+      "loss": 0.0026,
+      "reward": 1.8585594296455383,
+      "reward_std": 0.05867746938019991,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8585593700408936,
+      "step": 3305
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 317.8125,
+      "epoch": 1.61474609375,
+      "grad_norm": 1.6223776518735307,
+      "kl": 0.089599609375,
+      "learning_rate": 5.96435546875e-07,
+      "loss": 0.0036,
+      "reward": 1.7585085034370422,
+      "reward_std": 0.055630091577768326,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.758508563041687,
+      "step": 3306
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 242.3515625,
+      "epoch": 1.615234375,
+      "grad_norm": 6.29346114659625,
+      "kl": 0.0816650390625,
+      "learning_rate": 5.963134765625e-07,
+      "loss": 0.0033,
+      "reward": 1.6852021217346191,
+      "reward_std": 0.030728538520634174,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6852021813392639,
+      "step": 3307
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 229.640625,
+      "epoch": 1.61572265625,
+      "grad_norm": 57.61803616396629,
+      "kl": 0.114501953125,
+      "learning_rate": 5.961914062499999e-07,
+      "loss": 0.0046,
+      "reward": 1.651352047920227,
+      "reward_std": 0.05351191433146596,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6513520181179047,
+      "step": 3308
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 293.0,
+      "epoch": 1.6162109375,
+      "grad_norm": 1.3324160676364192,
+      "kl": 0.0623779296875,
+      "learning_rate": 5.960693359375e-07,
+      "loss": 0.0025,
+      "reward": 1.818449318408966,
+      "reward_std": 0.07615053281188011,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8262618482112885,
+      "step": 3309
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 366.6015625,
+      "epoch": 1.61669921875,
+      "grad_norm": 1.5524145516661523,
+      "kl": 0.0604248046875,
+      "learning_rate": 5.95947265625e-07,
+      "loss": 0.0024,
+      "reward": 1.7558764815330505,
+      "reward_std": 0.08649563789367676,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7558764517307281,
+      "step": 3310
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 234.9296875,
+      "epoch": 1.6171875,
+      "grad_norm": 2.2022666625672174,
+      "kl": 0.077880859375,
+      "learning_rate": 5.958251953125e-07,
+      "loss": 0.0031,
+      "reward": 1.9051913619041443,
+      "reward_std": 0.057089509442448616,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.9051913619041443,
+      "step": 3311
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 316.3125,
+      "epoch": 1.61767578125,
+      "grad_norm": 2.122944616604469,
+      "kl": 0.087646484375,
+      "learning_rate": 5.95703125e-07,
+      "loss": 0.0035,
+      "reward": 1.7621399760246277,
+      "reward_std": 0.07783204689621925,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7621399760246277,
+      "step": 3312
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 302.375,
+      "epoch": 1.6181640625,
+      "grad_norm": 0.6451018067962863,
+      "kl": 0.092041015625,
+      "learning_rate": 5.955810546875e-07,
+      "loss": 0.0037,
+      "reward": 1.8151302337646484,
+      "reward_std": 0.17584221065044403,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.8385677337646484,
+      "step": 3313
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 264.3125,
+      "epoch": 1.61865234375,
+      "grad_norm": 2.9643724571250902,
+      "kl": 0.072021484375,
+      "learning_rate": 5.954589843749999e-07,
+      "loss": 0.0029,
+      "reward": 1.8480368256568909,
+      "reward_std": 0.04931685887277126,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8480368256568909,
+      "step": 3314
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 311.6171875,
+      "epoch": 1.619140625,
+      "grad_norm": 14.73302874665288,
+      "kl": 0.175048828125,
+      "learning_rate": 5.953369140624999e-07,
+      "loss": 0.007,
+      "reward": 1.781773030757904,
+      "reward_std": 0.14042264595627785,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.805210530757904,
+      "step": 3315
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 254.96875,
+      "epoch": 1.61962890625,
+      "grad_norm": 0.8900575904775362,
+      "kl": 0.075927734375,
+      "learning_rate": 5.9521484375e-07,
+      "loss": 0.003,
+      "reward": 1.8554713726043701,
+      "reward_std": 0.06886312644928694,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8632838726043701,
+      "step": 3316
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 212.515625,
+      "epoch": 1.6201171875,
+      "grad_norm": 2.466288409101878,
+      "kl": 0.077880859375,
+      "learning_rate": 5.950927734375e-07,
+      "loss": 0.0031,
+      "reward": 1.7723018527030945,
+      "reward_std": 0.02210051123984158,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7723018527030945,
+      "step": 3317
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 195.59375,
+      "epoch": 1.62060546875,
+      "grad_norm": 2.5984727262943124,
+      "kl": 0.074462890625,
+      "learning_rate": 5.94970703125e-07,
+      "loss": 0.003,
+      "reward": 1.7868224382400513,
+      "reward_std": 0.05945824505761266,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7868223786354065,
+      "step": 3318
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 381.5390625,
+      "epoch": 1.62109375,
+      "grad_norm": 1.4154199137348544,
+      "kl": 0.0694580078125,
+      "learning_rate": 5.948486328125e-07,
+      "loss": 0.0028,
+      "reward": 1.7688942551612854,
+      "reward_std": 0.13842950016260147,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.8079566955566406,
+      "step": 3319
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 244.0078125,
+      "epoch": 1.62158203125,
+      "grad_norm": 0.6836739446073203,
+      "kl": 0.085205078125,
+      "learning_rate": 5.947265625e-07,
+      "loss": 0.0034,
+      "reward": 1.7379599213600159,
+      "reward_std": 0.05289880000054836,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7379598617553711,
+      "step": 3320
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 276.953125,
+      "epoch": 1.6220703125,
+      "grad_norm": 1.1625041958754734,
+      "kl": 0.08544921875,
+      "learning_rate": 5.946044921874999e-07,
+      "loss": 0.0034,
+      "reward": 1.901548981666565,
+      "reward_std": 0.04509174823760986,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.9015489816665649,
+      "step": 3321
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 242.4453125,
+      "epoch": 1.62255859375,
+      "grad_norm": 2.346547215431855,
+      "kl": 0.12109375,
+      "learning_rate": 5.94482421875e-07,
+      "loss": 0.0049,
+      "reward": 1.7190340757369995,
+      "reward_std": 0.10668664053082466,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7268466651439667,
+      "step": 3322
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 312.4296875,
+      "epoch": 1.623046875,
+      "grad_norm": 1.7067499710514877,
+      "kl": 0.0728759765625,
+      "learning_rate": 5.943603515625e-07,
+      "loss": 0.0029,
+      "reward": 1.7981135249137878,
+      "reward_std": 0.08968368917703629,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7981135547161102,
+      "step": 3323
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 300.3046875,
+      "epoch": 1.62353515625,
+      "grad_norm": 0.9846710994291399,
+      "kl": 0.071533203125,
+      "learning_rate": 5.9423828125e-07,
+      "loss": 0.0029,
+      "reward": 1.8831993341445923,
+      "reward_std": 0.029867228120565414,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8831993639469147,
+      "step": 3324
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 256.5,
+      "epoch": 1.6240234375,
+      "grad_norm": 2.922443835097143,
+      "kl": 0.08642578125,
+      "learning_rate": 5.941162109375e-07,
+      "loss": 0.0035,
+      "reward": 1.7861003875732422,
+      "reward_std": 0.06693215668201447,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7861004769802094,
+      "step": 3325
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 264.140625,
+      "epoch": 1.62451171875,
+      "grad_norm": 0.6981453405142553,
+      "kl": 0.0657958984375,
+      "learning_rate": 5.93994140625e-07,
+      "loss": 0.0026,
+      "reward": 1.9097455143928528,
+      "reward_std": 0.02694264892488718,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.9097454845905304,
+      "step": 3326
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 313.75,
+      "epoch": 1.625,
+      "grad_norm": 1.7535640438867004,
+      "kl": 0.076904296875,
+      "learning_rate": 5.938720703124999e-07,
+      "loss": 0.0031,
+      "reward": 1.8061844110488892,
+      "reward_std": 0.04717784374952316,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8061844110488892,
+      "step": 3327
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 342.1015625,
+      "epoch": 1.62548828125,
+      "grad_norm": 1.2336422112092555,
+      "kl": 0.064697265625,
+      "learning_rate": 5.937499999999999e-07,
+      "loss": 0.0026,
+      "reward": 1.7810336351394653,
+      "reward_std": 0.07749061286449432,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7888461053371429,
+      "step": 3328
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 387.09375,
+      "epoch": 1.6259765625,
+      "grad_norm": 3.487351497648713,
+      "kl": 0.06494140625,
+      "learning_rate": 5.936279296875e-07,
+      "loss": 0.0026,
+      "reward": 1.6700169444084167,
+      "reward_std": 0.17180902510881424,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.693454384803772,
+      "step": 3329
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 313.1875,
+      "epoch": 1.62646484375,
+      "grad_norm": 13.359609968705223,
+      "kl": 0.08935546875,
+      "learning_rate": 5.93505859375e-07,
+      "loss": 0.0036,
+      "reward": 1.6575063467025757,
+      "reward_std": 0.055701796896755695,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6575063467025757,
+      "step": 3330
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 288.3984375,
+      "epoch": 1.626953125,
+      "grad_norm": 0.6032534098055211,
+      "kl": 0.06396484375,
+      "learning_rate": 5.933837890625e-07,
+      "loss": 0.0026,
+      "reward": 1.8520901799201965,
+      "reward_std": 0.07921074330806732,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8599026799201965,
+      "step": 3331
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 312.078125,
+      "epoch": 1.62744140625,
+      "grad_norm": 1.2697462288963357,
+      "kl": 0.08154296875,
+      "learning_rate": 5.9326171875e-07,
+      "loss": 0.0033,
+      "reward": 1.7715474963188171,
+      "reward_std": 0.06629283353686333,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7715475261211395,
+      "step": 3332
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 264.8515625,
+      "epoch": 1.6279296875,
+      "grad_norm": 2.641032389095305,
+      "kl": 0.0672607421875,
+      "learning_rate": 5.931396484375e-07,
+      "loss": 0.0027,
+      "reward": 1.69329833984375,
+      "reward_std": 0.06569128856062889,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6932983696460724,
+      "step": 3333
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 224.78125,
+      "epoch": 1.62841796875,
+      "grad_norm": 2.5623974388990454,
+      "kl": 0.0908203125,
+      "learning_rate": 5.930175781249999e-07,
+      "loss": 0.0036,
+      "reward": 1.8435781002044678,
+      "reward_std": 0.0874359430745244,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8435779809951782,
+      "step": 3334
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 298.828125,
+      "epoch": 1.62890625,
+      "grad_norm": 1.5883862067873453,
+      "kl": 0.088623046875,
+      "learning_rate": 5.928955078125e-07,
+      "loss": 0.0035,
+      "reward": 1.7597174644470215,
+      "reward_std": 0.08109994605183601,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7675299346446991,
+      "step": 3335
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 297.65625,
+      "epoch": 1.62939453125,
+      "grad_norm": 1.0616997874872647,
+      "kl": 0.06640625,
+      "learning_rate": 5.927734375e-07,
+      "loss": 0.0027,
+      "reward": 1.7667133212089539,
+      "reward_std": 0.1313837133347988,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7901508212089539,
+      "step": 3336
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 255.1875,
+      "epoch": 1.6298828125,
+      "grad_norm": 2.9226107751812354,
+      "kl": 0.1103515625,
+      "learning_rate": 5.926513671875e-07,
+      "loss": 0.0044,
+      "reward": 1.6865645051002502,
+      "reward_std": 0.06128368899226189,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6865644752979279,
+      "step": 3337
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 261.9765625,
+      "epoch": 1.63037109375,
+      "grad_norm": 1.4254524637894548,
+      "kl": 0.0645751953125,
+      "learning_rate": 5.92529296875e-07,
+      "loss": 0.0026,
+      "reward": 1.7799670696258545,
+      "reward_std": 0.02988600544631481,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7799670994281769,
+      "step": 3338
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 282.34375,
+      "epoch": 1.630859375,
+      "grad_norm": 0.9006275035038049,
+      "kl": 0.0548095703125,
+      "learning_rate": 5.924072265625e-07,
+      "loss": 0.0022,
+      "reward": 1.8364945650100708,
+      "reward_std": 0.03155016852542758,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8364945650100708,
+      "step": 3339
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 287.203125,
+      "epoch": 1.63134765625,
+      "grad_norm": 1.9607130935646655,
+      "kl": 0.080322265625,
+      "learning_rate": 5.922851562499999e-07,
+      "loss": 0.0032,
+      "reward": 1.77052640914917,
+      "reward_std": 0.06949007511138916,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7705264091491699,
+      "step": 3340
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 251.375,
+      "epoch": 1.6318359375,
+      "grad_norm": 4.07493900518628,
+      "kl": 0.076416015625,
+      "learning_rate": 5.921630859374999e-07,
+      "loss": 0.003,
+      "reward": 1.8116753101348877,
+      "reward_std": 0.11965424194931984,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8116753697395325,
+      "step": 3341
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 290.09375,
+      "epoch": 1.63232421875,
+      "grad_norm": 3.3284633422339027,
+      "kl": 0.06884765625,
+      "learning_rate": 5.92041015625e-07,
+      "loss": 0.0028,
+      "reward": 1.7393649220466614,
+      "reward_std": 0.11131243035197258,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7628024816513062,
+      "step": 3342
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 260.328125,
+      "epoch": 1.6328125,
+      "grad_norm": 1.6845731379939248,
+      "kl": 0.076171875,
+      "learning_rate": 5.919189453125e-07,
+      "loss": 0.003,
+      "reward": 1.7558993101119995,
+      "reward_std": 0.03900916501879692,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7558992505073547,
+      "step": 3343
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 311.03125,
+      "epoch": 1.63330078125,
+      "grad_norm": 1.3128493226455236,
+      "kl": 0.06005859375,
+      "learning_rate": 5.91796875e-07,
+      "loss": 0.0024,
+      "reward": 1.6177734732627869,
+      "reward_std": 0.0996141117066145,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.6490235030651093,
+      "step": 3344
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 294.984375,
+      "epoch": 1.6337890625,
+      "grad_norm": 1.7117136465741267,
+      "kl": 0.086669921875,
+      "learning_rate": 5.916748046875e-07,
+      "loss": 0.0035,
+      "reward": 1.555152177810669,
+      "reward_std": 0.10387120954692364,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.555152177810669,
+      "step": 3345
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 294.2265625,
+      "epoch": 1.63427734375,
+      "grad_norm": 1.4566254667516192,
+      "kl": 0.072021484375,
+      "learning_rate": 5.91552734375e-07,
+      "loss": 0.0029,
+      "reward": 1.7571306228637695,
+      "reward_std": 0.05150624364614487,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7571305930614471,
+      "step": 3346
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 335.4140625,
+      "epoch": 1.634765625,
+      "grad_norm": 2.543802498479339,
+      "kl": 0.082275390625,
+      "learning_rate": 5.914306640624999e-07,
+      "loss": 0.0033,
+      "reward": 1.732638418674469,
+      "reward_std": 0.11016843095421791,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7404508292675018,
+      "step": 3347
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 291.0078125,
+      "epoch": 1.63525390625,
+      "grad_norm": 7.467359428277764,
+      "kl": 0.0714111328125,
+      "learning_rate": 5.913085937499999e-07,
+      "loss": 0.0029,
+      "reward": 1.9553462266921997,
+      "reward_std": 0.07758795842528343,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.9553462266921997,
+      "step": 3348
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 266.03125,
+      "epoch": 1.6357421875,
+      "grad_norm": 1.1941702843950022,
+      "kl": 0.058837890625,
+      "learning_rate": 5.911865234375e-07,
+      "loss": 0.0024,
+      "reward": 1.6709920763969421,
+      "reward_std": 0.05428230203688145,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6709920763969421,
+      "step": 3349
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 349.3125,
+      "epoch": 1.63623046875,
+      "grad_norm": 1.2102935214629125,
+      "kl": 0.0623779296875,
+      "learning_rate": 5.91064453125e-07,
+      "loss": 0.0025,
+      "reward": 1.8021827936172485,
+      "reward_std": 0.03311594016849995,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8021828532218933,
+      "step": 3350
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 315.0546875,
+      "epoch": 1.63671875,
+      "grad_norm": 9.421608837634526,
+      "kl": 0.08251953125,
+      "learning_rate": 5.909423828125e-07,
+      "loss": 0.0033,
+      "reward": 1.809500515460968,
+      "reward_std": 0.09658823721110821,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.809500515460968,
+      "step": 3351
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 285.3828125,
+      "epoch": 1.63720703125,
+      "grad_norm": 2.2569011847158373,
+      "kl": 0.0986328125,
+      "learning_rate": 5.908203125e-07,
+      "loss": 0.0039,
+      "reward": 1.721911609172821,
+      "reward_std": 0.039531731978058815,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7219116389751434,
+      "step": 3352
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 315.0078125,
+      "epoch": 1.6376953125,
+      "grad_norm": 4.408187685160172,
+      "kl": 0.0643310546875,
+      "learning_rate": 5.906982421874999e-07,
+      "loss": 0.0026,
+      "reward": 1.8004092574119568,
+      "reward_std": 0.10856766253709793,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.823846697807312,
+      "step": 3353
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 320.71875,
+      "epoch": 1.63818359375,
+      "grad_norm": 1.482450859345647,
+      "kl": 0.0640869140625,
+      "learning_rate": 5.905761718749999e-07,
+      "loss": 0.0026,
+      "reward": 1.8073206543922424,
+      "reward_std": 0.09571165032684803,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8073206543922424,
+      "step": 3354
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 289.2890625,
+      "epoch": 1.638671875,
+      "grad_norm": 1.1455791471480024,
+      "kl": 0.0482177734375,
+      "learning_rate": 5.904541015625e-07,
+      "loss": 0.0019,
+      "reward": 1.8967827558517456,
+      "reward_std": 0.06931715365499258,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.9045952558517456,
+      "step": 3355
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 345.8359375,
+      "epoch": 1.63916015625,
+      "grad_norm": 2.129032656060852,
+      "kl": 0.068359375,
+      "learning_rate": 5.9033203125e-07,
+      "loss": 0.0027,
+      "reward": 1.7991633415222168,
+      "reward_std": 0.09995237179100513,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.814788281917572,
+      "step": 3356
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 343.140625,
+      "epoch": 1.6396484375,
+      "grad_norm": 2.146074812890639,
+      "kl": 0.060302734375,
+      "learning_rate": 5.902099609375e-07,
+      "loss": 0.0024,
+      "reward": 1.8512172102928162,
+      "reward_std": 0.03298699017614126,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8512172102928162,
+      "step": 3357
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 314.2578125,
+      "epoch": 1.64013671875,
+      "grad_norm": 3.1698472003026805,
+      "kl": 0.124755859375,
+      "learning_rate": 5.90087890625e-07,
+      "loss": 0.005,
+      "reward": 1.7051687836647034,
+      "reward_std": 0.05394227243959904,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7051687836647034,
+      "step": 3358
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 333.15625,
+      "epoch": 1.640625,
+      "grad_norm": 1.3803953318171671,
+      "kl": 0.0633544921875,
+      "learning_rate": 5.899658203125e-07,
+      "loss": 0.0025,
+      "reward": 1.8232309818267822,
+      "reward_std": 0.1542208231985569,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.8466684818267822,
+      "step": 3359
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 273.1171875,
+      "epoch": 1.64111328125,
+      "grad_norm": 1.7556288084155496,
+      "kl": 0.084228515625,
+      "learning_rate": 5.898437499999999e-07,
+      "loss": 0.0034,
+      "reward": 1.815483808517456,
+      "reward_std": 0.07215754687786102,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.823296308517456,
+      "step": 3360
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 234.1796875,
+      "epoch": 1.6416015625,
+      "grad_norm": 0.8320346859160097,
+      "kl": 0.074462890625,
+      "learning_rate": 5.897216796874999e-07,
+      "loss": 0.003,
+      "reward": 1.7806763648986816,
+      "reward_std": 0.0820821225643158,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.788488894701004,
+      "step": 3361
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 328.1796875,
+      "epoch": 1.64208984375,
+      "grad_norm": 1.6450666905858577,
+      "kl": 0.094482421875,
+      "learning_rate": 5.89599609375e-07,
+      "loss": 0.0038,
+      "reward": 1.786492109298706,
+      "reward_std": 0.05385753884911537,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7864921987056732,
+      "step": 3362
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 242.4921875,
+      "epoch": 1.642578125,
+      "grad_norm": 1.0348454721040237,
+      "kl": 0.08251953125,
+      "learning_rate": 5.894775390625e-07,
+      "loss": 0.0033,
+      "reward": 1.7476333379745483,
+      "reward_std": 0.061420466750860214,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.755445808172226,
+      "step": 3363
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 220.7578125,
+      "epoch": 1.64306640625,
+      "grad_norm": 1.2261159636339791,
+      "kl": 0.0654296875,
+      "learning_rate": 5.8935546875e-07,
+      "loss": 0.0026,
+      "reward": 1.8361621499061584,
+      "reward_std": 0.11280067265033722,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.8517871201038361,
+      "step": 3364
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 340.296875,
+      "epoch": 1.6435546875,
+      "grad_norm": 1.7651610785496405,
+      "kl": 0.06787109375,
+      "learning_rate": 5.892333984375e-07,
+      "loss": 0.0027,
+      "reward": 1.8495672345161438,
+      "reward_std": 0.08414103463292122,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8495671451091766,
+      "step": 3365
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 253.8359375,
+      "epoch": 1.64404296875,
+      "grad_norm": 0.7490996025535948,
+      "kl": 0.074951171875,
+      "learning_rate": 5.891113281249999e-07,
+      "loss": 0.003,
+      "reward": 1.8907862901687622,
+      "reward_std": 0.01694483682513237,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.890786349773407,
+      "step": 3366
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 251.5546875,
+      "epoch": 1.64453125,
+      "grad_norm": 0.7273295456840305,
+      "kl": 0.08544921875,
+      "learning_rate": 5.889892578124999e-07,
+      "loss": 0.0034,
+      "reward": 1.7350443005561829,
+      "reward_std": 0.048879725858569145,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7350443005561829,
+      "step": 3367
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 286.21875,
+      "epoch": 1.64501953125,
+      "grad_norm": 7.736603835381099,
+      "kl": 0.095947265625,
+      "learning_rate": 5.888671875e-07,
+      "loss": 0.0038,
+      "reward": 1.761667251586914,
+      "reward_std": 0.04048959631472826,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7616672217845917,
+      "step": 3368
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 330.4609375,
+      "epoch": 1.6455078125,
+      "grad_norm": 1.4724329943645882,
+      "kl": 0.0556640625,
+      "learning_rate": 5.887451171875e-07,
+      "loss": 0.0022,
+      "reward": 1.8380178213119507,
+      "reward_std": 0.04197421669960022,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8380178809165955,
+      "step": 3369
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 245.5625,
+      "epoch": 1.64599609375,
+      "grad_norm": 1.4415743842970918,
+      "kl": 0.07470703125,
+      "learning_rate": 5.88623046875e-07,
+      "loss": 0.003,
+      "reward": 1.811439573764801,
+      "reward_std": 0.06903266906738281,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8114396035671234,
+      "step": 3370
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 262.71875,
+      "epoch": 1.646484375,
+      "grad_norm": 1.5866478649672215,
+      "kl": 0.072265625,
+      "learning_rate": 5.885009765625e-07,
+      "loss": 0.0029,
+      "reward": 1.8194407224655151,
+      "reward_std": 0.10099057853221893,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8194407522678375,
+      "step": 3371
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 262.9765625,
+      "epoch": 1.64697265625,
+      "grad_norm": 2.5414429477301455,
+      "kl": 0.064697265625,
+      "learning_rate": 5.8837890625e-07,
+      "loss": 0.0026,
+      "reward": 1.785763442516327,
+      "reward_std": 0.029020313173532486,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7857634425163269,
+      "step": 3372
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 249.46875,
+      "epoch": 1.6474609375,
+      "grad_norm": 1.1864726934683525,
+      "kl": 0.08349609375,
+      "learning_rate": 5.882568359374999e-07,
+      "loss": 0.0033,
+      "reward": 1.7326732277870178,
+      "reward_std": 0.045171596109867096,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7326732873916626,
+      "step": 3373
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 336.390625,
+      "epoch": 1.64794921875,
+      "grad_norm": 1.1727755992557876,
+      "kl": 0.0673828125,
+      "learning_rate": 5.881347656249999e-07,
+      "loss": 0.0027,
+      "reward": 1.9291696548461914,
+      "reward_std": 0.05488063208758831,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.929169625043869,
+      "step": 3374
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 327.8203125,
+      "epoch": 1.6484375,
+      "grad_norm": 1.188974789867218,
+      "kl": 0.07373046875,
+      "learning_rate": 5.880126953125e-07,
+      "loss": 0.003,
+      "reward": 1.7475911974906921,
+      "reward_std": 0.03924562409520149,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7475912272930145,
+      "step": 3375
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 261.7109375,
+      "epoch": 1.64892578125,
+      "grad_norm": 2.8855723689123254,
+      "kl": 0.069580078125,
+      "learning_rate": 5.87890625e-07,
+      "loss": 0.0028,
+      "reward": 1.8286888599395752,
+      "reward_std": 0.05414394848048687,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8286888897418976,
+      "step": 3376
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 243.1171875,
+      "epoch": 1.6494140625,
+      "grad_norm": 1.348637874083575,
+      "kl": 0.0787353515625,
+      "learning_rate": 5.877685546875e-07,
+      "loss": 0.0032,
+      "reward": 1.7663710117340088,
+      "reward_std": 0.03424928430467844,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7663710117340088,
+      "step": 3377
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 335.328125,
+      "epoch": 1.64990234375,
+      "grad_norm": 1.9070692767765587,
+      "kl": 0.0706787109375,
+      "learning_rate": 5.87646484375e-07,
+      "loss": 0.0028,
+      "reward": 1.792538821697235,
+      "reward_std": 0.06923755258321762,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7925387620925903,
+      "step": 3378
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 201.46875,
+      "epoch": 1.650390625,
+      "grad_norm": 1.65866315067269,
+      "kl": 0.08740234375,
+      "learning_rate": 5.875244140625e-07,
+      "loss": 0.0035,
+      "reward": 1.7584347128868103,
+      "reward_std": 0.0411848658695817,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7584347426891327,
+      "step": 3379
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 254.25,
+      "epoch": 1.65087890625,
+      "grad_norm": 2.196175009298372,
+      "kl": 0.08349609375,
+      "learning_rate": 5.874023437499999e-07,
+      "loss": 0.0033,
+      "reward": 1.621177852153778,
+      "reward_std": 0.11486036516726017,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6289903223514557,
+      "step": 3380
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 203.328125,
+      "epoch": 1.6513671875,
+      "grad_norm": 1.6329994027998105,
+      "kl": 0.088134765625,
+      "learning_rate": 5.872802734375e-07,
+      "loss": 0.0035,
+      "reward": 1.76973557472229,
+      "reward_std": 0.053606728091835976,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7697354555130005,
+      "step": 3381
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 312.5859375,
+      "epoch": 1.65185546875,
+      "grad_norm": 1.2486372473820984,
+      "kl": 0.075927734375,
+      "learning_rate": 5.87158203125e-07,
+      "loss": 0.003,
+      "reward": 1.9062875509262085,
+      "reward_std": 0.02893537748605013,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.9062875807285309,
+      "step": 3382
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 219.53125,
+      "epoch": 1.65234375,
+      "grad_norm": 1.5306926158806675,
+      "kl": 0.081787109375,
+      "learning_rate": 5.870361328125e-07,
+      "loss": 0.0033,
+      "reward": 1.7200778126716614,
+      "reward_std": 0.053463514894247055,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.720077782869339,
+      "step": 3383
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 255.15625,
+      "epoch": 1.65283203125,
+      "grad_norm": 1.9605699591720807,
+      "kl": 0.086181640625,
+      "learning_rate": 5.869140625e-07,
+      "loss": 0.0034,
+      "reward": 1.7785995602607727,
+      "reward_std": 0.05440284963697195,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7785995900630951,
+      "step": 3384
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 293.3671875,
+      "epoch": 1.6533203125,
+      "grad_norm": 1.1186012819207778,
+      "kl": 0.08154296875,
+      "learning_rate": 5.867919921875e-07,
+      "loss": 0.0033,
+      "reward": 1.7977607250213623,
+      "reward_std": 0.04878430813550949,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7977607250213623,
+      "step": 3385
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 277.8125,
+      "epoch": 1.65380859375,
+      "grad_norm": 1.4994976766626942,
+      "kl": 0.0703125,
+      "learning_rate": 5.866699218749999e-07,
+      "loss": 0.0028,
+      "reward": 1.7266179919242859,
+      "reward_std": 0.044663604348897934,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7266179323196411,
+      "step": 3386
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 298.7421875,
+      "epoch": 1.654296875,
+      "grad_norm": 2.908450555481079,
+      "kl": 0.093017578125,
+      "learning_rate": 5.865478515624999e-07,
+      "loss": 0.0037,
+      "reward": 1.7329715490341187,
+      "reward_std": 0.1744391992688179,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7485965490341187,
+      "step": 3387
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 253.203125,
+      "epoch": 1.65478515625,
+      "grad_norm": 1.221054748601646,
+      "kl": 0.102294921875,
+      "learning_rate": 5.8642578125e-07,
+      "loss": 0.0041,
+      "reward": 1.7703983783721924,
+      "reward_std": 0.06643011048436165,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7703984379768372,
+      "step": 3388
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 241.8671875,
+      "epoch": 1.6552734375,
+      "grad_norm": 6.847886742373634,
+      "kl": 0.093017578125,
+      "learning_rate": 5.863037109375e-07,
+      "loss": 0.0037,
+      "reward": 1.8793238401412964,
+      "reward_std": 0.09725763648748398,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8793238401412964,
+      "step": 3389
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 316.265625,
+      "epoch": 1.65576171875,
+      "grad_norm": 1.6334940052830407,
+      "kl": 0.07373046875,
+      "learning_rate": 5.86181640625e-07,
+      "loss": 0.0029,
+      "reward": 1.754858374595642,
+      "reward_std": 0.13046734035015106,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7626709043979645,
+      "step": 3390
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 385.203125,
+      "epoch": 1.65625,
+      "grad_norm": 2.4516828308421816,
+      "kl": 0.0673828125,
+      "learning_rate": 5.860595703125e-07,
+      "loss": 0.0027,
+      "reward": 1.6885485649108887,
+      "reward_std": 0.12255653738975525,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6963610649108887,
+      "step": 3391
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 279.9453125,
+      "epoch": 1.65673828125,
+      "grad_norm": 1.0973530080385832,
+      "kl": 0.06591796875,
+      "learning_rate": 5.859375e-07,
+      "loss": 0.0026,
+      "reward": 1.7706849575042725,
+      "reward_std": 0.08537603169679642,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.8097475171089172,
+      "step": 3392
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 238.03125,
+      "epoch": 1.6572265625,
+      "grad_norm": 1.3434826786542489,
+      "kl": 0.08056640625,
+      "learning_rate": 5.858154296874999e-07,
+      "loss": 0.0032,
+      "reward": 1.769907832145691,
+      "reward_std": 0.02592490427196026,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7699077725410461,
+      "step": 3393
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 375.578125,
+      "epoch": 1.65771484375,
+      "grad_norm": 1.8016472051718078,
+      "kl": 0.091552734375,
+      "learning_rate": 5.85693359375e-07,
+      "loss": 0.0037,
+      "reward": 1.7779169082641602,
+      "reward_std": 0.08736255019903183,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7779169082641602,
+      "step": 3394
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 255.875,
+      "epoch": 1.658203125,
+      "grad_norm": 2.5785595078259833,
+      "kl": 0.080322265625,
+      "learning_rate": 5.855712890625e-07,
+      "loss": 0.0032,
+      "reward": 1.7090917825698853,
+      "reward_std": 0.027815474197268486,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7090917825698853,
+      "step": 3395
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 248.3828125,
+      "epoch": 1.65869140625,
+      "grad_norm": 1.007748533466306,
+      "kl": 0.078369140625,
+      "learning_rate": 5.8544921875e-07,
+      "loss": 0.0031,
+      "reward": 1.722628891468048,
+      "reward_std": 0.026624855119735003,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7226289510726929,
+      "step": 3396
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 311.3359375,
+      "epoch": 1.6591796875,
+      "grad_norm": 0.6947502588037848,
+      "kl": 0.06640625,
+      "learning_rate": 5.853271484375e-07,
+      "loss": 0.0027,
+      "reward": 1.8273064494132996,
+      "reward_std": 0.02322842739522457,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8273063898086548,
+      "step": 3397
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 279.484375,
+      "epoch": 1.65966796875,
+      "grad_norm": 1.357728234815542,
+      "kl": 0.0673828125,
+      "learning_rate": 5.85205078125e-07,
+      "loss": 0.0027,
+      "reward": 1.777342975139618,
+      "reward_std": 0.0818490230012685,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7929678857326508,
+      "step": 3398
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 343.1640625,
+      "epoch": 1.66015625,
+      "grad_norm": 1.5073163826811782,
+      "kl": 0.088623046875,
+      "learning_rate": 5.850830078124999e-07,
+      "loss": 0.0035,
+      "reward": 1.8505135774612427,
+      "reward_std": 0.036812907084822655,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8505135774612427,
+      "step": 3399
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 336.6640625,
+      "epoch": 1.66064453125,
+      "grad_norm": 0.5187163531397792,
+      "kl": 0.05615234375,
+      "learning_rate": 5.849609374999999e-07,
+      "loss": 0.0022,
+      "reward": 1.7177002429962158,
+      "reward_std": 0.039677318185567856,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7177002131938934,
+      "step": 3400
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 447.9765625,
+      "epoch": 1.6611328125,
+      "grad_norm": 0.7388474136721533,
+      "kl": 0.0703125,
+      "learning_rate": 5.848388671875e-07,
+      "loss": 0.0028,
+      "reward": 1.793430507183075,
+      "reward_std": 0.12719424441456795,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.816868007183075,
+      "step": 3401
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 353.7578125,
+      "epoch": 1.66162109375,
+      "grad_norm": 0.9275778304188466,
+      "kl": 0.0556640625,
+      "learning_rate": 5.84716796875e-07,
+      "loss": 0.0022,
+      "reward": 1.8390734195709229,
+      "reward_std": 0.07613059133291245,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8468858897686005,
+      "step": 3402
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 255.3359375,
+      "epoch": 1.662109375,
+      "grad_norm": 1.1797462013382214,
+      "kl": 0.0712890625,
+      "learning_rate": 5.845947265625e-07,
+      "loss": 0.0029,
+      "reward": 1.7845313549041748,
+      "reward_std": 0.056141434237360954,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.78453129529953,
+      "step": 3403
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 255.3046875,
+      "epoch": 1.66259765625,
+      "grad_norm": 1.3006085053369527,
+      "kl": 0.074951171875,
+      "learning_rate": 5.8447265625e-07,
+      "loss": 0.003,
+      "reward": 1.7825297117233276,
+      "reward_std": 0.07007915712893009,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7903422117233276,
+      "step": 3404
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 222.7734375,
+      "epoch": 1.6630859375,
+      "grad_norm": 1.0770527330394377,
+      "kl": 0.0595703125,
+      "learning_rate": 5.843505859375e-07,
+      "loss": 0.0024,
+      "reward": 1.9472978711128235,
+      "reward_std": 0.053828125819563866,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.9472978115081787,
+      "step": 3405
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 314.84375,
+      "epoch": 1.66357421875,
+      "grad_norm": 0.940289877722008,
+      "kl": 0.0732421875,
+      "learning_rate": 5.842285156249999e-07,
+      "loss": 0.0029,
+      "reward": 1.5709947347640991,
+      "reward_std": 0.10499111982062459,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.5944323241710663,
+      "step": 3406
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 203.3203125,
+      "epoch": 1.6640625,
+      "grad_norm": 1.5937163992276968,
+      "kl": 0.0614013671875,
+      "learning_rate": 5.841064453125e-07,
+      "loss": 0.0025,
+      "reward": 1.8672499656677246,
+      "reward_std": 0.04773255158215761,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8672499656677246,
+      "step": 3407
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 315.6875,
+      "epoch": 1.66455078125,
+      "grad_norm": 1.0772380721292933,
+      "kl": 0.063232421875,
+      "learning_rate": 5.83984375e-07,
+      "loss": 0.0025,
+      "reward": 1.7862460613250732,
+      "reward_std": 0.03994133323431015,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7862460613250732,
+      "step": 3408
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 306.3515625,
+      "epoch": 1.6650390625,
+      "grad_norm": 2.3302586200745905,
+      "kl": 0.072021484375,
+      "learning_rate": 5.838623046875e-07,
+      "loss": 0.0029,
+      "reward": 1.8306609988212585,
+      "reward_std": 0.06606091558933258,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8306609988212585,
+      "step": 3409
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 225.609375,
+      "epoch": 1.66552734375,
+      "grad_norm": 1.5068422166925504,
+      "kl": 0.087158203125,
+      "learning_rate": 5.83740234375e-07,
+      "loss": 0.0035,
+      "reward": 1.7843865156173706,
+      "reward_std": 0.03198308777064085,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.784386545419693,
+      "step": 3410
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 237.96875,
+      "epoch": 1.666015625,
+      "grad_norm": 3.0485685011397536,
+      "kl": 0.06689453125,
+      "learning_rate": 5.836181640625e-07,
+      "loss": 0.0027,
+      "reward": 1.8677841424942017,
+      "reward_std": 0.04165232554078102,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8677841424942017,
+      "step": 3411
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 303.03125,
+      "epoch": 1.66650390625,
+      "grad_norm": 1.5582087332286472,
+      "kl": 0.0908203125,
+      "learning_rate": 5.834960937499999e-07,
+      "loss": 0.0036,
+      "reward": 1.750693678855896,
+      "reward_std": 0.14407047256827354,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7741312682628632,
+      "step": 3412
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 251.6875,
+      "epoch": 1.6669921875,
+      "grad_norm": 1.3780651239867965,
+      "kl": 0.0771484375,
+      "learning_rate": 5.833740234374999e-07,
+      "loss": 0.0031,
+      "reward": 1.774366855621338,
+      "reward_std": 0.03671616315841675,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7743669152259827,
+      "step": 3413
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 289.7734375,
+      "epoch": 1.66748046875,
+      "grad_norm": 2.4401285404057287,
+      "kl": 0.09814453125,
+      "learning_rate": 5.83251953125e-07,
+      "loss": 0.0039,
+      "reward": 1.7291316986083984,
+      "reward_std": 0.06025635078549385,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7291316986083984,
+      "step": 3414
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 217.96875,
+      "epoch": 1.66796875,
+      "grad_norm": 0.9632974422175405,
+      "kl": 0.069091796875,
+      "learning_rate": 5.831298828125e-07,
+      "loss": 0.0028,
+      "reward": 1.7597804069519043,
+      "reward_std": 0.04982480686157942,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7597803771495819,
+      "step": 3415
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 261.0,
+      "epoch": 1.66845703125,
+      "grad_norm": 2.137948451017365,
+      "kl": 0.078857421875,
+      "learning_rate": 5.830078125e-07,
+      "loss": 0.0032,
+      "reward": 1.7445058226585388,
+      "reward_std": 0.05879105068743229,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7445058226585388,
+      "step": 3416
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 246.1953125,
+      "epoch": 1.6689453125,
+      "grad_norm": 0.916829410323994,
+      "kl": 0.0849609375,
+      "learning_rate": 5.828857421875e-07,
+      "loss": 0.0034,
+      "reward": 1.767207384109497,
+      "reward_std": 0.021022816188633442,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7672074139118195,
+      "step": 3417
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 352.265625,
+      "epoch": 1.66943359375,
+      "grad_norm": 1.8069522939932925,
+      "kl": 0.076171875,
+      "learning_rate": 5.82763671875e-07,
+      "loss": 0.003,
+      "reward": 1.7938191294670105,
+      "reward_std": 0.06862248852849007,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7938191592693329,
+      "step": 3418
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 228.125,
+      "epoch": 1.669921875,
+      "grad_norm": 1.5981682786493596,
+      "kl": 0.06591796875,
+      "learning_rate": 5.826416015624999e-07,
+      "loss": 0.0026,
+      "reward": 1.8110138773918152,
+      "reward_std": 0.017725080251693726,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8110139071941376,
+      "step": 3419
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 239.6171875,
+      "epoch": 1.67041015625,
+      "grad_norm": 2.2101743301776504,
+      "kl": 0.098388671875,
+      "learning_rate": 5.8251953125e-07,
+      "loss": 0.0039,
+      "reward": 1.7247655987739563,
+      "reward_std": 0.06738665699958801,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7247655987739563,
+      "step": 3420
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 345.0703125,
+      "epoch": 1.6708984375,
+      "grad_norm": 5.321656124557536,
+      "kl": 0.068115234375,
+      "learning_rate": 5.823974609375e-07,
+      "loss": 0.0027,
+      "reward": 1.7655808925628662,
+      "reward_std": 0.06156047061085701,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7655808329582214,
+      "step": 3421
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 203.8984375,
+      "epoch": 1.67138671875,
+      "grad_norm": 2.8203241658105247,
+      "kl": 0.082763671875,
+      "learning_rate": 5.82275390625e-07,
+      "loss": 0.0033,
+      "reward": 2.0598042607307434,
+      "reward_std": 0.057430900633335114,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 1.0598042011260986,
+      "step": 3422
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 268.484375,
+      "epoch": 1.671875,
+      "grad_norm": 1.8127244648228247,
+      "kl": 0.07421875,
+      "learning_rate": 5.821533203125e-07,
+      "loss": 0.003,
+      "reward": 1.7353619933128357,
+      "reward_std": 0.11851292103528976,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7509869635105133,
+      "step": 3423
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 300.9375,
+      "epoch": 1.67236328125,
+      "grad_norm": 4.191171905834963,
+      "kl": 0.0677490234375,
+      "learning_rate": 5.8203125e-07,
+      "loss": 0.0027,
+      "reward": 1.8721721768379211,
+      "reward_std": 0.03585383854806423,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8721721768379211,
+      "step": 3424
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 222.265625,
+      "epoch": 1.6728515625,
+      "grad_norm": 3.1746721322821356,
+      "kl": 0.077392578125,
+      "learning_rate": 5.819091796874999e-07,
+      "loss": 0.0031,
+      "reward": 1.7025277614593506,
+      "reward_std": 0.07956914976239204,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7025277316570282,
+      "step": 3425
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 298.7890625,
+      "epoch": 1.67333984375,
+      "grad_norm": 0.934350590497789,
+      "kl": 0.063720703125,
+      "learning_rate": 5.817871093749999e-07,
+      "loss": 0.0025,
+      "reward": 1.8146753311157227,
+      "reward_std": 0.03896358422935009,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8146752715110779,
+      "step": 3426
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 382.8359375,
+      "epoch": 1.673828125,
+      "grad_norm": 2.2976808756968197,
+      "kl": 0.075439453125,
+      "learning_rate": 5.816650390625e-07,
+      "loss": 0.003,
+      "reward": 1.7204577922821045,
+      "reward_std": 0.10786120407283306,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7204578518867493,
+      "step": 3427
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 195.703125,
+      "epoch": 1.67431640625,
+      "grad_norm": 5.209395887612558,
+      "kl": 0.0859375,
+      "learning_rate": 5.8154296875e-07,
+      "loss": 0.0034,
+      "reward": 1.7612760663032532,
+      "reward_std": 0.14266540855169296,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7612760663032532,
+      "step": 3428
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 313.4921875,
+      "epoch": 1.6748046875,
+      "grad_norm": 2.974078254850948,
+      "kl": 0.0771484375,
+      "learning_rate": 5.814208984375e-07,
+      "loss": 0.0031,
+      "reward": 1.7587260007858276,
+      "reward_std": 0.045107051730155945,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.75872603058815,
+      "step": 3429
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 388.3671875,
+      "epoch": 1.67529296875,
+      "grad_norm": 2.1974943162800957,
+      "kl": 0.062744140625,
+      "learning_rate": 5.81298828125e-07,
+      "loss": 0.0025,
+      "reward": 1.7304607629776,
+      "reward_std": 0.07229996286332607,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7304607033729553,
+      "step": 3430
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 289.3515625,
+      "epoch": 1.67578125,
+      "grad_norm": 0.8396091238176443,
+      "kl": 0.0738525390625,
+      "learning_rate": 5.811767578125e-07,
+      "loss": 0.003,
+      "reward": 1.747983455657959,
+      "reward_std": 0.02914267312735319,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7479834854602814,
+      "step": 3431
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 278.1640625,
+      "epoch": 1.67626953125,
+      "grad_norm": 2.6575284914917816,
+      "kl": 0.069580078125,
+      "learning_rate": 5.810546874999999e-07,
+      "loss": 0.0028,
+      "reward": 1.8400204181671143,
+      "reward_std": 0.04621163569390774,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8400204181671143,
+      "step": 3432
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 213.296875,
+      "epoch": 1.6767578125,
+      "grad_norm": 2.4310818517899753,
+      "kl": 0.0673828125,
+      "learning_rate": 5.809326171875e-07,
+      "loss": 0.0027,
+      "reward": 1.8287239074707031,
+      "reward_std": 0.04241657070815563,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8287239372730255,
+      "step": 3433
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 243.03125,
+      "epoch": 1.67724609375,
+      "grad_norm": 1.4441990565870806,
+      "kl": 0.0732421875,
+      "learning_rate": 5.80810546875e-07,
+      "loss": 0.0029,
+      "reward": 1.8703618049621582,
+      "reward_std": 0.09191784635186195,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.8859868347644806,
+      "step": 3434
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 310.84375,
+      "epoch": 1.677734375,
+      "grad_norm": 4.354556191413624,
+      "kl": 0.070068359375,
+      "learning_rate": 5.806884765625e-07,
+      "loss": 0.0028,
+      "reward": 1.6289713382720947,
+      "reward_std": 0.10028214752674103,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6367838084697723,
+      "step": 3435
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 338.3515625,
+      "epoch": 1.67822265625,
+      "grad_norm": 3.14226423674001,
+      "kl": 0.063720703125,
+      "learning_rate": 5.8056640625e-07,
+      "loss": 0.0025,
+      "reward": 1.8268967866897583,
+      "reward_std": 0.1756245121359825,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.8503343164920807,
+      "step": 3436
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 276.421875,
+      "epoch": 1.6787109375,
+      "grad_norm": 1.6468385086214168,
+      "kl": 0.0556640625,
+      "learning_rate": 5.804443359375e-07,
+      "loss": 0.0022,
+      "reward": 1.8361674547195435,
+      "reward_std": 0.07743523456156254,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8439799845218658,
+      "step": 3437
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 298.828125,
+      "epoch": 1.67919921875,
+      "grad_norm": 1.236516691039877,
+      "kl": 0.08056640625,
+      "learning_rate": 5.803222656249999e-07,
+      "loss": 0.0032,
+      "reward": 1.8144738674163818,
+      "reward_std": 0.03578588366508484,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8144738674163818,
+      "step": 3438
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 295.125,
+      "epoch": 1.6796875,
+      "grad_norm": 7.342318015197428,
+      "kl": 0.0582275390625,
+      "learning_rate": 5.802001953124999e-07,
+      "loss": 0.0023,
+      "reward": 1.7566466927528381,
+      "reward_std": 0.057324403896927834,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7566466629505157,
+      "step": 3439
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 273.5,
+      "epoch": 1.68017578125,
+      "grad_norm": 1.5126156935058757,
+      "kl": 0.056884765625,
+      "learning_rate": 5.80078125e-07,
+      "loss": 0.0023,
+      "reward": 1.8134649991989136,
+      "reward_std": 0.07411767356097698,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8212774991989136,
+      "step": 3440
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 336.8984375,
+      "epoch": 1.6806640625,
+      "grad_norm": 2.8029832705522795,
+      "kl": 0.0721435546875,
+      "learning_rate": 5.799560546875e-07,
+      "loss": 0.0029,
+      "reward": 1.7705180048942566,
+      "reward_std": 0.14411171525716782,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.786143034696579,
+      "step": 3441
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 260.0546875,
+      "epoch": 1.68115234375,
+      "grad_norm": 2.075903401049284,
+      "kl": 0.060791015625,
+      "learning_rate": 5.79833984375e-07,
+      "loss": 0.0024,
+      "reward": 1.7683696746826172,
+      "reward_std": 0.06466953456401825,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7683696448802948,
+      "step": 3442
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 281.984375,
+      "epoch": 1.681640625,
+      "grad_norm": 1.6509715387223451,
+      "kl": 0.086181640625,
+      "learning_rate": 5.797119140625e-07,
+      "loss": 0.0035,
+      "reward": 1.7627912759780884,
+      "reward_std": 0.034193447791039944,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7627912759780884,
+      "step": 3443
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 370.921875,
+      "epoch": 1.68212890625,
+      "grad_norm": 1.1378399236168264,
+      "kl": 0.0523681640625,
+      "learning_rate": 5.7958984375e-07,
+      "loss": 0.0021,
+      "reward": 1.7294188141822815,
+      "reward_std": 0.13451597094535828,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7372312545776367,
+      "step": 3444
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 257.703125,
+      "epoch": 1.6826171875,
+      "grad_norm": 5.502362650100543,
+      "kl": 0.0650634765625,
+      "learning_rate": 5.794677734374999e-07,
+      "loss": 0.0026,
+      "reward": 1.8440684080123901,
+      "reward_std": 0.08081773668527603,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8440684378147125,
+      "step": 3445
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 298.9375,
+      "epoch": 1.68310546875,
+      "grad_norm": 1.2259288505339647,
+      "kl": 0.0706787109375,
+      "learning_rate": 5.79345703125e-07,
+      "loss": 0.0028,
+      "reward": 1.7710025310516357,
+      "reward_std": 0.12468947097659111,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7866275310516357,
+      "step": 3446
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 273.9921875,
+      "epoch": 1.68359375,
+      "grad_norm": 1.4159167368823977,
+      "kl": 0.0728759765625,
+      "learning_rate": 5.792236328125e-07,
+      "loss": 0.0029,
+      "reward": 1.782673954963684,
+      "reward_std": 0.025566712021827698,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7826739549636841,
+      "step": 3447
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 295.953125,
+      "epoch": 1.68408203125,
+      "grad_norm": 1.2888654953284708,
+      "kl": 0.057373046875,
+      "learning_rate": 5.791015625e-07,
+      "loss": 0.0023,
+      "reward": 1.7656115293502808,
+      "reward_std": 0.07896413654088974,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7812364995479584,
+      "step": 3448
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 269.4453125,
+      "epoch": 1.6845703125,
+      "grad_norm": 0.8051007000694611,
+      "kl": 0.069091796875,
+      "learning_rate": 5.789794921875e-07,
+      "loss": 0.0028,
+      "reward": 1.8307116031646729,
+      "reward_std": 0.03494404815137386,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8307116329669952,
+      "step": 3449
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 340.03125,
+      "epoch": 1.68505859375,
+      "grad_norm": 1.6248548960001123,
+      "kl": 0.057373046875,
+      "learning_rate": 5.78857421875e-07,
+      "loss": 0.0023,
+      "reward": 1.6238124370574951,
+      "reward_std": 0.10186551045626402,
+      "rewards/format_reward": 0.96875,
+      "rewards/ocr_reward": 0.6550624966621399,
+      "step": 3450
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 345.6875,
+      "epoch": 1.685546875,
+      "grad_norm": 1.8883437681183317,
+      "kl": 0.0675048828125,
+      "learning_rate": 5.787353515624999e-07,
+      "loss": 0.0027,
+      "reward": 1.7342004776000977,
+      "reward_std": 0.11742651090025902,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7498254776000977,
+      "step": 3451
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 262.34375,
+      "epoch": 1.68603515625,
+      "grad_norm": 0.854071632997255,
+      "kl": 0.06298828125,
+      "learning_rate": 5.786132812499999e-07,
+      "loss": 0.0025,
+      "reward": 1.8311820030212402,
+      "reward_std": 0.05601404421031475,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.831182062625885,
+      "step": 3452
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 314.0546875,
+      "epoch": 1.6865234375,
+      "grad_norm": 0.4515732246038297,
+      "kl": 0.0604248046875,
+      "learning_rate": 5.784912109375e-07,
+      "loss": 0.0024,
+      "reward": 1.7703008651733398,
+      "reward_std": 0.07104413863271475,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7859258651733398,
+      "step": 3453
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 284.140625,
+      "epoch": 1.68701171875,
+      "grad_norm": 2.068456057453586,
+      "kl": 0.08349609375,
+      "learning_rate": 5.78369140625e-07,
+      "loss": 0.0033,
+      "reward": 1.7976149916648865,
+      "reward_std": 0.04534151777625084,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7976149916648865,
+      "step": 3454
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 409.375,
+      "epoch": 1.6875,
+      "grad_norm": 1.7355862712462304,
+      "kl": 0.0626220703125,
+      "learning_rate": 5.782470703125e-07,
+      "loss": 0.0025,
+      "reward": 1.8032622337341309,
+      "reward_std": 0.053254470229148865,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8032622635364532,
+      "step": 3455
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 317.1328125,
+      "epoch": 1.68798828125,
+      "grad_norm": 2.871369071419689,
+      "kl": 0.0594482421875,
+      "learning_rate": 5.78125e-07,
+      "loss": 0.0024,
+      "reward": 1.8522000908851624,
+      "reward_std": 0.043344199657440186,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8522000908851624,
+      "step": 3456
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 328.984375,
+      "epoch": 1.6884765625,
+      "grad_norm": 1.0797110346192287,
+      "kl": 0.066650390625,
+      "learning_rate": 5.780029296875e-07,
+      "loss": 0.0027,
+      "reward": 1.718557059764862,
+      "reward_std": 0.09980412572622299,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7341820597648621,
+      "step": 3457
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 329.3046875,
+      "epoch": 1.68896484375,
+      "grad_norm": 2.010061312368978,
+      "kl": 0.071533203125,
+      "learning_rate": 5.778808593749999e-07,
+      "loss": 0.0029,
+      "reward": 1.7197965383529663,
+      "reward_std": 0.1209321841597557,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.7588590979576111,
+      "step": 3458
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 300.7265625,
+      "epoch": 1.689453125,
+      "grad_norm": 1.7529446065841696,
+      "kl": 0.0675048828125,
+      "learning_rate": 5.777587890624999e-07,
+      "loss": 0.0027,
+      "reward": 1.6905794739723206,
+      "reward_std": 0.13847313076257706,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7062044143676758,
+      "step": 3459
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 314.6796875,
+      "epoch": 1.68994140625,
+      "grad_norm": 2.0487912470077925,
+      "kl": 0.0673828125,
+      "learning_rate": 5.7763671875e-07,
+      "loss": 0.0027,
+      "reward": 1.770250141620636,
+      "reward_std": 0.027558826841413975,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.770250141620636,
+      "step": 3460
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 298.375,
+      "epoch": 1.6904296875,
+      "grad_norm": 1.607076612787755,
+      "kl": 0.0579833984375,
+      "learning_rate": 5.775146484375e-07,
+      "loss": 0.0023,
+      "reward": 1.7800695300102234,
+      "reward_std": 0.07028440106660128,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7878820598125458,
+      "step": 3461
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 257.96875,
+      "epoch": 1.69091796875,
+      "grad_norm": 3.802817161929801,
+      "kl": 0.064453125,
+      "learning_rate": 5.77392578125e-07,
+      "loss": 0.0026,
+      "reward": 1.7009736895561218,
+      "reward_std": 0.033372608944773674,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7009736895561218,
+      "step": 3462
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 359.640625,
+      "epoch": 1.69140625,
+      "grad_norm": 0.8747808849685156,
+      "kl": 0.0589599609375,
+      "learning_rate": 5.772705078125e-07,
+      "loss": 0.0024,
+      "reward": 1.7267315983772278,
+      "reward_std": 0.12720267474651337,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7423565685749054,
+      "step": 3463
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 294.4296875,
+      "epoch": 1.69189453125,
+      "grad_norm": 2.0193595822393293,
+      "kl": 0.0712890625,
+      "learning_rate": 5.771484374999999e-07,
+      "loss": 0.0029,
+      "reward": 1.708345651626587,
+      "reward_std": 0.03282461129128933,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7083457112312317,
+      "step": 3464
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 306.96875,
+      "epoch": 1.6923828125,
+      "grad_norm": 1.7772356569257048,
+      "kl": 0.0599365234375,
+      "learning_rate": 5.770263671874999e-07,
+      "loss": 0.0024,
+      "reward": 1.7624672055244446,
+      "reward_std": 0.11228394508361816,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7624672055244446,
+      "step": 3465
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 247.515625,
+      "epoch": 1.69287109375,
+      "grad_norm": 5.082897937319996,
+      "kl": 0.084716796875,
+      "learning_rate": 5.76904296875e-07,
+      "loss": 0.0034,
+      "reward": 1.7134467959403992,
+      "reward_std": 0.12474965304136276,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7134467661380768,
+      "step": 3466
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 331.734375,
+      "epoch": 1.693359375,
+      "grad_norm": 7.706459266928283,
+      "kl": 0.07421875,
+      "learning_rate": 5.767822265625e-07,
+      "loss": 0.003,
+      "reward": 1.8310195803642273,
+      "reward_std": 0.04999265819787979,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8310195505619049,
+      "step": 3467
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 293.515625,
+      "epoch": 1.69384765625,
+      "grad_norm": 1.7616788714824219,
+      "kl": 0.09423828125,
+      "learning_rate": 5.7666015625e-07,
+      "loss": 0.0038,
+      "reward": 1.7039409279823303,
+      "reward_std": 0.12659362703561783,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7117533683776855,
+      "step": 3468
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 315.171875,
+      "epoch": 1.6943359375,
+      "grad_norm": 1.3000730711438913,
+      "kl": 0.07666015625,
+      "learning_rate": 5.765380859375e-07,
+      "loss": 0.0031,
+      "reward": 1.7594356536865234,
+      "reward_std": 0.02355903387069702,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.759435623884201,
+      "step": 3469
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 242.6796875,
+      "epoch": 1.69482421875,
+      "grad_norm": 1.5447040369180085,
+      "kl": 0.0908203125,
+      "learning_rate": 5.76416015625e-07,
+      "loss": 0.0036,
+      "reward": 1.7440487742424011,
+      "reward_std": 0.09019343182444572,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7440488040447235,
+      "step": 3470
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 307.65625,
+      "epoch": 1.6953125,
+      "grad_norm": 1.207797652928656,
+      "kl": 0.0830078125,
+      "learning_rate": 5.762939453124999e-07,
+      "loss": 0.0033,
+      "reward": 1.6612102389335632,
+      "reward_std": 0.023191725835204124,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6612102389335632,
+      "step": 3471
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 287.8359375,
+      "epoch": 1.69580078125,
+      "grad_norm": 1.7416107299485089,
+      "kl": 0.060791015625,
+      "learning_rate": 5.761718749999999e-07,
+      "loss": 0.0024,
+      "reward": 1.8417921662330627,
+      "reward_std": 0.034474316984415054,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.841792106628418,
+      "step": 3472
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 289.234375,
+      "epoch": 1.6962890625,
+      "grad_norm": 1.4354809097592818,
+      "kl": 0.0771484375,
+      "learning_rate": 5.760498046875e-07,
+      "loss": 0.0031,
+      "reward": 1.5817983150482178,
+      "reward_std": 0.12967222556471825,
+      "rewards/format_reward": 0.9609375,
+      "rewards/ocr_reward": 0.6208608150482178,
+      "step": 3473
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 398.0,
+      "epoch": 1.69677734375,
+      "grad_norm": 3.4907537874766117,
+      "kl": 0.0516357421875,
+      "learning_rate": 5.75927734375e-07,
+      "loss": 0.0021,
+      "reward": 1.85581374168396,
+      "reward_std": 0.04456772096455097,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8558137714862823,
+      "step": 3474
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 300.53125,
+      "epoch": 1.697265625,
+      "grad_norm": 0.9069326314470321,
+      "kl": 0.064697265625,
+      "learning_rate": 5.758056640625e-07,
+      "loss": 0.0026,
+      "reward": 1.777282476425171,
+      "reward_std": 0.07658272795379162,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7772825360298157,
+      "step": 3475
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 280.0625,
+      "epoch": 1.69775390625,
+      "grad_norm": 4.59511333562533,
+      "kl": 0.0643310546875,
+      "learning_rate": 5.7568359375e-07,
+      "loss": 0.0026,
+      "reward": 1.7993093729019165,
+      "reward_std": 0.06882397923618555,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7993092834949493,
+      "step": 3476
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 283.0078125,
+      "epoch": 1.6982421875,
+      "grad_norm": 1.3731053289621549,
+      "kl": 0.071533203125,
+      "learning_rate": 5.755615234375e-07,
+      "loss": 0.0029,
+      "reward": 1.8083871006965637,
+      "reward_std": 0.0703160697594285,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8083871304988861,
+      "step": 3477
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 305.2734375,
+      "epoch": 1.69873046875,
+      "grad_norm": 1.629812946645828,
+      "kl": 0.0693359375,
+      "learning_rate": 5.754394531249999e-07,
+      "loss": 0.0028,
+      "reward": 1.7725472450256348,
+      "reward_std": 0.017249885015189648,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7725472748279572,
+      "step": 3478
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 280.375,
+      "epoch": 1.69921875,
+      "grad_norm": 2.215999100156812,
+      "kl": 0.0732421875,
+      "learning_rate": 5.753173828125e-07,
+      "loss": 0.0029,
+      "reward": 1.7830110788345337,
+      "reward_std": 0.05324237793684006,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7830111086368561,
+      "step": 3479
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 290.8046875,
+      "epoch": 1.69970703125,
+      "grad_norm": 1.6611927604495773,
+      "kl": 0.0601806640625,
+      "learning_rate": 5.751953125e-07,
+      "loss": 0.0024,
+      "reward": 1.7691839337348938,
+      "reward_std": 0.042867109179496765,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7691839039325714,
+      "step": 3480
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 292.765625,
+      "epoch": 1.7001953125,
+      "grad_norm": 1.528033156409457,
+      "kl": 0.068115234375,
+      "learning_rate": 5.750732421875e-07,
+      "loss": 0.0027,
+      "reward": 1.7416942119598389,
+      "reward_std": 0.07591928541660309,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7416941821575165,
+      "step": 3481
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 330.1640625,
+      "epoch": 1.70068359375,
+      "grad_norm": 1.1833895285281955,
+      "kl": 0.06005859375,
+      "learning_rate": 5.74951171875e-07,
+      "loss": 0.0024,
+      "reward": 1.7779241800308228,
+      "reward_std": 0.1391547992825508,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.8013616800308228,
+      "step": 3482
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 314.90625,
+      "epoch": 1.701171875,
+      "grad_norm": 1.761189142899964,
+      "kl": 0.0662841796875,
+      "learning_rate": 5.748291015625e-07,
+      "loss": 0.0027,
+      "reward": 1.8467693328857422,
+      "reward_std": 0.06352511048316956,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8467693328857422,
+      "step": 3483
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 296.2890625,
+      "epoch": 1.70166015625,
+      "grad_norm": 1.5902592871580774,
+      "kl": 0.08154296875,
+      "learning_rate": 5.747070312499999e-07,
+      "loss": 0.0033,
+      "reward": 1.7309446930885315,
+      "reward_std": 0.07680136896669865,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7465696930885315,
+      "step": 3484
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 363.6953125,
+      "epoch": 1.7021484375,
+      "grad_norm": 10.920362143170516,
+      "kl": 0.0516357421875,
+      "learning_rate": 5.745849609374999e-07,
+      "loss": 0.0021,
+      "reward": 1.6752318739891052,
+      "reward_std": 0.09153604693710804,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6752318441867828,
+      "step": 3485
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 254.6640625,
+      "epoch": 1.70263671875,
+      "grad_norm": 1.5465562693732942,
+      "kl": 0.0650634765625,
+      "learning_rate": 5.74462890625e-07,
+      "loss": 0.0026,
+      "reward": 1.8406208753585815,
+      "reward_std": 0.03312433697283268,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8406208753585815,
+      "step": 3486
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 345.4375,
+      "epoch": 1.703125,
+      "grad_norm": 1.025623413376822,
+      "kl": 0.072998046875,
+      "learning_rate": 5.743408203125e-07,
+      "loss": 0.0029,
+      "reward": 1.8625024557113647,
+      "reward_std": 0.07112840935587883,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8703149855136871,
+      "step": 3487
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 371.1640625,
+      "epoch": 1.70361328125,
+      "grad_norm": 1.0215455164365324,
+      "kl": 0.067138671875,
+      "learning_rate": 5.7421875e-07,
+      "loss": 0.0027,
+      "reward": 1.6743749380111694,
+      "reward_std": 0.1329372152686119,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.6899998188018799,
+      "step": 3488
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 290.6484375,
+      "epoch": 1.7041015625,
+      "grad_norm": 1.5182995549340972,
+      "kl": 0.078125,
+      "learning_rate": 5.740966796875e-07,
+      "loss": 0.0031,
+      "reward": 1.6961557269096375,
+      "reward_std": 0.05626895558089018,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6961557865142822,
+      "step": 3489
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 281.34375,
+      "epoch": 1.70458984375,
+      "grad_norm": 1.501814717810848,
+      "kl": 0.068603515625,
+      "learning_rate": 5.73974609375e-07,
+      "loss": 0.0027,
+      "reward": 1.8220676183700562,
+      "reward_std": 0.0694145429879427,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8220676481723785,
+      "step": 3490
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 230.234375,
+      "epoch": 1.705078125,
+      "grad_norm": 8.211844024368538,
+      "kl": 0.090576171875,
+      "learning_rate": 5.738525390624999e-07,
+      "loss": 0.0036,
+      "reward": 1.8239883780479431,
+      "reward_std": 0.062240034341812134,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8239883780479431,
+      "step": 3491
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 295.4765625,
+      "epoch": 1.70556640625,
+      "grad_norm": 0.8810007015149223,
+      "kl": 0.05517578125,
+      "learning_rate": 5.7373046875e-07,
+      "loss": 0.0022,
+      "reward": 1.8131248354911804,
+      "reward_std": 0.04876277968287468,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8131248354911804,
+      "step": 3492
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 257.046875,
+      "epoch": 1.7060546875,
+      "grad_norm": 1.3082128636150807,
+      "kl": 0.087890625,
+      "learning_rate": 5.736083984375e-07,
+      "loss": 0.0035,
+      "reward": 1.8320286870002747,
+      "reward_std": 0.16402263939380646,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.8476536571979523,
+      "step": 3493
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 304.2734375,
+      "epoch": 1.70654296875,
+      "grad_norm": 0.7233338633250107,
+      "kl": 0.079833984375,
+      "learning_rate": 5.73486328125e-07,
+      "loss": 0.0032,
+      "reward": 1.809335172176361,
+      "reward_std": 0.07215743651613593,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8171476721763611,
+      "step": 3494
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 251.9453125,
+      "epoch": 1.70703125,
+      "grad_norm": 1.8643023308951008,
+      "kl": 0.083984375,
+      "learning_rate": 5.733642578125e-07,
+      "loss": 0.0034,
+      "reward": 1.7340399026870728,
+      "reward_std": 0.03040897147729993,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7340399026870728,
+      "step": 3495
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 287.078125,
+      "epoch": 1.70751953125,
+      "grad_norm": 1.5851306415379258,
+      "kl": 0.0732421875,
+      "learning_rate": 5.732421875e-07,
+      "loss": 0.0029,
+      "reward": 1.7629672288894653,
+      "reward_std": 0.053599401377141476,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7629671692848206,
+      "step": 3496
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 263.859375,
+      "epoch": 1.7080078125,
+      "grad_norm": 1.5268802541107716,
+      "kl": 0.072021484375,
+      "learning_rate": 5.731201171874999e-07,
+      "loss": 0.0029,
+      "reward": 1.8078510761260986,
+      "reward_std": 0.049535930156707764,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8078510463237762,
+      "step": 3497
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 318.421875,
+      "epoch": 1.70849609375,
+      "grad_norm": 3.351870958415951,
+      "kl": 0.0635986328125,
+      "learning_rate": 5.729980468749999e-07,
+      "loss": 0.0025,
+      "reward": 1.794227421283722,
+      "reward_std": 0.09365762025117874,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7942274212837219,
+      "step": 3498
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 353.359375,
+      "epoch": 1.708984375,
+      "grad_norm": 2.7206709323249125,
+      "kl": 0.067626953125,
+      "learning_rate": 5.728759765625e-07,
+      "loss": 0.0027,
+      "reward": 1.7822973728179932,
+      "reward_std": 0.09830936044454575,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7822974026203156,
+      "step": 3499
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 302.0546875,
+      "epoch": 1.70947265625,
+      "grad_norm": 1.0980561954495642,
+      "kl": 0.069580078125,
+      "learning_rate": 5.7275390625e-07,
+      "loss": 0.0028,
+      "reward": 1.879291832447052,
+      "reward_std": 0.05373461917042732,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8871042728424072,
+      "step": 3500
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 355.4921875,
+      "epoch": 1.7099609375,
+      "grad_norm": 1.7798040760161173,
+      "kl": 0.07958984375,
+      "learning_rate": 5.726318359375e-07,
+      "loss": 0.0032,
+      "reward": 1.7494339346885681,
+      "reward_std": 0.07848425209522247,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7494339644908905,
+      "step": 3501
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 241.703125,
+      "epoch": 1.71044921875,
+      "grad_norm": 1.0485894953158654,
+      "kl": 0.0657958984375,
+      "learning_rate": 5.72509765625e-07,
+      "loss": 0.0026,
+      "reward": 1.7808015942573547,
+      "reward_std": 0.01619276311248541,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7808016836643219,
+      "step": 3502
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 261.21875,
+      "epoch": 1.7109375,
+      "grad_norm": 1.2363428348153052,
+      "kl": 0.0810546875,
+      "learning_rate": 5.723876953125e-07,
+      "loss": 0.0032,
+      "reward": 1.6847857236862183,
+      "reward_std": 0.052163584157824516,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6847857236862183,
+      "step": 3503
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 396.5,
+      "epoch": 1.71142578125,
+      "grad_norm": 1.0241359134056272,
+      "kl": 0.04931640625,
+      "learning_rate": 5.722656249999999e-07,
+      "loss": 0.002,
+      "reward": 1.8333210349082947,
+      "reward_std": 0.06691450020298362,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8411335349082947,
+      "step": 3504
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 316.8125,
+      "epoch": 1.7119140625,
+      "grad_norm": 1.0599995273767435,
+      "kl": 0.07568359375,
+      "learning_rate": 5.721435546875e-07,
+      "loss": 0.003,
+      "reward": 1.7699226140975952,
+      "reward_std": 0.04928914085030556,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7699226140975952,
+      "step": 3505
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 265.0390625,
+      "epoch": 1.71240234375,
+      "grad_norm": 0.9453226329364856,
+      "kl": 0.0645751953125,
+      "learning_rate": 5.72021484375e-07,
+      "loss": 0.0026,
+      "reward": 1.8773809671401978,
+      "reward_std": 0.028110843151807785,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8773809373378754,
+      "step": 3506
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 309.484375,
+      "epoch": 1.712890625,
+      "grad_norm": 1.6786568278471627,
+      "kl": 0.0679931640625,
+      "learning_rate": 5.718994140625e-07,
+      "loss": 0.0027,
+      "reward": 1.7743658423423767,
+      "reward_std": 0.03792189992964268,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7743658423423767,
+      "step": 3507
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 307.359375,
+      "epoch": 1.71337890625,
+      "grad_norm": 1.370461486241404,
+      "kl": 0.075927734375,
+      "learning_rate": 5.7177734375e-07,
+      "loss": 0.003,
+      "reward": 1.744931399822235,
+      "reward_std": 0.09244660288095474,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7449314296245575,
+      "step": 3508
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 283.1171875,
+      "epoch": 1.7138671875,
+      "grad_norm": 2.7346113141185033,
+      "kl": 0.069091796875,
+      "learning_rate": 5.716552734375e-07,
+      "loss": 0.0028,
+      "reward": 1.7291991710662842,
+      "reward_std": 0.04934484884142876,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7291992008686066,
+      "step": 3509
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 281.6171875,
+      "epoch": 1.71435546875,
+      "grad_norm": 1.4661207261525067,
+      "kl": 0.0947265625,
+      "learning_rate": 5.715332031249999e-07,
+      "loss": 0.0038,
+      "reward": 1.9682253003120422,
+      "reward_std": 0.05683219991624355,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.9760377407073975,
+      "step": 3510
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 232.1328125,
+      "epoch": 1.71484375,
+      "grad_norm": 2.5955313987666124,
+      "kl": 0.095703125,
+      "learning_rate": 5.714111328124999e-07,
+      "loss": 0.0038,
+      "reward": 1.7580629587173462,
+      "reward_std": 0.04326807055622339,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.758063018321991,
+      "step": 3511
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 287.90625,
+      "epoch": 1.71533203125,
+      "grad_norm": 3.7538484706080677,
+      "kl": 0.078369140625,
+      "learning_rate": 5.712890625e-07,
+      "loss": 0.0031,
+      "reward": 1.8174352049827576,
+      "reward_std": 0.07365524023771286,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8252476751804352,
+      "step": 3512
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 339.0234375,
+      "epoch": 1.7158203125,
+      "grad_norm": 2.4016719264444077,
+      "kl": 0.0732421875,
+      "learning_rate": 5.711669921875e-07,
+      "loss": 0.0029,
+      "reward": 1.7750000953674316,
+      "reward_std": 0.08003316074609756,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7750000655651093,
+      "step": 3513
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 277.546875,
+      "epoch": 1.71630859375,
+      "grad_norm": 1.4411311752581444,
+      "kl": 0.0673828125,
+      "learning_rate": 5.71044921875e-07,
+      "loss": 0.0027,
+      "reward": 1.8372459411621094,
+      "reward_std": 0.05695566162467003,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8372458517551422,
+      "step": 3514
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 304.1953125,
+      "epoch": 1.716796875,
+      "grad_norm": 1.6044404016784177,
+      "kl": 0.068359375,
+      "learning_rate": 5.709228515625e-07,
+      "loss": 0.0027,
+      "reward": 1.7338838577270508,
+      "reward_std": 0.08176321163773537,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7338838577270508,
+      "step": 3515
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 205.3203125,
+      "epoch": 1.71728515625,
+      "grad_norm": 2.0755482906159606,
+      "kl": 0.0858154296875,
+      "learning_rate": 5.7080078125e-07,
+      "loss": 0.0034,
+      "reward": 1.7466081380844116,
+      "reward_std": 0.032042115926742554,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7466080784797668,
+      "step": 3516
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 250.8671875,
+      "epoch": 1.7177734375,
+      "grad_norm": 1.7631315601889124,
+      "kl": 0.085693359375,
+      "learning_rate": 5.706787109374999e-07,
+      "loss": 0.0034,
+      "reward": 1.7691351175308228,
+      "reward_std": 0.05385134369134903,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7691351771354675,
+      "step": 3517
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 229.7734375,
+      "epoch": 1.71826171875,
+      "grad_norm": 1.0110099202676348,
+      "kl": 0.092041015625,
+      "learning_rate": 5.70556640625e-07,
+      "loss": 0.0037,
+      "reward": 1.6459341049194336,
+      "reward_std": 0.09330805763602257,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6537465453147888,
+      "step": 3518
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 208.8046875,
+      "epoch": 1.71875,
+      "grad_norm": 1.0560140334835186,
+      "kl": 0.083251953125,
+      "learning_rate": 5.704345703125e-07,
+      "loss": 0.0033,
+      "reward": 1.9419002532958984,
+      "reward_std": 0.08785379119217396,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.9419002532958984,
+      "step": 3519
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 314.8671875,
+      "epoch": 1.71923828125,
+      "grad_norm": 1.1441030012568587,
+      "kl": 0.058837890625,
+      "learning_rate": 5.703125e-07,
+      "loss": 0.0024,
+      "reward": 1.8219019174575806,
+      "reward_std": 0.0309375561773777,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8219019174575806,
+      "step": 3520
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 369.03125,
+      "epoch": 1.7197265625,
+      "grad_norm": 2.3512579540857153,
+      "kl": 0.08154296875,
+      "learning_rate": 5.701904296875e-07,
+      "loss": 0.0033,
+      "reward": 1.7773525714874268,
+      "reward_std": 0.04743030574172735,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7773525714874268,
+      "step": 3521
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 329.078125,
+      "epoch": 1.72021484375,
+      "grad_norm": 0.82600864833063,
+      "kl": 0.069580078125,
+      "learning_rate": 5.70068359375e-07,
+      "loss": 0.0028,
+      "reward": 1.7188506722450256,
+      "reward_std": 0.06316574104130268,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.726663202047348,
+      "step": 3522
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 278.0625,
+      "epoch": 1.720703125,
+      "grad_norm": 2.0136715514754693,
+      "kl": 0.092529296875,
+      "learning_rate": 5.699462890624999e-07,
+      "loss": 0.0037,
+      "reward": 1.729398787021637,
+      "reward_std": 0.07341841980814934,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7372111976146698,
+      "step": 3523
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 273.6171875,
+      "epoch": 1.72119140625,
+      "grad_norm": 1.2203906346471134,
+      "kl": 0.0908203125,
+      "learning_rate": 5.698242187499999e-07,
+      "loss": 0.0036,
+      "reward": 1.7553092241287231,
+      "reward_std": 0.05260470602661371,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7553092241287231,
+      "step": 3524
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 319.890625,
+      "epoch": 1.7216796875,
+      "grad_norm": 0.9548802375780792,
+      "kl": 0.10009765625,
+      "learning_rate": 5.697021484375e-07,
+      "loss": 0.004,
+      "reward": 1.7244818210601807,
+      "reward_std": 0.079419358051382,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7401067912578583,
+      "step": 3525
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 245.7890625,
+      "epoch": 1.72216796875,
+      "grad_norm": 1.743456302936007,
+      "kl": 0.083984375,
+      "learning_rate": 5.69580078125e-07,
+      "loss": 0.0034,
+      "reward": 1.7955304980278015,
+      "reward_std": 0.028726408258080482,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7955304086208344,
+      "step": 3526
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 251.8828125,
+      "epoch": 1.72265625,
+      "grad_norm": 2.8631334970459283,
+      "kl": 0.107421875,
+      "learning_rate": 5.694580078125e-07,
+      "loss": 0.0043,
+      "reward": 1.710024654865265,
+      "reward_std": 0.07605608738958836,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7100247442722321,
+      "step": 3527
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 274.09375,
+      "epoch": 1.72314453125,
+      "grad_norm": 11.37817101239002,
+      "kl": 0.116455078125,
+      "learning_rate": 5.693359375e-07,
+      "loss": 0.0047,
+      "reward": 1.753280758857727,
+      "reward_std": 0.07618452608585358,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7532808184623718,
+      "step": 3528
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 295.734375,
+      "epoch": 1.7236328125,
+      "grad_norm": 0.8179633518643423,
+      "kl": 0.0869140625,
+      "learning_rate": 5.692138671875e-07,
+      "loss": 0.0035,
+      "reward": 1.7533798813819885,
+      "reward_std": 0.024872629903256893,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7533798813819885,
+      "step": 3529
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 264.1953125,
+      "epoch": 1.72412109375,
+      "grad_norm": 1.6417406207916294,
+      "kl": 0.072021484375,
+      "learning_rate": 5.690917968749999e-07,
+      "loss": 0.0029,
+      "reward": 1.7788927555084229,
+      "reward_std": 0.025608118914533406,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7788927257061005,
+      "step": 3530
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 329.4140625,
+      "epoch": 1.724609375,
+      "grad_norm": 0.9017859503866928,
+      "kl": 0.073486328125,
+      "learning_rate": 5.689697265625e-07,
+      "loss": 0.003,
+      "reward": 1.8279852867126465,
+      "reward_std": 0.059508029371500015,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8279853165149689,
+      "step": 3531
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 225.515625,
+      "epoch": 1.72509765625,
+      "grad_norm": 2.5888358981187016,
+      "kl": 0.0849609375,
+      "learning_rate": 5.6884765625e-07,
+      "loss": 0.0034,
+      "reward": 1.8510370254516602,
+      "reward_std": 0.018395755905658007,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8510370254516602,
+      "step": 3532
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 291.40625,
+      "epoch": 1.7255859375,
+      "grad_norm": 1.0428518646158351,
+      "kl": 0.093017578125,
+      "learning_rate": 5.687255859375e-07,
+      "loss": 0.0037,
+      "reward": 1.8244857788085938,
+      "reward_std": 0.0313012283295393,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8244858086109161,
+      "step": 3533
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 287.140625,
+      "epoch": 1.72607421875,
+      "grad_norm": 2.3145569600287557,
+      "kl": 0.0787353515625,
+      "learning_rate": 5.68603515625e-07,
+      "loss": 0.0031,
+      "reward": 1.901319682598114,
+      "reward_std": 0.029859434813261032,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.901319682598114,
+      "step": 3534
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 410.8828125,
+      "epoch": 1.7265625,
+      "grad_norm": 1.9450424606133498,
+      "kl": 0.09033203125,
+      "learning_rate": 5.684814453125e-07,
+      "loss": 0.0036,
+      "reward": 1.7189557552337646,
+      "reward_std": 0.11504796147346497,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.7345808148384094,
+      "step": 3535
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 295.59375,
+      "epoch": 1.72705078125,
+      "grad_norm": 1.9911963089475972,
+      "kl": 0.072265625,
+      "learning_rate": 5.683593749999999e-07,
+      "loss": 0.0029,
+      "reward": 1.7401865720748901,
+      "reward_std": 0.10161124914884567,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7401866316795349,
+      "step": 3536
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 267.9453125,
+      "epoch": 1.7275390625,
+      "grad_norm": 1.1839095765959295,
+      "kl": 0.071044921875,
+      "learning_rate": 5.682373046874999e-07,
+      "loss": 0.0028,
+      "reward": 1.889032244682312,
+      "reward_std": 0.02803337760269642,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8890321254730225,
+      "step": 3537
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 264.671875,
+      "epoch": 1.72802734375,
+      "grad_norm": 1.7911653432373396,
+      "kl": 0.09521484375,
+      "learning_rate": 5.68115234375e-07,
+      "loss": 0.0038,
+      "reward": 1.6901207566261292,
+      "reward_std": 0.03867476247251034,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6901208162307739,
+      "step": 3538
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 279.234375,
+      "epoch": 1.728515625,
+      "grad_norm": 1.9111408087116626,
+      "kl": 0.088623046875,
+      "learning_rate": 5.679931640625e-07,
+      "loss": 0.0036,
+      "reward": 1.7439436316490173,
+      "reward_std": 0.078775430098176,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7439436316490173,
+      "step": 3539
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 314.4140625,
+      "epoch": 1.72900390625,
+      "grad_norm": 1.5678708925275149,
+      "kl": 0.06494140625,
+      "learning_rate": 5.6787109375e-07,
+      "loss": 0.0026,
+      "reward": 1.7854658365249634,
+      "reward_std": 0.03933623246848583,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7854658663272858,
+      "step": 3540
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 327.328125,
+      "epoch": 1.7294921875,
+      "grad_norm": 14.526695575847024,
+      "kl": 0.07275390625,
+      "learning_rate": 5.677490234375e-07,
+      "loss": 0.0029,
+      "reward": 1.7927899956703186,
+      "reward_std": 0.08604315388947725,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8006025552749634,
+      "step": 3541
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 323.2890625,
+      "epoch": 1.72998046875,
+      "grad_norm": 0.9340497276184674,
+      "kl": 0.05615234375,
+      "learning_rate": 5.67626953125e-07,
+      "loss": 0.0022,
+      "reward": 1.8815443515777588,
+      "reward_std": 0.03566223941743374,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.881544291973114,
+      "step": 3542
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 278.09375,
+      "epoch": 1.73046875,
+      "grad_norm": 1.4170493602251024,
+      "kl": 0.06884765625,
+      "learning_rate": 5.675048828124999e-07,
+      "loss": 0.0028,
+      "reward": 1.8988550901412964,
+      "reward_std": 0.02946687676012516,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.898855060338974,
+      "step": 3543
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 400.2109375,
+      "epoch": 1.73095703125,
+      "grad_norm": 1.6780326561924064,
+      "kl": 0.07470703125,
+      "learning_rate": 5.673828125e-07,
+      "loss": 0.003,
+      "reward": 1.7607104778289795,
+      "reward_std": 0.05685322359204292,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7607105076313019,
+      "step": 3544
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 312.078125,
+      "epoch": 1.7314453125,
+      "grad_norm": 1.265920665539601,
+      "kl": 0.07958984375,
+      "learning_rate": 5.672607421875e-07,
+      "loss": 0.0032,
+      "reward": 1.660174310207367,
+      "reward_std": 0.09357069805264473,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6679868102073669,
+      "step": 3545
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 255.890625,
+      "epoch": 1.73193359375,
+      "grad_norm": 1.3387333409709177,
+      "kl": 0.084228515625,
+      "learning_rate": 5.67138671875e-07,
+      "loss": 0.0034,
+      "reward": 1.723749816417694,
+      "reward_std": 0.08172390796244144,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7237497866153717,
+      "step": 3546
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 240.3984375,
+      "epoch": 1.732421875,
+      "grad_norm": 6.581068369525777,
+      "kl": 0.070556640625,
+      "learning_rate": 5.670166015625e-07,
+      "loss": 0.0028,
+      "reward": 1.8678494691848755,
+      "reward_std": 0.027833457104861736,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8678494393825531,
+      "step": 3547
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 335.8203125,
+      "epoch": 1.73291015625,
+      "grad_norm": 0.7849499263584183,
+      "kl": 0.0703125,
+      "learning_rate": 5.6689453125e-07,
+      "loss": 0.0028,
+      "reward": 1.8659499883651733,
+      "reward_std": 0.0487942174077034,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8659500479698181,
+      "step": 3548
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 217.6640625,
+      "epoch": 1.7333984375,
+      "grad_norm": 0.8256068854796749,
+      "kl": 0.054443359375,
+      "learning_rate": 5.667724609374999e-07,
+      "loss": 0.0022,
+      "reward": 1.8360854387283325,
+      "reward_std": 0.028709974139928818,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8360854387283325,
+      "step": 3549
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 323.9609375,
+      "epoch": 1.73388671875,
+      "grad_norm": 2.5622246174809873,
+      "kl": 0.104736328125,
+      "learning_rate": 5.666503906249999e-07,
+      "loss": 0.0042,
+      "reward": 1.6949216723442078,
+      "reward_std": 0.07603111118078232,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6949216425418854,
+      "step": 3550
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 403.46875,
+      "epoch": 1.734375,
+      "grad_norm": 1.885269304797715,
+      "kl": 0.0487060546875,
+      "learning_rate": 5.665283203125e-07,
+      "loss": 0.002,
+      "reward": 1.800632357597351,
+      "reward_std": 0.09131154417991638,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8006323575973511,
+      "step": 3551
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 263.890625,
+      "epoch": 1.73486328125,
+      "grad_norm": 1.2590360439221413,
+      "kl": 0.071533203125,
+      "learning_rate": 5.6640625e-07,
+      "loss": 0.0029,
+      "reward": 1.747345209121704,
+      "reward_std": 0.024599829223006964,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7473451793193817,
+      "step": 3552
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 233.5859375,
+      "epoch": 1.7353515625,
+      "grad_norm": 1.7621451023351664,
+      "kl": 0.0531005859375,
+      "learning_rate": 5.662841796875e-07,
+      "loss": 0.0021,
+      "reward": 1.8149150013923645,
+      "reward_std": 0.06236854917369783,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8149150013923645,
+      "step": 3553
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 297.03125,
+      "epoch": 1.73583984375,
+      "grad_norm": 1.9104865022494395,
+      "kl": 0.06640625,
+      "learning_rate": 5.66162109375e-07,
+      "loss": 0.0027,
+      "reward": 1.6441280841827393,
+      "reward_std": 0.02519212942570448,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6441280245780945,
+      "step": 3554
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 329.5,
+      "epoch": 1.736328125,
+      "grad_norm": 1.2578790013200032,
+      "kl": 0.063720703125,
+      "learning_rate": 5.660400390625e-07,
+      "loss": 0.0025,
+      "reward": 1.6923622488975525,
+      "reward_std": 0.08163776621222496,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7001748085021973,
+      "step": 3555
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 255.7734375,
+      "epoch": 1.73681640625,
+      "grad_norm": 2.277411615256479,
+      "kl": 0.08447265625,
+      "learning_rate": 5.659179687499999e-07,
+      "loss": 0.0034,
+      "reward": 1.6454498767852783,
+      "reward_std": 0.05983481742441654,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6454498171806335,
+      "step": 3556
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 380.59375,
+      "epoch": 1.7373046875,
+      "grad_norm": 12.33623189322276,
+      "kl": 0.0657958984375,
+      "learning_rate": 5.657958984374999e-07,
+      "loss": 0.0026,
+      "reward": 1.7834393978118896,
+      "reward_std": 0.042173080146312714,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7834393680095673,
+      "step": 3557
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 313.6015625,
+      "epoch": 1.73779296875,
+      "grad_norm": 1.2785230001853094,
+      "kl": 0.066162109375,
+      "learning_rate": 5.65673828125e-07,
+      "loss": 0.0026,
+      "reward": 1.8725386261940002,
+      "reward_std": 0.038782306015491486,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8725386261940002,
+      "step": 3558
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 293.859375,
+      "epoch": 1.73828125,
+      "grad_norm": 1.4368144722786214,
+      "kl": 0.0693359375,
+      "learning_rate": 5.655517578125e-07,
+      "loss": 0.0028,
+      "reward": 1.828158974647522,
+      "reward_std": 0.07489650882780552,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.828158974647522,
+      "step": 3559
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 403.4375,
+      "epoch": 1.73876953125,
+      "grad_norm": 7.317107973230845,
+      "kl": 0.055908203125,
+      "learning_rate": 5.654296875e-07,
+      "loss": 0.0022,
+      "reward": 1.8085799813270569,
+      "reward_std": 0.03719876706600189,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8085800111293793,
+      "step": 3560
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 250.8359375,
+      "epoch": 1.7392578125,
+      "grad_norm": 1.1775016795529225,
+      "kl": 0.1083984375,
+      "learning_rate": 5.653076171875e-07,
+      "loss": 0.0043,
+      "reward": 1.7262591123580933,
+      "reward_std": 0.037734927609562874,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.726259171962738,
+      "step": 3561
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 248.421875,
+      "epoch": 1.73974609375,
+      "grad_norm": 1.7178106445382675,
+      "kl": 0.082763671875,
+      "learning_rate": 5.65185546875e-07,
+      "loss": 0.0033,
+      "reward": 1.6607239246368408,
+      "reward_std": 0.06611571833491325,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6607239246368408,
+      "step": 3562
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 262.4375,
+      "epoch": 1.740234375,
+      "grad_norm": 3.1487378984733274,
+      "kl": 0.091064453125,
+      "learning_rate": 5.650634765624999e-07,
+      "loss": 0.0036,
+      "reward": 1.8339160084724426,
+      "reward_std": 0.03272883594036102,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8339160084724426,
+      "step": 3563
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 208.1328125,
+      "epoch": 1.74072265625,
+      "grad_norm": 1.7524697236338946,
+      "kl": 0.0654296875,
+      "learning_rate": 5.6494140625e-07,
+      "loss": 0.0026,
+      "reward": 1.8101386427879333,
+      "reward_std": 0.03559943049913272,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8101385533809662,
+      "step": 3564
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 287.9609375,
+      "epoch": 1.7412109375,
+      "grad_norm": 1.0956422342478667,
+      "kl": 0.072509765625,
+      "learning_rate": 5.648193359375e-07,
+      "loss": 0.0029,
+      "reward": 1.8012146949768066,
+      "reward_std": 0.020907348953187466,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8012146949768066,
+      "step": 3565
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 281.9375,
+      "epoch": 1.74169921875,
+      "grad_norm": 1.1328692001884817,
+      "kl": 0.08349609375,
+      "learning_rate": 5.64697265625e-07,
+      "loss": 0.0033,
+      "reward": 1.7395102381706238,
+      "reward_std": 0.046815380454063416,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7395102381706238,
+      "step": 3566
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 249.6875,
+      "epoch": 1.7421875,
+      "grad_norm": 8.860759098488048,
+      "kl": 0.0732421875,
+      "learning_rate": 5.645751953125e-07,
+      "loss": 0.0029,
+      "reward": 1.7368816137313843,
+      "reward_std": 0.061663146945647895,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7368816435337067,
+      "step": 3567
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 357.5625,
+      "epoch": 1.74267578125,
+      "grad_norm": 5.322487155817771,
+      "kl": 0.058349609375,
+      "learning_rate": 5.64453125e-07,
+      "loss": 0.0023,
+      "reward": 1.7705302238464355,
+      "reward_std": 0.09227291122078896,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7783427238464355,
+      "step": 3568
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 274.828125,
+      "epoch": 1.7431640625,
+      "grad_norm": 0.9319050653167747,
+      "kl": 0.0540771484375,
+      "learning_rate": 5.643310546874999e-07,
+      "loss": 0.0022,
+      "reward": 1.7691416144371033,
+      "reward_std": 0.027585056610405445,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7691416144371033,
+      "step": 3569
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 235.6015625,
+      "epoch": 1.74365234375,
+      "grad_norm": 1.2001691656551983,
+      "kl": 0.06689453125,
+      "learning_rate": 5.642089843749999e-07,
+      "loss": 0.0027,
+      "reward": 1.7046304941177368,
+      "reward_std": 0.06601490080356598,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7046305537223816,
+      "step": 3570
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 308.859375,
+      "epoch": 1.744140625,
+      "grad_norm": 1.88195678513803,
+      "kl": 0.068359375,
+      "learning_rate": 5.640869140625e-07,
+      "loss": 0.0027,
+      "reward": 1.8015184998512268,
+      "reward_std": 0.11520305648446083,
+      "rewards/format_reward": 0.984375,
+      "rewards/ocr_reward": 0.8171434998512268,
+      "step": 3571
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 287.1484375,
+      "epoch": 1.74462890625,
+      "grad_norm": 1.3393368677542685,
+      "kl": 0.0760498046875,
+      "learning_rate": 5.6396484375e-07,
+      "loss": 0.003,
+      "reward": 1.6661378145217896,
+      "reward_std": 0.028218165040016174,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6661378145217896,
+      "step": 3572
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 250.4296875,
+      "epoch": 1.7451171875,
+      "grad_norm": 1.3605222672595276,
+      "kl": 0.079833984375,
+      "learning_rate": 5.638427734375e-07,
+      "loss": 0.0032,
+      "reward": 1.737298607826233,
+      "reward_std": 0.07310641929507256,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7372985780239105,
+      "step": 3573
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 341.9921875,
+      "epoch": 1.74560546875,
+      "grad_norm": 1.103577603969494,
+      "kl": 0.07373046875,
+      "learning_rate": 5.63720703125e-07,
+      "loss": 0.003,
+      "reward": 1.732740879058838,
+      "reward_std": 0.06374066509306431,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7327408790588379,
+      "step": 3574
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 240.5546875,
+      "epoch": 1.74609375,
+      "grad_norm": 1.31741473565297,
+      "kl": 0.074462890625,
+      "learning_rate": 5.635986328125e-07,
+      "loss": 0.003,
+      "reward": 1.8524270057678223,
+      "reward_std": 0.041487690061330795,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8524269759654999,
+      "step": 3575
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 298.203125,
+      "epoch": 1.74658203125,
+      "grad_norm": 1.5223059068844398,
+      "kl": 0.083984375,
+      "learning_rate": 5.634765624999999e-07,
+      "loss": 0.0034,
+      "reward": 1.6632152795791626,
+      "reward_std": 0.053207699209451675,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6632152497768402,
+      "step": 3576
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 309.7421875,
+      "epoch": 1.7470703125,
+      "grad_norm": 3.2437260416145666,
+      "kl": 0.0511474609375,
+      "learning_rate": 5.633544921875e-07,
+      "loss": 0.002,
+      "reward": 1.8188891410827637,
+      "reward_std": 0.09965669736266136,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8188891410827637,
+      "step": 3577
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 325.2734375,
+      "epoch": 1.74755859375,
+      "grad_norm": 8.572121114129786,
+      "kl": 0.04833984375,
+      "learning_rate": 5.63232421875e-07,
+      "loss": 0.0019,
+      "reward": 1.895998477935791,
+      "reward_std": 0.02911460120230913,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.895998477935791,
+      "step": 3578
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 293.984375,
+      "epoch": 1.748046875,
+      "grad_norm": 1.1357685130160955,
+      "kl": 0.058349609375,
+      "learning_rate": 5.631103515625e-07,
+      "loss": 0.0023,
+      "reward": 1.8604804277420044,
+      "reward_std": 0.03513455484062433,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.860480397939682,
+      "step": 3579
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 252.7265625,
+      "epoch": 1.74853515625,
+      "grad_norm": 1.7682231539196884,
+      "kl": 0.05908203125,
+      "learning_rate": 5.6298828125e-07,
+      "loss": 0.0024,
+      "reward": 1.8791704773902893,
+      "reward_std": 0.033109684474766254,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8791704773902893,
+      "step": 3580
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 235.234375,
+      "epoch": 1.7490234375,
+      "grad_norm": 17.460259222379793,
+      "kl": 0.076171875,
+      "learning_rate": 5.628662109375e-07,
+      "loss": 0.003,
+      "reward": 1.7239627838134766,
+      "reward_std": 0.05568823218345642,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7239627540111542,
+      "step": 3581
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 325.59375,
+      "epoch": 1.74951171875,
+      "grad_norm": 10.60035752233288,
+      "kl": 0.07958984375,
+      "learning_rate": 5.627441406249999e-07,
+      "loss": 0.0032,
+      "reward": 1.8284227848052979,
+      "reward_std": 0.09722843207418919,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.8362353146076202,
+      "step": 3582
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 322.375,
+      "epoch": 1.75,
+      "grad_norm": 1.4466112179411692,
+      "kl": 0.0595703125,
+      "learning_rate": 5.626220703124999e-07,
+      "loss": 0.0024,
+      "reward": 1.7760446071624756,
+      "reward_std": 0.0447351299226284,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7760446071624756,
+      "step": 3583
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 313.5234375,
+      "epoch": 1.75048828125,
+      "grad_norm": 1.2053351036061268,
+      "kl": 0.083740234375,
+      "learning_rate": 5.625e-07,
+      "loss": 0.0033,
+      "reward": 1.8212696313858032,
+      "reward_std": 0.08149140700697899,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.821269690990448,
+      "step": 3584
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 287.5859375,
+      "epoch": 1.7509765625,
+      "grad_norm": 4.851214185716174,
+      "kl": 0.083984375,
+      "learning_rate": 5.623779296875e-07,
+      "loss": 0.0034,
+      "reward": 1.7441505193710327,
+      "reward_std": 0.1517154574394226,
+      "rewards/format_reward": 0.9765625,
+      "rewards/ocr_reward": 0.7675879597663879,
+      "step": 3585
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 268.5625,
+      "epoch": 1.75146484375,
+      "grad_norm": 1.179914259413158,
+      "kl": 0.07763671875,
+      "learning_rate": 5.62255859375e-07,
+      "loss": 0.0031,
+      "reward": 1.7303178310394287,
+      "reward_std": 0.047688692808151245,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7303178906440735,
+      "step": 3586
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 360.140625,
+      "epoch": 1.751953125,
+      "grad_norm": 1.8342388609879379,
+      "kl": 0.0589599609375,
+      "learning_rate": 5.621337890625e-07,
+      "loss": 0.0024,
+      "reward": 1.7912532687187195,
+      "reward_std": 0.0980726070702076,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7990657389163971,
+      "step": 3587
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 357.1875,
+      "epoch": 1.75244140625,
+      "grad_norm": 1.7620888034734943,
+      "kl": 0.071533203125,
+      "learning_rate": 5.6201171875e-07,
+      "loss": 0.0029,
+      "reward": 1.7349724173545837,
+      "reward_std": 0.14423664659261703,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.742784857749939,
+      "step": 3588
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 297.65625,
+      "epoch": 1.7529296875,
+      "grad_norm": 0.9893845914550516,
+      "kl": 0.0682373046875,
+      "learning_rate": 5.618896484374999e-07,
+      "loss": 0.0027,
+      "reward": 1.697411596775055,
+      "reward_std": 0.023635744117200375,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6974115371704102,
+      "step": 3589
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 289.0390625,
+      "epoch": 1.75341796875,
+      "grad_norm": 1.3535344923489823,
+      "kl": 0.0555419921875,
+      "learning_rate": 5.61767578125e-07,
+      "loss": 0.0022,
+      "reward": 1.799051284790039,
+      "reward_std": 0.01989690400660038,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7990512847900391,
+      "step": 3590
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 326.390625,
+      "epoch": 1.75390625,
+      "grad_norm": 1.3581378000044912,
+      "kl": 0.063720703125,
+      "learning_rate": 5.616455078125e-07,
+      "loss": 0.0025,
+      "reward": 1.6952258944511414,
+      "reward_std": 0.03106315340846777,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.6952258944511414,
+      "step": 3591
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 269.6171875,
+      "epoch": 1.75439453125,
+      "grad_norm": 2.5388820892946122,
+      "kl": 0.08154296875,
+      "learning_rate": 5.615234375e-07,
+      "loss": 0.0033,
+      "reward": 1.7009756565093994,
+      "reward_std": 0.09824825078248978,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.7087881565093994,
+      "step": 3592
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 333.53125,
+      "epoch": 1.7548828125,
+      "grad_norm": 1.7898213356726147,
+      "kl": 0.0576171875,
+      "learning_rate": 5.614013671875e-07,
+      "loss": 0.0023,
+      "reward": 1.7667632102966309,
+      "reward_std": 0.038947849068790674,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7667632400989532,
+      "step": 3593
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 289.9140625,
+      "epoch": 1.75537109375,
+      "grad_norm": 1.4385952936986826,
+      "kl": 0.0592041015625,
+      "learning_rate": 5.61279296875e-07,
+      "loss": 0.0024,
+      "reward": 1.7931809425354004,
+      "reward_std": 0.05069575086236,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7931809425354004,
+      "step": 3594
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 286.03125,
+      "epoch": 1.755859375,
+      "grad_norm": 2.1819507976548147,
+      "kl": 0.074951171875,
+      "learning_rate": 5.611572265624999e-07,
+      "loss": 0.003,
+      "reward": 1.8132346272468567,
+      "reward_std": 0.040440889075398445,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8132346570491791,
+      "step": 3595
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 246.1328125,
+      "epoch": 1.75634765625,
+      "grad_norm": 1.2064973111450872,
+      "kl": 0.078857421875,
+      "learning_rate": 5.610351562499999e-07,
+      "loss": 0.0031,
+      "reward": 1.7098599076271057,
+      "reward_std": 0.0605672225356102,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7098599076271057,
+      "step": 3596
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 211.921875,
+      "epoch": 1.7568359375,
+      "grad_norm": 1.7526125144836613,
+      "kl": 0.076171875,
+      "learning_rate": 5.609130859375e-07,
+      "loss": 0.003,
+      "reward": 1.747939109802246,
+      "reward_std": 0.07001195242628455,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7479391098022461,
+      "step": 3597
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 316.046875,
+      "epoch": 1.75732421875,
+      "grad_norm": 1.0693339957223436,
+      "kl": 0.0582275390625,
+      "learning_rate": 5.60791015625e-07,
+      "loss": 0.0023,
+      "reward": 1.6757773160934448,
+      "reward_std": 0.08137864619493484,
+      "rewards/format_reward": 0.9921875,
+      "rewards/ocr_reward": 0.6835898458957672,
+      "step": 3598
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 243.8984375,
+      "epoch": 1.7578125,
+      "grad_norm": 0.9296572610348767,
+      "kl": 0.071533203125,
+      "learning_rate": 5.606689453125e-07,
+      "loss": 0.0029,
+      "reward": 1.8186118006706238,
+      "reward_std": 0.07801494561135769,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.8186118006706238,
+      "step": 3599
+    },
+    {
+      "clip_ratio": 0.0,
+      "completion_length": 229.2578125,
+      "epoch": 1.75830078125,
+      "grad_norm": 1.7734580005970337,
+      "kl": 0.070068359375,
+      "learning_rate": 5.60546875e-07,
+      "loss": 0.0028,
+      "reward": 1.757921278476715,
+      "reward_std": 0.05061543360352516,
+      "rewards/format_reward": 1.0,
+      "rewards/ocr_reward": 0.7579212486743927,
+      "step": 3600
+    }
+  ],
+  "logging_steps": 1.0,
+  "max_steps": 8192,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 200,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}