Upload task output 1

Browse files

Files changed (5) hide show

adapter_config.json +4 -4
adapter_model.safetensors +1 -1
loss.txt +1 -1
trainer_state.json +885 -852
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -29,13 +29,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "q_proj",
-    "gate_proj",
     "o_proj",
     "down_proj",
     "k_proj",
-    "up_proj",
-    "v_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "up_proj",
     "o_proj",
+    "v_proj",
+    "gate_proj",
     "down_proj",
     "k_proj",
+    "q_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c9bc32fac7f25bcede80af9be64db4efa53407d9dbd6b511856089e76298e8f7
 size 957942768

 version https://git-lfs.github.com/spec/v1
+oid sha256:51dcc60062ae1b1cf80ce9f9cf0b07ba4a42abdffd827bf4c19f5b4c6152a313
 size 957942768

loss.txt CHANGED Viewed

	@@ -1 +1 @@
1	- ~~152~~,-0.~~06000000238418579~~


1	+ 156,-1.1483332872390748

trainer_state.json CHANGED Viewed

@@ -2,507 +2,507 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.02432,
   "eval_steps": 500,
-  "global_step": 152,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 374.4,
-      "completions/max_terminated_length": 374.4,
-      "completions/mean_length": 293.55,
-      "completions/mean_terminated_length": 293.55,
-      "completions/min_length": 181.8,
-      "completions/min_terminated_length": 181.8,
-      "entropy": 0.7695603430271148,
       "epoch": 0.0008,
-      "frac_reward_zero_std": 0.675,
-      "grad_norm": 0.1396484375,
-      "kl": 0.007634526048786938,
       "learning_rate": 1.137216e-06,
-      "loss": 9.18293430004269e-05,
-      "num_tokens": 135798.0,
-      "reward": 0.051062504202127455,
-      "reward_std": 0.07574881687760353,
-      "rewards/env_goofspiel_reward/mean": 0.051062504202127455,
-      "rewards/env_goofspiel_reward/std": 0.195309117436409,
-      "sampling/importance_sampling_ratio/max": 1.719690752029419,
-      "sampling/importance_sampling_ratio/mean": 1.0014273881912232,
-      "sampling/importance_sampling_ratio/min": 0.48566103279590606,
-      "sampling/sampling_logp_difference/max": 0.7150738000869751,
-      "sampling/sampling_logp_difference/mean": 0.0632629081606865,
       "step": 5,
-      "step_time": 4.057331793400226
     },
     {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
       "completions/max_length": 374.0,
       "completions/max_terminated_length": 374.0,
-      "completions/mean_length": 290.5375,
-      "completions/mean_terminated_length": 290.5375,
-      "completions/min_length": 193.0,
-      "completions/min_terminated_length": 193.0,
-      "entropy": 0.6640829563140869,
       "epoch": 0.0016,
-      "frac_reward_zero_std": 0.7375,
-      "grad_norm": 0.296875,
-      "kl": 0.009508041350636631,
       "learning_rate": 2.5587359999999995e-06,
-      "loss": -5.3186528384685515e-05,
-      "num_tokens": 271318.0,
-      "reward": 0.05906250327825546,
-      "reward_std": 0.06461188569664955,
-      "rewards/env_goofspiel_reward/mean": 0.05906250327825546,
-      "rewards/env_goofspiel_reward/std": 0.16751175224781037,
-      "sampling/importance_sampling_ratio/max": 2.0673105001449583,
-      "sampling/importance_sampling_ratio/mean": 1.0338432788848877,
-      "sampling/importance_sampling_ratio/min": 0.6319645524024964,
-      "sampling/sampling_logp_difference/max": 0.6566181659698487,
-      "sampling/sampling_logp_difference/mean": 0.05573496893048287,
       "step": 10,
-      "step_time": 3.559387542600052
     },
     {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 378.8,
-      "completions/max_terminated_length": 378.8,
-      "completions/mean_length": 285.15,
-      "completions/mean_terminated_length": 285.15,
-      "completions/min_length": 212.0,
-      "completions/min_terminated_length": 212.0,
-      "entropy": 0.5863359421491623,
       "epoch": 0.0024,
-      "frac_reward_zero_std": 0.8,
-      "grad_norm": 0.1650390625,
-      "kl": 0.05467459289357066,
       "learning_rate": 3.9802559999999995e-06,
-      "loss": 0.00011974496301263571,
-      "num_tokens": 403708.0,
-      "reward": 0.037000001792330296,
-      "reward_std": 0.0535633388790302,
-      "rewards/env_goofspiel_reward/mean": 0.037000001792330296,
-      "rewards/env_goofspiel_reward/std": 0.11216981350444258,
-      "sampling/importance_sampling_ratio/max": 1.5559733867645265,
-      "sampling/importance_sampling_ratio/mean": 0.9780893206596375,
-      "sampling/importance_sampling_ratio/min": 0.604676628112793,
-      "sampling/sampling_logp_difference/max": 0.4918365955352783,
-      "sampling/sampling_logp_difference/mean": 0.04973898231983185,
       "step": 15,
-      "step_time": 3.5593893944003865
     },
     {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 374.0,
-      "completions/max_terminated_length": 374.0,
-      "completions/mean_length": 281.6375,
-      "completions/mean_terminated_length": 281.6375,
       "completions/min_length": 212.0,
       "completions/min_terminated_length": 212.0,
-      "entropy": 0.4126308411359787,
       "epoch": 0.0032,
-      "frac_reward_zero_std": 0.7375,
-      "grad_norm": 0.31640625,
-      "kl": 0.139003873616457,
       "learning_rate": 5.401775999999999e-06,
-      "loss": -0.00015898187411949037,
-      "num_tokens": 536243.0,
-      "reward": 0.06343750283122063,
-      "reward_std": 0.0905980572104454,
-      "rewards/env_goofspiel_reward/mean": 0.06343750283122063,
-      "rewards/env_goofspiel_reward/std": 0.19052477180957794,
-      "sampling/importance_sampling_ratio/max": 1.6631618976593017,
-      "sampling/importance_sampling_ratio/mean": 1.0170260667800903,
-      "sampling/importance_sampling_ratio/min": 0.643394160270691,
-      "sampling/sampling_logp_difference/max": 0.5536829710006714,
-      "sampling/sampling_logp_difference/mean": 0.03567908257246018,
       "step": 20,
-      "step_time": 3.513668759400389
     },
     {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 374.0,
-      "completions/max_terminated_length": 374.0,
-      "completions/mean_length": 300.975,
-      "completions/mean_terminated_length": 300.975,
-      "completions/min_length": 219.0,
-      "completions/min_terminated_length": 219.0,
-      "entropy": 0.5057466819882392,
       "epoch": 0.004,
-      "frac_reward_zero_std": 0.8625,
-      "grad_norm": 0.201171875,
-      "kl": 0.14662861209362746,
       "learning_rate": 6.8232959999999994e-06,
-      "loss": 0.00011511286720633507,
-      "num_tokens": 674802.0,
-      "reward": 0.056125002296175806,
-      "reward_std": 0.05851308616111055,
-      "rewards/env_goofspiel_reward/mean": 0.056125002296175806,
-      "rewards/env_goofspiel_reward/std": 0.1724803472403437,
-      "sampling/importance_sampling_ratio/max": 1.8632315158843995,
-      "sampling/importance_sampling_ratio/mean": 0.9876452207565307,
-      "sampling/importance_sampling_ratio/min": 0.5998193681240082,
-      "sampling/sampling_logp_difference/max": 0.5798031091690063,
-      "sampling/sampling_logp_difference/mean": 0.049172034859657286,
       "step": 25,
-      "step_time": 3.5666124442001093
     },
     {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 373.8,
-      "completions/max_terminated_length": 373.8,
-      "completions/mean_length": 283.69375,
-      "completions/mean_terminated_length": 283.69375,
       "completions/min_length": 212.0,
       "completions/min_terminated_length": 212.0,
-      "entropy": 0.5599821880459785,
       "epoch": 0.0048,
-      "frac_reward_zero_std": 0.775,
-      "grad_norm": 0.30859375,
-      "kl": 0.14428229751065375,
       "learning_rate": 8.244816e-06,
-      "loss": -3.07892682030797e-05,
-      "num_tokens": 807598.0,
-      "reward": 0.08625000044703483,
-      "reward_std": 0.10076271444559097,
-      "rewards/env_goofspiel_reward/mean": 0.08625000044703483,
-      "rewards/env_goofspiel_reward/std": 0.21401541233062743,
-      "sampling/importance_sampling_ratio/max": 1.4588377714157104,
-      "sampling/importance_sampling_ratio/mean": 0.9682739973068237,
-      "sampling/importance_sampling_ratio/min": 0.5809138238430023,
-      "sampling/sampling_logp_difference/max": 0.5705435633659363,
-      "sampling/sampling_logp_difference/mean": 0.04744169861078262,
       "step": 30,
-      "step_time": 3.545922210400022
     },
     {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 365.6,
-      "completions/max_terminated_length": 365.6,
-      "completions/mean_length": 290.56875,
-      "completions/mean_terminated_length": 290.56875,
       "completions/min_length": 212.0,
       "completions/min_terminated_length": 212.0,
-      "entropy": 0.5238839864730835,
       "epoch": 0.0056,
-      "frac_reward_zero_std": 0.9,
-      "grad_norm": 0.0791015625,
-      "kl": 0.22365115247666836,
       "learning_rate": 9.666336e-06,
-      "loss": -1.7423409735783936e-05,
-      "num_tokens": 941209.0,
-      "reward": 0.04125000163912773,
-      "reward_std": 0.04772970825433731,
-      "rewards/env_goofspiel_reward/mean": 0.04125000163912773,
-      "rewards/env_goofspiel_reward/std": 0.16298522651195527,
-      "sampling/importance_sampling_ratio/max": 1.4255825757980347,
-      "sampling/importance_sampling_ratio/mean": 0.973192298412323,
-      "sampling/importance_sampling_ratio/min": 0.5944858670234681,
-      "sampling/sampling_logp_difference/max": 0.4666349172592163,
-      "sampling/sampling_logp_difference/mean": 0.04362327083945274,
       "step": 35,
-      "step_time": 3.448241228200095
     },
     {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 373.8,
-      "completions/max_terminated_length": 373.8,
-      "completions/mean_length": 289.4875,
-      "completions/mean_terminated_length": 289.4875,
-      "completions/min_length": 206.4,
-      "completions/min_terminated_length": 206.4,
-      "entropy": 0.5457443177700043,
       "epoch": 0.0064,
-      "frac_reward_zero_std": 0.8125,
-      "grad_norm": 0.05517578125,
-      "kl": 0.21872444674372674,
       "learning_rate": 9.95063915881342e-06,
-      "loss": 0.00012433364754542707,
-      "num_tokens": 1076167.0,
-      "reward": 0.05981250181794166,
-      "reward_std": 0.07451137900352478,
-      "rewards/env_goofspiel_reward/mean": 0.05981250181794166,
-      "rewards/env_goofspiel_reward/std": 0.1769598752260208,
-      "sampling/importance_sampling_ratio/max": 1.5738928318023682,
-      "sampling/importance_sampling_ratio/mean": 1.0145540714263916,
-      "sampling/importance_sampling_ratio/min": 0.6491193056106568,
-      "sampling/sampling_logp_difference/max": 0.46645350456237794,
-      "sampling/sampling_logp_difference/mean": 0.04598992168903351,
       "step": 40,
-      "step_time": 3.4551121715998305
     },
     {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
-      "completions/clipped_ratio": 0.00625,
-      "completions/max_length": 462.0,
-      "completions/max_terminated_length": 374.0,
-      "completions/mean_length": 300.95625,
-      "completions/mean_terminated_length": 297.8118957519531,
       "completions/min_length": 212.0,
       "completions/min_terminated_length": 212.0,
-      "entropy": 0.5893479824066162,
       "epoch": 0.0072,
-      "frac_reward_zero_std": 0.7875,
-      "grad_norm": 0.224609375,
-      "kl": 0.2417328185401857,
       "learning_rate": 9.950635741493589e-06,
-      "loss": 0.02391626685857773,
-      "num_tokens": 1212925.0,
-      "reward": 0.05993750244379044,
-      "reward_std": 0.08494120314717293,
-      "rewards/env_goofspiel_reward/mean": 0.05993750244379044,
-      "rewards/env_goofspiel_reward/std": 0.17770446538925172,
-      "sampling/importance_sampling_ratio/max": 2.169111466407776,
-      "sampling/importance_sampling_ratio/mean": 1.020458698272705,
-      "sampling/importance_sampling_ratio/min": 0.6463833510875702,
-      "sampling/sampling_logp_difference/max": 0.5775727272033692,
-      "sampling/sampling_logp_difference/mean": 0.04204721674323082,
       "step": 45,
-      "step_time": 4.194754163199832
     },
     {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 373.4,
-      "completions/max_terminated_length": 373.4,
-      "completions/mean_length": 299.31875,
-      "completions/mean_terminated_length": 299.31875,
       "completions/min_length": 212.0,
       "completions/min_terminated_length": 212.0,
-      "entropy": 0.4704709783196449,
       "epoch": 0.008,
-      "frac_reward_zero_std": 0.85,
-      "grad_norm": 0.103515625,
-      "kl": 0.4402174398303032,
       "learning_rate": 9.950629695468755e-06,
-      "loss": 0.00011011158348992467,
-      "num_tokens": 1350825.0,
-      "reward": 0.04487500190734863,
-      "reward_std": 0.063816387206316,
-      "rewards/env_goofspiel_reward/mean": 0.04487500190734863,
-      "rewards/env_goofspiel_reward/std": 0.17575940787792205,
-      "sampling/importance_sampling_ratio/max": 1.630899429321289,
-      "sampling/importance_sampling_ratio/mean": 0.9812780380249023,
-      "sampling/importance_sampling_ratio/min": 0.3998015284538269,
-      "sampling/sampling_logp_difference/max": 0.8225874900817871,
-      "sampling/sampling_logp_difference/mean": 0.057265565544366834,
       "step": 50,
-      "step_time": 3.4821775794000134
     },
     {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 374.0,
-      "completions/max_terminated_length": 374.0,
-      "completions/mean_length": 284.0375,
-      "completions/mean_terminated_length": 284.0375,
-      "completions/min_length": 206.8,
-      "completions/min_terminated_length": 206.8,
-      "entropy": 0.23580820970237254,
       "epoch": 0.0088,
-      "frac_reward_zero_std": 0.7875,
-      "grad_norm": 0.4765625,
-      "kl": 0.6652570061385632,
       "learning_rate": 9.950621020743173e-06,
-      "loss": 8.13461490906775e-05,
-      "num_tokens": 1483464.0,
-      "reward": 0.05993750244379044,
-      "reward_std": 0.08494120314717293,
-      "rewards/env_goofspiel_reward/mean": 0.05993750244379044,
-      "rewards/env_goofspiel_reward/std": 0.18124795854091644,
-      "sampling/importance_sampling_ratio/max": 1.8012218236923219,
-      "sampling/importance_sampling_ratio/mean": 0.9974164485931396,
-      "sampling/importance_sampling_ratio/min": 0.6288759648799896,
-      "sampling/sampling_logp_difference/max": 0.6000619411468506,
-      "sampling/sampling_logp_difference/mean": 0.03408294580876827,
       "step": 55,
-      "step_time": 3.518262126200534
     },
     {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 373.8,
-      "completions/max_terminated_length": 373.8,
-      "completions/mean_length": 294.53125,
-      "completions/mean_terminated_length": 294.53125,
-      "completions/min_length": 219.0,
-      "completions/min_terminated_length": 219.0,
-      "entropy": 0.06949742138385773,
       "epoch": 0.0096,
-      "frac_reward_zero_std": 0.8125,
-      "grad_norm": 0.033447265625,
-      "kl": 0.8152253001928329,
       "learning_rate": 9.950609717322956e-06,
-      "loss": 0.00011886359425261617,
-      "num_tokens": 1618570.0,
-      "reward": 0.07500000223517418,
-      "reward_std": 0.08485281318426133,
-      "rewards/env_goofspiel_reward/mean": 0.07500000223517418,
-      "rewards/env_goofspiel_reward/std": 0.1962749719619751,
-      "sampling/importance_sampling_ratio/max": 1.434102201461792,
-      "sampling/importance_sampling_ratio/mean": 1.0074862837791443,
-      "sampling/importance_sampling_ratio/min": 0.8809547781944275,
-      "sampling/sampling_logp_difference/max": 0.35270476043224336,
-      "sampling/sampling_logp_difference/mean": 0.007789037330076099,
       "step": 60,
-      "step_time": 3.4527530410003235
     },
     {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 445.2,
-      "completions/max_terminated_length": 445.2,
-      "completions/mean_length": 325.83125,
-      "completions/mean_terminated_length": 325.83125,
-      "completions/min_length": 251.2,
-      "completions/min_terminated_length": 251.2,
-      "entropy": 0.08617601059377193,
       "epoch": 0.0104,
-      "frac_reward_zero_std": 0.875,
-      "grad_norm": 0.018798828125,
-      "kl": 0.7552784413099289,
       "learning_rate": 9.950595785216067e-06,
-      "loss": 0.00014277141308411957,
-      "num_tokens": 1755265.0,
-      "reward": 0.03750000149011612,
-      "reward_std": 0.0530330091714859,
-      "rewards/env_goofspiel_reward/mean": 0.03750000149011612,
-      "rewards/env_goofspiel_reward/std": 0.13009902238845825,
-      "sampling/importance_sampling_ratio/max": 1.3271136283874512,
-      "sampling/importance_sampling_ratio/mean": 1.004535722732544,
-      "sampling/importance_sampling_ratio/min": 0.7700567066669464,
-      "sampling/sampling_logp_difference/max": 0.3696352869272232,
-      "sampling/sampling_logp_difference/mean": 0.008786045084707438,
       "step": 65,
-      "step_time": 3.861200922199896
     },
     {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 732.0,
-      "completions/max_terminated_length": 732.0,
-      "completions/mean_length": 544.625,
-      "completions/mean_terminated_length": 544.625,
-      "completions/min_length": 383.6,
-      "completions/min_terminated_length": 383.6,
-      "entropy": 0.33896628841757775,
       "epoch": 0.0112,
-      "frac_reward_zero_std": 0.75,
-      "grad_norm": 0.2109375,
-      "kl": 1.354549203068018,
       "learning_rate": 9.950579224432321e-06,
-      "loss": 0.00035492791794240476,
-      "num_tokens": 1929034.0,
-      "reward": 0.04277083389461041,
-      "reward_std": 0.061901307106018065,
-      "rewards/env_goofspiel_reward/mean": 0.04277083389461041,
-      "rewards/env_goofspiel_reward/std": 0.14327263236045837,
-      "sampling/importance_sampling_ratio/max": 1.457657814025879,
-      "sampling/importance_sampling_ratio/mean": 0.9943998098373413,
-      "sampling/importance_sampling_ratio/min": 0.6945780634880065,
-      "sampling/sampling_logp_difference/max": 0.450562047958374,
-      "sampling/sampling_logp_difference/mean": 0.02044728323817253,
       "step": 70,
-      "step_time": 5.568116331400051
     },
     {
       "clip_ratio/high_max": 0.0,
       "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 731.6,
-      "completions/max_terminated_length": 731.6,
-      "completions/mean_length": 564.09375,
-      "completions/mean_terminated_length": 564.09375,
-      "completions/min_length": 408.0,
-      "completions/min_terminated_length": 408.0,
-      "entropy": 0.490242238342762,
       "epoch": 0.012,
-      "frac_reward_zero_std": 0.625,
-      "grad_norm": 0.17578125,
-      "kl": 0.48342139422893526,
       "learning_rate": 9.950560034983382e-06,
-      "loss": 0.00017674852861091495,
-      "num_tokens": 2107362.0,
-      "reward": 0.055687499977648255,
-      "reward_std": 0.07409889809787273,
-      "rewards/env_goofspiel_reward/mean": 0.055687499977648255,
-      "rewards/env_goofspiel_reward/std": 0.16855775713920593,
-      "sampling/importance_sampling_ratio/max": 1.2386622190475465,
-      "sampling/importance_sampling_ratio/mean": 0.9834899187088013,
-      "sampling/importance_sampling_ratio/min": 0.776045274734497,
-      "sampling/sampling_logp_difference/max": 0.22788455486297607,
-      "sampling/sampling_logp_difference/mean": 0.01976088173687458,
       "step": 75,
-      "step_time": 5.500796792399524
     },
     {
       "epoch": 0.012,
@@ -512,525 +512,525 @@
       "eval_clip_ratio/low_min": 0.0,
       "eval_clip_ratio/region_mean": 0.0,
       "eval_completions/clipped_ratio": 0.0,
-      "eval_completions/max_length": 614.4,
-      "eval_completions/max_terminated_length": 614.4,
-      "eval_completions/mean_length": 572.65,
-      "eval_completions/mean_terminated_length": 572.65,
-      "eval_completions/min_length": 531.8,
-      "eval_completions/min_terminated_length": 531.8,
-      "eval_entropy": 0.5134166538715362,
-      "eval_frac_reward_zero_std": 0.8,
-      "eval_kl": 0.5596067428588867,
-      "eval_loss": -1.7431222659070045e-05,
-      "eval_num_tokens": 2107362.0,
-      "eval_reward": 0.021166666876524687,
-      "eval_reward_std": 0.03134840028360486,
-      "eval_rewards/env_goofspiel_reward/mean": 0.021166666876524687,
-      "eval_rewards/env_goofspiel_reward/std": 0.04433333072811365,
-      "eval_runtime": 2.6749,
-      "eval_samples_per_second": 3.738,
-      "eval_sampling/importance_sampling_ratio/max": 1.0850860834121705,
-      "eval_sampling/importance_sampling_ratio/mean": 1.0015697360038758,
-      "eval_sampling/importance_sampling_ratio/min": 0.9188181281089782,
-      "eval_sampling/sampling_logp_difference/max": 0.10906529426574707,
-      "eval_sampling/sampling_logp_difference/mean": 0.017179742455482483,
-      "eval_steps_per_second": 1.122,
       "step": 75
     },
     {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 733.2,
-      "completions/max_terminated_length": 733.2,
-      "completions/mean_length": 549.075,
-      "completions/mean_terminated_length": 549.075,
-      "completions/min_length": 395.8,
-      "completions/min_terminated_length": 395.8,
-      "entropy": 0.527910877764225,
       "epoch": 0.0128,
-      "frac_reward_zero_std": 0.7,
-      "grad_norm": 0.255859375,
-      "kl": 0.47208923250436785,
       "learning_rate": 9.95053821688277e-06,
-      "loss": 0.0007011178880929947,
-      "num_tokens": 2282715.0,
-      "reward": 0.05902083367109299,
-      "reward_std": 0.07722195237874985,
-      "rewards/env_goofspiel_reward/mean": 0.05902083367109299,
-      "rewards/env_goofspiel_reward/std": 0.15880293548107147,
-      "sampling/importance_sampling_ratio/max": 1.3604092836380004,
-      "sampling/importance_sampling_ratio/mean": 1.0046632289886475,
-      "sampling/importance_sampling_ratio/min": 0.7511004090309144,
-      "sampling/sampling_logp_difference/max": 0.3062611103057861,
-      "sampling/sampling_logp_difference/mean": 0.022707394510507583,
       "step": 80,
-      "step_time": 5.533078667399787
     },
     {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 732.2,
-      "completions/max_terminated_length": 732.2,
-      "completions/mean_length": 561.8875,
-      "completions/mean_terminated_length": 561.8875,
-      "completions/min_length": 408.0,
-      "completions/min_terminated_length": 408.0,
-      "entropy": 0.46153847873210907,
       "epoch": 0.0136,
-      "frac_reward_zero_std": 0.825,
-      "grad_norm": 0.095703125,
-      "kl": 0.5197702750563622,
       "learning_rate": 9.950513770145857e-06,
-      "loss": 0.00010828666854649782,
-      "num_tokens": 2459616.0,
-      "reward": 0.04585416615009308,
-      "reward_std": 0.057717590034008025,
-      "rewards/env_goofspiel_reward/mean": 0.04585416615009308,
-      "rewards/env_goofspiel_reward/std": 0.1589788019657135,
-      "sampling/importance_sampling_ratio/max": 1.5443368434906006,
-      "sampling/importance_sampling_ratio/mean": 1.0077369570732118,
-      "sampling/importance_sampling_ratio/min": 0.7487894654273987,
-      "sampling/sampling_logp_difference/max": 0.36205780506134033,
-      "sampling/sampling_logp_difference/mean": 0.021098615229129793,
       "step": 85,
-      "step_time": 5.460692007999751
     },
     {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 732.0,
-      "completions/max_terminated_length": 732.0,
-      "completions/mean_length": 581.36875,
-      "completions/mean_terminated_length": 581.36875,
-      "completions/min_length": 408.0,
-      "completions/min_terminated_length": 408.0,
-      "entropy": 0.48351355642080307,
       "epoch": 0.0144,
-      "frac_reward_zero_std": 0.8375,
-      "grad_norm": 0.1630859375,
-      "kl": 0.6207657802850008,
       "learning_rate": 9.950486694789862e-06,
-      "loss": 0.00018907544435933232,
-      "num_tokens": 2641146.0,
-      "reward": 0.026770833879709244,
-      "reward_std": 0.03856678232550621,
-      "rewards/env_goofspiel_reward/mean": 0.026770833879709244,
-      "rewards/env_goofspiel_reward/std": 0.10960558950901031,
-      "sampling/importance_sampling_ratio/max": 1.2647137641906738,
-      "sampling/importance_sampling_ratio/mean": 1.004696297645569,
-      "sampling/importance_sampling_ratio/min": 0.7099822998046875,
-      "sampling/sampling_logp_difference/max": 0.2817555904388428,
-      "sampling/sampling_logp_difference/mean": 0.022446612268686293,
       "step": 90,
-      "step_time": 5.498646953999923
     },
     {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 732.0,
-      "completions/max_terminated_length": 732.0,
-      "completions/mean_length": 549.825,
-      "completions/mean_terminated_length": 549.825,
-      "completions/min_length": 408.0,
-      "completions/min_terminated_length": 408.0,
-      "entropy": 0.5179941833019257,
       "epoch": 0.0152,
-      "frac_reward_zero_std": 0.8125,
-      "grad_norm": 0.0908203125,
-      "kl": 0.46866228580474856,
       "learning_rate": 9.95045699083386e-06,
-      "loss": 0.00028545891400426625,
-      "num_tokens": 2815323.0,
-      "reward": 0.03772916682064533,
-      "reward_std": 0.05388742834329605,
-      "rewards/env_goofspiel_reward/mean": 0.03772916682064533,
-      "rewards/env_goofspiel_reward/std": 0.13617317676544188,
-      "sampling/importance_sampling_ratio/max": 1.2603100776672362,
-      "sampling/importance_sampling_ratio/mean": 1.0017661929130555,
-      "sampling/importance_sampling_ratio/min": 0.7478124976158143,
-      "sampling/sampling_logp_difference/max": 0.25655815601348875,
-      "sampling/sampling_logp_difference/mean": 0.023887046799063682,
       "step": 95,
-      "step_time": 5.659158172999559
     },
     {
       "clip_ratio/high_max": 0.0,
       "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 1003.6,
-      "completions/max_terminated_length": 1003.6,
-      "completions/mean_length": 754.59375,
-      "completions/mean_terminated_length": 754.59375,
-      "completions/min_length": 550.8,
-      "completions/min_terminated_length": 550.8,
-      "entropy": 0.5820856660604476,
       "epoch": 0.016,
-      "frac_reward_zero_std": 0.8125,
-      "grad_norm": 0.171875,
-      "kl": 0.4048814922571182,
       "learning_rate": 9.950424658298776e-06,
-      "loss": 0.0002957838121801615,
-      "num_tokens": 3022802.0,
-      "reward": 0.03360416684299707,
-      "reward_std": 0.0420433908700943,
-      "rewards/env_goofspiel_reward/mean": 0.03360416684299707,
-      "rewards/env_goofspiel_reward/std": 0.12295188903808593,
-      "sampling/importance_sampling_ratio/max": 1.3984624147415161,
-      "sampling/importance_sampling_ratio/mean": 0.980130672454834,
-      "sampling/importance_sampling_ratio/min": 0.6590921759605408,
-      "sampling/sampling_logp_difference/max": 0.3471600294113159,
-      "sampling/sampling_logp_difference/mean": 0.02802230753004551,
       "step": 100,
-      "step_time": 7.31073631659965
     },
     {
       "clip_ratio/high_max": 0.0,
       "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 1075.0,
-      "completions/max_terminated_length": 1075.0,
-      "completions/mean_length": 814.73125,
-      "completions/mean_terminated_length": 814.73125,
-      "completions/min_length": 590.0,
-      "completions/min_terminated_length": 590.0,
-      "entropy": 0.6229563593864441,
       "epoch": 0.0168,
-      "frac_reward_zero_std": 0.775,
-      "grad_norm": 0.09326171875,
-      "kl": 0.4244683228433132,
       "learning_rate": 9.950389697207388e-06,
-      "loss": 0.00020875066984444858,
-      "num_tokens": 3239290.0,
-      "reward": 0.038875000365078446,
-      "reward_std": 0.049674246832728385,
-      "rewards/env_goofspiel_reward/mean": 0.038875000365078446,
-      "rewards/env_goofspiel_reward/std": 0.11504672318696976,
-      "sampling/importance_sampling_ratio/max": 1.3492220401763917,
-      "sampling/importance_sampling_ratio/mean": 0.9891064882278442,
-      "sampling/importance_sampling_ratio/min": 0.5561659098671476,
-      "sampling/sampling_logp_difference/max": 4.213754487037659,
-      "sampling/sampling_logp_difference/mean": 0.044166411831974985,
       "step": 105,
-      "step_time": 7.745885893800368
     },
     {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 1075.6,
-      "completions/max_terminated_length": 1075.6,
-      "completions/mean_length": 814.6375,
-      "completions/mean_terminated_length": 814.6375,
-      "completions/min_length": 590.0,
-      "completions/min_terminated_length": 590.0,
-      "entropy": 0.6465200364589692,
       "epoch": 0.0176,
-      "frac_reward_zero_std": 0.7875,
-      "grad_norm": 0.007080078125,
-      "kl": 0.3995703622698784,
       "learning_rate": 9.950352107584324e-06,
-      "loss": 0.0007265920285135508,
-      "num_tokens": 3456558.0,
-      "reward": 0.023437499813735486,
-      "reward_std": 0.03473661988973618,
-      "rewards/env_goofspiel_reward/mean": 0.023437499813735486,
-      "rewards/env_goofspiel_reward/std": 0.0773700624704361,
-      "sampling/importance_sampling_ratio/max": 1.4152228832244873,
-      "sampling/importance_sampling_ratio/mean": 0.9911394953727722,
-      "sampling/importance_sampling_ratio/min": 0.4911388456960605,
-      "sampling/sampling_logp_difference/max": 4.677203369140625,
-      "sampling/sampling_logp_difference/mean": 0.04649800434708595,
       "step": 110,
-      "step_time": 7.710595274399202
     },
     {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 1075.0,
-      "completions/max_terminated_length": 1075.0,
-      "completions/mean_length": 831.425,
-      "completions/mean_terminated_length": 831.425,
-      "completions/min_length": 590.0,
-      "completions/min_terminated_length": 590.0,
-      "entropy": 0.6319158881902694,
       "epoch": 0.0184,
-      "frac_reward_zero_std": 0.7625,
-      "grad_norm": 0.30078125,
-      "kl": 0.4417851775884628,
       "learning_rate": 9.950311889456064e-06,
-      "loss": -0.00014657191932201385,
-      "num_tokens": 3677316.0,
-      "reward": 0.03468749914318323,
-      "reward_std": 0.0499394167214632,
-      "rewards/env_goofspiel_reward/mean": 0.03468749914318323,
-      "rewards/env_goofspiel_reward/std": 0.10438641458749771,
-      "sampling/importance_sampling_ratio/max": 1.4034383773803711,
-      "sampling/importance_sampling_ratio/mean": 1.003822433948517,
-      "sampling/importance_sampling_ratio/min": 0.7400717735290527,
-      "sampling/sampling_logp_difference/max": 0.2535316705703735,
-      "sampling/sampling_logp_difference/mean": 0.02623956575989723,
       "step": 115,
-      "step_time": 7.7139906279999195
     },
     {
       "clip_ratio/high_max": 0.0,
       "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 1075.2,
-      "completions/max_terminated_length": 1075.2,
-      "completions/mean_length": 809.6125,
-      "completions/mean_terminated_length": 809.6125,
-      "completions/min_length": 578.0,
-      "completions/min_terminated_length": 578.0,
-      "entropy": 0.6280775606632233,
       "epoch": 0.0192,
-      "frac_reward_zero_std": 0.825,
-      "grad_norm": 0.1328125,
-      "kl": 0.39189435467123984,
       "learning_rate": 9.950269042850943e-06,
-      "loss": 0.00020067014265805482,
-      "num_tokens": 3893277.0,
-      "reward": 0.028249999321997166,
-      "reward_std": 0.0342946782708168,
-      "rewards/env_goofspiel_reward/mean": 0.028249999321997166,
-      "rewards/env_goofspiel_reward/std": 0.10060491263866425,
-      "sampling/importance_sampling_ratio/max": 1.449436855316162,
-      "sampling/importance_sampling_ratio/mean": 0.9966808676719665,
-      "sampling/importance_sampling_ratio/min": 0.6293053507804871,
-      "sampling/sampling_logp_difference/max": 0.3306601524353027,
-      "sampling/sampling_logp_difference/mean": 0.027687131240963937,
       "step": 120,
-      "step_time": 7.60252943919968
     },
     {
       "clip_ratio/high_max": 0.0,
       "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 1075.0,
-      "completions/max_terminated_length": 1075.0,
-      "completions/mean_length": 831.9125,
-      "completions/mean_terminated_length": 831.9125,
-      "completions/min_length": 590.0,
-      "completions/min_terminated_length": 590.0,
-      "entropy": 0.6203011125326157,
       "epoch": 0.02,
-      "frac_reward_zero_std": 0.8,
-      "grad_norm": 0.0888671875,
-      "kl": 0.48651044964790346,
       "learning_rate": 9.95022356779914e-06,
-      "loss": -4.498030175454914e-05,
-      "num_tokens": 4114505.0,
-      "reward": 0.0279999990016222,
-      "reward_std": 0.04065863937139511,
-      "rewards/env_goofspiel_reward/mean": 0.0279999990016222,
-      "rewards/env_goofspiel_reward/std": 0.09859532788395882,
-      "sampling/importance_sampling_ratio/max": 1.3767565965652466,
-      "sampling/importance_sampling_ratio/mean": 1.0073092341423036,
-      "sampling/importance_sampling_ratio/min": 0.6863486647605896,
-      "sampling/sampling_logp_difference/max": 0.2979677677154541,
-      "sampling/sampling_logp_difference/mean": 0.026996534690260886,
       "step": 125,
-      "step_time": 7.651589208400037
     },
     {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 1206.4,
-      "completions/max_terminated_length": 1206.4,
-      "completions/mean_length": 933.89375,
-      "completions/mean_terminated_length": 933.89375,
-      "completions/min_length": 657.2,
-      "completions/min_terminated_length": 657.2,
-      "entropy": 0.6028641879558563,
       "epoch": 0.0208,
-      "frac_reward_zero_std": 0.85,
-      "grad_norm": 0.12890625,
-      "kl": 0.3837214097380638,
       "learning_rate": 9.950175464332696e-06,
-      "loss": 3.275293856859207e-05,
-      "num_tokens": 4351587.0,
-      "reward": 0.02824999988079071,
-      "reward_std": 0.040128308534622195,
-      "rewards/env_goofspiel_reward/mean": 0.02824999988079071,
-      "rewards/env_goofspiel_reward/std": 0.107171730697155,
-      "sampling/importance_sampling_ratio/max": 1.4337808609008789,
-      "sampling/importance_sampling_ratio/mean": 1.0062252044677735,
-      "sampling/importance_sampling_ratio/min": 0.7049606084823609,
-      "sampling/sampling_logp_difference/max": 0.29388277530670165,
-      "sampling/sampling_logp_difference/mean": 0.027071699127554895,
       "step": 130,
-      "step_time": 8.72059853139981
     },
     {
       "clip_ratio/high_max": 0.0,
       "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 1403.2,
-      "completions/max_terminated_length": 1403.2,
-      "completions/mean_length": 1043.53125,
-      "completions/mean_terminated_length": 1043.53125,
-      "completions/min_length": 758.0,
-      "completions/min_terminated_length": 758.0,
-      "entropy": 0.5716616868972778,
       "epoch": 0.0216,
-      "frac_reward_zero_std": 0.825,
-      "grad_norm": 0.11865234375,
-      "kl": 0.3439621731638908,
       "learning_rate": 9.950124732485496e-06,
-      "loss": -0.00015461102593690158,
-      "num_tokens": 4604604.0,
-      "reward": 0.02993750013411045,
-      "reward_std": 0.04251479506492615,
-      "rewards/env_goofspiel_reward/mean": 0.02993750013411045,
-      "rewards/env_goofspiel_reward/std": 0.10386608839035034,
-      "sampling/importance_sampling_ratio/max": 1.560789942741394,
-      "sampling/importance_sampling_ratio/mean": 1.0229114413261413,
-      "sampling/importance_sampling_ratio/min": 0.656338346004486,
-      "sampling/sampling_logp_difference/max": 0.33734931945800783,
-      "sampling/sampling_logp_difference/mean": 0.026270415633916855,
       "step": 135,
-      "step_time": 10.42263705259993
     },
     {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 1404.2,
-      "completions/max_terminated_length": 1404.2,
-      "completions/mean_length": 1106.9125,
-      "completions/mean_terminated_length": 1106.9125,
-      "completions/min_length": 746.4,
-      "completions/min_terminated_length": 746.4,
-      "entropy": 0.6015262037515641,
       "epoch": 0.0224,
-      "frac_reward_zero_std": 0.7875,
-      "grad_norm": 0.1142578125,
-      "kl": 0.4554178059101105,
       "learning_rate": 9.95007137229328e-06,
-      "loss": 4.9450411461293696e-05,
-      "num_tokens": 4870794.0,
-      "reward": 0.02393750089686364,
-      "reward_std": 0.03491339806932956,
-      "rewards/env_goofspiel_reward/mean": 0.02393750089686364,
-      "rewards/env_goofspiel_reward/std": 0.07218290558084846,
-      "sampling/importance_sampling_ratio/max": 1.4548166275024415,
-      "sampling/importance_sampling_ratio/mean": 0.9814130544662476,
-      "sampling/importance_sampling_ratio/min": 0.6002501428127289,
-      "sampling/sampling_logp_difference/max": 0.33309857845306395,
-      "sampling/sampling_logp_difference/mean": 0.028818363696336745,
       "step": 140,
-      "step_time": 10.392815717999474
     },
     {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
-      "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 1403.4,
-      "completions/max_terminated_length": 1403.4,
-      "completions/mean_length": 1064.275,
-      "completions/mean_terminated_length": 1064.275,
-      "completions/min_length": 746.6,
-      "completions/min_terminated_length": 746.6,
-      "entropy": 0.5568872570991517,
       "epoch": 0.0232,
-      "frac_reward_zero_std": 0.775,
-      "grad_norm": 0.2041015625,
-      "kl": 0.3555284239351749,
       "learning_rate": 9.950015383793636e-06,
-      "loss": -0.00010267798788845539,
-      "num_tokens": 5127626.0,
-      "reward": 0.03343750163912773,
-      "reward_std": 0.04799487330019474,
-      "rewards/env_goofspiel_reward/mean": 0.03343750163912773,
-      "rewards/env_goofspiel_reward/std": 0.10812449753284455,
-      "sampling/importance_sampling_ratio/max": 1.587186908721924,
-      "sampling/importance_sampling_ratio/mean": 1.0198248624801636,
-      "sampling/importance_sampling_ratio/min": 0.7297749638557434,
-      "sampling/sampling_logp_difference/max": 0.2695728540420532,
-      "sampling/sampling_logp_difference/mean": 0.0254237774759531,
       "step": 145,
-      "step_time": 10.32607021879976
     },
     {
-      "clip_ratio/high_max": 0.0,
-      "clip_ratio/high_mean": 0.0,
-      "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 1400.4,
-      "completions/max_terminated_length": 1400.4,
-      "completions/mean_length": 1040.89375,
-      "completions/mean_terminated_length": 1040.89375,
-      "completions/min_length": 758.0,
-      "completions/min_terminated_length": 758.0,
-      "entropy": 0.5438663050532341,
       "epoch": 0.024,
-      "frac_reward_zero_std": 0.8,
-      "grad_norm": 0.11181640625,
-      "kl": 0.313924690335989,
       "learning_rate": 9.949956767026006e-06,
-      "loss": 0.0002234043786302209,
-      "num_tokens": 5379923.0,
-      "reward": 0.03181250132620335,
-      "reward_std": 0.0451664462685585,
-      "rewards/env_goofspiel_reward/mean": 0.03181250132620335,
-      "rewards/env_goofspiel_reward/std": 0.10608797073364258,
-      "sampling/importance_sampling_ratio/max": 1.3631083726882935,
-      "sampling/importance_sampling_ratio/mean": 1.0006531119346618,
-      "sampling/importance_sampling_ratio/min": 0.691138219833374,
-      "sampling/sampling_logp_difference/max": 0.26457092761993406,
-      "sampling/sampling_logp_difference/mean": 0.024369171261787413,
       "step": 150,
-      "step_time": 10.337828036600513
     },
     {
       "epoch": 0.024,
@@ -1040,68 +1040,101 @@
       "eval_clip_ratio/low_min": 0.0,
       "eval_clip_ratio/region_mean": 0.0,
       "eval_completions/clipped_ratio": 0.0,
-      "eval_completions/max_length": 1167.6,
-      "eval_completions/max_terminated_length": 1167.6,
-      "eval_completions/mean_length": 1085.75,
-      "eval_completions/mean_terminated_length": 1085.75,
-      "eval_completions/min_length": 1003.6,
-      "eval_completions/min_terminated_length": 1003.6,
-      "eval_entropy": 0.5619663238525391,
-      "eval_frac_reward_zero_std": 0.9,
-      "eval_kl": 0.4370845973491669,
-      "eval_loss": -0.00014827963605057448,
-      "eval_num_tokens": 5379923.0,
-      "eval_reward": -0.0004999999888241291,
-      "eval_reward_std": 0.0007071067579090595,
-      "eval_rewards/env_goofspiel_reward/mean": -0.0004999999888241291,
-      "eval_rewards/env_goofspiel_reward/std": 0.0009999999776482583,
-      "eval_runtime": 4.3907,
-      "eval_samples_per_second": 2.278,
-      "eval_sampling/importance_sampling_ratio/max": 1.2002264738082886,
-      "eval_sampling/importance_sampling_ratio/mean": 1.0190080761909486,
-      "eval_sampling/importance_sampling_ratio/min": 0.8775287628173828,
-      "eval_sampling/sampling_logp_difference/max": 0.19612762928009034,
-      "eval_sampling/sampling_logp_difference/mean": 0.025080177932977676,
-      "eval_steps_per_second": 0.683,
       "step": 150
     },
     {
-      "epoch": 0.02432,
       "eval_clip_ratio/high_max": 0.0,
       "eval_clip_ratio/high_mean": 0.0,
       "eval_clip_ratio/low_mean": 0.0,
       "eval_clip_ratio/low_min": 0.0,
       "eval_clip_ratio/region_mean": 0.0,
       "eval_completions/clipped_ratio": 0.0,
-      "eval_completions/max_length": 1166.0,
-      "eval_completions/max_terminated_length": 1166.0,
-      "eval_completions/mean_length": 1082.75,
-      "eval_completions/mean_terminated_length": 1082.75,
-      "eval_completions/min_length": 999.8,
-      "eval_completions/min_terminated_length": 999.8,
-      "eval_entropy": 0.5707040071487427,
-      "eval_frac_reward_zero_std": 1.0,
-      "eval_kl": 0.40999372601509093,
-      "eval_loss": 3.846790423267521e-05,
-      "eval_num_tokens": 5476501.0,
-      "eval_reward": 0.06000000238418579,
-      "eval_reward_std": 0.0,
-      "eval_rewards/env_goofspiel_reward/mean": 0.06000000238418579,
-      "eval_rewards/env_goofspiel_reward/std": 0.06928203105926514,
-      "eval_runtime": 4.0973,
-      "eval_samples_per_second": 2.441,
-      "eval_sampling/importance_sampling_ratio/max": 1.1712106943130494,
-      "eval_sampling/importance_sampling_ratio/mean": 1.011259377002716,
-      "eval_sampling/importance_sampling_ratio/min": 0.8288854002952576,
-      "eval_sampling/sampling_logp_difference/max": 0.17412886619567872,
-      "eval_sampling/sampling_logp_difference/mean": 0.024767952039837837,
-      "eval_steps_per_second": 0.732,
-      "step": 152
     }
   ],
   "logging_steps": 5,
   "max_steps": 18750,
-  "num_input_tokens_seen": 5476501,
   "num_train_epochs": 3,
   "save_steps": 500,
   "stateful_callbacks": {
@@ -1117,7 +1150,7 @@
     }
   },
   "total_flos": 0.0,
-  "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null
 }

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.02496,
   "eval_steps": 500,
+  "global_step": 156,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "clip_ratio/high_max": 0.01656746044754982,
+      "clip_ratio/high_mean": 0.00828373022377491,
+      "clip_ratio/low_mean": 0.009885329194366932,
+      "clip_ratio/low_min": 0.002380952425301075,
+      "clip_ratio/region_mean": 0.018169059325009583,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 373.8,
+      "completions/max_terminated_length": 373.8,
+      "completions/mean_length": 296.71875,
+      "completions/mean_terminated_length": 296.71875,
+      "completions/min_length": 206.8,
+      "completions/min_terminated_length": 206.8,
+      "entropy": 0.35859955847263336,
       "epoch": 0.0008,
+      "frac_reward_zero_std": 0.475,
+      "grad_norm": 0.11806713044643402,
+      "kl": 0.010710475360974669,
       "learning_rate": 1.137216e-06,
+      "loss": 0.00025553270243108275,
+      "num_tokens": 136400.0,
+      "reward": 0.2433750033378601,
+      "reward_std": 0.22857226729393004,
+      "rewards/env_goofspiel_reward/mean": 0.2433750033378601,
+      "rewards/env_goofspiel_reward/std": 0.3573280215263367,
+      "sampling/importance_sampling_ratio/max": 1.642977237701416,
+      "sampling/importance_sampling_ratio/mean": 0.9299223780632019,
+      "sampling/importance_sampling_ratio/min": 0.2294576272368431,
+      "sampling/sampling_logp_difference/max": 1.239228868484497,
+      "sampling/sampling_logp_difference/mean": 0.08511904180049897,
       "step": 5,
+      "step_time": 5.990162861399949
     },
     {
+      "clip_ratio/high_max": 0.03551879096776247,
+      "clip_ratio/high_mean": 0.019321895483881236,
+      "clip_ratio/low_mean": 0.010304330103099345,
       "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.02962622568011284,
       "completions/clipped_ratio": 0.0,
       "completions/max_length": 374.0,
       "completions/max_terminated_length": 374.0,
+      "completions/mean_length": 291.0,
+      "completions/mean_terminated_length": 291.0,
+      "completions/min_length": 199.6,
+      "completions/min_terminated_length": 199.6,
+      "entropy": 0.3628120839595795,
       "epoch": 0.0016,
+      "frac_reward_zero_std": 0.425,
+      "grad_norm": 0.11497774720191956,
+      "kl": 0.014784016623161733,
       "learning_rate": 2.5587359999999995e-06,
+      "loss": 0.0005161482840776443,
+      "num_tokens": 271519.0,
+      "reward": 0.3373125076293945,
+      "reward_std": 0.28646664023399354,
+      "rewards/env_goofspiel_reward/mean": 0.3373125076293945,
+      "rewards/env_goofspiel_reward/std": 0.39762375950813295,
+      "sampling/importance_sampling_ratio/max": 2.0244646072387695,
+      "sampling/importance_sampling_ratio/mean": 0.95240398645401,
+      "sampling/importance_sampling_ratio/min": 0.3043131291866302,
+      "sampling/sampling_logp_difference/max": 1.4355120182037353,
+      "sampling/sampling_logp_difference/mean": 0.08179195821285248,
       "step": 10,
+      "step_time": 5.4302939728002455
     },
     {
+      "clip_ratio/high_max": 0.020830108411610128,
+      "clip_ratio/high_mean": 0.01188564244657755,
+      "clip_ratio/low_mean": 0.015411754604429007,
+      "clip_ratio/low_min": 0.004805492050945759,
+      "clip_ratio/region_mean": 0.0272973969578743,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 374.0,
+      "completions/max_terminated_length": 374.0,
+      "completions/mean_length": 282.2875,
+      "completions/mean_terminated_length": 282.2875,
+      "completions/min_length": 189.6,
+      "completions/min_terminated_length": 189.6,
+      "entropy": 0.35702232643961906,
       "epoch": 0.0024,
+      "frac_reward_zero_std": 0.4875,
+      "grad_norm": 0.15851116180419922,
+      "kl": 0.03802298142109066,
       "learning_rate": 3.9802559999999995e-06,
+      "loss": -8.745418745093048e-05,
+      "num_tokens": 404021.0,
+      "reward": 0.30337501466274264,
+      "reward_std": 0.2497854709625244,
+      "rewards/env_goofspiel_reward/mean": 0.30337501466274264,
+      "rewards/env_goofspiel_reward/std": 0.37030403017997743,
+      "sampling/importance_sampling_ratio/max": 1.8557178020477294,
+      "sampling/importance_sampling_ratio/mean": 0.9347150444984436,
+      "sampling/importance_sampling_ratio/min": 0.2671460062265396,
+      "sampling/sampling_logp_difference/max": 1.3799697399139403,
+      "sampling/sampling_logp_difference/mean": 0.08675528764724731,
       "step": 15,
+      "step_time": 5.612129885600188
     },
     {
+      "clip_ratio/high_max": 0.017504085041582584,
+      "clip_ratio/high_mean": 0.010222630854696036,
+      "clip_ratio/low_mean": 0.016076818853616715,
+      "clip_ratio/low_min": 0.005441176518797874,
+      "clip_ratio/region_mean": 0.02629944970831275,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 373.8,
+      "completions/max_terminated_length": 373.8,
+      "completions/mean_length": 281.4375,
+      "completions/mean_terminated_length": 281.4375,
       "completions/min_length": 212.0,
       "completions/min_terminated_length": 212.0,
+      "entropy": 0.33125333562493325,
       "epoch": 0.0032,
+      "frac_reward_zero_std": 0.4875,
+      "grad_norm": 0.3056468069553375,
+      "kl": 0.2386752042453736,
       "learning_rate": 5.401775999999999e-06,
+      "loss": -0.00010562442475929857,
+      "num_tokens": 536239.0,
+      "reward": 0.33362500965595243,
+      "reward_std": 0.22821871638298036,
+      "rewards/env_goofspiel_reward/mean": 0.33362500965595243,
+      "rewards/env_goofspiel_reward/std": 0.3822357296943665,
+      "sampling/importance_sampling_ratio/max": 2.044223356246948,
+      "sampling/importance_sampling_ratio/mean": 0.9417648911476135,
+      "sampling/importance_sampling_ratio/min": 0.1664988785982132,
+      "sampling/sampling_logp_difference/max": 1.9717662334442139,
+      "sampling/sampling_logp_difference/mean": 0.09318876564502716,
       "step": 20,
+      "step_time": 5.200572347599882
     },
     {
+      "clip_ratio/high_max": 0.014910130761563778,
+      "clip_ratio/high_mean": 0.007455065380781889,
+      "clip_ratio/low_mean": 0.014673632569611073,
+      "clip_ratio/low_min": 0.005902777798473835,
+      "clip_ratio/region_mean": 0.02212869795039296,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 374.4,
+      "completions/max_terminated_length": 374.4,
+      "completions/mean_length": 300.20625,
+      "completions/mean_terminated_length": 300.20625,
+      "completions/min_length": 214.2,
+      "completions/min_terminated_length": 214.2,
+      "entropy": 0.3311316817998886,
       "epoch": 0.004,
+      "frac_reward_zero_std": 0.5,
+      "grad_norm": 0.24050310254096985,
+      "kl": 0.2951220686081797,
       "learning_rate": 6.8232959999999994e-06,
+      "loss": 0.00011087653692811727,
+      "num_tokens": 674105.0,
+      "reward": 0.3523750066757202,
+      "reward_std": 0.22291541397571563,
+      "rewards/env_goofspiel_reward/mean": 0.3523750066757202,
+      "rewards/env_goofspiel_reward/std": 0.39020044207572935,
+      "sampling/importance_sampling_ratio/max": 1.9415390253067017,
+      "sampling/importance_sampling_ratio/mean": 0.9240148186683654,
+      "sampling/importance_sampling_ratio/min": 0.07138497838750482,
+      "sampling/sampling_logp_difference/max": 2.9348490715026854,
+      "sampling/sampling_logp_difference/mean": 0.10956742316484451,
       "step": 25,
+      "step_time": 5.527079869400405
     },
     {
+      "clip_ratio/high_max": 0.012152777798473836,
+      "clip_ratio/high_mean": 0.006076388899236918,
+      "clip_ratio/low_mean": 0.01880923202261329,
+      "clip_ratio/low_min": 0.005718954280018807,
+      "clip_ratio/region_mean": 0.024885620921850204,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 373.4,
+      "completions/max_terminated_length": 373.4,
+      "completions/mean_length": 283.375,
+      "completions/mean_terminated_length": 283.375,
       "completions/min_length": 212.0,
       "completions/min_terminated_length": 212.0,
+      "entropy": 0.32351960614323616,
       "epoch": 0.0048,
+      "frac_reward_zero_std": 0.4125,
+      "grad_norm": 0.12574604153633118,
+      "kl": 0.5364798322319985,
       "learning_rate": 8.244816e-06,
+      "loss": -0.0002830292796716094,
+      "num_tokens": 805805.0,
+      "reward": 0.4162500202655792,
+      "reward_std": 0.30228814482688904,
+      "rewards/env_goofspiel_reward/mean": 0.4162500202655792,
+      "rewards/env_goofspiel_reward/std": 0.4285269021987915,
+      "sampling/importance_sampling_ratio/max": 2.1214988470077514,
+      "sampling/importance_sampling_ratio/mean": 0.9363813877105713,
+      "sampling/importance_sampling_ratio/min": 0.08070152997970581,
+      "sampling/sampling_logp_difference/max": 1.7284237623214722,
+      "sampling/sampling_logp_difference/mean": 0.1223350703716278,
       "step": 30,
+      "step_time": 5.215961435999452
     },
     {
+      "clip_ratio/high_max": 0.011638931930065155,
+      "clip_ratio/high_mean": 0.0058194659650325775,
+      "clip_ratio/low_mean": 0.01746001038700342,
+      "clip_ratio/low_min": 0.003125,
+      "clip_ratio/region_mean": 0.023279476352035998,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 366.0,
+      "completions/max_terminated_length": 366.0,
+      "completions/mean_length": 290.51875,
+      "completions/mean_terminated_length": 290.51875,
       "completions/min_length": 212.0,
       "completions/min_terminated_length": 212.0,
+      "entropy": 0.33921139910817144,
       "epoch": 0.0056,
+      "frac_reward_zero_std": 0.3875,
+      "grad_norm": 0.14579056203365326,
+      "kl": 0.4404270384460688,
       "learning_rate": 9.666336e-06,
+      "loss": -0.0004368364345282316,
+      "num_tokens": 940358.0,
+      "reward": 0.42375001311302185,
+      "reward_std": 0.3022881507873535,
+      "rewards/env_goofspiel_reward/mean": 0.42375001311302185,
+      "rewards/env_goofspiel_reward/std": 0.4120412886142731,
+      "sampling/importance_sampling_ratio/max": 2.12521378993988,
+      "sampling/importance_sampling_ratio/mean": 0.896282148361206,
+      "sampling/importance_sampling_ratio/min": 0.10518757700920105,
+      "sampling/sampling_logp_difference/max": 1.934821891784668,
+      "sampling/sampling_logp_difference/mean": 0.14520370960235596,
       "step": 35,
+      "step_time": 5.421745918600391
     },
     {
+      "clip_ratio/high_max": 0.010828081332147122,
+      "clip_ratio/high_mean": 0.005414040666073561,
+      "clip_ratio/low_mean": 0.02190126050263643,
+      "clip_ratio/low_min": 0.008496732078492641,
+      "clip_ratio/region_mean": 0.02731530126184225,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 374.4,
+      "completions/max_terminated_length": 374.4,
+      "completions/mean_length": 288.0625,
+      "completions/mean_terminated_length": 288.0625,
+      "completions/min_length": 196.8,
+      "completions/min_terminated_length": 196.8,
+      "entropy": 0.23345143683254718,
       "epoch": 0.0064,
+      "frac_reward_zero_std": 0.4,
+      "grad_norm": 0.07758636772632599,
+      "kl": 2.4490169264376163,
       "learning_rate": 9.95063915881342e-06,
+      "loss": -0.00021622611675411462,
+      "num_tokens": 1075088.0,
+      "reward": 0.49831252098083495,
+      "reward_std": 0.24987386167049408,
+      "rewards/env_goofspiel_reward/mean": 0.49831252098083495,
+      "rewards/env_goofspiel_reward/std": 0.39479002356529236,
+      "sampling/importance_sampling_ratio/max": 2.2193925380706787,
+      "sampling/importance_sampling_ratio/mean": 0.8783411741256714,
+      "sampling/importance_sampling_ratio/min": 0.005415213014930487,
+      "sampling/sampling_logp_difference/max": 3.553822565078735,
+      "sampling/sampling_logp_difference/mean": 0.16359376013278962,
       "step": 40,
+      "step_time": 5.113493552800537
     },
     {
+      "clip_ratio/high_max": 0.011822755448520184,
+      "clip_ratio/high_mean": 0.005911377724260092,
+      "clip_ratio/low_mean": 0.015286377724260091,
       "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.021197755355387926,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 374.2,
+      "completions/max_terminated_length": 374.2,
+      "completions/mean_length": 297.9,
+      "completions/mean_terminated_length": 297.9,
       "completions/min_length": 212.0,
       "completions/min_terminated_length": 212.0,
+      "entropy": 0.2887581422924995,
       "epoch": 0.0072,
+      "frac_reward_zero_std": 0.4375,
+      "grad_norm": 0.07674326002597809,
+      "kl": 1.0048415780067443,
       "learning_rate": 9.950635741493589e-06,
+      "loss": -0.0004248165525496006,
+      "num_tokens": 1212402.0,
+      "reward": 0.5099375128746033,
+      "reward_std": 0.24404022693634034,
+      "rewards/env_goofspiel_reward/mean": 0.5099375128746033,
+      "rewards/env_goofspiel_reward/std": 0.3780271291732788,
+      "sampling/importance_sampling_ratio/max": 2.1818215370178224,
+      "sampling/importance_sampling_ratio/mean": 0.8968270421028137,
+      "sampling/importance_sampling_ratio/min": 0.040483005344867706,
+      "sampling/sampling_logp_difference/max": 2.9256459712982177,
+      "sampling/sampling_logp_difference/mean": 0.14963440895080565,
       "step": 45,
+      "step_time": 5.549473219600077
     },
     {
+      "clip_ratio/high_max": 0.014889705926179886,
+      "clip_ratio/high_mean": 0.007444852963089943,
+      "clip_ratio/low_mean": 0.009685134887695313,
+      "clip_ratio/low_min": 0.005409356765449047,
+      "clip_ratio/region_mean": 0.017129987850785254,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 374.2,
+      "completions/max_terminated_length": 374.2,
+      "completions/mean_length": 299.5625,
+      "completions/mean_terminated_length": 299.5625,
       "completions/min_length": 212.0,
       "completions/min_terminated_length": 212.0,
+      "entropy": 0.35890122279524805,
       "epoch": 0.008,
+      "frac_reward_zero_std": 0.3375,
+      "grad_norm": 0.0733598917722702,
+      "kl": 0.8497510462999344,
       "learning_rate": 9.950629695468755e-06,
+      "loss": -0.0006576518062502146,
+      "num_tokens": 1349581.0,
+      "reward": 0.5286250114440918,
+      "reward_std": 0.33428473472595216,
+      "rewards/env_goofspiel_reward/mean": 0.5286250114440918,
+      "rewards/env_goofspiel_reward/std": 0.4310214161872864,
+      "sampling/importance_sampling_ratio/max": 2.438156485557556,
+      "sampling/importance_sampling_ratio/mean": 0.9875588178634643,
+      "sampling/importance_sampling_ratio/min": 0.08052640929818153,
+      "sampling/sampling_logp_difference/max": 1.630429244041443,
+      "sampling/sampling_logp_difference/mean": 0.12703385949134827,
       "step": 50,
+      "step_time": 5.318245979599669
     },
     {
+      "clip_ratio/high_max": 0.008750000037252903,
+      "clip_ratio/high_mean": 0.005937500018626451,
+      "clip_ratio/low_mean": 0.008613153640180827,
+      "clip_ratio/low_min": 0.002777777798473835,
+      "clip_ratio/region_mean": 0.014550653658807278,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 373.6,
+      "completions/max_terminated_length": 373.6,
+      "completions/mean_length": 282.6625,
+      "completions/mean_terminated_length": 282.6625,
+      "completions/min_length": 201.6,
+      "completions/min_terminated_length": 201.6,
+      "entropy": 0.324828689545393,
       "epoch": 0.0088,
+      "frac_reward_zero_std": 0.375,
+      "grad_norm": 0.07007352262735367,
+      "kl": 0.7210939504206181,
       "learning_rate": 9.950621020743173e-06,
+      "loss": -0.0003687262535095215,
+      "num_tokens": 1481810.0,
+      "reward": 0.4908750057220459,
+      "reward_std": 0.29203510880470274,
+      "rewards/env_goofspiel_reward/mean": 0.4908750057220459,
+      "rewards/env_goofspiel_reward/std": 0.38116695880889895,
+      "sampling/importance_sampling_ratio/max": 2.387629532814026,
+      "sampling/importance_sampling_ratio/mean": 0.9571901321411133,
+      "sampling/importance_sampling_ratio/min": 0.1296325594186783,
+      "sampling/sampling_logp_difference/max": 1.4196331977844239,
+      "sampling/sampling_logp_difference/mean": 0.11004247218370437,
       "step": 55,
+      "step_time": 5.2706628203999575
     },
     {
+      "clip_ratio/high_max": 0.008534356765449048,
+      "clip_ratio/high_mean": 0.005656067188829184,
+      "clip_ratio/low_mean": 0.009407982788980007,
       "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.01506404997780919,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 374.2,
+      "completions/max_terminated_length": 374.2,
+      "completions/mean_length": 293.0875,
+      "completions/mean_terminated_length": 293.0875,
+      "completions/min_length": 213.8,
+      "completions/min_terminated_length": 213.8,
+      "entropy": 0.33867746219038963,
       "epoch": 0.0096,
+      "frac_reward_zero_std": 0.4,
+      "grad_norm": 0.07561016827821732,
+      "kl": 1.2898097231984138,
       "learning_rate": 9.950609717322956e-06,
+      "loss": -0.0007428391836583614,
+      "num_tokens": 1617445.0,
+      "reward": 0.5697500050067902,
+      "reward_std": 0.26551859080791473,
+      "rewards/env_goofspiel_reward/mean": 0.5697500050067902,
+      "rewards/env_goofspiel_reward/std": 0.3711147367954254,
+      "sampling/importance_sampling_ratio/max": 2.2963364124298096,
+      "sampling/importance_sampling_ratio/mean": 0.976230013370514,
+      "sampling/importance_sampling_ratio/min": 0.07447343468666076,
+      "sampling/sampling_logp_difference/max": 1.4920601844787598,
+      "sampling/sampling_logp_difference/mean": 0.1161011055111885,
       "step": 60,
+      "step_time": 5.45707285199951
     },
     {
+      "clip_ratio/high_max": 0.006066176481544972,
+      "clip_ratio/high_mean": 0.003033088240772486,
+      "clip_ratio/low_mean": 0.00883374186232686,
       "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.011866830103099347,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 373.8,
+      "completions/max_terminated_length": 373.8,
+      "completions/mean_length": 273.0875,
+      "completions/mean_terminated_length": 273.0875,
+      "completions/min_length": 199.6,
+      "completions/min_terminated_length": 199.6,
+      "entropy": 0.2858745433390141,
       "epoch": 0.0104,
+      "frac_reward_zero_std": 0.4625,
+      "grad_norm": 0.05500200390815735,
+      "kl": 0.8528277602046728,
       "learning_rate": 9.950595785216067e-06,
+      "loss": -0.0008720592595636845,
+      "num_tokens": 1746271.0,
+      "reward": 0.6673750162124634,
+      "reward_std": 0.2547352105379105,
+      "rewards/env_goofspiel_reward/mean": 0.6673750162124634,
+      "rewards/env_goofspiel_reward/std": 0.35124587416648867,
+      "sampling/importance_sampling_ratio/max": 2.0680487632751463,
+      "sampling/importance_sampling_ratio/mean": 1.0014554977416992,
+      "sampling/importance_sampling_ratio/min": 0.10332663245499134,
+      "sampling/sampling_logp_difference/max": 2.259426403045654,
+      "sampling/sampling_logp_difference/mean": 0.10407083481550217,
       "step": 65,
+      "step_time": 5.311621308399845
     },
     {
+      "clip_ratio/high_max": 0.01180555559694767,
+      "clip_ratio/high_mean": 0.005902777798473835,
+      "clip_ratio/low_mean": 0.005365742836147547,
       "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.011268520634621382,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 374.2,
+      "completions/max_terminated_length": 374.2,
+      "completions/mean_length": 279.90625,
+      "completions/mean_terminated_length": 279.90625,
+      "completions/min_length": 206.8,
+      "completions/min_terminated_length": 206.8,
+      "entropy": 0.24370604529976844,
       "epoch": 0.0112,
+      "frac_reward_zero_std": 0.475,
+      "grad_norm": 0.055401790887117386,
+      "kl": 1.1588016405701638,
       "learning_rate": 9.950579224432321e-06,
+      "loss": -0.0012944268994033337,
+      "num_tokens": 1878445.0,
+      "reward": 0.7311875104904175,
+      "reward_std": 0.24934353530406952,
+      "rewards/env_goofspiel_reward/mean": 0.7311875104904175,
+      "rewards/env_goofspiel_reward/std": 0.3471538543701172,
+      "sampling/importance_sampling_ratio/max": 2.0970391750335695,
+      "sampling/importance_sampling_ratio/mean": 0.9700004577636718,
+      "sampling/importance_sampling_ratio/min": 0.16687118411064147,
+      "sampling/sampling_logp_difference/max": 1.9643285274505615,
+      "sampling/sampling_logp_difference/mean": 0.10032870918512345,
       "step": 70,
+      "step_time": 5.481714394999836
     },
     {
       "clip_ratio/high_max": 0.0,
       "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.013843201845884324,
       "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.013843201845884324,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 374.4,
+      "completions/max_terminated_length": 374.4,
+      "completions/mean_length": 291.925,
+      "completions/mean_terminated_length": 291.925,
+      "completions/min_length": 199.6,
+      "completions/min_terminated_length": 199.6,
+      "entropy": 0.2260144092142582,
       "epoch": 0.012,
+      "frac_reward_zero_std": 0.475,
+      "grad_norm": 0.023790325969457626,
+      "kl": 4.869625084102154,
       "learning_rate": 9.950560034983382e-06,
+      "loss": -0.000660108495503664,
+      "num_tokens": 2013416.0,
+      "reward": 0.7499375104904175,
+      "reward_std": 0.26525343060493467,
+      "rewards/env_goofspiel_reward/mean": 0.7499375104904175,
+      "rewards/env_goofspiel_reward/std": 0.3587073266506195,
+      "sampling/importance_sampling_ratio/max": 2.49392306804657,
+      "sampling/importance_sampling_ratio/mean": 0.9810920596122742,
+      "sampling/importance_sampling_ratio/min": 0.07269524885341525,
+      "sampling/sampling_logp_difference/max": 2.6866398811340333,
+      "sampling/sampling_logp_difference/mean": 0.09891045838594437,
       "step": 75,
+      "step_time": 5.191597324399481
     },
     {
       "epoch": 0.012,
       "eval_clip_ratio/low_min": 0.0,
       "eval_clip_ratio/region_mean": 0.0,
       "eval_completions/clipped_ratio": 0.0,
+      "eval_completions/max_length": 290.0,
+      "eval_completions/max_terminated_length": 290.0,
+      "eval_completions/mean_length": 269.7,
+      "eval_completions/mean_terminated_length": 269.7,
+      "eval_completions/min_length": 249.4,
+      "eval_completions/min_terminated_length": 249.4,
+      "eval_entropy": 0.2245341122150421,
+      "eval_frac_reward_zero_std": 0.4,
+      "eval_kl": 0.6459955453872681,
+      "eval_loss": -0.00020105746807530522,
+      "eval_num_tokens": 2013416.0,
+      "eval_reward": 0.9000000357627869,
+      "eval_reward_std": 0.2545584440231323,
+      "eval_rewards/env_goofspiel_reward/mean": 0.9000000357627869,
+      "eval_rewards/env_goofspiel_reward/std": 0.32784610986709595,
+      "eval_runtime": 2.4336,
+      "eval_samples_per_second": 4.109,
+      "eval_sampling/importance_sampling_ratio/max": 1.3313236951828002,
+      "eval_sampling/importance_sampling_ratio/mean": 1.0307578563690185,
+      "eval_sampling/importance_sampling_ratio/min": 0.6750483691692353,
+      "eval_sampling/sampling_logp_difference/max": 0.6310659945011139,
+      "eval_sampling/sampling_logp_difference/mean": 0.06487421616911888,
+      "eval_steps_per_second": 1.233,
       "step": 75
     },
     {
+      "clip_ratio/high_max": 0.005441176518797874,
+      "clip_ratio/high_mean": 0.002720588259398937,
+      "clip_ratio/low_mean": 0.008915441203862428,
+      "clip_ratio/low_min": 0.0029411764815449716,
+      "clip_ratio/region_mean": 0.011636029463261366,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 374.4,
+      "completions/max_terminated_length": 374.4,
+      "completions/mean_length": 283.0125,
+      "completions/mean_terminated_length": 283.0125,
+      "completions/min_length": 206.8,
+      "completions/min_terminated_length": 206.8,
+      "entropy": 0.2153526909649372,
       "epoch": 0.0128,
+      "frac_reward_zero_std": 0.4625,
+      "grad_norm": 0.07206813246011734,
+      "kl": 1.6877675473690033,
       "learning_rate": 9.95053821688277e-06,
+      "loss": -0.0009287594817578793,
+      "num_tokens": 2145819.0,
+      "reward": 0.7724375128746033,
+      "reward_std": 0.24404022693634034,
+      "rewards/env_goofspiel_reward/mean": 0.7724375128746033,
+      "rewards/env_goofspiel_reward/std": 0.34512641429901125,
+      "sampling/importance_sampling_ratio/max": 2.1818724155426024,
+      "sampling/importance_sampling_ratio/mean": 0.9245784163475037,
+      "sampling/importance_sampling_ratio/min": 0.13156846463680266,
+      "sampling/sampling_logp_difference/max": 1.658913779258728,
+      "sampling/sampling_logp_difference/mean": 0.10279093384742737,
       "step": 80,
+      "step_time": 5.441123167599471
     },
     {
+      "clip_ratio/high_max": 0.0029411764815449716,
+      "clip_ratio/high_mean": 0.0014705882407724858,
+      "clip_ratio/low_mean": 0.011678629741072654,
+      "clip_ratio/low_min": 0.0029411764815449716,
+      "clip_ratio/region_mean": 0.013149217981845141,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 373.6,
+      "completions/max_terminated_length": 373.6,
+      "completions/mean_length": 287.66875,
+      "completions/mean_terminated_length": 287.66875,
+      "completions/min_length": 201.6,
+      "completions/min_terminated_length": 201.6,
+      "entropy": 0.2192211326211691,
       "epoch": 0.0136,
+      "frac_reward_zero_std": 0.3625,
+      "grad_norm": 0.049152813851833344,
+      "kl": 1.2483771443367004,
       "learning_rate": 9.950513770145857e-06,
+      "loss": -0.0017359975725412368,
+      "num_tokens": 2279605.0,
+      "reward": 0.8173750400543213,
+      "reward_std": 0.3077682375907898,
+      "rewards/env_goofspiel_reward/mean": 0.8173750400543213,
+      "rewards/env_goofspiel_reward/std": 0.4139078199863434,
+      "sampling/importance_sampling_ratio/max": 2.272643804550171,
+      "sampling/importance_sampling_ratio/mean": 0.9856367349624634,
+      "sampling/importance_sampling_ratio/min": 0.07546308934688568,
+      "sampling/sampling_logp_difference/max": 1.7427294969558715,
+      "sampling/sampling_logp_difference/mean": 0.118245729804039,
       "step": 85,
+      "step_time": 5.293755201000204
     },
     {
+      "clip_ratio/high_max": 0.005263157933950424,
+      "clip_ratio/high_mean": 0.002631578966975212,
+      "clip_ratio/low_mean": 0.010241443105041981,
+      "clip_ratio/low_min": 0.002631578966975212,
+      "clip_ratio/region_mean": 0.012873022072017192,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 374.4,
+      "completions/max_terminated_length": 374.4,
+      "completions/mean_length": 297.4875,
+      "completions/mean_terminated_length": 297.4875,
+      "completions/min_length": 207.0,
+      "completions/min_terminated_length": 207.0,
+      "entropy": 0.19745248332619666,
       "epoch": 0.0144,
+      "frac_reward_zero_std": 0.375,
+      "grad_norm": 0.10243905335664749,
+      "kl": 1.8384233698248864,
       "learning_rate": 9.950486694789862e-06,
+      "loss": -0.0016141118481755256,
+      "num_tokens": 2415904.0,
+      "reward": 0.8171875357627869,
+      "reward_std": 0.28682020902633665,
+      "rewards/env_goofspiel_reward/mean": 0.8171875357627869,
+      "rewards/env_goofspiel_reward/std": 0.4000221848487854,
+      "sampling/importance_sampling_ratio/max": 1.893965482711792,
+      "sampling/importance_sampling_ratio/mean": 0.9034451127052308,
+      "sampling/importance_sampling_ratio/min": 0.10746023580431938,
+      "sampling/sampling_logp_difference/max": 2.5204232692718507,
+      "sampling/sampling_logp_difference/mean": 0.11648025661706925,
       "step": 90,
+      "step_time": 5.317576567400283
     },
     {
+      "clip_ratio/high_max": 0.001666666753590107,
+      "clip_ratio/high_mean": 0.0008333333767950535,
+      "clip_ratio/low_mean": 0.011362766660749913,
+      "clip_ratio/low_min": 0.002631578966975212,
+      "clip_ratio/region_mean": 0.012196100037544965,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 374.6,
+      "completions/max_terminated_length": 374.6,
+      "completions/mean_length": 282.925,
+      "completions/mean_terminated_length": 282.925,
+      "completions/min_length": 199.6,
+      "completions/min_terminated_length": 199.6,
+      "entropy": 0.14891982078552246,
       "epoch": 0.0152,
+      "frac_reward_zero_std": 0.4625,
+      "grad_norm": 0.022762339562177658,
+      "kl": 1.1775232434272767,
       "learning_rate": 9.95045699083386e-06,
+      "loss": -0.00033199070021510123,
+      "num_tokens": 2548327.0,
+      "reward": 0.8961250424385071,
+      "reward_std": 0.28125171959400175,
+      "rewards/env_goofspiel_reward/mean": 0.8961250424385071,
+      "rewards/env_goofspiel_reward/std": 0.39407379031181333,
+      "sampling/importance_sampling_ratio/max": 2.3227984428405763,
+      "sampling/importance_sampling_ratio/mean": 0.9894420146942139,
+      "sampling/importance_sampling_ratio/min": 0.1872235879302025,
+      "sampling/sampling_logp_difference/max": 1.8188178777694701,
+      "sampling/sampling_logp_difference/mean": 0.0839442029595375,
       "step": 95,
+      "step_time": 5.388430412399975
     },
     {
       "clip_ratio/high_max": 0.0,
       "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.013613153528422118,
+      "clip_ratio/low_min": 0.0029411764815449716,
+      "clip_ratio/region_mean": 0.013613153528422118,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 374.2,
+      "completions/max_terminated_length": 374.2,
+      "completions/mean_length": 285.875,
+      "completions/mean_terminated_length": 285.875,
+      "completions/min_length": 218.8,
+      "completions/min_terminated_length": 218.8,
+      "entropy": 0.16100836284458636,
       "epoch": 0.016,
+      "frac_reward_zero_std": 0.5,
+      "grad_norm": 0.03195883333683014,
+      "kl": 1.7148397326469422,
       "learning_rate": 9.950424658298776e-06,
+      "loss": -0.00081931222230196,
+      "num_tokens": 2682046.0,
+      "reward": 0.9037500023841858,
+      "reward_std": 0.23864853382110596,
+      "rewards/env_goofspiel_reward/mean": 0.9037500023841858,
+      "rewards/env_goofspiel_reward/std": 0.37243106961250305,
+      "sampling/importance_sampling_ratio/max": 1.8023416996002197,
+      "sampling/importance_sampling_ratio/mean": 0.8842753887176513,
+      "sampling/importance_sampling_ratio/min": 0.10478578060865402,
+      "sampling/sampling_logp_difference/max": 1.7476533651351929,
+      "sampling/sampling_logp_difference/mean": 0.09434186965227127,
       "step": 100,
+      "step_time": 5.138518711399956
     },
     {
       "clip_ratio/high_max": 0.0,
       "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0045955882407724856,
       "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0045955882407724856,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 374.4,
+      "completions/max_terminated_length": 374.4,
+      "completions/mean_length": 288.55,
+      "completions/mean_terminated_length": 288.55,
+      "completions/min_length": 212.0,
+      "completions/min_terminated_length": 212.0,
+      "entropy": 0.15357921570539473,
       "epoch": 0.0168,
+      "frac_reward_zero_std": 0.475,
+      "grad_norm": 0.02917584963142872,
+      "kl": 1.2142755538225174,
       "learning_rate": 9.950389697207388e-06,
+      "loss": -0.0009133240208029747,
+      "num_tokens": 2815770.0,
+      "reward": 0.9600000262260437,
+      "reward_std": 0.2545584440231323,
+      "rewards/env_goofspiel_reward/mean": 0.9600000262260437,
+      "rewards/env_goofspiel_reward/std": 0.34941941499710083,
+      "sampling/importance_sampling_ratio/max": 1.8894808292388916,
+      "sampling/importance_sampling_ratio/mean": 0.9526291608810424,
+      "sampling/importance_sampling_ratio/min": 0.12061886340379716,
+      "sampling/sampling_logp_difference/max": 1.9378384590148925,
+      "sampling/sampling_logp_difference/mean": 0.09047931358218193,
       "step": 105,
+      "step_time": 5.383052910200059
     },
     {
+      "clip_ratio/high_max": 0.002631578966975212,
+      "clip_ratio/high_mean": 0.001315789483487606,
+      "clip_ratio/low_mean": 0.014272123482078314,
+      "clip_ratio/low_min": 0.002631578966975212,
+      "clip_ratio/region_mean": 0.01558791296556592,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 374.6,
+      "completions/max_terminated_length": 374.6,
+      "completions/mean_length": 287.1375,
+      "completions/mean_terminated_length": 287.1375,
+      "completions/min_length": 207.0,
+      "completions/min_terminated_length": 207.0,
+      "entropy": 0.11877087596803904,
       "epoch": 0.0176,
+      "frac_reward_zero_std": 0.575,
+      "grad_norm": 0.03493434935808182,
+      "kl": 1.660761559009552,
       "learning_rate": 9.950352107584324e-06,
+      "loss": -0.0012725419364869595,
+      "num_tokens": 2950253.0,
+      "reward": 0.9823125243186951,
+      "reward_std": 0.22300379872322082,
+      "rewards/env_goofspiel_reward/mean": 0.9823125243186951,
+      "rewards/env_goofspiel_reward/std": 0.34692143797874453,
+      "sampling/importance_sampling_ratio/max": 2.0992087841033937,
+      "sampling/importance_sampling_ratio/mean": 0.9242552995681763,
+      "sampling/importance_sampling_ratio/min": 0.0625721976161003,
+      "sampling/sampling_logp_difference/max": 2.7260493278503417,
+      "sampling/sampling_logp_difference/mean": 0.11037325486540794,
       "step": 110,
+      "step_time": 5.269659819400658
     },
     {
+      "clip_ratio/high_max": 0.0029411764815449716,
+      "clip_ratio/high_mean": 0.0014705882407724858,
+      "clip_ratio/low_mean": 0.010151143837720155,
+      "clip_ratio/low_min": 0.003125,
+      "clip_ratio/region_mean": 0.011621732078492642,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 374.2,
+      "completions/max_terminated_length": 374.2,
+      "completions/mean_length": 293.24375,
+      "completions/mean_terminated_length": 293.24375,
+      "completions/min_length": 212.0,
+      "completions/min_terminated_length": 212.0,
+      "entropy": 0.11200540419667959,
       "epoch": 0.0184,
+      "frac_reward_zero_std": 0.7125,
+      "grad_norm": 0.020553065463900566,
+      "kl": 1.3526975795626641,
       "learning_rate": 9.950311889456064e-06,
+      "loss": -0.0005503765307366848,
+      "num_tokens": 3085187.0,
+      "reward": 1.0274375319480895,
+      "reward_std": 0.14858081489801406,
+      "rewards/env_goofspiel_reward/mean": 1.0274375319480895,
+      "rewards/env_goofspiel_reward/std": 0.324732506275177,
+      "sampling/importance_sampling_ratio/max": 1.7125876188278197,
+      "sampling/importance_sampling_ratio/mean": 0.9561464786529541,
+      "sampling/importance_sampling_ratio/min": 0.10175237003713847,
+      "sampling/sampling_logp_difference/max": 2.038061809539795,
+      "sampling/sampling_logp_difference/mean": 0.07954240888357163,
       "step": 115,
+      "step_time": 5.627786207199643
     },
     {
       "clip_ratio/high_max": 0.0,
       "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.009591933339834213,
+      "clip_ratio/low_min": 0.002500000037252903,
+      "clip_ratio/region_mean": 0.009591933339834213,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 374.8,
+      "completions/max_terminated_length": 374.8,
+      "completions/mean_length": 285.71875,
+      "completions/mean_terminated_length": 285.71875,
+      "completions/min_length": 212.0,
+      "completions/min_terminated_length": 212.0,
+      "entropy": 0.10979099776595831,
       "epoch": 0.0192,
+      "frac_reward_zero_std": 0.55,
+      "grad_norm": 0.0316302515566349,
+      "kl": 4.151332414150238,
       "learning_rate": 9.950269042850943e-06,
+      "loss": -0.0010401386767625808,
+      "num_tokens": 3218750.0,
+      "reward": 1.0012500524520873,
+      "reward_std": 0.20682872831821442,
+      "rewards/env_goofspiel_reward/mean": 1.0012500524520873,
+      "rewards/env_goofspiel_reward/std": 0.3268236696720123,
+      "sampling/importance_sampling_ratio/max": 1.743626070022583,
+      "sampling/importance_sampling_ratio/mean": 0.9425964832305909,
+      "sampling/importance_sampling_ratio/min": 0.10384658798575401,
+      "sampling/sampling_logp_difference/max": 2.185199999809265,
+      "sampling/sampling_logp_difference/mean": 0.09657576829195022,
       "step": 120,
+      "step_time": 5.24430227939938
     },
     {
       "clip_ratio/high_max": 0.0,
       "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.005753676500171423,
       "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.005753676500171423,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 374.6,
+      "completions/max_terminated_length": 374.6,
+      "completions/mean_length": 292.33125,
+      "completions/mean_terminated_length": 292.33125,
+      "completions/min_length": 207.0,
+      "completions/min_terminated_length": 207.0,
+      "entropy": 0.22348260767757894,
       "epoch": 0.02,
+      "frac_reward_zero_std": 0.4625,
+      "grad_norm": 0.046369779855012894,
+      "kl": 1.2617603421211243,
       "learning_rate": 9.95022356779914e-06,
+      "loss": -0.0007782015483826399,
+      "num_tokens": 3353835.0,
+      "reward": 0.8960625171661377,
+      "reward_std": 0.2599501311779022,
+      "rewards/env_goofspiel_reward/mean": 0.8960625171661377,
+      "rewards/env_goofspiel_reward/std": 0.4054258644580841,
+      "sampling/importance_sampling_ratio/max": 1.864054226875305,
+      "sampling/importance_sampling_ratio/mean": 0.9797484517097473,
+      "sampling/importance_sampling_ratio/min": 0.16405612826347352,
+      "sampling/sampling_logp_difference/max": 1.281555461883545,
+      "sampling/sampling_logp_difference/mean": 0.09155683666467666,
       "step": 125,
+      "step_time": 5.507626709400029
     },
     {
+      "clip_ratio/high_max": 0.004777777753770351,
+      "clip_ratio/high_mean": 0.0032222223468124866,
+      "clip_ratio/low_mean": 0.008599499333649873,
+      "clip_ratio/low_min": 0.0016129031777381898,
+      "clip_ratio/region_mean": 0.01182172168046236,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 516.8,
+      "completions/max_terminated_length": 516.8,
+      "completions/mean_length": 405.09375,
+      "completions/mean_terminated_length": 405.09375,
+      "completions/min_length": 285.2,
+      "completions/min_terminated_length": 285.2,
+      "entropy": 0.2538205787539482,
       "epoch": 0.0208,
+      "frac_reward_zero_std": 0.375,
+      "grad_norm": 0.03732698783278465,
+      "kl": 1.2245262771844865,
       "learning_rate": 9.950175464332696e-06,
+      "loss": -0.001604497991502285,
+      "num_tokens": 3506594.0,
+      "reward": 0.8659999966621399,
+      "reward_std": 0.31071450710296633,
+      "rewards/env_goofspiel_reward/mean": 0.8659999966621399,
+      "rewards/env_goofspiel_reward/std": 0.4219347298145294,
+      "sampling/importance_sampling_ratio/max": 2.1955170392990113,
+      "sampling/importance_sampling_ratio/mean": 0.9442144870758057,
+      "sampling/importance_sampling_ratio/min": 0.11454989165067672,
+      "sampling/sampling_logp_difference/max": 1.5350213170051574,
+      "sampling/sampling_logp_difference/mean": 0.10076762735843658,
       "step": 130,
+      "step_time": 6.450475099400319
     },
     {
       "clip_ratio/high_max": 0.0,
       "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.009226978290826082,
+      "clip_ratio/low_min": 0.0018518518656492234,
+      "clip_ratio/region_mean": 0.009226978290826082,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 732.6,
+      "completions/max_terminated_length": 732.6,
+      "completions/mean_length": 546.55,
+      "completions/mean_terminated_length": 546.55,
+      "completions/min_length": 408.0,
+      "completions/min_terminated_length": 408.0,
+      "entropy": 0.23710975274443627,
       "epoch": 0.0216,
+      "frac_reward_zero_std": 0.3375,
+      "grad_norm": 0.06111254543066025,
+      "kl": 1.2316449135541916,
       "learning_rate": 9.950124732485496e-06,
+      "loss": -0.0011480608955025673,
+      "num_tokens": 3681614.0,
+      "reward": 0.8281875014305115,
+      "reward_std": 0.2840506821870804,
+      "rewards/env_goofspiel_reward/mean": 0.8281875014305115,
+      "rewards/env_goofspiel_reward/std": 0.42113742232322693,
+      "sampling/importance_sampling_ratio/max": 2.122027373313904,
+      "sampling/importance_sampling_ratio/mean": 0.9814165592193603,
+      "sampling/importance_sampling_ratio/min": 0.08027622438967227,
+      "sampling/sampling_logp_difference/max": 1.9004024505615233,
+      "sampling/sampling_logp_difference/mean": 0.08553826659917832,
       "step": 135,
+      "step_time": 7.9832679632005235
     },
     {
+      "clip_ratio/high_max": 0.003724137879908085,
+      "clip_ratio/high_mean": 0.0018620689399540425,
+      "clip_ratio/low_mean": 0.004548311699181795,
       "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.006410380732268095,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 731.8,
+      "completions/max_terminated_length": 731.8,
+      "completions/mean_length": 582.2,
+      "completions/mean_terminated_length": 582.2,
+      "completions/min_length": 408.0,
+      "completions/min_terminated_length": 408.0,
+      "entropy": 0.1793461933732033,
       "epoch": 0.0224,
+      "frac_reward_zero_std": 0.375,
+      "grad_norm": 0.03889832645654678,
+      "kl": 2.291236698627472,
       "learning_rate": 9.95007137229328e-06,
+      "loss": -0.0022148976102471353,
+      "num_tokens": 3864515.0,
+      "reward": 0.9315416216850281,
+      "reward_std": 0.3372309923171997,
+      "rewards/env_goofspiel_reward/mean": 0.9315416216850281,
+      "rewards/env_goofspiel_reward/std": 0.450560998916626,
+      "sampling/importance_sampling_ratio/max": 2.064964485168457,
+      "sampling/importance_sampling_ratio/mean": 0.9481699466705322,
+      "sampling/importance_sampling_ratio/min": 0.06474384777247906,
+      "sampling/sampling_logp_difference/max": 2.467247152328491,
+      "sampling/sampling_logp_difference/mean": 0.09816154837608337,
       "step": 140,
+      "step_time": 8.106385086600312
     },
     {
+      "clip_ratio/high_max": 0.005647214874625206,
+      "clip_ratio/high_mean": 0.002823607437312603,
+      "clip_ratio/low_mean": 0.008411859162151814,
+      "clip_ratio/low_min": 0.001923076994717121,
+      "clip_ratio/region_mean": 0.011235466599464417,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 732.2,
+      "completions/max_terminated_length": 732.2,
+      "completions/mean_length": 559.74375,
+      "completions/mean_terminated_length": 559.74375,
+      "completions/min_length": 395.8,
+      "completions/min_terminated_length": 395.8,
+      "entropy": 0.1993610180914402,
       "epoch": 0.0232,
+      "frac_reward_zero_std": 0.375,
+      "grad_norm": 0.031588390469551086,
+      "kl": 1.1563616126775742,
       "learning_rate": 9.950015383793636e-06,
+      "loss": -0.002377602644264698,
+      "num_tokens": 4041287.0,
+      "reward": 0.9530208110809326,
+      "reward_std": 0.27621357440948485,
+      "rewards/env_goofspiel_reward/mean": 0.9530208110809326,
+      "rewards/env_goofspiel_reward/std": 0.40836617946624754,
+      "sampling/importance_sampling_ratio/max": 2.1861939907073973,
+      "sampling/importance_sampling_ratio/mean": 0.9681573390960694,
+      "sampling/importance_sampling_ratio/min": 0.05116618424654007,
+      "sampling/sampling_logp_difference/max": 2.082305932044983,
+      "sampling/sampling_logp_difference/mean": 0.08064938932657242,
       "step": 145,
+      "step_time": 7.88830038939941
     },
     {
+      "clip_ratio/high_max": 0.003750000149011612,
+      "clip_ratio/high_mean": 0.001875000074505806,
+      "clip_ratio/low_mean": 0.00870660375803709,
       "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.010581603739410639,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 730.4,
+      "completions/max_terminated_length": 730.4,
+      "completions/mean_length": 545.94375,
+      "completions/mean_terminated_length": 545.94375,
+      "completions/min_length": 388.4,
+      "completions/min_terminated_length": 388.4,
+      "entropy": 0.17713614292442798,
       "epoch": 0.024,
+      "frac_reward_zero_std": 0.3375,
+      "grad_norm": 0.026577942073345184,
+      "kl": 1.0718628287315368,
       "learning_rate": 9.949956767026006e-06,
+      "loss": -0.0016981028020381927,
+      "num_tokens": 4215342.0,
+      "reward": 0.9501249670982361,
+      "reward_std": 0.31861052215099334,
+      "rewards/env_goofspiel_reward/mean": 0.9501249670982361,
+      "rewards/env_goofspiel_reward/std": 0.41967723369598386,
+      "sampling/importance_sampling_ratio/max": 2.1912062644958494,
+      "sampling/importance_sampling_ratio/mean": 1.0014893412590027,
+      "sampling/importance_sampling_ratio/min": 0.08548425957560539,
+      "sampling/sampling_logp_difference/max": 1.9367387771606446,
+      "sampling/sampling_logp_difference/mean": 0.07785529419779777,
       "step": 150,
+      "step_time": 7.899470061399915
     },
     {
       "epoch": 0.024,
       "eval_clip_ratio/low_min": 0.0,
       "eval_clip_ratio/region_mean": 0.0,
       "eval_completions/clipped_ratio": 0.0,
+      "eval_completions/max_length": 563.4,
+      "eval_completions/max_terminated_length": 563.4,
+      "eval_completions/mean_length": 522.9,
+      "eval_completions/mean_terminated_length": 522.9,
+      "eval_completions/min_length": 483.2,
+      "eval_completions/min_terminated_length": 483.2,
+      "eval_entropy": 0.12081696838140488,
+      "eval_frac_reward_zero_std": 0.7,
+      "eval_kl": 1.9419716477394104,
+      "eval_loss": -0.0004246043972671032,
+      "eval_num_tokens": 4215342.0,
+      "eval_reward": 1.1049999594688416,
+      "eval_reward_std": 0.15320646464824678,
+      "eval_rewards/env_goofspiel_reward/mean": 1.1049999594688416,
+      "eval_rewards/env_goofspiel_reward/std": 0.2007630228996277,
+      "eval_runtime": 3.0894,
+      "eval_samples_per_second": 3.237,
+      "eval_sampling/importance_sampling_ratio/max": 1.3710826635360718,
+      "eval_sampling/importance_sampling_ratio/mean": 0.9819563269615174,
+      "eval_sampling/importance_sampling_ratio/min": 0.5958439499139786,
+      "eval_sampling/sampling_logp_difference/max": 0.8319960534572601,
+      "eval_sampling/sampling_logp_difference/mean": 0.0594001155346632,
+      "eval_steps_per_second": 0.971,
       "step": 150
     },
     {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.005752738565206528,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.005752738565206528,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 715.0,
+      "completions/max_terminated_length": 715.0,
+      "completions/mean_length": 553.19375,
+      "completions/mean_terminated_length": 553.19375,
+      "completions/min_length": 422.4,
+      "completions/min_terminated_length": 422.4,
+      "entropy": 0.14132860042154788,
+      "epoch": 0.0248,
+      "frac_reward_zero_std": 0.3375,
+      "grad_norm": 0.09626387804746628,
+      "kl": 2.062944608926773,
+      "learning_rate": 9.949895522031688e-06,
+      "loss": -0.0018732130527496337,
+      "num_tokens": 4391001.0,
+      "reward": 0.9909374356269837,
+      "reward_std": 0.29919453859329226,
+      "rewards/env_goofspiel_reward/mean": 0.9909374356269837,
+      "rewards/env_goofspiel_reward/std": 0.4077799320220947,
+      "sampling/importance_sampling_ratio/max": 2.0831751585006715,
+      "sampling/importance_sampling_ratio/mean": 0.9425314784049987,
+      "sampling/importance_sampling_ratio/min": 0.059898375906050204,
+      "sampling/sampling_logp_difference/max": 2.2892024993896483,
+      "sampling/sampling_logp_difference/mean": 0.08296994566917419,
+      "step": 155,
+      "step_time": 7.558112652399904
+    },
+    {
+      "epoch": 0.02496,
       "eval_clip_ratio/high_max": 0.0,
       "eval_clip_ratio/high_mean": 0.0,
       "eval_clip_ratio/low_mean": 0.0,
       "eval_clip_ratio/low_min": 0.0,
       "eval_clip_ratio/region_mean": 0.0,
       "eval_completions/clipped_ratio": 0.0,
+      "eval_completions/max_length": 563.0,
+      "eval_completions/max_terminated_length": 563.0,
+      "eval_completions/mean_length": 523.1,
+      "eval_completions/mean_terminated_length": 523.1,
+      "eval_completions/min_length": 483.6,
+      "eval_completions/min_terminated_length": 483.6,
+      "eval_entropy": 0.09278524518013001,
+      "eval_frac_reward_zero_std": 0.6,
+      "eval_kl": 1.07927747964859,
+      "eval_loss": 6.382538413163275e-05,
+      "eval_num_tokens": 4427509.0,
+      "eval_reward": 1.1483332872390748,
+      "eval_reward_std": 0.15320646464824678,
+      "eval_rewards/env_goofspiel_reward/mean": 1.1483332872390748,
+      "eval_rewards/env_goofspiel_reward/std": 0.20928734838962554,
+      "eval_runtime": 3.1042,
+      "eval_samples_per_second": 3.221,
+      "eval_sampling/importance_sampling_ratio/max": 1.3094272136688232,
+      "eval_sampling/importance_sampling_ratio/mean": 1.0892619371414185,
+      "eval_sampling/importance_sampling_ratio/min": 0.8267600655555725,
+      "eval_sampling/sampling_logp_difference/max": 0.34806744158267977,
+      "eval_sampling/sampling_logp_difference/mean": 0.03115060944110155,
+      "eval_steps_per_second": 0.966,
+      "step": 156
     }
   ],
   "logging_steps": 5,
   "max_steps": 18750,
+  "num_input_tokens_seen": 4427509,
   "num_train_epochs": 3,
   "save_steps": 500,
   "stateful_callbacks": {
     }
   },
   "total_flos": 0.0,
+  "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1b300496f72b512d9eb82d58bc70e9cfecf1e6725146e612c791121039cde76d
 size 7185

 version https://git-lfs.github.com/spec/v1
+oid sha256:906bc07f18d85f3fdbe47d01e60bbe6f967852d19caecc88d502ce07c5e4aa78
 size 7185