Upload task output 1

Browse files

Files changed (6) hide show

config.json +11 -15
generation_config.json +10 -0
loss.txt +1 -1
model.safetensors +2 -2
trainer_state.json +981 -420
training_args.bin +1 -1

config.json CHANGED Viewed

@@ -3,13 +3,13 @@
     "Qwen2ForCausalLM"
   ],
   "attention_dropout": 0.0,
-  "bos_token_id": 151643,
   "dtype": "bfloat16",
   "eos_token_id": 151645,
   "hidden_act": "silu",
-  "hidden_size": 3584,
   "initializer_range": 0.02,
-  "intermediate_size": 18944,
   "layer_types": [
     "full_attention",
     "full_attention",
@@ -34,28 +34,24 @@
     "full_attention",
     "full_attention",
     "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
-    "full_attention",
     "full_attention"
   ],
   "max_position_embeddings": 32768,
-  "max_window_layers": 28,
   "model_type": "qwen2",
-  "num_attention_heads": 28,
-  "num_hidden_layers": 28,
-  "num_key_value_heads": 4,
-  "pad_token_id": null,
   "rms_norm_eps": 1e-06,
   "rope_parameters": {
     "rope_theta": 1000000.0,
     "rope_type": "default"
   },
   "sliding_window": null,
-  "tie_word_embeddings": false,
   "transformers_version": "5.1.0",
-  "use_cache": true,
   "use_sliding_window": false,
-  "vocab_size": 152064
 }

     "Qwen2ForCausalLM"
   ],
   "attention_dropout": 0.0,
+  "bos_token_id": null,
   "dtype": "bfloat16",
   "eos_token_id": 151645,
   "hidden_act": "silu",
+  "hidden_size": 896,
   "initializer_range": 0.02,
+  "intermediate_size": 4864,
   "layer_types": [
     "full_attention",
     "full_attention",
     "full_attention",
     "full_attention",
     "full_attention",
     "full_attention"
   ],
   "max_position_embeddings": 32768,
+  "max_window_layers": 21,
   "model_type": "qwen2",
+  "num_attention_heads": 14,
+  "num_hidden_layers": 24,
+  "num_key_value_heads": 2,
+  "pad_token_id": 151643,
   "rms_norm_eps": 1e-06,
   "rope_parameters": {
     "rope_theta": 1000000.0,
     "rope_type": "default"
   },
   "sliding_window": null,
+  "tie_word_embeddings": true,
   "transformers_version": "5.1.0",
+  "use_cache": false,
   "use_sliding_window": false,
+  "vocab_size": 151936
 }

generation_config.json CHANGED Viewed

@@ -1,3 +1,13 @@
 {
   "transformers_version": "5.1.0"
 }

 {
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "repetition_penalty": 1.1,
+  "temperature": 0.7,
+  "top_k": 20,
+  "top_p": 0.8,
   "transformers_version": "5.1.0"
 }

loss.txt CHANGED Viewed

	@@ -1 +1 @@
1	- 75,-0.~~5700000166893006~~


1	+ 152,-0.06000000238418579

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ccb66fc7d5882f759fe60a9cf8d5730ffdf76e7738298e0453e82b4ffb4c1a53
-size 15231272152

 version https://git-lfs.github.com/spec/v1
+oid sha256:df164ec05eae3899c60a65c9089d6d4eedccdc33078b9a90ec77d9672e240f89
+size 988097824

trainer_state.json CHANGED Viewed

@@ -2,507 +2,507 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.012,
   "eval_steps": 500,
-  "global_step": 75,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "clip_ratio/high_max": 0.014437134563922881,
-      "clip_ratio/high_mean": 0.007218567281961441,
-      "clip_ratio/low_mean": 0.005763888917863369,
       "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.01298245619982481,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 374.0,
-      "completions/max_terminated_length": 374.0,
-      "completions/mean_length": 294.78125,
-      "completions/mean_terminated_length": 294.78125,
-      "completions/min_length": 189.6,
-      "completions/min_terminated_length": 189.6,
-      "entropy": 0.35714133381843566,
       "epoch": 0.0008,
-      "frac_reward_zero_std": 0.475,
-      "grad_norm": 0.14499153196811676,
-      "kl": 0.006699140788987279,
       "learning_rate": 1.137216e-06,
-      "loss": 0.0004814713727682829,
-      "num_tokens": 136090.0,
-      "reward": 0.292125004529953,
-      "reward_std": 0.2656953722238541,
-      "rewards/env_goofspiel_reward/mean": 0.292125004529953,
-      "rewards/env_goofspiel_reward/std": 0.41643730401992796,
-      "sampling/importance_sampling_ratio/max": 1.8895051956176758,
-      "sampling/importance_sampling_ratio/mean": 0.9195514798164368,
-      "sampling/importance_sampling_ratio/min": 0.2350650832056999,
-      "sampling/sampling_logp_difference/max": 1.6994480609893798,
-      "sampling/sampling_logp_difference/mean": 0.09322866201400756,
       "step": 5,
-      "step_time": 5.709857220399681
     },
     {
-      "clip_ratio/high_max": 0.02671568635851145,
-      "clip_ratio/high_mean": 0.013357843179255724,
-      "clip_ratio/low_mean": 0.016053921636193992,
       "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.029411764815449715,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 374.2,
-      "completions/max_terminated_length": 374.2,
-      "completions/mean_length": 290.54375,
-      "completions/mean_terminated_length": 290.54375,
-      "completions/min_length": 194.4,
-      "completions/min_terminated_length": 194.4,
-      "entropy": 0.36814531981945037,
       "epoch": 0.0016,
-      "frac_reward_zero_std": 0.55,
-      "grad_norm": 0.15409794449806213,
-      "kl": 0.024915735074318945,
       "learning_rate": 2.5587359999999995e-06,
-      "loss": 0.00025723695289343597,
-      "num_tokens": 271136.0,
-      "reward": 0.30362500846385954,
-      "reward_std": 0.21761211454868318,
-      "rewards/env_goofspiel_reward/mean": 0.30362500846385954,
-      "rewards/env_goofspiel_reward/std": 0.40538435578346255,
-      "sampling/importance_sampling_ratio/max": 2.3090060234069822,
-      "sampling/importance_sampling_ratio/mean": 0.9982686519622803,
-      "sampling/importance_sampling_ratio/min": 0.11310269832611083,
-      "sampling/sampling_logp_difference/max": 1.6586394786834717,
-      "sampling/sampling_logp_difference/mean": 0.09253094047307968,
       "step": 10,
-      "step_time": 5.373984831200687
     },
     {
-      "clip_ratio/high_max": 0.030514705926179886,
-      "clip_ratio/high_mean": 0.01672794120386243,
-      "clip_ratio/low_mean": 0.01482843142002821,
       "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.03155637262389064,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 375.6,
-      "completions/max_terminated_length": 375.6,
-      "completions/mean_length": 283.45625,
-      "completions/mean_terminated_length": 283.45625,
-      "completions/min_length": 194.6,
-      "completions/min_terminated_length": 194.6,
-      "entropy": 0.38065551668405534,
       "epoch": 0.0024,
-      "frac_reward_zero_std": 0.4375,
-      "grad_norm": 0.0815606489777565,
-      "kl": 0.02344995441380888,
       "learning_rate": 3.9802559999999995e-06,
-      "loss": 0.000516003929078579,
-      "num_tokens": 403825.0,
-      "reward": 0.35987500548362733,
-      "reward_std": 0.2653418242931366,
-      "rewards/env_goofspiel_reward/mean": 0.35987500548362733,
-      "rewards/env_goofspiel_reward/std": 0.4154684245586395,
-      "sampling/importance_sampling_ratio/max": 1.841845488548279,
-      "sampling/importance_sampling_ratio/mean": 0.9473352670669556,
-      "sampling/importance_sampling_ratio/min": 0.2071388103067875,
-      "sampling/sampling_logp_difference/max": 1.491676390171051,
-      "sampling/sampling_logp_difference/mean": 0.09024534374475479,
       "step": 15,
-      "step_time": 5.279587671000627
     },
     {
-      "clip_ratio/high_max": 0.023333333432674408,
-      "clip_ratio/high_mean": 0.011666666716337204,
-      "clip_ratio/low_mean": 0.012774122878909111,
       "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.024440789688378574,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 373.8,
-      "completions/max_terminated_length": 373.8,
-      "completions/mean_length": 279.5875,
-      "completions/mean_terminated_length": 279.5875,
-      "completions/min_length": 206.8,
-      "completions/min_terminated_length": 206.8,
-      "entropy": 0.3506437622010708,
       "epoch": 0.0032,
-      "frac_reward_zero_std": 0.4625,
-      "grad_norm": 0.12220246344804764,
-      "kl": 0.23682632837444545,
       "learning_rate": 5.401775999999999e-06,
-      "loss": -0.0002838193904608488,
-      "num_tokens": 535747.0,
-      "reward": 0.374812513589859,
-      "reward_std": 0.24421700537204744,
-      "rewards/env_goofspiel_reward/mean": 0.374812513589859,
-      "rewards/env_goofspiel_reward/std": 0.39649735689163207,
-      "sampling/importance_sampling_ratio/max": 2.3718762159347535,
-      "sampling/importance_sampling_ratio/mean": 0.9897154331207275,
-      "sampling/importance_sampling_ratio/min": 0.2213693767786026,
-      "sampling/sampling_logp_difference/max": 2.0126638174057008,
-      "sampling/sampling_logp_difference/mean": 0.10554229319095612,
       "step": 20,
-      "step_time": 5.332370807199913
     },
     {
-      "clip_ratio/high_max": 0.029443860985338688,
-      "clip_ratio/high_mean": 0.016110819298774004,
-      "clip_ratio/low_mean": 0.027831450570374727,
-      "clip_ratio/low_min": 0.011572128906846047,
-      "clip_ratio/region_mean": 0.04394227024167776,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 374.4,
-      "completions/max_terminated_length": 374.4,
-      "completions/mean_length": 301.0375,
-      "completions/mean_terminated_length": 301.0375,
-      "completions/min_length": 218.8,
-      "completions/min_terminated_length": 218.8,
-      "entropy": 0.3545067012310028,
       "epoch": 0.004,
-      "frac_reward_zero_std": 0.35,
-      "grad_norm": 0.09991537779569626,
-      "kl": 0.6746378809213638,
       "learning_rate": 6.8232959999999994e-06,
-      "loss": -0.0003991848789155483,
-      "num_tokens": 673746.0,
-      "reward": 0.34875001609325407,
-      "reward_std": 0.3128947615623474,
-      "rewards/env_goofspiel_reward/mean": 0.34875001609325407,
-      "rewards/env_goofspiel_reward/std": 0.3975376784801483,
-      "sampling/importance_sampling_ratio/max": 2.3523300170898436,
-      "sampling/importance_sampling_ratio/mean": 0.9350853443145752,
-      "sampling/importance_sampling_ratio/min": 0.03211224116384983,
-      "sampling/sampling_logp_difference/max": 2.597071409225464,
-      "sampling/sampling_logp_difference/mean": 0.14846422374248505,
       "step": 25,
-      "step_time": 5.470841645199835
     },
     {
-      "clip_ratio/high_max": 0.015093954280018806,
-      "clip_ratio/high_mean": 0.007546977140009403,
-      "clip_ratio/low_mean": 0.01916505442932248,
-      "clip_ratio/low_min": 0.005625000037252903,
-      "clip_ratio/region_mean": 0.026712031569331884,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 374.0,
-      "completions/max_terminated_length": 374.0,
-      "completions/mean_length": 283.44375,
-      "completions/mean_terminated_length": 283.44375,
       "completions/min_length": 212.0,
       "completions/min_terminated_length": 212.0,
-      "entropy": 0.3386394247412682,
       "epoch": 0.0048,
-      "frac_reward_zero_std": 0.5625,
-      "grad_norm": 0.05208470672369003,
-      "kl": 3.1543088920414446,
       "learning_rate": 8.244816e-06,
-      "loss": 3.84216895326972e-05,
-      "num_tokens": 805457.0,
-      "reward": 0.41250001192092894,
-      "reward_std": 0.2121320277452469,
-      "rewards/env_goofspiel_reward/mean": 0.41250001192092894,
-      "rewards/env_goofspiel_reward/std": 0.39523468613624574,
-      "sampling/importance_sampling_ratio/max": 2.1884907484054565,
-      "sampling/importance_sampling_ratio/mean": 0.9641352295875549,
-      "sampling/importance_sampling_ratio/min": 0.17558300793170928,
-      "sampling/sampling_logp_difference/max": 1.910474991798401,
-      "sampling/sampling_logp_difference/mean": 0.11390596330165863,
       "step": 30,
-      "step_time": 5.248301958399679
     },
     {
-      "clip_ratio/high_max": 0.021911457646638155,
-      "clip_ratio/high_mean": 0.010955728823319077,
-      "clip_ratio/low_mean": 0.016263545025140047,
-      "clip_ratio/low_min": 0.002631578966975212,
-      "clip_ratio/region_mean": 0.02721927403472364,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 366.0,
-      "completions/max_terminated_length": 366.0,
-      "completions/mean_length": 290.6625,
-      "completions/mean_terminated_length": 290.6625,
       "completions/min_length": 212.0,
       "completions/min_terminated_length": 212.0,
-      "entropy": 0.4240268304944038,
       "epoch": 0.0056,
-      "frac_reward_zero_std": 0.4,
-      "grad_norm": 0.08057750761508942,
-      "kl": 1.8736468333750964,
       "learning_rate": 9.666336e-06,
-      "loss": -2.150831278413534e-05,
-      "num_tokens": 940033.0,
-      "reward": 0.4274375081062317,
-      "reward_std": 0.2758600294589996,
-      "rewards/env_goofspiel_reward/mean": 0.4274375081062317,
-      "rewards/env_goofspiel_reward/std": 0.4116846978664398,
-      "sampling/importance_sampling_ratio/max": 2.5006643772125243,
-      "sampling/importance_sampling_ratio/mean": 0.966198992729187,
-      "sampling/importance_sampling_ratio/min": 0.07496144040487707,
-      "sampling/sampling_logp_difference/max": 2.63707594871521,
-      "sampling/sampling_logp_difference/mean": 0.1406691253185272,
       "step": 35,
-      "step_time": 5.299385342999813
     },
     {
-      "clip_ratio/high_max": 0.020319487527012826,
-      "clip_ratio/high_mean": 0.010159743763506413,
-      "clip_ratio/low_mean": 0.007234477158635855,
       "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.017394221015274526,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 374.2,
-      "completions/max_terminated_length": 374.2,
-      "completions/mean_length": 289.475,
-      "completions/mean_terminated_length": 289.475,
-      "completions/min_length": 207.0,
-      "completions/min_terminated_length": 207.0,
-      "entropy": 0.6166644155979156,
       "epoch": 0.0064,
-      "frac_reward_zero_std": 0.5,
-      "grad_norm": 0.051475733518600464,
-      "kl": 0.6312531501054763,
       "learning_rate": 9.95063915881342e-06,
-      "loss": 0.0008587016724050045,
-      "num_tokens": 1074989.0,
-      "reward": 0.2586875051259995,
-      "reward_std": 0.2599501311779022,
-      "rewards/env_goofspiel_reward/mean": 0.2586875051259995,
-      "rewards/env_goofspiel_reward/std": 0.38087824583053587,
-      "sampling/importance_sampling_ratio/max": 2.293054127693176,
-      "sampling/importance_sampling_ratio/mean": 0.9133782982826233,
-      "sampling/importance_sampling_ratio/min": 0.09586721286177635,
-      "sampling/sampling_logp_difference/max": 1.7645570278167724,
-      "sampling/sampling_logp_difference/mean": 0.1391677066683769,
       "step": 40,
-      "step_time": 5.214609204999943
     },
     {
-      "clip_ratio/high_max": 0.01441670972853899,
-      "clip_ratio/high_mean": 0.007208354864269495,
-      "clip_ratio/low_mean": 0.005737766716629266,
-      "clip_ratio/low_min": 0.002631578966975212,
-      "clip_ratio/region_mean": 0.012946121580898761,
-      "completions/clipped_ratio": 0.0,
-      "completions/max_length": 374.2,
-      "completions/max_terminated_length": 374.2,
-      "completions/mean_length": 294.13125,
-      "completions/mean_terminated_length": 294.13125,
-      "completions/min_length": 184.6,
-      "completions/min_terminated_length": 184.6,
-      "entropy": 0.7186032980680466,
       "epoch": 0.0072,
-      "frac_reward_zero_std": 0.5125,
-      "grad_norm": 0.10908176004886627,
-      "kl": 0.9199723824858665,
       "learning_rate": 9.950635741493589e-06,
-      "loss": 0.0010974571108818055,
-      "num_tokens": 1211700.0,
-      "reward": 0.20568750202655792,
-      "reward_std": 0.21823083460330964,
-      "rewards/env_goofspiel_reward/mean": 0.20568750202655792,
-      "rewards/env_goofspiel_reward/std": 0.3572053849697113,
-      "sampling/importance_sampling_ratio/max": 2.1740296363830565,
-      "sampling/importance_sampling_ratio/mean": 0.8587659239768982,
-      "sampling/importance_sampling_ratio/min": 0.19039739817380905,
-      "sampling/sampling_logp_difference/max": 1.302869963645935,
-      "sampling/sampling_logp_difference/mean": 0.159588959813118,
       "step": 45,
-      "step_time": 5.3400724014001755
     },
     {
-      "clip_ratio/high_max": 0.014580108411610126,
-      "clip_ratio/high_mean": 0.008760642446577548,
-      "clip_ratio/low_mean": 0.005718954280018807,
-      "clip_ratio/low_min": 0.002777777798473835,
-      "clip_ratio/region_mean": 0.014479596912860871,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 374.0,
-      "completions/max_terminated_length": 374.0,
-      "completions/mean_length": 298.4875,
-      "completions/mean_terminated_length": 298.4875,
-      "completions/min_length": 194.6,
-      "completions/min_terminated_length": 194.6,
-      "entropy": 0.7520321547985077,
       "epoch": 0.008,
-      "frac_reward_zero_std": 0.55,
-      "grad_norm": 0.07008689641952515,
-      "kl": 1.4948164954781533,
       "learning_rate": 9.950629695468755e-06,
-      "loss": 0.000722643407061696,
-      "num_tokens": 1348707.0,
-      "reward": 0.19093750715255736,
-      "reward_std": 0.18605746924877167,
-      "rewards/env_goofspiel_reward/mean": 0.19093750715255736,
-      "rewards/env_goofspiel_reward/std": 0.32617470622062683,
-      "sampling/importance_sampling_ratio/max": 2.441471576690674,
-      "sampling/importance_sampling_ratio/mean": 0.8815865159034729,
-      "sampling/importance_sampling_ratio/min": 0.047414033114910124,
-      "sampling/sampling_logp_difference/max": 1.4149149417877198,
-      "sampling/sampling_logp_difference/mean": 0.17731134295463563,
       "step": 50,
-      "step_time": 5.3226749666000615
     },
     {
-      "clip_ratio/high_max": 0.017320261523127555,
-      "clip_ratio/high_mean": 0.008660130761563778,
-      "clip_ratio/low_mean": 0.0015625,
       "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.010222630761563777,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 373.6,
-      "completions/max_terminated_length": 373.6,
-      "completions/mean_length": 284.1125,
-      "completions/mean_terminated_length": 284.1125,
-      "completions/min_length": 200.0,
-      "completions/min_terminated_length": 200.0,
-      "entropy": 0.7574372291564941,
       "epoch": 0.0088,
-      "frac_reward_zero_std": 0.6125,
-      "grad_norm": 0.05677078291773796,
-      "kl": 0.9213189110159874,
       "learning_rate": 9.950621020743173e-06,
-      "loss": 0.00019418969750404358,
-      "num_tokens": 1481168.0,
-      "reward": 0.16468750387430192,
-      "reward_std": 0.15954096913337706,
-      "rewards/env_goofspiel_reward/mean": 0.16468750387430192,
-      "rewards/env_goofspiel_reward/std": 0.3025706380605698,
-      "sampling/importance_sampling_ratio/max": 2.087395262718201,
-      "sampling/importance_sampling_ratio/mean": 0.9323906660079956,
-      "sampling/importance_sampling_ratio/min": 0.12477300018072128,
-      "sampling/sampling_logp_difference/max": 1.5357290506362915,
-      "sampling/sampling_logp_difference/mean": 0.16227305233478545,
       "step": 55,
-      "step_time": 5.239984228400317
     },
     {
-      "clip_ratio/high_max": 0.011312134563922882,
-      "clip_ratio/high_mean": 0.005656067281961441,
-      "clip_ratio/low_mean": 0.008540054224431515,
       "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.014196121599525213,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 374.8,
-      "completions/max_terminated_length": 374.8,
-      "completions/mean_length": 294.125,
-      "completions/mean_terminated_length": 294.125,
-      "completions/min_length": 218.4,
-      "completions/min_terminated_length": 218.4,
-      "entropy": 0.7390435010194778,
       "epoch": 0.0096,
-      "frac_reward_zero_std": 0.5,
-      "grad_norm": 0.059227459132671356,
-      "kl": 0.8731714501976967,
       "learning_rate": 9.950609717322956e-06,
-      "loss": 0.00016935726162046195,
-      "num_tokens": 1616969.0,
-      "reward": 0.22868750393390655,
-      "reward_std": 0.23873692452907563,
-      "rewards/env_goofspiel_reward/mean": 0.22868750393390655,
-      "rewards/env_goofspiel_reward/std": 0.3541231632232666,
-      "sampling/importance_sampling_ratio/max": 2.4580262422561647,
-      "sampling/importance_sampling_ratio/mean": 1.027009415626526,
-      "sampling/importance_sampling_ratio/min": 0.08994593024253845,
-      "sampling/sampling_logp_difference/max": 1.2262043237686158,
-      "sampling/sampling_logp_difference/mean": 0.15936054587364196,
       "step": 60,
-      "step_time": 5.197383608799828
     },
     {
-      "clip_ratio/high_max": 0.003125,
-      "clip_ratio/high_mean": 0.0015625,
-      "clip_ratio/low_mean": 0.004093567281961441,
       "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.005656067281961441,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 374.0,
-      "completions/max_terminated_length": 374.0,
-      "completions/mean_length": 272.7125,
-      "completions/mean_terminated_length": 272.7125,
-      "completions/min_length": 207.0,
-      "completions/min_terminated_length": 207.0,
-      "entropy": 0.641479243338108,
       "epoch": 0.0104,
-      "frac_reward_zero_std": 0.5125,
-      "grad_norm": 0.052345700562000275,
-      "kl": 0.8409833669662475,
       "learning_rate": 9.950595785216067e-06,
-      "loss": -0.0004354896955192089,
-      "num_tokens": 1745735.0,
-      "reward": 0.30350000858306886,
-      "reward_std": 0.24943190813064575,
-      "rewards/env_goofspiel_reward/mean": 0.30350000858306886,
-      "rewards/env_goofspiel_reward/std": 0.43262303471565244,
-      "sampling/importance_sampling_ratio/max": 2.308809924125671,
-      "sampling/importance_sampling_ratio/mean": 0.9729154109954834,
-      "sampling/importance_sampling_ratio/min": 0.2105877071619034,
-      "sampling/sampling_logp_difference/max": 1.216427493095398,
-      "sampling/sampling_logp_difference/mean": 0.14146182239055632,
       "step": 65,
-      "step_time": 5.165435432399863
     },
     {
-      "clip_ratio/high_max": 0.008823529444634914,
-      "clip_ratio/high_mean": 0.004411764722317457,
-      "clip_ratio/low_mean": 0.004421977140009403,
       "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.00883374186232686,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 374.0,
-      "completions/max_terminated_length": 374.0,
-      "completions/mean_length": 279.70625,
-      "completions/mean_terminated_length": 279.70625,
-      "completions/min_length": 194.6,
-      "completions/min_terminated_length": 194.6,
-      "entropy": 0.5012152880430222,
       "epoch": 0.0112,
-      "frac_reward_zero_std": 0.325,
-      "grad_norm": 0.08534521609544754,
-      "kl": 0.8132658362388611,
       "learning_rate": 9.950579224432321e-06,
-      "loss": -0.0004163400735706091,
-      "num_tokens": 1877877.0,
-      "reward": 0.4497500121593475,
-      "reward_std": 0.32915821075439455,
-      "rewards/env_goofspiel_reward/mean": 0.4497500121593475,
-      "rewards/env_goofspiel_reward/std": 0.4289704501628876,
-      "sampling/importance_sampling_ratio/max": 2.469445323944092,
-      "sampling/importance_sampling_ratio/mean": 0.9713802933692932,
-      "sampling/importance_sampling_ratio/min": 0.1933848649263382,
-      "sampling/sampling_logp_difference/max": 1.2900412559509278,
-      "sampling/sampling_logp_difference/mean": 0.12238389104604722,
       "step": 70,
-      "step_time": 5.296977608999805
     },
     {
-      "clip_ratio/high_max": 0.005409356765449047,
-      "clip_ratio/high_mean": 0.0027046783827245234,
-      "clip_ratio/low_mean": 0.011513618659228087,
       "clip_ratio/low_min": 0.0,
-      "clip_ratio/region_mean": 0.01421829704195261,
       "completions/clipped_ratio": 0.0,
-      "completions/max_length": 374.4,
-      "completions/max_terminated_length": 374.4,
-      "completions/mean_length": 292.43125,
-      "completions/mean_terminated_length": 292.43125,
-      "completions/min_length": 212.0,
-      "completions/min_terminated_length": 212.0,
-      "entropy": 0.39477833807468415,
       "epoch": 0.012,
-      "frac_reward_zero_std": 0.45,
-      "grad_norm": 0.08385973423719406,
-      "kl": 0.9824723288416862,
       "learning_rate": 9.950560034983382e-06,
-      "loss": -0.0006953636649996043,
-      "num_tokens": 2012929.0,
-      "reward": 0.5398125350475311,
-      "reward_std": 0.2548236042261124,
-      "rewards/env_goofspiel_reward/mean": 0.5398125350475311,
-      "rewards/env_goofspiel_reward/std": 0.4067754566669464,
-      "sampling/importance_sampling_ratio/max": 2.476490020751953,
-      "sampling/importance_sampling_ratio/mean": 0.9818659067153931,
-      "sampling/importance_sampling_ratio/min": 0.04677087515592575,
-      "sampling/sampling_logp_difference/max": 1.8360216617584229,
-      "sampling/sampling_logp_difference/mean": 0.1339985266327858,
       "step": 75,
-      "step_time": 5.25195668339984
     },
     {
       "epoch": 0.012,
@@ -512,35 +512,596 @@
       "eval_clip_ratio/low_min": 0.0,
       "eval_clip_ratio/region_mean": 0.0,
       "eval_completions/clipped_ratio": 0.0,
-      "eval_completions/max_length": 310.0,
-      "eval_completions/max_terminated_length": 310.0,
-      "eval_completions/mean_length": 274.9,
-      "eval_completions/mean_terminated_length": 274.9,
-      "eval_completions/min_length": 241.2,
-      "eval_completions/min_terminated_length": 241.2,
-      "eval_entropy": 0.2987076103687286,
-      "eval_frac_reward_zero_std": 0.6,
-      "eval_kl": 0.8131496548652649,
-      "eval_loss": -0.0002675331197679043,
-      "eval_num_tokens": 2012929.0,
-      "eval_reward": 0.5700000166893006,
-      "eval_reward_std": 0.2121320366859436,
-      "eval_rewards/env_goofspiel_reward/mean": 0.5700000166893006,
-      "eval_rewards/env_goofspiel_reward/std": 0.3252412259578705,
-      "eval_runtime": 2.5856,
-      "eval_samples_per_second": 3.868,
-      "eval_sampling/importance_sampling_ratio/max": 1.6977968692779541,
-      "eval_sampling/importance_sampling_ratio/mean": 0.947873055934906,
-      "eval_sampling/importance_sampling_ratio/min": 0.2541299909353256,
-      "eval_sampling/sampling_logp_difference/max": 1.3066397070884705,
-      "eval_sampling/sampling_logp_difference/mean": 0.14956869557499886,
-      "eval_steps_per_second": 1.16,
       "step": 75
     }
   ],
   "logging_steps": 5,
   "max_steps": 18750,
-  "num_input_tokens_seen": 2012929,
   "num_train_epochs": 3,
   "save_steps": 500,
   "stateful_callbacks": {
@@ -550,13 +1111,13 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
   "total_flos": 0.0,
-  "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null
 }

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.02432,
   "eval_steps": 500,
+  "global_step": 152,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 374.4,
+      "completions/max_terminated_length": 374.4,
+      "completions/mean_length": 293.55,
+      "completions/mean_terminated_length": 293.55,
+      "completions/min_length": 181.8,
+      "completions/min_terminated_length": 181.8,
+      "entropy": 0.7695603430271148,
       "epoch": 0.0008,
+      "frac_reward_zero_std": 0.675,
+      "grad_norm": 0.1396484375,
+      "kl": 0.007634526048786938,
       "learning_rate": 1.137216e-06,
+      "loss": 9.18293430004269e-05,
+      "num_tokens": 135798.0,
+      "reward": 0.051062504202127455,
+      "reward_std": 0.07574881687760353,
+      "rewards/env_goofspiel_reward/mean": 0.051062504202127455,
+      "rewards/env_goofspiel_reward/std": 0.195309117436409,
+      "sampling/importance_sampling_ratio/max": 1.719690752029419,
+      "sampling/importance_sampling_ratio/mean": 1.0014273881912232,
+      "sampling/importance_sampling_ratio/min": 0.48566103279590606,
+      "sampling/sampling_logp_difference/max": 0.7150738000869751,
+      "sampling/sampling_logp_difference/mean": 0.0632629081606865,
       "step": 5,
+      "step_time": 4.057331793400226
     },
     {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 374.0,
+      "completions/max_terminated_length": 374.0,
+      "completions/mean_length": 290.5375,
+      "completions/mean_terminated_length": 290.5375,
+      "completions/min_length": 193.0,
+      "completions/min_terminated_length": 193.0,
+      "entropy": 0.6640829563140869,
       "epoch": 0.0016,
+      "frac_reward_zero_std": 0.7375,
+      "grad_norm": 0.296875,
+      "kl": 0.009508041350636631,
       "learning_rate": 2.5587359999999995e-06,
+      "loss": -5.3186528384685515e-05,
+      "num_tokens": 271318.0,
+      "reward": 0.05906250327825546,
+      "reward_std": 0.06461188569664955,
+      "rewards/env_goofspiel_reward/mean": 0.05906250327825546,
+      "rewards/env_goofspiel_reward/std": 0.16751175224781037,
+      "sampling/importance_sampling_ratio/max": 2.0673105001449583,
+      "sampling/importance_sampling_ratio/mean": 1.0338432788848877,
+      "sampling/importance_sampling_ratio/min": 0.6319645524024964,
+      "sampling/sampling_logp_difference/max": 0.6566181659698487,
+      "sampling/sampling_logp_difference/mean": 0.05573496893048287,
       "step": 10,
+      "step_time": 3.559387542600052
     },
     {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 378.8,
+      "completions/max_terminated_length": 378.8,
+      "completions/mean_length": 285.15,
+      "completions/mean_terminated_length": 285.15,
+      "completions/min_length": 212.0,
+      "completions/min_terminated_length": 212.0,
+      "entropy": 0.5863359421491623,
       "epoch": 0.0024,
+      "frac_reward_zero_std": 0.8,
+      "grad_norm": 0.1650390625,
+      "kl": 0.05467459289357066,
       "learning_rate": 3.9802559999999995e-06,
+      "loss": 0.00011974496301263571,
+      "num_tokens": 403708.0,
+      "reward": 0.037000001792330296,
+      "reward_std": 0.0535633388790302,
+      "rewards/env_goofspiel_reward/mean": 0.037000001792330296,
+      "rewards/env_goofspiel_reward/std": 0.11216981350444258,
+      "sampling/importance_sampling_ratio/max": 1.5559733867645265,
+      "sampling/importance_sampling_ratio/mean": 0.9780893206596375,
+      "sampling/importance_sampling_ratio/min": 0.604676628112793,
+      "sampling/sampling_logp_difference/max": 0.4918365955352783,
+      "sampling/sampling_logp_difference/mean": 0.04973898231983185,
       "step": 15,
+      "step_time": 3.5593893944003865
     },
     {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 374.0,
+      "completions/max_terminated_length": 374.0,
+      "completions/mean_length": 281.6375,
+      "completions/mean_terminated_length": 281.6375,
+      "completions/min_length": 212.0,
+      "completions/min_terminated_length": 212.0,
+      "entropy": 0.4126308411359787,
       "epoch": 0.0032,
+      "frac_reward_zero_std": 0.7375,
+      "grad_norm": 0.31640625,
+      "kl": 0.139003873616457,
       "learning_rate": 5.401775999999999e-06,
+      "loss": -0.00015898187411949037,
+      "num_tokens": 536243.0,
+      "reward": 0.06343750283122063,
+      "reward_std": 0.0905980572104454,
+      "rewards/env_goofspiel_reward/mean": 0.06343750283122063,
+      "rewards/env_goofspiel_reward/std": 0.19052477180957794,
+      "sampling/importance_sampling_ratio/max": 1.6631618976593017,
+      "sampling/importance_sampling_ratio/mean": 1.0170260667800903,
+      "sampling/importance_sampling_ratio/min": 0.643394160270691,
+      "sampling/sampling_logp_difference/max": 0.5536829710006714,
+      "sampling/sampling_logp_difference/mean": 0.03567908257246018,
       "step": 20,
+      "step_time": 3.513668759400389
     },
     {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 374.0,
+      "completions/max_terminated_length": 374.0,
+      "completions/mean_length": 300.975,
+      "completions/mean_terminated_length": 300.975,
+      "completions/min_length": 219.0,
+      "completions/min_terminated_length": 219.0,
+      "entropy": 0.5057466819882392,
       "epoch": 0.004,
+      "frac_reward_zero_std": 0.8625,
+      "grad_norm": 0.201171875,
+      "kl": 0.14662861209362746,
       "learning_rate": 6.8232959999999994e-06,
+      "loss": 0.00011511286720633507,
+      "num_tokens": 674802.0,
+      "reward": 0.056125002296175806,
+      "reward_std": 0.05851308616111055,
+      "rewards/env_goofspiel_reward/mean": 0.056125002296175806,
+      "rewards/env_goofspiel_reward/std": 0.1724803472403437,
+      "sampling/importance_sampling_ratio/max": 1.8632315158843995,
+      "sampling/importance_sampling_ratio/mean": 0.9876452207565307,
+      "sampling/importance_sampling_ratio/min": 0.5998193681240082,
+      "sampling/sampling_logp_difference/max": 0.5798031091690063,
+      "sampling/sampling_logp_difference/mean": 0.049172034859657286,
       "step": 25,
+      "step_time": 3.5666124442001093
     },
     {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 373.8,
+      "completions/max_terminated_length": 373.8,
+      "completions/mean_length": 283.69375,
+      "completions/mean_terminated_length": 283.69375,
       "completions/min_length": 212.0,
       "completions/min_terminated_length": 212.0,
+      "entropy": 0.5599821880459785,
       "epoch": 0.0048,
+      "frac_reward_zero_std": 0.775,
+      "grad_norm": 0.30859375,
+      "kl": 0.14428229751065375,
       "learning_rate": 8.244816e-06,
+      "loss": -3.07892682030797e-05,
+      "num_tokens": 807598.0,
+      "reward": 0.08625000044703483,
+      "reward_std": 0.10076271444559097,
+      "rewards/env_goofspiel_reward/mean": 0.08625000044703483,
+      "rewards/env_goofspiel_reward/std": 0.21401541233062743,
+      "sampling/importance_sampling_ratio/max": 1.4588377714157104,
+      "sampling/importance_sampling_ratio/mean": 0.9682739973068237,
+      "sampling/importance_sampling_ratio/min": 0.5809138238430023,
+      "sampling/sampling_logp_difference/max": 0.5705435633659363,
+      "sampling/sampling_logp_difference/mean": 0.04744169861078262,
       "step": 30,
+      "step_time": 3.545922210400022
     },
     {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 365.6,
+      "completions/max_terminated_length": 365.6,
+      "completions/mean_length": 290.56875,
+      "completions/mean_terminated_length": 290.56875,
       "completions/min_length": 212.0,
       "completions/min_terminated_length": 212.0,
+      "entropy": 0.5238839864730835,
       "epoch": 0.0056,
+      "frac_reward_zero_std": 0.9,
+      "grad_norm": 0.0791015625,
+      "kl": 0.22365115247666836,
       "learning_rate": 9.666336e-06,
+      "loss": -1.7423409735783936e-05,
+      "num_tokens": 941209.0,
+      "reward": 0.04125000163912773,
+      "reward_std": 0.04772970825433731,
+      "rewards/env_goofspiel_reward/mean": 0.04125000163912773,
+      "rewards/env_goofspiel_reward/std": 0.16298522651195527,
+      "sampling/importance_sampling_ratio/max": 1.4255825757980347,
+      "sampling/importance_sampling_ratio/mean": 0.973192298412323,
+      "sampling/importance_sampling_ratio/min": 0.5944858670234681,
+      "sampling/sampling_logp_difference/max": 0.4666349172592163,
+      "sampling/sampling_logp_difference/mean": 0.04362327083945274,
       "step": 35,
+      "step_time": 3.448241228200095
     },
     {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 373.8,
+      "completions/max_terminated_length": 373.8,
+      "completions/mean_length": 289.4875,
+      "completions/mean_terminated_length": 289.4875,
+      "completions/min_length": 206.4,
+      "completions/min_terminated_length": 206.4,
+      "entropy": 0.5457443177700043,
       "epoch": 0.0064,
+      "frac_reward_zero_std": 0.8125,
+      "grad_norm": 0.05517578125,
+      "kl": 0.21872444674372674,
       "learning_rate": 9.95063915881342e-06,
+      "loss": 0.00012433364754542707,
+      "num_tokens": 1076167.0,
+      "reward": 0.05981250181794166,
+      "reward_std": 0.07451137900352478,
+      "rewards/env_goofspiel_reward/mean": 0.05981250181794166,
+      "rewards/env_goofspiel_reward/std": 0.1769598752260208,
+      "sampling/importance_sampling_ratio/max": 1.5738928318023682,
+      "sampling/importance_sampling_ratio/mean": 1.0145540714263916,
+      "sampling/importance_sampling_ratio/min": 0.6491193056106568,
+      "sampling/sampling_logp_difference/max": 0.46645350456237794,
+      "sampling/sampling_logp_difference/mean": 0.04598992168903351,
       "step": 40,
+      "step_time": 3.4551121715998305
     },
     {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.00625,
+      "completions/max_length": 462.0,
+      "completions/max_terminated_length": 374.0,
+      "completions/mean_length": 300.95625,
+      "completions/mean_terminated_length": 297.8118957519531,
+      "completions/min_length": 212.0,
+      "completions/min_terminated_length": 212.0,
+      "entropy": 0.5893479824066162,
       "epoch": 0.0072,
+      "frac_reward_zero_std": 0.7875,
+      "grad_norm": 0.224609375,
+      "kl": 0.2417328185401857,
       "learning_rate": 9.950635741493589e-06,
+      "loss": 0.02391626685857773,
+      "num_tokens": 1212925.0,
+      "reward": 0.05993750244379044,
+      "reward_std": 0.08494120314717293,
+      "rewards/env_goofspiel_reward/mean": 0.05993750244379044,
+      "rewards/env_goofspiel_reward/std": 0.17770446538925172,
+      "sampling/importance_sampling_ratio/max": 2.169111466407776,
+      "sampling/importance_sampling_ratio/mean": 1.020458698272705,
+      "sampling/importance_sampling_ratio/min": 0.6463833510875702,
+      "sampling/sampling_logp_difference/max": 0.5775727272033692,
+      "sampling/sampling_logp_difference/mean": 0.04204721674323082,
       "step": 45,
+      "step_time": 4.194754163199832
     },
     {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 373.4,
+      "completions/max_terminated_length": 373.4,
+      "completions/mean_length": 299.31875,
+      "completions/mean_terminated_length": 299.31875,
+      "completions/min_length": 212.0,
+      "completions/min_terminated_length": 212.0,
+      "entropy": 0.4704709783196449,
       "epoch": 0.008,
+      "frac_reward_zero_std": 0.85,
+      "grad_norm": 0.103515625,
+      "kl": 0.4402174398303032,
       "learning_rate": 9.950629695468755e-06,
+      "loss": 0.00011011158348992467,
+      "num_tokens": 1350825.0,
+      "reward": 0.04487500190734863,
+      "reward_std": 0.063816387206316,
+      "rewards/env_goofspiel_reward/mean": 0.04487500190734863,
+      "rewards/env_goofspiel_reward/std": 0.17575940787792205,
+      "sampling/importance_sampling_ratio/max": 1.630899429321289,
+      "sampling/importance_sampling_ratio/mean": 0.9812780380249023,
+      "sampling/importance_sampling_ratio/min": 0.3998015284538269,
+      "sampling/sampling_logp_difference/max": 0.8225874900817871,
+      "sampling/sampling_logp_difference/mean": 0.057265565544366834,
       "step": 50,
+      "step_time": 3.4821775794000134
     },
     {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 374.0,
+      "completions/max_terminated_length": 374.0,
+      "completions/mean_length": 284.0375,
+      "completions/mean_terminated_length": 284.0375,
+      "completions/min_length": 206.8,
+      "completions/min_terminated_length": 206.8,
+      "entropy": 0.23580820970237254,
       "epoch": 0.0088,
+      "frac_reward_zero_std": 0.7875,
+      "grad_norm": 0.4765625,
+      "kl": 0.6652570061385632,
       "learning_rate": 9.950621020743173e-06,
+      "loss": 8.13461490906775e-05,
+      "num_tokens": 1483464.0,
+      "reward": 0.05993750244379044,
+      "reward_std": 0.08494120314717293,
+      "rewards/env_goofspiel_reward/mean": 0.05993750244379044,
+      "rewards/env_goofspiel_reward/std": 0.18124795854091644,
+      "sampling/importance_sampling_ratio/max": 1.8012218236923219,
+      "sampling/importance_sampling_ratio/mean": 0.9974164485931396,
+      "sampling/importance_sampling_ratio/min": 0.6288759648799896,
+      "sampling/sampling_logp_difference/max": 0.6000619411468506,
+      "sampling/sampling_logp_difference/mean": 0.03408294580876827,
       "step": 55,
+      "step_time": 3.518262126200534
     },
     {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 373.8,
+      "completions/max_terminated_length": 373.8,
+      "completions/mean_length": 294.53125,
+      "completions/mean_terminated_length": 294.53125,
+      "completions/min_length": 219.0,
+      "completions/min_terminated_length": 219.0,
+      "entropy": 0.06949742138385773,
       "epoch": 0.0096,
+      "frac_reward_zero_std": 0.8125,
+      "grad_norm": 0.033447265625,
+      "kl": 0.8152253001928329,
       "learning_rate": 9.950609717322956e-06,
+      "loss": 0.00011886359425261617,
+      "num_tokens": 1618570.0,
+      "reward": 0.07500000223517418,
+      "reward_std": 0.08485281318426133,
+      "rewards/env_goofspiel_reward/mean": 0.07500000223517418,
+      "rewards/env_goofspiel_reward/std": 0.1962749719619751,
+      "sampling/importance_sampling_ratio/max": 1.434102201461792,
+      "sampling/importance_sampling_ratio/mean": 1.0074862837791443,
+      "sampling/importance_sampling_ratio/min": 0.8809547781944275,
+      "sampling/sampling_logp_difference/max": 0.35270476043224336,
+      "sampling/sampling_logp_difference/mean": 0.007789037330076099,
       "step": 60,
+      "step_time": 3.4527530410003235
     },
     {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 445.2,
+      "completions/max_terminated_length": 445.2,
+      "completions/mean_length": 325.83125,
+      "completions/mean_terminated_length": 325.83125,
+      "completions/min_length": 251.2,
+      "completions/min_terminated_length": 251.2,
+      "entropy": 0.08617601059377193,
       "epoch": 0.0104,
+      "frac_reward_zero_std": 0.875,
+      "grad_norm": 0.018798828125,
+      "kl": 0.7552784413099289,
       "learning_rate": 9.950595785216067e-06,
+      "loss": 0.00014277141308411957,
+      "num_tokens": 1755265.0,
+      "reward": 0.03750000149011612,
+      "reward_std": 0.0530330091714859,
+      "rewards/env_goofspiel_reward/mean": 0.03750000149011612,
+      "rewards/env_goofspiel_reward/std": 0.13009902238845825,
+      "sampling/importance_sampling_ratio/max": 1.3271136283874512,
+      "sampling/importance_sampling_ratio/mean": 1.004535722732544,
+      "sampling/importance_sampling_ratio/min": 0.7700567066669464,
+      "sampling/sampling_logp_difference/max": 0.3696352869272232,
+      "sampling/sampling_logp_difference/mean": 0.008786045084707438,
       "step": 65,
+      "step_time": 3.861200922199896
     },
     {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 732.0,
+      "completions/max_terminated_length": 732.0,
+      "completions/mean_length": 544.625,
+      "completions/mean_terminated_length": 544.625,
+      "completions/min_length": 383.6,
+      "completions/min_terminated_length": 383.6,
+      "entropy": 0.33896628841757775,
       "epoch": 0.0112,
+      "frac_reward_zero_std": 0.75,
+      "grad_norm": 0.2109375,
+      "kl": 1.354549203068018,
       "learning_rate": 9.950579224432321e-06,
+      "loss": 0.00035492791794240476,
+      "num_tokens": 1929034.0,
+      "reward": 0.04277083389461041,
+      "reward_std": 0.061901307106018065,
+      "rewards/env_goofspiel_reward/mean": 0.04277083389461041,
+      "rewards/env_goofspiel_reward/std": 0.14327263236045837,
+      "sampling/importance_sampling_ratio/max": 1.457657814025879,
+      "sampling/importance_sampling_ratio/mean": 0.9943998098373413,
+      "sampling/importance_sampling_ratio/min": 0.6945780634880065,
+      "sampling/sampling_logp_difference/max": 0.450562047958374,
+      "sampling/sampling_logp_difference/mean": 0.02044728323817253,
       "step": 70,
+      "step_time": 5.568116331400051
     },
     {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
       "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
       "completions/clipped_ratio": 0.0,
+      "completions/max_length": 731.6,
+      "completions/max_terminated_length": 731.6,
+      "completions/mean_length": 564.09375,
+      "completions/mean_terminated_length": 564.09375,
+      "completions/min_length": 408.0,
+      "completions/min_terminated_length": 408.0,
+      "entropy": 0.490242238342762,
       "epoch": 0.012,
+      "frac_reward_zero_std": 0.625,
+      "grad_norm": 0.17578125,
+      "kl": 0.48342139422893526,
       "learning_rate": 9.950560034983382e-06,
+      "loss": 0.00017674852861091495,
+      "num_tokens": 2107362.0,
+      "reward": 0.055687499977648255,
+      "reward_std": 0.07409889809787273,
+      "rewards/env_goofspiel_reward/mean": 0.055687499977648255,
+      "rewards/env_goofspiel_reward/std": 0.16855775713920593,
+      "sampling/importance_sampling_ratio/max": 1.2386622190475465,
+      "sampling/importance_sampling_ratio/mean": 0.9834899187088013,
+      "sampling/importance_sampling_ratio/min": 0.776045274734497,
+      "sampling/sampling_logp_difference/max": 0.22788455486297607,
+      "sampling/sampling_logp_difference/mean": 0.01976088173687458,
       "step": 75,
+      "step_time": 5.500796792399524
     },
     {
       "epoch": 0.012,
       "eval_clip_ratio/low_min": 0.0,
       "eval_clip_ratio/region_mean": 0.0,
       "eval_completions/clipped_ratio": 0.0,
+      "eval_completions/max_length": 614.4,
+      "eval_completions/max_terminated_length": 614.4,
+      "eval_completions/mean_length": 572.65,
+      "eval_completions/mean_terminated_length": 572.65,
+      "eval_completions/min_length": 531.8,
+      "eval_completions/min_terminated_length": 531.8,
+      "eval_entropy": 0.5134166538715362,
+      "eval_frac_reward_zero_std": 0.8,
+      "eval_kl": 0.5596067428588867,
+      "eval_loss": -1.7431222659070045e-05,
+      "eval_num_tokens": 2107362.0,
+      "eval_reward": 0.021166666876524687,
+      "eval_reward_std": 0.03134840028360486,
+      "eval_rewards/env_goofspiel_reward/mean": 0.021166666876524687,
+      "eval_rewards/env_goofspiel_reward/std": 0.04433333072811365,
+      "eval_runtime": 2.6749,
+      "eval_samples_per_second": 3.738,
+      "eval_sampling/importance_sampling_ratio/max": 1.0850860834121705,
+      "eval_sampling/importance_sampling_ratio/mean": 1.0015697360038758,
+      "eval_sampling/importance_sampling_ratio/min": 0.9188181281089782,
+      "eval_sampling/sampling_logp_difference/max": 0.10906529426574707,
+      "eval_sampling/sampling_logp_difference/mean": 0.017179742455482483,
+      "eval_steps_per_second": 1.122,
       "step": 75
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 733.2,
+      "completions/max_terminated_length": 733.2,
+      "completions/mean_length": 549.075,
+      "completions/mean_terminated_length": 549.075,
+      "completions/min_length": 395.8,
+      "completions/min_terminated_length": 395.8,
+      "entropy": 0.527910877764225,
+      "epoch": 0.0128,
+      "frac_reward_zero_std": 0.7,
+      "grad_norm": 0.255859375,
+      "kl": 0.47208923250436785,
+      "learning_rate": 9.95053821688277e-06,
+      "loss": 0.0007011178880929947,
+      "num_tokens": 2282715.0,
+      "reward": 0.05902083367109299,
+      "reward_std": 0.07722195237874985,
+      "rewards/env_goofspiel_reward/mean": 0.05902083367109299,
+      "rewards/env_goofspiel_reward/std": 0.15880293548107147,
+      "sampling/importance_sampling_ratio/max": 1.3604092836380004,
+      "sampling/importance_sampling_ratio/mean": 1.0046632289886475,
+      "sampling/importance_sampling_ratio/min": 0.7511004090309144,
+      "sampling/sampling_logp_difference/max": 0.3062611103057861,
+      "sampling/sampling_logp_difference/mean": 0.022707394510507583,
+      "step": 80,
+      "step_time": 5.533078667399787
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 732.2,
+      "completions/max_terminated_length": 732.2,
+      "completions/mean_length": 561.8875,
+      "completions/mean_terminated_length": 561.8875,
+      "completions/min_length": 408.0,
+      "completions/min_terminated_length": 408.0,
+      "entropy": 0.46153847873210907,
+      "epoch": 0.0136,
+      "frac_reward_zero_std": 0.825,
+      "grad_norm": 0.095703125,
+      "kl": 0.5197702750563622,
+      "learning_rate": 9.950513770145857e-06,
+      "loss": 0.00010828666854649782,
+      "num_tokens": 2459616.0,
+      "reward": 0.04585416615009308,
+      "reward_std": 0.057717590034008025,
+      "rewards/env_goofspiel_reward/mean": 0.04585416615009308,
+      "rewards/env_goofspiel_reward/std": 0.1589788019657135,
+      "sampling/importance_sampling_ratio/max": 1.5443368434906006,
+      "sampling/importance_sampling_ratio/mean": 1.0077369570732118,
+      "sampling/importance_sampling_ratio/min": 0.7487894654273987,
+      "sampling/sampling_logp_difference/max": 0.36205780506134033,
+      "sampling/sampling_logp_difference/mean": 0.021098615229129793,
+      "step": 85,
+      "step_time": 5.460692007999751
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 732.0,
+      "completions/max_terminated_length": 732.0,
+      "completions/mean_length": 581.36875,
+      "completions/mean_terminated_length": 581.36875,
+      "completions/min_length": 408.0,
+      "completions/min_terminated_length": 408.0,
+      "entropy": 0.48351355642080307,
+      "epoch": 0.0144,
+      "frac_reward_zero_std": 0.8375,
+      "grad_norm": 0.1630859375,
+      "kl": 0.6207657802850008,
+      "learning_rate": 9.950486694789862e-06,
+      "loss": 0.00018907544435933232,
+      "num_tokens": 2641146.0,
+      "reward": 0.026770833879709244,
+      "reward_std": 0.03856678232550621,
+      "rewards/env_goofspiel_reward/mean": 0.026770833879709244,
+      "rewards/env_goofspiel_reward/std": 0.10960558950901031,
+      "sampling/importance_sampling_ratio/max": 1.2647137641906738,
+      "sampling/importance_sampling_ratio/mean": 1.004696297645569,
+      "sampling/importance_sampling_ratio/min": 0.7099822998046875,
+      "sampling/sampling_logp_difference/max": 0.2817555904388428,
+      "sampling/sampling_logp_difference/mean": 0.022446612268686293,
+      "step": 90,
+      "step_time": 5.498646953999923
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 732.0,
+      "completions/max_terminated_length": 732.0,
+      "completions/mean_length": 549.825,
+      "completions/mean_terminated_length": 549.825,
+      "completions/min_length": 408.0,
+      "completions/min_terminated_length": 408.0,
+      "entropy": 0.5179941833019257,
+      "epoch": 0.0152,
+      "frac_reward_zero_std": 0.8125,
+      "grad_norm": 0.0908203125,
+      "kl": 0.46866228580474856,
+      "learning_rate": 9.95045699083386e-06,
+      "loss": 0.00028545891400426625,
+      "num_tokens": 2815323.0,
+      "reward": 0.03772916682064533,
+      "reward_std": 0.05388742834329605,
+      "rewards/env_goofspiel_reward/mean": 0.03772916682064533,
+      "rewards/env_goofspiel_reward/std": 0.13617317676544188,
+      "sampling/importance_sampling_ratio/max": 1.2603100776672362,
+      "sampling/importance_sampling_ratio/mean": 1.0017661929130555,
+      "sampling/importance_sampling_ratio/min": 0.7478124976158143,
+      "sampling/sampling_logp_difference/max": 0.25655815601348875,
+      "sampling/sampling_logp_difference/mean": 0.023887046799063682,
+      "step": 95,
+      "step_time": 5.659158172999559
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1003.6,
+      "completions/max_terminated_length": 1003.6,
+      "completions/mean_length": 754.59375,
+      "completions/mean_terminated_length": 754.59375,
+      "completions/min_length": 550.8,
+      "completions/min_terminated_length": 550.8,
+      "entropy": 0.5820856660604476,
+      "epoch": 0.016,
+      "frac_reward_zero_std": 0.8125,
+      "grad_norm": 0.171875,
+      "kl": 0.4048814922571182,
+      "learning_rate": 9.950424658298776e-06,
+      "loss": 0.0002957838121801615,
+      "num_tokens": 3022802.0,
+      "reward": 0.03360416684299707,
+      "reward_std": 0.0420433908700943,
+      "rewards/env_goofspiel_reward/mean": 0.03360416684299707,
+      "rewards/env_goofspiel_reward/std": 0.12295188903808593,
+      "sampling/importance_sampling_ratio/max": 1.3984624147415161,
+      "sampling/importance_sampling_ratio/mean": 0.980130672454834,
+      "sampling/importance_sampling_ratio/min": 0.6590921759605408,
+      "sampling/sampling_logp_difference/max": 0.3471600294113159,
+      "sampling/sampling_logp_difference/mean": 0.02802230753004551,
+      "step": 100,
+      "step_time": 7.31073631659965
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1075.0,
+      "completions/max_terminated_length": 1075.0,
+      "completions/mean_length": 814.73125,
+      "completions/mean_terminated_length": 814.73125,
+      "completions/min_length": 590.0,
+      "completions/min_terminated_length": 590.0,
+      "entropy": 0.6229563593864441,
+      "epoch": 0.0168,
+      "frac_reward_zero_std": 0.775,
+      "grad_norm": 0.09326171875,
+      "kl": 0.4244683228433132,
+      "learning_rate": 9.950389697207388e-06,
+      "loss": 0.00020875066984444858,
+      "num_tokens": 3239290.0,
+      "reward": 0.038875000365078446,
+      "reward_std": 0.049674246832728385,
+      "rewards/env_goofspiel_reward/mean": 0.038875000365078446,
+      "rewards/env_goofspiel_reward/std": 0.11504672318696976,
+      "sampling/importance_sampling_ratio/max": 1.3492220401763917,
+      "sampling/importance_sampling_ratio/mean": 0.9891064882278442,
+      "sampling/importance_sampling_ratio/min": 0.5561659098671476,
+      "sampling/sampling_logp_difference/max": 4.213754487037659,
+      "sampling/sampling_logp_difference/mean": 0.044166411831974985,
+      "step": 105,
+      "step_time": 7.745885893800368
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1075.6,
+      "completions/max_terminated_length": 1075.6,
+      "completions/mean_length": 814.6375,
+      "completions/mean_terminated_length": 814.6375,
+      "completions/min_length": 590.0,
+      "completions/min_terminated_length": 590.0,
+      "entropy": 0.6465200364589692,
+      "epoch": 0.0176,
+      "frac_reward_zero_std": 0.7875,
+      "grad_norm": 0.007080078125,
+      "kl": 0.3995703622698784,
+      "learning_rate": 9.950352107584324e-06,
+      "loss": 0.0007265920285135508,
+      "num_tokens": 3456558.0,
+      "reward": 0.023437499813735486,
+      "reward_std": 0.03473661988973618,
+      "rewards/env_goofspiel_reward/mean": 0.023437499813735486,
+      "rewards/env_goofspiel_reward/std": 0.0773700624704361,
+      "sampling/importance_sampling_ratio/max": 1.4152228832244873,
+      "sampling/importance_sampling_ratio/mean": 0.9911394953727722,
+      "sampling/importance_sampling_ratio/min": 0.4911388456960605,
+      "sampling/sampling_logp_difference/max": 4.677203369140625,
+      "sampling/sampling_logp_difference/mean": 0.04649800434708595,
+      "step": 110,
+      "step_time": 7.710595274399202
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1075.0,
+      "completions/max_terminated_length": 1075.0,
+      "completions/mean_length": 831.425,
+      "completions/mean_terminated_length": 831.425,
+      "completions/min_length": 590.0,
+      "completions/min_terminated_length": 590.0,
+      "entropy": 0.6319158881902694,
+      "epoch": 0.0184,
+      "frac_reward_zero_std": 0.7625,
+      "grad_norm": 0.30078125,
+      "kl": 0.4417851775884628,
+      "learning_rate": 9.950311889456064e-06,
+      "loss": -0.00014657191932201385,
+      "num_tokens": 3677316.0,
+      "reward": 0.03468749914318323,
+      "reward_std": 0.0499394167214632,
+      "rewards/env_goofspiel_reward/mean": 0.03468749914318323,
+      "rewards/env_goofspiel_reward/std": 0.10438641458749771,
+      "sampling/importance_sampling_ratio/max": 1.4034383773803711,
+      "sampling/importance_sampling_ratio/mean": 1.003822433948517,
+      "sampling/importance_sampling_ratio/min": 0.7400717735290527,
+      "sampling/sampling_logp_difference/max": 0.2535316705703735,
+      "sampling/sampling_logp_difference/mean": 0.02623956575989723,
+      "step": 115,
+      "step_time": 7.7139906279999195
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1075.2,
+      "completions/max_terminated_length": 1075.2,
+      "completions/mean_length": 809.6125,
+      "completions/mean_terminated_length": 809.6125,
+      "completions/min_length": 578.0,
+      "completions/min_terminated_length": 578.0,
+      "entropy": 0.6280775606632233,
+      "epoch": 0.0192,
+      "frac_reward_zero_std": 0.825,
+      "grad_norm": 0.1328125,
+      "kl": 0.39189435467123984,
+      "learning_rate": 9.950269042850943e-06,
+      "loss": 0.00020067014265805482,
+      "num_tokens": 3893277.0,
+      "reward": 0.028249999321997166,
+      "reward_std": 0.0342946782708168,
+      "rewards/env_goofspiel_reward/mean": 0.028249999321997166,
+      "rewards/env_goofspiel_reward/std": 0.10060491263866425,
+      "sampling/importance_sampling_ratio/max": 1.449436855316162,
+      "sampling/importance_sampling_ratio/mean": 0.9966808676719665,
+      "sampling/importance_sampling_ratio/min": 0.6293053507804871,
+      "sampling/sampling_logp_difference/max": 0.3306601524353027,
+      "sampling/sampling_logp_difference/mean": 0.027687131240963937,
+      "step": 120,
+      "step_time": 7.60252943919968
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1075.0,
+      "completions/max_terminated_length": 1075.0,
+      "completions/mean_length": 831.9125,
+      "completions/mean_terminated_length": 831.9125,
+      "completions/min_length": 590.0,
+      "completions/min_terminated_length": 590.0,
+      "entropy": 0.6203011125326157,
+      "epoch": 0.02,
+      "frac_reward_zero_std": 0.8,
+      "grad_norm": 0.0888671875,
+      "kl": 0.48651044964790346,
+      "learning_rate": 9.95022356779914e-06,
+      "loss": -4.498030175454914e-05,
+      "num_tokens": 4114505.0,
+      "reward": 0.0279999990016222,
+      "reward_std": 0.04065863937139511,
+      "rewards/env_goofspiel_reward/mean": 0.0279999990016222,
+      "rewards/env_goofspiel_reward/std": 0.09859532788395882,
+      "sampling/importance_sampling_ratio/max": 1.3767565965652466,
+      "sampling/importance_sampling_ratio/mean": 1.0073092341423036,
+      "sampling/importance_sampling_ratio/min": 0.6863486647605896,
+      "sampling/sampling_logp_difference/max": 0.2979677677154541,
+      "sampling/sampling_logp_difference/mean": 0.026996534690260886,
+      "step": 125,
+      "step_time": 7.651589208400037
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1206.4,
+      "completions/max_terminated_length": 1206.4,
+      "completions/mean_length": 933.89375,
+      "completions/mean_terminated_length": 933.89375,
+      "completions/min_length": 657.2,
+      "completions/min_terminated_length": 657.2,
+      "entropy": 0.6028641879558563,
+      "epoch": 0.0208,
+      "frac_reward_zero_std": 0.85,
+      "grad_norm": 0.12890625,
+      "kl": 0.3837214097380638,
+      "learning_rate": 9.950175464332696e-06,
+      "loss": 3.275293856859207e-05,
+      "num_tokens": 4351587.0,
+      "reward": 0.02824999988079071,
+      "reward_std": 0.040128308534622195,
+      "rewards/env_goofspiel_reward/mean": 0.02824999988079071,
+      "rewards/env_goofspiel_reward/std": 0.107171730697155,
+      "sampling/importance_sampling_ratio/max": 1.4337808609008789,
+      "sampling/importance_sampling_ratio/mean": 1.0062252044677735,
+      "sampling/importance_sampling_ratio/min": 0.7049606084823609,
+      "sampling/sampling_logp_difference/max": 0.29388277530670165,
+      "sampling/sampling_logp_difference/mean": 0.027071699127554895,
+      "step": 130,
+      "step_time": 8.72059853139981
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1403.2,
+      "completions/max_terminated_length": 1403.2,
+      "completions/mean_length": 1043.53125,
+      "completions/mean_terminated_length": 1043.53125,
+      "completions/min_length": 758.0,
+      "completions/min_terminated_length": 758.0,
+      "entropy": 0.5716616868972778,
+      "epoch": 0.0216,
+      "frac_reward_zero_std": 0.825,
+      "grad_norm": 0.11865234375,
+      "kl": 0.3439621731638908,
+      "learning_rate": 9.950124732485496e-06,
+      "loss": -0.00015461102593690158,
+      "num_tokens": 4604604.0,
+      "reward": 0.02993750013411045,
+      "reward_std": 0.04251479506492615,
+      "rewards/env_goofspiel_reward/mean": 0.02993750013411045,
+      "rewards/env_goofspiel_reward/std": 0.10386608839035034,
+      "sampling/importance_sampling_ratio/max": 1.560789942741394,
+      "sampling/importance_sampling_ratio/mean": 1.0229114413261413,
+      "sampling/importance_sampling_ratio/min": 0.656338346004486,
+      "sampling/sampling_logp_difference/max": 0.33734931945800783,
+      "sampling/sampling_logp_difference/mean": 0.026270415633916855,
+      "step": 135,
+      "step_time": 10.42263705259993
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1404.2,
+      "completions/max_terminated_length": 1404.2,
+      "completions/mean_length": 1106.9125,
+      "completions/mean_terminated_length": 1106.9125,
+      "completions/min_length": 746.4,
+      "completions/min_terminated_length": 746.4,
+      "entropy": 0.6015262037515641,
+      "epoch": 0.0224,
+      "frac_reward_zero_std": 0.7875,
+      "grad_norm": 0.1142578125,
+      "kl": 0.4554178059101105,
+      "learning_rate": 9.95007137229328e-06,
+      "loss": 4.9450411461293696e-05,
+      "num_tokens": 4870794.0,
+      "reward": 0.02393750089686364,
+      "reward_std": 0.03491339806932956,
+      "rewards/env_goofspiel_reward/mean": 0.02393750089686364,
+      "rewards/env_goofspiel_reward/std": 0.07218290558084846,
+      "sampling/importance_sampling_ratio/max": 1.4548166275024415,
+      "sampling/importance_sampling_ratio/mean": 0.9814130544662476,
+      "sampling/importance_sampling_ratio/min": 0.6002501428127289,
+      "sampling/sampling_logp_difference/max": 0.33309857845306395,
+      "sampling/sampling_logp_difference/mean": 0.028818363696336745,
+      "step": 140,
+      "step_time": 10.392815717999474
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1403.4,
+      "completions/max_terminated_length": 1403.4,
+      "completions/mean_length": 1064.275,
+      "completions/mean_terminated_length": 1064.275,
+      "completions/min_length": 746.6,
+      "completions/min_terminated_length": 746.6,
+      "entropy": 0.5568872570991517,
+      "epoch": 0.0232,
+      "frac_reward_zero_std": 0.775,
+      "grad_norm": 0.2041015625,
+      "kl": 0.3555284239351749,
+      "learning_rate": 9.950015383793636e-06,
+      "loss": -0.00010267798788845539,
+      "num_tokens": 5127626.0,
+      "reward": 0.03343750163912773,
+      "reward_std": 0.04799487330019474,
+      "rewards/env_goofspiel_reward/mean": 0.03343750163912773,
+      "rewards/env_goofspiel_reward/std": 0.10812449753284455,
+      "sampling/importance_sampling_ratio/max": 1.587186908721924,
+      "sampling/importance_sampling_ratio/mean": 1.0198248624801636,
+      "sampling/importance_sampling_ratio/min": 0.7297749638557434,
+      "sampling/sampling_logp_difference/max": 0.2695728540420532,
+      "sampling/sampling_logp_difference/mean": 0.0254237774759531,
+      "step": 145,
+      "step_time": 10.32607021879976
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1400.4,
+      "completions/max_terminated_length": 1400.4,
+      "completions/mean_length": 1040.89375,
+      "completions/mean_terminated_length": 1040.89375,
+      "completions/min_length": 758.0,
+      "completions/min_terminated_length": 758.0,
+      "entropy": 0.5438663050532341,
+      "epoch": 0.024,
+      "frac_reward_zero_std": 0.8,
+      "grad_norm": 0.11181640625,
+      "kl": 0.313924690335989,
+      "learning_rate": 9.949956767026006e-06,
+      "loss": 0.0002234043786302209,
+      "num_tokens": 5379923.0,
+      "reward": 0.03181250132620335,
+      "reward_std": 0.0451664462685585,
+      "rewards/env_goofspiel_reward/mean": 0.03181250132620335,
+      "rewards/env_goofspiel_reward/std": 0.10608797073364258,
+      "sampling/importance_sampling_ratio/max": 1.3631083726882935,
+      "sampling/importance_sampling_ratio/mean": 1.0006531119346618,
+      "sampling/importance_sampling_ratio/min": 0.691138219833374,
+      "sampling/sampling_logp_difference/max": 0.26457092761993406,
+      "sampling/sampling_logp_difference/mean": 0.024369171261787413,
+      "step": 150,
+      "step_time": 10.337828036600513
+    },
+    {
+      "epoch": 0.024,
+      "eval_clip_ratio/high_max": 0.0,
+      "eval_clip_ratio/high_mean": 0.0,
+      "eval_clip_ratio/low_mean": 0.0,
+      "eval_clip_ratio/low_min": 0.0,
+      "eval_clip_ratio/region_mean": 0.0,
+      "eval_completions/clipped_ratio": 0.0,
+      "eval_completions/max_length": 1167.6,
+      "eval_completions/max_terminated_length": 1167.6,
+      "eval_completions/mean_length": 1085.75,
+      "eval_completions/mean_terminated_length": 1085.75,
+      "eval_completions/min_length": 1003.6,
+      "eval_completions/min_terminated_length": 1003.6,
+      "eval_entropy": 0.5619663238525391,
+      "eval_frac_reward_zero_std": 0.9,
+      "eval_kl": 0.4370845973491669,
+      "eval_loss": -0.00014827963605057448,
+      "eval_num_tokens": 5379923.0,
+      "eval_reward": -0.0004999999888241291,
+      "eval_reward_std": 0.0007071067579090595,
+      "eval_rewards/env_goofspiel_reward/mean": -0.0004999999888241291,
+      "eval_rewards/env_goofspiel_reward/std": 0.0009999999776482583,
+      "eval_runtime": 4.3907,
+      "eval_samples_per_second": 2.278,
+      "eval_sampling/importance_sampling_ratio/max": 1.2002264738082886,
+      "eval_sampling/importance_sampling_ratio/mean": 1.0190080761909486,
+      "eval_sampling/importance_sampling_ratio/min": 0.8775287628173828,
+      "eval_sampling/sampling_logp_difference/max": 0.19612762928009034,
+      "eval_sampling/sampling_logp_difference/mean": 0.025080177932977676,
+      "eval_steps_per_second": 0.683,
+      "step": 150
+    },
+    {
+      "epoch": 0.02432,
+      "eval_clip_ratio/high_max": 0.0,
+      "eval_clip_ratio/high_mean": 0.0,
+      "eval_clip_ratio/low_mean": 0.0,
+      "eval_clip_ratio/low_min": 0.0,
+      "eval_clip_ratio/region_mean": 0.0,
+      "eval_completions/clipped_ratio": 0.0,
+      "eval_completions/max_length": 1166.0,
+      "eval_completions/max_terminated_length": 1166.0,
+      "eval_completions/mean_length": 1082.75,
+      "eval_completions/mean_terminated_length": 1082.75,
+      "eval_completions/min_length": 999.8,
+      "eval_completions/min_terminated_length": 999.8,
+      "eval_entropy": 0.5707040071487427,
+      "eval_frac_reward_zero_std": 1.0,
+      "eval_kl": 0.40999372601509093,
+      "eval_loss": 3.846790423267521e-05,
+      "eval_num_tokens": 5476501.0,
+      "eval_reward": 0.06000000238418579,
+      "eval_reward_std": 0.0,
+      "eval_rewards/env_goofspiel_reward/mean": 0.06000000238418579,
+      "eval_rewards/env_goofspiel_reward/std": 0.06928203105926514,
+      "eval_runtime": 4.0973,
+      "eval_samples_per_second": 2.441,
+      "eval_sampling/importance_sampling_ratio/max": 1.1712106943130494,
+      "eval_sampling/importance_sampling_ratio/mean": 1.011259377002716,
+      "eval_sampling/importance_sampling_ratio/min": 0.8288854002952576,
+      "eval_sampling/sampling_logp_difference/max": 0.17412886619567872,
+      "eval_sampling/sampling_logp_difference/mean": 0.024767952039837837,
+      "eval_steps_per_second": 0.732,
+      "step": 152
     }
   ],
   "logging_steps": 5,
   "max_steps": 18750,
+  "num_input_tokens_seen": 5476501,
   "num_train_epochs": 3,
   "save_steps": 500,
   "stateful_callbacks": {
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
   "total_flos": 0.0,
+  "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:906bc07f18d85f3fdbe47d01e60bbe6f967852d19caecc88d502ce07c5e4aa78
 size 7185

 version https://git-lfs.github.com/spec/v1
+oid sha256:1b300496f72b512d9eb82d58bc70e9cfecf1e6725146e612c791121039cde76d
 size 7185