full-state checkpoint 10-percent (step 75)

Browse files

Files changed (7) hide show

ckpt-10-percent/adapter_config.json +4 -4
ckpt-10-percent/adapter_model.safetensors +1 -1
ckpt-10-percent/optimizer.pt +3 -0
ckpt-10-percent/rng_state.pth +3 -0
ckpt-10-percent/scheduler.pt +3 -0
ckpt-10-percent/trainer_state.json +1662 -0
ckpt-10-percent/training_args.bin +1 -1

ckpt-10-percent/adapter_config.json CHANGED Viewed

@@ -33,13 +33,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "v_proj",
     "up_proj",
-    "q_proj",
-    "k_proj",
     "o_proj",
     "gate_proj",
-    "down_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "up_proj",
     "o_proj",
     "gate_proj",
+    "down_proj",
+    "v_proj",
+    "k_proj",
+    "q_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

ckpt-10-percent/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:284a02ea2fa500520f982be5d640b88cf69df89613a9d08b35f3c03477166ae8
 size 528550256

 version https://git-lfs.github.com/spec/v1
+oid sha256:0f59456b130c136a1e74d092ac27b7e24d7bd6a28968f8e4d30ecf1dd2f2a6af
 size 528550256

ckpt-10-percent/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:70f986b0e013e0c8a3a70c9c0465167f804fd40e54dc5bcfca3169f0237c29a6
+size 268963141

ckpt-10-percent/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f3384fda721d87cf13c70812a8bea527841773ed994afaaf23bda164b902877b
+size 14709

ckpt-10-percent/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:620e365c24703d8eb8dcba3ff0a9ceabbb8471df3a45aaf4beb33a3f78143275
+size 1465

ckpt-10-percent/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1662 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.2,
+  "eval_steps": 500,
+  "global_step": 75,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "completion_length": 390.8525085449219,
+      "completions/clipped_ratio": 0.022499999031424522,
+      "completions/max_length": 2048.0,
+      "completions/max_terminated_length": 1494.0,
+      "completions/mean_length": 391.8299865722656,
+      "completions/mean_terminated_length": 353.70843505859375,
+      "completions/min_length": 36.0,
+      "completions/min_terminated_length": 36.0,
+      "epoch": 0.0026666666666666666,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.23882409930229187,
+      "kl": 0.0,
+      "learning_rate": 1e-05,
+      "loss": -0.0,
+      "num_tokens": 274622.0,
+      "reward": -0.3036116659641266,
+      "reward_std": 1.1926226615905762,
+      "rewards/multidomain_reward_func/mean": -0.3036116659641266,
+      "rewards/multidomain_reward_func/std": 1.5280684232711792,
+      "step": 1
+    },
+    {
+      "completion_length": 429.7850082397461,
+      "completions/clipped_ratio": 0.042500000447034836,
+      "completions/max_length": 2048.0,
+      "completions/max_terminated_length": 1361.0,
+      "completions/mean_length": 430.74249267578125,
+      "completions/mean_terminated_length": 358.9582214355469,
+      "completions/min_length": 18.0,
+      "completions/min_terminated_length": 18.0,
+      "epoch": 0.005333333333333333,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.2470335215330124,
+      "kl": 0.0,
+      "learning_rate": 9.986666666666667e-06,
+      "loss": 0.0,
+      "num_tokens": 571689.0,
+      "reward": -0.1849958449602127,
+      "reward_std": 1.1945927143096924,
+      "rewards/multidomain_reward_func/mean": -0.1849958449602127,
+      "rewards/multidomain_reward_func/std": 1.7641037702560425,
+      "step": 2
+    },
+    {
+      "completion_length": 469.2000045776367,
+      "completions/clipped_ratio": 0.0625,
+      "completions/max_length": 2048.0,
+      "completions/max_terminated_length": 1267.0,
+      "completions/mean_length": 470.1374816894531,
+      "completions/mean_terminated_length": 364.9466552734375,
+      "completions/min_length": 79.0,
+      "completions/min_terminated_length": 79.0,
+      "epoch": 0.008,
+      "frac_reward_zero_std": 0.09999999403953552,
+      "grad_norm": 0.2603771984577179,
+      "kl": 0.0,
+      "learning_rate": 9.973333333333333e-06,
+      "loss": -0.0,
+      "num_tokens": 898834.0,
+      "reward": -0.8332051634788513,
+      "reward_std": 0.9539631605148315,
+      "rewards/multidomain_reward_func/mean": -0.8332051038742065,
+      "rewards/multidomain_reward_func/std": 2.1196253299713135,
+      "step": 3
+    },
+    {
+      "completion_length": 391.4550064086914,
+      "completions/clipped_ratio": 0.004999999888241291,
+      "completions/max_length": 2048.0,
+      "completions/max_terminated_length": 1078.0,
+      "completions/mean_length": 392.4499816894531,
+      "completions/mean_terminated_length": 384.1306457519531,
+      "completions/min_length": 63.0,
+      "completions/min_terminated_length": 63.0,
+      "epoch": 0.010666666666666666,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.30947721004486084,
+      "kl": 0.0,
+      "learning_rate": 9.960000000000001e-06,
+      "loss": -0.0,
+      "num_tokens": 1170514.0,
+      "reward": 0.25277450680732727,
+      "reward_std": 0.9387752413749695,
+      "rewards/multidomain_reward_func/mean": 0.25277450680732727,
+      "rewards/multidomain_reward_func/std": 1.2881438732147217,
+      "step": 4
+    },
+    {
+      "completion_length": 414.002507019043,
+      "completions/clipped_ratio": 0.01249999925494194,
+      "completions/max_length": 2048.0,
+      "completions/max_terminated_length": 1733.0,
+      "completions/mean_length": 414.989990234375,
+      "completions/mean_terminated_length": 394.3190002441406,
+      "completions/min_length": 11.0,
+      "completions/min_terminated_length": 11.0,
+      "epoch": 0.013333333333333334,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.23343618214130402,
+      "kl": 0.0,
+      "learning_rate": 9.946666666666667e-06,
+      "loss": -0.0,
+      "num_tokens": 1454280.0,
+      "reward": 0.15532104671001434,
+      "reward_std": 0.8334585428237915,
+      "rewards/multidomain_reward_func/mean": 0.15532104671001434,
+      "rewards/multidomain_reward_func/std": 1.405861258506775,
+      "step": 5
+    },
+    {
+      "completion_length": 417.9025054931641,
+      "completions/clipped_ratio": 0.014999999664723873,
+      "completions/max_length": 2048.0,
+      "completions/max_terminated_length": 1255.0,
+      "completions/mean_length": 418.8874816894531,
+      "completions/mean_terminated_length": 394.07867431640625,
+      "completions/min_length": 36.0,
+      "completions/min_terminated_length": 36.0,
+      "epoch": 0.016,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.15190428495407104,
+      "kl": 0.0,
+      "learning_rate": 9.933333333333334e-06,
+      "loss": -0.0,
+      "num_tokens": 1732945.0,
+      "reward": 0.1933300942182541,
+      "reward_std": 1.0449475049972534,
+      "rewards/multidomain_reward_func/mean": 0.19333010911941528,
+      "rewards/multidomain_reward_func/std": 1.4342669248580933,
+      "step": 6
+    },
+    {
+      "completion_length": 421.90250396728516,
+      "completions/clipped_ratio": 0.007499999832361937,
+      "completions/max_length": 2048.0,
+      "completions/max_terminated_length": 1837.0,
+      "completions/mean_length": 422.8949890136719,
+      "completions/mean_terminated_length": 410.6145935058594,
+      "completions/min_length": 18.0,
+      "completions/min_terminated_length": 18.0,
+      "epoch": 0.018666666666666668,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.1601637899875641,
+      "kl": 0.0,
+      "learning_rate": 9.920000000000002e-06,
+      "loss": 0.0,
+      "num_tokens": 2018863.0,
+      "reward": 0.14378485083580017,
+      "reward_std": 0.9768227934837341,
+      "rewards/multidomain_reward_func/mean": 0.14378486573696136,
+      "rewards/multidomain_reward_func/std": 1.4048492908477783,
+      "step": 7
+    },
+    {
+      "completion_length": 391.8425033569336,
+      "completions/clipped_ratio": 0.004999999888241291,
+      "completions/max_length": 2048.0,
+      "completions/max_terminated_length": 1118.0,
+      "completions/mean_length": 392.8374938964844,
+      "completions/mean_terminated_length": 384.5201110839844,
+      "completions/min_length": 33.0,
+      "completions/min_terminated_length": 33.0,
+      "epoch": 0.021333333333333333,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.31883543729782104,
+      "kl": 0.0,
+      "learning_rate": 9.906666666666668e-06,
+      "loss": 0.0,
+      "num_tokens": 2290948.0,
+      "reward": 0.26540714502334595,
+      "reward_std": 0.9163522720336914,
+      "rewards/multidomain_reward_func/mean": 0.26540714502334595,
+      "rewards/multidomain_reward_func/std": 1.2766904830932617,
+      "step": 8
+    },
+    {
+      "completion_length": 426.43250579833983,
+      "completions/clipped_ratio": 0.007499999832361937,
+      "completions/max_length": 2048.0,
+      "completions/max_terminated_length": 1471.0,
+      "completions/mean_length": 427.42498779296875,
+      "completions/mean_terminated_length": 415.1788330078125,
+      "completions/min_length": 36.0,
+      "completions/min_terminated_length": 36.0,
+      "epoch": 0.024,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.1413382887840271,
+      "kl": 0.0,
+      "learning_rate": 9.893333333333334e-06,
+      "loss": 0.0,
+      "num_tokens": 2583858.0,
+      "reward": 0.23617644608020782,
+      "reward_std": 0.9365644454956055,
+      "rewards/multidomain_reward_func/mean": 0.23617644608020782,
+      "rewards/multidomain_reward_func/std": 1.3539695739746094,
+      "step": 9
+    },
+    {
+      "completion_length": 467.14500427246094,
+      "completions/clipped_ratio": 0.009999999776482582,
+      "completions/max_length": 2048.0,
+      "completions/max_terminated_length": 1490.0,
+      "completions/mean_length": 468.1349792480469,
+      "completions/mean_terminated_length": 452.1767578125,
+      "completions/min_length": 97.0,
+      "completions/min_terminated_length": 97.0,
+      "epoch": 0.02666666666666667,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.17736880481243134,
+      "kl": 0.0,
+      "learning_rate": 9.88e-06,
+      "loss": -0.0,
+      "num_tokens": 2908252.0,
+      "reward": 0.10222619771957397,
+      "reward_std": 0.9887304306030273,
+      "rewards/multidomain_reward_func/mean": 0.10222619771957397,
+      "rewards/multidomain_reward_func/std": 1.4667627811431885,
+      "step": 10
+    },
+    {
+      "completion_length": 421.3575073242188,
+      "completions/clipped_ratio": 0.007499999832361937,
+      "completions/max_length": 2048.0,
+      "completions/max_terminated_length": 1658.0,
+      "completions/mean_length": 422.3499755859375,
+      "completions/mean_terminated_length": 410.0654602050781,
+      "completions/min_length": 97.0,
+      "completions/min_terminated_length": 97.0,
+      "epoch": 0.029333333333333333,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.1340264528989792,
+      "kl": 0.0,
+      "learning_rate": 9.866666666666668e-06,
+      "loss": 0.0,
+      "num_tokens": 3198092.0,
+      "reward": 0.30930107831954956,
+      "reward_std": 0.7165582180023193,
+      "rewards/multidomain_reward_func/mean": 0.3093010187149048,
+      "rewards/multidomain_reward_func/std": 1.2975008487701416,
+      "step": 11
+    },
+    {
+      "completion_length": 418.21250610351564,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1392.0,
+      "completions/max_terminated_length": 1392.0,
+      "completions/mean_length": 419.2124938964844,
+      "completions/mean_terminated_length": 419.2124938964844,
+      "completions/min_length": 115.0,
+      "completions/min_terminated_length": 115.0,
+      "epoch": 0.032,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.16614454984664917,
+      "kl": 0.0,
+      "learning_rate": 9.853333333333334e-06,
+      "loss": 0.0,
+      "num_tokens": 3487357.0,
+      "reward": 0.550111711025238,
+      "reward_std": 0.7317887544631958,
+      "rewards/multidomain_reward_func/mean": 0.550111711025238,
+      "rewards/multidomain_reward_func/std": 1.0946627855300903,
+      "step": 12
+    },
+    {
+      "completion_length": 419.3975082397461,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1651.0,
+      "completions/max_terminated_length": 1651.0,
+      "completions/mean_length": 420.3974914550781,
+      "completions/mean_terminated_length": 420.3974914550781,
+      "completions/min_length": 73.0,
+      "completions/min_terminated_length": 73.0,
+      "epoch": 0.034666666666666665,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.1116686686873436,
+      "kl": 0.0,
+      "learning_rate": 9.84e-06,
+      "loss": 0.0,
+      "num_tokens": 3783606.0,
+      "reward": 0.5550642609596252,
+      "reward_std": 0.6016712188720703,
+      "rewards/multidomain_reward_func/mean": 0.5550642609596252,
+      "rewards/multidomain_reward_func/std": 1.0916095972061157,
+      "step": 13
+    },
+    {
+      "completion_length": 426.627507019043,
+      "completions/clipped_ratio": 0.007499999832361937,
+      "completions/max_length": 2048.0,
+      "completions/max_terminated_length": 1428.0,
+      "completions/mean_length": 427.6199951171875,
+      "completions/mean_terminated_length": 415.37530517578125,
+      "completions/min_length": 104.0,
+      "completions/min_terminated_length": 104.0,
+      "epoch": 0.037333333333333336,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.13436946272850037,
+      "kl": 0.0,
+      "learning_rate": 9.826666666666667e-06,
+      "loss": 0.0,
+      "num_tokens": 4083764.0,
+      "reward": 0.466512531042099,
+      "reward_std": 0.7918379306793213,
+      "rewards/multidomain_reward_func/mean": 0.466512531042099,
+      "rewards/multidomain_reward_func/std": 1.2242188453674316,
+      "step": 14
+    },
+    {
+      "completion_length": 378.4425079345703,
+      "completions/clipped_ratio": 0.0024999999441206455,
+      "completions/max_length": 2048.0,
+      "completions/max_terminated_length": 938.0,
+      "completions/mean_length": 379.44000244140625,
+      "completions/mean_terminated_length": 375.2581481933594,
+      "completions/min_length": 73.0,
+      "completions/min_terminated_length": 73.0,
+      "epoch": 0.04,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.12867581844329834,
+      "kl": 0.0,
+      "learning_rate": 9.813333333333333e-06,
+      "loss": 0.0,
+      "num_tokens": 4345610.0,
+      "reward": 0.5736742615699768,
+      "reward_std": 0.6882736086845398,
+      "rewards/multidomain_reward_func/mean": 0.5736742615699768,
+      "rewards/multidomain_reward_func/std": 1.0166397094726562,
+      "step": 15
+    },
+    {
+      "completion_length": 409.86500854492186,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1269.0,
+      "completions/max_terminated_length": 1269.0,
+      "completions/mean_length": 410.864990234375,
+      "completions/mean_terminated_length": 410.864990234375,
+      "completions/min_length": 98.0,
+      "completions/min_terminated_length": 98.0,
+      "epoch": 0.042666666666666665,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.1019008606672287,
+      "kl": 0.0,
+      "learning_rate": 9.800000000000001e-06,
+      "loss": -0.0,
+      "num_tokens": 4628316.0,
+      "reward": 0.7713325619697571,
+      "reward_std": 0.6617187857627869,
+      "rewards/multidomain_reward_func/mean": 0.7713325023651123,
+      "rewards/multidomain_reward_func/std": 1.1467927694320679,
+      "step": 16
+    },
+    {
+      "completion_length": 425.4700073242187,
+      "completions/clipped_ratio": 0.0024999999441206455,
+      "completions/max_length": 2048.0,
+      "completions/max_terminated_length": 1551.0,
+      "completions/mean_length": 426.4674987792969,
+      "completions/mean_terminated_length": 422.40350341796875,
+      "completions/min_length": 93.0,
+      "completions/min_terminated_length": 93.0,
+      "epoch": 0.04533333333333334,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.106789730489254,
+      "kl": 0.0,
+      "learning_rate": 9.786666666666667e-06,
+      "loss": 0.0,
+      "num_tokens": 4928883.0,
+      "reward": 0.5637399554252625,
+      "reward_std": 0.7021534442901611,
+      "rewards/multidomain_reward_func/mean": 0.5637399554252625,
+      "rewards/multidomain_reward_func/std": 1.0422096252441406,
+      "step": 17
+    },
+    {
+      "completion_length": 431.8600051879883,
+      "completions/clipped_ratio": 0.0024999999441206455,
+      "completions/max_length": 2048.0,
+      "completions/max_terminated_length": 1521.0,
+      "completions/mean_length": 432.85748291015625,
+      "completions/mean_terminated_length": 428.80950927734375,
+      "completions/min_length": 105.0,
+      "completions/min_terminated_length": 105.0,
+      "epoch": 0.048,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.12454589456319809,
+      "kl": 0.0,
+      "learning_rate": 9.773333333333335e-06,
+      "loss": 0.0,
+      "num_tokens": 5226216.0,
+      "reward": 0.5953689217567444,
+      "reward_std": 0.5794697403907776,
+      "rewards/multidomain_reward_func/mean": 0.5953689217567444,
+      "rewards/multidomain_reward_func/std": 1.0605465173721313,
+      "step": 18
+    },
+    {
+      "completion_length": 412.7725082397461,
+      "completions/clipped_ratio": 0.004999999888241291,
+      "completions/max_length": 2048.0,
+      "completions/max_terminated_length": 1357.0,
+      "completions/mean_length": 413.7674865722656,
+      "completions/mean_terminated_length": 405.5552673339844,
+      "completions/min_length": 92.0,
+      "completions/min_terminated_length": 92.0,
+      "epoch": 0.050666666666666665,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.13599112629890442,
+      "kl": 0.0,
+      "learning_rate": 9.760000000000001e-06,
+      "loss": -0.0,
+      "num_tokens": 5512113.0,
+      "reward": 0.39229491353034973,
+      "reward_std": 0.8084317445755005,
+      "rewards/multidomain_reward_func/mean": 0.39229488372802734,
+      "rewards/multidomain_reward_func/std": 1.3224574327468872,
+      "step": 19
+    },
+    {
+      "completion_length": 387.01250610351565,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1417.0,
+      "completions/max_terminated_length": 1417.0,
+      "completions/mean_length": 388.0124816894531,
+      "completions/mean_terminated_length": 388.0124816894531,
+      "completions/min_length": 109.0,
+      "completions/min_terminated_length": 109.0,
+      "epoch": 0.05333333333333334,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.12738779187202454,
+      "kl": 0.0,
+      "learning_rate": 9.746666666666668e-06,
+      "loss": 0.0,
+      "num_tokens": 5778268.0,
+      "reward": 0.5316053628921509,
+      "reward_std": 0.7337101697921753,
+      "rewards/multidomain_reward_func/mean": 0.5316053628921509,
+      "rewards/multidomain_reward_func/std": 1.270464539527893,
+      "step": 20
+    },
+    {
+      "completion_length": 413.6300018310547,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1348.0,
+      "completions/max_terminated_length": 1348.0,
+      "completions/mean_length": 414.6300048828125,
+      "completions/mean_terminated_length": 414.6300048828125,
+      "completions/min_length": 108.0,
+      "completions/min_terminated_length": 108.0,
+      "epoch": 0.056,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.11424646526575089,
+      "kl": 0.0,
+      "learning_rate": 9.733333333333334e-06,
+      "loss": 0.0,
+      "num_tokens": 6069330.0,
+      "reward": 0.5331506133079529,
+      "reward_std": 0.7416218519210815,
+      "rewards/multidomain_reward_func/mean": 0.5331505537033081,
+      "rewards/multidomain_reward_func/std": 1.2239094972610474,
+      "step": 21
+    },
+    {
+      "completion_length": 369.3925064086914,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1257.0,
+      "completions/max_terminated_length": 1257.0,
+      "completions/mean_length": 370.3924865722656,
+      "completions/mean_terminated_length": 370.3924865722656,
+      "completions/min_length": 93.0,
+      "completions/min_terminated_length": 93.0,
+      "epoch": 0.058666666666666666,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.12145662307739258,
+      "kl": 0.0,
+      "learning_rate": 9.72e-06,
+      "loss": 0.0,
+      "num_tokens": 6327207.0,
+      "reward": 0.6458982229232788,
+      "reward_std": 0.6354836821556091,
+      "rewards/multidomain_reward_func/mean": 0.6458981037139893,
+      "rewards/multidomain_reward_func/std": 0.9722529053688049,
+      "step": 22
+    },
+    {
+      "completion_length": 427.4825103759766,
+      "completions/clipped_ratio": 0.0024999999441206455,
+      "completions/max_length": 2048.0,
+      "completions/max_terminated_length": 1758.0,
+      "completions/mean_length": 428.47998046875,
+      "completions/mean_terminated_length": 424.4210510253906,
+      "completions/min_length": 114.0,
+      "completions/min_terminated_length": 114.0,
+      "epoch": 0.06133333333333333,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.11638902127742767,
+      "kl": 0.0,
+      "learning_rate": 9.706666666666668e-06,
+      "loss": 0.0,
+      "num_tokens": 6623079.0,
+      "reward": 0.678668737411499,
+      "reward_std": 0.6608802676200867,
+      "rewards/multidomain_reward_func/mean": 0.678668737411499,
+      "rewards/multidomain_reward_func/std": 1.0120640993118286,
+      "step": 23
+    },
+    {
+      "completion_length": 450.40000915527344,
+      "completions/clipped_ratio": 0.017500000074505806,
+      "completions/max_length": 2048.0,
+      "completions/max_terminated_length": 1979.0,
+      "completions/mean_length": 451.3824768066406,
+      "completions/mean_terminated_length": 422.94403076171875,
+      "completions/min_length": 53.0,
+      "completions/min_terminated_length": 53.0,
+      "epoch": 0.064,
+      "frac_reward_zero_std": 0.09999999403953552,
+      "grad_norm": 0.11742237955331802,
+      "kl": 0.0,
+      "learning_rate": 9.693333333333334e-06,
+      "loss": 0.0,
+      "num_tokens": 6931172.0,
+      "reward": 0.08583255857229233,
+      "reward_std": 0.5651226043701172,
+      "rewards/multidomain_reward_func/mean": 0.08583252131938934,
+      "rewards/multidomain_reward_func/std": 1.92720365524292,
+      "step": 24
+    },
+    {
+      "completion_length": 414.2875061035156,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1183.0,
+      "completions/max_terminated_length": 1183.0,
+      "completions/mean_length": 415.2874755859375,
+      "completions/mean_terminated_length": 415.2874755859375,
+      "completions/min_length": 96.0,
+      "completions/min_terminated_length": 96.0,
+      "epoch": 0.06666666666666667,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.11120733618736267,
+      "kl": 0.0,
+      "learning_rate": 9.68e-06,
+      "loss": -0.0,
+      "num_tokens": 7209577.0,
+      "reward": 0.6717811226844788,
+      "reward_std": 0.5638630390167236,
+      "rewards/multidomain_reward_func/mean": 0.6717811822891235,
+      "rewards/multidomain_reward_func/std": 1.0027689933776855,
+      "step": 25
+    },
+    {
+      "completion_length": 445.37500762939453,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1532.0,
+      "completions/max_terminated_length": 1532.0,
+      "completions/mean_length": 446.375,
+      "completions/mean_terminated_length": 446.375,
+      "completions/min_length": 147.0,
+      "completions/min_terminated_length": 147.0,
+      "epoch": 0.06933333333333333,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.10715946555137634,
+      "kl": 0.0,
+      "learning_rate": 9.666666666666667e-06,
+      "loss": 0.0,
+      "num_tokens": 7514747.0,
+      "reward": 0.6113654971122742,
+      "reward_std": 0.6842783093452454,
+      "rewards/multidomain_reward_func/mean": 0.6113654971122742,
+      "rewards/multidomain_reward_func/std": 1.0898476839065552,
+      "step": 26
+    },
+    {
+      "completion_length": 404.92500762939454,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1058.0,
+      "completions/max_terminated_length": 1058.0,
+      "completions/mean_length": 405.92498779296875,
+      "completions/mean_terminated_length": 405.92498779296875,
+      "completions/min_length": 115.0,
+      "completions/min_terminated_length": 115.0,
+      "epoch": 0.072,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.10682351142168045,
+      "kl": 0.0,
+      "learning_rate": 9.653333333333335e-06,
+      "loss": 0.0,
+      "num_tokens": 7779577.0,
+      "reward": 0.521935760974884,
+      "reward_std": 0.5503350496292114,
+      "rewards/multidomain_reward_func/mean": 0.5219358205795288,
+      "rewards/multidomain_reward_func/std": 1.1004360914230347,
+      "step": 27
+    },
+    {
+      "completion_length": 462.3850036621094,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1845.0,
+      "completions/max_terminated_length": 1845.0,
+      "completions/mean_length": 463.3849792480469,
+      "completions/mean_terminated_length": 463.3849792480469,
+      "completions/min_length": 120.0,
+      "completions/min_terminated_length": 120.0,
+      "epoch": 0.07466666666666667,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.1338387280702591,
+      "kl": 0.0,
+      "learning_rate": 9.640000000000001e-06,
+      "loss": 0.0,
+      "num_tokens": 8087041.0,
+      "reward": 0.6461222767829895,
+      "reward_std": 0.7280974984169006,
+      "rewards/multidomain_reward_func/mean": 0.6461222767829895,
+      "rewards/multidomain_reward_func/std": 1.1095894575119019,
+      "step": 28
+    },
+    {
+      "completion_length": 466.19500732421875,
+      "completions/clipped_ratio": 0.0024999999441206455,
+      "completions/max_length": 2048.0,
+      "completions/max_terminated_length": 1823.0,
+      "completions/mean_length": 467.1924743652344,
+      "completions/mean_terminated_length": 463.2305603027344,
+      "completions/min_length": 125.0,
+      "completions/min_terminated_length": 125.0,
+      "epoch": 0.07733333333333334,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.11648301780223846,
+      "kl": 0.0,
+      "learning_rate": 9.626666666666667e-06,
+      "loss": 0.0,
+      "num_tokens": 8389638.0,
+      "reward": 0.763523519039154,
+      "reward_std": 0.6302433013916016,
+      "rewards/multidomain_reward_func/mean": 0.7635235786437988,
+      "rewards/multidomain_reward_func/std": 0.9619850516319275,
+      "step": 29
+    },
+    {
+      "completion_length": 463.572509765625,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1148.0,
+      "completions/max_terminated_length": 1148.0,
+      "completions/mean_length": 464.5724792480469,
+      "completions/mean_terminated_length": 464.5724792480469,
+      "completions/min_length": 118.0,
+      "completions/min_terminated_length": 118.0,
+      "epoch": 0.08,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.10752178728580475,
+      "kl": 0.0,
+      "learning_rate": 9.613333333333335e-06,
+      "loss": -0.0,
+      "num_tokens": 8699697.0,
+      "reward": 0.6276810169219971,
+      "reward_std": 0.6993708610534668,
+      "rewards/multidomain_reward_func/mean": 0.6276810169219971,
+      "rewards/multidomain_reward_func/std": 1.024697184562683,
+      "step": 30
+    },
+    {
+      "completion_length": 433.10250701904295,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1404.0,
+      "completions/max_terminated_length": 1404.0,
+      "completions/mean_length": 434.10247802734375,
+      "completions/mean_terminated_length": 434.10247802734375,
+      "completions/min_length": 152.0,
+      "completions/min_terminated_length": 152.0,
+      "epoch": 0.08266666666666667,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.1253821700811386,
+      "kl": 0.0,
+      "learning_rate": 9.600000000000001e-06,
+      "loss": 0.0,
+      "num_tokens": 8978008.0,
+      "reward": 0.7020823359489441,
+      "reward_std": 0.6984261274337769,
+      "rewards/multidomain_reward_func/mean": 0.7020823955535889,
+      "rewards/multidomain_reward_func/std": 1.1664484739303589,
+      "step": 31
+    },
+    {
+      "completion_length": 493.20751037597654,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1631.0,
+      "completions/max_terminated_length": 1631.0,
+      "completions/mean_length": 494.2074890136719,
+      "completions/mean_terminated_length": 494.2074890136719,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 0.08533333333333333,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.28045377135276794,
+      "kl": 0.0,
+      "learning_rate": 9.586666666666667e-06,
+      "loss": 0.0,
+      "num_tokens": 9303251.0,
+      "reward": 0.36521032452583313,
+      "reward_std": 0.7486643195152283,
+      "rewards/multidomain_reward_func/mean": 0.3652103543281555,
+      "rewards/multidomain_reward_func/std": 1.215452790260315,
+      "step": 32
+    },
+    {
+      "completion_length": 459.21251068115237,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1346.0,
+      "completions/max_terminated_length": 1346.0,
+      "completions/mean_length": 460.2124938964844,
+      "completions/mean_terminated_length": 460.2124938964844,
+      "completions/min_length": 114.0,
+      "completions/min_terminated_length": 114.0,
+      "epoch": 0.088,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.09916597604751587,
+      "kl": 0.0,
+      "learning_rate": 9.573333333333334e-06,
+      "loss": 0.0,
+      "num_tokens": 9600216.0,
+      "reward": 0.6524021625518799,
+      "reward_std": 0.6229043006896973,
+      "rewards/multidomain_reward_func/mean": 0.6524021625518799,
+      "rewards/multidomain_reward_func/std": 1.1347594261169434,
+      "step": 33
+    },
+    {
+      "completion_length": 478.38000640869143,
+      "completions/clipped_ratio": 0.0024999999441206455,
+      "completions/max_length": 2048.0,
+      "completions/max_terminated_length": 1426.0,
+      "completions/mean_length": 479.37750244140625,
+      "completions/mean_terminated_length": 475.44610595703125,
+      "completions/min_length": 116.0,
+      "completions/min_terminated_length": 116.0,
+      "epoch": 0.09066666666666667,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.09763700515031815,
+      "kl": 0.0,
+      "learning_rate": 9.56e-06,
+      "loss": 0.0,
+      "num_tokens": 9909247.0,
+      "reward": 0.5732457041740417,
+      "reward_std": 0.6212210655212402,
+      "rewards/multidomain_reward_func/mean": 0.5732457041740417,
+      "rewards/multidomain_reward_func/std": 1.1442022323608398,
+      "step": 34
+    },
+    {
+      "completion_length": 530.3800079345704,
+      "completions/clipped_ratio": 0.004999999888241291,
+      "completions/max_length": 2048.0,
+      "completions/max_terminated_length": 2014.0,
+      "completions/mean_length": 531.375,
+      "completions/mean_terminated_length": 523.7537841796875,
+      "completions/min_length": 115.0,
+      "completions/min_terminated_length": 115.0,
+      "epoch": 0.09333333333333334,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.12349400669336319,
+      "kl": 0.0,
+      "learning_rate": 9.546666666666668e-06,
+      "loss": 0.0,
+      "num_tokens": 10265587.0,
+      "reward": 0.45227575302124023,
+      "reward_std": 0.7804867625236511,
+      "rewards/multidomain_reward_func/mean": 0.4522757828235626,
+      "rewards/multidomain_reward_func/std": 1.2044216394424438,
+      "step": 35
+    },
+    {
+      "completion_length": 488.8800079345703,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 2034.0,
+      "completions/max_terminated_length": 2034.0,
+      "completions/mean_length": 489.8799743652344,
+      "completions/mean_terminated_length": 489.8799743652344,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 0.096,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.13603246212005615,
+      "kl": 0.0,
+      "learning_rate": 9.533333333333334e-06,
+      "loss": 0.0,
+      "num_tokens": 10596189.0,
+      "reward": 0.6199676990509033,
+      "reward_std": 0.7394188046455383,
+      "rewards/multidomain_reward_func/mean": 0.6199676990509033,
+      "rewards/multidomain_reward_func/std": 1.151370644569397,
+      "step": 36
+    },
+    {
+      "completion_length": 469.7675079345703,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1208.0,
+      "completions/max_terminated_length": 1208.0,
+      "completions/mean_length": 470.7674865722656,
+      "completions/mean_terminated_length": 470.7674865722656,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 0.09866666666666667,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.09747374057769775,
+      "kl": 0.0,
+      "learning_rate": 9.52e-06,
+      "loss": 0.0,
+      "num_tokens": 10896396.0,
+      "reward": 0.935648500919342,
+      "reward_std": 0.5971238017082214,
+      "rewards/multidomain_reward_func/mean": 0.935648500919342,
+      "rewards/multidomain_reward_func/std": 0.9697657823562622,
+      "step": 37
+    },
+    {
+      "completion_length": 493.3000015258789,
+      "completions/clipped_ratio": 0.0024999999441206455,
+      "completions/max_length": 2048.0,
+      "completions/max_terminated_length": 1513.0,
+      "completions/mean_length": 494.2974853515625,
+      "completions/mean_terminated_length": 490.40350341796875,
+      "completions/min_length": 125.0,
+      "completions/min_terminated_length": 125.0,
+      "epoch": 0.10133333333333333,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.0883842334151268,
+      "kl": 0.0,
+      "learning_rate": 9.506666666666667e-06,
+      "loss": 0.0,
+      "num_tokens": 11215205.0,
+      "reward": 0.7769816517829895,
+      "reward_std": 0.5231021642684937,
+      "rewards/multidomain_reward_func/mean": 0.7769816517829895,
+      "rewards/multidomain_reward_func/std": 0.9222862720489502,
+      "step": 38
+    },
+    {
+      "completion_length": 486.83250885009767,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1406.0,
+      "completions/max_terminated_length": 1406.0,
+      "completions/mean_length": 487.8324890136719,
+      "completions/mean_terminated_length": 487.8324890136719,
+      "completions/min_length": 133.0,
+      "completions/min_terminated_length": 133.0,
+      "epoch": 0.104,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.10908982902765274,
+      "kl": 0.0,
+      "learning_rate": 9.493333333333334e-06,
+      "loss": 0.0,
+      "num_tokens": 11540558.0,
+      "reward": 0.6732150912284851,
+      "reward_std": 0.6396495699882507,
+      "rewards/multidomain_reward_func/mean": 0.6732151508331299,
+      "rewards/multidomain_reward_func/std": 1.1686171293258667,
+      "step": 39
+    },
+    {
+      "completion_length": 487.9100112915039,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1473.0,
+      "completions/max_terminated_length": 1473.0,
+      "completions/mean_length": 488.9100036621094,
+      "completions/mean_terminated_length": 488.9100036621094,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 0.10666666666666667,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.10951139777898788,
+      "kl": 0.0,
+      "learning_rate": 9.48e-06,
+      "loss": 0.0,
+      "num_tokens": 11863322.0,
+      "reward": 0.6731404662132263,
+      "reward_std": 0.6585783362388611,
+      "rewards/multidomain_reward_func/mean": 0.6731404662132263,
+      "rewards/multidomain_reward_func/std": 1.0647237300872803,
+      "step": 40
+    },
+    {
+      "completion_length": 502.2775161743164,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1538.0,
+      "completions/max_terminated_length": 1538.0,
+      "completions/mean_length": 503.2774963378906,
+      "completions/mean_terminated_length": 503.2774963378906,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 0.10933333333333334,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.849650263786316,
+      "kl": 0.0,
+      "learning_rate": 9.466666666666667e-06,
+      "loss": 0.0,
+      "num_tokens": 12192863.0,
+      "reward": 0.7937699556350708,
+      "reward_std": 0.6187800168991089,
+      "rewards/multidomain_reward_func/mean": 0.7937700152397156,
+      "rewards/multidomain_reward_func/std": 1.0126259326934814,
+      "step": 41
+    },
+    {
+      "completion_length": 478.65250396728516,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1362.0,
+      "completions/max_terminated_length": 1362.0,
+      "completions/mean_length": 479.6524963378906,
+      "completions/mean_terminated_length": 479.6524963378906,
+      "completions/min_length": 130.0,
+      "completions/min_terminated_length": 130.0,
+      "epoch": 0.112,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.12482614070177078,
+      "kl": 0.0,
+      "learning_rate": 9.453333333333335e-06,
+      "loss": 0.0,
+      "num_tokens": 12500484.0,
+      "reward": 0.6001678109169006,
+      "reward_std": 0.6798524260520935,
+      "rewards/multidomain_reward_func/mean": 0.6001678705215454,
+      "rewards/multidomain_reward_func/std": 1.120275616645813,
+      "step": 42
+    },
+    {
+      "completion_length": 517.6400100708008,
+      "completions/clipped_ratio": 0.0024999999441206455,
+      "completions/max_length": 2048.0,
+      "completions/max_terminated_length": 1579.0,
+      "completions/mean_length": 518.6375122070312,
+      "completions/mean_terminated_length": 514.8045043945312,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 0.11466666666666667,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.09683530032634735,
+      "kl": 0.0,
+      "learning_rate": 9.440000000000001e-06,
+      "loss": 0.0,
+      "num_tokens": 12841819.0,
+      "reward": 0.753699541091919,
+      "reward_std": 0.6156747341156006,
+      "rewards/multidomain_reward_func/mean": 0.753699541091919,
+      "rewards/multidomain_reward_func/std": 0.9609552025794983,
+      "step": 43
+    },
+    {
+      "completion_length": 505.51000823974607,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1757.0,
+      "completions/max_terminated_length": 1757.0,
+      "completions/mean_length": 506.5099792480469,
+      "completions/mean_terminated_length": 506.5099792480469,
+      "completions/min_length": 129.0,
+      "completions/min_terminated_length": 129.0,
+      "epoch": 0.11733333333333333,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.07461382448673248,
+      "kl": 0.0,
+      "learning_rate": 9.426666666666667e-06,
+      "loss": 0.0,
+      "num_tokens": 13168013.0,
+      "reward": 0.8316676616668701,
+      "reward_std": 0.47557753324508667,
+      "rewards/multidomain_reward_func/mean": 0.8316677212715149,
+      "rewards/multidomain_reward_func/std": 0.9142977595329285,
+      "step": 44
+    },
+    {
+      "completion_length": 1016.6600128173828,
+      "completions/clipped_ratio": 0.3125,
+      "completions/max_length": 2048.0,
+      "completions/max_terminated_length": 1516.0,
+      "completions/mean_length": 1017.3474731445312,
+      "completions/mean_terminated_length": 548.8690795898438,
+      "completions/min_length": 6.0,
+      "completions/min_terminated_length": 6.0,
+      "epoch": 0.12,
+      "frac_reward_zero_std": 0.3499999940395355,
+      "grad_norm": 0.1530371755361557,
+      "kl": 0.0,
+      "learning_rate": 9.413333333333334e-06,
+      "loss": 0.0,
+      "num_tokens": 13716622.0,
+      "reward": -1.7727051973342896,
+      "reward_std": 0.515305757522583,
+      "rewards/multidomain_reward_func/mean": -1.772705078125,
+      "rewards/multidomain_reward_func/std": 2.787855386734009,
+      "step": 45
+    },
+    {
+      "completion_length": 450.5750076293945,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1174.0,
+      "completions/max_terminated_length": 1174.0,
+      "completions/mean_length": 451.5749816894531,
+      "completions/mean_terminated_length": 451.5749816894531,
+      "completions/min_length": 138.0,
+      "completions/min_terminated_length": 138.0,
+      "epoch": 0.12266666666666666,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.11144713312387466,
+      "kl": 0.0,
+      "learning_rate": 9.4e-06,
+      "loss": 0.0,
+      "num_tokens": 14013782.0,
+      "reward": 0.7144942283630371,
+      "reward_std": 0.6038557887077332,
+      "rewards/multidomain_reward_func/mean": 0.7144941687583923,
+      "rewards/multidomain_reward_func/std": 1.0141149759292603,
+      "step": 46
+    },
+    {
+      "completion_length": 462.4975051879883,
+      "completions/clipped_ratio": 0.0024999999441206455,
+      "completions/max_length": 2048.0,
+      "completions/max_terminated_length": 1033.0,
+      "completions/mean_length": 463.4949951171875,
+      "completions/mean_terminated_length": 459.5238037109375,
+      "completions/min_length": 124.0,
+      "completions/min_terminated_length": 124.0,
+      "epoch": 0.12533333333333332,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.10090559720993042,
+      "kl": 0.0,
+      "learning_rate": 9.386666666666668e-06,
+      "loss": 0.0,
+      "num_tokens": 14317510.0,
+      "reward": 0.6212114095687866,
+      "reward_std": 0.6358470916748047,
+      "rewards/multidomain_reward_func/mean": 0.6212114095687866,
+      "rewards/multidomain_reward_func/std": 1.0588219165802002,
+      "step": 47
+    },
+    {
+      "completion_length": 467.2750045776367,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1720.0,
+      "completions/max_terminated_length": 1720.0,
+      "completions/mean_length": 468.2749938964844,
+      "completions/mean_terminated_length": 468.2749938964844,
+      "completions/min_length": 119.0,
+      "completions/min_terminated_length": 119.0,
+      "epoch": 0.128,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.09495209157466888,
+      "kl": 0.0,
+      "learning_rate": 9.373333333333334e-06,
+      "loss": 0.0,
+      "num_tokens": 14621120.0,
+      "reward": 0.9720970988273621,
+      "reward_std": 0.6470828652381897,
+      "rewards/multidomain_reward_func/mean": 0.9720970392227173,
+      "rewards/multidomain_reward_func/std": 1.0593924522399902,
+      "step": 48
+    },
+    {
+      "completion_length": 490.20000610351565,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1525.0,
+      "completions/max_terminated_length": 1525.0,
+      "completions/mean_length": 491.1999816894531,
+      "completions/mean_terminated_length": 491.1999816894531,
+      "completions/min_length": 140.0,
+      "completions/min_terminated_length": 140.0,
+      "epoch": 0.13066666666666665,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.09339933842420578,
+      "kl": 0.0,
+      "learning_rate": 9.360000000000002e-06,
+      "loss": 0.0,
+      "num_tokens": 14945280.0,
+      "reward": 0.7716130018234253,
+      "reward_std": 0.5648047924041748,
+      "rewards/multidomain_reward_func/mean": 0.7716130018234253,
+      "rewards/multidomain_reward_func/std": 1.0510609149932861,
+      "step": 49
+    },
+    {
+      "completion_length": 470.83250885009767,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1374.0,
+      "completions/max_terminated_length": 1374.0,
+      "completions/mean_length": 471.8324890136719,
+      "completions/mean_terminated_length": 471.8324890136719,
+      "completions/min_length": 123.0,
+      "completions/min_terminated_length": 123.0,
+      "epoch": 0.13333333333333333,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.10589201003313065,
+      "kl": 0.0,
+      "learning_rate": 9.346666666666666e-06,
+      "loss": 0.0,
+      "num_tokens": 15252173.0,
+      "reward": 0.8854246139526367,
+      "reward_std": 0.5977504849433899,
+      "rewards/multidomain_reward_func/mean": 0.8854245543479919,
+      "rewards/multidomain_reward_func/std": 1.0996488332748413,
+      "step": 50
+    },
+    {
+      "completion_length": 487.5975112915039,
+      "completions/clipped_ratio": 0.004999999888241291,
+      "completions/max_length": 2048.0,
+      "completions/max_terminated_length": 1913.0,
+      "completions/mean_length": 488.5924987792969,
+      "completions/mean_terminated_length": 480.75628662109375,
+      "completions/min_length": 177.0,
+      "completions/min_terminated_length": 177.0,
+      "epoch": 0.136,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.12346775829792023,
+      "kl": 0.0,
+      "learning_rate": 9.333333333333334e-06,
+      "loss": 0.0,
+      "num_tokens": 15564510.0,
+      "reward": 0.48230254650115967,
+      "reward_std": 0.6803807020187378,
+      "rewards/multidomain_reward_func/mean": 0.4823025166988373,
+      "rewards/multidomain_reward_func/std": 1.2003233432769775,
+      "step": 51
+    },
+    {
+      "completion_length": 459.94250640869143,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1186.0,
+      "completions/max_terminated_length": 1186.0,
+      "completions/mean_length": 460.9425048828125,
+      "completions/mean_terminated_length": 460.9425048828125,
+      "completions/min_length": 124.0,
+      "completions/min_terminated_length": 124.0,
+      "epoch": 0.13866666666666666,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.13084262609481812,
+      "kl": 0.0,
+      "learning_rate": 9.32e-06,
+      "loss": 0.0,
+      "num_tokens": 15868027.0,
+      "reward": 0.796763002872467,
+      "reward_std": 0.7062838077545166,
+      "rewards/multidomain_reward_func/mean": 0.7967629432678223,
+      "rewards/multidomain_reward_func/std": 1.2271337509155273,
+      "step": 52
+    },
+    {
+      "completion_length": 453.93250427246096,
+      "completions/clipped_ratio": 0.0024999999441206455,
+      "completions/max_length": 2048.0,
+      "completions/max_terminated_length": 1102.0,
+      "completions/mean_length": 454.92999267578125,
+      "completions/mean_terminated_length": 450.9373474121094,
+      "completions/min_length": 169.0,
+      "completions/min_terminated_length": 169.0,
+      "epoch": 0.14133333333333334,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.14952056109905243,
+      "kl": 0.0,
+      "learning_rate": 9.306666666666667e-06,
+      "loss": 0.0,
+      "num_tokens": 16159159.0,
+      "reward": 0.6241033673286438,
+      "reward_std": 0.6670031547546387,
+      "rewards/multidomain_reward_func/mean": 0.6241033673286438,
+      "rewards/multidomain_reward_func/std": 1.1514482498168945,
+      "step": 53
+    },
+    {
+      "completion_length": 452.2375061035156,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1412.0,
+      "completions/max_terminated_length": 1412.0,
+      "completions/mean_length": 453.23748779296875,
+      "completions/mean_terminated_length": 453.23748779296875,
+      "completions/min_length": 144.0,
+      "completions/min_terminated_length": 144.0,
+      "epoch": 0.144,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.09604249149560928,
+      "kl": 0.0,
+      "learning_rate": 9.293333333333335e-06,
+      "loss": -0.0,
+      "num_tokens": 16452664.0,
+      "reward": 0.4965752363204956,
+      "reward_std": 0.5294793844223022,
+      "rewards/multidomain_reward_func/mean": 0.4965752363204956,
+      "rewards/multidomain_reward_func/std": 1.1207164525985718,
+      "step": 54
+    },
+    {
+      "completion_length": 465.0425033569336,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1350.0,
+      "completions/max_terminated_length": 1350.0,
+      "completions/mean_length": 466.04248046875,
+      "completions/mean_terminated_length": 466.04248046875,
+      "completions/min_length": 132.0,
+      "completions/min_terminated_length": 132.0,
+      "epoch": 0.14666666666666667,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.11836592108011246,
+      "kl": 0.0,
+      "learning_rate": 9.280000000000001e-06,
+      "loss": 0.0,
+      "num_tokens": 16757261.0,
+      "reward": 0.6661089658737183,
+      "reward_std": 0.5464302897453308,
+      "rewards/multidomain_reward_func/mean": 0.666109025478363,
+      "rewards/multidomain_reward_func/std": 0.9100214242935181,
+      "step": 55
+    },
+    {
+      "completion_length": 491.40500793457034,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1505.0,
+      "completions/max_terminated_length": 1505.0,
+      "completions/mean_length": 492.4049987792969,
+      "completions/mean_terminated_length": 492.4049987792969,
+      "completions/min_length": 145.0,
+      "completions/min_terminated_length": 145.0,
+      "epoch": 0.14933333333333335,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.0901034027338028,
+      "kl": 0.0,
+      "learning_rate": 9.266666666666667e-06,
+      "loss": 0.0,
+      "num_tokens": 17086573.0,
+      "reward": 0.8763098120689392,
+      "reward_std": 0.5632340908050537,
+      "rewards/multidomain_reward_func/mean": 0.876309871673584,
+      "rewards/multidomain_reward_func/std": 0.8210961818695068,
+      "step": 56
+    },
+    {
+      "completion_length": 495.40500793457034,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1396.0,
+      "completions/max_terminated_length": 1396.0,
+      "completions/mean_length": 496.4049987792969,
+      "completions/mean_terminated_length": 496.4049987792969,
+      "completions/min_length": 168.0,
+      "completions/min_terminated_length": 168.0,
+      "epoch": 0.152,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.09418133646249771,
+      "kl": 0.0,
+      "learning_rate": 9.253333333333333e-06,
+      "loss": 0.0,
+      "num_tokens": 17411285.0,
+      "reward": 0.7451098561286926,
+      "reward_std": 0.5770621299743652,
+      "rewards/multidomain_reward_func/mean": 0.7451097965240479,
+      "rewards/multidomain_reward_func/std": 0.9386699795722961,
+      "step": 57
+    },
+    {
+      "completion_length": 1361.317529296875,
+      "completions/clipped_ratio": 0.5299999713897705,
+      "completions/max_length": 2048.0,
+      "completions/max_terminated_length": 1974.0,
+      "completions/mean_length": 1361.7874755859375,
+      "completions/mean_terminated_length": 587.973388671875,
+      "completions/min_length": 5.0,
+      "completions/min_terminated_length": 5.0,
+      "epoch": 0.15466666666666667,
+      "frac_reward_zero_std": 0.6499999761581421,
+      "grad_norm": 0.1710672676563263,
+      "kl": 0.0,
+      "learning_rate": 9.240000000000001e-06,
+      "loss": 0.0,
+      "num_tokens": 18114280.0,
+      "reward": -3.2304539680480957,
+      "reward_std": 0.3466276526451111,
+      "rewards/multidomain_reward_func/mean": -3.230454206466675,
+      "rewards/multidomain_reward_func/std": 2.6598012447357178,
+      "step": 58
+    },
+    {
+      "completion_length": 459.1775100708008,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1182.0,
+      "completions/max_terminated_length": 1182.0,
+      "completions/mean_length": 460.177490234375,
+      "completions/mean_terminated_length": 460.177490234375,
+      "completions/min_length": 172.0,
+      "completions/min_terminated_length": 172.0,
+      "epoch": 0.15733333333333333,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.18426430225372314,
+      "kl": 0.0,
+      "learning_rate": 9.226666666666668e-06,
+      "loss": 0.0,
+      "num_tokens": 18410481.0,
+      "reward": 0.7067541480064392,
+      "reward_std": 0.5836679935455322,
+      "rewards/multidomain_reward_func/mean": 0.706754207611084,
+      "rewards/multidomain_reward_func/std": 0.9405755996704102,
+      "step": 59
+    },
+    {
+      "completion_length": 518.2050018310547,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1761.0,
+      "completions/max_terminated_length": 1761.0,
+      "completions/mean_length": 519.2050170898438,
+      "completions/mean_terminated_length": 519.2050170898438,
+      "completions/min_length": 150.0,
+      "completions/min_terminated_length": 150.0,
+      "epoch": 0.16,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.10580391436815262,
+      "kl": 0.0,
+      "learning_rate": 9.213333333333334e-06,
+      "loss": 0.0,
+      "num_tokens": 18777053.0,
+      "reward": 0.6891916990280151,
+      "reward_std": 0.6400912404060364,
+      "rewards/multidomain_reward_func/mean": 0.6891917586326599,
+      "rewards/multidomain_reward_func/std": 1.0435802936553955,
+      "step": 60
+    },
+    {
+      "completion_length": 488.422509765625,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1770.0,
+      "completions/max_terminated_length": 1770.0,
+      "completions/mean_length": 489.4224853515625,
+      "completions/mean_terminated_length": 489.4224853515625,
+      "completions/min_length": 149.0,
+      "completions/min_terminated_length": 149.0,
+      "epoch": 0.16266666666666665,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.11052470654249191,
+      "kl": 0.0,
+      "learning_rate": 9.200000000000002e-06,
+      "loss": 0.0,
+      "num_tokens": 19105212.0,
+      "reward": 0.7272980809211731,
+      "reward_std": 0.6313333511352539,
+      "rewards/multidomain_reward_func/mean": 0.7272981405258179,
+      "rewards/multidomain_reward_func/std": 0.9895555973052979,
+      "step": 61
+    },
+    {
+      "completion_length": 499.8575073242188,
+      "completions/clipped_ratio": 0.0024999999441206455,
+      "completions/max_length": 2048.0,
+      "completions/max_terminated_length": 1807.0,
+      "completions/mean_length": 500.85498046875,
+      "completions/mean_terminated_length": 496.9774475097656,
+      "completions/min_length": 142.0,
+      "completions/min_terminated_length": 142.0,
+      "epoch": 0.16533333333333333,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.09797242283821106,
+      "kl": 0.0,
+      "learning_rate": 9.186666666666666e-06,
+      "loss": -0.0,
+      "num_tokens": 19439224.0,
+      "reward": 0.7694770693778992,
+      "reward_std": 0.6147860288619995,
+      "rewards/multidomain_reward_func/mean": 0.7694770693778992,
+      "rewards/multidomain_reward_func/std": 0.9149509072303772,
+      "step": 62
+    },
+    {
+      "completion_length": 470.8975067138672,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 982.0,
+      "completions/max_terminated_length": 982.0,
+      "completions/mean_length": 471.8974914550781,
+      "completions/mean_terminated_length": 471.8974914550781,
+      "completions/min_length": 117.0,
+      "completions/min_terminated_length": 117.0,
+      "epoch": 0.168,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.12676118314266205,
+      "kl": 0.0,
+      "learning_rate": 9.173333333333334e-06,
+      "loss": 0.0,
+      "num_tokens": 19736443.0,
+      "reward": 0.8108384609222412,
+      "reward_std": 0.6640507578849792,
+      "rewards/multidomain_reward_func/mean": 0.8108384609222412,
+      "rewards/multidomain_reward_func/std": 1.193241834640503,
+      "step": 63
+    },
+    {
+      "completion_length": 498.67500762939454,
+      "completions/clipped_ratio": 0.007499999832361937,
+      "completions/max_length": 2048.0,
+      "completions/max_terminated_length": 1361.0,
+      "completions/mean_length": 499.66748046875,
+      "completions/mean_terminated_length": 487.96722412109375,
+      "completions/min_length": 166.0,
+      "completions/min_terminated_length": 166.0,
+      "epoch": 0.17066666666666666,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.13014905154705048,
+      "kl": 0.0,
+      "learning_rate": 9.16e-06,
+      "loss": -0.0,
+      "num_tokens": 20057610.0,
+      "reward": 0.6247091293334961,
+      "reward_std": 0.7679011225700378,
+      "rewards/multidomain_reward_func/mean": 0.6247091889381409,
+      "rewards/multidomain_reward_func/std": 1.1993564367294312,
+      "step": 64
+    },
+    {
+      "completion_length": 458.45250549316404,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1030.0,
+      "completions/max_terminated_length": 1030.0,
+      "completions/mean_length": 459.4524841308594,
+      "completions/mean_terminated_length": 459.4524841308594,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 0.17333333333333334,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.13847854733467102,
+      "kl": 0.0,
+      "learning_rate": 9.146666666666667e-06,
+      "loss": 0.0,
+      "num_tokens": 20372321.0,
+      "reward": 0.7129409909248352,
+      "reward_std": 0.617203950881958,
+      "rewards/multidomain_reward_func/mean": 0.7129409909248352,
+      "rewards/multidomain_reward_func/std": 1.0829230546951294,
+      "step": 65
+    },
+    {
+      "completion_length": 496.3400085449219,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1668.0,
+      "completions/max_terminated_length": 1668.0,
+      "completions/mean_length": 497.3399963378906,
+      "completions/mean_terminated_length": 497.3399963378906,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 0.176,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.10193447768688202,
+      "kl": 0.0,
+      "learning_rate": 9.133333333333335e-06,
+      "loss": 0.0,
+      "num_tokens": 20709467.0,
+      "reward": 0.6699061393737793,
+      "reward_std": 0.6168271899223328,
+      "rewards/multidomain_reward_func/mean": 0.6699060797691345,
+      "rewards/multidomain_reward_func/std": 1.0752849578857422,
+      "step": 66
+    },
+    {
+      "completion_length": 481.9150100708008,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1616.0,
+      "completions/max_terminated_length": 1616.0,
+      "completions/mean_length": 482.91497802734375,
+      "completions/mean_terminated_length": 482.91497802734375,
+      "completions/min_length": 139.0,
+      "completions/min_terminated_length": 139.0,
+      "epoch": 0.17866666666666667,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.11991851031780243,
+      "kl": 0.0,
+      "learning_rate": 9.12e-06,
+      "loss": 0.0,
+      "num_tokens": 21044563.0,
+      "reward": 0.5581293106079102,
+      "reward_std": 0.6784390807151794,
+      "rewards/multidomain_reward_func/mean": 0.5581292510032654,
+      "rewards/multidomain_reward_func/std": 1.1184920072555542,
+      "step": 67
+    },
+    {
+      "completion_length": 483.61750946044924,
+      "completions/clipped_ratio": 0.004999999888241291,
+      "completions/max_length": 2048.0,
+      "completions/max_terminated_length": 1506.0,
+      "completions/mean_length": 484.61248779296875,
+      "completions/mean_terminated_length": 476.75628662109375,
+      "completions/min_length": 143.0,
+      "completions/min_terminated_length": 143.0,
+      "epoch": 0.18133333333333335,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.10080371052026749,
+      "kl": 0.0,
+      "learning_rate": 9.106666666666667e-06,
+      "loss": 0.0,
+      "num_tokens": 21359318.0,
+      "reward": 0.5767732262611389,
+      "reward_std": 0.6775339841842651,
+      "rewards/multidomain_reward_func/mean": 0.5767732262611389,
+      "rewards/multidomain_reward_func/std": 1.1861456632614136,
+      "step": 68
+    },
+    {
+      "completion_length": 451.9850082397461,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1193.0,
+      "completions/max_terminated_length": 1193.0,
+      "completions/mean_length": 452.9849853515625,
+      "completions/mean_terminated_length": 452.9849853515625,
+      "completions/min_length": 157.0,
+      "completions/min_terminated_length": 157.0,
+      "epoch": 0.184,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.1563381850719452,
+      "kl": 0.0,
+      "learning_rate": 9.093333333333333e-06,
+      "loss": 0.0,
+      "num_tokens": 21654302.0,
+      "reward": 0.8275067210197449,
+      "reward_std": 0.6079853177070618,
+      "rewards/multidomain_reward_func/mean": 0.8275066614151001,
+      "rewards/multidomain_reward_func/std": 0.9333595633506775,
+      "step": 69
+    },
+    {
+      "completion_length": 499.7975128173828,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1561.0,
+      "completions/max_terminated_length": 1561.0,
+      "completions/mean_length": 500.7974853515625,
+      "completions/mean_terminated_length": 500.7974853515625,
+      "completions/min_length": 158.0,
+      "completions/min_terminated_length": 158.0,
+      "epoch": 0.18666666666666668,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.11193910241127014,
+      "kl": 0.0,
+      "learning_rate": 9.080000000000001e-06,
+      "loss": 0.0,
+      "num_tokens": 21985271.0,
+      "reward": 0.6707971096038818,
+      "reward_std": 0.6554468870162964,
+      "rewards/multidomain_reward_func/mean": 0.6707971096038818,
+      "rewards/multidomain_reward_func/std": 0.9665917158126831,
+      "step": 70
+    },
+    {
+      "completion_length": 463.9925048828125,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1094.0,
+      "completions/max_terminated_length": 1094.0,
+      "completions/mean_length": 464.99249267578125,
+      "completions/mean_terminated_length": 464.99249267578125,
+      "completions/min_length": 135.0,
+      "completions/min_terminated_length": 135.0,
+      "epoch": 0.18933333333333333,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.12109918892383575,
+      "kl": 0.0,
+      "learning_rate": 9.066666666666667e-06,
+      "loss": 0.0,
+      "num_tokens": 22281108.0,
+      "reward": 0.7637037634849548,
+      "reward_std": 0.7281582951545715,
+      "rewards/multidomain_reward_func/mean": 0.7637037634849548,
+      "rewards/multidomain_reward_func/std": 1.2205768823623657,
+      "step": 71
+    },
+    {
+      "completion_length": 464.7775054931641,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1411.0,
+      "completions/max_terminated_length": 1411.0,
+      "completions/mean_length": 465.7774963378906,
+      "completions/mean_terminated_length": 465.7774963378906,
+      "completions/min_length": 119.0,
+      "completions/min_terminated_length": 119.0,
+      "epoch": 0.192,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.11413338035345078,
+      "kl": 0.0,
+      "learning_rate": 9.053333333333334e-06,
+      "loss": -0.0,
+      "num_tokens": 22588769.0,
+      "reward": 0.7388538122177124,
+      "reward_std": 0.647964596748352,
+      "rewards/multidomain_reward_func/mean": 0.7388537526130676,
+      "rewards/multidomain_reward_func/std": 1.1589411497116089,
+      "step": 72
+    },
+    {
+      "completion_length": 451.3100051879883,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 1049.0,
+      "completions/max_terminated_length": 1049.0,
+      "completions/mean_length": 452.30999755859375,
+      "completions/mean_terminated_length": 452.30999755859375,
+      "completions/min_length": 136.0,
+      "completions/min_terminated_length": 136.0,
+      "epoch": 0.19466666666666665,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.10486124455928802,
+      "kl": 0.0,
+      "learning_rate": 9.040000000000002e-06,
+      "loss": 0.0,
+      "num_tokens": 22881323.0,
+      "reward": 0.825734555721283,
+      "reward_std": 0.5979833602905273,
+      "rewards/multidomain_reward_func/mean": 0.8257344961166382,
+      "rewards/multidomain_reward_func/std": 1.0813428163528442,
+      "step": 73
+    },
+    {
+      "completion_length": 460.61500854492186,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 889.0,
+      "completions/max_terminated_length": 889.0,
+      "completions/mean_length": 461.614990234375,
+      "completions/mean_terminated_length": 461.614990234375,
+      "completions/min_length": 153.0,
+      "completions/min_terminated_length": 153.0,
+      "epoch": 0.19733333333333333,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.1169808879494667,
+      "kl": 0.0,
+      "learning_rate": 9.026666666666666e-06,
+      "loss": 0.0,
+      "num_tokens": 23181119.0,
+      "reward": 0.5477174520492554,
+      "reward_std": 0.670683741569519,
+      "rewards/multidomain_reward_func/mean": 0.5477175116539001,
+      "rewards/multidomain_reward_func/std": 1.1359970569610596,
+      "step": 74
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 750,
+  "num_input_tokens_seen": 23521351,
+  "num_train_epochs": 2,
+  "save_steps": 250,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": false,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 20,
+  "trial_name": null,
+  "trial_params": null
+}

ckpt-10-percent/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:61eace08d8243327b42925ff3b1e3c66cebcd3733c789b42a8bf93692185dfd6
 size 7505

 version https://git-lfs.github.com/spec/v1
+oid sha256:08a7756db7d337356b03f79cfc247284ee5c8ed3985ced618c069718c8faeac6
 size 7505