Training in progress, epoch 0, checkpoint

Browse files

Files changed (13) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step300/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step300/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step300/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step300/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step300/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +512 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:56ebe1bf228e92e7b408d3b50ee7693165f94acc10f0b99500d6fd8704bd8006
 size 34895376

 version https://git-lfs.github.com/spec/v1
+oid sha256:128d5ff87a9a2f67bfc376762663cddc1baec41d7fc66c9f706a34faa11d5ce6
 size 34895376

last-checkpoint/global_step300/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e67dd2c6eafa9e6373d4c602c404f3037feea34cf55ac5d5e5a7db1b2ba46303
+size 26298085

last-checkpoint/global_step300/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:28595be6eafc5d9e98b7173aa15802b7097913aedc4af74767a7c63f75db51db
+size 26298085

last-checkpoint/global_step300/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7d9531c02cab629a21f79c760ef90370c1f164696c1a6dc03ed212646d48458a
+size 26298149

last-checkpoint/global_step300/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7578bc6c6c3ef05125df821f9f3409b6dbfd2844aba382f7af14c2d20459b4bc
+size 26298149

last-checkpoint/global_step300/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:df81a1524d9d57d65c7e452ca66412a0d9fe6e7785143cffdaf5e948a590fc02
+size 501799973

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step200~~


1	+ global_step300

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b6418eac1ba346ee73d2ebc80987f480e6c7019a31f3a512d1ae5584c16e752b
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:1dcd295e94e121d0e334ec06742c998279f2c41bf799fbd89390e9e5d7441448
 size 15429

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e184a24bebc3a4116bdcdf257d93475450a64bbb5df3fddcef6619ba8f70a59d
 size 15365

 version https://git-lfs.github.com/spec/v1
+oid sha256:39ae4eb8db6190f758a03220812e9fcbc2a4823df90e3ccf1ba4764886733e3d
 size 15365

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:86b280e6213e29ec0037b1f5f3daa8d0ee155a93389dd0c3cf1bd3d90c7da9a9
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:9bbe37b1011b486d46f84f6c3acc88f2b0b90b3a3c2a6f2b01998012c708e63b
 size 15429

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:64a2914181616f169732b6020ae236c388196a057b8e319b6822b0257e90beb3
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:08c2ef4d00af7939a9a25681a8548258d41f42c1471bf03f68a181fcb291b727
 size 15429

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:531f6f6748d810df4463be9a678fe7501b1690733d5508860c7f5f0586e3db9c
 size 1401

 version https://git-lfs.github.com/spec/v1
+oid sha256:738f1bd52a0e5e3570eb826d97ec615ac0a30012cc827a5a3725e6329285a9f5
 size 1401

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
   "best_global_step": null,
-  "best_metric": 0.014669565483927727,
   "best_model_checkpoint": null,
-  "epoch": 0.258732212160414,
   "eval_steps": 100,
-  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1024,11 +1024,519 @@
       "eval_samples_per_second": 4.743,
       "eval_steps_per_second": 0.308,
       "step": 200
     }
   ],
   "logging_steps": 5,
   "max_steps": 1000,
-  "num_input_tokens_seen": 221849,
   "num_train_epochs": 2,
   "save_steps": 100,
   "stateful_callbacks": {

 {
   "best_global_step": null,
+  "best_metric": 0.0143232811242342,
   "best_model_checkpoint": null,
+  "epoch": 0.38809831824062097,
   "eval_steps": 100,
+  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 4.743,
       "eval_steps_per_second": 0.308,
       "step": 200
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.984375,
+      "completions/max_length": 32.0,
+      "completions/max_terminated_length": 11.7,
+      "completions/mean_length": 31.9,
+      "completions/mean_terminated_length": 10.7,
+      "completions/min_length": 28.9,
+      "completions/min_terminated_length": 9.7,
+      "epoch": 0.2652005174644243,
+      "grad_norm": 0.3019338548183441,
+      "kl": 0.37265625,
+      "learning_rate": 0.00019348256763960145,
+      "loss": 0.0152,
+      "num_tokens": 227432.0,
+      "reward": 2.7201414823532106,
+      "reward_std": 0.28786033391952515,
+      "rewards/keyword_inclusion_reward/mean": 0.3062500089406967,
+      "rewards/keyword_inclusion_reward/std": 0.08914534375071526,
+      "step": 205
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.9625,
+      "completions/max_length": 32.0,
+      "completions/max_terminated_length": 17.6,
+      "completions/mean_length": 31.86875,
+      "completions/mean_terminated_length": 16.76666679382324,
+      "completions/min_length": 28.2,
+      "completions/min_terminated_length": 15.4,
+      "epoch": 0.2716688227684347,
+      "grad_norm": 0.09334196895360947,
+      "kl": 0.4015625,
+      "learning_rate": 0.00019284858268809137,
+      "loss": 0.0161,
+      "num_tokens": 232989.0,
+      "reward": 2.8681763648986816,
+      "reward_std": 0.13084560632705688,
+      "rewards/keyword_inclusion_reward/mean": 0.3229166746139526,
+      "rewards/keyword_inclusion_reward/std": 0.04457640573382378,
+      "step": 210
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.91875,
+      "completions/max_length": 32.0,
+      "completions/max_terminated_length": 26.8,
+      "completions/mean_length": 31.3375,
+      "completions/mean_terminated_length": 24.0,
+      "completions/min_length": 21.2,
+      "completions/min_terminated_length": 21.2,
+      "epoch": 0.278137128072445,
+      "grad_norm": 0.1729985624551773,
+      "kl": 0.4,
+      "learning_rate": 0.00019218631515885006,
+      "loss": 0.0126,
+      "num_tokens": 238507.0,
+      "reward": 2.9051851272583007,
+      "reward_std": 0.07850736379623413,
+      "rewards/keyword_inclusion_reward/mean": 0.3270833492279053,
+      "rewards/keyword_inclusion_reward/std": 0.03535533919930458,
+      "step": 215
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.9125,
+      "completions/max_length": 32.0,
+      "completions/max_terminated_length": 24.8,
+      "completions/mean_length": 31.3625,
+      "completions/mean_terminated_length": 20.679999923706056,
+      "completions/min_length": 22.4,
+      "completions/min_terminated_length": 16.0,
+      "epoch": 0.2846054333764554,
+      "grad_norm": 0.21469204127788544,
+      "kl": 0.3677734375,
+      "learning_rate": 0.0001914959667849825,
+      "loss": 0.013,
+      "num_tokens": 244017.0,
+      "reward": 2.8126633167266846,
+      "reward_std": 0.20935297012329102,
+      "rewards/keyword_inclusion_reward/mean": 0.3166666805744171,
+      "rewards/keyword_inclusion_reward/std": 0.0714939571917057,
+      "step": 220
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.93125,
+      "completions/max_length": 32.0,
+      "completions/max_terminated_length": 22.2,
+      "completions/mean_length": 31.6125,
+      "completions/mean_terminated_length": 20.416666793823243,
+      "completions/min_length": 25.4,
+      "completions/min_terminated_length": 19.0,
+      "epoch": 0.2910737386804657,
+      "grad_norm": 0.048688553273677826,
+      "kl": 0.344921875,
+      "learning_rate": 0.00019077774785329087,
+      "loss": 0.0161,
+      "num_tokens": 249609.0,
+      "reward": 2.886680793762207,
+      "reward_std": 0.10467648506164551,
+      "rewards/keyword_inclusion_reward/mean": 0.32500001788139343,
+      "rewards/keyword_inclusion_reward/std": 0.047140452265739444,
+      "step": 225
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.89375,
+      "completions/max_length": 32.0,
+      "completions/max_terminated_length": 28.6,
+      "completions/mean_length": 31.3375,
+      "completions/mean_terminated_length": 25.214286041259765,
+      "completions/min_length": 21.6,
+      "completions/min_terminated_length": 21.6,
+      "epoch": 0.2975420439844761,
+      "grad_norm": 0.03536103293299675,
+      "kl": 0.3490234375,
+      "learning_rate": 0.00019003187714021938,
+      "loss": 0.0157,
+      "num_tokens": 255097.0,
+      "reward": 2.8866806983947755,
+      "reward_std": 0.10467648506164551,
+      "rewards/keyword_inclusion_reward/mean": 0.325000011920929,
+      "rewards/keyword_inclusion_reward/std": 0.03152808472514153,
+      "step": 230
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.8875,
+      "completions/max_length": 32.0,
+      "completions/max_terminated_length": 30.2,
+      "completions/mean_length": 31.24375,
+      "completions/mean_terminated_length": 25.026667022705077,
+      "completions/min_length": 18.0,
+      "completions/min_terminated_length": 18.0,
+      "epoch": 0.3040103492884864,
+      "grad_norm": 0.14790986478328705,
+      "kl": 0.3205078125,
+      "learning_rate": 0.00018925858184521256,
+      "loss": 0.013,
+      "num_tokens": 260542.0,
+      "reward": 2.8126633167266846,
+      "reward_std": 0.20935297012329102,
+      "rewards/keyword_inclusion_reward/mean": 0.3166666805744171,
+      "rewards/keyword_inclusion_reward/std": 0.0714939571917057,
+      "step": 235
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.8875,
+      "completions/max_length": 32.0,
+      "completions/max_terminated_length": 30.2,
+      "completions/mean_length": 31.30625,
+      "completions/mean_terminated_length": 25.746667098999023,
+      "completions/min_length": 20.0,
+      "completions/min_terminated_length": 20.0,
+      "epoch": 0.31047865459249674,
+      "grad_norm": 0.2648606300354004,
+      "kl": 0.3302734375,
+      "learning_rate": 0.0001884580975215084,
+      "loss": 0.0124,
+      "num_tokens": 266065.0,
+      "reward": 2.812663269042969,
+      "reward_std": 0.20935297012329102,
+      "rewards/keyword_inclusion_reward/mean": 0.31666667461395265,
+      "rewards/keyword_inclusion_reward/std": 0.06431937739253044,
+      "step": 240
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.9,
+      "completions/max_length": 32.0,
+      "completions/max_terminated_length": 25.0,
+      "completions/mean_length": 31.53125,
+      "completions/mean_terminated_length": 22.06666717529297,
+      "completions/min_length": 25.2,
+      "completions/min_terminated_length": 18.8,
+      "epoch": 0.3169469598965071,
+      "grad_norm": 0.14858758449554443,
+      "kl": 0.3453125,
+      "learning_rate": 0.00018763066800438636,
+      "loss": 0.0138,
+      "num_tokens": 271536.0,
+      "reward": 2.905185079574585,
+      "reward_std": 0.07850736379623413,
+      "rewards/keyword_inclusion_reward/mean": 0.3270833432674408,
+      "rewards/keyword_inclusion_reward/std": 0.028180759400129318,
+      "step": 245
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.93125,
+      "completions/max_length": 32.0,
+      "completions/max_terminated_length": 30.8,
+      "completions/mean_length": 31.6875,
+      "completions/mean_terminated_length": 28.25,
+      "completions/min_length": 25.6,
+      "completions/min_terminated_length": 25.6,
+      "epoch": 0.32341526520051744,
+      "grad_norm": 0.039299800992012024,
+      "kl": 0.3734375,
+      "learning_rate": 0.00018677654533689287,
+      "loss": 0.0149,
+      "num_tokens": 277104.0,
+      "reward": 2.9236894607543946,
+      "reward_std": 0.052338242530822754,
+      "rewards/keyword_inclusion_reward/mean": 0.3291666805744171,
+      "rewards/keyword_inclusion_reward/std": 0.023570226132869722,
+      "step": 250
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.95,
+      "completions/max_length": 32.0,
+      "completions/max_terminated_length": 22.4,
+      "completions/mean_length": 31.65625,
+      "completions/mean_terminated_length": 20.1,
+      "completions/min_length": 24.2,
+      "completions/min_terminated_length": 17.8,
+      "epoch": 0.3298835705045278,
+      "grad_norm": 0.2771835923194885,
+      "kl": 0.35390625,
+      "learning_rate": 0.00018589598969306645,
+      "loss": 0.0112,
+      "num_tokens": 282653.0,
+      "reward": 2.7941588878631594,
+      "reward_std": 0.28786033391952515,
+      "rewards/keyword_inclusion_reward/mean": 0.3145833432674408,
+      "rewards/keyword_inclusion_reward/std": 0.07305490300059318,
+      "step": 255
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.98125,
+      "completions/max_length": 32.0,
+      "completions/max_terminated_length": 16.8,
+      "completions/mean_length": 31.925,
+      "completions/mean_terminated_length": 16.8,
+      "completions/min_length": 29.6,
+      "completions/min_terminated_length": 16.8,
+      "epoch": 0.33635187580853815,
+      "grad_norm": 0.04248747602105141,
+      "kl": 0.3732421875,
+      "learning_rate": 0.00018498926929868642,
+      "loss": 0.0149,
+      "num_tokens": 288199.0,
+      "reward": 2.8311676025390624,
+      "reward_std": 0.18318384885787964,
+      "rewards/keyword_inclusion_reward/mean": 0.31875001192092894,
+      "rewards/keyword_inclusion_reward/std": 0.05127105638384819,
+      "step": 260
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.975,
+      "completions/max_length": 32.0,
+      "completions/max_terminated_length": 18.0,
+      "completions/mean_length": 31.9375,
+      "completions/mean_terminated_length": 17.7,
+      "completions/min_length": 30.2,
+      "completions/min_terminated_length": 17.4,
+      "epoch": 0.3428201811125485,
+      "grad_norm": 0.21370354294776917,
+      "kl": 0.3591796875,
+      "learning_rate": 0.00018405666034956844,
+      "loss": 0.0144,
+      "num_tokens": 293805.0,
+      "reward": 2.886680746078491,
+      "reward_std": 0.10467648506164551,
+      "rewards/keyword_inclusion_reward/mean": 0.325000011920929,
+      "rewards/keyword_inclusion_reward/std": 0.039965872466564176,
+      "step": 265
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.975,
+      "completions/max_length": 32.0,
+      "completions/max_terminated_length": 18.0,
+      "completions/mean_length": 31.89375,
+      "completions/mean_terminated_length": 17.2,
+      "completions/min_length": 29.2,
+      "completions/min_terminated_length": 16.4,
+      "epoch": 0.34928848641655885,
+      "grad_norm": 0.17620764672756195,
+      "kl": 0.3935546875,
+      "learning_rate": 0.00018309844692743283,
+      "loss": 0.0157,
+      "num_tokens": 299424.0,
+      "reward": 2.9236894607543946,
+      "reward_std": 0.052338242530822754,
+      "rewards/keyword_inclusion_reward/mean": 0.3291666805744171,
+      "rewards/keyword_inclusion_reward/std": 0.023570226132869722,
+      "step": 270
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.96875,
+      "completions/max_length": 32.0,
+      "completions/max_terminated_length": 11.8,
+      "completions/mean_length": 31.84375,
+      "completions/mean_terminated_length": 10.833333587646484,
+      "completions/min_length": 29.2,
+      "completions/min_terminated_length": 10.0,
+      "epoch": 0.35575679172056923,
+      "grad_norm": 0.2770165205001831,
+      "kl": 0.35625,
+      "learning_rate": 0.00018211492091337042,
+      "loss": 0.0143,
+      "num_tokens": 305035.0,
+      "reward": 2.7941588878631594,
+      "reward_std": 0.18318384885787964,
+      "rewards/keyword_inclusion_reward/mean": 0.3145833432674408,
+      "rewards/keyword_inclusion_reward/std": 0.05612155273556709,
+      "step": 275
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.95,
+      "completions/max_length": 32.0,
+      "completions/max_terminated_length": 22.6,
+      "completions/mean_length": 31.66875,
+      "completions/mean_terminated_length": 20.3,
+      "completions/min_length": 24.4,
+      "completions/min_terminated_length": 18.0,
+      "epoch": 0.36222509702457956,
+      "grad_norm": 0.13597851991653442,
+      "kl": 0.3595703125,
+      "learning_rate": 0.00018110638189893267,
+      "loss": 0.0138,
+      "num_tokens": 310616.0,
+      "reward": 2.812663221359253,
+      "reward_std": 0.20935297012329102,
+      "rewards/keyword_inclusion_reward/mean": 0.31666667461395265,
+      "rewards/keyword_inclusion_reward/std": 0.07281493991613389,
+      "step": 280
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.93125,
+      "completions/max_length": 32.0,
+      "completions/max_terminated_length": 24.4,
+      "completions/mean_length": 31.575,
+      "completions/mean_terminated_length": 21.683333587646484,
+      "completions/min_length": 23.0,
+      "completions/min_terminated_length": 16.6,
+      "epoch": 0.36869340232858994,
+      "grad_norm": 0.13746124505996704,
+      "kl": 0.3494140625,
+      "learning_rate": 0.00018007313709487334,
+      "loss": 0.014,
+      "num_tokens": 316070.0,
+      "reward": 2.9236894607543946,
+      "reward_std": 0.052338242530822754,
+      "rewards/keyword_inclusion_reward/mean": 0.3291666805744171,
+      "rewards/keyword_inclusion_reward/std": 0.023570226132869722,
+      "step": 285
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.95,
+      "completions/max_length": 32.0,
+      "completions/max_terminated_length": 23.2,
+      "completions/mean_length": 31.39375,
+      "completions/mean_terminated_length": 17.233333587646484,
+      "completions/min_length": 17.8,
+      "completions/min_terminated_length": 11.4,
+      "epoch": 0.37516170763260026,
+      "grad_norm": 0.42286813259124756,
+      "kl": 0.3724609375,
+      "learning_rate": 0.00017901550123756906,
+      "loss": 0.0059,
+      "num_tokens": 321569.0,
+      "reward": 2.8311676502227785,
+      "reward_std": 0.18318384885787964,
+      "rewards/keyword_inclusion_reward/mean": 0.31875001192092894,
+      "rewards/keyword_inclusion_reward/std": 0.050581476837396624,
+      "step": 290
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.95,
+      "completions/max_length": 32.0,
+      "completions/max_terminated_length": 24.0,
+      "completions/mean_length": 31.8625,
+      "completions/mean_terminated_length": 23.333333587646486,
+      "completions/min_length": 29.4,
+      "completions/min_terminated_length": 23.0,
+      "epoch": 0.3816300129366106,
+      "grad_norm": 0.17354200780391693,
+      "kl": 0.3912109375,
+      "learning_rate": 0.00017793379649314744,
+      "loss": 0.0156,
+      "num_tokens": 327143.0,
+      "reward": 2.8681763648986816,
+      "reward_std": 0.13084560632705688,
+      "rewards/keyword_inclusion_reward/mean": 0.3229166746139526,
+      "rewards/keyword_inclusion_reward/std": 0.04457640573382378,
+      "step": 295
+    },
+    {
+      "epoch": 0.38809831824062097,
+      "grad_norm": 0.23563814163208008,
+      "learning_rate": 0.00017682835235935236,
+      "loss": 0.014,
+      "step": 300
+    },
+    {
+      "epoch": 0.38809831824062097,
+      "eval_clip_ratio/high_max": 0.0,
+      "eval_clip_ratio/high_mean": 0.0,
+      "eval_clip_ratio/low_mean": 0.0,
+      "eval_clip_ratio/low_min": 0.0,
+      "eval_clip_ratio/region_mean": 0.0,
+      "eval_completions/clipped_ratio": 0.9840425531914894,
+      "eval_completions/max_length": 32.0,
+      "eval_completions/max_terminated_length": 7.085106382978723,
+      "eval_completions/mean_length": 31.93218085106383,
+      "eval_completions/mean_terminated_length": 7.085106382978723,
+      "eval_completions/min_length": 30.914893617021278,
+      "eval_completions/min_terminated_length": 7.085106382978723,
+      "eval_kl": 0.3568816489361702,
+      "eval_loss": 0.0143232811242342,
+      "eval_num_tokens": 332728.0,
+      "eval_reward": 2.7559690475463867,
+      "eval_reward_std": 0.26725911079569065,
+      "eval_rewards/keyword_inclusion_reward/mean": 0.31028369639782194,
+      "eval_rewards/keyword_inclusion_reward/std": 0.0670770841076019,
+      "eval_runtime": 77.8145,
+      "eval_samples_per_second": 4.755,
+      "eval_steps_per_second": 0.308,
+      "step": 300
     }
   ],
   "logging_steps": 5,
   "max_steps": 1000,
+  "num_input_tokens_seen": 332728,
   "num_train_epochs": 2,
   "save_steps": 100,
   "stateful_callbacks": {