Training in progress, epoch 0, checkpoint

Browse files

Files changed (13) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step400/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step400/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step400/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step400/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step400/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +592 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a64a873d45775ddccac9ee78b1e12b16fcdd62971997377c3dd5ad690bf41a6c
 size 25191728

 version https://git-lfs.github.com/spec/v1
+oid sha256:24d72ee90d76c81674597dcb0e10380b2068c60d3b91312ddf40281fe3f2f688
 size 25191728

last-checkpoint/global_step400/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c2daa77467a73cd9bb82b5b385ef34b551e3cb167da2550ee87b22916884e4fe
+size 18984805

last-checkpoint/global_step400/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fcd67a8bdd2a3b3c9528fd0a1df9b021756ef46f33a1058534ba538677db0b27
+size 18984805

last-checkpoint/global_step400/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0f5929d75f4d7120a1ebc3928292823618ea6f2f4e243da19cf25438f4031742
+size 18984869

last-checkpoint/global_step400/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:60a21ecd251023e210801f80c09dcaea5751e75e23dc42a70014e47a5e4fffd1
+size 18984869

last-checkpoint/global_step400/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b96ec202e5dcc71bec9fc6ea6262560febf6e29bba0eae4307889cfc9940cb17
+size 336491749

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step300~~


1	+ global_step400

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fe93893993c87c24f0d46f15fac0c7a3d8656e4fe0690c462da269c161456e0a
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:3d65adc402fa2fe4f38fc2f77d5dca31cd82c7b022b2f8c04bcc271f15359315
 size 15429

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5c9e16fcf178aa5d16066ea40cd1adee1df67c4ea116c9e16f45572b01ca6d8a
 size 15365

 version https://git-lfs.github.com/spec/v1
+oid sha256:b96211db15079a80447ea224dd8d490fdb719f9c4f49a9d525e71e12040e35c9
 size 15365

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:45de998578ebb52844d84bdab92f735bd86ef126f0e856c874215a54e72eca5f
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:d532cd2148ca59776629287179e81f4f180f4fd6a9868d52549ebf5b60992e2f
 size 15429

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5bb0e5c5b968031cb67c5fdf83c725ba288977a950e2bb2b6f8e63b3d8fe3336
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:d5eb0ba76503d7ba24e635fd14190b4003414c2cdd868c6428e425fe7fa3d3b6
 size 15429

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:738f1bd52a0e5e3570eb826d97ec615ac0a30012cc827a5a3725e6329285a9f5
 size 1401

 version https://git-lfs.github.com/spec/v1
+oid sha256:20868968ee1625b70346118dc2111e977bbac63a42d7a79aa9441567ffaca394
 size 1401

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
   "best_global_step": null,
-  "best_metric": 0.6344618797302246,
   "best_model_checkpoint": null,
-  "epoch": 0.09894459102902374,
   "eval_steps": 100,
-  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1772,11 +1772,599 @@
       "eval_samples_per_second": 5.619,
       "eval_steps_per_second": 0.351,
       "step": 300
     }
   ],
   "logging_steps": 5,
   "max_steps": 1000,
-  "num_input_tokens_seen": 796625,
   "num_train_epochs": 1,
   "save_steps": 100,
   "stateful_callbacks": {

 {
   "best_global_step": null,
+  "best_metric": 0.8869044184684753,
   "best_model_checkpoint": null,
+  "epoch": 0.13192612137203166,
   "eval_steps": 100,
+  "global_step": 400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 5.619,
       "eval_steps_per_second": 0.351,
       "step": 300
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.3,
+      "completions/max_length": 32.0,
+      "completions/max_terminated_length": 20.9,
+      "completions/mean_length": 11.653125,
+      "completions/mean_terminated_length": 2.9934032917022706,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 0.10059366754617415,
+      "grad_norm": 2.035731077194214,
+      "kl": 9.2609375,
+      "learning_rate": 0.00017569950556517566,
+      "loss": 0.767,
+      "num_tokens": 809213.0,
+      "reward": 37.08262882232666,
+      "reward_std": 9.928300952911377,
+      "rewards/conciseness_reward/mean": 7.599223709106445,
+      "rewards/conciseness_reward/std": 3.068327784538269,
+      "rewards/reward_func_correct_answer/mean": 0.0,
+      "rewards/reward_func_correct_answer/std": 0.0,
+      "rewards/reward_func_keywords/mean": 0.0,
+      "rewards/reward_func_keywords/std": 0.0,
+      "step": 305
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.25625,
+      "completions/max_length": 32.0,
+      "completions/max_terminated_length": 20.6,
+      "completions/mean_length": 10.4125,
+      "completions/mean_terminated_length": 3.0596010208129885,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 0.10224274406332454,
+      "grad_norm": 2.1636366844177246,
+      "kl": 8.353125,
+      "learning_rate": 0.00017454759996828623,
+      "loss": 0.7837,
+      "num_tokens": 821771.0,
+      "reward": 38.445166778564456,
+      "reward_std": 10.677533721923828,
+      "rewards/conciseness_reward/mean": 7.878444194793701,
+      "rewards/conciseness_reward/std": 2.9698015213012696,
+      "rewards/reward_func_correct_answer/mean": 0.0,
+      "rewards/reward_func_correct_answer/std": 0.0,
+      "rewards/reward_func_keywords/mean": 0.0,
+      "rewards/reward_func_keywords/std": 0.0,
+      "step": 310
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.19375,
+      "completions/max_length": 32.0,
+      "completions/max_terminated_length": 18.6,
+      "completions/mean_length": 7.9625,
+      "completions/mean_terminated_length": 2.1980216979980467,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 0.10389182058047493,
+      "grad_norm": 1.422290563583374,
+      "kl": 9.959375,
+      "learning_rate": 0.00017337298645028764,
+      "loss": 0.7172,
+      "num_tokens": 832413.0,
+      "reward": 41.570855712890626,
+      "reward_std": 6.847911691665649,
+      "rewards/conciseness_reward/mean": 8.51898136138916,
+      "rewards/conciseness_reward/std": 2.5959963321685793,
+      "rewards/reward_func_correct_answer/mean": 0.0,
+      "rewards/reward_func_correct_answer/std": 0.0,
+      "rewards/reward_func_keywords/mean": 0.0,
+      "rewards/reward_func_keywords/std": 0.0,
+      "step": 315
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.24375,
+      "completions/max_length": 32.0,
+      "completions/max_terminated_length": 11.6,
+      "completions/mean_length": 9.3375,
+      "completions/mean_terminated_length": 1.976455068588257,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 0.10554089709762533,
+      "grad_norm": 5.7738847732543945,
+      "kl": 11.91875,
+      "learning_rate": 0.00017217602280983623,
+      "loss": 0.9398,
+      "num_tokens": 844013.0,
+      "reward": 40.131536865234374,
+      "reward_std": 10.431174755096436,
+      "rewards/conciseness_reward/mean": 8.224026775360107,
+      "rewards/conciseness_reward/std": 2.8040316104888916,
+      "rewards/reward_func_correct_answer/mean": 0.0,
+      "rewards/reward_func_correct_answer/std": 0.0,
+      "rewards/reward_func_keywords/mean": 0.0,
+      "rewards/reward_func_keywords/std": 0.0,
+      "step": 320
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.2375,
+      "completions/max_length": 32.0,
+      "completions/max_terminated_length": 6.0,
+      "completions/mean_length": 8.51875,
+      "completions/mean_terminated_length": 1.1981538534164429,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 0.10718997361477572,
+      "grad_norm": 1.6407678127288818,
+      "kl": 9.725,
+      "learning_rate": 0.0001709570736536521,
+      "loss": 0.7634,
+      "num_tokens": 855598.0,
+      "reward": 40.76496963500976,
+      "reward_std": 8.526632690429688,
+      "rewards/conciseness_reward/mean": 8.353833961486817,
+      "rewards/conciseness_reward/std": 2.905502271652222,
+      "rewards/reward_func_correct_answer/mean": 0.0,
+      "rewards/reward_func_correct_answer/std": 0.0,
+      "rewards/reward_func_keywords/mean": 0.0,
+      "rewards/reward_func_keywords/std": 0.0,
+      "step": 325
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.2125,
+      "completions/max_length": 32.0,
+      "completions/max_terminated_length": 12.4,
+      "completions/mean_length": 7.99375,
+      "completions/mean_terminated_length": 1.5209110260009766,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 0.10883905013192612,
+      "grad_norm": 2.852661609649658,
+      "kl": 11.234375,
+      "learning_rate": 0.00016971651028545648,
+      "loss": 0.8528,
+      "num_tokens": 869583.0,
+      "reward": 40.956661987304685,
+      "reward_std": 9.296725082397462,
+      "rewards/conciseness_reward/mean": 8.393116474151611,
+      "rewards/conciseness_reward/std": 2.911441469192505,
+      "rewards/reward_func_correct_answer/mean": 0.0,
+      "rewards/reward_func_correct_answer/std": 0.0,
+      "rewards/reward_func_keywords/mean": 0.0,
+      "rewards/reward_func_keywords/std": 0.0,
+      "step": 330
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.2,
+      "completions/max_length": 32.0,
+      "completions/max_terminated_length": 17.8,
+      "completions/mean_length": 7.90625,
+      "completions/mean_terminated_length": 1.8667908191680909,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 0.11048812664907652,
+      "grad_norm": 1.3491684198379517,
+      "kl": 9.65625,
+      "learning_rate": 0.00016845471059286887,
+      "loss": 0.7327,
+      "num_tokens": 882242.0,
+      "reward": 41.10959243774414,
+      "reward_std": 8.142712497711182,
+      "rewards/conciseness_reward/mean": 8.424456214904785,
+      "rewards/conciseness_reward/std": 2.8741564750671387,
+      "rewards/reward_func_correct_answer/mean": 0.0,
+      "rewards/reward_func_correct_answer/std": 0.0,
+      "rewards/reward_func_keywords/mean": 0.0,
+      "rewards/reward_func_keywords/std": 0.0,
+      "step": 335
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.31875,
+      "completions/max_length": 32.0,
+      "completions/max_terminated_length": 16.6,
+      "completions/mean_length": 11.775,
+      "completions/mean_terminated_length": 2.221480059623718,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 0.11213720316622691,
+      "grad_norm": 2.546013593673706,
+      "kl": 8.3375,
+      "learning_rate": 0.00016717205893229903,
+      "loss": 0.6472,
+      "num_tokens": 894454.0,
+      "reward": 36.69198989868164,
+      "reward_std": 8.701870346069336,
+      "rewards/conciseness_reward/mean": 7.519171237945557,
+      "rewards/conciseness_reward/std": 3.3117987632751467,
+      "rewards/reward_func_correct_answer/mean": 0.0,
+      "rewards/reward_func_correct_answer/std": 0.0,
+      "rewards/reward_func_keywords/mean": 0.0,
+      "rewards/reward_func_keywords/std": 0.0,
+      "step": 340
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.23125,
+      "completions/max_length": 32.0,
+      "completions/max_terminated_length": 13.6,
+      "completions/mean_length": 8.6375,
+      "completions/mean_terminated_length": 1.6123589992523193,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 0.1137862796833773,
+      "grad_norm": 1.6078628301620483,
+      "kl": 5.08125,
+      "learning_rate": 0.00016586894601186805,
+      "loss": 0.4841,
+      "num_tokens": 907630.0,
+      "reward": 40.832821655273435,
+      "reward_std": 7.08829927444458,
+      "rewards/conciseness_reward/mean": 8.367738628387452,
+      "rewards/conciseness_reward/std": 2.808896017074585,
+      "rewards/reward_func_correct_answer/mean": 0.0,
+      "rewards/reward_func_correct_answer/std": 0.0,
+      "rewards/reward_func_keywords/mean": 0.0,
+      "rewards/reward_func_keywords/std": 0.0,
+      "step": 345
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5,
+      "completions/max_length": 32.0,
+      "completions/max_terminated_length": 23.2,
+      "completions/mean_length": 17.94375,
+      "completions/mean_terminated_length": 3.825910973548889,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 0.11543535620052771,
+      "grad_norm": 8.127303123474121,
+      "kl": 16.021875,
+      "learning_rate": 0.00016454576877239507,
+      "loss": 1.0026,
+      "num_tokens": 920553.0,
+      "reward": 31.658840942382813,
+      "reward_std": 11.956652450561524,
+      "rewards/conciseness_reward/mean": 6.487744331359863,
+      "rewards/conciseness_reward/std": 3.047306680679321,
+      "rewards/reward_func_correct_answer/mean": 0.0,
+      "rewards/reward_func_correct_answer/std": 0.0,
+      "rewards/reward_func_keywords/mean": 0.0,
+      "rewards/reward_func_keywords/std": 0.0,
+      "step": 350
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.49375,
+      "completions/max_length": 32.0,
+      "completions/max_terminated_length": 20.6,
+      "completions/mean_length": 17.4375,
+      "completions/mean_terminated_length": 3.490882396697998,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 0.1170844327176781,
+      "grad_norm": 2.003816843032837,
+      "kl": 5.35625,
+      "learning_rate": 0.0001632029302664851,
+      "loss": 0.5399,
+      "num_tokens": 936001.0,
+      "reward": 30.59487419128418,
+      "reward_std": 10.253981018066407,
+      "rewards/conciseness_reward/mean": 6.269708824157715,
+      "rewards/conciseness_reward/std": 3.309423828125,
+      "rewards/reward_func_correct_answer/mean": 0.0,
+      "rewards/reward_func_correct_answer/std": 0.0,
+      "rewards/reward_func_keywords/mean": 0.0,
+      "rewards/reward_func_keywords/std": 0.0,
+      "step": 355
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.2625,
+      "completions/max_length": 32.0,
+      "completions/max_terminated_length": 21.8,
+      "completions/mean_length": 10.33125,
+      "completions/mean_terminated_length": 2.5056591749191286,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 0.11873350923482849,
+      "grad_norm": 1.3860801458358765,
+      "kl": 6.5125,
+      "learning_rate": 0.0001618408395357554,
+      "loss": 0.6358,
+      "num_tokens": 947848.0,
+      "reward": 37.97140731811523,
+      "reward_std": 9.808005714416504,
+      "rewards/conciseness_reward/mean": 7.781358432769776,
+      "rewards/conciseness_reward/std": 3.182269048690796,
+      "rewards/reward_func_correct_answer/mean": 0.0,
+      "rewards/reward_func_correct_answer/std": 0.0,
+      "rewards/reward_func_keywords/mean": 0.0,
+      "rewards/reward_func_keywords/std": 0.0,
+      "step": 360
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.1875,
+      "completions/max_length": 32.0,
+      "completions/max_terminated_length": 19.0,
+      "completions/mean_length": 7.55625,
+      "completions/mean_terminated_length": 1.9193000078201294,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 0.1203825857519789,
+      "grad_norm": 3.3567373752593994,
+      "kl": 13.759375,
+      "learning_rate": 0.0001604599114862375,
+      "loss": 0.8571,
+      "num_tokens": 959841.0,
+      "reward": 41.46042251586914,
+      "reward_std": 6.935988235473633,
+      "rewards/conciseness_reward/mean": 8.496350860595703,
+      "rewards/conciseness_reward/std": 2.798071002960205,
+      "rewards/reward_func_correct_answer/mean": 0.0,
+      "rewards/reward_func_correct_answer/std": 0.0,
+      "rewards/reward_func_keywords/mean": 0.0,
+      "rewards/reward_func_keywords/std": 0.0,
+      "step": 365
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.25625,
+      "completions/max_length": 32.0,
+      "completions/max_terminated_length": 14.2,
+      "completions/mean_length": 9.6625,
+      "completions/mean_terminated_length": 2.0050908803939818,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 0.12203166226912929,
+      "grad_norm": 1.5818016529083252,
+      "kl": 8.46875,
+      "learning_rate": 0.00015906056676199255,
+      "loss": 0.7285,
+      "num_tokens": 971895.0,
+      "reward": 38.987307739257815,
+      "reward_std": 9.816894721984863,
+      "rewards/conciseness_reward/mean": 7.989543151855469,
+      "rewards/conciseness_reward/std": 3.1488665103912354,
+      "rewards/reward_func_correct_answer/mean": 0.0,
+      "rewards/reward_func_correct_answer/std": 0.0,
+      "rewards/reward_func_keywords/mean": 0.0,
+      "rewards/reward_func_keywords/std": 0.0,
+      "step": 370
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.2375,
+      "completions/max_length": 32.0,
+      "completions/max_terminated_length": 12.8,
+      "completions/mean_length": 8.95,
+      "completions/mean_terminated_length": 1.782608699798584,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 0.12368073878627968,
+      "grad_norm": 2.568260669708252,
+      "kl": 8.846875,
+      "learning_rate": 0.00015764323161697935,
+      "loss": 0.7342,
+      "num_tokens": 983269.0,
+      "reward": 40.019395446777345,
+      "reward_std": 8.695895671844482,
+      "rewards/conciseness_reward/mean": 8.201046085357666,
+      "rewards/conciseness_reward/std": 2.975964069366455,
+      "rewards/reward_func_correct_answer/mean": 0.0,
+      "rewards/reward_func_correct_answer/std": 0.0,
+      "rewards/reward_func_keywords/mean": 0.0,
+      "rewards/reward_func_keywords/std": 0.0,
+      "step": 375
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.2375,
+      "completions/max_length": 32.0,
+      "completions/max_terminated_length": 10.0,
+      "completions/mean_length": 8.64375,
+      "completions/mean_terminated_length": 1.3947399377822876,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 0.12532981530343007,
+      "grad_norm": 1.7566519975662231,
+      "kl": 10.090625,
+      "learning_rate": 0.00015620833778521307,
+      "loss": 0.7109,
+      "num_tokens": 994490.0,
+      "reward": 40.795552825927736,
+      "reward_std": 6.594453907012939,
+      "rewards/conciseness_reward/mean": 8.360101222991943,
+      "rewards/conciseness_reward/std": 2.781657338142395,
+      "rewards/reward_func_correct_answer/mean": 0.0,
+      "rewards/reward_func_correct_answer/std": 0.0,
+      "rewards/reward_func_keywords/mean": 0.0,
+      "rewards/reward_func_keywords/std": 0.0,
+      "step": 380
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.36875,
+      "completions/max_length": 32.0,
+      "completions/max_terminated_length": 1.0,
+      "completions/mean_length": 12.43125,
+      "completions/mean_terminated_length": 1.0,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 0.12697889182058048,
+      "grad_norm": 1.1844645738601685,
+      "kl": 6.378125,
+      "learning_rate": 0.00015475632234925504,
+      "loss": 0.6129,
+      "num_tokens": 1006117.0,
+      "reward": 36.47860527038574,
+      "reward_std": 11.079174518585205,
+      "rewards/conciseness_reward/mean": 7.475443267822266,
+      "rewards/conciseness_reward/std": 3.2058629512786867,
+      "rewards/reward_func_correct_answer/mean": 0.0,
+      "rewards/reward_func_correct_answer/std": 0.0,
+      "rewards/reward_func_keywords/mean": 0.0,
+      "rewards/reward_func_keywords/std": 0.0,
+      "step": 385
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.5125,
+      "completions/max_length": 32.0,
+      "completions/max_terminated_length": 9.4,
+      "completions/mean_length": 17.15,
+      "completions/mean_terminated_length": 1.519215726852417,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 0.12862796833773088,
+      "grad_norm": 1.8607726097106934,
+      "kl": 10.7625,
+      "learning_rate": 0.000153287627607073,
+      "loss": 0.8252,
+      "num_tokens": 1019911.0,
+      "reward": 31.58481674194336,
+      "reward_std": 12.696942138671876,
+      "rewards/conciseness_reward/mean": 6.472575092315674,
+      "rewards/conciseness_reward/std": 3.4355133533477784,
+      "rewards/reward_func_correct_answer/mean": 0.0,
+      "rewards/reward_func_correct_answer/std": 0.0,
+      "rewards/reward_func_keywords/mean": 0.0,
+      "rewards/reward_func_keywords/std": 0.0,
+      "step": 390
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.26875,
+      "completions/max_length": 32.0,
+      "completions/max_terminated_length": 9.2,
+      "completions/mean_length": 9.78125,
+      "completions/mean_terminated_length": 1.5907407760620118,
+      "completions/min_length": 1.0,
+      "completions/min_terminated_length": 1.0,
+      "epoch": 0.13027704485488126,
+      "grad_norm": 1.307873010635376,
+      "kl": 7.2125,
+      "learning_rate": 0.00015180270093731303,
+      "loss": 0.6376,
+      "num_tokens": 1034198.0,
+      "reward": 39.4156982421875,
+      "reward_std": 8.192217206954956,
+      "rewards/conciseness_reward/mean": 8.075745105743408,
+      "rewards/conciseness_reward/std": 3.032507038116455,
+      "rewards/reward_func_correct_answer/mean": 0.0,
+      "rewards/reward_func_correct_answer/std": 0.0,
+      "rewards/reward_func_keywords/mean": 0.002083333395421505,
+      "rewards/reward_func_keywords/std": 0.01178511381149292,
+      "step": 395
+    },
+    {
+      "epoch": 0.13192612137203166,
+      "grad_norm": 1.1687965393066406,
+      "learning_rate": 0.00015030199466302353,
+      "loss": 0.5685,
+      "step": 400
+    },
+    {
+      "epoch": 0.13192612137203166,
+      "eval_clip_ratio/high_max": 0.0,
+      "eval_clip_ratio/high_mean": 0.0,
+      "eval_clip_ratio/low_mean": 0.0,
+      "eval_clip_ratio/low_min": 0.0,
+      "eval_clip_ratio/region_mean": 0.0,
+      "eval_completions/clipped_ratio": 0.2789835164835165,
+      "eval_completions/max_length": 32.0,
+      "eval_completions/max_terminated_length": 8.082417582417582,
+      "eval_completions/mean_length": 10.17390110204508,
+      "eval_completions/mean_terminated_length": 1.7402353758340354,
+      "eval_completions/min_length": 1.0,
+      "eval_completions/min_terminated_length": 1.0,
+      "eval_kl": 12.785199175824175,
+      "eval_loss": 0.8869044184684753,
+      "eval_num_tokens": 1045628.0,
+      "eval_reward": 39.34467090355171,
+      "eval_reward_std": 9.140103686150614,
+      "eval_rewards/conciseness_reward/mean": 8.06277670441093,
+      "eval_rewards/conciseness_reward/std": 2.9405157920587195,
+      "eval_rewards/reward_func_correct_answer/mean": 0.0,
+      "eval_rewards/reward_func_correct_answer/std": 0.0,
+      "eval_rewards/reward_func_keywords/mean": 0.0,
+      "eval_rewards/reward_func_keywords/std": 0.0,
+      "eval_runtime": 259.9033,
+      "eval_samples_per_second": 5.598,
+      "eval_steps_per_second": 0.35,
+      "step": 400
     }
   ],
   "logging_steps": 5,
   "max_steps": 1000,
+  "num_input_tokens_seen": 1045628,
   "num_train_epochs": 1,
   "save_steps": 100,
   "stateful_callbacks": {