diff --git "a/debug.log" "b/debug.log"
new file mode 100644--- /dev/null
+++ "b/debug.log"
@@ -0,0 +1,1243 @@
+[2026-01-28 17:33:01,183] [DEBUG] [axolotl.utils.config.resolve_dtype:66] [PID:251] bf16 support detected, enabling for this configuration.
+[2026-01-28 17:33:01,183] [WARNING] [py.warnings._showwarnmsg:110] [PID:251] /root/miniconda3/envs/py3.11/lib/python3.11/site-packages/torch/backends/__init__.py:46: UserWarning: Please use the new API settings to control TF32 behavior, such as torch.backends.cudnn.conv.fp32_precision = 'tf32' or torch.backends.cuda.matmul.fp32_precision = 'ieee'. Old settings, e.g, torch.backends.cuda.matmul.allow_tf32 = True, torch.backends.cudnn.allow_tf32 = True, allowTF32CuDNN() and allowTF32CuBLAS() will be deprecated after Pytorch 2.9. Please see https://pytorch.org/docs/main/notes/cuda.html#tensorfloat-32-tf32-on-ampere-and-later-devices (Triggered internally at /pytorch/aten/src/ATen/Context.cpp:80.)
+  self.setter(val)
+
+[2026-01-28 17:33:01,188] [DEBUG] [axolotl.utils.config.log_gpu_memory_usage:127] [PID:251] baseline 0.000GB ()
+[2026-01-28 17:33:01,189] [INFO] [axolotl.cli.config.load_cfg:259] [PID:251] config:
+{
+  "activation_offloading": false,
+  "adapter": "lora",
+  "axolotl_config_path": "/workspace/axolotl/configs/1.yml",
+  "base_model": "/cache/models/Qwen--Qwen2.5-3B-Instruct",
+  "base_model_config": "/cache/models/Qwen--Qwen2.5-3B-Instruct",
+  "batch_size": 64,
+  "bf16": true,
+  "capabilities": {
+    "bf16": true,
+    "compute_capability": "sm_90",
+    "fp8": true,
+    "n_gpu": 2,
+    "n_node": 1
+  },
+  "chat_template": "llama3",
+  "context_parallel_size": 1,
+  "dataloader_num_workers": 2,
+  "dataloader_pin_memory": true,
+  "dataloader_prefetch_factor": 256,
+  "dataset_num_proc": 52,
+  "datasets": [
+    {
+      "data_files": [
+        "1_train_data.json"
+      ],
+      "ds_type": "json",
+      "message_property_mappings": {
+        "content": "content",
+        "role": "role"
+      },
+      "path": "/workspace/axolotl/data",
+      "split": "train",
+      "trust_remote_code": false
+    }
+  ],
+  "ddp": true,
+  "device": "cuda:0",
+  "device_map": {
+    "": 0
+  },
+  "dion_rank_fraction": 1.0,
+  "dion_rank_multiple_of": 1,
+  "eaft_alpha": 1.0,
+  "eaft_k": 20,
+  "env_capabilities": {
+    "torch_version": "2.9.0"
+  },
+  "eval_batch_size": 2,
+  "eval_causal_lm_metrics": [
+    "sacrebleu",
+    "comet",
+    "ter",
+    "chrf"
+  ],
+  "eval_max_new_tokens": 128,
+  "eval_strategy": "no",
+  "eval_table_size": 0,
+  "experimental_skip_move_to_device": true,
+  "flash_attention": false,
+  "fp16": false,
+  "gradient_accumulation_steps": 16,
+  "gradient_checkpointing": true,
+  "group_by_length": false,
+  "include_tkps": true,
+  "is_falcon_derived_model": false,
+  "is_llama_derived_model": false,
+  "is_mistral_derived_model": false,
+  "learning_rate": 2.5e-05,
+  "lisa_layers_attribute": "model.layers",
+  "load_best_model_at_end": false,
+  "load_in_4bit": false,
+  "load_in_8bit": false,
+  "local_rank": 0,
+  "logging_steps": 1,
+  "lora_alpha": 32,
+  "lora_dropout": 0.0,
+  "lora_r": 32,
+  "lora_target_linear": true,
+  "loraplus_lr_embedding": 1e-06,
+  "lr_scheduler": "cosine",
+  "max_grad_norm": 1.0,
+  "max_steps": 1000,
+  "mean_resizing_embeddings": false,
+  "micro_batch_size": 2,
+  "mlflow_experiment_name": "/workspace/axolotl/data/1_train_data.json",
+  "model_config_type": "qwen2",
+  "num_epochs": 1.0,
+  "optimizer": "adamw_bnb_8bit",
+  "otel_metrics_host": "localhost",
+  "otel_metrics_port": 8000,
+  "output_dir": "/app/checkpoints/1/game-v1.0.0",
+  "pad_to_sequence_len": true,
+  "pretrain_multipack_attn": true,
+  "profiler_steps_start": 0,
+  "qlora_sharded_model_loading": false,
+  "ray_num_workers": 1,
+  "resources_per_worker": {
+    "GPU": 1
+  },
+  "rl": "grpo",
+  "sample_packing": false,
+  "sample_packing_bin_size": 200,
+  "sample_packing_group_size": 100000,
+  "save_only_model": false,
+  "save_safetensors": true,
+  "save_steps": 20,
+  "save_total_limit": 1,
+  "sequence_len": 8192,
+  "shuffle_before_merging_datasets": false,
+  "shuffle_merged_datasets": true,
+  "skip_prepare_dataset": false,
+  "special_tokens": {
+    "bos_token": "<|im_end|>"
+  },
+  "streaming_multipack_buffer_size": 10000,
+  "strict": false,
+  "tensor_parallel_size": 1,
+  "tf32": false,
+  "tiled_mlp_use_original_mlp": true,
+  "tokenizer_config": "/cache/models/Qwen--Qwen2.5-3B-Instruct",
+  "tokenizer_save_jinja_files": true,
+  "tokenizer_type": "AutoTokenizer",
+  "torch_dtype": "torch.bfloat16",
+  "train_on_inputs": false,
+  "trl": {
+    "beta": 0.001,
+    "log_completions": false,
+    "mask_truncated_completions": false,
+    "max_completion_length": 256,
+    "num_generations": 8,
+    "ref_model_mixup_alpha": 0.9,
+    "ref_model_sync_steps": 64,
+    "reward_funcs": [
+      "affine_game.rollout_reward_func"
+    ],
+    "reward_weights": [
+      1.0
+    ],
+    "rollout_func": "affine_game.rollout_first_prompt_and_completion",
+    "scale_rewards": true,
+    "sync_ref_model": false,
+    "temperature": 0.7,
+    "use_vllm": true,
+    "vllm_enable_sleep_mode": false,
+    "vllm_mode": "colocate",
+    "vllm_server_host": "0.0.0.0",
+    "vllm_server_port": 8000
+  },
+  "trust_remote_code": true,
+  "type_of_model": "AutoModelForCausalLM",
+  "use_mlflow": true,
+  "use_otel_metrics": false,
+  "use_ray": false,
+  "use_wandb": true,
+  "val_set_size": 0.0,
+  "vllm": {
+    "device": "auto",
+    "dtype": "auto",
+    "enable_prefix_caching": true,
+    "gpu_memory_utilization": 0.3,
+    "host": "0.0.0.0",
+    "max_model_len": 8192,
+    "port": 8000,
+    "tensor_parallel_size": 1
+  },
+  "wandb_mode": "online",
+  "wandb_name": "1_game-v1.0.0",
+  "wandb_project": "Gradients-Rollout",
+  "warmup_steps": 10,
+  "weight_decay": 0.0,
+  "world_size": 2
+}
+[2026-01-28 17:33:01,190] [WARNING] [axolotl.cli.checks.check_user_token:46] [PID:251] Error verifying HuggingFace token. Remember to log in using `hf auth login` and get your access token from https://huggingface.co/settings/tokens if you want to use gated models or datasets.
+[2026-01-28 17:33:01,421] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:285] [PID:251] EOS: 151645 / <|im_end|>
+[2026-01-28 17:33:01,422] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:286] [PID:251] BOS: 151645 / <|im_end|>
+[2026-01-28 17:33:01,422] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:287] [PID:251] PAD: 151643 / <|endoftext|>
+[2026-01-28 17:33:01,422] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:288] [PID:251] UNK: None / None
+[2026-01-28 17:33:08,215] [INFO] [axolotl.utils.data.shared.load_preprocessed_dataset:481] [PID:251] Unable to find prepared dataset in last_run_prepared/99e92ccac4c32db35c2b52b88285f0d2
+[2026-01-28 17:33:08,600] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:285] [PID:251] EOS: 151645 / <|im_end|>
+[2026-01-28 17:33:08,600] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:286] [PID:251] BOS: 151645 / <|im_end|>
+[2026-01-28 17:33:08,600] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:287] [PID:251] PAD: 151643 / <|endoftext|>
+[2026-01-28 17:33:08,600] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:288] [PID:251] UNK: None / None
+Saving the dataset (0/3 shards):   0%|          | 0/1000 [00:00<?, ? examples/s]Saving the dataset (1/3 shards):  33%|███▎      | 334/1000 [00:00<00:00, 4287.74 examples/s]Saving the dataset (2/3 shards): 100%|██████████| 1000/1000 [00:00<00:00, 12573.46 examples/s]Saving the dataset (3/3 shards): 100%|██████████| 1000/1000 [00:00<00:00, 12471.17 examples/s]Saving the dataset (3/3 shards): 100%|██████████| 1000/1000 [00:00<00:00, 6769.45 examples/s] 
+[2026-01-28 17:33:08,945] [DEBUG] [axolotl.train.setup_model_and_tokenizer:70] [PID:251] loading tokenizer... /cache/models/Qwen--Qwen2.5-3B-Instruct
+[2026-01-28 17:33:09,170] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:285] [PID:251] EOS: 151645 / <|im_end|>
+[2026-01-28 17:33:09,170] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:286] [PID:251] BOS: 151645 / <|im_end|>
+[2026-01-28 17:33:09,170] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:287] [PID:251] PAD: 151643 / <|endoftext|>
+[2026-01-28 17:33:09,170] [DEBUG] [axolotl.loaders.tokenizer.load_tokenizer:288] [PID:251] UNK: None / None
+[2026-01-28 17:33:09,170] [DEBUG] [axolotl.train.setup_model_and_tokenizer:82] [PID:251] Loading model
+[2026-01-28 17:33:09,179] [DEBUG] [axolotl.monkeypatch.transformers.trainer_loss_calc.patch_evaluation_loop:87] [PID:251] Patched Trainer.evaluation_loop with nanmean loss calculation
+[2026-01-28 17:33:09,181] [DEBUG] [axolotl.monkeypatch.transformers.trainer_loss_calc.patch_maybe_log_save_evaluate:138] [PID:251] Patched Trainer._maybe_log_save_evaluate with nanmean loss calculation
+Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]Loading checkpoint shards:  50%|█████     | 1/2 [00:00<00:00,  1.60it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  2.17it/s]Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  2.06it/s]
+[2026-01-28 17:33:10,406] [INFO] [axolotl.loaders.model._configure_embedding_dtypes:346] [PID:251] Converting modules to torch.bfloat16
+[2026-01-28 17:33:10,409] [DEBUG] [axolotl.loaders.model.log_gpu_memory_usage:127] [PID:251] Memory usage after model load 6.907GB (+6.907GB allocated, +6.928GB reserved)
+[2026-01-28 17:33:10,409] [INFO] [axolotl.loaders.adapter.load_lora:81] [PID:251] found linear modules: ['down_proj', 'gate_proj', 'k_proj', 'o_proj', 'q_proj', 'up_proj', 'v_proj']
+trainable params: 59,867,136 || all params: 3,145,805,824 || trainable%: 1.9031
+[2026-01-28 17:33:11,262] [DEBUG] [axolotl.loaders.model.log_gpu_memory_usage:127] [PID:251] after adapters 5.972GB (+5.972GB allocated, +7.039GB reserved)
+[2026-01-28 17:33:11,805] [DEBUG] [axolotl.train.setup_reference_model:126] [PID:251] Passing model_ref: None to RL trainer
+[2026-01-28 17:33:18,908] [WARNING] [py.warnings._showwarnmsg:110] [PID:251] <string>:246: FutureWarning: The `max_prompt_length` argument is deprecated and will be removed in version 0.28.0. You should instead filter your dataset before training to ensure that prompts do not exceed your desired length.
+
+[2026-01-28 17:33:19,837] [WARNING] [py.warnings._showwarnmsg:110] [PID:251] /workspace/axolotl/src/axolotl/core/trainers/mixins/optimizer.py:209: UserWarning: You are importing from 'rollout_func', which is an experimental feature. This API may change or be removed at any time without prior notice. Silence this warning by setting environment variable TRL_EXPERIMENTAL_SILENCE=1.
+  super().__init__(*args, **kwargs)
+
+Loading safetensors checkpoint shards:   0% Completed | 0/2 [00:00<?, ?it/s]
+Loading safetensors checkpoint shards:  50% Completed | 1/2 [00:00<00:00,  2.26it/s]
+Loading safetensors checkpoint shards: 100% Completed | 2/2 [00:01<00:00,  1.55it/s]
+Loading safetensors checkpoint shards: 100% Completed | 2/2 [00:01<00:00,  1.63it/s]
+
+2026-01-28 17:34:07,072 - INFO - autotuner.py:256 - flashinfer.jit: [Autotuner]: Autotuning process starts ...
+2026-01-28 17:34:07,084 - INFO - autotuner.py:262 - flashinfer.jit: [Autotuner]: Autotuning process ends
+Capturing CUDA graphs (mixed prefill-decode, PIECEWISE):   0%|          | 0/11 [00:00<?, ?it/s]Capturing CUDA graphs (mixed prefill-decode, PIECEWISE):  27%|██▋       | 3/11 [00:00<00:00, 21.60it/s]Capturing CUDA graphs (mixed prefill-decode, PIECEWISE):  55%|█████▍    | 6/11 [00:00<00:00, 23.98it/s]Capturing CUDA graphs (mixed prefill-decode, PIECEWISE):  82%|████████▏ | 9/11 [00:00<00:00, 25.63it/s]Capturing CUDA graphs (mixed prefill-decode, PIECEWISE): 100%|██████████| 11/11 [00:00<00:00, 25.23it/s]
+Capturing CUDA graphs (decode, FULL):   0%|          | 0/7 [00:00<?, ?it/s]Capturing CUDA graphs (decode, FULL):  57%|█████▋    | 4/7 [00:00<00:00, 37.88it/s]Capturing CUDA graphs (decode, FULL): 100%|██████████| 7/7 [00:00<00:00, 39.18it/s]
+[2026-01-28 17:34:10,141] [INFO] [axolotl.train.save_initial_configs:402] [PID:251] Pre-saving adapter config to /app/checkpoints/1/game-v1.0.0...
+[2026-01-28 17:34:10,142] [INFO] [axolotl.train.save_initial_configs:406] [PID:251] Pre-saving tokenizer to /app/checkpoints/1/game-v1.0.0...
+[2026-01-28 17:34:10,272] [INFO] [axolotl.train.save_initial_configs:411] [PID:251] Pre-saving model config to /app/checkpoints/1/game-v1.0.0...
+[2026-01-28 17:34:10,275] [INFO] [axolotl.train.execute_training:207] [PID:251] Starting trainer...
+wandb: [wandb.login()] Loaded credentials for https://api.wandb.ai from WANDB_API_KEY.
+wandb: Currently logged in as: ductrung27-dt (iamPi-0519) to https://api.wandb.ai. Use `wandb login --relogin` to force relogin
+wandb: Tracking run with wandb version 0.24.0
+wandb: Run data is saved locally in /workspace/axolotl/wandb/run-20260128_173410-3o0zuo3r
+wandb: Run `wandb offline` to turn off syncing.
+wandb: Syncing run 1_game-v1.0.0
+wandb: ⭐️ View project at https://wandb.ai/iamPi-0519/Gradients-Rollout
+wandb: 🚀 View run at https://wandb.ai/iamPi-0519/Gradients-Rollout/runs/3o0zuo3r
+wandb: Detected [huggingface_hub.inference, openai] in use.
+wandb: Use W&B Weave for improved LLM call tracing. Install Weave with `pip install weave` then add `import weave` to the top of your script.
+wandb: For more information, check out the docs at: https://weave-docs.wandb.ai/
+wandb: WARNING Saving files without folders. If you want to preserve subdirectories pass base_path to wandb.save, i.e. wandb.save("/mnt/folder/file.h5", base_path="/mnt")
+wandb: WARNING Symlinked 1 file into the W&B run directory; call wandb.save again to sync new files.
+[2026-01-28 17:34:14,096] [INFO] [axolotl.utils.callbacks.on_train_begin:757] [PID:251] The Axolotl config has been saved to the WandB run under files.
+[2026-01-28 17:34:14,100] [INFO] [axolotl.utils.callbacks.mlflow_.on_train_begin:50] [PID:251] Skipping logging artifacts to MLflow (hf_mlflow_log_artifacts is false)
+  0%|          | 0/1000 [00:00<?, ?it/s]Affine GAME endpoint initialized on rank 0 at http://environment-server-0:8000
+  0%|          | 1/1000 [00:35<9:54:23, 35.70s/it]                                                  {'loss': 0.0007, 'grad_norm': 0.019583985209465027, 'learning_rate': 0.0, 'num_tokens': 148559.0, 'completions/mean_length': 1777.484375, 'completions/min_length': 864.0, 'completions/max_length': 3428.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1777.484375, 'completions/min_terminated_length': 864.0, 'completions/max_terminated_length': 3428.0, 'rewards/rollout_reward_func/mean': 8.389062881469727, 'rewards/rollout_reward_func/std': 5.205342769622803, 'reward': 8.389062881469727, 'reward_std': 4.996371269226074, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.0449029915034771, 'sampling/sampling_logp_difference/max': 1.77677321434021, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8476300239562988, 'sampling/importance_sampling_ratio/max': 2.316689968109131, 'kl': 0.0, 'entropy': 0.23449102602899075, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 34.45530365997547, 'epoch': 0.01}
+  0%|          | 1/1000 [00:35<9:54:23, 35.70s/it]  0%|          | 2/1000 [01:16<10:39:11, 38.43s/it]                                                   {'loss': -0.0011, 'grad_norm': 0.01817050389945507, 'learning_rate': 2.5e-06, 'num_tokens': 321611.0, 'completions/mean_length': 2152.1875, 'completions/min_length': 867.0, 'completions/max_length': 4567.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2152.1875, 'completions/min_terminated_length': 867.0, 'completions/max_terminated_length': 4567.0, 'rewards/rollout_reward_func/mean': 7.626562118530273, 'rewards/rollout_reward_func/std': 5.191300392150879, 'reward': 7.626562118530273, 'reward_std': 5.3166327476501465, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.042812492698431015, 'sampling/sampling_logp_difference/max': 2.435535192489624, 'sampling/importance_sampling_ratio/min': 0.021052898839116096, 'sampling/importance_sampling_ratio/mean': 0.8508774042129517, 'sampling/importance_sampling_ratio/max': 2.468319892883301, 'kl': 0.0, 'entropy': 0.23419710621237755, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 38.81140183799289, 'epoch': 0.02}
+  0%|          | 2/1000 [01:16<10:39:11, 38.43s/it]  0%|          | 3/1000 [01:44<9:22:43, 33.86s/it]                                                   {'loss': 0.0009, 'grad_norm': 0.023192692548036575, 'learning_rate': 5e-06, 'num_tokens': 479543.0, 'completions/mean_length': 1920.3125, 'completions/min_length': 987.0, 'completions/max_length': 3165.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1920.3125, 'completions/min_terminated_length': 987.0, 'completions/max_terminated_length': 3165.0, 'rewards/rollout_reward_func/mean': 8.03125, 'rewards/rollout_reward_func/std': 5.476584434509277, 'reward': 8.03125, 'reward_std': 4.911816596984863, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04988047108054161, 'sampling/sampling_logp_difference/max': 2.169837713241577, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8405570387840271, 'sampling/importance_sampling_ratio/max': 2.768293857574463, 'kl': 0.014641114757978357, 'entropy': 0.23920501675456762, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 27.21778823499335, 'epoch': 0.02}
+  0%|          | 3/1000 [01:44<9:22:43, 33.86s/it]  0%|          | 4/1000 [02:18<9:20:23, 33.76s/it]                                                  {'loss': -0.0022, 'grad_norm': 0.0248273815959692, 'learning_rate': 7.5e-06, 'num_tokens': 635822.0, 'completions/mean_length': 1896.109375, 'completions/min_length': 950.0, 'completions/max_length': 3812.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1896.109375, 'completions/min_terminated_length': 950.0, 'completions/max_terminated_length': 3812.0, 'rewards/rollout_reward_func/mean': 7.525000095367432, 'rewards/rollout_reward_func/std': 5.580862998962402, 'reward': 7.525000095367432, 'reward_std': 5.321502208709717, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04559781402349472, 'sampling/sampling_logp_difference/max': 4.678239822387695, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.821994423866272, 'sampling/importance_sampling_ratio/max': 2.7810027599334717, 'kl': 0.012294738669879735, 'entropy': 0.23464127536863089, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.13767239700974, 'epoch': 0.03}
+  0%|          | 4/1000 [02:18<9:20:23, 33.76s/it]  0%|          | 5/1000 [02:48<8:59:11, 32.51s/it]                                                  {'loss': -0.0011, 'grad_norm': 0.01964697614312172, 'learning_rate': 1e-05, 'num_tokens': 786481.0, 'completions/mean_length': 1810.671875, 'completions/min_length': 855.0, 'completions/max_length': 3479.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1810.671875, 'completions/min_terminated_length': 855.0, 'completions/max_terminated_length': 3479.0, 'rewards/rollout_reward_func/mean': 7.153124809265137, 'rewards/rollout_reward_func/std': 5.151605606079102, 'reward': 7.153124809265137, 'reward_std': 5.074514865875244, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04509609937667847, 'sampling/sampling_logp_difference/max': 3.963930606842041, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.889574408531189, 'sampling/importance_sampling_ratio/max': 2.4706621170043945, 'kl': 0.011374498441000469, 'entropy': 0.21718238107860088, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0005681818001903594, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.000480769231216982, 'clip_ratio/high_max': 0.000961538462433964, 'clip_ratio/region_mean': 0.0010489510314073414, 'step_time': 29.21281703000568, 'epoch': 0.04}
+  0%|          | 5/1000 [02:48<8:59:11, 32.51s/it]  1%|          | 6/1000 [03:13<8:18:17, 30.08s/it]                                                  {'loss': -0.0007, 'grad_norm': 0.022422369569540024, 'learning_rate': 1.25e-05, 'num_tokens': 929614.0, 'completions/mean_length': 1696.328125, 'completions/min_length': 866.0, 'completions/max_length': 2881.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1696.328125, 'completions/min_terminated_length': 866.0, 'completions/max_terminated_length': 2881.0, 'rewards/rollout_reward_func/mean': 7.600000381469727, 'rewards/rollout_reward_func/std': 5.252845287322998, 'reward': 7.600000381469727, 'reward_std': 5.267190933227539, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.05905315279960632, 'sampling/sampling_logp_difference/max': 3.935917377471924, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8026635050773621, 'sampling/importance_sampling_ratio/max': 2.7073163986206055, 'kl': 0.04395220603328198, 'entropy': 0.23426213767379522, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 24.280369503016118, 'epoch': 0.05}
+  1%|          | 6/1000 [03:13<8:18:17, 30.08s/it]  1%|          | 7/1000 [03:52<9:03:04, 32.81s/it]                                                  {'loss': -0.0001, 'grad_norm': 0.017265085130929947, 'learning_rate': 1.5e-05, 'num_tokens': 1114911.0, 'completions/mean_length': 2337.890625, 'completions/min_length': 945.0, 'completions/max_length': 4229.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2337.890625, 'completions/min_terminated_length': 945.0, 'completions/max_terminated_length': 4229.0, 'rewards/rollout_reward_func/mean': 6.873437881469727, 'rewards/rollout_reward_func/std': 4.891432285308838, 'reward': 6.873437881469727, 'reward_std': 4.990429401397705, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04555315524339676, 'sampling/sampling_logp_difference/max': 1.7806428670883179, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7262465953826904, 'sampling/importance_sampling_ratio/max': 2.8847389221191406, 'kl': 0.012703677610261366, 'entropy': 0.24324445333331823, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 36.793161087000044, 'epoch': 0.06}
+  1%|          | 7/1000 [03:52<9:03:04, 32.81s/it]  1%|          | 8/1000 [04:20<8:38:48, 31.38s/it]                                                  {'loss': 0.0007, 'grad_norm': 0.03011426329612732, 'learning_rate': 1.75e-05, 'num_tokens': 1252462.0, 'completions/mean_length': 1611.109375, 'completions/min_length': 853.0, 'completions/max_length': 3194.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1611.109375, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3194.0, 'rewards/rollout_reward_func/mean': 8.831250190734863, 'rewards/rollout_reward_func/std': 4.981581211090088, 'reward': 8.831249237060547, 'reward_std': 5.127071380615234, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04893182963132858, 'sampling/sampling_logp_difference/max': 1.4382493495941162, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9094492793083191, 'sampling/importance_sampling_ratio/max': 2.2807254791259766, 'kl': 0.022581974015338346, 'entropy': 0.2584460414946079, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 27.090340706999996, 'epoch': 0.06}
+  1%|          | 8/1000 [04:20<8:38:48, 31.38s/it]  1%|          | 9/1000 [04:51<8:36:32, 31.27s/it]                                                  {'loss': 0.0005, 'grad_norm': 0.01950080506503582, 'learning_rate': 2e-05, 'num_tokens': 1415538.0, 'completions/mean_length': 1997.0625, 'completions/min_length': 1232.0, 'completions/max_length': 3568.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1997.0625, 'completions/min_terminated_length': 1232.0, 'completions/max_terminated_length': 3568.0, 'rewards/rollout_reward_func/mean': 9.003124237060547, 'rewards/rollout_reward_func/std': 5.044751167297363, 'reward': 9.003124237060547, 'reward_std': 5.21970272064209, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.048958055675029755, 'sampling/sampling_logp_difference/max': 1.8573107719421387, 'sampling/importance_sampling_ratio/min': 0.02476186491549015, 'sampling/importance_sampling_ratio/mean': 0.9107823371887207, 'sampling/importance_sampling_ratio/max': 2.850072145462036, 'kl': 0.01961258493247442, 'entropy': 0.2374512618407607, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.848142109025503, 'epoch': 0.07}
+  1%|          | 9/1000 [04:51<8:36:32, 31.27s/it]  1%|          | 10/1000 [05:20<8:25:37, 30.64s/it]                                                   {'loss': -0.0011, 'grad_norm': 0.02438078448176384, 'learning_rate': 2.25e-05, 'num_tokens': 1574928.0, 'completions/mean_length': 1941.46875, 'completions/min_length': 1174.0, 'completions/max_length': 3307.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1941.46875, 'completions/min_terminated_length': 1174.0, 'completions/max_terminated_length': 3307.0, 'rewards/rollout_reward_func/mean': 7.509375095367432, 'rewards/rollout_reward_func/std': 5.428108215332031, 'reward': 7.509374618530273, 'reward_std': 5.473741054534912, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.055652402341365814, 'sampling/sampling_logp_difference/max': 1.97267746925354, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8001346588134766, 'sampling/importance_sampling_ratio/max': 2.7572972774505615, 'kl': 0.02308533267932944, 'entropy': 0.2407086081802845, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.091844013993978, 'epoch': 0.08}
+  1%|          | 10/1000 [05:20<8:25:37, 30.64s/it]  1%|          | 11/1000 [05:51<8:24:45, 30.62s/it]                                                   {'loss': -0.0003, 'grad_norm': 0.019059106707572937, 'learning_rate': 2.5e-05, 'num_tokens': 1722629.0, 'completions/mean_length': 1764.078125, 'completions/min_length': 779.0, 'completions/max_length': 3504.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1764.078125, 'completions/min_terminated_length': 779.0, 'completions/max_terminated_length': 3504.0, 'rewards/rollout_reward_func/mean': 9.050000190734863, 'rewards/rollout_reward_func/std': 4.95538854598999, 'reward': 9.050000190734863, 'reward_std': 5.05806827545166, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.0447239950299263, 'sampling/sampling_logp_difference/max': 1.9445955753326416, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8811415433883667, 'sampling/importance_sampling_ratio/max': 2.7568681240081787, 'kl': 0.017475997970905155, 'entropy': 0.23802981805056334, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.275170818000333, 'epoch': 0.09}
+  1%|          | 11/1000 [05:51<8:24:45, 30.62s/it]  1%|          | 12/1000 [06:23<8:30:47, 31.02s/it]                                                   {'loss': -0.0002, 'grad_norm': 0.011883054859936237, 'learning_rate': 2.499993706256939e-05, 'num_tokens': 1902038.0, 'completions/mean_length': 2245.890625, 'completions/min_length': 854.0, 'completions/max_length': 3613.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2245.890625, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 3613.0, 'rewards/rollout_reward_func/mean': 8.453125, 'rewards/rollout_reward_func/std': 4.810965538024902, 'reward': 8.453125, 'reward_std': 4.659708499908447, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04180849343538284, 'sampling/sampling_logp_difference/max': 2.8741300106048584, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8648772835731506, 'sampling/importance_sampling_ratio/max': 2.8920347690582275, 'kl': 0.03657319495687261, 'entropy': 0.2287999065592885, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.593733674009854, 'epoch': 0.1}
+  1%|          | 12/1000 [06:23<8:30:47, 31.02s/it]  1%|▏         | 13/1000 [06:57<8:45:05, 31.92s/it]                                                   {'loss': 0.0012, 'grad_norm': 0.018214402720332146, 'learning_rate': 2.499974825091133e-05, 'num_tokens': 2085390.0, 'completions/mean_length': 2309.125, 'completions/min_length': 784.0, 'completions/max_length': 3787.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2309.125, 'completions/min_terminated_length': 784.0, 'completions/max_terminated_length': 3787.0, 'rewards/rollout_reward_func/mean': 8.657812118530273, 'rewards/rollout_reward_func/std': 4.803696155548096, 'reward': 8.657812118530273, 'reward_std': 4.740242004394531, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04698561504483223, 'sampling/sampling_logp_difference/max': 1.900425910949707, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7482744455337524, 'sampling/importance_sampling_ratio/max': 2.7256338596343994, 'kl': 0.025113029638305306, 'entropy': 0.2279439251869917, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.53523847200995, 'epoch': 0.1}
+  1%|▏         | 13/1000 [06:57<8:45:05, 31.92s/it]  1%|▏         | 14/1000 [07:28<8:42:32, 31.80s/it]                                                   {'loss': -0.0013, 'grad_norm': 0.018199708312749863, 'learning_rate': 2.499943356692716e-05, 'num_tokens': 2260399.0, 'completions/mean_length': 2181.140625, 'completions/min_length': 852.0, 'completions/max_length': 3570.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2181.140625, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3570.0, 'rewards/rollout_reward_func/mean': 7.565625190734863, 'rewards/rollout_reward_func/std': 5.2851762771606445, 'reward': 7.565625190734863, 'reward_std': 5.277765274047852, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.05116947740316391, 'sampling/sampling_logp_difference/max': 2.6661295890808105, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8235674500465393, 'sampling/importance_sampling_ratio/max': 2.6164662837982178, 'kl': 0.06360975914867595, 'entropy': 0.21911466121673584, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.180024239016348, 'epoch': 0.11}
+  1%|▏         | 14/1000 [07:28<8:42:32, 31.80s/it]  2%|▏         | 15/1000 [07:52<8:04:24, 29.51s/it]                                                   {'loss': 0.0005, 'grad_norm': 0.025502996519207954, 'learning_rate': 2.4998993013785742e-05, 'num_tokens': 2392483.0, 'completions/mean_length': 1527.6875, 'completions/min_length': 864.0, 'completions/max_length': 2795.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1527.6875, 'completions/min_terminated_length': 864.0, 'completions/max_terminated_length': 2795.0, 'rewards/rollout_reward_func/mean': 7.646874904632568, 'rewards/rollout_reward_func/std': 5.453235149383545, 'reward': 7.646875381469727, 'reward_std': 5.252322196960449, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.0435168519616127, 'sampling/sampling_logp_difference/max': 1.6558260917663574, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.920190691947937, 'sampling/importance_sampling_ratio/max': 2.8233933448791504, 'kl': 0.09067432174924761, 'entropy': 0.20934326015412807, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 23.194078221007658, 'epoch': 0.12}
+  2%|▏         | 15/1000 [07:52<8:04:24, 29.51s/it]  2%|▏         | 16/1000 [08:20<7:51:56, 28.78s/it]                                                   {'loss': 0.0008, 'grad_norm': 0.023094885051250458, 'learning_rate': 2.4998426595923442e-05, 'num_tokens': 2544056.0, 'completions/mean_length': 1822.953125, 'completions/min_length': 864.0, 'completions/max_length': 3077.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1822.953125, 'completions/min_terminated_length': 864.0, 'completions/max_terminated_length': 3077.0, 'rewards/rollout_reward_func/mean': 9.450000762939453, 'rewards/rollout_reward_func/std': 5.1975274085998535, 'reward': 9.44999885559082, 'reward_std': 5.197780609130859, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04489345848560333, 'sampling/sampling_logp_difference/max': 3.16379451751709, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8438833951950073, 'sampling/importance_sampling_ratio/max': 2.711364507675171, 'kl': 0.08317551389336586, 'entropy': 0.2034923480823636, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 25.9127955139993, 'epoch': 0.13}
+  2%|▏         | 16/1000 [08:20<7:51:56, 28.78s/it]  2%|▏         | 17/1000 [09:09<9:33:19, 34.99s/it]                                                   {'loss': 0.0001, 'grad_norm': 0.013269104063510895, 'learning_rate': 2.4997734319044076e-05, 'num_tokens': 2708438.0, 'completions/mean_length': 2018.71875, 'completions/min_length': 866.0, 'completions/max_length': 5383.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2018.71875, 'completions/min_terminated_length': 866.0, 'completions/max_terminated_length': 5383.0, 'rewards/rollout_reward_func/mean': 9.518750190734863, 'rewards/rollout_reward_func/std': 5.167384624481201, 'reward': 9.518750190734863, 'reward_std': 5.026853084564209, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04401233792304993, 'sampling/sampling_logp_difference/max': 3.015562057495117, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8476308584213257, 'sampling/importance_sampling_ratio/max': 2.2946205139160156, 'kl': 0.17594207264482975, 'entropy': 0.17735617142170668, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 47.29657547301031, 'epoch': 0.14}
+  2%|▏         | 17/1000 [09:09<9:33:19, 34.99s/it]  2%|▏         | 18/1000 [09:43<9:29:18, 34.78s/it]                                                   {'loss': -0.0004, 'grad_norm': 0.01826673559844494, 'learning_rate': 2.4996916190118868e-05, 'num_tokens': 2896490.0, 'completions/mean_length': 2378.9375, 'completions/min_length': 856.0, 'completions/max_length': 3742.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2378.9375, 'completions/min_terminated_length': 856.0, 'completions/max_terminated_length': 3742.0, 'rewards/rollout_reward_func/mean': 9.670312881469727, 'rewards/rollout_reward_func/std': 5.694962501525879, 'reward': 9.670312881469727, 'reward_std': 5.853448390960693, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04045841097831726, 'sampling/sampling_logp_difference/max': 2.951716184616089, 'sampling/importance_sampling_ratio/min': 0.033047862350940704, 'sampling/importance_sampling_ratio/mean': 0.8548211455345154, 'sampling/importance_sampling_ratio/max': 2.151477336883545, 'kl': 0.12934298161417246, 'entropy': 0.1880915160290897, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.861505222012056, 'epoch': 0.14}
+  2%|▏         | 18/1000 [09:43<9:29:18, 34.78s/it]  2%|▏         | 19/1000 [10:15<9:12:47, 33.81s/it]                                                   {'loss': -0.0006, 'grad_norm': 0.01367307361215353, 'learning_rate': 2.4995972217386367e-05, 'num_tokens': 3070280.0, 'completions/mean_length': 2162.09375, 'completions/min_length': 782.0, 'completions/max_length': 3622.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2162.09375, 'completions/min_terminated_length': 782.0, 'completions/max_terminated_length': 3622.0, 'rewards/rollout_reward_func/mean': 9.423437118530273, 'rewards/rollout_reward_func/std': 5.512604713439941, 'reward': 9.423437118530273, 'reward_std': 5.069665908813477, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.044432900846004486, 'sampling/sampling_logp_difference/max': 1.9285824298858643, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7775527238845825, 'sampling/importance_sampling_ratio/max': 2.2762598991394043, 'kl': 0.1481866599060595, 'entropy': 0.16781844105571508, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.357828470005188, 'epoch': 0.15}
+  2%|▏         | 19/1000 [10:15<9:12:47, 33.81s/it]  2%|▏         | 20/1000 [10:41<8:35:19, 31.55s/it]                                                   {'loss': -0.0001, 'grad_norm': 0.014375480823218822, 'learning_rate': 2.4994902410352368e-05, 'num_tokens': 3226689.0, 'completions/mean_length': 1896.140625, 'completions/min_length': 784.0, 'completions/max_length': 2959.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1896.140625, 'completions/min_terminated_length': 784.0, 'completions/max_terminated_length': 2959.0, 'rewards/rollout_reward_func/mean': 9.885937690734863, 'rewards/rollout_reward_func/std': 5.054335594177246, 'reward': 9.885937690734863, 'reward_std': 5.033348083496094, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04562223702669144, 'sampling/sampling_logp_difference/max': 1.7160073518753052, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7649462223052979, 'sampling/importance_sampling_ratio/max': 2.8834140300750732, 'kl': 0.15092979511246085, 'entropy': 0.15321096405386925, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 25.30332940399967, 'epoch': 0.16}
+  2%|▏         | 20/1000 [10:41<8:35:19, 31.55s/it]  2%|▏         | 21/1000 [11:13<8:36:51, 31.68s/it]                                                   {'loss': 0.0035, 'grad_norm': 0.020124249160289764, 'learning_rate': 2.4993706779789818e-05, 'num_tokens': 3387692.0, 'completions/mean_length': 1967.546875, 'completions/min_length': 854.0, 'completions/max_length': 3561.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1967.546875, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 3561.0, 'rewards/rollout_reward_func/mean': 9.839061737060547, 'rewards/rollout_reward_func/std': 5.188498497009277, 'reward': 9.839061737060547, 'reward_std': 5.007718086242676, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04626673832535744, 'sampling/sampling_logp_difference/max': 4.520438194274902, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8292466402053833, 'sampling/importance_sampling_ratio/max': 2.98386812210083, 'kl': 0.6867460184730589, 'entropy': 0.15943082328885794, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.720725044993742, 'epoch': 0.17}
+  2%|▏         | 21/1000 [11:13<8:36:51, 31.68s/it]  2%|▏         | 22/1000 [11:42<8:20:54, 30.73s/it]                                                   {'loss': -0.0008, 'grad_norm': 0.018233276903629303, 'learning_rate': 2.49923853377387e-05, 'num_tokens': 3538080.0, 'completions/mean_length': 1804.4375, 'completions/min_length': 867.0, 'completions/max_length': 3204.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1804.4375, 'completions/min_terminated_length': 867.0, 'completions/max_terminated_length': 3204.0, 'rewards/rollout_reward_func/mean': 9.673437118530273, 'rewards/rollout_reward_func/std': 5.151552200317383, 'reward': 9.673437118530273, 'reward_std': 5.007956504821777, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.0467546284198761, 'sampling/sampling_logp_difference/max': 3.8483738899230957, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8278960585594177, 'sampling/importance_sampling_ratio/max': 2.296579122543335, 'kl': 0.37706251814961433, 'entropy': 0.14136227779090405, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 27.30197261100693, 'epoch': 0.18}
+  2%|▏         | 22/1000 [11:42<8:20:54, 30.73s/it]  2%|▏         | 23/1000 [12:08<7:59:15, 29.43s/it]                                                   {'loss': 0.0008, 'grad_norm': 0.013078168034553528, 'learning_rate': 2.4990938097505922e-05, 'num_tokens': 3701148.0, 'completions/mean_length': 1996.9375, 'completions/min_length': 1313.0, 'completions/max_length': 2997.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1996.9375, 'completions/min_terminated_length': 1313.0, 'completions/max_terminated_length': 2997.0, 'rewards/rollout_reward_func/mean': 9.43906307220459, 'rewards/rollout_reward_func/std': 5.608458042144775, 'reward': 9.43906307220459, 'reward_std': 5.478010654449463, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.058427125215530396, 'sampling/sampling_logp_difference/max': 4.253650188446045, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.6295036673545837, 'sampling/importance_sampling_ratio/max': 2.776388645172119, 'kl': 2.0320751713588834, 'entropy': 0.14667258085682988, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 25.430709853993903, 'epoch': 0.18}
+  2%|▏         | 23/1000 [12:08<7:59:15, 29.43s/it]  2%|▏         | 24/1000 [12:44<8:33:07, 31.54s/it]                                                   {'loss': -0.001, 'grad_norm': 0.013708682730793953, 'learning_rate': 2.4989365073665177e-05, 'num_tokens': 3887806.0, 'completions/mean_length': 2357.53125, 'completions/min_length': 1368.0, 'completions/max_length': 4028.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2357.53125, 'completions/min_terminated_length': 1368.0, 'completions/max_terminated_length': 4028.0, 'rewards/rollout_reward_func/mean': 11.223438262939453, 'rewards/rollout_reward_func/std': 5.389547348022461, 'reward': 11.223437309265137, 'reward_std': 5.09464693069458, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04835627228021622, 'sampling/sampling_logp_difference/max': 2.870990753173828, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7346639633178711, 'sampling/importance_sampling_ratio/max': 2.908569097518921, 'kl': 1.1595626939088106, 'entropy': 0.14295556768774986, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 35.177356530992256, 'epoch': 0.19}
+  2%|▏         | 24/1000 [12:44<8:33:07, 31.54s/it]  2%|▎         | 25/1000 [13:20<8:51:51, 32.73s/it]                                                   {'loss': 0.0023, 'grad_norm': 0.01996753364801407, 'learning_rate': 2.49876662820568e-05, 'num_tokens': 4026147.0, 'completions/mean_length': 1623.453125, 'completions/min_length': 863.0, 'completions/max_length': 4051.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1623.453125, 'completions/min_terminated_length': 863.0, 'completions/max_terminated_length': 4051.0, 'rewards/rollout_reward_func/mean': 9.075000762939453, 'rewards/rollout_reward_func/std': 5.472674369812012, 'reward': 9.074999809265137, 'reward_std': 5.49758768081665, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.05511053651571274, 'sampling/sampling_logp_difference/max': 2.2342886924743652, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7325750589370728, 'sampling/importance_sampling_ratio/max': 2.696918249130249, 'kl': 0.376988023519516, 'entropy': 0.12177820270881057, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 33.95318427700113, 'epoch': 0.2}
+  2%|▎         | 25/1000 [13:20<8:51:51, 32.73s/it]  3%|▎         | 26/1000 [13:54<8:55:35, 32.99s/it]                                                   {'loss': -0.0007, 'grad_norm': 0.013669520616531372, 'learning_rate': 2.49858417397876e-05, 'num_tokens': 4184742.0, 'completions/mean_length': 1930.296875, 'completions/min_length': 852.0, 'completions/max_length': 3828.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1930.296875, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3828.0, 'rewards/rollout_reward_func/mean': 10.626562118530273, 'rewards/rollout_reward_func/std': 5.33054256439209, 'reward': 10.626562118530273, 'reward_std': 5.419190406799316, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.05840238556265831, 'sampling/sampling_logp_difference/max': 3.7209651470184326, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7135451436042786, 'sampling/importance_sampling_ratio/max': 2.431150197982788, 'kl': 0.31995081435889006, 'entropy': 0.13344871252775192, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.38085396698443, 'epoch': 0.21}
+  3%|▎         | 26/1000 [13:54<8:55:35, 32.99s/it]  3%|▎         | 27/1000 [14:24<8:44:43, 32.36s/it]                                                   {'loss': -0.0034, 'grad_norm': 0.009796380996704102, 'learning_rate': 2.4983891465230703e-05, 'num_tokens': 4347682.0, 'completions/mean_length': 1996.1875, 'completions/min_length': 853.0, 'completions/max_length': 3508.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1996.1875, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3508.0, 'rewards/rollout_reward_func/mean': 11.651561737060547, 'rewards/rollout_reward_func/std': 4.778656482696533, 'reward': 11.651561737060547, 'reward_std': 4.672294616699219, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.05918285250663757, 'sampling/sampling_logp_difference/max': 4.119134902954102, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.6569000482559204, 'sampling/importance_sampling_ratio/max': 2.76248836517334, 'kl': 0.46061484422534704, 'entropy': 0.13638773979619145, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.577491556032328, 'epoch': 0.22}
+  3%|▎         | 27/1000 [14:24<8:44:43, 32.36s/it]  3%|▎         | 28/1000 [14:49<8:04:13, 29.89s/it]                                                   {'loss': -0.0014, 'grad_norm': 0.015902554616332054, 'learning_rate': 2.4981815478025344e-05, 'num_tokens': 4478673.0, 'completions/mean_length': 1510.609375, 'completions/min_length': 852.0, 'completions/max_length': 2746.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1510.609375, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 2746.0, 'rewards/rollout_reward_func/mean': 8.615625381469727, 'rewards/rollout_reward_func/std': 5.0310540199279785, 'reward': 8.615625381469727, 'reward_std': 4.690169811248779, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.06830549240112305, 'sampling/sampling_logp_difference/max': 3.953949213027954, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7193381786346436, 'sampling/importance_sampling_ratio/max': 2.4740042686462402, 'kl': 1.4572394620627165, 'entropy': 0.11655560787767172, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 23.104101549019106, 'epoch': 0.22}
+  3%|▎         | 28/1000 [14:49<8:04:13, 29.89s/it]  3%|▎         | 29/1000 [15:37<9:35:38, 35.57s/it]                                                   {'loss': 0.0021, 'grad_norm': 0.018185969442129135, 'learning_rate': 2.4979613799076696e-05, 'num_tokens': 4634360.0, 'completions/mean_length': 1888.484375, 'completions/min_length': 854.0, 'completions/max_length': 5330.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1888.484375, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 5330.0, 'rewards/rollout_reward_func/mean': 9.706249237060547, 'rewards/rollout_reward_func/std': 5.193490505218506, 'reward': 9.706249237060547, 'reward_std': 5.195872783660889, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.05894063785672188, 'sampling/sampling_logp_difference/max': 4.251888275146484, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7854490280151367, 'sampling/importance_sampling_ratio/max': 2.587270498275757, 'kl': 1.802428137511015, 'entropy': 0.12527411337941885, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 47.130714133003494, 'epoch': 0.23}
+  3%|▎         | 29/1000 [15:37<9:35:38, 35.57s/it]  3%|▎         | 30/1000 [16:13<9:35:04, 35.57s/it]                                                   {'loss': 0.0013, 'grad_norm': 0.015765691176056862, 'learning_rate': 2.4977286450555643e-05, 'num_tokens': 4815273.0, 'completions/mean_length': 2269.765625, 'completions/min_length': 1320.0, 'completions/max_length': 3942.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2269.765625, 'completions/min_terminated_length': 1320.0, 'completions/max_terminated_length': 3942.0, 'rewards/rollout_reward_func/mean': 9.910937309265137, 'rewards/rollout_reward_func/std': 5.514457702636719, 'reward': 9.910937309265137, 'reward_std': 5.5827155113220215, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.06180078908801079, 'sampling/sampling_logp_difference/max': 4.296573638916016, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7512811422348022, 'sampling/importance_sampling_ratio/max': 2.7187373638153076, 'kl': 0.6724397260695696, 'entropy': 0.1285682236775756, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 34.07194695701037, 'epoch': 0.24}
+  3%|▎         | 30/1000 [16:13<9:35:04, 35.57s/it]  3%|▎         | 31/1000 [16:44<9:14:16, 34.32s/it]                                                   {'loss': -0.0003, 'grad_norm': 0.015241937711834908, 'learning_rate': 2.4974833455898554e-05, 'num_tokens': 4987373.0, 'completions/mean_length': 2135.3125, 'completions/min_length': 851.0, 'completions/max_length': 3529.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2135.3125, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 3529.0, 'rewards/rollout_reward_func/mean': 10.199999809265137, 'rewards/rollout_reward_func/std': 5.365438938140869, 'reward': 10.199999809265137, 'reward_std': 5.256021499633789, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.0551074780523777, 'sampling/sampling_logp_difference/max': 3.71771240234375, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.6976094841957092, 'sampling/importance_sampling_ratio/max': 2.3412864208221436, 'kl': 0.9484151974320412, 'entropy': 0.11974211502820253, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.075374434003606, 'epoch': 0.25}
+  3%|▎         | 31/1000 [16:44<9:14:16, 34.32s/it]  3%|▎         | 32/1000 [17:16<8:59:01, 33.41s/it]                                                   {'loss': -0.0015, 'grad_norm': 0.016748489812016487, 'learning_rate': 2.4972254839807064e-05, 'num_tokens': 5150415.0, 'completions/mean_length': 1997.78125, 'completions/min_length': 865.0, 'completions/max_length': 3619.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1997.78125, 'completions/min_terminated_length': 865.0, 'completions/max_terminated_length': 3619.0, 'rewards/rollout_reward_func/mean': 9.665624618530273, 'rewards/rollout_reward_func/std': 5.380777835845947, 'reward': 9.665624618530273, 'reward_std': 5.439666748046875, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.051149122416973114, 'sampling/sampling_logp_difference/max': 4.000544548034668, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.74107426404953, 'sampling/importance_sampling_ratio/max': 2.2866690158843994, 'kl': 0.9071620674803853, 'entropy': 0.11755805322900414, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.941299289981544, 'epoch': 0.26}
+  3%|▎         | 32/1000 [17:16<8:59:01, 33.41s/it]  3%|▎         | 33/1000 [17:46<8:43:37, 32.49s/it]                                                   {'loss': -0.0002, 'grad_norm': 0.011875046417117119, 'learning_rate': 2.4969550628247805e-05, 'num_tokens': 5292619.0, 'completions/mean_length': 1681.4375, 'completions/min_length': 780.0, 'completions/max_length': 3556.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1681.4375, 'completions/min_terminated_length': 780.0, 'completions/max_terminated_length': 3556.0, 'rewards/rollout_reward_func/mean': 9.928125381469727, 'rewards/rollout_reward_func/std': 5.314743518829346, 'reward': 9.928125381469727, 'reward_std': 5.160972595214844, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.0671156644821167, 'sampling/sampling_logp_difference/max': 3.4210705757141113, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.6184936165809631, 'sampling/importance_sampling_ratio/max': 2.798328399658203, 'kl': 0.6623764662072062, 'entropy': 0.12011935282498598, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.17870240098273, 'epoch': 0.26}
+  3%|▎         | 33/1000 [17:46<8:43:37, 32.49s/it]  3%|▎         | 34/1000 [18:16<8:28:40, 31.59s/it]                                                   {'loss': -0.0007, 'grad_norm': 0.014989938586950302, 'learning_rate': 2.4966720848452155e-05, 'num_tokens': 5419450.0, 'completions/mean_length': 1447.234375, 'completions/min_length': 781.0, 'completions/max_length': 3474.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1447.234375, 'completions/min_terminated_length': 781.0, 'completions/max_terminated_length': 3474.0, 'rewards/rollout_reward_func/mean': 10.654687881469727, 'rewards/rollout_reward_func/std': 4.596269607543945, 'reward': 10.654687881469727, 'reward_std': 4.368834972381592, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.05897755175828934, 'sampling/sampling_logp_difference/max': 3.9065451622009277, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7402198314666748, 'sampling/importance_sampling_ratio/max': 2.876014471054077, 'kl': 1.0787932518869638, 'entropy': 0.10007362859323621, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.426074365990644, 'epoch': 0.27}
+  3%|▎         | 34/1000 [18:16<8:28:40, 31.59s/it]  4%|▎         | 35/1000 [18:54<9:00:07, 33.58s/it]                                                   {'loss': -0.0001, 'grad_norm': 0.020455675199627876, 'learning_rate': 2.496376552891597e-05, 'num_tokens': 5592684.0, 'completions/mean_length': 2153.40625, 'completions/min_length': 855.0, 'completions/max_length': 4207.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2153.40625, 'completions/min_terminated_length': 855.0, 'completions/max_terminated_length': 4207.0, 'rewards/rollout_reward_func/mean': 10.69999885559082, 'rewards/rollout_reward_func/std': 5.161518573760986, 'reward': 10.699999809265137, 'reward_std': 5.170776844024658, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04574788361787796, 'sampling/sampling_logp_difference/max': 2.1874210834503174, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.868563711643219, 'sampling/importance_sampling_ratio/max': 2.6797897815704346, 'kl': 0.3476233184337616, 'entropy': 0.1167512210085988, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 36.58014753599127, 'epoch': 0.28}
+  4%|▎         | 35/1000 [18:54<9:00:07, 33.58s/it]  4%|▎         | 36/1000 [19:24<8:43:12, 32.56s/it]                                                   {'loss': -0.0002, 'grad_norm': 0.014602193608880043, 'learning_rate': 2.496068469939928e-05, 'num_tokens': 5761339.0, 'completions/mean_length': 2083.859375, 'completions/min_length': 852.0, 'completions/max_length': 3302.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2083.859375, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3302.0, 'rewards/rollout_reward_func/mean': 10.887499809265137, 'rewards/rollout_reward_func/std': 4.93466854095459, 'reward': 10.887499809265137, 'reward_std': 4.882633686065674, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.05885402113199234, 'sampling/sampling_logp_difference/max': 5.737752914428711, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.6942427158355713, 'sampling/importance_sampling_ratio/max': 2.49424147605896, 'kl': 1.9439594000577927, 'entropy': 0.11411452246829867, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.9393105489944, 'epoch': 0.29}
+  4%|▎         | 36/1000 [19:24<8:43:12, 32.56s/it]  4%|▎         | 37/1000 [19:56<8:40:49, 32.45s/it]                                                   {'loss': -0.0003, 'grad_norm': 0.017455482855439186, 'learning_rate': 2.495747839092601e-05, 'num_tokens': 5952869.0, 'completions/mean_length': 2431.65625, 'completions/min_length': 1296.0, 'completions/max_length': 3591.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2431.65625, 'completions/min_terminated_length': 1296.0, 'completions/max_terminated_length': 3591.0, 'rewards/rollout_reward_func/mean': 11.026562690734863, 'rewards/rollout_reward_func/std': 4.784838676452637, 'reward': 11.026561737060547, 'reward_std': 5.008164405822754, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.0702722817659378, 'sampling/sampling_logp_difference/max': 4.7886176109313965, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.4971070885658264, 'sampling/importance_sampling_ratio/max': 1.7316771745681763, 'kl': 2.645602493546903, 'entropy': 0.12981601059436798, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.007058930008498, 'epoch': 0.3}
+  4%|▎         | 37/1000 [19:56<8:40:49, 32.45s/it]  4%|▍         | 38/1000 [20:20<7:58:50, 29.87s/it]                                                   {'loss': -0.0023, 'grad_norm': 0.010679543018341064, 'learning_rate': 2.4954146635783643e-05, 'num_tokens': 6097889.0, 'completions/mean_length': 1722.5625, 'completions/min_length': 864.0, 'completions/max_length': 2685.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1722.5625, 'completions/min_terminated_length': 864.0, 'completions/max_terminated_length': 2685.0, 'rewards/rollout_reward_func/mean': 9.704687118530273, 'rewards/rollout_reward_func/std': 5.453597545623779, 'reward': 9.704687118530273, 'reward_std': 5.388267517089844, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.06394379585981369, 'sampling/sampling_logp_difference/max': 4.87465763092041, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7417171001434326, 'sampling/importance_sampling_ratio/max': 2.682664632797241, 'kl': 0.6931397253647447, 'entropy': 0.11465632682666183, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 22.89491624997754, 'epoch': 0.3}
+  4%|▍         | 38/1000 [20:20<7:58:50, 29.87s/it]  4%|▍         | 39/1000 [20:50<7:59:55, 29.96s/it]                                                   {'loss': -0.0016, 'grad_norm': 0.013289131224155426, 'learning_rate': 2.4950689467522927e-05, 'num_tokens': 6250875.0, 'completions/mean_length': 1844.65625, 'completions/min_length': 867.0, 'completions/max_length': 3402.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1844.65625, 'completions/min_terminated_length': 867.0, 'completions/max_terminated_length': 3402.0, 'rewards/rollout_reward_func/mean': 9.071874618530273, 'rewards/rollout_reward_func/std': 5.4593000411987305, 'reward': 9.071874618530273, 'reward_std': 5.380590915679932, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.05289221554994583, 'sampling/sampling_logp_difference/max': 4.254205703735352, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7287722826004028, 'sampling/importance_sampling_ratio/max': 2.7494165897369385, 'kl': 0.7649076506495476, 'entropy': 0.10697547858580947, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.932502813986503, 'epoch': 0.31}
+  4%|▍         | 39/1000 [20:50<7:59:55, 29.96s/it]  4%|▍         | 40/1000 [21:25<8:21:51, 31.37s/it]                                                   {'loss': 0.0005, 'grad_norm': 0.013099756091833115, 'learning_rate': 2.4947106920957494e-05, 'num_tokens': 6410247.0, 'completions/mean_length': 1942.4375, 'completions/min_length': 854.0, 'completions/max_length': 3878.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1942.4375, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 3878.0, 'rewards/rollout_reward_func/mean': 9.3203125, 'rewards/rollout_reward_func/std': 5.150256156921387, 'reward': 9.3203125, 'reward_std': 4.9776740074157715, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.05336019769310951, 'sampling/sampling_logp_difference/max': 3.2304415702819824, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7015136480331421, 'sampling/importance_sampling_ratio/max': 2.63212251663208, 'kl': 0.6011837497353554, 'entropy': 0.1233626939356327, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 33.16807747799612, 'epoch': 0.32}
+  4%|▍         | 40/1000 [21:25<8:21:51, 31.37s/it]  4%|▍         | 41/1000 [22:06<9:06:37, 34.20s/it]                                                   {'loss': -0.0012, 'grad_norm': 0.014626314863562584, 'learning_rate': 2.494339903216356e-05, 'num_tokens': 6577116.0, 'completions/mean_length': 2055.578125, 'completions/min_length': 853.0, 'completions/max_length': 4545.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2055.578125, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 4545.0, 'rewards/rollout_reward_func/mean': 9.71875, 'rewards/rollout_reward_func/std': 5.187863826751709, 'reward': 9.71875, 'reward_std': 5.293781280517578, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.05928558111190796, 'sampling/sampling_logp_difference/max': 3.1224186420440674, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.6146179437637329, 'sampling/importance_sampling_ratio/max': 2.8124454021453857, 'kl': 0.9936112770810723, 'entropy': 0.1257510888390243, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 38.41494627499924, 'epoch': 0.33}
+  4%|▍         | 41/1000 [22:06<9:06:37, 34.20s/it]  4%|▍         | 42/1000 [22:42<9:14:25, 34.72s/it]                                                   {'loss': 0.0009, 'grad_norm': 0.01366850733757019, 'learning_rate': 2.493956583847952e-05, 'num_tokens': 6744481.0, 'completions/mean_length': 2065.328125, 'completions/min_length': 784.0, 'completions/max_length': 4037.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2065.328125, 'completions/min_terminated_length': 784.0, 'completions/max_terminated_length': 4037.0, 'rewards/rollout_reward_func/mean': 9.432812690734863, 'rewards/rollout_reward_func/std': 5.227280616760254, 'reward': 9.432811737060547, 'reward_std': 5.315286636352539, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.05775323137640953, 'sampling/sampling_logp_difference/max': 3.5490851402282715, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.644813597202301, 'sampling/importance_sampling_ratio/max': 2.9860892295837402, 'kl': 0.3911795075982809, 'entropy': 0.12197390478104353, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 34.41166333701403, 'epoch': 0.34}
+  4%|▍         | 42/1000 [22:42<9:14:25, 34.72s/it]  4%|▍         | 43/1000 [23:15<9:08:08, 34.37s/it]                                                   {'loss': 0.0012, 'grad_norm': 0.01798088289797306, 'learning_rate': 2.4935607378505588e-05, 'num_tokens': 6912404.0, 'completions/mean_length': 2072.421875, 'completions/min_length': 856.0, 'completions/max_length': 3716.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2072.421875, 'completions/min_terminated_length': 856.0, 'completions/max_terminated_length': 3716.0, 'rewards/rollout_reward_func/mean': 9.746874809265137, 'rewards/rollout_reward_func/std': 5.096776485443115, 'reward': 9.746874809265137, 'reward_std': 4.730962753295898, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.06170828640460968, 'sampling/sampling_logp_difference/max': 3.782853126525879, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7749594449996948, 'sampling/importance_sampling_ratio/max': 2.9020841121673584, 'kl': 0.3609647024422884, 'entropy': 0.1301976339891553, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.103701957006706, 'epoch': 0.34}
+  4%|▍         | 43/1000 [23:15<9:08:08, 34.37s/it]  4%|▍         | 44/1000 [23:55<9:35:34, 36.12s/it]                                                   {'loss': 0.0001, 'grad_norm': 0.013271646574139595, 'learning_rate': 2.4931523692103418e-05, 'num_tokens': 7090365.0, 'completions/mean_length': 2225.265625, 'completions/min_length': 867.0, 'completions/max_length': 4544.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2225.265625, 'completions/min_terminated_length': 867.0, 'completions/max_terminated_length': 4544.0, 'rewards/rollout_reward_func/mean': 9.787500381469727, 'rewards/rollout_reward_func/std': 5.4833807945251465, 'reward': 9.787500381469727, 'reward_std': 5.165419578552246, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.05333881080150604, 'sampling/sampling_logp_difference/max': 3.4461312294006348, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.669619083404541, 'sampling/importance_sampling_ratio/max': 2.8212742805480957, 'kl': 0.5663288086652756, 'entropy': 0.1317455442622304, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 38.739420900004916, 'epoch': 0.35}
+  4%|▍         | 44/1000 [23:55<9:35:34, 36.12s/it]  4%|▍         | 45/1000 [24:33<9:43:05, 36.63s/it]                                                   {'loss': -0.001, 'grad_norm': 0.01943511888384819, 'learning_rate': 2.4927314820395685e-05, 'num_tokens': 7266276.0, 'completions/mean_length': 2193.234375, 'completions/min_length': 854.0, 'completions/max_length': 4210.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2193.234375, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 4210.0, 'rewards/rollout_reward_func/mean': 8.814062118530273, 'rewards/rollout_reward_func/std': 5.307582855224609, 'reward': 8.814062118530273, 'reward_std': 5.178508281707764, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.049204979091882706, 'sampling/sampling_logp_difference/max': 3.6418163776397705, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9205503463745117, 'sampling/importance_sampling_ratio/max': 2.931321382522583, 'kl': 0.457935462705791, 'entropy': 0.137203230522573, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 36.36298491399066, 'epoch': 0.36}
+  4%|▍         | 45/1000 [24:33<9:43:05, 36.63s/it]  5%|▍         | 46/1000 [25:13<9:57:07, 37.55s/it]                                                   {'loss': -0.0002, 'grad_norm': 0.013469441793859005, 'learning_rate': 2.492298080576568e-05, 'num_tokens': 7437183.0, 'completions/mean_length': 2118.671875, 'completions/min_length': 854.0, 'completions/max_length': 4326.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2118.671875, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 4326.0, 'rewards/rollout_reward_func/mean': 9.299999237060547, 'rewards/rollout_reward_func/std': 5.603740215301514, 'reward': 9.300000190734863, 'reward_std': 5.560906410217285, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.05486740171909332, 'sampling/sampling_logp_difference/max': 3.462965965270996, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7902683019638062, 'sampling/importance_sampling_ratio/max': 2.5914716720581055, 'kl': 0.3857884416356683, 'entropy': 0.1350276255980134, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 38.35113576099684, 'epoch': 0.37}
+  5%|▍         | 46/1000 [25:13<9:57:07, 37.55s/it]  5%|▍         | 47/1000 [25:48<9:44:24, 36.79s/it]                                                   {'loss': 0.0004, 'grad_norm': 0.01805843971669674, 'learning_rate': 2.4918521691856877e-05, 'num_tokens': 7577697.0, 'completions/mean_length': 1655.40625, 'completions/min_length': 782.0, 'completions/max_length': 4053.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1655.40625, 'completions/min_terminated_length': 782.0, 'completions/max_terminated_length': 4053.0, 'rewards/rollout_reward_func/mean': 8.387499809265137, 'rewards/rollout_reward_func/std': 4.722943305969238, 'reward': 8.387499809265137, 'reward_std': 4.859920024871826, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.05177663266658783, 'sampling/sampling_logp_difference/max': 1.9684935808181763, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8292686343193054, 'sampling/importance_sampling_ratio/max': 2.3157596588134766, 'kl': 0.38656948786228895, 'entropy': 0.14222070528194308, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 33.776253257012286, 'epoch': 0.38}
+  5%|▍         | 47/1000 [25:48<9:44:24, 36.79s/it]  5%|▍         | 48/1000 [26:27<9:54:18, 37.46s/it]                                                   {'loss': -0.0004, 'grad_norm': 0.012669246643781662, 'learning_rate': 2.4913937523572515e-05, 'num_tokens': 7769586.0, 'completions/mean_length': 2437.265625, 'completions/min_length': 1694.0, 'completions/max_length': 4300.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2437.265625, 'completions/min_terminated_length': 1694.0, 'completions/max_terminated_length': 4300.0, 'rewards/rollout_reward_func/mean': 9.332813262939453, 'rewards/rollout_reward_func/std': 5.770506858825684, 'reward': 9.332812309265137, 'reward_std': 5.901838302612305, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.058164164423942566, 'sampling/sampling_logp_difference/max': 3.592329978942871, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.6999092698097229, 'sampling/importance_sampling_ratio/max': 2.9301109313964844, 'kl': 0.3876784387975931, 'entropy': 0.1704240501858294, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 37.344062285999826, 'epoch': 0.38}
+  5%|▍         | 48/1000 [26:27<9:54:18, 37.46s/it]  5%|▍         | 49/1000 [27:04<9:53:34, 37.45s/it]                                                   {'loss': -0.0021, 'grad_norm': 0.014192420989274979, 'learning_rate': 2.490922834707511e-05, 'num_tokens': 7906895.0, 'completions/mean_length': 1607.328125, 'completions/min_length': 784.0, 'completions/max_length': 4323.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1607.328125, 'completions/min_terminated_length': 784.0, 'completions/max_terminated_length': 4323.0, 'rewards/rollout_reward_func/mean': 8.579687118530273, 'rewards/rollout_reward_func/std': 5.118475437164307, 'reward': 8.579687118530273, 'reward_std': 5.176322937011719, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.05309484153985977, 'sampling/sampling_logp_difference/max': 2.1855387687683105, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7732821702957153, 'sampling/importance_sampling_ratio/max': 2.515009641647339, 'kl': 0.5701047326438129, 'entropy': 0.1325445040129125, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 35.761942675984756, 'epoch': 0.39}
+  5%|▍         | 49/1000 [27:04<9:53:34, 37.45s/it]  5%|▌         | 50/1000 [27:40<9:42:55, 36.82s/it]                                                   {'loss': 0.0008, 'grad_norm': 0.012968563474714756, 'learning_rate': 2.4904394209786014e-05, 'num_tokens': 8063225.0, 'completions/mean_length': 1898.15625, 'completions/min_length': 784.0, 'completions/max_length': 3919.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1898.15625, 'completions/min_terminated_length': 784.0, 'completions/max_terminated_length': 3919.0, 'rewards/rollout_reward_func/mean': 10.048437118530273, 'rewards/rollout_reward_func/std': 5.08689546585083, 'reward': 10.048437118530273, 'reward_std': 5.008761882781982, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04198990762233734, 'sampling/sampling_logp_difference/max': 1.7501850128173828, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.856767475605011, 'sampling/importance_sampling_ratio/max': 1.906661033630371, 'kl': 0.28427575901150703, 'entropy': 0.14586836425587535, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 33.84546665100788, 'epoch': 0.4}
+  5%|▌         | 50/1000 [27:40<9:42:55, 36.82s/it]  5%|▌         | 51/1000 [28:12<9:22:39, 35.57s/it]                                                   {'loss': -0.001, 'grad_norm': 0.009676439687609673, 'learning_rate': 2.4899435160384943e-05, 'num_tokens': 8240525.0, 'completions/mean_length': 2214.9375, 'completions/min_length': 851.0, 'completions/max_length': 3626.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2214.9375, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 3626.0, 'rewards/rollout_reward_func/mean': 8.701562881469727, 'rewards/rollout_reward_func/std': 4.935311794281006, 'reward': 8.701562881469727, 'reward_std': 4.966029644012451, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.05547142028808594, 'sampling/sampling_logp_difference/max': 2.929314374923706, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.6098681688308716, 'sampling/importance_sampling_ratio/max': 1.6817357540130615, 'kl': 0.4546868922188878, 'entropy': 0.16112835798412561, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.542931756011967, 'epoch': 0.41}
+  5%|▌         | 51/1000 [28:12<9:22:39, 35.57s/it]  5%|▌         | 52/1000 [28:51<9:38:45, 36.63s/it]                                                   {'loss': 0.0006, 'grad_norm': 0.01639474742114544, 'learning_rate': 2.4894351248809466e-05, 'num_tokens': 8397669.0, 'completions/mean_length': 1908.0, 'completions/min_length': 853.0, 'completions/max_length': 4467.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1908.0, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 4467.0, 'rewards/rollout_reward_func/mean': 10.83437442779541, 'rewards/rollout_reward_func/std': 5.6017351150512695, 'reward': 10.83437442779541, 'reward_std': 5.596487045288086, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.053852394223213196, 'sampling/sampling_logp_difference/max': 2.913240909576416, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7872225046157837, 'sampling/importance_sampling_ratio/max': 2.8727731704711914, 'kl': 0.44339635223150253, 'entropy': 0.15289523173123598, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 37.3782715700072, 'epoch': 0.42}
+  5%|▌         | 52/1000 [28:51<9:38:45, 36.63s/it]  5%|▌         | 53/1000 [29:23<9:12:03, 34.98s/it]                                                   {'loss': -0.0012, 'grad_norm': 0.011284980922937393, 'learning_rate': 2.4889142526254516e-05, 'num_tokens': 8574164.0, 'completions/mean_length': 2200.734375, 'completions/min_length': 1196.0, 'completions/max_length': 3433.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2200.734375, 'completions/min_terminated_length': 1196.0, 'completions/max_terminated_length': 3433.0, 'rewards/rollout_reward_func/mean': 10.481249809265137, 'rewards/rollout_reward_func/std': 5.391259670257568, 'reward': 10.481249809265137, 'reward_std': 5.525233268737793, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.05099307745695114, 'sampling/sampling_logp_difference/max': 2.3984713554382324, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7739834785461426, 'sampling/importance_sampling_ratio/max': 2.387794017791748, 'kl': 0.26153726875782013, 'entropy': 0.1633745450526476, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.825100162997842, 'epoch': 0.42}
+  5%|▌         | 53/1000 [29:23<9:12:03, 34.98s/it]  5%|▌         | 54/1000 [29:55<9:00:39, 34.29s/it]                                                   {'loss': -0.0001, 'grad_norm': 0.009859343990683556, 'learning_rate': 2.4883809045171872e-05, 'num_tokens': 8735990.0, 'completions/mean_length': 1978.78125, 'completions/min_length': 863.0, 'completions/max_length': 3681.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1978.78125, 'completions/min_terminated_length': 863.0, 'completions/max_terminated_length': 3681.0, 'rewards/rollout_reward_func/mean': 9.060937881469727, 'rewards/rollout_reward_func/std': 5.1542744636535645, 'reward': 9.060937881469727, 'reward_std': 5.2081499099731445, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.047555677592754364, 'sampling/sampling_logp_difference/max': 2.8698089122772217, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7534667253494263, 'sampling/importance_sampling_ratio/max': 2.4134604930877686, 'kl': 0.5602739788591862, 'entropy': 0.14929317124187946, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.279343969996262, 'epoch': 0.43}
+  5%|▌         | 54/1000 [29:55<9:00:39, 34.29s/it]  6%|▌         | 55/1000 [30:26<8:44:43, 33.32s/it]                                                   {'loss': -0.0015, 'grad_norm': 0.01660752296447754, 'learning_rate': 2.487835085926963e-05, 'num_tokens': 8885061.0, 'completions/mean_length': 1785.484375, 'completions/min_length': 781.0, 'completions/max_length': 3621.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1785.484375, 'completions/min_terminated_length': 781.0, 'completions/max_terminated_length': 3621.0, 'rewards/rollout_reward_func/mean': 10.448436737060547, 'rewards/rollout_reward_func/std': 5.151852607727051, 'reward': 10.448437690734863, 'reward_std': 5.210253715515137, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.046393606811761856, 'sampling/sampling_logp_difference/max': 1.7540405988693237, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9205664396286011, 'sampling/importance_sampling_ratio/max': 2.755284309387207, 'kl': 0.3618774889037013, 'entropy': 0.13978297915309668, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.909437992006133, 'epoch': 0.44}
+  6%|▌         | 55/1000 [30:26<8:44:43, 33.32s/it]  6%|▌         | 56/1000 [30:51<8:04:51, 30.82s/it]                                                   {'loss': 0.0015, 'grad_norm': 0.014278621412813663, 'learning_rate': 2.4872768023511662e-05, 'num_tokens': 9036016.0, 'completions/mean_length': 1813.296875, 'completions/min_length': 876.0, 'completions/max_length': 2792.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1813.296875, 'completions/min_terminated_length': 876.0, 'completions/max_terminated_length': 2792.0, 'rewards/rollout_reward_func/mean': 10.082812309265137, 'rewards/rollout_reward_func/std': 4.8451762199401855, 'reward': 10.082812309265137, 'reward_std': 4.742753982543945, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.05216855928301811, 'sampling/sampling_logp_difference/max': 5.286677360534668, 'sampling/importance_sampling_ratio/min': 0.005986896343529224, 'sampling/importance_sampling_ratio/mean': 0.7384618520736694, 'sampling/importance_sampling_ratio/max': 2.6547727584838867, 'kl': 0.7035432728007436, 'entropy': 0.13409028807654977, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 24.01035499300633, 'epoch': 0.45}
+  6%|▌         | 56/1000 [30:51<8:04:51, 30.82s/it]  6%|▌         | 57/1000 [31:33<8:53:42, 33.96s/it]                                                   {'loss': 0.0004, 'grad_norm': 0.02450474724173546, 'learning_rate': 2.486706059411706e-05, 'num_tokens': 9197697.0, 'completions/mean_length': 1978.515625, 'completions/min_length': 852.0, 'completions/max_length': 4632.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1978.515625, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 4632.0, 'rewards/rollout_reward_func/mean': 9.935937881469727, 'rewards/rollout_reward_func/std': 5.487370014190674, 'reward': 9.935937881469727, 'reward_std': 5.40926456451416, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.0491817481815815, 'sampling/sampling_logp_difference/max': 2.144143581390381, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8968803882598877, 'sampling/importance_sampling_ratio/max': 2.8863372802734375, 'kl': 0.5782997719943523, 'entropy': 0.14762954460456967, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 39.51198753601784, 'epoch': 0.46}
+  6%|▌         | 57/1000 [31:33<8:53:42, 33.96s/it]  6%|▌         | 58/1000 [32:12<9:19:15, 35.62s/it]                                                   {'loss': -0.001, 'grad_norm': 0.01205456629395485, 'learning_rate': 2.486122862855957e-05, 'num_tokens': 9361156.0, 'completions/mean_length': 2004.671875, 'completions/min_length': 865.0, 'completions/max_length': 4309.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2004.671875, 'completions/min_terminated_length': 865.0, 'completions/max_terminated_length': 4309.0, 'rewards/rollout_reward_func/mean': 9.051562309265137, 'rewards/rollout_reward_func/std': 5.329730987548828, 'reward': 9.051562309265137, 'reward_std': 5.30581521987915, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.046916261315345764, 'sampling/sampling_logp_difference/max': 2.6181540489196777, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.843238353729248, 'sampling/importance_sampling_ratio/max': 2.710618495941162, 'kl': 0.6193315824493766, 'entropy': 0.14677125308662653, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 37.83233375901182, 'epoch': 0.46}
+  6%|▌         | 58/1000 [32:12<9:19:15, 35.62s/it]  6%|▌         | 59/1000 [32:42<8:54:17, 34.07s/it]                                                   {'loss': 0.0021, 'grad_norm': 0.01739133521914482, 'learning_rate': 2.485527218556703e-05, 'num_tokens': 9515543.0, 'completions/mean_length': 1866.171875, 'completions/min_length': 781.0, 'completions/max_length': 3451.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1866.171875, 'completions/min_terminated_length': 781.0, 'completions/max_terminated_length': 3451.0, 'rewards/rollout_reward_func/mean': 10.5703125, 'rewards/rollout_reward_func/std': 4.9096174240112305, 'reward': 10.5703125, 'reward_std': 5.091192245483398, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.0420246422290802, 'sampling/sampling_logp_difference/max': 2.40796160697937, 'sampling/importance_sampling_ratio/min': 0.04920263588428497, 'sampling/importance_sampling_ratio/mean': 0.89077228307724, 'sampling/importance_sampling_ratio/max': 2.4715092182159424, 'kl': 0.3071170365437865, 'entropy': 0.13922809483483434, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.149565790008637, 'epoch': 0.47}
+  6%|▌         | 59/1000 [32:42<8:54:17, 34.07s/it]  6%|▌         | 60/1000 [33:13<8:37:19, 33.02s/it]                                                   {'loss': 0.0014, 'grad_norm': 0.01348995603621006, 'learning_rate': 2.4849191325120754e-05, 'num_tokens': 9685093.0, 'completions/mean_length': 2097.84375, 'completions/min_length': 867.0, 'completions/max_length': 3432.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2097.84375, 'completions/min_terminated_length': 867.0, 'completions/max_terminated_length': 3432.0, 'rewards/rollout_reward_func/mean': 9.395313262939453, 'rewards/rollout_reward_func/std': 5.518926620483398, 'reward': 9.395313262939453, 'reward_std': 5.167900085449219, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.0485442653298378, 'sampling/sampling_logp_difference/max': 1.9755549430847168, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7963584065437317, 'sampling/importance_sampling_ratio/max': 2.9385719299316406, 'kl': 0.38851744029670954, 'entropy': 0.1502666613087058, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.42944175098819, 'epoch': 0.48}
+  6%|▌         | 60/1000 [33:13<8:37:19, 33.02s/it]  6%|▌         | 61/1000 [33:47<8:40:12, 33.24s/it]                                                   {'loss': -0.0006, 'grad_norm': 0.01485967356711626, 'learning_rate': 2.484298610845493e-05, 'num_tokens': 9838839.0, 'completions/mean_length': 1856.90625, 'completions/min_length': 866.0, 'completions/max_length': 3690.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1856.90625, 'completions/min_terminated_length': 866.0, 'completions/max_terminated_length': 3690.0, 'rewards/rollout_reward_func/mean': 10.362499237060547, 'rewards/rollout_reward_func/std': 4.946652412414551, 'reward': 10.362499237060547, 'reward_std': 5.121081352233887, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04258589446544647, 'sampling/sampling_logp_difference/max': 2.872760772705078, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.813815176486969, 'sampling/importance_sampling_ratio/max': 2.2120327949523926, 'kl': 0.2932093655690551, 'entropy': 0.14338207198306918, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.437090143001114, 'epoch': 0.49}
+  6%|▌         | 61/1000 [33:47<8:40:12, 33.24s/it]  6%|▌         | 62/1000 [34:21<8:43:06, 33.46s/it]                                                   {'loss': -0.0004, 'grad_norm': 0.012542076408863068, 'learning_rate': 2.483665659805603e-05, 'num_tokens': 10044554.0, 'completions/mean_length': 2647.296875, 'completions/min_length': 1246.0, 'completions/max_length': 3645.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2647.296875, 'completions/min_terminated_length': 1246.0, 'completions/max_terminated_length': 3645.0, 'rewards/rollout_reward_func/mean': 9.235937118530273, 'rewards/rollout_reward_func/std': 5.300655364990234, 'reward': 9.235937118530273, 'reward_std': 5.070487976074219, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04571513831615448, 'sampling/sampling_logp_difference/max': 2.4926257133483887, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8194926977157593, 'sampling/importance_sampling_ratio/max': 2.967559576034546, 'kl': 0.7842525709420443, 'entropy': 0.1565681635402143, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.56269651798357, 'epoch': 0.5}
+  6%|▌         | 62/1000 [34:21<8:43:06, 33.46s/it]  6%|▋         | 63/1000 [34:54<8:43:33, 33.53s/it]                                                   {'loss': 0.0003, 'grad_norm': 0.014211651869118214, 'learning_rate': 2.483020285766215e-05, 'num_tokens': 10229480.0, 'completions/mean_length': 2330.46875, 'completions/min_length': 1190.0, 'completions/max_length': 3718.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2330.46875, 'completions/min_terminated_length': 1190.0, 'completions/max_terminated_length': 3718.0, 'rewards/rollout_reward_func/mean': 10.546875, 'rewards/rollout_reward_func/std': 5.118902683258057, 'reward': 10.546875, 'reward_std': 5.271501541137695, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.042609766125679016, 'sampling/sampling_logp_difference/max': 2.3386356830596924, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8335211277008057, 'sampling/importance_sampling_ratio/max': 2.7638802528381348, 'kl': 0.24328297190368176, 'entropy': 0.15466865105554461, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.249529837026785, 'epoch': 0.5}
+  6%|▋         | 63/1000 [34:54<8:43:33, 33.53s/it]  6%|▋         | 64/1000 [35:24<8:23:30, 32.28s/it]                                                   {'loss': -0.0003, 'grad_norm': 0.02159525267779827, 'learning_rate': 2.482362495226238e-05, 'num_tokens': 10367053.0, 'completions/mean_length': 1611.453125, 'completions/min_length': 855.0, 'completions/max_length': 3450.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1611.453125, 'completions/min_terminated_length': 855.0, 'completions/max_terminated_length': 3450.0, 'rewards/rollout_reward_func/mean': 9.176562309265137, 'rewards/rollout_reward_func/std': 5.454246997833252, 'reward': 9.176562309265137, 'reward_std': 5.547865867614746, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04740000143647194, 'sampling/sampling_logp_difference/max': 4.169189453125, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7638738751411438, 'sampling/importance_sampling_ratio/max': 2.289384126663208, 'kl': 0.3585962215438485, 'entropy': 0.14352294337004423, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.258301884015964, 'epoch': 0.51}
+  6%|▋         | 64/1000 [35:24<8:23:30, 32.28s/it]  6%|▋         | 65/1000 [36:07<9:15:12, 35.63s/it]                                                   {'loss': -0.0007, 'grad_norm': 0.011301625519990921, 'learning_rate': 2.4816922948096165e-05, 'num_tokens': 10533165.0, 'completions/mean_length': 2045.75, 'completions/min_length': 866.0, 'completions/max_length': 4819.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2045.75, 'completions/min_terminated_length': 866.0, 'completions/max_terminated_length': 4819.0, 'rewards/rollout_reward_func/mean': 9.356250762939453, 'rewards/rollout_reward_func/std': 5.568331241607666, 'reward': 9.356250762939453, 'reward_std': 5.510068893432617, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03972059488296509, 'sampling/sampling_logp_difference/max': 3.1752445697784424, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8346589803695679, 'sampling/importance_sampling_ratio/max': 2.1678309440612793, 'kl': 0.2364255734719336, 'entropy': 0.13767732214182615, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 41.83336959499866, 'epoch': 0.52}
+  6%|▋         | 65/1000 [36:07<9:15:12, 35.63s/it]  7%|▋         | 66/1000 [36:48<9:36:47, 37.05s/it]                                                   {'loss': 0.0006, 'grad_norm': 0.0166428592056036, 'learning_rate': 2.4810096912652604e-05, 'num_tokens': 10688860.0, 'completions/mean_length': 1887.359375, 'completions/min_length': 853.0, 'completions/max_length': 4456.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1887.359375, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 4456.0, 'rewards/rollout_reward_func/mean': 9.717187881469727, 'rewards/rollout_reward_func/std': 5.606276512145996, 'reward': 9.717187881469727, 'reward_std': 5.32952880859375, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03883107751607895, 'sampling/sampling_logp_difference/max': 4.188299655914307, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8484842777252197, 'sampling/importance_sampling_ratio/max': 2.8488268852233887, 'kl': 0.48834911873564124, 'entropy': 0.1304452521726489, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 38.64834443700238, 'epoch': 0.53}
+  7%|▋         | 66/1000 [36:48<9:36:47, 37.05s/it]  7%|▋         | 67/1000 [37:18<9:03:49, 34.97s/it]                                                   {'loss': -0.0025, 'grad_norm': 0.01369568333029747, 'learning_rate': 2.4803146914669798e-05, 'num_tokens': 10847184.0, 'completions/mean_length': 1926.0625, 'completions/min_length': 851.0, 'completions/max_length': 3508.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1926.0625, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 3508.0, 'rewards/rollout_reward_func/mean': 9.953125, 'rewards/rollout_reward_func/std': 5.0943779945373535, 'reward': 9.953125, 'reward_std': 4.785671710968018, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04297541826963425, 'sampling/sampling_logp_difference/max': 2.678229808807373, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8839715719223022, 'sampling/importance_sampling_ratio/max': 2.485811471939087, 'kl': 0.3679413618519902, 'entropy': 0.13606049353256822, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.9023794420209, 'epoch': 0.54}
+  7%|▋         | 67/1000 [37:18<9:03:49, 34.97s/it]  7%|▋         | 68/1000 [37:49<8:45:45, 33.85s/it]                                                   {'loss': -0.0009, 'grad_norm': 0.015548021532595158, 'learning_rate': 2.4796073024134155e-05, 'num_tokens': 11016461.0, 'completions/mean_length': 2091.578125, 'completions/min_length': 784.0, 'completions/max_length': 3587.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2091.578125, 'completions/min_terminated_length': 784.0, 'completions/max_terminated_length': 3587.0, 'rewards/rollout_reward_func/mean': 11.059375762939453, 'rewards/rollout_reward_func/std': 5.037847995758057, 'reward': 11.059375762939453, 'reward_std': 5.093713760375977, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.043869733810424805, 'sampling/sampling_logp_difference/max': 2.53433895111084, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7443135380744934, 'sampling/importance_sampling_ratio/max': 2.747023820877075, 'kl': 0.3707957621663809, 'entropy': 0.1410738374106586, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.050965622991498, 'epoch': 0.54}
+  7%|▋         | 68/1000 [37:49<8:45:45, 33.85s/it]  7%|▋         | 69/1000 [38:23<8:45:57, 33.90s/it]                                                   {'loss': 0.0006, 'grad_norm': 0.015472705475986004, 'learning_rate': 2.4788875312279666e-05, 'num_tokens': 11188039.0, 'completions/mean_length': 2127.15625, 'completions/min_length': 779.0, 'completions/max_length': 3823.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2127.15625, 'completions/min_terminated_length': 779.0, 'completions/max_terminated_length': 3823.0, 'rewards/rollout_reward_func/mean': 9.54843807220459, 'rewards/rollout_reward_func/std': 5.385135173797607, 'reward': 9.54843807220459, 'reward_std': 5.342144966125488, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04290289431810379, 'sampling/sampling_logp_difference/max': 2.8024635314941406, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8979837894439697, 'sampling/importance_sampling_ratio/max': 1.9927504062652588, 'kl': 0.5768481800332665, 'entropy': 0.1443563555367291, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.55217315200571, 'epoch': 0.55}
+  7%|▋         | 69/1000 [38:23<8:45:57, 33.90s/it]  7%|▋         | 70/1000 [38:57<8:46:07, 33.94s/it]                                                   {'loss': 0.0012, 'grad_norm': 0.01801571622490883, 'learning_rate': 2.4781553851587218e-05, 'num_tokens': 11359389.0, 'completions/mean_length': 2123.59375, 'completions/min_length': 784.0, 'completions/max_length': 3800.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2123.59375, 'completions/min_terminated_length': 784.0, 'completions/max_terminated_length': 3800.0, 'rewards/rollout_reward_func/mean': 10.634374618530273, 'rewards/rollout_reward_func/std': 5.443657398223877, 'reward': 10.634374618530273, 'reward_std': 5.491586685180664, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03859926387667656, 'sampling/sampling_logp_difference/max': 1.8435386419296265, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8627376556396484, 'sampling/importance_sampling_ratio/max': 2.6286094188690186, 'kl': 0.25958960223942995, 'entropy': 0.1358004603534937, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.617085687001236, 'epoch': 0.56}
+  7%|▋         | 70/1000 [38:57<8:46:07, 33.94s/it]  7%|▋         | 71/1000 [39:37<9:13:26, 35.74s/it]                                                   {'loss': 0.0017, 'grad_norm': 0.014592086896300316, 'learning_rate': 2.4774108715783832e-05, 'num_tokens': 11526465.0, 'completions/mean_length': 2060.8125, 'completions/min_length': 854.0, 'completions/max_length': 4526.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2060.8125, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 4526.0, 'rewards/rollout_reward_func/mean': 10.045312881469727, 'rewards/rollout_reward_func/std': 5.380857944488525, 'reward': 10.045312881469727, 'reward_std': 5.188606262207031, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04353436082601547, 'sampling/sampling_logp_difference/max': 2.7710893154144287, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7980602979660034, 'sampling/importance_sampling_ratio/max': 2.753080129623413, 'kl': 4.125691720284522, 'entropy': 0.14169940259307623, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 38.3248680780016, 'epoch': 0.57}
+  7%|▋         | 71/1000 [39:37<9:13:26, 35.74s/it]  7%|▋         | 72/1000 [40:16<9:26:27, 36.62s/it]                                                   {'loss': 0.0001, 'grad_norm': 0.014803430996835232, 'learning_rate': 2.476653997984195e-05, 'num_tokens': 11684104.0, 'completions/mean_length': 1915.734375, 'completions/min_length': 862.0, 'completions/max_length': 4348.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1915.734375, 'completions/min_terminated_length': 862.0, 'completions/max_terminated_length': 4348.0, 'rewards/rollout_reward_func/mean': 9.6640625, 'rewards/rollout_reward_func/std': 5.24420690536499, 'reward': 9.6640625, 'reward_std': 5.279699325561523, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04051705449819565, 'sampling/sampling_logp_difference/max': 1.8924133777618408, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9081383943557739, 'sampling/importance_sampling_ratio/max': 2.3023757934570312, 'kl': 0.2281175316311419, 'entropy': 0.15141983702778816, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 37.33732657101791, 'epoch': 0.58}
+  7%|▋         | 72/1000 [40:16<9:26:27, 36.62s/it]  7%|▋         | 73/1000 [40:54<9:34:28, 37.18s/it]                                                   {'loss': 0.0015, 'grad_norm': 0.014274690300226212, 'learning_rate': 2.4758847719978655e-05, 'num_tokens': 11840384.0, 'completions/mean_length': 1896.125, 'completions/min_length': 852.0, 'completions/max_length': 4409.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1896.125, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 4409.0, 'rewards/rollout_reward_func/mean': 9.215625762939453, 'rewards/rollout_reward_func/std': 5.249587059020996, 'reward': 9.215625762939453, 'reward_std': 5.163271903991699, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.038179222494363785, 'sampling/sampling_logp_difference/max': 3.0600833892822266, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8616994023323059, 'sampling/importance_sampling_ratio/max': 2.7970099449157715, 'kl': 0.40472296066582203, 'entropy': 0.1471675024367869, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 37.05335744799231, 'epoch': 0.58}
+  7%|▋         | 73/1000 [40:54<9:34:28, 37.18s/it]  7%|▋         | 74/1000 [41:32<9:36:29, 37.35s/it]                                                   {'loss': 0.0001, 'grad_norm': 0.012444588355720043, 'learning_rate': 2.4751032013654918e-05, 'num_tokens': 12043613.0, 'completions/mean_length': 2610.453125, 'completions/min_length': 1265.0, 'completions/max_length': 4141.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2610.453125, 'completions/min_terminated_length': 1265.0, 'completions/max_terminated_length': 4141.0, 'rewards/rollout_reward_func/mean': 9.890625, 'rewards/rollout_reward_func/std': 5.309432506561279, 'reward': 9.890625, 'reward_std': 5.170596599578857, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.045383960008621216, 'sampling/sampling_logp_difference/max': 2.7112531661987305, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.6908412575721741, 'sampling/importance_sampling_ratio/max': 2.921509265899658, 'kl': 0.3614385714754462, 'entropy': 0.1638377020135522, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 36.18712767400575, 'epoch': 0.59}
+  7%|▋         | 74/1000 [41:32<9:36:29, 37.35s/it]  8%|▊         | 75/1000 [42:06<9:21:34, 36.43s/it]                                                   {'loss': -0.0, 'grad_norm': 0.01577373780310154, 'learning_rate': 2.4743092939574815e-05, 'num_tokens': 12217339.0, 'completions/mean_length': 2160.71875, 'completions/min_length': 851.0, 'completions/max_length': 3797.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2160.71875, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 3797.0, 'rewards/rollout_reward_func/mean': 10.207812309265137, 'rewards/rollout_reward_func/std': 5.303676605224609, 'reward': 10.207813262939453, 'reward_std': 5.039948463439941, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.042597927153110504, 'sampling/sampling_logp_difference/max': 2.5349252223968506, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9472619295120239, 'sampling/importance_sampling_ratio/max': 2.8346424102783203, 'kl': 0.270014145411551, 'entropy': 0.15621469635516405, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 33.022021982003935, 'epoch': 0.6}
+  8%|▊         | 75/1000 [42:06<9:21:34, 36.43s/it]  8%|▊         | 76/1000 [42:34<8:39:09, 33.71s/it]                                                   {'loss': -0.0009, 'grad_norm': 0.02041546441614628, 'learning_rate': 2.4735030577684735e-05, 'num_tokens': 12359581.0, 'completions/mean_length': 1681.15625, 'completions/min_length': 852.0, 'completions/max_length': 3144.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1681.15625, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3144.0, 'rewards/rollout_reward_func/mean': 9.787500381469727, 'rewards/rollout_reward_func/std': 5.342507362365723, 'reward': 9.78749942779541, 'reward_std': 5.47730016708374, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.048222821205854416, 'sampling/sampling_logp_difference/max': 2.180723190307617, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8174648284912109, 'sampling/importance_sampling_ratio/max': 2.5999414920806885, 'kl': 0.3832299169152975, 'entropy': 0.1435212236829102, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 26.301564866989793, 'epoch': 0.61}
+  8%|▊         | 76/1000 [42:34<8:39:09, 33.71s/it]  8%|▊         | 77/1000 [42:58<7:57:34, 31.05s/it]                                                   {'loss': -0.0001, 'grad_norm': 0.012059058994054794, 'learning_rate': 2.4726845009172572e-05, 'num_tokens': 12512673.0, 'completions/mean_length': 1846.6875, 'completions/min_length': 852.0, 'completions/max_length': 2797.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1846.6875, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 2797.0, 'rewards/rollout_reward_func/mean': 9.171875, 'rewards/rollout_reward_func/std': 5.14530086517334, 'reward': 9.171875, 'reward_std': 5.066704750061035, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04487641900777817, 'sampling/sampling_logp_difference/max': 2.409515857696533, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8779747486114502, 'sampling/importance_sampling_ratio/max': 2.209047555923462, 'kl': 0.2961181253194809, 'entropy': 0.14676292287185788, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 23.85295991098974, 'epoch': 0.62}
+  8%|▊         | 77/1000 [42:58<7:57:34, 31.05s/it]  8%|▊         | 78/1000 [43:23<7:28:05, 29.16s/it]                                                   {'loss': -0.0017, 'grad_norm': 0.012597589753568172, 'learning_rate': 2.4718536316466907e-05, 'num_tokens': 12651650.0, 'completions/mean_length': 1631.390625, 'completions/min_length': 782.0, 'completions/max_length': 2816.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1631.390625, 'completions/min_terminated_length': 782.0, 'completions/max_terminated_length': 2816.0, 'rewards/rollout_reward_func/mean': 10.271875381469727, 'rewards/rollout_reward_func/std': 5.061729431152344, 'reward': 10.271875381469727, 'reward_std': 4.88765287399292, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.040386199951171875, 'sampling/sampling_logp_difference/max': 1.7437818050384521, 'sampling/importance_sampling_ratio/min': 0.022145720198750496, 'sampling/importance_sampling_ratio/mean': 0.9205886125564575, 'sampling/importance_sampling_ratio/max': 2.9822216033935547, 'kl': 0.2809710646979511, 'entropy': 0.13899940624833107, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 23.704251838003984, 'epoch': 0.62}
+  8%|▊         | 78/1000 [43:23<7:28:05, 29.16s/it]  8%|▊         | 79/1000 [44:02<8:10:30, 31.96s/it]                                                   {'loss': -0.0017, 'grad_norm': 0.01163810770958662, 'learning_rate': 2.471010458323619e-05, 'num_tokens': 12815444.0, 'completions/mean_length': 2009.53125, 'completions/min_length': 853.0, 'completions/max_length': 4327.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2009.53125, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 4327.0, 'rewards/rollout_reward_func/mean': 9.143750190734863, 'rewards/rollout_reward_func/std': 4.89404821395874, 'reward': 9.143750190734863, 'reward_std': 4.548183441162109, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.037725016474723816, 'sampling/sampling_logp_difference/max': 1.1958246231079102, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9649484157562256, 'sampling/importance_sampling_ratio/max': 2.7563838958740234, 'kl': 0.22959629772230983, 'entropy': 0.14773872354999185, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 36.92926940899633, 'epoch': 0.63}
+  8%|▊         | 79/1000 [44:02<8:10:30, 31.96s/it]  8%|▊         | 80/1000 [44:37<8:25:25, 32.96s/it]                                                   {'loss': 0.0002, 'grad_norm': 0.013675960712134838, 'learning_rate': 2.4701549894387877e-05, 'num_tokens': 12982666.0, 'completions/mean_length': 2061.84375, 'completions/min_length': 1114.0, 'completions/max_length': 3989.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2061.84375, 'completions/min_terminated_length': 1114.0, 'completions/max_terminated_length': 3989.0, 'rewards/rollout_reward_func/mean': 11.082813262939453, 'rewards/rollout_reward_func/std': 5.302277565002441, 'reward': 11.082812309265137, 'reward_std': 5.11961030960083, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04303645342588425, 'sampling/sampling_logp_difference/max': 8.74621295928955, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8523948192596436, 'sampling/importance_sampling_ratio/max': 2.818532705307007, 'kl': 0.2969913138076663, 'entropy': 0.14045098377391696, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 34.04536163399462, 'epoch': 0.64}
+  8%|▊         | 80/1000 [44:37<8:25:25, 32.96s/it]  8%|▊         | 81/1000 [45:11<8:29:45, 33.28s/it]                                                   {'loss': 0.0004, 'grad_norm': 0.014207562431693077, 'learning_rate': 2.469287233606759e-05, 'num_tokens': 13147382.0, 'completions/mean_length': 2022.3125, 'completions/min_length': 784.0, 'completions/max_length': 3792.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2022.3125, 'completions/min_terminated_length': 784.0, 'completions/max_terminated_length': 3792.0, 'rewards/rollout_reward_func/mean': 9.5859375, 'rewards/rollout_reward_func/std': 5.178308486938477, 'reward': 9.5859375, 'reward_std': 5.304792881011963, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04472595825791359, 'sampling/sampling_logp_difference/max': 3.1377782821655273, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7577059268951416, 'sampling/importance_sampling_ratio/max': 2.053860902786255, 'kl': 0.37846285477280617, 'entropy': 0.14878040831536055, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.83362737900461, 'epoch': 0.65}
+  8%|▊         | 81/1000 [45:11<8:29:45, 33.28s/it]  8%|▊         | 82/1000 [45:45<8:34:42, 33.64s/it]                                                   {'loss': -0.0004, 'grad_norm': 0.027767395600676537, 'learning_rate': 2.468407199565824e-05, 'num_tokens': 13287291.0, 'completions/mean_length': 1645.953125, 'completions/min_length': 852.0, 'completions/max_length': 3962.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1645.953125, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3962.0, 'rewards/rollout_reward_func/mean': 10.420312881469727, 'rewards/rollout_reward_func/std': 5.172030448913574, 'reward': 10.420312881469727, 'reward_std': 4.72678804397583, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03990175575017929, 'sampling/sampling_logp_difference/max': 1.8280534744262695, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8173816204071045, 'sampling/importance_sampling_ratio/max': 2.458373546600342, 'kl': 0.22745021851733327, 'entropy': 0.13346495991572738, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 33.26563690697367, 'epoch': 0.66}
+  8%|▊         | 82/1000 [45:45<8:34:42, 33.64s/it]  8%|▊         | 83/1000 [46:20<8:40:33, 34.06s/it]                                                   {'loss': -0.0027, 'grad_norm': 0.013265787623822689, 'learning_rate': 2.467514896177917e-05, 'num_tokens': 13435837.0, 'completions/mean_length': 1777.65625, 'completions/min_length': 856.0, 'completions/max_length': 3985.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1777.65625, 'completions/min_terminated_length': 856.0, 'completions/max_terminated_length': 3985.0, 'rewards/rollout_reward_func/mean': 10.253124237060547, 'rewards/rollout_reward_func/std': 5.127453804016113, 'reward': 10.253124237060547, 'reward_std': 5.138583183288574, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.038478147238492966, 'sampling/sampling_logp_difference/max': 2.574784278869629, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8564032316207886, 'sampling/importance_sampling_ratio/max': 2.4167494773864746, 'kl': 0.2711417032405734, 'entropy': 0.12663390347734094, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 33.82480001802469, 'epoch': 0.66}
+  8%|▊         | 83/1000 [46:20<8:40:33, 34.06s/it]  8%|▊         | 84/1000 [46:57<8:50:39, 34.76s/it]                                                   {'loss': 0.0001, 'grad_norm': 0.012923184782266617, 'learning_rate': 2.466610332428522e-05, 'num_tokens': 13619277.0, 'completions/mean_length': 2308.875, 'completions/min_length': 854.0, 'completions/max_length': 4155.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2308.875, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 4155.0, 'rewards/rollout_reward_func/mean': 10.557811737060547, 'rewards/rollout_reward_func/std': 5.206522464752197, 'reward': 10.557811737060547, 'reward_std': 5.400024890899658, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04094759002327919, 'sampling/sampling_logp_difference/max': 2.5145225524902344, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8341927528381348, 'sampling/importance_sampling_ratio/max': 2.8397700786590576, 'kl': 0.22463655285537243, 'entropy': 0.15675598429515958, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 34.984807041997556, 'epoch': 0.67}
+  8%|▊         | 84/1000 [46:57<8:50:39, 34.76s/it]  8%|▊         | 85/1000 [47:30<8:40:34, 34.14s/it]                                                   {'loss': 0.0007, 'grad_norm': 0.011504238471388817, 'learning_rate': 2.4656935174265865e-05, 'num_tokens': 13766079.0, 'completions/mean_length': 1750.40625, 'completions/min_length': 855.0, 'completions/max_length': 3675.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1750.40625, 'completions/min_terminated_length': 855.0, 'completions/max_terminated_length': 3675.0, 'rewards/rollout_reward_func/mean': 10.001562118530273, 'rewards/rollout_reward_func/std': 5.184056758880615, 'reward': 10.001562118530273, 'reward_std': 5.0451202392578125, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04933525621891022, 'sampling/sampling_logp_difference/max': 3.893679141998291, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7653151750564575, 'sampling/importance_sampling_ratio/max': 2.5636508464813232, 'kl': 0.3161501372233033, 'entropy': 0.13958608731627464, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.255779517996416, 'epoch': 0.68}
+  8%|▊         | 85/1000 [47:30<8:40:34, 34.14s/it]  9%|▊         | 86/1000 [48:02<8:32:01, 33.61s/it]                                                   {'loss': 0.0017, 'grad_norm': 0.011866293847560883, 'learning_rate': 2.464764460404427e-05, 'num_tokens': 13965673.0, 'completions/mean_length': 2551.65625, 'completions/min_length': 1195.0, 'completions/max_length': 3622.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2551.65625, 'completions/min_terminated_length': 1195.0, 'completions/max_terminated_length': 3622.0, 'rewards/rollout_reward_func/mean': 11.607812881469727, 'rewards/rollout_reward_func/std': 5.09999418258667, 'reward': 11.607812881469727, 'reward_std': 4.98176908493042, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04495973140001297, 'sampling/sampling_logp_difference/max': 1.7729849815368652, 'sampling/importance_sampling_ratio/min': 0.07183904200792313, 'sampling/importance_sampling_ratio/mean': 0.8606279492378235, 'sampling/importance_sampling_ratio/max': 2.7540225982666016, 'kl': 0.2552542327903211, 'entropy': 0.1640535406768322, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.04194675001054, 'epoch': 0.69}
+  9%|▊         | 86/1000 [48:02<8:32:01, 33.61s/it]  9%|▊         | 87/1000 [48:39<8:47:07, 34.64s/it]                                                   {'loss': 0.0, 'grad_norm': 0.012094330042600632, 'learning_rate': 2.4638231707176378e-05, 'num_tokens': 14177439.0, 'completions/mean_length': 2739.84375, 'completions/min_length': 1277.0, 'completions/max_length': 4124.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2739.84375, 'completions/min_terminated_length': 1277.0, 'completions/max_terminated_length': 4124.0, 'rewards/rollout_reward_func/mean': 10.181249618530273, 'rewards/rollout_reward_func/std': 4.756978988647461, 'reward': 10.18125057220459, 'reward_std': 4.6824750900268555, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.05523523688316345, 'sampling/sampling_logp_difference/max': 2.983996868133545, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.6727392077445984, 'sampling/importance_sampling_ratio/max': 2.3472986221313477, 'kl': 0.285141559317708, 'entropy': 0.18283155374228954, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 35.5613253140109, 'epoch': 0.7}
+  9%|▊         | 87/1000 [48:39<8:47:07, 34.64s/it]  9%|▉         | 88/1000 [49:06<8:10:08, 32.25s/it]                                                   {'loss': 0.0006, 'grad_norm': 0.017752116546034813, 'learning_rate': 2.4628696578449956e-05, 'num_tokens': 14323116.0, 'completions/mean_length': 1732.453125, 'completions/min_length': 781.0, 'completions/max_length': 3082.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1732.453125, 'completions/min_terminated_length': 781.0, 'completions/max_terminated_length': 3082.0, 'rewards/rollout_reward_func/mean': 9.9296875, 'rewards/rollout_reward_func/std': 5.17186164855957, 'reward': 9.9296875, 'reward_std': 5.0371785163879395, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.053219400346279144, 'sampling/sampling_logp_difference/max': 1.9060566425323486, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7799767851829529, 'sampling/importance_sampling_ratio/max': 2.8912699222564697, 'kl': 0.2670636670663953, 'entropy': 0.14991787122562528, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 25.646977855998557, 'epoch': 0.7}
+  9%|▉         | 88/1000 [49:06<8:10:08, 32.25s/it]  9%|▉         | 89/1000 [49:31<7:38:03, 30.17s/it]                                                   {'loss': -0.0, 'grad_norm': 0.022583939135074615, 'learning_rate': 2.461903931388364e-05, 'num_tokens': 14454836.0, 'completions/mean_length': 1520.375, 'completions/min_length': 785.0, 'completions/max_length': 2858.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1520.375, 'completions/min_terminated_length': 785.0, 'completions/max_terminated_length': 2858.0, 'rewards/rollout_reward_func/mean': 10.826562881469727, 'rewards/rollout_reward_func/std': 5.072967529296875, 'reward': 10.826562881469727, 'reward_std': 5.29433536529541, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.042465344071388245, 'sampling/sampling_logp_difference/max': 2.711580276489258, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8651002049446106, 'sampling/importance_sampling_ratio/max': 2.9820327758789062, 'kl': 0.3060727664269507, 'entropy': 0.11991260619834065, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 24.256288153017522, 'epoch': 0.71}
+  9%|▉         | 89/1000 [49:31<7:38:03, 30.17s/it]  9%|▉         | 90/1000 [50:07<8:02:46, 31.83s/it]                                                   {'loss': -0.0031, 'grad_norm': 0.007584244478493929, 'learning_rate': 2.460926001072598e-05, 'num_tokens': 14654530.0, 'completions/mean_length': 2555.21875, 'completions/min_length': 1282.0, 'completions/max_length': 3914.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2555.21875, 'completions/min_terminated_length': 1282.0, 'completions/max_terminated_length': 3914.0, 'rewards/rollout_reward_func/mean': 10.4296875, 'rewards/rollout_reward_func/std': 5.27144718170166, 'reward': 10.4296875, 'reward_std': 5.423884391784668, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.054609864950180054, 'sampling/sampling_logp_difference/max': 2.578474760055542, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7134276628494263, 'sampling/importance_sampling_ratio/max': 2.8827898502349854, 'kl': 0.2677252981811762, 'entropy': 0.16839479934424162, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 34.21373170597508, 'epoch': 0.72}
+  9%|▉         | 90/1000 [50:07<8:02:46, 31.83s/it]  9%|▉         | 91/1000 [50:38<8:01:27, 31.78s/it]                                                   {'loss': 0.0, 'grad_norm': 0.011789272539317608, 'learning_rate': 2.4599358767454455e-05, 'num_tokens': 14827303.0, 'completions/mean_length': 2144.203125, 'completions/min_length': 852.0, 'completions/max_length': 3618.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2144.203125, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3618.0, 'rewards/rollout_reward_func/mean': 10.717187881469727, 'rewards/rollout_reward_func/std': 5.258570194244385, 'reward': 10.717187881469727, 'reward_std': 5.026804447174072, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.048783235251903534, 'sampling/sampling_logp_difference/max': 2.432732582092285, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8146308660507202, 'sampling/importance_sampling_ratio/max': 2.8782808780670166, 'kl': 0.3044083337299526, 'entropy': 0.15069618774577975, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.38895213302021, 'epoch': 0.73}
+  9%|▉         | 91/1000 [50:38<8:01:27, 31.78s/it]  9%|▉         | 92/1000 [51:13<8:12:18, 32.53s/it]                                                   {'loss': -0.001, 'grad_norm': 0.011510610580444336, 'learning_rate': 2.4589335683774466e-05, 'num_tokens': 15015358.0, 'completions/mean_length': 2377.359375, 'completions/min_length': 1190.0, 'completions/max_length': 3680.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2377.359375, 'completions/min_terminated_length': 1190.0, 'completions/max_terminated_length': 3680.0, 'rewards/rollout_reward_func/mean': 10.182811737060547, 'rewards/rollout_reward_func/std': 5.008739948272705, 'reward': 10.182811737060547, 'reward_std': 5.128292083740234, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04793810471892357, 'sampling/sampling_logp_difference/max': 2.591674327850342, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7905851602554321, 'sampling/importance_sampling_ratio/max': 2.57761549949646, 'kl': 0.3364485176280141, 'entropy': 0.1499559013172984, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.86622060000809, 'epoch': 0.74}
+  9%|▉         | 92/1000 [51:13<8:12:18, 32.53s/it]  9%|▉         | 93/1000 [51:43<8:02:33, 31.92s/it]                                                   {'loss': 0.0004, 'grad_norm': 0.015224405564367771, 'learning_rate': 2.4579190860618356e-05, 'num_tokens': 15186244.0, 'completions/mean_length': 2115.09375, 'completions/min_length': 1180.0, 'completions/max_length': 3470.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2115.09375, 'completions/min_terminated_length': 1180.0, 'completions/max_terminated_length': 3470.0, 'rewards/rollout_reward_func/mean': 10.3671875, 'rewards/rollout_reward_func/std': 4.870515823364258, 'reward': 10.3671875, 'reward_std': 4.915657997131348, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.047077395021915436, 'sampling/sampling_logp_difference/max': 3.8250300884246826, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9537615776062012, 'sampling/importance_sampling_ratio/max': 2.942031145095825, 'kl': 0.35479913000017405, 'entropy': 0.15171918040141463, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.21035551499517, 'epoch': 0.74}
+  9%|▉         | 93/1000 [51:43<8:02:33, 31.92s/it]  9%|▉         | 94/1000 [52:15<8:02:49, 31.98s/it]                                                   {'loss': -0.0022, 'grad_norm': 0.012327326461672783, 'learning_rate': 2.456892440014439e-05, 'num_tokens': 15358417.0, 'completions/mean_length': 2134.828125, 'completions/min_length': 864.0, 'completions/max_length': 3632.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2134.828125, 'completions/min_terminated_length': 864.0, 'completions/max_terminated_length': 3632.0, 'rewards/rollout_reward_func/mean': 10.243749618530273, 'rewards/rollout_reward_func/std': 5.033155918121338, 'reward': 10.243749618530273, 'reward_std': 5.121155738830566, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.047568224370479584, 'sampling/sampling_logp_difference/max': 4.252467632293701, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7980048060417175, 'sampling/importance_sampling_ratio/max': 2.4326913356781006, 'kl': 0.3709862995892763, 'entropy': 0.1491843336261809, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.93308402600087, 'epoch': 0.75}
+  9%|▉         | 94/1000 [52:15<8:02:49, 31.98s/it] 10%|▉         | 95/1000 [52:39<7:24:43, 29.48s/it]                                                   {'loss': -0.001, 'grad_norm': 0.011284464970231056, 'learning_rate': 2.45585364057357e-05, 'num_tokens': 15480920.0, 'completions/mean_length': 1381.234375, 'completions/min_length': 780.0, 'completions/max_length': 2665.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1381.234375, 'completions/min_terminated_length': 780.0, 'completions/max_terminated_length': 2665.0, 'rewards/rollout_reward_func/mean': 10.592187881469727, 'rewards/rollout_reward_func/std': 5.08031702041626, 'reward': 10.592187881469727, 'reward_std': 4.742555618286133, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04778951406478882, 'sampling/sampling_logp_difference/max': 5.033567905426025, 'sampling/importance_sampling_ratio/min': 0.010721856728196144, 'sampling/importance_sampling_ratio/mean': 0.7534289360046387, 'sampling/importance_sampling_ratio/max': 2.4168500900268555, 'kl': 0.35325500648468733, 'entropy': 0.12485829647630453, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 22.650956623998354, 'epoch': 0.76}
+ 10%|▉         | 95/1000 [52:39<7:24:43, 29.48s/it] 10%|▉         | 96/1000 [53:10<7:30:17, 29.89s/it]                                                   {'loss': 0.0015, 'grad_norm': 0.009510522708296776, 'learning_rate': 2.454802698199928e-05, 'num_tokens': 15639323.0, 'completions/mean_length': 1927.296875, 'completions/min_length': 863.0, 'completions/max_length': 3400.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1927.296875, 'completions/min_terminated_length': 863.0, 'completions/max_terminated_length': 3400.0, 'rewards/rollout_reward_func/mean': 9.792187690734863, 'rewards/rollout_reward_func/std': 5.205317974090576, 'reward': 9.792186737060547, 'reward_std': 5.264283180236816, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.044359397143125534, 'sampling/sampling_logp_difference/max': 2.4983670711517334, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7399994134902954, 'sampling/importance_sampling_ratio/max': 1.8383127450942993, 'kl': 0.2822842802852392, 'entropy': 0.13045901665464044, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.537352315004682, 'epoch': 0.77}
+ 10%|▉         | 96/1000 [53:10<7:30:17, 29.89s/it] 10%|▉         | 97/1000 [53:41<7:37:33, 30.40s/it]                                                   {'loss': -0.0001, 'grad_norm': 0.01671813242137432, 'learning_rate': 2.4537396234764908e-05, 'num_tokens': 15805782.0, 'completions/mean_length': 2049.546875, 'completions/min_length': 784.0, 'completions/max_length': 3639.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2049.546875, 'completions/min_terminated_length': 784.0, 'completions/max_terminated_length': 3639.0, 'rewards/rollout_reward_func/mean': 11.146875381469727, 'rewards/rollout_reward_func/std': 4.802643775939941, 'reward': 11.146875381469727, 'reward_std': 4.825248718261719, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.047629524022340775, 'sampling/sampling_logp_difference/max': 2.590085506439209, 'sampling/importance_sampling_ratio/min': 0.004053330514580011, 'sampling/importance_sampling_ratio/mean': 0.8924802541732788, 'sampling/importance_sampling_ratio/max': 2.798593282699585, 'kl': 0.2944002505391836, 'entropy': 0.14629040425643325, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.32628940098948, 'epoch': 0.78}
+ 10%|▉         | 97/1000 [53:41<7:37:33, 30.40s/it] 10%|▉         | 98/1000 [54:13<7:45:04, 30.94s/it]                                                   {'loss': 0.0004, 'grad_norm': 0.010873505845665932, 'learning_rate': 2.4526644271084093e-05, 'num_tokens': 15977858.0, 'completions/mean_length': 2133.3125, 'completions/min_length': 881.0, 'completions/max_length': 3565.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2133.3125, 'completions/min_terminated_length': 881.0, 'completions/max_terminated_length': 3565.0, 'rewards/rollout_reward_func/mean': 10.785937309265137, 'rewards/rollout_reward_func/std': 5.357649326324463, 'reward': 10.785937309265137, 'reward_std': 5.411113262176514, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.0542728565633297, 'sampling/sampling_logp_difference/max': 3.027388334274292, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.700818657875061, 'sampling/importance_sampling_ratio/max': 2.1129298210144043, 'kl': 0.48300866037607193, 'entropy': 0.1506246654316783, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.055241135996766, 'epoch': 0.78}
+ 10%|▉         | 98/1000 [54:13<7:45:04, 30.94s/it] 10%|▉         | 99/1000 [54:37<7:12:00, 28.77s/it]                                                   {'loss': -0.0001, 'grad_norm': 0.014976250007748604, 'learning_rate': 2.4515771199228987e-05, 'num_tokens': 16108117.0, 'completions/mean_length': 1498.796875, 'completions/min_length': 852.0, 'completions/max_length': 2699.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1498.796875, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 2699.0, 'rewards/rollout_reward_func/mean': 10.012499809265137, 'rewards/rollout_reward_func/std': 5.261917591094971, 'reward': 10.012499809265137, 'reward_std': 4.714869022369385, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04366666078567505, 'sampling/sampling_logp_difference/max': 1.7991458177566528, 'sampling/importance_sampling_ratio/min': 0.01393396407365799, 'sampling/importance_sampling_ratio/mean': 0.9093455076217651, 'sampling/importance_sampling_ratio/max': 2.2915549278259277, 'kl': 0.2611012035049498, 'entropy': 0.11993443733081222, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 22.70948090400634, 'epoch': 0.79}
+ 10%|▉         | 99/1000 [54:37<7:12:00, 28.77s/it] 10%|█         | 100/1000 [55:07<7:17:17, 29.15s/it]                                                    {'loss': 0.0013, 'grad_norm': 0.01436337735503912, 'learning_rate': 2.4504777128691308e-05, 'num_tokens': 16284365.0, 'completions/mean_length': 2196.5, 'completions/min_length': 855.0, 'completions/max_length': 3403.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2196.5, 'completions/min_terminated_length': 855.0, 'completions/max_terminated_length': 3403.0, 'rewards/rollout_reward_func/mean': 9.754687309265137, 'rewards/rollout_reward_func/std': 5.253145217895508, 'reward': 9.754687309265137, 'reward_std': 5.11820650100708, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04981299862265587, 'sampling/sampling_logp_difference/max': 2.418917417526245, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8960283994674683, 'sampling/importance_sampling_ratio/max': 2.6565134525299072, 'kl': 0.45053757168352604, 'entropy': 0.1524238158017397, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.790553953993367, 'epoch': 0.8}
+ 10%|█         | 100/1000 [55:07<7:17:17, 29.15s/it] 10%|█         | 101/1000 [55:38<7:23:47, 29.62s/it]                                                    {'loss': 0.0001, 'grad_norm': 0.014293050393462181, 'learning_rate': 2.449366217018122e-05, 'num_tokens': 16418763.0, 'completions/mean_length': 1562.21875, 'completions/min_length': 853.0, 'completions/max_length': 3534.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1562.21875, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3534.0, 'rewards/rollout_reward_func/mean': 8.853124618530273, 'rewards/rollout_reward_func/std': 5.119740009307861, 'reward': 8.85312557220459, 'reward_std': 5.014621734619141, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.035680390894412994, 'sampling/sampling_logp_difference/max': 1.9826602935791016, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.870040237903595, 'sampling/importance_sampling_ratio/max': 2.7868990898132324, 'kl': 0.3289339793846011, 'entropy': 0.11335350153967738, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.685600062024605, 'epoch': 0.81}
+ 10%|█         | 101/1000 [55:38<7:23:47, 29.62s/it] 10%|█         | 102/1000 [56:04<7:06:28, 28.49s/it]                                                    {'loss': -0.002, 'grad_norm': 0.02466803789138794, 'learning_rate': 2.448242643562623e-05, 'num_tokens': 16547422.0, 'completions/mean_length': 1474.171875, 'completions/min_length': 784.0, 'completions/max_length': 2982.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1474.171875, 'completions/min_terminated_length': 784.0, 'completions/max_terminated_length': 2982.0, 'rewards/rollout_reward_func/mean': 10.401561737060547, 'rewards/rollout_reward_func/std': 4.762369155883789, 'reward': 10.401561737060547, 'reward_std': 4.743245601654053, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04415625333786011, 'sampling/sampling_logp_difference/max': 6.849093437194824, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.861556351184845, 'sampling/importance_sampling_ratio/max': 2.6245484352111816, 'kl': 1.3315140781924129, 'entropy': 0.10457656672224402, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 24.77870666999661, 'epoch': 0.82}
+ 10%|█         | 102/1000 [56:04<7:06:28, 28.49s/it] 10%|█         | 103/1000 [56:24<6:27:53, 25.95s/it]                                                    {'loss': -0.0001, 'grad_norm': 0.01471878495067358, 'learning_rate': 2.4471070038170067e-05, 'num_tokens': 16666229.0, 'completions/mean_length': 1324.234375, 'completions/min_length': 851.0, 'completions/max_length': 2241.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1324.234375, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 2241.0, 'rewards/rollout_reward_func/mean': 11.0546875, 'rewards/rollout_reward_func/std': 5.323977947235107, 'reward': 11.0546875, 'reward_std': 5.331866264343262, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.039839811623096466, 'sampling/sampling_logp_difference/max': 2.979444742202759, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9423105716705322, 'sampling/importance_sampling_ratio/max': 2.3104591369628906, 'kl': 2.128815676085651, 'entropy': 0.11019642744213343, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 19.127187384976423, 'epoch': 0.82}
+ 10%|█         | 103/1000 [56:24<6:27:53, 25.95s/it] 10%|█         | 104/1000 [56:54<6:46:03, 27.19s/it]                                                    {'loss': 0.0017, 'grad_norm': 0.011802129447460175, 'learning_rate': 2.4459593092171523e-05, 'num_tokens': 16829063.0, 'completions/mean_length': 1992.90625, 'completions/min_length': 854.0, 'completions/max_length': 3427.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1992.90625, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 3427.0, 'rewards/rollout_reward_func/mean': 10.75, 'rewards/rollout_reward_func/std': 5.443009376525879, 'reward': 10.75, 'reward_std': 5.336462497711182, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.046083226799964905, 'sampling/sampling_logp_difference/max': 2.5464422702789307, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7366856336593628, 'sampling/importance_sampling_ratio/max': 2.5177927017211914, 'kl': 0.3525725807994604, 'entropy': 0.13025572802871466, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.807512259976647, 'epoch': 0.83}
+ 10%|█         | 104/1000 [56:54<6:46:03, 27.19s/it] 10%|█         | 105/1000 [57:19<6:36:20, 26.57s/it]                                                    {'loss': 0.0012, 'grad_norm': 0.011876829899847507, 'learning_rate': 2.4447995713203314e-05, 'num_tokens': 16974054.0, 'completions/mean_length': 1721.734375, 'completions/min_length': 783.0, 'completions/max_length': 2844.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1721.734375, 'completions/min_terminated_length': 783.0, 'completions/max_terminated_length': 2844.0, 'rewards/rollout_reward_func/mean': 10.237500190734863, 'rewards/rollout_reward_func/std': 5.190605640411377, 'reward': 10.237500190734863, 'reward_std': 4.726539134979248, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.049223579466342926, 'sampling/sampling_logp_difference/max': 4.075567722320557, 'sampling/importance_sampling_ratio/min': 0.014769552275538445, 'sampling/importance_sampling_ratio/mean': 0.8559637069702148, 'sampling/importance_sampling_ratio/max': 2.66270112991333, 'kl': 0.35575820598751307, 'entropy': 0.13919657142832875, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 24.069364154987852, 'epoch': 0.84}
+ 10%|█         | 105/1000 [57:19<6:36:20, 26.57s/it] 11%|█         | 106/1000 [57:44<6:29:53, 26.17s/it]                                                    {'loss': 0.0008, 'grad_norm': 0.02231176570057869, 'learning_rate': 2.4436278018050924e-05, 'num_tokens': 17127318.0, 'completions/mean_length': 1847.375, 'completions/min_length': 865.0, 'completions/max_length': 2846.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1847.375, 'completions/min_terminated_length': 865.0, 'completions/max_terminated_length': 2846.0, 'rewards/rollout_reward_func/mean': 9.589061737060547, 'rewards/rollout_reward_func/std': 5.059428691864014, 'reward': 9.589061737060547, 'reward_std': 5.15971565246582, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04535824805498123, 'sampling/sampling_logp_difference/max': 2.571207284927368, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7523366212844849, 'sampling/importance_sampling_ratio/max': 2.869248628616333, 'kl': 0.3381297765299678, 'entropy': 0.1257734321989119, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 24.16092983400449, 'epoch': 0.85}
+ 11%|█         | 106/1000 [57:44<6:29:53, 26.17s/it] 11%|█         | 107/1000 [58:17<6:56:54, 28.01s/it]                                                    {'loss': -0.0023, 'grad_norm': 0.012125077657401562, 'learning_rate': 2.4424440124711407e-05, 'num_tokens': 17271070.0, 'completions/mean_length': 1704.375, 'completions/min_length': 783.0, 'completions/max_length': 3713.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1704.375, 'completions/min_terminated_length': 783.0, 'completions/max_terminated_length': 3713.0, 'rewards/rollout_reward_func/mean': 10.345312118530273, 'rewards/rollout_reward_func/std': 5.48304557800293, 'reward': 10.345312118530273, 'reward_std': 5.564118385314941, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.046703651547431946, 'sampling/sampling_logp_difference/max': 2.8309648036956787, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8468509316444397, 'sampling/importance_sampling_ratio/max': 2.917058229446411, 'kl': 0.7893106462433934, 'entropy': 0.11552245682105422, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.14009966400772, 'epoch': 0.86}
+ 11%|█         | 107/1000 [58:17<6:56:54, 28.01s/it] 11%|█         | 108/1000 [58:47<7:05:43, 28.64s/it]                                                    {'loss': -0.0009, 'grad_norm': 0.01294070016592741, 'learning_rate': 2.4412482152392223e-05, 'num_tokens': 17438149.0, 'completions/mean_length': 2057.234375, 'completions/min_length': 850.0, 'completions/max_length': 3429.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2057.234375, 'completions/min_terminated_length': 850.0, 'completions/max_terminated_length': 3429.0, 'rewards/rollout_reward_func/mean': 11.0859375, 'rewards/rollout_reward_func/std': 5.285886287689209, 'reward': 11.0859375, 'reward_std': 4.76405143737793, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.049446046352386475, 'sampling/sampling_logp_difference/max': 4.781842231750488, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8145599365234375, 'sampling/importance_sampling_ratio/max': 2.6693203449249268, 'kl': 0.5889329928904772, 'entropy': 0.1445181700401008, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.84838102998765, 'epoch': 0.86}
+ 11%|█         | 108/1000 [58:47<7:05:43, 28.64s/it] 11%|█         | 109/1000 [59:17<7:14:24, 29.25s/it]                                                    {'loss': -0.0014, 'grad_norm': 0.012550326064229012, 'learning_rate': 2.440040422151002e-05, 'num_tokens': 17594223.0, 'completions/mean_length': 1890.90625, 'completions/min_length': 781.0, 'completions/max_length': 3491.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1890.90625, 'completions/min_terminated_length': 781.0, 'completions/max_terminated_length': 3491.0, 'rewards/rollout_reward_func/mean': 9.524999618530273, 'rewards/rollout_reward_func/std': 5.0619964599609375, 'reward': 9.524999618530273, 'reward_std': 5.002494812011719, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.0426756925880909, 'sampling/sampling_logp_difference/max': 3.3928537368774414, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7738856673240662, 'sampling/importance_sampling_ratio/max': 2.651610851287842, 'kl': 0.358200435526669, 'entropy': 0.11840219935402274, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.388286743000208, 'epoch': 0.87}
+ 11%|█         | 109/1000 [59:17<7:14:24, 29.25s/it] 11%|█         | 110/1000 [59:47<7:13:28, 29.22s/it]                                                    {'loss': -0.0003, 'grad_norm': 0.01164067443460226, 'learning_rate': 2.438820645368942e-05, 'num_tokens': 17743553.0, 'completions/mean_length': 1787.53125, 'completions/min_length': 784.0, 'completions/max_length': 3296.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1787.53125, 'completions/min_terminated_length': 784.0, 'completions/max_terminated_length': 3296.0, 'rewards/rollout_reward_func/mean': 11.375, 'rewards/rollout_reward_func/std': 5.322011947631836, 'reward': 11.375, 'reward_std': 5.002065658569336, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04131665080785751, 'sampling/sampling_logp_difference/max': 2.0857138633728027, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8014539480209351, 'sampling/importance_sampling_ratio/max': 2.3428072929382324, 'kl': 0.37600847659632564, 'entropy': 0.10070911608636379, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.072924684012833, 'epoch': 0.88}
+ 11%|█         | 110/1000 [59:47<7:13:28, 29.22s/it] 11%|█         | 111/1000 [1:00:15<7:11:30, 29.12s/it]                                                      {'loss': -0.0003, 'grad_norm': 0.013084634207189083, 'learning_rate': 2.4375888971761817e-05, 'num_tokens': 17887918.0, 'completions/mean_length': 1713.953125, 'completions/min_length': 786.0, 'completions/max_length': 3271.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1713.953125, 'completions/min_terminated_length': 786.0, 'completions/max_terminated_length': 3271.0, 'rewards/rollout_reward_func/mean': 10.276561737060547, 'rewards/rollout_reward_func/std': 5.020205020904541, 'reward': 10.276561737060547, 'reward_std': 4.952231407165527, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.041332654654979706, 'sampling/sampling_logp_difference/max': 2.6485164165496826, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.887153148651123, 'sampling/importance_sampling_ratio/max': 2.2606334686279297, 'kl': 0.3421947192400694, 'entropy': 0.11048307176679373, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 27.663718374984455, 'epoch': 0.89}
+ 11%|█         | 111/1000 [1:00:15<7:11:30, 29.12s/it] 11%|█         | 112/1000 [1:00:46<7:16:49, 29.51s/it]                                                      {'loss': 0.0001, 'grad_norm': 0.010719913989305496, 'learning_rate': 2.4363451899764117e-05, 'num_tokens': 18046942.0, 'completions/mean_length': 1935.375, 'completions/min_length': 852.0, 'completions/max_length': 3429.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1935.375, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3429.0, 'rewards/rollout_reward_func/mean': 9.924999237060547, 'rewards/rollout_reward_func/std': 5.498629093170166, 'reward': 9.925000190734863, 'reward_std': 5.268211841583252, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04138105362653732, 'sampling/sampling_logp_difference/max': 3.6519453525543213, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8968161344528198, 'sampling/importance_sampling_ratio/max': 2.8245203495025635, 'kl': 0.3936684262007475, 'entropy': 0.12345150951296091, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.13929102700058, 'epoch': 0.9}
+ 11%|█         | 112/1000 [1:00:46<7:16:49, 29.51s/it] 11%|█▏        | 113/1000 [1:01:11<6:57:30, 28.24s/it]                                                      {'loss': 0.0002, 'grad_norm': 0.015386933460831642, 'learning_rate': 2.4350895362937494e-05, 'num_tokens': 18200824.0, 'completions/mean_length': 1857.03125, 'completions/min_length': 852.0, 'completions/max_length': 2871.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1857.03125, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 2871.0, 'rewards/rollout_reward_func/mean': 10.801562309265137, 'rewards/rollout_reward_func/std': 5.3373942375183105, 'reward': 10.801562309265137, 'reward_std': 5.371185302734375, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.042736973613500595, 'sampling/sampling_logp_difference/max': 3.5824310779571533, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8221946954727173, 'sampling/importance_sampling_ratio/max': 2.359530448913574, 'kl': 0.6448550717905164, 'entropy': 0.09924741694703698, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 24.225608521977847, 'epoch': 0.9}
+ 11%|█▏        | 113/1000 [1:01:11<6:57:30, 28.24s/it] 11%|█▏        | 114/1000 [1:01:41<7:04:36, 28.75s/it]                                                      {'loss': -0.0016, 'grad_norm': 0.01660413108766079, 'learning_rate': 2.4338219487726137e-05, 'num_tokens': 18349311.0, 'completions/mean_length': 1776.359375, 'completions/min_length': 782.0, 'completions/max_length': 3451.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1776.359375, 'completions/min_terminated_length': 782.0, 'completions/max_terminated_length': 3451.0, 'rewards/rollout_reward_func/mean': 9.368749618530273, 'rewards/rollout_reward_func/std': 5.082146644592285, 'reward': 9.368749618530273, 'reward_std': 4.928741931915283, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.045123010873794556, 'sampling/sampling_logp_difference/max': 3.0106077194213867, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7500799894332886, 'sampling/importance_sampling_ratio/max': 2.0619571208953857, 'kl': 0.47468198649585247, 'entropy': 0.11100085091311485, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.661737536996952, 'epoch': 0.91}
+ 11%|█▏        | 114/1000 [1:01:41<7:04:36, 28.75s/it] 12%|█▏        | 115/1000 [1:02:12<7:14:57, 29.49s/it]                                                      {'loss': -0.0008, 'grad_norm': 0.009680669754743576, 'learning_rate': 2.4325424401775965e-05, 'num_tokens': 18520503.0, 'completions/mean_length': 2121.125, 'completions/min_length': 853.0, 'completions/max_length': 3438.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2121.125, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3438.0, 'rewards/rollout_reward_func/mean': 11.746874809265137, 'rewards/rollout_reward_func/std': 4.939281463623047, 'reward': 11.746874809265137, 'reward_std': 5.072336196899414, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04760543256998062, 'sampling/sampling_logp_difference/max': 2.6455912590026855, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.6843245029449463, 'sampling/importance_sampling_ratio/max': 1.8368898630142212, 'kl': 0.49445905163884163, 'entropy': 0.11218192195519805, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.912188618982327, 'epoch': 0.92}
+ 12%|█▏        | 115/1000 [1:02:12<7:14:57, 29.49s/it] 12%|█▏        | 116/1000 [1:02:41<7:13:18, 29.41s/it]                                                      {'loss': 0.0008, 'grad_norm': 0.009876571595668793, 'learning_rate': 2.4312510233933355e-05, 'num_tokens': 18677270.0, 'completions/mean_length': 1901.734375, 'completions/min_length': 786.0, 'completions/max_length': 3369.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1901.734375, 'completions/min_terminated_length': 786.0, 'completions/max_terminated_length': 3369.0, 'rewards/rollout_reward_func/mean': 10.645312309265137, 'rewards/rollout_reward_func/std': 4.882945537567139, 'reward': 10.645312309265137, 'reward_std': 4.788930892944336, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.048889122903347015, 'sampling/sampling_logp_difference/max': 3.4443132877349854, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7125049829483032, 'sampling/importance_sampling_ratio/max': 1.9833704233169556, 'kl': 0.5087722046300769, 'entropy': 0.10889199376106262, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 27.98880457598716, 'epoch': 0.93}
+ 12%|█▏        | 116/1000 [1:02:42<7:13:18, 29.41s/it] 12%|█▏        | 117/1000 [1:03:11<7:12:44, 29.40s/it]                                                      {'loss': -0.0007, 'grad_norm': 0.1483018398284912, 'learning_rate': 2.4299477114243833e-05, 'num_tokens': 18828459.0, 'completions/mean_length': 1814.953125, 'completions/min_length': 784.0, 'completions/max_length': 3366.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1814.953125, 'completions/min_terminated_length': 784.0, 'completions/max_terminated_length': 3366.0, 'rewards/rollout_reward_func/mean': 10.689062118530273, 'rewards/rollout_reward_func/std': 5.299689292907715, 'reward': 10.689062118530273, 'reward_std': 5.426095008850098, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04878862947225571, 'sampling/sampling_logp_difference/max': 9.562108039855957, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.762407660484314, 'sampling/importance_sampling_ratio/max': 2.0203330516815186, 'kl': 11.652974540367723, 'entropy': 0.09906422859057784, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.12891947798198, 'epoch': 0.94}
+ 12%|█▏        | 117/1000 [1:03:11<7:12:44, 29.40s/it] 12%|█▏        | 118/1000 [1:03:43<7:25:28, 30.30s/it]                                                      {'loss': 0.0007, 'grad_norm': 0.009512710385024548, 'learning_rate': 2.4286325173950772e-05, 'num_tokens': 18982272.0, 'completions/mean_length': 1855.578125, 'completions/min_length': 780.0, 'completions/max_length': 3673.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1855.578125, 'completions/min_terminated_length': 780.0, 'completions/max_terminated_length': 3673.0, 'rewards/rollout_reward_func/mean': 12.404687881469727, 'rewards/rollout_reward_func/std': 4.854434490203857, 'reward': 12.404687881469727, 'reward_std': 4.797091484069824, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.0474262572824955, 'sampling/sampling_logp_difference/max': 4.577569961547852, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7542418241500854, 'sampling/importance_sampling_ratio/max': 2.1441144943237305, 'kl': 0.753290917724371, 'entropy': 0.09682424971833825, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.992689540005813, 'epoch': 0.94}
+ 12%|█▏        | 118/1000 [1:03:43<7:25:28, 30.30s/it] 12%|█▏        | 119/1000 [1:04:14<7:27:44, 30.49s/it]                                                      {'loss': 0.0003, 'grad_norm': 0.013738689012825489, 'learning_rate': 2.427305454549406e-05, 'num_tokens': 19159209.0, 'completions/mean_length': 2207.265625, 'completions/min_length': 852.0, 'completions/max_length': 3488.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2207.265625, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3488.0, 'rewards/rollout_reward_func/mean': 11.181249618530273, 'rewards/rollout_reward_func/std': 5.687074661254883, 'reward': 11.181249618530273, 'reward_std': 5.207406044006348, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04316854476928711, 'sampling/sampling_logp_difference/max': 2.653841018676758, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8574957847595215, 'sampling/importance_sampling_ratio/max': 2.6101412773132324, 'kl': 2.124862054362893, 'entropy': 0.10177735751494765, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.632355667032243, 'epoch': 0.95}
+ 12%|█▏        | 119/1000 [1:04:14<7:27:44, 30.49s/it] 12%|█▏        | 120/1000 [1:04:39<7:00:08, 28.65s/it]                                                      {'loss': -0.001, 'grad_norm': 0.011066882871091366, 'learning_rate': 2.425966536250878e-05, 'num_tokens': 19297206.0, 'completions/mean_length': 1616.453125, 'completions/min_length': 862.0, 'completions/max_length': 2695.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1616.453125, 'completions/min_terminated_length': 862.0, 'completions/max_terminated_length': 2695.0, 'rewards/rollout_reward_func/mean': 11.998437881469727, 'rewards/rollout_reward_func/std': 5.12304162979126, 'reward': 11.998437881469727, 'reward_std': 4.5627288818359375, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04279705882072449, 'sampling/sampling_logp_difference/max': 3.371905565261841, 'sampling/importance_sampling_ratio/min': 0.02715020626783371, 'sampling/importance_sampling_ratio/mean': 0.8491373062133789, 'sampling/importance_sampling_ratio/max': 2.678116798400879, 'kl': 0.8236229959875345, 'entropy': 0.07774404739029706, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 23.30645896299393, 'epoch': 0.96}
+ 12%|█▏        | 120/1000 [1:04:39<7:00:08, 28.65s/it] 12%|█▏        | 121/1000 [1:05:03<6:41:43, 27.42s/it]                                                      {'loss': 0.0009, 'grad_norm': 0.015951624140143394, 'learning_rate': 2.4246157759823855e-05, 'num_tokens': 19439047.0, 'completions/mean_length': 1674.515625, 'completions/min_length': 780.0, 'completions/max_length': 2614.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1674.515625, 'completions/min_terminated_length': 780.0, 'completions/max_terminated_length': 2614.0, 'rewards/rollout_reward_func/mean': 12.576562881469727, 'rewards/rollout_reward_func/std': 4.719622611999512, 'reward': 12.576562881469727, 'reward_std': 4.901523590087891, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03842897713184357, 'sampling/sampling_logp_difference/max': 3.1250085830688477, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9666023254394531, 'sampling/importance_sampling_ratio/max': 2.984835624694824, 'kl': 0.6453233417123556, 'entropy': 0.0808439333923161, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 22.659147582002333, 'epoch': 0.97}
+ 12%|█▏        | 121/1000 [1:05:03<6:41:43, 27.42s/it] 12%|█▏        | 122/1000 [1:05:36<7:04:53, 29.04s/it]                                                      {'loss': -0.0011, 'grad_norm': 0.010009478777647018, 'learning_rate': 2.4232531873460697e-05, 'num_tokens': 19626578.0, 'completions/mean_length': 2368.796875, 'completions/min_length': 937.0, 'completions/max_length': 3585.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2368.796875, 'completions/min_terminated_length': 937.0, 'completions/max_terminated_length': 3585.0, 'rewards/rollout_reward_func/mean': 12.017187118530273, 'rewards/rollout_reward_func/std': 5.377482891082764, 'reward': 12.017187118530273, 'reward_std': 5.381468772888184, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04990833252668381, 'sampling/sampling_logp_difference/max': 6.3048095703125, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.6985472440719604, 'sampling/importance_sampling_ratio/max': 2.900388240814209, 'kl': 1.0722216162830591, 'entropy': 0.09605542058125138, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.454934649998904, 'epoch': 0.98}
+ 12%|█▏        | 122/1000 [1:05:36<7:04:53, 29.04s/it] 12%|█▏        | 123/1000 [1:06:06<7:10:22, 29.44s/it]                                                      {'loss': -0.0008, 'grad_norm': 0.009854516945779324, 'learning_rate': 2.4218787840631828e-05, 'num_tokens': 19803895.0, 'completions/mean_length': 2213.578125, 'completions/min_length': 1202.0, 'completions/max_length': 3386.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2213.578125, 'completions/min_terminated_length': 1202.0, 'completions/max_terminated_length': 3386.0, 'rewards/rollout_reward_func/mean': 11.453125, 'rewards/rollout_reward_func/std': 5.252270221710205, 'reward': 11.453125, 'reward_std': 5.135573387145996, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.05546576529741287, 'sampling/sampling_logp_difference/max': 6.15830135345459, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.6535964608192444, 'sampling/importance_sampling_ratio/max': 2.575960636138916, 'kl': 0.6052921898663044, 'entropy': 0.09925523400306702, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.13281949598604, 'epoch': 0.98}
+ 12%|█▏        | 123/1000 [1:06:06<7:10:22, 29.44s/it] 12%|█▏        | 124/1000 [1:06:26<6:28:02, 26.58s/it]                                                      {'loss': -0.0016, 'grad_norm': 0.015100974589586258, 'learning_rate': 2.4204925799739507e-05, 'num_tokens': 19950528.0, 'completions/mean_length': 1746.140625, 'completions/min_length': 1200.0, 'completions/max_length': 2154.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1746.140625, 'completions/min_terminated_length': 1200.0, 'completions/max_terminated_length': 2154.0, 'rewards/rollout_reward_func/mean': 11.228124618530273, 'rewards/rollout_reward_func/std': 5.184882640838623, 'reward': 11.228124618530273, 'reward_std': 5.276941299438477, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.041405435651540756, 'sampling/sampling_logp_difference/max': 1.98557710647583, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8557984828948975, 'sampling/importance_sampling_ratio/max': 2.912569046020508, 'kl': 0.5052037537097931, 'entropy': 0.08232380170375109, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 19.059845775998838, 'epoch': 0.99}
+ 12%|█▏        | 124/1000 [1:06:26<6:28:02, 26.58s/it] 12%|█▎        | 125/1000 [1:06:57<6:46:24, 27.87s/it]                                                      {'loss': -0.0004, 'grad_norm': 0.008599947206676006, 'learning_rate': 2.4190945890374335e-05, 'num_tokens': 20124832.0, 'completions/mean_length': 2168.125, 'completions/min_length': 853.0, 'completions/max_length': 3481.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2168.125, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3481.0, 'rewards/rollout_reward_func/mean': 11.817187309265137, 'rewards/rollout_reward_func/std': 5.442617416381836, 'reward': 11.817187309265137, 'reward_std': 5.287064075469971, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04529748111963272, 'sampling/sampling_logp_difference/max': 2.49404239654541, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.6762340068817139, 'sampling/importance_sampling_ratio/max': 2.411015033721924, 'kl': 1.6584767289459705, 'entropy': 0.09081080742180347, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.57711093199032, 'epoch': 1.0}
+ 12%|█▎        | 125/1000 [1:06:57<6:46:24, 27.87s/it] 13%|█▎        | 126/1000 [1:07:28<7:00:32, 28.87s/it]                                                      {'loss': 0.0003, 'grad_norm': 0.01582697592675686, 'learning_rate': 2.4176848253313836e-05, 'num_tokens': 20292193.0, 'completions/mean_length': 2063.265625, 'completions/min_length': 852.0, 'completions/max_length': 3431.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2063.265625, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3431.0, 'rewards/rollout_reward_func/mean': 10.026562690734863, 'rewards/rollout_reward_func/std': 5.4166483879089355, 'reward': 10.026562690734863, 'reward_std': 5.039056777954102, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04326137155294418, 'sampling/sampling_logp_difference/max': 4.35617208480835, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7301160097122192, 'sampling/importance_sampling_ratio/max': 2.3782520294189453, 'kl': 0.6739550996571779, 'entropy': 0.08574568619951606, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.938543858996127, 'epoch': 1.01}
+ 13%|█▎        | 126/1000 [1:07:28<7:00:32, 28.87s/it] 13%|█▎        | 127/1000 [1:08:01<7:15:16, 29.92s/it]                                                      {'loss': -0.0003, 'grad_norm': 0.012361732311546803, 'learning_rate': 2.4162633030521065e-05, 'num_tokens': 20448105.0, 'completions/mean_length': 1888.75, 'completions/min_length': 782.0, 'completions/max_length': 3644.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1888.75, 'completions/min_terminated_length': 782.0, 'completions/max_terminated_length': 3644.0, 'rewards/rollout_reward_func/mean': 9.671875, 'rewards/rollout_reward_func/std': 4.850150108337402, 'reward': 9.671875, 'reward_std': 4.832648277282715, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04000229388475418, 'sampling/sampling_logp_difference/max': 4.771816253662109, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8355224132537842, 'sampling/importance_sampling_ratio/max': 2.819650411605835, 'kl': 0.6863303110003471, 'entropy': 0.08969910768792033, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.15494131000014, 'epoch': 1.02}
+ 13%|█▎        | 127/1000 [1:08:01<7:15:16, 29.92s/it] 13%|█▎        | 128/1000 [1:08:36<7:37:43, 31.50s/it]                                                      {'loss': -0.0008, 'grad_norm': 0.010927833616733551, 'learning_rate': 2.4148300365143155e-05, 'num_tokens': 20640737.0, 'completions/mean_length': 2448.5, 'completions/min_length': 935.0, 'completions/max_length': 3834.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2448.5, 'completions/min_terminated_length': 935.0, 'completions/max_terminated_length': 3834.0, 'rewards/rollout_reward_func/mean': 11.315625190734863, 'rewards/rollout_reward_func/std': 5.2113800048828125, 'reward': 11.315625190734863, 'reward_std': 4.975101470947266, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03877943754196167, 'sampling/sampling_logp_difference/max': 3.0198822021484375, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7713048458099365, 'sampling/importance_sampling_ratio/max': 2.8369944095611572, 'kl': 1.103026995435357, 'entropy': 0.09699303936213255, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 33.722407922003185, 'epoch': 1.02}
+ 13%|█▎        | 128/1000 [1:08:36<7:37:43, 31.50s/it] 13%|█▎        | 129/1000 [1:09:06<7:30:24, 31.03s/it]                                                      {'loss': -0.001, 'grad_norm': 0.013387015089392662, 'learning_rate': 2.413385040150989e-05, 'num_tokens': 20801886.0, 'completions/mean_length': 1968.203125, 'completions/min_length': 854.0, 'completions/max_length': 3409.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1968.203125, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 3409.0, 'rewards/rollout_reward_func/mean': 9.862499237060547, 'rewards/rollout_reward_func/std': 5.06655740737915, 'reward': 9.862499237060547, 'reward_std': 5.085013389587402, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.044621098786592484, 'sampling/sampling_logp_difference/max': 3.3578600883483887, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7398681640625, 'sampling/importance_sampling_ratio/max': 2.3659350872039795, 'kl': 0.6520401686429977, 'entropy': 0.09538927115499973, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.669471796994912, 'epoch': 1.03}
+ 13%|█▎        | 129/1000 [1:09:06<7:30:24, 31.03s/it] 13%|█▎        | 130/1000 [1:09:40<7:43:30, 31.97s/it]                                                      {'loss': 0.0002, 'grad_norm': 0.009275996126234531, 'learning_rate': 2.411928328513224e-05, 'num_tokens': 20976501.0, 'completions/mean_length': 2172.984375, 'completions/min_length': 853.0, 'completions/max_length': 3782.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2172.984375, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3782.0, 'rewards/rollout_reward_func/mean': 10.9609375, 'rewards/rollout_reward_func/std': 5.291281223297119, 'reward': 10.9609375, 'reward_std': 5.2668867111206055, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.044958293437957764, 'sampling/sampling_logp_difference/max': 4.614599704742432, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.6301559805870056, 'sampling/importance_sampling_ratio/max': 1.621883749961853, 'kl': 0.651534091681242, 'entropy': 0.09401878342032433, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.850148562007234, 'epoch': 1.04}
+ 13%|█▎        | 130/1000 [1:09:40<7:43:30, 31.97s/it] 13%|█▎        | 131/1000 [1:10:11<7:37:14, 31.57s/it]                                                      {'loss': -0.0026, 'grad_norm': 0.013290420174598694, 'learning_rate': 2.4104599162700908e-05, 'num_tokens': 21134837.0, 'completions/mean_length': 1925.875, 'completions/min_length': 849.0, 'completions/max_length': 3500.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1925.875, 'completions/min_terminated_length': 849.0, 'completions/max_terminated_length': 3500.0, 'rewards/rollout_reward_func/mean': 10.56718635559082, 'rewards/rollout_reward_func/std': 5.4160566329956055, 'reward': 10.567187309265137, 'reward_std': 5.460992813110352, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04503955692052841, 'sampling/sampling_logp_difference/max': 4.564760208129883, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8430641889572144, 'sampling/importance_sampling_ratio/max': 2.409083127975464, 'kl': 1.2443830873817205, 'entropy': 0.0881502814590931, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.34355555998627, 'epoch': 1.05}
+ 13%|█▎        | 131/1000 [1:10:11<7:37:14, 31.57s/it] 13%|█▎        | 132/1000 [1:10:41<7:30:17, 31.13s/it]                                                      {'loss': 0.0007, 'grad_norm': 0.016816118732094765, 'learning_rate': 2.4089798182084845e-05, 'num_tokens': 21298420.0, 'completions/mean_length': 2004.984375, 'completions/min_length': 1181.0, 'completions/max_length': 3453.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2004.984375, 'completions/min_terminated_length': 1181.0, 'completions/max_terminated_length': 3453.0, 'rewards/rollout_reward_func/mean': 11.564062118530273, 'rewards/rollout_reward_func/std': 5.0106987953186035, 'reward': 11.564062118530273, 'reward_std': 4.821362495422363, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04646658897399902, 'sampling/sampling_logp_difference/max': 3.2485008239746094, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8779526948928833, 'sampling/importance_sampling_ratio/max': 2.815009593963623, 'kl': 0.7676483355462551, 'entropy': 0.09126465674489737, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.958572269999422, 'epoch': 1.06}
+ 13%|█▎        | 132/1000 [1:10:41<7:30:17, 31.13s/it] 13%|█▎        | 133/1000 [1:11:11<7:25:53, 30.86s/it]                                                      {'loss': 0.0, 'grad_norm': 0.010513808578252792, 'learning_rate': 2.4074880492329753e-05, 'num_tokens': 21459032.0, 'completions/mean_length': 1959.4375, 'completions/min_length': 850.0, 'completions/max_length': 3454.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1959.4375, 'completions/min_terminated_length': 850.0, 'completions/max_terminated_length': 3454.0, 'rewards/rollout_reward_func/mean': 11.3203125, 'rewards/rollout_reward_func/std': 5.34246826171875, 'reward': 11.3203125, 'reward_std': 4.584898948669434, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04818913713097572, 'sampling/sampling_logp_difference/max': 2.423872947692871, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7377115488052368, 'sampling/importance_sampling_ratio/max': 2.2632031440734863, 'kl': 0.8289109189063311, 'entropy': 0.09123167837969959, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.976742984006705, 'epoch': 1.06}
+ 13%|█▎        | 133/1000 [1:11:11<7:25:53, 30.86s/it] 13%|█▎        | 134/1000 [1:11:44<7:33:29, 31.42s/it]                                                      {'loss': -0.0012, 'grad_norm': 0.012475142255425453, 'learning_rate': 2.4059846243656615e-05, 'num_tokens': 21602614.0, 'completions/mean_length': 1701.34375, 'completions/min_length': 853.0, 'completions/max_length': 3654.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1701.34375, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3654.0, 'rewards/rollout_reward_func/mean': 10.728124618530273, 'rewards/rollout_reward_func/std': 5.308228969573975, 'reward': 10.728124618530273, 'reward_std': 4.887085437774658, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04150567203760147, 'sampling/sampling_logp_difference/max': 2.834099769592285, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8943086266517639, 'sampling/importance_sampling_ratio/max': 2.811323404312134, 'kl': 0.6169999483972788, 'entropy': 0.07812535087577999, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.324287344003096, 'epoch': 1.07}
+ 13%|█▎        | 134/1000 [1:11:44<7:33:29, 31.42s/it] 14%|█▎        | 135/1000 [1:12:15<7:30:49, 31.27s/it]                                                      {'loss': 0.0001, 'grad_norm': 0.013304685242474079, 'learning_rate': 2.4044695587460138e-05, 'num_tokens': 21771480.0, 'completions/mean_length': 2086.40625, 'completions/min_length': 850.0, 'completions/max_length': 3412.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2086.40625, 'completions/min_terminated_length': 850.0, 'completions/max_terminated_length': 3412.0, 'rewards/rollout_reward_func/mean': 10.956250190734863, 'rewards/rollout_reward_func/std': 4.820619583129883, 'reward': 10.956250190734863, 'reward_std': 4.532581806182861, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03903762251138687, 'sampling/sampling_logp_difference/max': 2.683781862258911, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8725050091743469, 'sampling/importance_sampling_ratio/max': 2.8056461811065674, 'kl': 0.5835585631430149, 'entropy': 0.08657089504413307, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.634225119014445, 'epoch': 1.08}
+ 14%|█▎        | 135/1000 [1:12:15<7:30:49, 31.27s/it] 14%|█▎        | 136/1000 [1:12:49<7:42:46, 32.14s/it]                                                      {'loss': -0.0027, 'grad_norm': 0.010268724523484707, 'learning_rate': 2.402942867630727e-05, 'num_tokens': 21938609.0, 'completions/mean_length': 2058.390625, 'completions/min_length': 1280.0, 'completions/max_length': 3889.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2058.390625, 'completions/min_terminated_length': 1280.0, 'completions/max_terminated_length': 3889.0, 'rewards/rollout_reward_func/mean': 11.451562881469727, 'rewards/rollout_reward_func/std': 5.183183670043945, 'reward': 11.451562881469727, 'reward_std': 5.213740348815918, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.041740939021110535, 'sampling/sampling_logp_difference/max': 3.7465507984161377, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7369894981384277, 'sampling/importance_sampling_ratio/max': 2.75529408454895, 'kl': 0.9749404117465019, 'entropy': 0.08586076460778713, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.68753962699702, 'epoch': 1.09}
+ 14%|█▎        | 136/1000 [1:12:49<7:42:46, 32.14s/it] 14%|█▎        | 137/1000 [1:13:17<7:25:25, 30.97s/it]                                                      {'loss': -0.0014, 'grad_norm': 0.013654663227498531, 'learning_rate': 2.4014045663935626e-05, 'num_tokens': 22089937.0, 'completions/mean_length': 1819.125, 'completions/min_length': 851.0, 'completions/max_length': 3211.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1819.125, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 3211.0, 'rewards/rollout_reward_func/mean': 10.785937309265137, 'rewards/rollout_reward_func/std': 5.283483505249023, 'reward': 10.785937309265137, 'reward_std': 5.287055015563965, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04136403277516365, 'sampling/sampling_logp_difference/max': 5.014606475830078, 'sampling/importance_sampling_ratio/min': 0.00926927849650383, 'sampling/importance_sampling_ratio/mean': 0.7899242043495178, 'sampling/importance_sampling_ratio/max': 2.492173910140991, 'kl': 0.5721624158322811, 'entropy': 0.08420056558679789, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 27.144288456998765, 'epoch': 1.1}
+ 14%|█▎        | 137/1000 [1:13:17<7:25:25, 30.97s/it] 14%|█▍        | 138/1000 [1:13:47<7:22:24, 30.79s/it]                                                      {'loss': 0.0007, 'grad_norm': 0.011880793608725071, 'learning_rate': 2.399854670525198e-05, 'num_tokens': 22264779.0, 'completions/mean_length': 2176.53125, 'completions/min_length': 850.0, 'completions/max_length': 3437.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2176.53125, 'completions/min_terminated_length': 850.0, 'completions/max_terminated_length': 3437.0, 'rewards/rollout_reward_func/mean': 11.11093807220459, 'rewards/rollout_reward_func/std': 5.541105270385742, 'reward': 11.110937118530273, 'reward_std': 5.20041561126709, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.045997254550457, 'sampling/sampling_logp_difference/max': 4.782135009765625, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7733791470527649, 'sampling/importance_sampling_ratio/max': 2.81722354888916, 'kl': 0.9839623831212521, 'entropy': 0.09290455328300595, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.243848682985117, 'epoch': 1.1}
+ 14%|█▍        | 138/1000 [1:13:47<7:22:24, 30.79s/it] 14%|█▍        | 139/1000 [1:14:18<7:22:53, 30.86s/it]                                                      {'loss': -0.0009, 'grad_norm': 0.008559351786971092, 'learning_rate': 2.398293195633067e-05, 'num_tokens': 22448790.0, 'completions/mean_length': 2314.171875, 'completions/min_length': 1212.0, 'completions/max_length': 3356.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2314.171875, 'completions/min_terminated_length': 1212.0, 'completions/max_terminated_length': 3356.0, 'rewards/rollout_reward_func/mean': 12.121874809265137, 'rewards/rollout_reward_func/std': 5.182463645935059, 'reward': 12.121874809265137, 'reward_std': 5.033075332641602, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.038255661725997925, 'sampling/sampling_logp_difference/max': 3.2782034873962402, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7938148975372314, 'sampling/importance_sampling_ratio/max': 2.9908742904663086, 'kl': 1.6416857670992613, 'entropy': 0.0895697025116533, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.761984082004346, 'epoch': 1.11}
+ 14%|█▍        | 139/1000 [1:14:18<7:22:53, 30.86s/it] 14%|█▍        | 140/1000 [1:14:48<7:17:21, 30.51s/it]                                                      {'loss': 0.0006, 'grad_norm': 0.011324540711939335, 'learning_rate': 2.396720157441204e-05, 'num_tokens': 22604841.0, 'completions/mean_length': 1890.921875, 'completions/min_length': 854.0, 'completions/max_length': 3407.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1890.921875, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 3407.0, 'rewards/rollout_reward_func/mean': 11.3359375, 'rewards/rollout_reward_func/std': 5.236331462860107, 'reward': 11.3359375, 'reward_std': 5.136408805847168, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.044613711535930634, 'sampling/sampling_logp_difference/max': 4.359299659729004, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7952219247817993, 'sampling/importance_sampling_ratio/max': 2.7306621074676514, 'kl': 0.800223495811224, 'entropy': 0.0874555641785264, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.55626863400539, 'epoch': 1.12}
+ 14%|█▍        | 140/1000 [1:14:48<7:17:21, 30.51s/it] 14%|█▍        | 141/1000 [1:15:19<7:20:44, 30.79s/it]                                                      {'loss': -0.0001, 'grad_norm': 0.04774245247244835, 'learning_rate': 2.395135571790087e-05, 'num_tokens': 22759605.0, 'completions/mean_length': 1871.6875, 'completions/min_length': 851.0, 'completions/max_length': 3595.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1871.6875, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 3595.0, 'rewards/rollout_reward_func/mean': 11.787500381469727, 'rewards/rollout_reward_func/std': 5.26912260055542, 'reward': 11.787500381469727, 'reward_std': 5.191108703613281, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04189571365714073, 'sampling/sampling_logp_difference/max': 4.8073906898498535, 'sampling/importance_sampling_ratio/min': 0.0014510316541418433, 'sampling/importance_sampling_ratio/mean': 0.743127703666687, 'sampling/importance_sampling_ratio/max': 2.9073009490966797, 'kl': 3.558004340156913, 'entropy': 0.07689099223352969, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.29748661798658, 'epoch': 1.13}
+ 14%|█▍        | 141/1000 [1:15:19<7:20:44, 30.79s/it] 14%|█▍        | 142/1000 [1:15:49<7:16:28, 30.52s/it]                                                      {'loss': -0.0015, 'grad_norm': 0.008117087185382843, 'learning_rate': 2.3935394546364753e-05, 'num_tokens': 22899984.0, 'completions/mean_length': 1653.296875, 'completions/min_length': 851.0, 'completions/max_length': 3425.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1653.296875, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 3425.0, 'rewards/rollout_reward_func/mean': 10.285938262939453, 'rewards/rollout_reward_func/std': 5.137872695922852, 'reward': 10.285938262939453, 'reward_std': 5.0093560218811035, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.031043991446495056, 'sampling/sampling_logp_difference/max': 1.781239628791809, 'sampling/importance_sampling_ratio/min': 0.18565009534358978, 'sampling/importance_sampling_ratio/mean': 0.834049642086029, 'sampling/importance_sampling_ratio/max': 1.8679182529449463, 'kl': 0.6749428808689117, 'entropy': 0.07165108737535775, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.617801463973592, 'epoch': 1.14}
+ 14%|█▍        | 142/1000 [1:15:49<7:16:28, 30.52s/it] 14%|█▍        | 143/1000 [1:16:13<6:45:11, 28.37s/it]                                                      {'loss': -0.0014, 'grad_norm': 0.008695567026734352, 'learning_rate': 2.391931822053251e-05, 'num_tokens': 23029887.0, 'completions/mean_length': 1493.609375, 'completions/min_length': 782.0, 'completions/max_length': 2585.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1493.609375, 'completions/min_terminated_length': 782.0, 'completions/max_terminated_length': 2585.0, 'rewards/rollout_reward_func/mean': 10.831249237060547, 'rewards/rollout_reward_func/std': 5.193735122680664, 'reward': 10.831250190734863, 'reward_std': 5.162827491760254, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04110174998641014, 'sampling/sampling_logp_difference/max': 2.873044490814209, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7663370370864868, 'sampling/importance_sampling_ratio/max': 2.3893697261810303, 'kl': 0.6432168316096067, 'entropy': 0.07038388936780393, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 22.345183261000784, 'epoch': 1.14}
+ 14%|█▍        | 143/1000 [1:16:13<6:45:11, 28.37s/it] 14%|█▍        | 144/1000 [1:16:43<6:53:26, 28.98s/it]                                                      {'loss': 0.0012, 'grad_norm': 0.010965848341584206, 'learning_rate': 2.3903126902292566e-05, 'num_tokens': 23195354.0, 'completions/mean_length': 2034.046875, 'completions/min_length': 853.0, 'completions/max_length': 3412.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2034.046875, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3412.0, 'rewards/rollout_reward_func/mean': 11.162500381469727, 'rewards/rollout_reward_func/std': 5.461219787597656, 'reward': 11.16249942779541, 'reward_std': 5.15484619140625, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.041147079318761826, 'sampling/sampling_logp_difference/max': 3.6417808532714844, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8046971559524536, 'sampling/importance_sampling_ratio/max': 2.060667037963867, 'kl': 0.8549957629293203, 'entropy': 0.07720404863357544, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.119715270979214, 'epoch': 1.15}
+ 14%|█▍        | 144/1000 [1:16:43<6:53:26, 28.98s/it] 14%|█▍        | 145/1000 [1:17:08<6:34:19, 27.67s/it]                                                      {'loss': 0.0038, 'grad_norm': 0.012307891622185707, 'learning_rate': 2.3886820754691314e-05, 'num_tokens': 23348487.0, 'completions/mean_length': 1845.703125, 'completions/min_length': 1184.0, 'completions/max_length': 2727.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1845.703125, 'completions/min_terminated_length': 1184.0, 'completions/max_terminated_length': 2727.0, 'rewards/rollout_reward_func/mean': 11.262500762939453, 'rewards/rollout_reward_func/std': 5.090498924255371, 'reward': 11.262500762939453, 'reward_std': 5.261425971984863, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03801581636071205, 'sampling/sampling_logp_difference/max': 2.9735565185546875, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9045548439025879, 'sampling/importance_sampling_ratio/max': 2.9984681606292725, 'kl': 0.7656818255782127, 'entropy': 0.06733816396445036, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 23.587208835007914, 'epoch': 1.16}
+ 14%|█▍        | 145/1000 [1:17:08<6:34:19, 27.67s/it] 15%|█▍        | 146/1000 [1:17:37<6:41:47, 28.23s/it]                                                      {'loss': 0.0004, 'grad_norm': 0.0071010407991707325, 'learning_rate': 2.387039994193148e-05, 'num_tokens': 23514117.0, 'completions/mean_length': 2036.21875, 'completions/min_length': 779.0, 'completions/max_length': 3325.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2036.21875, 'completions/min_terminated_length': 779.0, 'completions/max_terminated_length': 3325.0, 'rewards/rollout_reward_func/mean': 12.240625381469727, 'rewards/rollout_reward_func/std': 5.266115665435791, 'reward': 12.240625381469727, 'reward_std': 5.028195381164551, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.039082545787096024, 'sampling/sampling_logp_difference/max': 4.49644136428833, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7657249569892883, 'sampling/importance_sampling_ratio/max': 2.823288679122925, 'kl': 0.7929544486105442, 'entropy': 0.0742106472607702, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.395302898999944, 'epoch': 1.17}
+ 15%|█▍        | 146/1000 [1:17:37<6:41:47, 28.23s/it] 15%|█▍        | 147/1000 [1:18:07<6:47:41, 28.68s/it]                                                      {'loss': 0.0004, 'grad_norm': 0.01168493926525116, 'learning_rate': 2.3853864629370464e-05, 'num_tokens': 23655499.0, 'completions/mean_length': 1668.59375, 'completions/min_length': 782.0, 'completions/max_length': 3388.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1668.59375, 'completions/min_terminated_length': 782.0, 'completions/max_terminated_length': 3388.0, 'rewards/rollout_reward_func/mean': 11.354687690734863, 'rewards/rollout_reward_func/std': 5.35634708404541, 'reward': 11.354687690734863, 'reward_std': 4.84316349029541, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04931341111660004, 'sampling/sampling_logp_difference/max': 3.729921340942383, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7819477319717407, 'sampling/importance_sampling_ratio/max': 2.91495680809021, 'kl': 0.9401582088321447, 'entropy': 0.07642942992970347, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.43827311500354, 'epoch': 1.18}
+ 15%|█▍        | 147/1000 [1:18:07<6:47:41, 28.68s/it] 15%|█▍        | 148/1000 [1:18:40<7:06:43, 30.05s/it]                                                      {'loss': 0.0014, 'grad_norm': 0.012073454447090626, 'learning_rate': 2.3837214983518684e-05, 'num_tokens': 23813642.0, 'completions/mean_length': 1923.234375, 'completions/min_length': 850.0, 'completions/max_length': 3736.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1923.234375, 'completions/min_terminated_length': 850.0, 'completions/max_terminated_length': 3736.0, 'rewards/rollout_reward_func/mean': 11.854687690734863, 'rewards/rollout_reward_func/std': 4.948237895965576, 'reward': 11.854687690734863, 'reward_std': 4.927365303039551, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04662112146615982, 'sampling/sampling_logp_difference/max': 3.7930243015289307, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7943708300590515, 'sampling/importance_sampling_ratio/max': 2.7048864364624023, 'kl': 0.8553999606519938, 'entropy': 0.07317176158539951, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.829542733008566, 'epoch': 1.18}
+ 15%|█▍        | 148/1000 [1:18:40<7:06:43, 30.05s/it] 15%|█▍        | 149/1000 [1:19:11<7:07:34, 30.15s/it]                                                      {'loss': -0.0014, 'grad_norm': 0.008150623179972172, 'learning_rate': 2.3820451172037886e-05, 'num_tokens': 23961386.0, 'completions/mean_length': 1764.75, 'completions/min_length': 851.0, 'completions/max_length': 3495.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1764.75, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 3495.0, 'rewards/rollout_reward_func/mean': 10.440625190734863, 'rewards/rollout_reward_func/std': 5.587733745574951, 'reward': 10.440625190734863, 'reward_std': 5.113588333129883, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04242311418056488, 'sampling/sampling_logp_difference/max': 4.325445175170898, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7971022725105286, 'sampling/importance_sampling_ratio/max': 2.6968116760253906, 'kl': 1.3833765294402838, 'entropy': 0.06360861309804022, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.07107953701052, 'epoch': 1.19}
+ 15%|█▍        | 149/1000 [1:19:11<7:07:34, 30.15s/it] 15%|█▌        | 150/1000 [1:19:43<7:14:27, 30.67s/it]                                                      {'loss': -0.001, 'grad_norm': 0.00842081569135189, 'learning_rate': 2.3803573363739468e-05, 'num_tokens': 24130233.0, 'completions/mean_length': 2086.109375, 'completions/min_length': 852.0, 'completions/max_length': 3638.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2086.109375, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3638.0, 'rewards/rollout_reward_func/mean': 10.8203125, 'rewards/rollout_reward_func/std': 5.20198917388916, 'reward': 10.8203125, 'reward_std': 5.084848403930664, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.046599797904491425, 'sampling/sampling_logp_difference/max': 3.399240493774414, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.758964478969574, 'sampling/importance_sampling_ratio/max': 2.4995839595794678, 'kl': 0.978845102712512, 'entropy': 0.0818959369789809, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.540248939978483, 'epoch': 1.2}
+ 15%|█▌        | 150/1000 [1:19:43<7:14:27, 30.67s/it] 15%|█▌        | 151/1000 [1:20:17<7:28:53, 31.72s/it]                                                      {'loss': 0.0022, 'grad_norm': 0.013369292952120304, 'learning_rate': 2.3786581728582767e-05, 'num_tokens': 24292102.0, 'completions/mean_length': 1979.453125, 'completions/min_length': 783.0, 'completions/max_length': 3807.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1979.453125, 'completions/min_terminated_length': 783.0, 'completions/max_terminated_length': 3807.0, 'rewards/rollout_reward_func/mean': 12.232812881469727, 'rewards/rollout_reward_func/std': 4.84427547454834, 'reward': 12.23281192779541, 'reward_std': 5.078091621398926, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.040734052658081055, 'sampling/sampling_logp_difference/max': 2.8191325664520264, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8567696809768677, 'sampling/importance_sampling_ratio/max': 2.7410638332366943, 'kl': 0.74638507142663, 'entropy': 0.067008753772825, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.72933770299278, 'epoch': 1.21}
+ 15%|█▌        | 151/1000 [1:20:17<7:28:53, 31.72s/it] 15%|█▌        | 152/1000 [1:21:06<8:41:39, 36.91s/it]                                                      {'loss': -0.0, 'grad_norm': 0.006162830162793398, 'learning_rate': 2.3769476437673367e-05, 'num_tokens': 24440926.0, 'completions/mean_length': 1783.625, 'completions/min_length': 850.0, 'completions/max_length': 5329.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1783.625, 'completions/min_terminated_length': 850.0, 'completions/max_terminated_length': 5329.0, 'rewards/rollout_reward_func/mean': 10.76718807220459, 'rewards/rollout_reward_func/std': 5.443477630615234, 'reward': 10.767187118530273, 'reward_std': 5.437537670135498, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04040660336613655, 'sampling/sampling_logp_difference/max': 2.233086347579956, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7489134073257446, 'sampling/importance_sampling_ratio/max': 2.6857967376708984, 'kl': 0.7362803593277931, 'entropy': 0.06429963721893728, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 46.84904161300801, 'epoch': 1.22}
+ 15%|█▌        | 152/1000 [1:21:06<8:41:39, 36.91s/it] 15%|█▌        | 153/1000 [1:21:40<8:29:52, 36.12s/it]                                                      {'loss': 0.001, 'grad_norm': 0.009443700313568115, 'learning_rate': 2.375225766326135e-05, 'num_tokens': 24586664.0, 'completions/mean_length': 1735.03125, 'completions/min_length': 849.0, 'completions/max_length': 3802.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1735.03125, 'completions/min_terminated_length': 849.0, 'completions/max_terminated_length': 3802.0, 'rewards/rollout_reward_func/mean': 11.026562690734863, 'rewards/rollout_reward_func/std': 5.035280227661133, 'reward': 11.026562690734863, 'reward_std': 4.596041202545166, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.05289597436785698, 'sampling/sampling_logp_difference/max': 5.842026710510254, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8132933378219604, 'sampling/importance_sampling_ratio/max': 2.4719889163970947, 'kl': 1.1010368764400482, 'entropy': 0.0679365114774555, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.82086775798962, 'epoch': 1.22}
+ 15%|█▌        | 153/1000 [1:21:40<8:29:52, 36.12s/it] 15%|█▌        | 154/1000 [1:22:14<8:20:19, 35.48s/it]                                                      {'loss': 0.0001, 'grad_norm': 0.0105476975440979, 'learning_rate': 2.3734925578739588e-05, 'num_tokens': 24795835.0, 'completions/mean_length': 2697.296875, 'completions/min_length': 1669.0, 'completions/max_length': 3673.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2697.296875, 'completions/min_terminated_length': 1669.0, 'completions/max_terminated_length': 3673.0, 'rewards/rollout_reward_func/mean': 13.282812118530273, 'rewards/rollout_reward_func/std': 5.241730213165283, 'reward': 13.282812118530273, 'reward_std': 4.940821647644043, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04658132418990135, 'sampling/sampling_logp_difference/max': 4.784115314483643, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.739264190196991, 'sampling/importance_sampling_ratio/max': 2.9946956634521484, 'kl': 2.224232953041792, 'entropy': 0.08551283879205585, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.59100569801376, 'epoch': 1.23}
+ 15%|█▌        | 154/1000 [1:22:14<8:20:19, 35.48s/it] 16%|█▌        | 155/1000 [1:22:48<8:14:00, 35.08s/it]                                                      {'loss': 0.0009, 'grad_norm': 0.011324886232614517, 'learning_rate': 2.371748035864198e-05, 'num_tokens': 24976950.0, 'completions/mean_length': 2272.546875, 'completions/min_length': 854.0, 'completions/max_length': 3650.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2272.546875, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 3650.0, 'rewards/rollout_reward_func/mean': 10.590624809265137, 'rewards/rollout_reward_func/std': 5.258424282073975, 'reward': 10.590624809265137, 'reward_std': 5.316476345062256, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04954914003610611, 'sampling/sampling_logp_difference/max': 4.618420600891113, 'sampling/importance_sampling_ratio/min': 4.198951137368567e-05, 'sampling/importance_sampling_ratio/mean': 0.7341964244842529, 'sampling/importance_sampling_ratio/max': 2.6955602169036865, 'kl': 3.68675472214818, 'entropy': 0.08262645034119487, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.717237731980276, 'epoch': 1.24}
+ 16%|█▌        | 155/1000 [1:22:48<8:14:00, 35.08s/it] 16%|█▌        | 156/1000 [1:23:22<8:08:25, 34.72s/it]                                                      {'loss': -0.0005, 'grad_norm': 0.008472536690533161, 'learning_rate': 2.3699922178641698e-05, 'num_tokens': 25144226.0, 'completions/mean_length': 2061.9375, 'completions/min_length': 853.0, 'completions/max_length': 3803.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2061.9375, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3803.0, 'rewards/rollout_reward_func/mean': 12.626562118530273, 'rewards/rollout_reward_func/std': 4.741115093231201, 'reward': 12.626562118530273, 'reward_std': 4.6528825759887695, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04585687071084976, 'sampling/sampling_logp_difference/max': 4.120295524597168, 'sampling/importance_sampling_ratio/min': 0.00349827716127038, 'sampling/importance_sampling_ratio/mean': 0.8487763404846191, 'sampling/importance_sampling_ratio/max': 2.628556966781616, 'kl': 0.7548136990517378, 'entropy': 0.08102757134474814, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.4272298870128, 'epoch': 1.25}
+ 16%|█▌        | 156/1000 [1:23:22<8:08:25, 34.72s/it] 16%|█▌        | 157/1000 [1:23:54<7:55:08, 33.82s/it]                                                      {'loss': -0.0012, 'grad_norm': 0.009456207044422626, 'learning_rate': 2.3682251215549422e-05, 'num_tokens': 25303953.0, 'completions/mean_length': 1946.359375, 'completions/min_length': 853.0, 'completions/max_length': 3547.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1946.359375, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3547.0, 'rewards/rollout_reward_func/mean': 11.853124618530273, 'rewards/rollout_reward_func/std': 5.303905963897705, 'reward': 11.853124618530273, 'reward_std': 5.127066612243652, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.042024970054626465, 'sampling/sampling_logp_difference/max': 3.0457370281219482, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8134866952896118, 'sampling/importance_sampling_ratio/max': 2.264005661010742, 'kl': 0.7354137375950813, 'entropy': 0.08026578440330923, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.385168539003644, 'epoch': 1.26}
+ 16%|█▌        | 157/1000 [1:23:54<7:55:08, 33.82s/it] 16%|█▌        | 158/1000 [1:24:27<7:53:20, 33.73s/it]                                                      {'loss': 0.0001, 'grad_norm': 0.00805976614356041, 'learning_rate': 2.366446764731155e-05, 'num_tokens': 25447984.0, 'completions/mean_length': 1708.734375, 'completions/min_length': 853.0, 'completions/max_length': 3772.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1708.734375, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3772.0, 'rewards/rollout_reward_func/mean': 10.453125, 'rewards/rollout_reward_func/std': 5.428905010223389, 'reward': 10.453125, 'reward_std': 5.412318229675293, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.05199817568063736, 'sampling/sampling_logp_difference/max': 3.959321975708008, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.5421913266181946, 'sampling/importance_sampling_ratio/max': 2.4049105644226074, 'kl': 0.979163384065032, 'entropy': 0.06854838551953435, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.34633424998901, 'epoch': 1.26}
+ 16%|█▌        | 158/1000 [1:24:27<7:53:20, 33.73s/it] 16%|█▌        | 159/1000 [1:25:01<7:51:16, 33.62s/it]                                                      {'loss': 0.0009, 'grad_norm': 0.008495445363223553, 'learning_rate': 2.3646571653008418e-05, 'num_tokens': 25635187.0, 'completions/mean_length': 2364.046875, 'completions/min_length': 1267.0, 'completions/max_length': 3692.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2364.046875, 'completions/min_terminated_length': 1267.0, 'completions/max_terminated_length': 3692.0, 'rewards/rollout_reward_func/mean': 11.754688262939453, 'rewards/rollout_reward_func/std': 4.966712474822998, 'reward': 11.754688262939453, 'reward_std': 4.690446376800537, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.05280206352472305, 'sampling/sampling_logp_difference/max': 4.696108341217041, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.616386353969574, 'sampling/importance_sampling_ratio/max': 2.0280802249908447, 'kl': 0.6918350625783205, 'entropy': 0.0834155164193362, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.01274604999344, 'epoch': 1.27}
+ 16%|█▌        | 159/1000 [1:25:01<7:51:16, 33.62s/it] 16%|█▌        | 160/1000 [1:25:49<8:53:40, 38.12s/it]                                                      {'loss': -0.0001, 'grad_norm': 0.00902286171913147, 'learning_rate': 2.362856341285249e-05, 'num_tokens': 25788575.0, 'completions/mean_length': 1852.9375, 'completions/min_length': 851.0, 'completions/max_length': 5385.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1852.9375, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 5385.0, 'rewards/rollout_reward_func/mean': 10.84375, 'rewards/rollout_reward_func/std': 5.574741363525391, 'reward': 10.84375, 'reward_std': 5.529829978942871, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04506278783082962, 'sampling/sampling_logp_difference/max': 6.311616897583008, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7967398166656494, 'sampling/importance_sampling_ratio/max': 2.982640504837036, 'kl': 1.2271758634597063, 'entropy': 0.0731705732177943, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 46.454758526997466, 'epoch': 1.28}
+ 16%|█▌        | 160/1000 [1:25:49<8:53:40, 38.12s/it] 16%|█▌        | 161/1000 [1:26:23<8:36:44, 36.95s/it]                                                      {'loss': 0.0004, 'grad_norm': 0.008267938159406185, 'learning_rate': 2.3610443108186546e-05, 'num_tokens': 25964531.0, 'completions/mean_length': 2193.9375, 'completions/min_length': 865.0, 'completions/max_length': 3773.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2193.9375, 'completions/min_terminated_length': 865.0, 'completions/max_terminated_length': 3773.0, 'rewards/rollout_reward_func/mean': 10.714062690734863, 'rewards/rollout_reward_func/std': 5.592735290527344, 'reward': 10.714062690734863, 'reward_std': 5.165151596069336, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04493825137615204, 'sampling/sampling_logp_difference/max': 4.0003461837768555, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7285662293434143, 'sampling/importance_sampling_ratio/max': 2.066997528076172, 'kl': 1.1909419875591993, 'entropy': 0.08287017792463303, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.02140370001871, 'epoch': 1.29}
+ 16%|█▌        | 161/1000 [1:26:23<8:36:44, 36.95s/it] 16%|█▌        | 162/1000 [1:26:55<8:12:45, 35.28s/it]                                                      {'loss': -0.002, 'grad_norm': 0.009271308779716492, 'learning_rate': 2.359221092148185e-05, 'num_tokens': 26131567.0, 'completions/mean_length': 2058.5625, 'completions/min_length': 961.0, 'completions/max_length': 3559.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2058.5625, 'completions/min_terminated_length': 961.0, 'completions/max_terminated_length': 3559.0, 'rewards/rollout_reward_func/mean': 11.9140625, 'rewards/rollout_reward_func/std': 5.321560859680176, 'reward': 11.9140625, 'reward_std': 5.282889366149902, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03573866933584213, 'sampling/sampling_logp_difference/max': 2.9512999057769775, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9064381122589111, 'sampling/importance_sampling_ratio/max': 2.459895372390747, 'kl': 0.8199963942170143, 'entropy': 0.07260000891983509, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.0887182510196, 'epoch': 1.3}
+ 16%|█▌        | 162/1000 [1:26:55<8:12:45, 35.28s/it] 16%|█▋        | 163/1000 [1:27:28<8:02:54, 34.62s/it]                                                      {'loss': 0.0007, 'grad_norm': 0.01188203040510416, 'learning_rate': 2.3573867036336322e-05, 'num_tokens': 26303096.0, 'completions/mean_length': 2126.390625, 'completions/min_length': 785.0, 'completions/max_length': 3682.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2126.390625, 'completions/min_terminated_length': 785.0, 'completions/max_terminated_length': 3682.0, 'rewards/rollout_reward_func/mean': 11.270313262939453, 'rewards/rollout_reward_func/std': 5.519077777862549, 'reward': 11.270312309265137, 'reward_std': 5.432003021240234, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04675021022558212, 'sampling/sampling_logp_difference/max': 3.302619695663452, 'sampling/importance_sampling_ratio/min': 0.011733909137547016, 'sampling/importance_sampling_ratio/mean': 0.8344504833221436, 'sampling/importance_sampling_ratio/max': 2.8375070095062256, 'kl': 0.9140413254499435, 'entropy': 0.0828165418934077, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.652890108991414, 'epoch': 1.3}
+ 16%|█▋        | 163/1000 [1:27:28<8:02:54, 34.62s/it] 16%|█▋        | 164/1000 [1:27:59<7:46:45, 33.50s/it]                                                      {'loss': 0.0001, 'grad_norm': 0.0056154197081923485, 'learning_rate': 2.355541163747268e-05, 'num_tokens': 26467089.0, 'completions/mean_length': 2011.390625, 'completions/min_length': 1194.0, 'completions/max_length': 3452.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2011.390625, 'completions/min_terminated_length': 1194.0, 'completions/max_terminated_length': 3452.0, 'rewards/rollout_reward_func/mean': 11.667187690734863, 'rewards/rollout_reward_func/std': 5.1938934326171875, 'reward': 11.667187690734863, 'reward_std': 5.199807167053223, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04189230501651764, 'sampling/sampling_logp_difference/max': 3.5650882720947266, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.681735634803772, 'sampling/importance_sampling_ratio/max': 2.183462381362915, 'kl': 0.706160418689251, 'entropy': 0.07506319950334728, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.594298516014533, 'epoch': 1.31}
+ 16%|█▋        | 164/1000 [1:27:59<7:46:45, 33.50s/it] 16%|█▋        | 165/1000 [1:28:24<7:10:21, 30.92s/it]                                                      {'loss': -0.0016, 'grad_norm': 0.007662387564778328, 'learning_rate': 2.353684491073659e-05, 'num_tokens': 26616509.0, 'completions/mean_length': 1788.9375, 'completions/min_length': 852.0, 'completions/max_length': 2775.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1788.9375, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 2775.0, 'rewards/rollout_reward_func/mean': 11.556249618530273, 'rewards/rollout_reward_func/std': 5.3516316413879395, 'reward': 11.55625057220459, 'reward_std': 5.354740619659424, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.0433872789144516, 'sampling/sampling_logp_difference/max': 2.9891104698181152, 'sampling/importance_sampling_ratio/min': 0.02101718634366989, 'sampling/importance_sampling_ratio/mean': 0.7532544136047363, 'sampling/importance_sampling_ratio/max': 2.2556040287017822, 'kl': 1.1673998609185219, 'entropy': 0.07748918980360031, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 23.883666008972796, 'epoch': 1.32}
+ 16%|█▋        | 165/1000 [1:28:24<7:10:21, 30.92s/it] 17%|█▋        | 166/1000 [1:28:53<7:04:16, 30.52s/it]                                                      {'loss': 0.0005, 'grad_norm': 0.00942416861653328, 'learning_rate': 2.3518167043094777e-05, 'num_tokens': 26787145.0, 'completions/mean_length': 2111.1875, 'completions/min_length': 1269.0, 'completions/max_length': 3331.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2111.1875, 'completions/min_terminated_length': 1269.0, 'completions/max_terminated_length': 3331.0, 'rewards/rollout_reward_func/mean': 12.314062118530273, 'rewards/rollout_reward_func/std': 4.986262798309326, 'reward': 12.314062118530273, 'reward_std': 4.9402360916137695, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04021527245640755, 'sampling/sampling_logp_difference/max': 6.001885414123535, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7591686248779297, 'sampling/importance_sampling_ratio/max': 2.4761388301849365, 'kl': 0.8198393788188696, 'entropy': 0.07518133148550987, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.51539582500118, 'epoch': 1.33}
+ 17%|█▋        | 166/1000 [1:28:53<7:04:16, 30.52s/it] 17%|█▋        | 167/1000 [1:29:33<7:41:46, 33.26s/it]                                                      {'loss': 0.0002, 'grad_norm': 0.012002472765743732, 'learning_rate': 2.3499378222633168e-05, 'num_tokens': 26951551.0, 'completions/mean_length': 2019.09375, 'completions/min_length': 786.0, 'completions/max_length': 4338.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2019.09375, 'completions/min_terminated_length': 786.0, 'completions/max_terminated_length': 4338.0, 'rewards/rollout_reward_func/mean': 10.490625381469727, 'rewards/rollout_reward_func/std': 5.450490951538086, 'reward': 10.490625381469727, 'reward_std': 5.172408580780029, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03986426442861557, 'sampling/sampling_logp_difference/max': 2.278306007385254, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8289720416069031, 'sampling/importance_sampling_ratio/max': 2.8222250938415527, 'kl': 0.8155983667820692, 'entropy': 0.08805303322151303, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 37.9721334700007, 'epoch': 1.34}
+ 17%|█▋        | 167/1000 [1:29:33<7:41:46, 33.26s/it] 17%|█▋        | 168/1000 [1:29:57<7:04:46, 30.63s/it]                                                      {'loss': 0.0012, 'grad_norm': 0.012410449795424938, 'learning_rate': 2.348047863855497e-05, 'num_tokens': 27101919.0, 'completions/mean_length': 1803.75, 'completions/min_length': 786.0, 'completions/max_length': 2727.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1803.75, 'completions/min_terminated_length': 786.0, 'completions/max_terminated_length': 2727.0, 'rewards/rollout_reward_func/mean': 12.110937118530273, 'rewards/rollout_reward_func/std': 5.081373691558838, 'reward': 12.110937118530273, 'reward_std': 4.940267562866211, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04887222498655319, 'sampling/sampling_logp_difference/max': 4.464923858642578, 'sampling/importance_sampling_ratio/min': 0.018493080511689186, 'sampling/importance_sampling_ratio/mean': 0.7646355628967285, 'sampling/importance_sampling_ratio/max': 2.5840721130371094, 'kl': 1.2692515850067139, 'entropy': 0.07826855429448187, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 23.462962589997915, 'epoch': 1.34}
+ 17%|█▋        | 168/1000 [1:29:57<7:04:46, 30.63s/it] 17%|█▋        | 169/1000 [1:30:33<7:22:44, 31.97s/it]                                                      {'loss': -0.0014, 'grad_norm': 0.010286794044077396, 'learning_rate': 2.346146848117879e-05, 'num_tokens': 27284143.0, 'completions/mean_length': 2289.5, 'completions/min_length': 852.0, 'completions/max_length': 3854.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2289.5, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3854.0, 'rewards/rollout_reward_func/mean': 12.40000057220459, 'rewards/rollout_reward_func/std': 5.302978992462158, 'reward': 12.399999618530273, 'reward_std': 5.154875755310059, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04285183176398277, 'sampling/sampling_logp_difference/max': 3.469496488571167, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7860494256019592, 'sampling/importance_sampling_ratio/max': 2.9532477855682373, 'kl': 0.5866069868206978, 'entropy': 0.09046280512120575, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 33.7054721530003, 'epoch': 1.35}
+ 17%|█▋        | 169/1000 [1:30:33<7:22:44, 31.97s/it] 17%|█▋        | 170/1000 [1:31:03<7:15:32, 31.49s/it]                                                      {'loss': -0.0001, 'grad_norm': 0.011314625851809978, 'learning_rate': 2.3442347941936697e-05, 'num_tokens': 27456366.0, 'completions/mean_length': 2137.609375, 'completions/min_length': 853.0, 'completions/max_length': 3399.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2137.609375, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3399.0, 'rewards/rollout_reward_func/mean': 10.215625762939453, 'rewards/rollout_reward_func/std': 5.16840934753418, 'reward': 10.215625762939453, 'reward_std': 5.085960388183594, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.046675968915224075, 'sampling/sampling_logp_difference/max': 4.698511600494385, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7904965281486511, 'sampling/importance_sampling_ratio/max': 2.5701563358306885, 'kl': 1.1500509604811668, 'entropy': 0.0944792227819562, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.19711246198858, 'epoch': 1.36}
+ 17%|█▋        | 170/1000 [1:31:03<7:15:32, 31.49s/it] 17%|█▋        | 171/1000 [1:31:27<6:44:52, 29.30s/it]                                                      {'loss': 0.0011, 'grad_norm': 0.04190192371606827, 'learning_rate': 2.3423117213372315e-05, 'num_tokens': 27614327.0, 'completions/mean_length': 1918.765625, 'completions/min_length': 782.0, 'completions/max_length': 2665.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1918.765625, 'completions/min_terminated_length': 782.0, 'completions/max_terminated_length': 2665.0, 'rewards/rollout_reward_func/mean': 12.681249618530273, 'rewards/rollout_reward_func/std': 4.99786901473999, 'reward': 12.681249618530273, 'reward_std': 5.125303268432617, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04084967076778412, 'sampling/sampling_logp_difference/max': 9.04046630859375, 'sampling/importance_sampling_ratio/min': 0.0003204745298717171, 'sampling/importance_sampling_ratio/mean': 0.9668464064598083, 'sampling/importance_sampling_ratio/max': 2.6521246433258057, 'kl': 1.7984852083027363, 'entropy': 0.07861124095506966, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 23.18992018100107, 'epoch': 1.37}
+ 17%|█▋        | 171/1000 [1:31:27<6:44:52, 29.30s/it] 17%|█▋        | 172/1000 [1:31:57<6:47:56, 29.56s/it]                                                      {'loss': 0.0018, 'grad_norm': 0.013033827766776085, 'learning_rate': 2.3403776489138863e-05, 'num_tokens': 27762371.0, 'completions/mean_length': 1769.4375, 'completions/min_length': 852.0, 'completions/max_length': 3417.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1769.4375, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3417.0, 'rewards/rollout_reward_func/mean': 12.009374618530273, 'rewards/rollout_reward_func/std': 5.253138542175293, 'reward': 12.009374618530273, 'reward_std': 5.426614761352539, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04129019379615784, 'sampling/sampling_logp_difference/max': 3.8390865325927734, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8247530460357666, 'sampling/importance_sampling_ratio/max': 2.9903745651245117, 'kl': 4.950078673660755, 'entropy': 0.0793585516512394, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.8798278660106, 'epoch': 1.38}
+ 17%|█▋        | 172/1000 [1:31:57<6:47:56, 29.56s/it] 17%|█▋        | 173/1000 [1:32:31<7:04:21, 30.79s/it]                                                      {'loss': -0.0011, 'grad_norm': 0.01065883319824934, 'learning_rate': 2.3384325963997217e-05, 'num_tokens': 27947396.0, 'completions/mean_length': 2332.015625, 'completions/min_length': 1293.0, 'completions/max_length': 3645.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2332.015625, 'completions/min_terminated_length': 1293.0, 'completions/max_terminated_length': 3645.0, 'rewards/rollout_reward_func/mean': 10.526561737060547, 'rewards/rollout_reward_func/std': 4.965188503265381, 'reward': 10.526562690734863, 'reward_std': 4.911481857299805, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.050360843539237976, 'sampling/sampling_logp_difference/max': 4.7523274421691895, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7721480131149292, 'sampling/importance_sampling_ratio/max': 2.7691221237182617, 'kl': 1.2727234847843647, 'entropy': 0.09298342163674533, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.23913907601673, 'epoch': 1.38}
+ 17%|█▋        | 173/1000 [1:32:31<7:04:21, 30.79s/it] 17%|█▋        | 174/1000 [1:33:03<7:11:08, 31.32s/it]                                                      {'loss': -0.0005, 'grad_norm': 0.010371183976531029, 'learning_rate': 2.3364765833813952e-05, 'num_tokens': 28105487.0, 'completions/mean_length': 1922.796875, 'completions/min_length': 784.0, 'completions/max_length': 3696.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1922.796875, 'completions/min_terminated_length': 784.0, 'completions/max_terminated_length': 3696.0, 'rewards/rollout_reward_func/mean': 11.875, 'rewards/rollout_reward_func/std': 4.990180969238281, 'reward': 11.875, 'reward_std': 5.073185443878174, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04273447021842003, 'sampling/sampling_logp_difference/max': 2.855228900909424, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8572782278060913, 'sampling/importance_sampling_ratio/max': 2.8412036895751953, 'kl': 0.9117578454315662, 'entropy': 0.08313550613820553, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.328557143999205, 'epoch': 1.39}
+ 17%|█▋        | 174/1000 [1:33:03<7:11:08, 31.32s/it] 18%|█▊        | 175/1000 [1:33:37<7:17:57, 31.85s/it]                                                      {'loss': -0.0016, 'grad_norm': 0.008201839402318, 'learning_rate': 2.3345096295559367e-05, 'num_tokens': 28240749.0, 'completions/mean_length': 1575.71875, 'completions/min_length': 851.0, 'completions/max_length': 3811.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1575.71875, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 3811.0, 'rewards/rollout_reward_func/mean': 10.189062118530273, 'rewards/rollout_reward_func/std': 5.516932487487793, 'reward': 10.189062118530273, 'reward_std': 5.2729387283325195, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.037839606404304504, 'sampling/sampling_logp_difference/max': 2.7326254844665527, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8069999814033508, 'sampling/importance_sampling_ratio/max': 2.829181671142578, 'kl': 1.0496613532304764, 'entropy': 0.07489429204724729, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.63934672700998, 'epoch': 1.4}
+ 18%|█▊        | 175/1000 [1:33:37<7:17:57, 31.85s/it] 18%|█▊        | 176/1000 [1:34:06<7:09:23, 31.27s/it]                                                      {'loss': -0.0027, 'grad_norm': 0.009429410099983215, 'learning_rate': 2.3325317547305485e-05, 'num_tokens': 28410380.0, 'completions/mean_length': 2097.109375, 'completions/min_length': 853.0, 'completions/max_length': 3368.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2097.109375, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3368.0, 'rewards/rollout_reward_func/mean': 11.296875, 'rewards/rollout_reward_func/std': 5.404964923858643, 'reward': 11.296875, 'reward_std': 5.47898006439209, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03838915005326271, 'sampling/sampling_logp_difference/max': 4.116157054901123, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8698360919952393, 'sampling/importance_sampling_ratio/max': 2.6412060260772705, 'kl': 0.742739973589778, 'entropy': 0.08705027191899717, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.63576495799498, 'epoch': 1.41}
+ 18%|█▊        | 176/1000 [1:34:06<7:09:23, 31.27s/it] 18%|█▊        | 177/1000 [1:34:38<7:08:35, 31.25s/it]                                                      {'loss': 0.0014, 'grad_norm': 0.008423348888754845, 'learning_rate': 2.3305429788224088e-05, 'num_tokens': 28576907.0, 'completions/mean_length': 2048.609375, 'completions/min_length': 783.0, 'completions/max_length': 3574.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2048.609375, 'completions/min_terminated_length': 783.0, 'completions/max_terminated_length': 3574.0, 'rewards/rollout_reward_func/mean': 12.123437881469727, 'rewards/rollout_reward_func/std': 5.390754699707031, 'reward': 12.123437881469727, 'reward_std': 5.4618425369262695, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03819091618061066, 'sampling/sampling_logp_difference/max': 3.3478188514709473, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7615715265274048, 'sampling/importance_sampling_ratio/max': 2.2094249725341797, 'kl': 0.7661615964025259, 'entropy': 0.08623536303639412, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.871143649979786, 'epoch': 1.42}
+ 18%|█▊        | 177/1000 [1:34:38<7:08:35, 31.25s/it] 18%|█▊        | 178/1000 [1:35:07<6:59:42, 30.64s/it]                                                      {'loss': 0.0015, 'grad_norm': 0.006926303263753653, 'learning_rate': 2.328543321858468e-05, 'num_tokens': 28748615.0, 'completions/mean_length': 2127.5625, 'completions/min_length': 854.0, 'completions/max_length': 3230.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2127.5625, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 3230.0, 'rewards/rollout_reward_func/mean': 12.137499809265137, 'rewards/rollout_reward_func/std': 5.277279853820801, 'reward': 12.137499809265137, 'reward_std': 5.088969707489014, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04219669848680496, 'sampling/sampling_logp_difference/max': 5.694203853607178, 'sampling/importance_sampling_ratio/min': 0.001136154867708683, 'sampling/importance_sampling_ratio/mean': 0.8341590166091919, 'sampling/importance_sampling_ratio/max': 2.7967538833618164, 'kl': 0.7948149628937244, 'entropy': 0.08765367092564702, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.095279551002022, 'epoch': 1.42}
+ 18%|█▊        | 178/1000 [1:35:07<6:59:42, 30.64s/it] 18%|█▊        | 179/1000 [1:35:39<7:04:14, 31.00s/it]                                                      {'loss': 0.0011, 'grad_norm': 0.009833768010139465, 'learning_rate': 2.326532803975251e-05, 'num_tokens': 28918273.0, 'completions/mean_length': 2099.15625, 'completions/min_length': 852.0, 'completions/max_length': 3533.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2099.15625, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3533.0, 'rewards/rollout_reward_func/mean': 11.187499046325684, 'rewards/rollout_reward_func/std': 5.527320384979248, 'reward': 11.1875, 'reward_std': 5.608672142028809, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04526468738913536, 'sampling/sampling_logp_difference/max': 4.913938999176025, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.784833550453186, 'sampling/importance_sampling_ratio/max': 2.083387613296509, 'kl': 0.6863543037325144, 'entropy': 0.08659381116740406, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.52872509798908, 'epoch': 1.43}
+ 18%|█▊        | 179/1000 [1:35:39<7:04:14, 31.00s/it] 18%|█▊        | 180/1000 [1:36:10<7:03:36, 31.00s/it]                                                      {'loss': 0.002, 'grad_norm': 0.00985188502818346, 'learning_rate': 2.324511445418649e-05, 'num_tokens': 29098604.0, 'completions/mean_length': 2260.296875, 'completions/min_length': 934.0, 'completions/max_length': 3484.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2260.296875, 'completions/min_terminated_length': 934.0, 'completions/max_terminated_length': 3484.0, 'rewards/rollout_reward_func/mean': 12.385937690734863, 'rewards/rollout_reward_func/std': 5.589783191680908, 'reward': 12.385937690734863, 'reward_std': 4.992083549499512, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03838357701897621, 'sampling/sampling_logp_difference/max': 3.8274388313293457, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8924928307533264, 'sampling/importance_sampling_ratio/max': 2.5103213787078857, 'kl': 0.7634297125041485, 'entropy': 0.09221092611551285, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.67298574999586, 'epoch': 1.44}
+ 18%|█▊        | 180/1000 [1:36:10<7:03:36, 31.00s/it] 18%|█▊        | 181/1000 [1:37:00<8:22:10, 36.79s/it]                                                      {'loss': -0.0, 'grad_norm': 0.01000231597572565, 'learning_rate': 2.3224792665437215e-05, 'num_tokens': 29280646.0, 'completions/mean_length': 2285.40625, 'completions/min_length': 1197.0, 'completions/max_length': 5360.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2285.40625, 'completions/min_terminated_length': 1197.0, 'completions/max_terminated_length': 5360.0, 'rewards/rollout_reward_func/mean': 12.418750762939453, 'rewards/rollout_reward_func/std': 5.296566009521484, 'reward': 12.418750762939453, 'reward_std': 5.049828052520752, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.05233738198876381, 'sampling/sampling_logp_difference/max': 3.563699722290039, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.6661075949668884, 'sampling/importance_sampling_ratio/max': 2.404160737991333, 'kl': 2.409467324614525, 'entropy': 0.08248708257451653, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 47.22146212700318, 'epoch': 1.45}
+ 18%|█▊        | 181/1000 [1:37:00<8:22:10, 36.79s/it] 18%|█▊        | 182/1000 [1:37:31<7:56:01, 34.92s/it]                                                      {'loss': -0.0025, 'grad_norm': 0.007095192093402147, 'learning_rate': 2.3204362878144864e-05, 'num_tokens': 29474447.0, 'completions/mean_length': 2465.140625, 'completions/min_length': 1604.0, 'completions/max_length': 3372.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2465.140625, 'completions/min_terminated_length': 1604.0, 'completions/max_terminated_length': 3372.0, 'rewards/rollout_reward_func/mean': 11.196874618530273, 'rewards/rollout_reward_func/std': 5.167449474334717, 'reward': 11.19687557220459, 'reward_std': 5.194527626037598, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04175172746181488, 'sampling/sampling_logp_difference/max': 3.3765861988067627, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7825950980186462, 'sampling/importance_sampling_ratio/max': 2.641380786895752, 'kl': 0.6792844384908676, 'entropy': 0.09191231476143003, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.41233276300045, 'epoch': 1.46}
+ 18%|█▊        | 182/1000 [1:37:31<7:56:01, 34.92s/it] 18%|█▊        | 183/1000 [1:38:00<7:34:50, 33.40s/it]                                                      {'loss': -0.0006, 'grad_norm': 0.009784811176359653, 'learning_rate': 2.318382529803717e-05, 'num_tokens': 29633859.0, 'completions/mean_length': 1941.8125, 'completions/min_length': 1179.0, 'completions/max_length': 3306.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1941.8125, 'completions/min_terminated_length': 1179.0, 'completions/max_terminated_length': 3306.0, 'rewards/rollout_reward_func/mean': 12.584375381469727, 'rewards/rollout_reward_func/std': 5.161770820617676, 'reward': 12.584375381469727, 'reward_std': 5.114231586456299, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03612542897462845, 'sampling/sampling_logp_difference/max': 3.3056087493896484, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.848808228969574, 'sampling/importance_sampling_ratio/max': 2.6212613582611084, 'kl': 0.6893390156328678, 'entropy': 0.07912347419187427, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.6141888189959, 'epoch': 1.46}
+ 18%|█▊        | 183/1000 [1:38:00<7:34:50, 33.40s/it] 18%|█▊        | 184/1000 [1:38:34<7:33:49, 33.37s/it]                                                      {'loss': 0.0009, 'grad_norm': 0.010155473835766315, 'learning_rate': 2.316318013192734e-05, 'num_tokens': 29776580.0, 'completions/mean_length': 1689.515625, 'completions/min_length': 779.0, 'completions/max_length': 3817.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1689.515625, 'completions/min_terminated_length': 779.0, 'completions/max_terminated_length': 3817.0, 'rewards/rollout_reward_func/mean': 11.1640625, 'rewards/rollout_reward_func/std': 5.078756332397461, 'reward': 11.1640625, 'reward_std': 5.266140937805176, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.042929746210575104, 'sampling/sampling_logp_difference/max': 3.8499321937561035, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7680531740188599, 'sampling/importance_sampling_ratio/max': 2.936664581298828, 'kl': 0.7299762759357691, 'entropy': 0.07987648318521678, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.832526232996315, 'epoch': 1.47}
+ 18%|█▊        | 184/1000 [1:38:34<7:33:49, 33.37s/it] 18%|█▊        | 185/1000 [1:39:04<7:21:02, 32.47s/it]                                                      {'loss': -0.0009, 'grad_norm': 0.007347750011831522, 'learning_rate': 2.314242758771196e-05, 'num_tokens': 29949926.0, 'completions/mean_length': 2153.53125, 'completions/min_length': 1195.0, 'completions/max_length': 3411.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2153.53125, 'completions/min_terminated_length': 1195.0, 'completions/max_terminated_length': 3411.0, 'rewards/rollout_reward_func/mean': 11.606250762939453, 'rewards/rollout_reward_func/std': 5.389875411987305, 'reward': 11.60624885559082, 'reward_std': 5.4123854637146, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04543570429086685, 'sampling/sampling_logp_difference/max': 3.222349166870117, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7295982837677002, 'sampling/importance_sampling_ratio/max': 2.547121524810791, 'kl': 1.0055777579545975, 'entropy': 0.0807901716325432, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.10735428699263, 'epoch': 1.48}
+ 18%|█▊        | 185/1000 [1:39:04<7:21:02, 32.47s/it] 19%|█▊        | 186/1000 [1:39:36<7:19:30, 32.40s/it]                                                      {'loss': -0.0, 'grad_norm': 0.007874106988310814, 'learning_rate': 2.3121567874368932e-05, 'num_tokens': 30149644.0, 'completions/mean_length': 2553.59375, 'completions/min_length': 1281.0, 'completions/max_length': 3600.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2553.59375, 'completions/min_terminated_length': 1281.0, 'completions/max_terminated_length': 3600.0, 'rewards/rollout_reward_func/mean': 11.9296875, 'rewards/rollout_reward_func/std': 5.709604263305664, 'reward': 11.9296875, 'reward_std': 5.582303047180176, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.041970886290073395, 'sampling/sampling_logp_difference/max': 3.953434467315674, 'sampling/importance_sampling_ratio/min': 0.006323410198092461, 'sampling/importance_sampling_ratio/mean': 0.8022022247314453, 'sampling/importance_sampling_ratio/max': 2.6327950954437256, 'kl': 0.6212923042476177, 'entropy': 0.10145301464945078, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.948544856000808, 'epoch': 1.49}
+ 19%|█▊        | 186/1000 [1:39:36<7:19:30, 32.40s/it] 19%|█▊        | 187/1000 [1:40:10<7:25:49, 32.90s/it]                                                      {'loss': -0.0011, 'grad_norm': 0.0086161894723773, 'learning_rate': 2.3100601201955324e-05, 'num_tokens': 30315237.0, 'completions/mean_length': 2036.015625, 'completions/min_length': 853.0, 'completions/max_length': 3849.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2036.015625, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3849.0, 'rewards/rollout_reward_func/mean': 10.881250381469727, 'rewards/rollout_reward_func/std': 5.606936931610107, 'reward': 10.881250381469727, 'reward_std': 5.360537528991699, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04696448892354965, 'sampling/sampling_logp_difference/max': 4.605618476867676, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7584749460220337, 'sampling/importance_sampling_ratio/max': 2.9775707721710205, 'kl': 0.7922630831599236, 'entropy': 0.08180305641144514, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.77512140200997, 'epoch': 1.5}
+ 19%|█▊        | 187/1000 [1:40:10<7:25:49, 32.90s/it] 19%|█▉        | 188/1000 [1:40:40<7:10:20, 31.80s/it]                                                      {'loss': -0.0006, 'grad_norm': 0.011017593555152416, 'learning_rate': 2.3079527781605302e-05, 'num_tokens': 30481619.0, 'completions/mean_length': 2047.96875, 'completions/min_length': 786.0, 'completions/max_length': 3177.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2047.96875, 'completions/min_terminated_length': 786.0, 'completions/max_terminated_length': 3177.0, 'rewards/rollout_reward_func/mean': 13.2421875, 'rewards/rollout_reward_func/std': 4.670773983001709, 'reward': 13.2421875, 'reward_std': 4.617049217224121, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04238966479897499, 'sampling/sampling_logp_difference/max': 5.268465995788574, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8372944593429565, 'sampling/importance_sampling_ratio/max': 2.887192487716675, 'kl': 0.9647738095372915, 'entropy': 0.08152693090960383, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 27.999611392020597, 'epoch': 1.5}
+ 19%|█▉        | 188/1000 [1:40:40<7:10:20, 31.80s/it] 19%|█▉        | 189/1000 [1:41:12<7:10:27, 31.85s/it]                                                      {'loss': 0.0004, 'grad_norm': 0.006070740520954132, 'learning_rate': 2.305834782552798e-05, 'num_tokens': 30656716.0, 'completions/mean_length': 2180.515625, 'completions/min_length': 853.0, 'completions/max_length': 3540.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2180.515625, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3540.0, 'rewards/rollout_reward_func/mean': 11.767187118530273, 'rewards/rollout_reward_func/std': 4.963455677032471, 'reward': 11.767187118530273, 'reward_std': 4.8744707107543945, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03500458970665932, 'sampling/sampling_logp_difference/max': 3.360595703125, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8004200458526611, 'sampling/importance_sampling_ratio/max': 2.4849982261657715, 'kl': 0.7088499255478382, 'entropy': 0.0768405010458082, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.80882788701274, 'epoch': 1.51}
+ 19%|█▉        | 189/1000 [1:41:12<7:10:27, 31.85s/it] 19%|█▉        | 190/1000 [1:41:43<7:08:28, 31.74s/it]                                                      {'loss': 0.0028, 'grad_norm': 0.009395075961947441, 'learning_rate': 2.303706154700527e-05, 'num_tokens': 30823768.0, 'completions/mean_length': 2058.4375, 'completions/min_length': 781.0, 'completions/max_length': 3574.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2058.4375, 'completions/min_terminated_length': 781.0, 'completions/max_terminated_length': 3574.0, 'rewards/rollout_reward_func/mean': 11.378125190734863, 'rewards/rollout_reward_func/std': 5.439230442047119, 'reward': 11.378125190734863, 'reward_std': 5.485176086425781, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.041573211550712585, 'sampling/sampling_logp_difference/max': 2.441978931427002, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7815998792648315, 'sampling/importance_sampling_ratio/max': 2.7466282844543457, 'kl': 0.928695447742939, 'entropy': 0.09226473583839834, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.157037892000517, 'epoch': 1.52}
+ 19%|█▉        | 190/1000 [1:41:43<7:08:28, 31.74s/it] 19%|█▉        | 191/1000 [1:42:32<8:15:51, 36.78s/it]                                                      {'loss': 0.0034, 'grad_norm': 0.009051664732396603, 'learning_rate': 2.3015669160389767e-05, 'num_tokens': 30991074.0, 'completions/mean_length': 2062.78125, 'completions/min_length': 850.0, 'completions/max_length': 5330.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2062.78125, 'completions/min_terminated_length': 850.0, 'completions/max_terminated_length': 5330.0, 'rewards/rollout_reward_func/mean': 10.65781307220459, 'rewards/rollout_reward_func/std': 5.351095676422119, 'reward': 10.65781307220459, 'reward_std': 5.315893173217773, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03976981341838837, 'sampling/sampling_logp_difference/max': 2.5646612644195557, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7772445678710938, 'sampling/importance_sampling_ratio/max': 2.9216089248657227, 'kl': 0.7084709499031305, 'entropy': 0.08447070443071425, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 46.370632187026786, 'epoch': 1.53}
+ 19%|█▉        | 191/1000 [1:42:32<8:15:51, 36.78s/it] 19%|█▉        | 192/1000 [1:43:04<7:58:00, 35.50s/it]                                                      {'loss': 0.0009, 'grad_norm': 0.007646505255252123, 'learning_rate': 2.2994170881102563e-05, 'num_tokens': 31137493.0, 'completions/mean_length': 1745.296875, 'completions/min_length': 783.0, 'completions/max_length': 3686.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1745.296875, 'completions/min_terminated_length': 783.0, 'completions/max_terminated_length': 3686.0, 'rewards/rollout_reward_func/mean': 10.246874809265137, 'rewards/rollout_reward_func/std': 5.613559722900391, 'reward': 10.246874809265137, 'reward_std': 4.809388637542725, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04525046423077583, 'sampling/sampling_logp_difference/max': 2.4714279174804688, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7292544841766357, 'sampling/importance_sampling_ratio/max': 2.289508104324341, 'kl': 0.7566202096641064, 'entropy': 0.08483102289028466, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.296700671991857, 'epoch': 1.54}
+ 19%|█▉        | 192/1000 [1:43:04<7:58:00, 35.50s/it] 19%|█▉        | 193/1000 [1:43:36<7:41:31, 34.31s/it]                                                      {'loss': -0.0014, 'grad_norm': 0.01009626779705286, 'learning_rate': 2.297256692563109e-05, 'num_tokens': 31302957.0, 'completions/mean_length': 2033.625, 'completions/min_length': 784.0, 'completions/max_length': 3432.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2033.625, 'completions/min_terminated_length': 784.0, 'completions/max_terminated_length': 3432.0, 'rewards/rollout_reward_func/mean': 11.259374618530273, 'rewards/rollout_reward_func/std': 5.544358730316162, 'reward': 11.259374618530273, 'reward_std': 5.277605056762695, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.043262794613838196, 'sampling/sampling_logp_difference/max': 3.607332468032837, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8291599750518799, 'sampling/importance_sampling_ratio/max': 2.248689651489258, 'kl': 1.174616439267993, 'entropy': 0.089786640368402, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.260416033990623, 'epoch': 1.54}
+ 19%|█▉        | 193/1000 [1:43:36<7:41:31, 34.31s/it] 19%|█▉        | 194/1000 [1:44:05<7:19:42, 32.73s/it]                                                      {'loss': -0.0029, 'grad_norm': 0.009181827306747437, 'learning_rate': 2.295085751152695e-05, 'num_tokens': 31456461.0, 'completions/mean_length': 1852.375, 'completions/min_length': 850.0, 'completions/max_length': 3311.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1852.375, 'completions/min_terminated_length': 850.0, 'completions/max_terminated_length': 3311.0, 'rewards/rollout_reward_func/mean': 11.051562309265137, 'rewards/rollout_reward_func/std': 5.212561130523682, 'reward': 11.051562309265137, 'reward_std': 5.0764923095703125, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.046696390956640244, 'sampling/sampling_logp_difference/max': 3.162137031555176, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7026971578598022, 'sampling/importance_sampling_ratio/max': 2.2104997634887695, 'kl': 0.7063667178153992, 'entropy': 0.08451118972152472, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 27.91413808100333, 'epoch': 1.55}
+ 19%|█▉        | 194/1000 [1:44:05<7:19:42, 32.73s/it] 20%|█▉        | 195/1000 [1:44:53<8:22:54, 37.48s/it]                                                      {'loss': 0.0008, 'grad_norm': 0.006625590845942497, 'learning_rate': 2.2929042857403692e-05, 'num_tokens': 31615762.0, 'completions/mean_length': 1941.328125, 'completions/min_length': 781.0, 'completions/max_length': 5330.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1941.328125, 'completions/min_terminated_length': 781.0, 'completions/max_terminated_length': 5330.0, 'rewards/rollout_reward_func/mean': 12.42656135559082, 'rewards/rollout_reward_func/std': 4.881134510040283, 'reward': 12.426563262939453, 'reward_std': 4.820957183837891, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.034711774438619614, 'sampling/sampling_logp_difference/max': 3.581117630004883, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8018122315406799, 'sampling/importance_sampling_ratio/max': 2.072270393371582, 'kl': 0.7313834633678198, 'entropy': 0.08009417564608157, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 46.4131822389827, 'epoch': 1.56}
+ 20%|█▉        | 195/1000 [1:44:53<8:22:54, 37.48s/it] 20%|█▉        | 196/1000 [1:45:18<7:29:26, 33.54s/it]                                                      {'loss': -0.0015, 'grad_norm': 0.010516650974750519, 'learning_rate': 2.2907123182934643e-05, 'num_tokens': 31758395.0, 'completions/mean_length': 1686.890625, 'completions/min_length': 854.0, 'completions/max_length': 2744.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1686.890625, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 2744.0, 'rewards/rollout_reward_func/mean': 10.889062881469727, 'rewards/rollout_reward_func/std': 5.059240341186523, 'reward': 10.889062881469727, 'reward_std': 4.636228084564209, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03871626406908035, 'sampling/sampling_logp_difference/max': 2.95294451713562, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.904711127281189, 'sampling/importance_sampling_ratio/max': 2.969651460647583, 'kl': 0.7607643119990826, 'entropy': 0.07907711155712605, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 23.309651850999217, 'epoch': 1.57}
+ 20%|█▉        | 196/1000 [1:45:18<7:29:26, 33.54s/it] 20%|█▉        | 197/1000 [1:45:47<7:12:31, 32.32s/it]                                                      {'loss': -0.0008, 'grad_norm': 0.008074251003563404, 'learning_rate': 2.2885098708850682e-05, 'num_tokens': 31916817.0, 'completions/mean_length': 1925.96875, 'completions/min_length': 936.0, 'completions/max_length': 3313.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1925.96875, 'completions/min_terminated_length': 936.0, 'completions/max_terminated_length': 3313.0, 'rewards/rollout_reward_func/mean': 10.315625190734863, 'rewards/rollout_reward_func/std': 5.059996604919434, 'reward': 10.315624237060547, 'reward_std': 4.964643478393555, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.0384652316570282, 'sampling/sampling_logp_difference/max': 2.729861259460449, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7364223003387451, 'sampling/importance_sampling_ratio/max': 2.3556900024414062, 'kl': 0.6511940844357014, 'entropy': 0.09074598201550543, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.211937824002234, 'epoch': 1.58}
+ 20%|█▉        | 197/1000 [1:45:47<7:12:31, 32.32s/it] 20%|█▉        | 198/1000 [1:46:12<6:40:25, 29.96s/it]                                                      {'loss': 0.0002, 'grad_norm': 0.006890888325870037, 'learning_rate': 2.286296965693802e-05, 'num_tokens': 32067693.0, 'completions/mean_length': 1811.6875, 'completions/min_length': 782.0, 'completions/max_length': 2759.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1811.6875, 'completions/min_terminated_length': 782.0, 'completions/max_terminated_length': 2759.0, 'rewards/rollout_reward_func/mean': 11.759374618530273, 'rewards/rollout_reward_func/std': 5.0654988288879395, 'reward': 11.759374618530273, 'reward_std': 4.537321090698242, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03560121729969978, 'sampling/sampling_logp_difference/max': 2.272794723510742, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8027042150497437, 'sampling/importance_sampling_ratio/max': 2.280156135559082, 'kl': 0.6431538332253695, 'entropy': 0.0790205707307905, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 23.40526954899542, 'epoch': 1.58}
+ 20%|█▉        | 198/1000 [1:46:12<6:40:25, 29.96s/it] 20%|█▉        | 199/1000 [1:46:43<6:45:23, 30.37s/it]                                                      {'loss': 0.0003, 'grad_norm': 0.008298139087855816, 'learning_rate': 2.2840736250035966e-05, 'num_tokens': 32242599.0, 'completions/mean_length': 2177.53125, 'completions/min_length': 851.0, 'completions/max_length': 3482.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2177.53125, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 3482.0, 'rewards/rollout_reward_func/mean': 10.734375953674316, 'rewards/rollout_reward_func/std': 5.1939592361450195, 'reward': 10.734375, 'reward_std': 5.267357349395752, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.044102348387241364, 'sampling/sampling_logp_difference/max': 2.5602290630340576, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7740167379379272, 'sampling/importance_sampling_ratio/max': 2.5042014122009277, 'kl': 0.6336524114012718, 'entropy': 0.10042262566275895, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.021120878016518, 'epoch': 1.59}
+ 20%|█▉        | 199/1000 [1:46:43<6:45:23, 30.37s/it] 20%|██        | 200/1000 [1:47:06<6:17:30, 28.31s/it]                                                      {'loss': -0.0009, 'grad_norm': 0.008130466565489769, 'learning_rate': 2.2818398712034675e-05, 'num_tokens': 32380173.0, 'completions/mean_length': 1609.84375, 'completions/min_length': 862.0, 'completions/max_length': 2694.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1609.84375, 'completions/min_terminated_length': 862.0, 'completions/max_terminated_length': 2694.0, 'rewards/rollout_reward_func/mean': 11.015625, 'rewards/rollout_reward_func/std': 5.3156023025512695, 'reward': 11.015625, 'reward_std': 5.11972713470459, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.038628581911325455, 'sampling/sampling_logp_difference/max': 1.8690707683563232, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8778170347213745, 'sampling/importance_sampling_ratio/max': 2.599365234375, 'kl': 0.6415819711983204, 'entropy': 0.07816266873851418, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 22.579543558022124, 'epoch': 1.6}
+ 20%|██        | 200/1000 [1:47:06<6:17:30, 28.31s/it] 20%|██        | 201/1000 [1:47:38<6:28:43, 29.19s/it]                                                      {'loss': 0.0008, 'grad_norm': 0.0076334355399012566, 'learning_rate': 2.279595726787291e-05, 'num_tokens': 32548715.0, 'completions/mean_length': 2079.71875, 'completions/min_length': 851.0, 'completions/max_length': 3419.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2079.71875, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 3419.0, 'rewards/rollout_reward_func/mean': 11.857812881469727, 'rewards/rollout_reward_func/std': 5.479856491088867, 'reward': 11.857812881469727, 'reward_std': 5.2227325439453125, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03566751629114151, 'sampling/sampling_logp_difference/max': 2.3369007110595703, 'sampling/importance_sampling_ratio/min': 0.08404842019081116, 'sampling/importance_sampling_ratio/mean': 0.8280603289604187, 'sampling/importance_sampling_ratio/max': 2.685138702392578, 'kl': 0.8176723960787058, 'entropy': 0.0970032000914216, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.0395217050027, 'epoch': 1.61}
+ 20%|██        | 201/1000 [1:47:38<6:28:43, 29.19s/it] 20%|██        | 202/1000 [1:48:09<6:38:00, 29.92s/it]                                                      {'loss': 0.0012, 'grad_norm': 0.008335595950484276, 'learning_rate': 2.2773412143535764e-05, 'num_tokens': 32721978.0, 'completions/mean_length': 2151.859375, 'completions/min_length': 781.0, 'completions/max_length': 3562.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2151.859375, 'completions/min_terminated_length': 781.0, 'completions/max_terminated_length': 3562.0, 'rewards/rollout_reward_func/mean': 12.10781192779541, 'rewards/rollout_reward_func/std': 5.30927038192749, 'reward': 12.107812881469727, 'reward_std': 5.309473991394043, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03801671043038368, 'sampling/sampling_logp_difference/max': 2.7829887866973877, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8705224990844727, 'sampling/importance_sampling_ratio/max': 2.661076784133911, 'kl': 0.7769416365772486, 'entropy': 0.10385478963144124, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.304883630989934, 'epoch': 1.62}
+ 20%|██        | 202/1000 [1:48:09<6:38:00, 29.92s/it] 20%|██        | 203/1000 [1:48:40<6:41:41, 30.24s/it]                                                      {'loss': 0.0005, 'grad_norm': 0.008829222992062569, 'learning_rate': 2.275076356605239e-05, 'num_tokens': 32881067.0, 'completions/mean_length': 1936.765625, 'completions/min_length': 1196.0, 'completions/max_length': 3560.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1936.765625, 'completions/min_terminated_length': 1196.0, 'completions/max_terminated_length': 3560.0, 'rewards/rollout_reward_func/mean': 10.8515625, 'rewards/rollout_reward_func/std': 5.142570495605469, 'reward': 10.8515625, 'reward_std': 4.978281021118164, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.037330299615859985, 'sampling/sampling_logp_difference/max': 4.661120891571045, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8413742780685425, 'sampling/importance_sampling_ratio/max': 2.802001476287842, 'kl': 0.9323254209011793, 'entropy': 0.0896534975618124, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.643979308006237, 'epoch': 1.62}
+ 20%|██        | 203/1000 [1:48:40<6:41:41, 30.24s/it] 20%|██        | 204/1000 [1:49:10<6:37:20, 29.95s/it]                                                      {'loss': -0.001, 'grad_norm': 0.007893512025475502, 'learning_rate': 2.272801176349371e-05, 'num_tokens': 33027083.0, 'completions/mean_length': 1737.75, 'completions/min_length': 851.0, 'completions/max_length': 3319.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1737.75, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 3319.0, 'rewards/rollout_reward_func/mean': 11.699999809265137, 'rewards/rollout_reward_func/std': 5.326304912567139, 'reward': 11.699999809265137, 'reward_std': 5.282549858093262, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.030139535665512085, 'sampling/sampling_logp_difference/max': 2.273725986480713, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9023457765579224, 'sampling/importance_sampling_ratio/max': 2.7758185863494873, 'kl': 0.5946981217712164, 'entropy': 0.07650575053412467, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.023656348006625, 'epoch': 1.63}
+ 20%|██        | 204/1000 [1:49:10<6:37:20, 29.95s/it] 20%|██        | 205/1000 [1:49:39<6:35:09, 29.82s/it]                                                      {'loss': -0.0007, 'grad_norm': 0.009569176472723484, 'learning_rate': 2.2705156964970122e-05, 'num_tokens': 33196706.0, 'completions/mean_length': 2096.984375, 'completions/min_length': 903.0, 'completions/max_length': 3271.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2096.984375, 'completions/min_terminated_length': 903.0, 'completions/max_terminated_length': 3271.0, 'rewards/rollout_reward_func/mean': 12.646875381469727, 'rewards/rollout_reward_func/std': 4.769312381744385, 'reward': 12.646875381469727, 'reward_std': 4.810293197631836, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04108048230409622, 'sampling/sampling_logp_difference/max': 2.885584831237793, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.778691828250885, 'sampling/importance_sampling_ratio/max': 2.8946545124053955, 'kl': 0.8062327653169632, 'entropy': 0.10150675126351416, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.2769329689836, 'epoch': 1.64}
+ 20%|██        | 205/1000 [1:49:39<6:35:09, 29.82s/it] 21%|██        | 206/1000 [1:50:09<6:33:30, 29.74s/it]                                                      {'loss': -0.0001, 'grad_norm': 0.008397972211241722, 'learning_rate': 2.2682199400629198e-05, 'num_tokens': 33365467.0, 'completions/mean_length': 2083.890625, 'completions/min_length': 1201.0, 'completions/max_length': 3385.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2083.890625, 'completions/min_terminated_length': 1201.0, 'completions/max_terminated_length': 3385.0, 'rewards/rollout_reward_func/mean': 11.649999618530273, 'rewards/rollout_reward_func/std': 5.237168788909912, 'reward': 11.649999618530273, 'reward_std': 5.122403621673584, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03848453611135483, 'sampling/sampling_logp_difference/max': 1.9789330959320068, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7920619249343872, 'sampling/importance_sampling_ratio/max': 2.2077512741088867, 'kl': 0.9495459981262684, 'entropy': 0.09174917452037334, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.39230190001399, 'epoch': 1.65}
+ 21%|██        | 206/1000 [1:50:09<6:33:30, 29.74s/it] 21%|██        | 207/1000 [1:50:40<6:40:01, 30.27s/it]                                                      {'loss': 0.0021, 'grad_norm': 0.011478601954877377, 'learning_rate': 2.265913930165335e-05, 'num_tokens': 33548159.0, 'completions/mean_length': 2295.5625, 'completions/min_length': 1212.0, 'completions/max_length': 3512.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2295.5625, 'completions/min_terminated_length': 1212.0, 'completions/max_terminated_length': 3512.0, 'rewards/rollout_reward_func/mean': 13.559374809265137, 'rewards/rollout_reward_func/std': 4.917985439300537, 'reward': 13.559374809265137, 'reward_std': 4.793633460998535, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03913592919707298, 'sampling/sampling_logp_difference/max': 1.8162553310394287, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.843961238861084, 'sampling/importance_sampling_ratio/max': 2.7933175563812256, 'kl': 0.6507331430912018, 'entropy': 0.10372008895501494, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.20018372501363, 'epoch': 1.66}
+ 21%|██        | 207/1000 [1:50:40<6:40:01, 30.27s/it] 21%|██        | 208/1000 [1:51:15<6:56:31, 31.55s/it]                                                      {'loss': -0.0019, 'grad_norm': 0.004726957995444536, 'learning_rate': 2.2635976900257525e-05, 'num_tokens': 33728623.0, 'completions/mean_length': 2262.375, 'completions/min_length': 852.0, 'completions/max_length': 3784.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2262.375, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3784.0, 'rewards/rollout_reward_func/mean': 11.043749809265137, 'rewards/rollout_reward_func/std': 5.331722259521484, 'reward': 11.043749809265137, 'reward_std': 4.999908447265625, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04071512073278427, 'sampling/sampling_logp_difference/max': 4.048957824707031, 'sampling/importance_sampling_ratio/min': 0.009174909442663193, 'sampling/importance_sampling_ratio/mean': 0.7458552718162537, 'sampling/importance_sampling_ratio/max': 2.2110137939453125, 'kl': 0.7315255105495453, 'entropy': 0.10035657417029142, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 33.09757649200037, 'epoch': 1.66}
+ 21%|██        | 208/1000 [1:51:15<6:56:31, 31.55s/it] 21%|██        | 209/1000 [1:51:45<6:53:06, 31.34s/it]                                                      {'loss': 0.0005, 'grad_norm': 0.006711229216307402, 'learning_rate': 2.2612712429686845e-05, 'num_tokens': 33898893.0, 'completions/mean_length': 2107.09375, 'completions/min_length': 853.0, 'completions/max_length': 3419.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2107.09375, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3419.0, 'rewards/rollout_reward_func/mean': 11.699999809265137, 'rewards/rollout_reward_func/std': 5.033412456512451, 'reward': 11.700000762939453, 'reward_std': 5.062093734741211, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.038175150752067566, 'sampling/sampling_logp_difference/max': 2.0411086082458496, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8105573654174805, 'sampling/importance_sampling_ratio/max': 2.449397087097168, 'kl': 0.636175106279552, 'entropy': 0.09971378976479173, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.533504206003272, 'epoch': 1.67}
+ 21%|██        | 209/1000 [1:51:45<6:53:06, 31.34s/it] 21%|██        | 210/1000 [1:52:16<6:50:36, 31.19s/it]                                                      {'loss': -0.0004, 'grad_norm': 0.011046904139220715, 'learning_rate': 2.2589346124214268e-05, 'num_tokens': 34062551.0, 'completions/mean_length': 2005.40625, 'completions/min_length': 784.0, 'completions/max_length': 3460.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2005.40625, 'completions/min_terminated_length': 784.0, 'completions/max_terminated_length': 3460.0, 'rewards/rollout_reward_func/mean': 11.3125, 'rewards/rollout_reward_func/std': 5.3160881996154785, 'reward': 11.3125, 'reward_std': 5.201615333557129, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04311478137969971, 'sampling/sampling_logp_difference/max': 2.2215993404388428, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8229559659957886, 'sampling/importance_sampling_ratio/max': 2.3743796348571777, 'kl': 0.7404845580458641, 'entropy': 0.09896150091663003, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.537958107983286, 'epoch': 1.68}
+ 21%|██        | 210/1000 [1:52:16<6:50:36, 31.19s/it] 21%|██        | 211/1000 [1:52:47<6:46:25, 30.91s/it]                                                      {'loss': -0.0006, 'grad_norm': 0.007049663923680782, 'learning_rate': 2.2565878219138235e-05, 'num_tokens': 34219962.0, 'completions/mean_length': 1911.421875, 'completions/min_length': 855.0, 'completions/max_length': 3451.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1911.421875, 'completions/min_terminated_length': 855.0, 'completions/max_terminated_length': 3451.0, 'rewards/rollout_reward_func/mean': 10.821874618530273, 'rewards/rollout_reward_func/std': 5.601090431213379, 'reward': 10.821874618530273, 'reward_std': 5.336147785186768, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03349887952208519, 'sampling/sampling_logp_difference/max': 1.7742056846618652, 'sampling/importance_sampling_ratio/min': 0.06292840093374252, 'sampling/importance_sampling_ratio/mean': 0.9297420382499695, 'sampling/importance_sampling_ratio/max': 2.3982975482940674, 'kl': 1.0676188003271818, 'entropy': 0.07962113339453936, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.01388627999404, 'epoch': 1.69}
+ 21%|██        | 211/1000 [1:52:47<6:46:25, 30.91s/it] 21%|██        | 212/1000 [1:53:19<6:53:25, 31.48s/it]                                                      {'loss': 0.001, 'grad_norm': 0.008801872842013836, 'learning_rate': 2.254230895078028e-05, 'num_tokens': 34381211.0, 'completions/mean_length': 1969.765625, 'completions/min_length': 849.0, 'completions/max_length': 3727.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1969.765625, 'completions/min_terminated_length': 849.0, 'completions/max_terminated_length': 3727.0, 'rewards/rollout_reward_func/mean': 11.035937309265137, 'rewards/rollout_reward_func/std': 5.375321865081787, 'reward': 11.035937309265137, 'reward_std': 5.048666477203369, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04196672886610031, 'sampling/sampling_logp_difference/max': 2.2690672874450684, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.758901834487915, 'sampling/importance_sampling_ratio/max': 2.9499752521514893, 'kl': 0.7719445265829563, 'entropy': 0.08885670593008399, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.500475653010653, 'epoch': 1.7}
+ 21%|██        | 212/1000 [1:53:19<6:53:25, 31.48s/it] 21%|██▏       | 213/1000 [1:53:49<6:46:02, 30.96s/it]                                                      {'loss': 0.0013, 'grad_norm': 0.009031016379594803, 'learning_rate': 2.251863855648269e-05, 'num_tokens': 34524997.0, 'completions/mean_length': 1704.90625, 'completions/min_length': 784.0, 'completions/max_length': 3390.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1704.90625, 'completions/min_terminated_length': 784.0, 'completions/max_terminated_length': 3390.0, 'rewards/rollout_reward_func/mean': 11.15781307220459, 'rewards/rollout_reward_func/std': 5.229640960693359, 'reward': 11.157812118530273, 'reward_std': 5.284061431884766, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03855413198471069, 'sampling/sampling_logp_difference/max': 3.4615676403045654, 'sampling/importance_sampling_ratio/min': 0.013064480386674404, 'sampling/importance_sampling_ratio/mean': 0.8874759078025818, 'sampling/importance_sampling_ratio/max': 2.7045578956604004, 'kl': 0.7733730282634497, 'entropy': 0.0765384326223284, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.652333733007254, 'epoch': 1.7}
+ 21%|██▏       | 213/1000 [1:53:49<6:46:02, 30.96s/it] 21%|██▏       | 214/1000 [1:54:20<6:46:37, 31.04s/it]                                                      {'loss': 0.001, 'grad_norm': 0.007264916319400072, 'learning_rate': 2.2494867274606062e-05, 'num_tokens': 34700012.0, 'completions/mean_length': 2178.859375, 'completions/min_length': 849.0, 'completions/max_length': 3563.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2178.859375, 'completions/min_terminated_length': 849.0, 'completions/max_terminated_length': 3563.0, 'rewards/rollout_reward_func/mean': 10.996874809265137, 'rewards/rollout_reward_func/std': 5.051700115203857, 'reward': 10.996875762939453, 'reward_std': 5.00506591796875, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04692799597978592, 'sampling/sampling_logp_difference/max': 2.7136759757995605, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7173769474029541, 'sampling/importance_sampling_ratio/max': 2.7287092208862305, 'kl': 1.2898365072906017, 'entropy': 0.09268508339300752, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.89926527198986, 'epoch': 1.71}
+ 21%|██▏       | 214/1000 [1:54:20<6:46:37, 31.04s/it] 22%|██▏       | 215/1000 [1:54:49<6:35:22, 30.22s/it]                                                      {'loss': 0.0001, 'grad_norm': 0.006668643094599247, 'learning_rate': 2.2470995344526943e-05, 'num_tokens': 34843518.0, 'completions/mean_length': 1700.53125, 'completions/min_length': 877.0, 'completions/max_length': 3215.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1700.53125, 'completions/min_terminated_length': 877.0, 'completions/max_terminated_length': 3215.0, 'rewards/rollout_reward_func/mean': 10.034374237060547, 'rewards/rollout_reward_func/std': 4.861975193023682, 'reward': 10.034374237060547, 'reward_std': 4.690974712371826, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04891428351402283, 'sampling/sampling_logp_difference/max': 4.256972789764404, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.709044337272644, 'sampling/importance_sampling_ratio/max': 2.7623486518859863, 'kl': 0.8569795973598957, 'entropy': 0.07139165606349707, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 27.08224536300986, 'epoch': 1.72}
+ 22%|██▏       | 215/1000 [1:54:49<6:35:22, 30.22s/it] 22%|██▏       | 216/1000 [1:55:19<6:35:06, 30.24s/it]                                                      {'loss': 0.0006, 'grad_norm': 0.00961575098335743, 'learning_rate': 2.2447023006635405e-05, 'num_tokens': 35011244.0, 'completions/mean_length': 2067.34375, 'completions/min_length': 853.0, 'completions/max_length': 3431.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2067.34375, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3431.0, 'rewards/rollout_reward_func/mean': 12.7421875, 'rewards/rollout_reward_func/std': 5.0195746421813965, 'reward': 12.7421875, 'reward_std': 5.065190315246582, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03950204700231552, 'sampling/sampling_logp_difference/max': 2.4572062492370605, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7508812546730042, 'sampling/importance_sampling_ratio/max': 2.650603771209717, 'kl': 0.7840627580881119, 'entropy': 0.08693959773518145, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.99266441198415, 'epoch': 1.73}
+ 22%|██▏       | 216/1000 [1:55:19<6:35:06, 30.24s/it] 22%|██▏       | 217/1000 [1:55:55<6:55:32, 31.84s/it]                                                      {'loss': -0.0026, 'grad_norm': 0.006112751085311174, 'learning_rate': 2.2422950502332617e-05, 'num_tokens': 35193546.0, 'completions/mean_length': 2289.46875, 'completions/min_length': 1385.0, 'completions/max_length': 4035.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2289.46875, 'completions/min_terminated_length': 1385.0, 'completions/max_terminated_length': 4035.0, 'rewards/rollout_reward_func/mean': 11.890625953674316, 'rewards/rollout_reward_func/std': 5.440405368804932, 'reward': 11.890625, 'reward_std': 5.4630022048950195, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.039790935814380646, 'sampling/sampling_logp_difference/max': 2.380880355834961, 'sampling/importance_sampling_ratio/min': 0.011418528854846954, 'sampling/importance_sampling_ratio/mean': 0.8790149092674255, 'sampling/importance_sampling_ratio/max': 2.934964179992676, 'kl': 0.7044957149773836, 'entropy': 0.08607573877088726, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 34.22058312399167, 'epoch': 1.74}
+ 22%|██▏       | 217/1000 [1:55:55<6:55:32, 31.84s/it] 22%|██▏       | 218/1000 [1:56:26<6:53:45, 31.75s/it]                                                      {'loss': 0.001, 'grad_norm': 0.007171120494604111, 'learning_rate': 2.239877807402844e-05, 'num_tokens': 35367565.0, 'completions/mean_length': 2163.671875, 'completions/min_length': 867.0, 'completions/max_length': 3518.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2163.671875, 'completions/min_terminated_length': 867.0, 'completions/max_terminated_length': 3518.0, 'rewards/rollout_reward_func/mean': 11.13906192779541, 'rewards/rollout_reward_func/std': 5.39646053314209, 'reward': 11.139062881469727, 'reward_std': 5.431002616882324, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03574259579181671, 'sampling/sampling_logp_difference/max': 2.6376490592956543, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8087481260299683, 'sampling/importance_sampling_ratio/max': 2.285490036010742, 'kl': 2.3551154378801584, 'entropy': 0.0789355137385428, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.19569242198486, 'epoch': 1.74}
+ 22%|██▏       | 218/1000 [1:56:26<6:53:45, 31.75s/it] 22%|██▏       | 219/1000 [1:56:57<6:48:53, 31.41s/it]                                                      {'loss': -0.0019, 'grad_norm': 0.006489423103630543, 'learning_rate': 2.2374505965138953e-05, 'num_tokens': 35517216.0, 'completions/mean_length': 1794.546875, 'completions/min_length': 864.0, 'completions/max_length': 3522.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1794.546875, 'completions/min_terminated_length': 864.0, 'completions/max_terminated_length': 3522.0, 'rewards/rollout_reward_func/mean': 11.243749618530273, 'rewards/rollout_reward_func/std': 5.343825340270996, 'reward': 11.243749618530273, 'reward_std': 5.056845188140869, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.047485899180173874, 'sampling/sampling_logp_difference/max': 2.29925537109375, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9035074710845947, 'sampling/importance_sampling_ratio/max': 2.842684030532837, 'kl': 1.159191396087408, 'entropy': 0.07035729964263737, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.33681193400116, 'epoch': 1.75}
+ 22%|██▏       | 219/1000 [1:56:57<6:48:53, 31.41s/it] 22%|██▏       | 220/1000 [1:57:27<6:45:20, 31.18s/it]                                                      {'loss': -0.0014, 'grad_norm': 0.009272843599319458, 'learning_rate': 2.2350134420084023e-05, 'num_tokens': 35697151.0, 'completions/mean_length': 2254.109375, 'completions/min_length': 853.0, 'completions/max_length': 3390.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2254.109375, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3390.0, 'rewards/rollout_reward_func/mean': 11.245311737060547, 'rewards/rollout_reward_func/std': 5.321234226226807, 'reward': 11.245311737060547, 'reward_std': 5.282187461853027, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.050598155707120895, 'sampling/sampling_logp_difference/max': 4.246241092681885, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7245813608169556, 'sampling/importance_sampling_ratio/max': 2.7860207557678223, 'kl': 0.8695343509316444, 'entropy': 0.10083187371492386, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.370264097982727, 'epoch': 1.76}
+ 22%|██▏       | 220/1000 [1:57:27<6:45:20, 31.18s/it] 22%|██▏       | 221/1000 [1:58:02<6:59:20, 32.30s/it]                                                      {'loss': -0.0003, 'grad_norm': 0.008344003930687904, 'learning_rate': 2.2325663684284844e-05, 'num_tokens': 35869929.0, 'completions/mean_length': 2143.90625, 'completions/min_length': 851.0, 'completions/max_length': 3764.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2143.90625, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 3764.0, 'rewards/rollout_reward_func/mean': 12.071874618530273, 'rewards/rollout_reward_func/std': 5.480281352996826, 'reward': 12.071874618530273, 'reward_std': 5.467265605926514, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.040578342974185944, 'sampling/sampling_logp_difference/max': 2.711564064025879, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7668206691741943, 'sampling/importance_sampling_ratio/max': 2.483407974243164, 'kl': 0.6878272201865911, 'entropy': 0.08925944310612977, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.52064234000136, 'epoch': 1.77}
+ 22%|██▏       | 221/1000 [1:58:02<6:59:20, 32.30s/it] 22%|██▏       | 222/1000 [1:58:28<6:32:50, 30.30s/it]                                                      {'loss': -0.0024, 'grad_norm': 0.007582474034279585, 'learning_rate': 2.230109400416145e-05, 'num_tokens': 36024841.0, 'completions/mean_length': 1872.75, 'completions/min_length': 849.0, 'completions/max_length': 2906.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1872.75, 'completions/min_terminated_length': 849.0, 'completions/max_terminated_length': 2906.0, 'rewards/rollout_reward_func/mean': 11.649999618530273, 'rewards/rollout_reward_func/std': 4.878719806671143, 'reward': 11.649999618530273, 'reward_std': 4.609518527984619, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03819945827126503, 'sampling/sampling_logp_difference/max': 1.9682402610778809, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9408347010612488, 'sampling/importance_sampling_ratio/max': 2.882598876953125, 'kl': 0.6772225461900234, 'entropy': 0.08384886966086924, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 24.546361374996195, 'epoch': 1.78}
+ 22%|██▏       | 222/1000 [1:58:28<6:32:50, 30.30s/it] 22%|██▏       | 223/1000 [1:58:59<6:37:05, 30.66s/it]                                                      {'loss': 0.0009, 'grad_norm': 0.009768147021532059, 'learning_rate': 2.2276425627130242e-05, 'num_tokens': 36183301.0, 'completions/mean_length': 1926.5625, 'completions/min_length': 864.0, 'completions/max_length': 3567.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1926.5625, 'completions/min_terminated_length': 864.0, 'completions/max_terminated_length': 3567.0, 'rewards/rollout_reward_func/mean': 11.151562690734863, 'rewards/rollout_reward_func/std': 5.1922407150268555, 'reward': 11.151562690734863, 'reward_std': 5.246365070343018, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04321781545877457, 'sampling/sampling_logp_difference/max': 2.6348135471343994, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7618780136108398, 'sampling/importance_sampling_ratio/max': 2.375960111618042, 'kl': 1.3108911402523518, 'entropy': 0.08004704932682216, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.191323767023277, 'epoch': 1.78}
+ 22%|██▏       | 223/1000 [1:58:59<6:37:05, 30.66s/it] 22%|██▏       | 224/1000 [1:59:31<6:38:42, 30.83s/it]                                                      {'loss': 0.0008, 'grad_norm': 0.007749280892312527, 'learning_rate': 2.225165880160151e-05, 'num_tokens': 36373438.0, 'completions/mean_length': 2407.515625, 'completions/min_length': 852.0, 'completions/max_length': 3452.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2407.515625, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3452.0, 'rewards/rollout_reward_func/mean': 12.545312881469727, 'rewards/rollout_reward_func/std': 5.572692394256592, 'reward': 12.545312881469727, 'reward_std': 5.1674346923828125, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03727236017584801, 'sampling/sampling_logp_difference/max': 2.5648982524871826, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7647356986999512, 'sampling/importance_sampling_ratio/max': 2.719820976257324, 'kl': 0.59779928997159, 'entropy': 0.09452861663885415, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.914228238012583, 'epoch': 1.79}
+ 22%|██▏       | 224/1000 [1:59:31<6:38:42, 30.83s/it] 22%|██▎       | 225/1000 [2:00:02<6:40:07, 30.98s/it]                                                      {'loss': 0.0006, 'grad_norm': 0.009941233322024345, 'learning_rate': 2.222679377697691e-05, 'num_tokens': 36547125.0, 'completions/mean_length': 2158.484375, 'completions/min_length': 849.0, 'completions/max_length': 3401.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2158.484375, 'completions/min_terminated_length': 849.0, 'completions/max_terminated_length': 3401.0, 'rewards/rollout_reward_func/mean': 12.40625, 'rewards/rollout_reward_func/std': 5.3740081787109375, 'reward': 12.40625, 'reward_std': 4.926560878753662, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.045261651277542114, 'sampling/sampling_logp_difference/max': 4.10806941986084, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7045148611068726, 'sampling/importance_sampling_ratio/max': 2.241767644882202, 'kl': 3.557689294219017, 'entropy': 0.0775289146695286, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.248543856985634, 'epoch': 1.8}
+ 22%|██▎       | 225/1000 [2:00:02<6:40:07, 30.98s/it] 23%|██▎       | 226/1000 [2:00:37<6:54:19, 32.12s/it]                                                      {'loss': -0.0004, 'grad_norm': 0.006660313345491886, 'learning_rate': 2.220183080364696e-05, 'num_tokens': 36707849.0, 'completions/mean_length': 1961.5625, 'completions/min_length': 851.0, 'completions/max_length': 3961.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1961.5625, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 3961.0, 'rewards/rollout_reward_func/mean': 10.02968692779541, 'rewards/rollout_reward_func/std': 5.285580635070801, 'reward': 10.029687881469727, 'reward_std': 4.962716102600098, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04467691481113434, 'sampling/sampling_logp_difference/max': 3.0181796550750732, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8016679883003235, 'sampling/importance_sampling_ratio/max': 2.5659945011138916, 'kl': 0.9349133167415857, 'entropy': 0.09043724788352847, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 33.282319432000804, 'epoch': 1.81}
+ 23%|██▎       | 226/1000 [2:00:37<6:54:19, 32.12s/it] 23%|██▎       | 227/1000 [2:01:26<8:00:51, 37.32s/it]                                                      {'loss': 0.0024, 'grad_norm': 0.011645457707345486, 'learning_rate': 2.2176770132988532e-05, 'num_tokens': 36869715.0, 'completions/mean_length': 1979.78125, 'completions/min_length': 850.0, 'completions/max_length': 5329.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1979.78125, 'completions/min_terminated_length': 850.0, 'completions/max_terminated_length': 5329.0, 'rewards/rollout_reward_func/mean': 10.621874809265137, 'rewards/rollout_reward_func/std': 5.532428741455078, 'reward': 10.621874809265137, 'reward_std': 5.296835899353027, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04059245437383652, 'sampling/sampling_logp_difference/max': 3.218510627746582, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.774509072303772, 'sampling/importance_sampling_ratio/max': 2.494602680206299, 'kl': 0.8501564022153616, 'entropy': 0.08179534156806767, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 47.310989443001745, 'epoch': 1.82}
+ 23%|██▎       | 227/1000 [2:01:26<8:00:51, 37.32s/it] 23%|██▎       | 228/1000 [2:01:53<7:19:10, 34.13s/it]                                                      {'loss': 0.0002, 'grad_norm': 0.008050709031522274, 'learning_rate': 2.2151612017362294e-05, 'num_tokens': 37037800.0, 'completions/mean_length': 2072.953125, 'completions/min_length': 852.0, 'completions/max_length': 2931.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2072.953125, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 2931.0, 'rewards/rollout_reward_func/mean': 11.995312690734863, 'rewards/rollout_reward_func/std': 5.287164211273193, 'reward': 11.995312690734863, 'reward_std': 5.010100364685059, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03642604500055313, 'sampling/sampling_logp_difference/max': 2.2785816192626953, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7904974818229675, 'sampling/importance_sampling_ratio/max': 2.700965166091919, 'kl': 0.6393748950213194, 'entropy': 0.0862458550836891, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 25.588171078983578, 'epoch': 1.82}
+ 23%|██▎       | 228/1000 [2:01:53<7:19:10, 34.13s/it] 23%|██▎       | 229/1000 [2:02:22<6:59:43, 32.66s/it]                                                      {'loss': 0.0006, 'grad_norm': 0.009307422675192356, 'learning_rate': 2.2126356710110195e-05, 'num_tokens': 37201868.0, 'completions/mean_length': 2011.8125, 'completions/min_length': 784.0, 'completions/max_length': 3286.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2011.8125, 'completions/min_terminated_length': 784.0, 'completions/max_terminated_length': 3286.0, 'rewards/rollout_reward_func/mean': 11.634374618530273, 'rewards/rollout_reward_func/std': 5.5958380699157715, 'reward': 11.634374618530273, 'reward_std': 5.7324652671813965, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.042549386620521545, 'sampling/sampling_logp_difference/max': 4.210791110992432, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7950068116188049, 'sampling/importance_sampling_ratio/max': 2.4719700813293457, 'kl': 1.2990490086376667, 'entropy': 0.0891680745407939, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 27.981415350019233, 'epoch': 1.83}
+ 23%|██▎       | 229/1000 [2:02:22<6:59:43, 32.66s/it] 23%|██▎       | 230/1000 [2:02:51<6:44:18, 31.50s/it]                                                      {'loss': 0.0003, 'grad_norm': 0.006631583906710148, 'learning_rate': 2.2101004465552898e-05, 'num_tokens': 37365405.0, 'completions/mean_length': 2003.890625, 'completions/min_length': 782.0, 'completions/max_length': 3196.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2003.890625, 'completions/min_terminated_length': 782.0, 'completions/max_terminated_length': 3196.0, 'rewards/rollout_reward_func/mean': 10.814062118530273, 'rewards/rollout_reward_func/std': 5.086486339569092, 'reward': 10.814062118530273, 'reward_std': 4.9448018074035645, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04041796922683716, 'sampling/sampling_logp_difference/max': 3.959108829498291, 'sampling/importance_sampling_ratio/min': 0.022906752303242683, 'sampling/importance_sampling_ratio/mean': 0.7182494401931763, 'sampling/importance_sampling_ratio/max': 1.6998114585876465, 'kl': 1.0333504192531109, 'entropy': 0.09478300821501762, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 27.582401783001842, 'epoch': 1.84}
+ 23%|██▎       | 230/1000 [2:02:51<6:44:18, 31.50s/it] 23%|██▎       | 231/1000 [2:03:17<6:22:00, 29.81s/it]                                                      {'loss': -0.0004, 'grad_norm': 0.008788246661424637, 'learning_rate': 2.2075555538987227e-05, 'num_tokens': 37517579.0, 'completions/mean_length': 1831.96875, 'completions/min_length': 866.0, 'completions/max_length': 2911.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1831.96875, 'completions/min_terminated_length': 866.0, 'completions/max_terminated_length': 2911.0, 'rewards/rollout_reward_func/mean': 12.053125381469727, 'rewards/rollout_reward_func/std': 5.187193393707275, 'reward': 12.053125381469727, 'reward_std': 4.719851970672607, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.037883441895246506, 'sampling/sampling_logp_difference/max': 3.2853009700775146, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8818324208259583, 'sampling/importance_sampling_ratio/max': 2.2037065029144287, 'kl': 0.8838545493781567, 'entropy': 0.08123828796669841, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 24.747773052986304, 'epoch': 1.85}
+ 23%|██▎       | 231/1000 [2:03:17<6:22:00, 29.81s/it] 23%|██▎       | 232/1000 [2:03:47<6:24:15, 30.02s/it]                                                      {'loss': 0.0004, 'grad_norm': 0.008338488638401031, 'learning_rate': 2.2050010186683583e-05, 'num_tokens': 37695953.0, 'completions/mean_length': 2229.71875, 'completions/min_length': 879.0, 'completions/max_length': 3437.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2229.71875, 'completions/min_terminated_length': 879.0, 'completions/max_terminated_length': 3437.0, 'rewards/rollout_reward_func/mean': 11.360937118530273, 'rewards/rollout_reward_func/std': 5.138791561126709, 'reward': 11.360937118530273, 'reward_std': 5.304172515869141, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04043237864971161, 'sampling/sampling_logp_difference/max': 2.6357221603393555, 'sampling/importance_sampling_ratio/min': 0.014926516450941563, 'sampling/importance_sampling_ratio/mean': 0.8145021200180054, 'sampling/importance_sampling_ratio/max': 2.7261431217193604, 'kl': 0.7220294680446386, 'entropy': 0.09985020477324724, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.26904608101904, 'epoch': 1.86}
+ 23%|██▎       | 232/1000 [2:03:47<6:24:15, 30.02s/it] 23%|██▎       | 233/1000 [2:04:17<6:24:03, 30.04s/it]                                                      {'loss': -0.0006, 'grad_norm': 0.009891826659440994, 'learning_rate': 2.202436866588339e-05, 'num_tokens': 37847027.0, 'completions/mean_length': 1815.15625, 'completions/min_length': 863.0, 'completions/max_length': 3451.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1815.15625, 'completions/min_terminated_length': 863.0, 'completions/max_terminated_length': 3451.0, 'rewards/rollout_reward_func/mean': 11.692188262939453, 'rewards/rollout_reward_func/std': 5.085688591003418, 'reward': 11.692188262939453, 'reward_std': 5.060473918914795, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04392050951719284, 'sampling/sampling_logp_difference/max': 3.7073681354522705, 'sampling/importance_sampling_ratio/min': 0.015878446400165558, 'sampling/importance_sampling_ratio/mean': 0.8443381786346436, 'sampling/importance_sampling_ratio/max': 2.9713175296783447, 'kl': 1.263867348432541, 'entropy': 0.08758665062487125, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.806862259996706, 'epoch': 1.86}
+ 23%|██▎       | 233/1000 [2:04:17<6:24:03, 30.04s/it] 23%|██▎       | 234/1000 [2:04:48<6:27:43, 30.37s/it]                                                      {'loss': -0.0004, 'grad_norm': 0.007364717312157154, 'learning_rate': 2.1998631234796464e-05, 'num_tokens': 38041609.0, 'completions/mean_length': 2475.34375, 'completions/min_length': 1181.0, 'completions/max_length': 3445.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2475.34375, 'completions/min_terminated_length': 1181.0, 'completions/max_terminated_length': 3445.0, 'rewards/rollout_reward_func/mean': 13.407812118530273, 'rewards/rollout_reward_func/std': 4.408624649047852, 'reward': 13.407812118530273, 'reward_std': 4.540295600891113, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03734513372182846, 'sampling/sampling_logp_difference/max': 2.8514678478240967, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7906790971755981, 'sampling/importance_sampling_ratio/max': 2.6357979774475098, 'kl': 0.5717235431075096, 'entropy': 0.11180883878841996, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.865437624008337, 'epoch': 1.87}
+ 23%|██▎       | 234/1000 [2:04:48<6:27:43, 30.37s/it] 24%|██▎       | 235/1000 [2:05:12<6:01:24, 28.35s/it]                                                      {'loss': -0.001, 'grad_norm': 0.010015194304287434, 'learning_rate': 2.1972798152598463e-05, 'num_tokens': 38180044.0, 'completions/mean_length': 1621.296875, 'completions/min_length': 780.0, 'completions/max_length': 2645.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1621.296875, 'completions/min_terminated_length': 780.0, 'completions/max_terminated_length': 2645.0, 'rewards/rollout_reward_func/mean': 12.1796875, 'rewards/rollout_reward_func/std': 5.208118915557861, 'reward': 12.1796875, 'reward_std': 5.136312484741211, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03428696468472481, 'sampling/sampling_logp_difference/max': 2.996201753616333, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8790243864059448, 'sampling/importance_sampling_ratio/max': 2.0280163288116455, 'kl': 0.9453792106360197, 'entropy': 0.07695575128309429, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 22.69603016799374, 'epoch': 1.88}
+ 24%|██▎       | 235/1000 [2:05:12<6:01:24, 28.35s/it] 24%|██▎       | 236/1000 [2:05:40<5:59:10, 28.21s/it]                                                      {'loss': -0.0006, 'grad_norm': 0.008536971174180508, 'learning_rate': 2.194686967942823e-05, 'num_tokens': 38306421.0, 'completions/mean_length': 1440.140625, 'completions/min_length': 784.0, 'completions/max_length': 3247.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1440.140625, 'completions/min_terminated_length': 784.0, 'completions/max_terminated_length': 3247.0, 'rewards/rollout_reward_func/mean': 11.082813262939453, 'rewards/rollout_reward_func/std': 5.372580528259277, 'reward': 11.082813262939453, 'reward_std': 5.083483695983887, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04513654485344887, 'sampling/sampling_logp_difference/max': 3.887403964996338, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8242225646972656, 'sampling/importance_sampling_ratio/max': 2.9503226280212402, 'kl': 1.9389589428901672, 'entropy': 0.07158622075803578, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 26.799738682006137, 'epoch': 1.89}
+ 24%|██▎       | 236/1000 [2:05:40<5:59:10, 28.21s/it] 24%|██▎       | 237/1000 [2:06:03<5:37:25, 26.53s/it]                                                      {'loss': -0.0006, 'grad_norm': 0.014000428840517998, 'learning_rate': 2.1920846076385205e-05, 'num_tokens': 38446645.0, 'completions/mean_length': 1649.25, 'completions/min_length': 853.0, 'completions/max_length': 2566.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1649.25, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 2566.0, 'rewards/rollout_reward_func/mean': 10.1953125, 'rewards/rollout_reward_func/std': 5.122171878814697, 'reward': 10.1953125, 'reward_std': 4.9869465827941895, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03948770463466644, 'sampling/sampling_logp_difference/max': 3.18003511428833, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7838850021362305, 'sampling/importance_sampling_ratio/max': 2.708766222000122, 'kl': 2.8281349446624517, 'entropy': 0.08880025381222367, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 21.69306809402042, 'epoch': 1.9}
+ 24%|██▎       | 237/1000 [2:06:03<5:37:25, 26.53s/it] 24%|██▍       | 238/1000 [2:06:32<5:47:53, 27.39s/it]                                                      {'loss': 0.0002, 'grad_norm': 0.008071595802903175, 'learning_rate': 2.1894727605526784e-05, 'num_tokens': 38620069.0, 'completions/mean_length': 2152.75, 'completions/min_length': 1271.0, 'completions/max_length': 3262.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2152.75, 'completions/min_terminated_length': 1271.0, 'completions/max_terminated_length': 3262.0, 'rewards/rollout_reward_func/mean': 10.68125057220459, 'rewards/rollout_reward_func/std': 4.899073123931885, 'reward': 10.681249618530273, 'reward_std': 4.929146766662598, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03596864640712738, 'sampling/sampling_logp_difference/max': 2.2198591232299805, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8259672522544861, 'sampling/importance_sampling_ratio/max': 2.3796944618225098, 'kl': 0.7187166381627321, 'entropy': 0.09950852836482227, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.16089373099385, 'epoch': 1.9}
+ 24%|██▍       | 238/1000 [2:06:32<5:47:53, 27.39s/it] 24%|██▍       | 239/1000 [2:07:02<5:58:23, 28.26s/it]                                                      {'loss': -0.0025, 'grad_norm': 0.008530636318027973, 'learning_rate': 2.1868514529865676e-05, 'num_tokens': 38774358.0, 'completions/mean_length': 1863.390625, 'completions/min_length': 853.0, 'completions/max_length': 3374.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1863.390625, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3374.0, 'rewards/rollout_reward_func/mean': 11.512499809265137, 'rewards/rollout_reward_func/std': 5.21163272857666, 'reward': 11.512499809265137, 'reward_std': 5.0219035148620605, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03531843423843384, 'sampling/sampling_logp_difference/max': 2.788693904876709, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9472934007644653, 'sampling/importance_sampling_ratio/max': 2.6780948638916016, 'kl': 0.7153478860855103, 'entropy': 0.08612893568351865, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.998903171996062, 'epoch': 1.91}
+ 24%|██▍       | 239/1000 [2:07:02<5:58:23, 28.26s/it] 24%|██▍       | 240/1000 [2:07:33<6:08:10, 29.07s/it]                                                      {'loss': -0.0003, 'grad_norm': 0.006027905736118555, 'learning_rate': 2.1842207113367264e-05, 'num_tokens': 38917214.0, 'completions/mean_length': 1690.0, 'completions/min_length': 854.0, 'completions/max_length': 3573.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1690.0, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 3573.0, 'rewards/rollout_reward_func/mean': 12.53125, 'rewards/rollout_reward_func/std': 4.596474647521973, 'reward': 12.53125, 'reward_std': 4.422868728637695, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03559039533138275, 'sampling/sampling_logp_difference/max': 4.927130699157715, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8377245664596558, 'sampling/importance_sampling_ratio/max': 2.2958500385284424, 'kl': 0.9540990553796291, 'entropy': 0.075646084966138, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.625518422973983, 'epoch': 1.92}
+ 24%|██▍       | 240/1000 [2:07:33<6:08:10, 29.07s/it] 24%|██▍       | 241/1000 [2:08:10<6:36:32, 31.35s/it]                                                      {'loss': -0.0016, 'grad_norm': 0.007369813974946737, 'learning_rate': 2.1815805620946937e-05, 'num_tokens': 39087872.0, 'completions/mean_length': 2112.78125, 'completions/min_length': 851.0, 'completions/max_length': 4024.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2112.78125, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 4024.0, 'rewards/rollout_reward_func/mean': 11.537500381469727, 'rewards/rollout_reward_func/std': 5.157288074493408, 'reward': 11.537500381469727, 'reward_std': 4.971852779388428, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04336469620466232, 'sampling/sampling_logp_difference/max': 3.3188648223876953, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7624608278274536, 'sampling/importance_sampling_ratio/max': 1.936090350151062, 'kl': 1.4373801928013563, 'entropy': 0.10356809198856354, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 34.26190209701599, 'epoch': 1.93}
+ 24%|██▍       | 241/1000 [2:08:10<6:36:32, 31.35s/it] 24%|██▍       | 242/1000 [2:08:38<6:25:20, 30.50s/it]                                                      {'loss': -0.0007, 'grad_norm': 0.016836045309901237, 'learning_rate': 2.178931031846743e-05, 'num_tokens': 39246840.0, 'completions/mean_length': 1934.125, 'completions/min_length': 783.0, 'completions/max_length': 3171.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1934.125, 'completions/min_terminated_length': 783.0, 'completions/max_terminated_length': 3171.0, 'rewards/rollout_reward_func/mean': 12.514062881469727, 'rewards/rollout_reward_func/std': 4.906130313873291, 'reward': 12.514062881469727, 'reward_std': 4.95142936706543, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.039943963289260864, 'sampling/sampling_logp_difference/max': 2.32949161529541, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8169939517974854, 'sampling/importance_sampling_ratio/max': 2.0986692905426025, 'kl': 6.089932003989816, 'entropy': 0.08997133513912559, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 27.30446396001207, 'epoch': 1.94}
+ 24%|██▍       | 242/1000 [2:08:38<6:25:20, 30.50s/it] 24%|██▍       | 243/1000 [2:09:10<6:29:23, 30.86s/it]                                                      {'loss': -0.0002, 'grad_norm': 0.007200357969850302, 'learning_rate': 2.1762721472736147e-05, 'num_tokens': 39436705.0, 'completions/mean_length': 2403.640625, 'completions/min_length': 1214.0, 'completions/max_length': 3520.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2403.640625, 'completions/min_terminated_length': 1214.0, 'completions/max_terminated_length': 3520.0, 'rewards/rollout_reward_func/mean': 12.001562118530273, 'rewards/rollout_reward_func/std': 5.758568286895752, 'reward': 12.001562118530273, 'reward_std': 5.839413166046143, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.045941997319459915, 'sampling/sampling_logp_difference/max': 2.468721389770508, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7353655099868774, 'sampling/importance_sampling_ratio/max': 2.8330116271972656, 'kl': 0.9240234903991222, 'entropy': 0.11095247324556112, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.428954017013893, 'epoch': 1.94}
+ 24%|██▍       | 243/1000 [2:09:10<6:29:23, 30.86s/it] 24%|██▍       | 244/1000 [2:09:41<6:27:45, 30.77s/it]                                                      {'loss': 0.0012, 'grad_norm': 0.007738328538835049, 'learning_rate': 2.173603935150247e-05, 'num_tokens': 39609952.0, 'completions/mean_length': 2151.609375, 'completions/min_length': 850.0, 'completions/max_length': 3308.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2151.609375, 'completions/min_terminated_length': 850.0, 'completions/max_terminated_length': 3308.0, 'rewards/rollout_reward_func/mean': 11.603124618530273, 'rewards/rollout_reward_func/std': 5.556491374969482, 'reward': 11.603124618530273, 'reward_std': 5.090999603271484, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03472823277115822, 'sampling/sampling_logp_difference/max': 2.4033501148223877, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7567458152770996, 'sampling/importance_sampling_ratio/max': 2.3360462188720703, 'kl': 0.8150924202054739, 'entropy': 0.09608022682368755, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.312285136991704, 'epoch': 1.95}
+ 24%|██▍       | 244/1000 [2:09:41<6:27:45, 30.77s/it] 24%|██▍       | 245/1000 [2:10:12<6:28:33, 30.88s/it]                                                      {'loss': -0.0018, 'grad_norm': 0.006191035732626915, 'learning_rate': 2.170926422345506e-05, 'num_tokens': 39772393.0, 'completions/mean_length': 1988.390625, 'completions/min_length': 856.0, 'completions/max_length': 3502.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1988.390625, 'completions/min_terminated_length': 856.0, 'completions/max_terminated_length': 3502.0, 'rewards/rollout_reward_func/mean': 11.745312690734863, 'rewards/rollout_reward_func/std': 5.012268543243408, 'reward': 11.745312690734863, 'reward_std': 5.062958717346191, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.042114585638046265, 'sampling/sampling_logp_difference/max': 2.17205810546875, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7996531128883362, 'sampling/importance_sampling_ratio/max': 2.9051356315612793, 'kl': 0.6799482218921185, 'entropy': 0.10128534655086696, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.818025820008188, 'epoch': 1.96}
+ 24%|██▍       | 245/1000 [2:10:12<6:28:33, 30.88s/it] 25%|██▍       | 246/1000 [2:10:42<6:26:17, 30.74s/it]                                                      {'loss': -0.0035, 'grad_norm': 0.014181075617671013, 'learning_rate': 2.1682396358219165e-05, 'num_tokens': 39924257.0, 'completions/mean_length': 1827.125, 'completions/min_length': 783.0, 'completions/max_length': 3527.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1827.125, 'completions/min_terminated_length': 783.0, 'completions/max_terminated_length': 3527.0, 'rewards/rollout_reward_func/mean': 10.365625381469727, 'rewards/rollout_reward_func/std': 5.051833629608154, 'reward': 10.365625381469727, 'reward_std': 4.989461898803711, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03945025056600571, 'sampling/sampling_logp_difference/max': 2.4009392261505127, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9070467948913574, 'sampling/importance_sampling_ratio/max': 2.727113962173462, 'kl': 0.6364340065047145, 'entropy': 0.0917978803627193, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.142322339990642, 'epoch': 1.97}
+ 25%|██▍       | 246/1000 [2:10:42<6:26:17, 30.74s/it] 25%|██▍       | 247/1000 [2:11:13<6:24:31, 30.64s/it]                                                      {'loss': -0.0006, 'grad_norm': 0.007769403047859669, 'learning_rate': 2.1655436026353886e-05, 'num_tokens': 40109199.0, 'completions/mean_length': 2328.71875, 'completions/min_length': 1290.0, 'completions/max_length': 3361.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2328.71875, 'completions/min_terminated_length': 1290.0, 'completions/max_terminated_length': 3361.0, 'rewards/rollout_reward_func/mean': 12.0546875, 'rewards/rollout_reward_func/std': 5.3040547370910645, 'reward': 12.0546875, 'reward_std': 4.567568778991699, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04634358733892441, 'sampling/sampling_logp_difference/max': 2.539235830307007, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8168951272964478, 'sampling/importance_sampling_ratio/max': 2.94232439994812, 'kl': 0.7814737632870674, 'entropy': 0.11531037651002407, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.13988769700518, 'epoch': 1.98}
+ 25%|██▍       | 247/1000 [2:11:13<6:24:31, 30.64s/it] 25%|██▍       | 248/1000 [2:11:43<6:21:12, 30.42s/it]                                                      {'loss': 0.0004, 'grad_norm': 0.008242513053119183, 'learning_rate': 2.1628383499349468e-05, 'num_tokens': 40267343.0, 'completions/mean_length': 1922.0, 'completions/min_length': 1218.0, 'completions/max_length': 3345.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1922.0, 'completions/min_terminated_length': 1218.0, 'completions/max_terminated_length': 3345.0, 'rewards/rollout_reward_func/mean': 9.959375381469727, 'rewards/rollout_reward_func/std': 4.987881183624268, 'reward': 9.959375381469727, 'reward_std': 4.736184597015381, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04323352128267288, 'sampling/sampling_logp_difference/max': 2.7265465259552, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.6672220230102539, 'sampling/importance_sampling_ratio/max': 2.5039334297180176, 'kl': 4.067114070057869, 'entropy': 0.09453113446943462, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.643899015005445, 'epoch': 1.98}
+ 25%|██▍       | 248/1000 [2:11:43<6:21:12, 30.42s/it] 25%|██▍       | 249/1000 [2:12:13<6:19:04, 30.29s/it]                                                      {'loss': 0.0003, 'grad_norm': 0.00867762602865696, 'learning_rate': 2.1601239049624553e-05, 'num_tokens': 40435973.0, 'completions/mean_length': 2081.09375, 'completions/min_length': 852.0, 'completions/max_length': 3361.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2081.09375, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3361.0, 'rewards/rollout_reward_func/mean': 11.407812118530273, 'rewards/rollout_reward_func/std': 5.086031436920166, 'reward': 11.407812118530273, 'reward_std': 5.259588241577148, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.039975136518478394, 'sampling/sampling_logp_difference/max': 2.3639283180236816, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9302937984466553, 'sampling/importance_sampling_ratio/max': 2.9770381450653076, 'kl': 0.586734090000391, 'entropy': 0.10594361135736108, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.719050864012388, 'epoch': 1.99}
+ 25%|██▍       | 249/1000 [2:12:13<6:19:04, 30.29s/it] 25%|██▌       | 250/1000 [2:12:37<5:56:15, 28.50s/it]                                                      {'loss': 0.0016, 'grad_norm': 0.008533692918717861, 'learning_rate': 2.1574002950523452e-05, 'num_tokens': 40571543.0, 'completions/mean_length': 1580.15625, 'completions/min_length': 849.0, 'completions/max_length': 2722.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1580.15625, 'completions/min_terminated_length': 849.0, 'completions/max_terminated_length': 2722.0, 'rewards/rollout_reward_func/mean': 10.967187881469727, 'rewards/rollout_reward_func/std': 5.134541034698486, 'reward': 10.967187881469727, 'reward_std': 5.050651550292969, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03580886125564575, 'sampling/sampling_logp_difference/max': 3.558103561401367, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.935956597328186, 'sampling/importance_sampling_ratio/max': 2.5026168823242188, 'kl': 0.6649150475859642, 'entropy': 0.08644001139327884, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 23.24990090099891, 'epoch': 2.0}
+ 25%|██▌       | 250/1000 [2:12:37<5:56:15, 28.50s/it] 25%|██▌       | 251/1000 [2:13:06<5:58:40, 28.73s/it]                                                      {'loss': 0.0005, 'grad_norm': 0.008587880991399288, 'learning_rate': 2.154667547631338e-05, 'num_tokens': 40713711.0, 'completions/mean_length': 1680.0, 'completions/min_length': 782.0, 'completions/max_length': 3350.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1680.0, 'completions/min_terminated_length': 782.0, 'completions/max_terminated_length': 3350.0, 'rewards/rollout_reward_func/mean': 10.957812309265137, 'rewards/rollout_reward_func/std': 5.123640060424805, 'reward': 10.957812309265137, 'reward_std': 5.388172149658203, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03574346378445625, 'sampling/sampling_logp_difference/max': 2.2615928649902344, 'sampling/importance_sampling_ratio/min': 0.0218689925968647, 'sampling/importance_sampling_ratio/mean': 0.8568673729896545, 'sampling/importance_sampling_ratio/max': 2.599104881286621, 'kl': 1.2711819857358932, 'entropy': 0.0931279684882611, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.055000493011903, 'epoch': 2.01}
+ 25%|██▌       | 251/1000 [2:13:06<5:58:40, 28.73s/it] 25%|██▌       | 252/1000 [2:13:36<6:01:57, 29.03s/it]                                                      {'loss': 0.0, 'grad_norm': 0.009310846216976643, 'learning_rate': 2.1519256902181696e-05, 'num_tokens': 40877775.0, 'completions/mean_length': 2011.75, 'completions/min_length': 876.0, 'completions/max_length': 3384.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2011.75, 'completions/min_terminated_length': 876.0, 'completions/max_terminated_length': 3384.0, 'rewards/rollout_reward_func/mean': 11.678125381469727, 'rewards/rollout_reward_func/std': 5.513258934020996, 'reward': 11.678125381469727, 'reward_std': 5.269593238830566, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.045564450323581696, 'sampling/sampling_logp_difference/max': 3.7922396659851074, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8387809991836548, 'sampling/importance_sampling_ratio/max': 2.9790663719177246, 'kl': 1.3709256425499916, 'entropy': 0.10477888351306319, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.656204426995828, 'epoch': 2.02}
+ 25%|██▌       | 252/1000 [2:13:36<6:01:57, 29.03s/it] 25%|██▌       | 253/1000 [2:14:00<5:41:34, 27.44s/it]                                                      {'loss': -0.0007, 'grad_norm': 0.010022800415754318, 'learning_rate': 2.1491747504233138e-05, 'num_tokens': 41017272.0, 'completions/mean_length': 1638.265625, 'completions/min_length': 782.0, 'completions/max_length': 2694.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1638.265625, 'completions/min_terminated_length': 782.0, 'completions/max_terminated_length': 2694.0, 'rewards/rollout_reward_func/mean': 10.681249618530273, 'rewards/rollout_reward_func/std': 5.364222526550293, 'reward': 10.681249618530273, 'reward_std': 5.125035285949707, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03589204326272011, 'sampling/sampling_logp_difference/max': 6.37791633605957, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8965423107147217, 'sampling/importance_sampling_ratio/max': 2.8677375316619873, 'kl': 0.7603042721748352, 'entropy': 0.08378879050724208, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 22.734574734007765, 'epoch': 2.02}
+ 25%|██▌       | 253/1000 [2:14:00<5:41:34, 27.44s/it] 25%|██▌       | 254/1000 [2:14:31<5:55:14, 28.57s/it]                                                      {'loss': 0.0002, 'grad_norm': 0.006929404102265835, 'learning_rate': 2.1464147559487046e-05, 'num_tokens': 41176560.0, 'completions/mean_length': 1939.125, 'completions/min_length': 866.0, 'completions/max_length': 3501.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1939.125, 'completions/min_terminated_length': 866.0, 'completions/max_terminated_length': 3501.0, 'rewards/rollout_reward_func/mean': 11.239063262939453, 'rewards/rollout_reward_func/std': 5.407449722290039, 'reward': 11.239063262939453, 'reward_std': 5.3464837074279785, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.026350826025009155, 'sampling/sampling_logp_difference/max': 1.9131488800048828, 'sampling/importance_sampling_ratio/min': 0.13569417595863342, 'sampling/importance_sampling_ratio/mean': 0.886516273021698, 'sampling/importance_sampling_ratio/max': 2.1864869594573975, 'kl': 0.6080313380807638, 'entropy': 0.09698082134127617, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.123772500992345, 'epoch': 2.03}
+ 25%|██▌       | 254/1000 [2:14:31<5:55:14, 28.57s/it] 26%|██▌       | 255/1000 [2:15:04<6:13:05, 30.05s/it]                                                      {'loss': -0.0028, 'grad_norm': 0.007936734706163406, 'learning_rate': 2.1436457345874543e-05, 'num_tokens': 41348651.0, 'completions/mean_length': 2135.546875, 'completions/min_length': 852.0, 'completions/max_length': 3705.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2135.546875, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3705.0, 'rewards/rollout_reward_func/mean': 11.823436737060547, 'rewards/rollout_reward_func/std': 5.139227867126465, 'reward': 11.823437690734863, 'reward_std': 5.004044055938721, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04167373478412628, 'sampling/sampling_logp_difference/max': 2.850966691970825, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8091497421264648, 'sampling/importance_sampling_ratio/max': 2.3951926231384277, 'kl': 0.9478838443756104, 'entropy': 0.11678050342015922, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.076732498004276, 'epoch': 2.04}
+ 26%|██▌       | 255/1000 [2:15:04<6:13:05, 30.05s/it] 26%|██▌       | 256/1000 [2:15:27<5:46:05, 27.91s/it]                                                      {'loss': -0.0003, 'grad_norm': 0.009030524641275406, 'learning_rate': 2.140867714223579e-05, 'num_tokens': 41478056.0, 'completions/mean_length': 1485.453125, 'completions/min_length': 781.0, 'completions/max_length': 2575.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1485.453125, 'completions/min_terminated_length': 781.0, 'completions/max_terminated_length': 2575.0, 'rewards/rollout_reward_func/mean': 10.529687881469727, 'rewards/rollout_reward_func/std': 5.472548961639404, 'reward': 10.529687881469727, 'reward_std': 5.203451156616211, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.032068222761154175, 'sampling/sampling_logp_difference/max': 2.7997779846191406, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8598824143409729, 'sampling/importance_sampling_ratio/max': 2.399839162826538, 'kl': 0.5183453457430005, 'entropy': 0.08420763351023197, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 22.016710859999876, 'epoch': 2.05}
+ 26%|██▌       | 256/1000 [2:15:27<5:46:05, 27.91s/it] 26%|██▌       | 257/1000 [2:15:56<5:47:09, 28.03s/it]                                                      {'loss': 0.0007, 'grad_norm': 0.008775322698056698, 'learning_rate': 2.1380807228317114e-05, 'num_tokens': 41615648.0, 'completions/mean_length': 1609.75, 'completions/min_length': 849.0, 'completions/max_length': 3164.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1609.75, 'completions/min_terminated_length': 849.0, 'completions/max_terminated_length': 3164.0, 'rewards/rollout_reward_func/mean': 10.145313262939453, 'rewards/rollout_reward_func/std': 5.240893363952637, 'reward': 10.145313262939453, 'reward_std': 5.392340183258057, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.037591420114040375, 'sampling/sampling_logp_difference/max': 5.791772842407227, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9561945199966431, 'sampling/importance_sampling_ratio/max': 2.782449960708618, 'kl': 0.6986254937946796, 'entropy': 0.09391331812366843, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 27.104844530003902, 'epoch': 2.06}
+ 26%|██▌       | 257/1000 [2:15:56<5:47:09, 28.03s/it] 26%|██▌       | 258/1000 [2:16:25<5:51:02, 28.39s/it]                                                      {'loss': -0.0003, 'grad_norm': 0.005501268431544304, 'learning_rate': 2.135284788476824e-05, 'num_tokens': 41769070.0, 'completions/mean_length': 1849.84375, 'completions/min_length': 878.0, 'completions/max_length': 3286.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1849.84375, 'completions/min_terminated_length': 878.0, 'completions/max_terminated_length': 3286.0, 'rewards/rollout_reward_func/mean': 11.431249618530273, 'rewards/rollout_reward_func/std': 5.149661064147949, 'reward': 11.431249618530273, 'reward_std': 5.189329147338867, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03722834587097168, 'sampling/sampling_logp_difference/max': 2.31611967086792, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7801781892776489, 'sampling/importance_sampling_ratio/max': 2.949793577194214, 'kl': 0.8036739565432072, 'entropy': 0.09275410324335098, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.095464592995995, 'epoch': 2.06}
+ 26%|██▌       | 258/1000 [2:16:25<5:51:02, 28.39s/it] 26%|██▌       | 259/1000 [2:16:53<5:51:31, 28.46s/it]                                                      {'loss': 0.001, 'grad_norm': 0.00880847591906786, 'learning_rate': 2.1324799393139457e-05, 'num_tokens': 41919367.0, 'completions/mean_length': 1802.640625, 'completions/min_length': 787.0, 'completions/max_length': 3219.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1802.640625, 'completions/min_terminated_length': 787.0, 'completions/max_terminated_length': 3219.0, 'rewards/rollout_reward_func/mean': 11.715624809265137, 'rewards/rollout_reward_func/std': 5.083406448364258, 'reward': 11.715624809265137, 'reward_std': 5.1945695877075195, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03135869279503822, 'sampling/sampling_logp_difference/max': 2.8445262908935547, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.928925633430481, 'sampling/importance_sampling_ratio/max': 2.400277853012085, 'kl': 0.5832162443548441, 'entropy': 0.0883020288310945, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 27.416280369005108, 'epoch': 2.07}
+ 26%|██▌       | 259/1000 [2:16:53<5:51:31, 28.46s/it] 26%|██▌       | 260/1000 [2:17:25<6:04:04, 29.52s/it]                                                      {'loss': -0.0023, 'grad_norm': 0.008185560815036297, 'learning_rate': 2.1296662035878755e-05, 'num_tokens': 42098938.0, 'completions/mean_length': 2248.421875, 'completions/min_length': 854.0, 'completions/max_length': 3581.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2248.421875, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 3581.0, 'rewards/rollout_reward_func/mean': 12.6484375, 'rewards/rollout_reward_func/std': 5.608723163604736, 'reward': 12.6484375, 'reward_std': 5.04000186920166, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.039685897529125214, 'sampling/sampling_logp_difference/max': 3.776791572570801, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8865291476249695, 'sampling/importance_sampling_ratio/max': 2.6789515018463135, 'kl': 0.7533298041671515, 'entropy': 0.10927228908985853, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.810067677994084, 'epoch': 2.08}
+ 26%|██▌       | 260/1000 [2:17:25<6:04:04, 29.52s/it] 26%|██▌       | 261/1000 [2:17:55<6:05:48, 29.70s/it]                                                      {'loss': -0.0, 'grad_norm': 0.01227042730897665, 'learning_rate': 2.1268436096329018e-05, 'num_tokens': 42257462.0, 'completions/mean_length': 1927.5625, 'completions/min_length': 854.0, 'completions/max_length': 3306.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1927.5625, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 3306.0, 'rewards/rollout_reward_func/mean': 11.453125, 'rewards/rollout_reward_func/std': 5.154994010925293, 'reward': 11.453125, 'reward_std': 5.107373237609863, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04039674997329712, 'sampling/sampling_logp_difference/max': 2.507258176803589, 'sampling/importance_sampling_ratio/min': 0.04406984895467758, 'sampling/importance_sampling_ratio/mean': 0.8927628993988037, 'sampling/importance_sampling_ratio/max': 2.9632222652435303, 'kl': 0.777791166678071, 'entropy': 0.10378169198520482, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.06607452098251, 'epoch': 2.09}
+ 26%|██▌       | 261/1000 [2:17:56<6:05:48, 29.70s/it] 26%|██▌       | 262/1000 [2:18:29<6:17:54, 30.72s/it]                                                      {'loss': 0.0009, 'grad_norm': 0.008318642154335976, 'learning_rate': 2.1240121858725133e-05, 'num_tokens': 42427001.0, 'completions/mean_length': 2095.296875, 'completions/min_length': 856.0, 'completions/max_length': 3686.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2095.296875, 'completions/min_terminated_length': 856.0, 'completions/max_terminated_length': 3686.0, 'rewards/rollout_reward_func/mean': 12.396875381469727, 'rewards/rollout_reward_func/std': 5.132806777954102, 'reward': 12.39687442779541, 'reward_std': 5.284188270568848, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03595453500747681, 'sampling/sampling_logp_difference/max': 2.3810224533081055, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8809590935707092, 'sampling/importance_sampling_ratio/max': 2.4308674335479736, 'kl': 0.7496023904532194, 'entropy': 0.10921902675181627, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.75779570598388, 'epoch': 2.1}
+ 26%|██▌       | 262/1000 [2:18:29<6:17:54, 30.72s/it] 26%|██▋       | 263/1000 [2:18:53<5:55:27, 28.94s/it]                                                      {'loss': -0.0014, 'grad_norm': 0.008190116845071316, 'learning_rate': 2.121171960819117e-05, 'num_tokens': 42580673.0, 'completions/mean_length': 1853.75, 'completions/min_length': 850.0, 'completions/max_length': 2785.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1853.75, 'completions/min_terminated_length': 850.0, 'completions/max_terminated_length': 2785.0, 'rewards/rollout_reward_func/mean': 10.6484375, 'rewards/rollout_reward_func/std': 5.444058895111084, 'reward': 10.6484375, 'reward_std': 5.382284641265869, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.043139778077602386, 'sampling/sampling_logp_difference/max': 2.9690675735473633, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.739190936088562, 'sampling/importance_sampling_ratio/max': 2.837451219558716, 'kl': 0.8674879651516676, 'entropy': 0.10059633897617459, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 23.751278171992453, 'epoch': 2.1}
+ 26%|██▋       | 263/1000 [2:18:53<5:55:27, 28.94s/it] 26%|██▋       | 264/1000 [2:19:22<5:54:38, 28.91s/it]                                                      {'loss': -0.0009, 'grad_norm': 0.005136275198310614, 'learning_rate': 2.1183229630737467e-05, 'num_tokens': 42747989.0, 'completions/mean_length': 2061.3125, 'completions/min_length': 1276.0, 'completions/max_length': 3205.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2061.3125, 'completions/min_terminated_length': 1276.0, 'completions/max_terminated_length': 3205.0, 'rewards/rollout_reward_func/mean': 12.65468692779541, 'rewards/rollout_reward_func/std': 4.551815986633301, 'reward': 12.654687881469727, 'reward_std': 3.9271605014801025, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.034781381487846375, 'sampling/sampling_logp_difference/max': 2.0460164546966553, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7611558437347412, 'sampling/importance_sampling_ratio/max': 2.780073881149292, 'kl': 0.745820302516222, 'entropy': 0.0981521182693541, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 27.731049193978834, 'epoch': 2.11}
+ 26%|██▋       | 264/1000 [2:19:22<5:54:38, 28.91s/it] 26%|██▋       | 265/1000 [2:19:51<5:55:09, 28.99s/it]                                                      {'loss': 0.0002, 'grad_norm': 0.008836343884468079, 'learning_rate': 2.1154652213257785e-05, 'num_tokens': 42903525.0, 'completions/mean_length': 1882.125, 'completions/min_length': 852.0, 'completions/max_length': 3288.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1882.125, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3288.0, 'rewards/rollout_reward_func/mean': 12.292187690734863, 'rewards/rollout_reward_func/std': 4.8019609451293945, 'reward': 12.292187690734863, 'reward_std': 4.904354572296143, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03806982934474945, 'sampling/sampling_logp_difference/max': 3.1493735313415527, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8714000582695007, 'sampling/importance_sampling_ratio/max': 2.6135830879211426, 'kl': 0.6187220048159361, 'entropy': 0.0938264480791986, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 27.924944632992265, 'epoch': 2.12}
+ 26%|██▋       | 265/1000 [2:19:51<5:55:09, 28.99s/it] 27%|██▋       | 266/1000 [2:20:22<6:02:15, 29.61s/it]                                                      {'loss': -0.0022, 'grad_norm': 0.006705458275973797, 'learning_rate': 2.1125987643526402e-05, 'num_tokens': 43088663.0, 'completions/mean_length': 2331.40625, 'completions/min_length': 853.0, 'completions/max_length': 3453.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2331.40625, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3453.0, 'rewards/rollout_reward_func/mean': 13.034374237060547, 'rewards/rollout_reward_func/std': 5.128204822540283, 'reward': 13.034375190734863, 'reward_std': 4.849051475524902, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.039836492389440536, 'sampling/sampling_logp_difference/max': 2.18048095703125, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7340459823608398, 'sampling/importance_sampling_ratio/max': 2.2456130981445312, 'kl': 0.7827695235610008, 'entropy': 0.10455934726633132, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.75813764800114, 'epoch': 2.13}
+ 27%|██▋       | 266/1000 [2:20:22<6:02:15, 29.61s/it] 27%|██▋       | 267/1000 [2:20:52<6:02:22, 29.66s/it]                                                      {'loss': -0.0009, 'grad_norm': 0.00582122290506959, 'learning_rate': 2.1097236210195214e-05, 'num_tokens': 43269272.0, 'completions/mean_length': 2263.015625, 'completions/min_length': 1113.0, 'completions/max_length': 3347.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2263.015625, 'completions/min_terminated_length': 1113.0, 'completions/max_terminated_length': 3347.0, 'rewards/rollout_reward_func/mean': 11.690624237060547, 'rewards/rollout_reward_func/std': 5.230792045593262, 'reward': 11.690624237060547, 'reward_std': 5.264988899230957, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03911761939525604, 'sampling/sampling_logp_difference/max': 1.9160289764404297, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8432695269584656, 'sampling/importance_sampling_ratio/max': 2.9152276515960693, 'kl': 0.7000790815800428, 'entropy': 0.10605437913909554, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.52070260099572, 'epoch': 2.14}
+ 27%|██▋       | 267/1000 [2:20:52<6:02:22, 29.66s/it] 27%|██▋       | 268/1000 [2:21:21<5:56:54, 29.25s/it]                                                      {'loss': -0.0012, 'grad_norm': 0.007015329319983721, 'learning_rate': 2.1068398202790835e-05, 'num_tokens': 43429302.0, 'completions/mean_length': 1951.09375, 'completions/min_length': 849.0, 'completions/max_length': 3176.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1951.09375, 'completions/min_terminated_length': 849.0, 'completions/max_terminated_length': 3176.0, 'rewards/rollout_reward_func/mean': 11.295312881469727, 'rewards/rollout_reward_func/std': 5.455489158630371, 'reward': 11.295312881469727, 'reward_std': 5.230184078216553, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.042158208787441254, 'sampling/sampling_logp_difference/max': 2.9268851280212402, 'sampling/importance_sampling_ratio/min': 0.022295068949460983, 'sampling/importance_sampling_ratio/mean': 0.8236985206604004, 'sampling/importance_sampling_ratio/max': 2.717648983001709, 'kl': 0.9290051721036434, 'entropy': 0.09822606854140759, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 27.19378787298774, 'epoch': 2.14}
+ 27%|██▋       | 268/1000 [2:21:21<5:56:54, 29.25s/it] 27%|██▋       | 269/1000 [2:21:48<5:48:43, 28.62s/it]                                                      {'loss': -0.0021, 'grad_norm': 0.006642290391027927, 'learning_rate': 2.1039473911711682e-05, 'num_tokens': 43574817.0, 'completions/mean_length': 1729.921875, 'completions/min_length': 853.0, 'completions/max_length': 3096.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1729.921875, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3096.0, 'rewards/rollout_reward_func/mean': 11.317187309265137, 'rewards/rollout_reward_func/std': 5.619680881500244, 'reward': 11.317187309265137, 'reward_std': 5.182733535766602, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.039451755583286285, 'sampling/sampling_logp_difference/max': 2.4791793823242188, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8142743706703186, 'sampling/importance_sampling_ratio/max': 2.1628592014312744, 'kl': 2.646189659833908, 'entropy': 0.0909157523419708, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 25.967952553997748, 'epoch': 2.15}
+ 27%|██▋       | 269/1000 [2:21:48<5:48:43, 28.62s/it] 27%|██▋       | 270/1000 [2:22:18<5:53:32, 29.06s/it]                                                      {'loss': -0.0021, 'grad_norm': 0.005141160450875759, 'learning_rate': 2.1010463628225045e-05, 'num_tokens': 43727664.0, 'completions/mean_length': 1842.484375, 'completions/min_length': 852.0, 'completions/max_length': 3473.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1842.484375, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3473.0, 'rewards/rollout_reward_func/mean': 9.875, 'rewards/rollout_reward_func/std': 5.5924272537231445, 'reward': 9.875, 'reward_std': 5.377303123474121, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03644624352455139, 'sampling/sampling_logp_difference/max': 2.3888697624206543, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8718760013580322, 'sampling/importance_sampling_ratio/max': 2.222674608230591, 'kl': 0.6757049970328808, 'entropy': 0.08490106905810535, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.918610494009044, 'epoch': 2.16}
+ 27%|██▋       | 270/1000 [2:22:18<5:53:32, 29.06s/it] 27%|██▋       | 271/1000 [2:22:47<5:54:49, 29.20s/it]                                                      {'loss': -0.0008, 'grad_norm': 0.006986568216234446, 'learning_rate': 2.0981367644464152e-05, 'num_tokens': 43883133.0, 'completions/mean_length': 1881.453125, 'completions/min_length': 853.0, 'completions/max_length': 3342.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1881.453125, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3342.0, 'rewards/rollout_reward_func/mean': 12.514062881469727, 'rewards/rollout_reward_func/std': 4.9269866943359375, 'reward': 12.514062881469727, 'reward_std': 4.857025146484375, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04401348903775215, 'sampling/sampling_logp_difference/max': 2.869414806365967, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7406433820724487, 'sampling/importance_sampling_ratio/max': 2.6716625690460205, 'kl': 1.0006041452288628, 'entropy': 0.08744840556755662, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.29115352800727, 'epoch': 2.17}
+ 27%|██▋       | 271/1000 [2:22:47<5:54:49, 29.20s/it] 27%|██▋       | 272/1000 [2:23:18<6:00:36, 29.72s/it]                                                      {'loss': -0.0001, 'grad_norm': 0.006669962778687477, 'learning_rate': 2.0952186253425242e-05, 'num_tokens': 44054297.0, 'completions/mean_length': 2120.6875, 'completions/min_length': 867.0, 'completions/max_length': 3522.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2120.6875, 'completions/min_terminated_length': 867.0, 'completions/max_terminated_length': 3522.0, 'rewards/rollout_reward_func/mean': 11.05000114440918, 'rewards/rollout_reward_func/std': 4.885190010070801, 'reward': 11.049999237060547, 'reward_std': 4.960146427154541, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.0442931093275547, 'sampling/sampling_logp_difference/max': 4.230431079864502, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.664546012878418, 'sampling/importance_sampling_ratio/max': 2.9827961921691895, 'kl': 1.1315018311142921, 'entropy': 0.0925153405405581, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.750471885992738, 'epoch': 2.18}
+ 27%|██▋       | 272/1000 [2:23:18<6:00:36, 29.72s/it] 27%|██▋       | 273/1000 [2:23:44<5:44:23, 28.42s/it]                                                      {'loss': -0.0021, 'grad_norm': 0.010559442453086376, 'learning_rate': 2.0922919748964602e-05, 'num_tokens': 44204969.0, 'completions/mean_length': 1808.875, 'completions/min_length': 939.0, 'completions/max_length': 2870.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1808.875, 'completions/min_terminated_length': 939.0, 'completions/max_terminated_length': 2870.0, 'rewards/rollout_reward_func/mean': 11.515625, 'rewards/rollout_reward_func/std': 4.870162487030029, 'reward': 11.515625, 'reward_std': 4.8771772384643555, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03895588964223862, 'sampling/sampling_logp_difference/max': 2.219838857650757, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8906980752944946, 'sampling/importance_sampling_ratio/max': 2.647822618484497, 'kl': 0.7138301189988852, 'entropy': 0.08142835379112512, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 24.328953115997138, 'epoch': 2.18}
+ 27%|██▋       | 273/1000 [2:23:44<5:44:23, 28.42s/it] 27%|██▋       | 274/1000 [2:24:22<6:18:21, 31.27s/it]                                                      {'loss': -0.0005, 'grad_norm': 0.006834544241428375, 'learning_rate': 2.0893568425795597e-05, 'num_tokens': 44359581.0, 'completions/mean_length': 1869.6875, 'completions/min_length': 851.0, 'completions/max_length': 4238.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1869.6875, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 4238.0, 'rewards/rollout_reward_func/mean': 12.340624809265137, 'rewards/rollout_reward_func/std': 4.506599426269531, 'reward': 12.340625762939453, 'reward_std': 4.641163349151611, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04216397926211357, 'sampling/sampling_logp_difference/max': 2.5686333179473877, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8047362565994263, 'sampling/importance_sampling_ratio/max': 2.3556528091430664, 'kl': 0.697532944381237, 'entropy': 0.0879159914329648, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 36.26156201799313, 'epoch': 2.19}
+ 27%|██▋       | 274/1000 [2:24:22<6:18:21, 31.27s/it] 28%|██▊       | 275/1000 [2:24:53<6:18:44, 31.34s/it]                                                      {'loss': 0.0016, 'grad_norm': 0.009936406277120113, 'learning_rate': 2.086413257948573e-05, 'num_tokens': 44533734.0, 'completions/mean_length': 2165.390625, 'completions/min_length': 853.0, 'completions/max_length': 3592.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2165.390625, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3592.0, 'rewards/rollout_reward_func/mean': 11.6953125, 'rewards/rollout_reward_func/std': 5.3999834060668945, 'reward': 11.6953125, 'reward_std': 5.2289299964904785, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04660051316022873, 'sampling/sampling_logp_difference/max': 2.8931422233581543, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8073419332504272, 'sampling/importance_sampling_ratio/max': 2.979750394821167, 'kl': 1.5503064543008804, 'entropy': 0.10579981002956629, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.344702548994974, 'epoch': 2.2}
+ 28%|██▊       | 275/1000 [2:24:53<6:18:44, 31.34s/it] 28%|██▊       | 276/1000 [2:25:18<5:53:29, 29.29s/it]                                                      {'loss': 0.0001, 'grad_norm': 0.008496603928506374, 'learning_rate': 2.0834612506453645e-05, 'num_tokens': 44662381.0, 'completions/mean_length': 1473.984375, 'completions/min_length': 783.0, 'completions/max_length': 2785.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1473.984375, 'completions/min_terminated_length': 783.0, 'completions/max_terminated_length': 2785.0, 'rewards/rollout_reward_func/mean': 10.876562118530273, 'rewards/rollout_reward_func/std': 5.31752872467041, 'reward': 10.876562118530273, 'reward_std': 4.995001316070557, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03222605958580971, 'sampling/sampling_logp_difference/max': 2.318422317504883, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 1.0078109502792358, 'sampling/importance_sampling_ratio/max': 2.9872851371765137, 'kl': 0.7992148417979479, 'entropy': 0.06616907846182585, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 23.461131621006643, 'epoch': 2.21}
+ 28%|██▊       | 276/1000 [2:25:18<5:53:29, 29.29s/it] 28%|██▊       | 277/1000 [2:25:52<6:11:02, 30.79s/it]                                                      {'loss': -0.0007, 'grad_norm': 0.008800210431218147, 'learning_rate': 2.0805008503966155e-05, 'num_tokens': 44809791.0, 'completions/mean_length': 1760.78125, 'completions/min_length': 853.0, 'completions/max_length': 3939.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1760.78125, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3939.0, 'rewards/rollout_reward_func/mean': 11.4609375, 'rewards/rollout_reward_func/std': 5.165534019470215, 'reward': 11.4609375, 'reward_std': 5.041398048400879, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04079565405845642, 'sampling/sampling_logp_difference/max': 1.9190387725830078, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7745736837387085, 'sampling/importance_sampling_ratio/max': 2.865086317062378, 'kl': 0.9406151715666056, 'entropy': 0.0753444543806836, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.78572886501206, 'epoch': 2.22}
+ 28%|██▊       | 277/1000 [2:25:52<6:11:02, 30.79s/it] 28%|██▊       | 278/1000 [2:26:21<6:06:02, 30.42s/it]                                                      {'loss': -0.0005, 'grad_norm': 0.006367911584675312, 'learning_rate': 2.0775320870135234e-05, 'num_tokens': 44966385.0, 'completions/mean_length': 1899.03125, 'completions/min_length': 852.0, 'completions/max_length': 3284.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1899.03125, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3284.0, 'rewards/rollout_reward_func/mean': 11.518749237060547, 'rewards/rollout_reward_func/std': 5.164619445800781, 'reward': 11.518749237060547, 'reward_std': 4.727207183837891, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04131384566426277, 'sampling/sampling_logp_difference/max': 3.491272211074829, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7338567972183228, 'sampling/importance_sampling_ratio/max': 2.550506591796875, 'kl': 1.1757062654942274, 'entropy': 0.07134196814149618, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.42871876998106, 'epoch': 2.22}
+ 28%|██▊       | 278/1000 [2:26:21<6:06:02, 30.42s/it] 28%|██▊       | 279/1000 [2:26:50<6:00:25, 29.99s/it]                                                      {'loss': 0.0009, 'grad_norm': 0.004377696197479963, 'learning_rate': 2.0745549903915022e-05, 'num_tokens': 45104993.0, 'completions/mean_length': 1625.625, 'completions/min_length': 785.0, 'completions/max_length': 3340.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1625.625, 'completions/min_terminated_length': 785.0, 'completions/max_terminated_length': 3340.0, 'rewards/rollout_reward_func/mean': 11.901562690734863, 'rewards/rollout_reward_func/std': 4.501762866973877, 'reward': 11.901562690734863, 'reward_std': 4.477827072143555, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03817489743232727, 'sampling/sampling_logp_difference/max': 3.2533793449401855, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8097872734069824, 'sampling/importance_sampling_ratio/max': 2.8364365100860596, 'kl': 0.6881487648934126, 'entropy': 0.0690035407897085, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 27.750766286008, 'epoch': 2.23}
+ 28%|██▊       | 279/1000 [2:26:50<6:00:25, 29.99s/it] 28%|██▊       | 280/1000 [2:27:18<5:49:50, 29.15s/it]                                                      {'loss': 0.0034, 'grad_norm': 0.009351513348519802, 'learning_rate': 2.071569590509882e-05, 'num_tokens': 45266754.0, 'completions/mean_length': 1976.515625, 'completions/min_length': 1331.0, 'completions/max_length': 3074.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1976.515625, 'completions/min_terminated_length': 1331.0, 'completions/max_terminated_length': 3074.0, 'rewards/rollout_reward_func/mean': 11.260937690734863, 'rewards/rollout_reward_func/std': 5.159384250640869, 'reward': 11.260937690734863, 'reward_std': 5.340173721313477, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03957843780517578, 'sampling/sampling_logp_difference/max': 2.639400005340576, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7998144626617432, 'sampling/importance_sampling_ratio/max': 2.480408191680908, 'kl': 0.798940597102046, 'entropy': 0.07252779952250421, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 26.020222014994943, 'epoch': 2.24}
+ 28%|██▊       | 280/1000 [2:27:18<5:49:50, 29.15s/it] 28%|██▊       | 281/1000 [2:27:48<5:53:37, 29.51s/it]                                                      {'loss': -0.0002, 'grad_norm': 0.008793388493359089, 'learning_rate': 2.0685759174316066e-05, 'num_tokens': 45413875.0, 'completions/mean_length': 1755.015625, 'completions/min_length': 783.0, 'completions/max_length': 3455.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1755.015625, 'completions/min_terminated_length': 783.0, 'completions/max_terminated_length': 3455.0, 'rewards/rollout_reward_func/mean': 12.512499809265137, 'rewards/rollout_reward_func/std': 5.505797863006592, 'reward': 12.512499809265137, 'reward_std': 4.920589447021484, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04450583457946777, 'sampling/sampling_logp_difference/max': 3.898533582687378, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8778698444366455, 'sampling/importance_sampling_ratio/max': 2.7601158618927, 'kl': 0.9052340686321259, 'entropy': 0.06441331631503999, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.274238797006547, 'epoch': 2.25}
+ 28%|██▊       | 281/1000 [2:27:48<5:53:37, 29.51s/it] 28%|██▊       | 282/1000 [2:28:18<5:55:27, 29.70s/it]                                                      {'loss': -0.0005, 'grad_norm': 0.007449854165315628, 'learning_rate': 2.0655740013029304e-05, 'num_tokens': 45565488.0, 'completions/mean_length': 1824.828125, 'completions/min_length': 854.0, 'completions/max_length': 3447.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1824.828125, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 3447.0, 'rewards/rollout_reward_func/mean': 12.1328125, 'rewards/rollout_reward_func/std': 5.28108549118042, 'reward': 12.1328125, 'reward_std': 4.956879615783691, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03804563730955124, 'sampling/sampling_logp_difference/max': 3.0826683044433594, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9047191739082336, 'sampling/importance_sampling_ratio/max': 2.990147113800049, 'kl': 1.1406009290367365, 'entropy': 0.07790789380669594, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.8599773179958, 'epoch': 2.26}
+ 28%|██▊       | 282/1000 [2:28:18<5:55:27, 29.70s/it] 28%|██▊       | 283/1000 [2:28:48<5:54:21, 29.65s/it]                                                      {'loss': 0.001, 'grad_norm': 0.006907358765602112, 'learning_rate': 2.0625638723531158e-05, 'num_tokens': 45737871.0, 'completions/mean_length': 2138.484375, 'completions/min_length': 1273.0, 'completions/max_length': 3274.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2138.484375, 'completions/min_terminated_length': 1273.0, 'completions/max_terminated_length': 3274.0, 'rewards/rollout_reward_func/mean': 11.578125, 'rewards/rollout_reward_func/std': 5.346248626708984, 'reward': 11.578125, 'reward_std': 5.344842910766602, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03779621049761772, 'sampling/sampling_logp_difference/max': 2.9884939193725586, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7801387906074524, 'sampling/importance_sampling_ratio/max': 2.111389636993408, 'kl': 0.7499540075659752, 'entropy': 0.08408063603565097, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.287481978979486, 'epoch': 2.26}
+ 28%|██▊       | 283/1000 [2:28:48<5:54:21, 29.65s/it] 28%|██▊       | 284/1000 [2:29:18<5:57:02, 29.92s/it]                                                      {'loss': -0.0016, 'grad_norm': 0.005392459686845541, 'learning_rate': 2.059545560894128e-05, 'num_tokens': 45908107.0, 'completions/mean_length': 2106.5625, 'completions/min_length': 851.0, 'completions/max_length': 3498.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2106.5625, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 3498.0, 'rewards/rollout_reward_func/mean': 11.587499618530273, 'rewards/rollout_reward_func/std': 5.353696346282959, 'reward': 11.587499618530273, 'reward_std': 5.410764217376709, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.0385667085647583, 'sampling/sampling_logp_difference/max': 2.7205140590667725, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8067678809165955, 'sampling/importance_sampling_ratio/max': 2.1463963985443115, 'kl': 0.770334891974926, 'entropy': 0.08617733884602785, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.272590980028326, 'epoch': 2.27}
+ 28%|██▊       | 284/1000 [2:29:18<5:57:02, 29.92s/it] 28%|██▊       | 285/1000 [2:29:47<5:51:30, 29.50s/it]                                                      {'loss': -0.0007, 'grad_norm': 0.005054387263953686, 'learning_rate': 2.056519097320329e-05, 'num_tokens': 46054450.0, 'completions/mean_length': 1742.484375, 'completions/min_length': 782.0, 'completions/max_length': 3233.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1742.484375, 'completions/min_terminated_length': 782.0, 'completions/max_terminated_length': 3233.0, 'rewards/rollout_reward_func/mean': 11.884374618530273, 'rewards/rollout_reward_func/std': 5.081283092498779, 'reward': 11.884374618530273, 'reward_std': 4.87539529800415, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04492112994194031, 'sampling/sampling_logp_difference/max': 3.820101261138916, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8506947159767151, 'sampling/importance_sampling_ratio/max': 2.531229019165039, 'kl': 0.7897760719060898, 'entropy': 0.07891877787187696, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 27.418959551003354, 'epoch': 2.28}
+ 28%|██▊       | 285/1000 [2:29:47<5:51:30, 29.50s/it] 29%|██▊       | 286/1000 [2:30:10<5:30:39, 27.79s/it]                                                      {'loss': 0.0002, 'grad_norm': 0.007421440910547972, 'learning_rate': 2.0534845121081742e-05, 'num_tokens': 46191822.0, 'completions/mean_length': 1607.0625, 'completions/min_length': 865.0, 'completions/max_length': 2721.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1607.0625, 'completions/min_terminated_length': 865.0, 'completions/max_terminated_length': 2721.0, 'rewards/rollout_reward_func/mean': 11.875, 'rewards/rollout_reward_func/std': 5.354600429534912, 'reward': 11.875, 'reward_std': 5.095478057861328, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.036237724125385284, 'sampling/sampling_logp_difference/max': 1.9003089666366577, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8573486804962158, 'sampling/importance_sampling_ratio/max': 2.398547887802124, 'kl': 0.8033260814845562, 'entropy': 0.06794568814802915, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 22.87111732498306, 'epoch': 2.29}
+ 29%|██▊       | 286/1000 [2:30:10<5:30:39, 27.79s/it] 29%|██▊       | 287/1000 [2:30:42<5:42:33, 28.83s/it]                                                      {'loss': 0.0006, 'grad_norm': 0.004845760762691498, 'learning_rate': 2.050441835815903e-05, 'num_tokens': 46391960.0, 'completions/mean_length': 2560.15625, 'completions/min_length': 1267.0, 'completions/max_length': 3428.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2560.15625, 'completions/min_terminated_length': 1267.0, 'completions/max_terminated_length': 3428.0, 'rewards/rollout_reward_func/mean': 12.375, 'rewards/rollout_reward_func/std': 5.194197177886963, 'reward': 12.375, 'reward_std': 4.6748762130737305, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04299898445606232, 'sampling/sampling_logp_difference/max': 4.3670654296875, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7268415689468384, 'sampling/importance_sampling_ratio/max': 2.750488042831421, 'kl': 1.0068263076245785, 'entropy': 0.0997175951488316, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.995677712991892, 'epoch': 2.3}
+ 29%|██▊       | 287/1000 [2:30:42<5:42:33, 28.83s/it] 29%|██▉       | 288/1000 [2:31:13<5:49:14, 29.43s/it]                                                      {'loss': 0.0007, 'grad_norm': 0.007057651877403259, 'learning_rate': 2.047391099083232e-05, 'num_tokens': 46565168.0, 'completions/mean_length': 2151.375, 'completions/min_length': 1200.0, 'completions/max_length': 3397.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2151.375, 'completions/min_terminated_length': 1200.0, 'completions/max_terminated_length': 3397.0, 'rewards/rollout_reward_func/mean': 11.410937309265137, 'rewards/rollout_reward_func/std': 5.309713363647461, 'reward': 11.410937309265137, 'reward_std': 4.935744762420654, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04089018329977989, 'sampling/sampling_logp_difference/max': 3.073976993560791, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9117587208747864, 'sampling/importance_sampling_ratio/max': 2.919304847717285, 'kl': 0.8617631271481514, 'entropy': 0.09775183303281665, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.546167347005394, 'epoch': 2.3}
+ 29%|██▉       | 288/1000 [2:31:13<5:49:14, 29.43s/it] 29%|██▉       | 289/1000 [2:31:42<5:47:59, 29.37s/it]                                                      {'loss': 0.0002, 'grad_norm': 0.009503448382019997, 'learning_rate': 2.0443323326310455e-05, 'num_tokens': 46719505.0, 'completions/mean_length': 1865.390625, 'completions/min_length': 853.0, 'completions/max_length': 3282.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1865.390625, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3282.0, 'rewards/rollout_reward_func/mean': 11.392187118530273, 'rewards/rollout_reward_func/std': 4.994038105010986, 'reward': 11.392187118530273, 'reward_std': 4.763206481933594, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03362860158085823, 'sampling/sampling_logp_difference/max': 2.2198104858398438, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 1.0198209285736084, 'sampling/importance_sampling_ratio/max': 2.7387661933898926, 'kl': 0.7440424561500549, 'entropy': 0.08491557952947915, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 27.965197786994395, 'epoch': 2.31}
+ 29%|██▉       | 289/1000 [2:31:42<5:47:59, 29.37s/it] 29%|██▉       | 290/1000 [2:32:11<5:48:39, 29.46s/it]                                                      {'loss': 0.0008, 'grad_norm': 0.007625249680131674, 'learning_rate': 2.041265567261088e-05, 'num_tokens': 46892136.0, 'completions/mean_length': 2141.984375, 'completions/min_length': 852.0, 'completions/max_length': 3329.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2141.984375, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3329.0, 'rewards/rollout_reward_func/mean': 11.885936737060547, 'rewards/rollout_reward_func/std': 5.118310451507568, 'reward': 11.885937690734863, 'reward_std': 4.98820686340332, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03717843443155289, 'sampling/sampling_logp_difference/max': 2.0010643005371094, 'sampling/importance_sampling_ratio/min': 0.0700136348605156, 'sampling/importance_sampling_ratio/mean': 0.8319182395935059, 'sampling/importance_sampling_ratio/max': 2.5814015865325928, 'kl': 0.8139162249863148, 'entropy': 0.09362294408492744, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.440214347981964, 'epoch': 2.32}
+ 29%|██▉       | 290/1000 [2:32:11<5:48:39, 29.46s/it] 29%|██▉       | 291/1000 [2:32:41<5:50:04, 29.63s/it]                                                      {'loss': -0.0011, 'grad_norm': 0.00701137725263834, 'learning_rate': 2.0381908338556532e-05, 'num_tokens': 47047143.0, 'completions/mean_length': 1874.609375, 'completions/min_length': 781.0, 'completions/max_length': 3448.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1874.609375, 'completions/min_terminated_length': 781.0, 'completions/max_terminated_length': 3448.0, 'rewards/rollout_reward_func/mean': 11.95937442779541, 'rewards/rollout_reward_func/std': 5.204263210296631, 'reward': 11.95937442779541, 'reward_std': 5.195836067199707, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03461695462465286, 'sampling/sampling_logp_difference/max': 3.0891947746276855, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8235978484153748, 'sampling/importance_sampling_ratio/max': 2.8752899169921875, 'kl': 0.7831478081643581, 'entropy': 0.08546587196178734, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.85803655599011, 'epoch': 2.33}
+ 29%|██▉       | 291/1000 [2:32:42<5:50:04, 29.63s/it] 29%|██▉       | 292/1000 [2:33:12<5:51:23, 29.78s/it]                                                      {'loss': 0.0004, 'grad_norm': 0.007889079861342907, 'learning_rate': 2.035108163377272e-05, 'num_tokens': 47221523.0, 'completions/mean_length': 2169.3125, 'completions/min_length': 866.0, 'completions/max_length': 3374.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2169.3125, 'completions/min_terminated_length': 866.0, 'completions/max_terminated_length': 3374.0, 'rewards/rollout_reward_func/mean': 11.732812881469727, 'rewards/rollout_reward_func/std': 5.270012855529785, 'reward': 11.732812881469727, 'reward_std': 4.879397392272949, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.037940673530101776, 'sampling/sampling_logp_difference/max': 2.1423048973083496, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8472950458526611, 'sampling/importance_sampling_ratio/max': 2.9602668285369873, 'kl': 1.0522046033293009, 'entropy': 0.0976118496619165, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.862307833020168, 'epoch': 2.34}
+ 29%|██▉       | 292/1000 [2:33:12<5:51:23, 29.78s/it] 29%|██▉       | 293/1000 [2:33:44<5:59:47, 30.53s/it]                                                      {'loss': -0.0017, 'grad_norm': 0.006719979457557201, 'learning_rate': 2.032017586868402e-05, 'num_tokens': 47401851.0, 'completions/mean_length': 2260.25, 'completions/min_length': 784.0, 'completions/max_length': 3566.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2260.25, 'completions/min_terminated_length': 784.0, 'completions/max_terminated_length': 3566.0, 'rewards/rollout_reward_func/mean': 11.442188262939453, 'rewards/rollout_reward_func/std': 5.515859127044678, 'reward': 11.442188262939453, 'reward_std': 5.244712829589844, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.042444370687007904, 'sampling/sampling_logp_difference/max': 3.116879463195801, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.81174635887146, 'sampling/importance_sampling_ratio/max': 2.4352519512176514, 'kl': 0.8352920114994049, 'entropy': 0.1134680884424597, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.956383504002588, 'epoch': 2.34}
+ 29%|██▉       | 293/1000 [2:33:44<5:59:47, 30.53s/it] 29%|██▉       | 294/1000 [2:34:15<6:00:25, 30.63s/it]                                                      {'loss': 0.0014, 'grad_norm': 0.005594147369265556, 'learning_rate': 2.028919135451114e-05, 'num_tokens': 47568228.0, 'completions/mean_length': 2047.890625, 'completions/min_length': 782.0, 'completions/max_length': 3496.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2047.890625, 'completions/min_terminated_length': 782.0, 'completions/max_terminated_length': 3496.0, 'rewards/rollout_reward_func/mean': 11.220312118530273, 'rewards/rollout_reward_func/std': 4.673980236053467, 'reward': 11.220312118530273, 'reward_std': 4.531404972076416, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.039567235857248306, 'sampling/sampling_logp_difference/max': 2.442917823791504, 'sampling/importance_sampling_ratio/min': 0.07040469348430634, 'sampling/importance_sampling_ratio/mean': 0.8216954469680786, 'sampling/importance_sampling_ratio/max': 2.2917869091033936, 'kl': 1.068208009004593, 'entropy': 0.10129218641668558, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.587726874997315, 'epoch': 2.35}
+ 29%|██▉       | 294/1000 [2:34:15<6:00:25, 30.63s/it] 30%|██▉       | 295/1000 [2:34:46<6:01:44, 30.79s/it]                                                      {'loss': 0.0007, 'grad_norm': 0.00901186466217041, 'learning_rate': 2.0258128403267797e-05, 'num_tokens': 47716023.0, 'completions/mean_length': 1765.546875, 'completions/min_length': 866.0, 'completions/max_length': 3548.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1765.546875, 'completions/min_terminated_length': 866.0, 'completions/max_terminated_length': 3548.0, 'rewards/rollout_reward_func/mean': 11.0859375, 'rewards/rollout_reward_func/std': 5.104989051818848, 'reward': 11.085936546325684, 'reward_std': 5.244254112243652, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03684466332197189, 'sampling/sampling_logp_difference/max': 2.37357234954834, 'sampling/importance_sampling_ratio/min': 0.04583562910556793, 'sampling/importance_sampling_ratio/mean': 0.8517575263977051, 'sampling/importance_sampling_ratio/max': 2.472344160079956, 'kl': 1.4541764445602894, 'entropy': 0.0872607440687716, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.812172204008675, 'epoch': 2.36}
+ 30%|██▉       | 295/1000 [2:34:46<6:01:44, 30.79s/it] 30%|██▉       | 296/1000 [2:35:18<6:04:09, 31.04s/it]                                                      {'loss': 0.0002, 'grad_norm': 0.007078992668539286, 'learning_rate': 2.0226987327757565e-05, 'num_tokens': 47890529.0, 'completions/mean_length': 2170.90625, 'completions/min_length': 779.0, 'completions/max_length': 3559.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2170.90625, 'completions/min_terminated_length': 779.0, 'completions/max_terminated_length': 3559.0, 'rewards/rollout_reward_func/mean': 12.234375, 'rewards/rollout_reward_func/std': 5.412367820739746, 'reward': 12.234375, 'reward_std': 5.168522834777832, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.041179873049259186, 'sampling/sampling_logp_difference/max': 1.846939206123352, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.788399875164032, 'sampling/importance_sampling_ratio/max': 2.2669878005981445, 'kl': 0.6375602465122938, 'entropy': 0.1038790219463408, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.31010039501416, 'epoch': 2.37}
+ 30%|██▉       | 296/1000 [2:35:18<6:04:09, 31.04s/it] 30%|██▉       | 297/1000 [2:35:46<5:55:43, 30.36s/it]                                                      {'loss': -0.002, 'grad_norm': 0.007437642198055983, 'learning_rate': 2.0195768441570727e-05, 'num_tokens': 48043908.0, 'completions/mean_length': 1849.546875, 'completions/min_length': 1209.0, 'completions/max_length': 3258.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1849.546875, 'completions/min_terminated_length': 1209.0, 'completions/max_terminated_length': 3258.0, 'rewards/rollout_reward_func/mean': 13.1171875, 'rewards/rollout_reward_func/std': 4.814975261688232, 'reward': 13.1171875, 'reward_std': 4.952689170837402, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03947363793849945, 'sampling/sampling_logp_difference/max': 2.005984306335449, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.837746798992157, 'sampling/importance_sampling_ratio/max': 2.2331626415252686, 'kl': 0.6333158798515797, 'entropy': 0.09176595509052277, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 27.556560049000836, 'epoch': 2.38}
+ 30%|██▉       | 297/1000 [2:35:46<5:55:43, 30.36s/it] 30%|██▉       | 298/1000 [2:36:15<5:50:39, 29.97s/it]                                                      {'loss': -0.0016, 'grad_norm': 0.007677809800952673, 'learning_rate': 2.0164472059081127e-05, 'num_tokens': 48204314.0, 'completions/mean_length': 1956.59375, 'completions/min_length': 851.0, 'completions/max_length': 3307.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1956.59375, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 3307.0, 'rewards/rollout_reward_func/mean': 10.532812118530273, 'rewards/rollout_reward_func/std': 5.418986797332764, 'reward': 10.532812118530273, 'reward_std': 5.230461597442627, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04512105882167816, 'sampling/sampling_logp_difference/max': 3.0177114009857178, 'sampling/importance_sampling_ratio/min': 0.0320647768676281, 'sampling/importance_sampling_ratio/mean': 0.8402550220489502, 'sampling/importance_sampling_ratio/max': 2.631014347076416, 'kl': 0.8315970934927464, 'entropy': 0.10012532025575638, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 27.80666289601504, 'epoch': 2.38}
+ 30%|██▉       | 298/1000 [2:36:15<5:50:39, 29.97s/it] 30%|██▉       | 299/1000 [2:36:44<5:43:41, 29.42s/it]                                                      {'loss': 0.0, 'grad_norm': 0.007374551612883806, 'learning_rate': 2.0133098495442978e-05, 'num_tokens': 48341854.0, 'completions/mean_length': 1608.9375, 'completions/min_length': 779.0, 'completions/max_length': 3214.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1608.9375, 'completions/min_terminated_length': 779.0, 'completions/max_terminated_length': 3214.0, 'rewards/rollout_reward_func/mean': 10.826562881469727, 'rewards/rollout_reward_func/std': 5.054818630218506, 'reward': 10.826562881469727, 'reward_std': 5.07206916809082, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.034574855118989944, 'sampling/sampling_logp_difference/max': 1.9406540393829346, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.83497154712677, 'sampling/importance_sampling_ratio/max': 2.551368474960327, 'kl': 0.8310965299606323, 'entropy': 0.09255293454043567, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 26.899682957009645, 'epoch': 2.39}
+ 30%|██▉       | 299/1000 [2:36:44<5:43:41, 29.42s/it] 30%|███       | 300/1000 [2:37:16<5:52:42, 30.23s/it]                                                      {'loss': -0.0003, 'grad_norm': 0.014371967874467373, 'learning_rate': 2.0101648066587725e-05, 'num_tokens': 48487564.0, 'completions/mean_length': 1734.59375, 'completions/min_length': 852.0, 'completions/max_length': 3657.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1734.59375, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3657.0, 'rewards/rollout_reward_func/mean': 11.709375381469727, 'rewards/rollout_reward_func/std': 4.965970516204834, 'reward': 11.709375381469727, 'reward_std': 4.720006465911865, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03652028366923332, 'sampling/sampling_logp_difference/max': 2.2302801609039307, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9222081899642944, 'sampling/importance_sampling_ratio/max': 2.3228931427001953, 'kl': 1.1059461757540703, 'entropy': 0.09296570648439229, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.83151517200895, 'epoch': 2.4}
+ 30%|███       | 300/1000 [2:37:16<5:52:42, 30.23s/it] 30%|███       | 301/1000 [2:37:49<6:01:31, 31.03s/it]                                                      {'loss': 0.0011, 'grad_norm': 0.006610202137380838, 'learning_rate': 2.0070121089220833e-05, 'num_tokens': 48676953.0, 'completions/mean_length': 2397.453125, 'completions/min_length': 856.0, 'completions/max_length': 3530.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2397.453125, 'completions/min_terminated_length': 856.0, 'completions/max_terminated_length': 3530.0, 'rewards/rollout_reward_func/mean': 12.668749809265137, 'rewards/rollout_reward_func/std': 5.365287780761719, 'reward': 12.668750762939453, 'reward_std': 5.20668363571167, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.045719556510448456, 'sampling/sampling_logp_difference/max': 2.8330631256103516, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8883955478668213, 'sampling/importance_sampling_ratio/max': 2.8730907440185547, 'kl': 1.174972278997302, 'entropy': 0.1289726747199893, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.658636987987848, 'epoch': 2.41}
+ 30%|███       | 301/1000 [2:37:49<6:01:31, 31.03s/it] 30%|███       | 302/1000 [2:38:13<5:39:01, 29.14s/it]                                                      {'loss': 0.0005, 'grad_norm': 0.008053128607571125, 'learning_rate': 2.003851788081862e-05, 'num_tokens': 48820043.0, 'completions/mean_length': 1694.03125, 'completions/min_length': 850.0, 'completions/max_length': 2750.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1694.03125, 'completions/min_terminated_length': 850.0, 'completions/max_terminated_length': 2750.0, 'rewards/rollout_reward_func/mean': 11.1640625, 'rewards/rollout_reward_func/std': 5.394952774047852, 'reward': 11.1640625, 'reward_std': 5.314720153808594, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.030194023624062538, 'sampling/sampling_logp_difference/max': 1.2970013618469238, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8986868262290955, 'sampling/importance_sampling_ratio/max': 2.4485092163085938, 'kl': 0.7524716295301914, 'entropy': 0.0874619644600898, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 23.695372084002884, 'epoch': 2.42}
+ 30%|███       | 302/1000 [2:38:13<5:39:01, 29.14s/it] 30%|███       | 303/1000 [2:38:41<5:33:36, 28.72s/it]                                                      {'loss': -0.0019, 'grad_norm': 0.008384785614907742, 'learning_rate': 2.000683875962504e-05, 'num_tokens': 48989341.0, 'completions/mean_length': 2091.90625, 'completions/min_length': 868.0, 'completions/max_length': 3024.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2091.90625, 'completions/min_terminated_length': 868.0, 'completions/max_terminated_length': 3024.0, 'rewards/rollout_reward_func/mean': 11.217187881469727, 'rewards/rollout_reward_func/std': 5.194794654846191, 'reward': 11.217187881469727, 'reward_std': 5.326659679412842, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.046024441719055176, 'sampling/sampling_logp_difference/max': 2.347907304763794, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.835046112537384, 'sampling/importance_sampling_ratio/max': 2.980520248413086, 'kl': 0.7980130910873413, 'entropy': 0.11160840606316924, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 26.558211506999214, 'epoch': 2.42}
+ 30%|███       | 303/1000 [2:38:41<5:33:36, 28.72s/it] 30%|███       | 304/1000 [2:39:05<5:16:59, 27.33s/it]                                                      {'loss': 0.0002, 'grad_norm': 0.012135764583945274, 'learning_rate': 1.997508404464849e-05, 'num_tokens': 49130903.0, 'completions/mean_length': 1670.53125, 'completions/min_length': 850.0, 'completions/max_length': 2731.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1670.53125, 'completions/min_terminated_length': 850.0, 'completions/max_terminated_length': 2731.0, 'rewards/rollout_reward_func/mean': 11.315624237060547, 'rewards/rollout_reward_func/std': 5.33857536315918, 'reward': 11.315625190734863, 'reward_std': 5.0669684410095215, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03391658514738083, 'sampling/sampling_logp_difference/max': 2.792146921157837, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.909833550453186, 'sampling/importance_sampling_ratio/max': 2.853721857070923, 'kl': 0.8704873491078615, 'entropy': 0.08157046604901552, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 23.0556936590001, 'epoch': 2.43}
+ 30%|███       | 304/1000 [2:39:05<5:16:59, 27.33s/it] 30%|███       | 305/1000 [2:39:35<5:24:32, 28.02s/it]                                                      {'loss': -0.0004, 'grad_norm': 0.006354426499456167, 'learning_rate': 1.99432540556586e-05, 'num_tokens': 49308460.0, 'completions/mean_length': 2216.578125, 'completions/min_length': 783.0, 'completions/max_length': 3301.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2216.578125, 'completions/min_terminated_length': 783.0, 'completions/max_terminated_length': 3301.0, 'rewards/rollout_reward_func/mean': 12.178125381469727, 'rewards/rollout_reward_func/std': 5.482048034667969, 'reward': 12.178125381469727, 'reward_std': 5.545412063598633, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.0450952909886837, 'sampling/sampling_logp_difference/max': 3.4383089542388916, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.6544826030731201, 'sampling/importance_sampling_ratio/max': 1.582460880279541, 'kl': 0.7137304078787565, 'entropy': 0.10276357270777225, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.497688978983206, 'epoch': 2.44}
+ 30%|███       | 305/1000 [2:39:35<5:24:32, 28.02s/it] 31%|███       | 306/1000 [2:39:59<5:10:29, 26.84s/it]                                                      {'loss': -0.0006, 'grad_norm': 0.007702975068241358, 'learning_rate': 1.991134911318301e-05, 'num_tokens': 49448681.0, 'completions/mean_length': 1649.203125, 'completions/min_length': 782.0, 'completions/max_length': 2755.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1649.203125, 'completions/min_terminated_length': 782.0, 'completions/max_terminated_length': 2755.0, 'rewards/rollout_reward_func/mean': 11.996874809265137, 'rewards/rollout_reward_func/std': 5.220501899719238, 'reward': 11.996874809265137, 'reward_std': 4.893502235412598, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03757069259881973, 'sampling/sampling_logp_difference/max': 3.0304219722747803, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8439580202102661, 'sampling/importance_sampling_ratio/max': 2.934532880783081, 'kl': 0.8526499401777983, 'entropy': 0.07917846390046179, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 23.071258564974414, 'epoch': 2.45}
+ 31%|███       | 306/1000 [2:39:59<5:10:29, 26.84s/it] 31%|███       | 307/1000 [2:40:29<5:21:13, 27.81s/it]                                                      {'loss': -0.0018, 'grad_norm': 0.007796111516654491, 'learning_rate': 1.9879369538504124e-05, 'num_tokens': 49606337.0, 'completions/mean_length': 1915.25, 'completions/min_length': 853.0, 'completions/max_length': 3440.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1915.25, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3440.0, 'rewards/rollout_reward_func/mean': 12.001562118530273, 'rewards/rollout_reward_func/std': 5.195128917694092, 'reward': 12.001562118530273, 'reward_std': 5.2899274826049805, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.035953667014837265, 'sampling/sampling_logp_difference/max': 2.3213515281677246, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9430656433105469, 'sampling/importance_sampling_ratio/max': 2.7151834964752197, 'kl': 0.6929869577288628, 'entropy': 0.09542602393776178, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.832393090997357, 'epoch': 2.46}
+ 31%|███       | 307/1000 [2:40:29<5:21:13, 27.81s/it] 31%|███       | 308/1000 [2:40:59<5:27:33, 28.40s/it]                                                      {'loss': -0.0006, 'grad_norm': 0.007362093776464462, 'learning_rate': 1.9847315653655915e-05, 'num_tokens': 49758551.0, 'completions/mean_length': 1832.96875, 'completions/min_length': 937.0, 'completions/max_length': 3380.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1832.96875, 'completions/min_terminated_length': 937.0, 'completions/max_terminated_length': 3380.0, 'rewards/rollout_reward_func/mean': 11.174999237060547, 'rewards/rollout_reward_func/std': 5.566452980041504, 'reward': 11.175000190734863, 'reward_std': 5.106443881988525, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03965436667203903, 'sampling/sampling_logp_difference/max': 1.8502001762390137, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7700197696685791, 'sampling/importance_sampling_ratio/max': 2.8209054470062256, 'kl': 0.7557799406349659, 'entropy': 0.09169971104711294, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.510446643995238, 'epoch': 2.46}
+ 31%|███       | 308/1000 [2:40:59<5:27:33, 28.40s/it] 31%|█���█       | 309/1000 [2:41:27<5:27:16, 28.42s/it]                                                      {'loss': -0.0008, 'grad_norm': 0.00851109903305769, 'learning_rate': 1.9815187781420648e-05, 'num_tokens': 49910038.0, 'completions/mean_length': 1821.234375, 'completions/min_length': 849.0, 'completions/max_length': 3165.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1821.234375, 'completions/min_terminated_length': 849.0, 'completions/max_terminated_length': 3165.0, 'rewards/rollout_reward_func/mean': 13.160937309265137, 'rewards/rollout_reward_func/std': 4.805044174194336, 'reward': 13.160937309265137, 'reward_std': 4.491145133972168, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03160746395587921, 'sampling/sampling_logp_difference/max': 1.8342339992523193, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9330377578735352, 'sampling/importance_sampling_ratio/max': 2.0217249393463135, 'kl': 0.5932754725217819, 'entropy': 0.08142545633018017, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 27.347063623004942, 'epoch': 2.47}
+ 31%|███       | 309/1000 [2:41:27<5:27:16, 28.42s/it] 31%|███       | 310/1000 [2:41:56<5:27:46, 28.50s/it]                                                      {'loss': -0.0, 'grad_norm': 0.007635590620338917, 'learning_rate': 1.978298624532563e-05, 'num_tokens': 50065235.0, 'completions/mean_length': 1877.203125, 'completions/min_length': 785.0, 'completions/max_length': 3204.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1877.203125, 'completions/min_terminated_length': 785.0, 'completions/max_terminated_length': 3204.0, 'rewards/rollout_reward_func/mean': 11.826562881469727, 'rewards/rollout_reward_func/std': 5.077564716339111, 'reward': 11.826562881469727, 'reward_std': 5.0791754722595215, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.046584054827690125, 'sampling/sampling_logp_difference/max': 2.6690921783447266, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.6856112480163574, 'sampling/importance_sampling_ratio/max': 2.4174554347991943, 'kl': 1.8882716353982687, 'entropy': 0.09374599787406623, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 27.61807714000315, 'epoch': 2.48}
+ 31%|███       | 310/1000 [2:41:56<5:27:46, 28.50s/it] 31%|███       | 311/1000 [2:42:25<5:28:53, 28.64s/it]                                                      {'loss': 0.0013, 'grad_norm': 0.00789538025856018, 'learning_rate': 1.9750711369639978e-05, 'num_tokens': 50229473.0, 'completions/mean_length': 2014.84375, 'completions/min_length': 853.0, 'completions/max_length': 3250.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2014.84375, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3250.0, 'rewards/rollout_reward_func/mean': 11.931249618530273, 'rewards/rollout_reward_func/std': 5.435943603515625, 'reward': 11.931249618530273, 'reward_std': 4.628730773925781, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03461863845586777, 'sampling/sampling_logp_difference/max': 2.555850028991699, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8470432162284851, 'sampling/importance_sampling_ratio/max': 2.923671007156372, 'kl': 0.7796390987932682, 'entropy': 0.08785644476301968, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 27.8420734499814, 'epoch': 2.49}
+ 31%|███       | 311/1000 [2:42:25<5:28:53, 28.64s/it] 31%|███       | 312/1000 [2:42:55<5:35:04, 29.22s/it]                                                      {'loss': -0.0002, 'grad_norm': 0.005307451821863651, 'learning_rate': 1.9718363479371333e-05, 'num_tokens': 50400387.0, 'completions/mean_length': 2116.40625, 'completions/min_length': 784.0, 'completions/max_length': 3261.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2116.40625, 'completions/min_terminated_length': 784.0, 'completions/max_terminated_length': 3261.0, 'rewards/rollout_reward_func/mean': 11.90625, 'rewards/rollout_reward_func/std': 5.449767112731934, 'reward': 11.90625, 'reward_std': 5.345552921295166, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04776432365179062, 'sampling/sampling_logp_difference/max': 3.3339128494262695, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7522649765014648, 'sampling/importance_sampling_ratio/max': 2.2214772701263428, 'kl': 1.7491372544318438, 'entropy': 0.09889692580327392, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.32094486101414, 'epoch': 2.5}
+ 31%|███       | 312/1000 [2:42:55<5:35:04, 29.22s/it] 31%|███▏      | 313/1000 [2:43:30<5:51:54, 30.73s/it]                                                      {'loss': -0.0002, 'grad_norm': 0.008404103107750416, 'learning_rate': 1.968594290026259e-05, 'num_tokens': 50570070.0, 'completions/mean_length': 2097.921875, 'completions/min_length': 780.0, 'completions/max_length': 3764.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2097.921875, 'completions/min_terminated_length': 780.0, 'completions/max_terminated_length': 3764.0, 'rewards/rollout_reward_func/mean': 11.859375, 'rewards/rollout_reward_func/std': 5.230579376220703, 'reward': 11.859375, 'reward_std': 5.0434675216674805, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.041462793946266174, 'sampling/sampling_logp_difference/max': 2.650630474090576, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8462010622024536, 'sampling/importance_sampling_ratio/max': 2.417365312576294, 'kl': 0.7976712994277477, 'entropy': 0.09499440062791109, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.83109237998724, 'epoch': 2.5}
+ 31%|███▏      | 313/1000 [2:43:30<5:51:54, 30.73s/it] 31%|███▏      | 314/1000 [2:43:54<5:29:58, 28.86s/it]                                                      {'loss': -0.0023, 'grad_norm': 0.009064699523150921, 'learning_rate': 1.9653449958788622e-05, 'num_tokens': 50706931.0, 'completions/mean_length': 1598.328125, 'completions/min_length': 851.0, 'completions/max_length': 2771.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1598.328125, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 2771.0, 'rewards/rollout_reward_func/mean': 11.799999237060547, 'rewards/rollout_reward_func/std': 4.796890735626221, 'reward': 11.799999237060547, 'reward_std': 4.407288074493408, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03717228025197983, 'sampling/sampling_logp_difference/max': 3.3182790279388428, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9377058744430542, 'sampling/importance_sampling_ratio/max': 2.8527886867523193, 'kl': 0.7186500076204538, 'entropy': 0.07172405777964741, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 23.465547543004504, 'epoch': 2.51}
+ 31%|███▏      | 314/1000 [2:43:54<5:29:58, 28.86s/it] 32%|███▏      | 315/1000 [2:44:26<5:38:35, 29.66s/it]                                                      {'loss': -0.0014, 'grad_norm': 0.006372319534420967, 'learning_rate': 1.9620884982152988e-05, 'num_tokens': 50890361.0, 'completions/mean_length': 2306.71875, 'completions/min_length': 880.0, 'completions/max_length': 3504.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2306.71875, 'completions/min_terminated_length': 880.0, 'completions/max_terminated_length': 3504.0, 'rewards/rollout_reward_func/mean': 12.259374618530273, 'rewards/rollout_reward_func/std': 5.373678207397461, 'reward': 12.259374618530273, 'reward_std': 5.318711280822754, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04029929265379906, 'sampling/sampling_logp_difference/max': 3.111900806427002, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8289344310760498, 'sampling/importance_sampling_ratio/max': 2.4839651584625244, 'kl': 0.7919656224548817, 'entropy': 0.1019566257018596, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.210922831989592, 'epoch': 2.52}
+ 32%|███▏      | 315/1000 [2:44:26<5:38:35, 29.66s/it] 32%|███▏      | 316/1000 [2:44:56<5:39:13, 29.76s/it]                                                      {'loss': -0.001, 'grad_norm': 0.005979377776384354, 'learning_rate': 1.9588248298284632e-05, 'num_tokens': 51061944.0, 'completions/mean_length': 2125.609375, 'completions/min_length': 868.0, 'completions/max_length': 3324.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2125.609375, 'completions/min_terminated_length': 868.0, 'completions/max_terminated_length': 3324.0, 'rewards/rollout_reward_func/mean': 11.759374618530273, 'rewards/rollout_reward_func/std': 4.985557556152344, 'reward': 11.759374618530273, 'reward_std': 4.921684265136719, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.048233047127723694, 'sampling/sampling_logp_difference/max': 3.1288702487945557, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.68415766954422, 'sampling/importance_sampling_ratio/max': 2.603886842727661, 'kl': 0.8281492665410042, 'entropy': 0.09793902467936277, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.732504993990005, 'epoch': 2.53}
+ 32%|███▏      | 316/1000 [2:44:56<5:39:13, 29.76s/it] 32%|███▏      | 317/1000 [2:45:27<5:44:09, 30.23s/it]                                                      {'loss': -0.0016, 'grad_norm': 0.005684657488018274, 'learning_rate': 1.955554023583462e-05, 'num_tokens': 51236634.0, 'completions/mean_length': 2174.15625, 'completions/min_length': 779.0, 'completions/max_length': 3487.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2174.15625, 'completions/min_terminated_length': 779.0, 'completions/max_terminated_length': 3487.0, 'rewards/rollout_reward_func/mean': 12.495312690734863, 'rewards/rollout_reward_func/std': 5.182492733001709, 'reward': 12.495312690734863, 'reward_std': 5.16374397277832, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.042268700897693634, 'sampling/sampling_logp_difference/max': 2.9849634170532227, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8407608270645142, 'sampling/importance_sampling_ratio/max': 2.459685802459717, 'kl': 0.8939256072044373, 'entropy': 0.09473544429056346, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.04627782500029, 'epoch': 2.54}
+ 32%|███▏      | 317/1000 [2:45:27<5:44:09, 30.23s/it] 32%|███▏      | 318/1000 [2:45:58<5:46:04, 30.45s/it]                                                      {'loss': 0.0001, 'grad_norm': 0.009409581311047077, 'learning_rate': 1.9522761124172752e-05, 'num_tokens': 51391837.0, 'completions/mean_length': 1877.671875, 'completions/min_length': 854.0, 'completions/max_length': 3546.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1877.671875, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 3546.0, 'rewards/rollout_reward_func/mean': 11.6875, 'rewards/rollout_reward_func/std': 4.8689985275268555, 'reward': 11.6875, 'reward_std': 4.8030900955200195, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03491837531328201, 'sampling/sampling_logp_difference/max': 2.5393362045288086, 'sampling/importance_sampling_ratio/min': 0.06533950567245483, 'sampling/importance_sampling_ratio/mean': 0.9460285305976868, 'sampling/importance_sampling_ratio/max': 2.9684383869171143, 'kl': 0.8541584983468056, 'entropy': 0.08932118653319776, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.836015595996287, 'epoch': 2.54}
+ 32%|███▏      | 318/1000 [2:45:58<5:46:04, 30.45s/it] 32%|███▏      | 319/1000 [2:46:22<5:24:33, 28.60s/it]                                                      {'loss': -0.0017, 'grad_norm': 0.00701394397765398, 'learning_rate': 1.9489911293384337e-05, 'num_tokens': 51536974.0, 'completions/mean_length': 1724.390625, 'completions/min_length': 783.0, 'completions/max_length': 2654.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1724.390625, 'completions/min_terminated_length': 783.0, 'completions/max_terminated_length': 2654.0, 'rewards/rollout_reward_func/mean': 11.56093692779541, 'rewards/rollout_reward_func/std': 4.890535831451416, 'reward': 11.560937881469727, 'reward_std': 4.9768218994140625, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03930246829986572, 'sampling/sampling_logp_difference/max': 2.717834234237671, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.855167031288147, 'sampling/importance_sampling_ratio/max': 2.641927480697632, 'kl': 0.7576346956193447, 'entropy': 0.0765367744024843, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 23.253831225985778, 'epoch': 2.55}
+ 32%|███▏      | 319/1000 [2:46:22<5:24:33, 28.60s/it] 32%|███▏      | 320/1000 [2:46:47<5:09:32, 27.31s/it]                                                      {'loss': 0.001, 'grad_norm': 0.006774444133043289, 'learning_rate': 1.94569910742668e-05, 'num_tokens': 51685688.0, 'completions/mean_length': 1778.28125, 'completions/min_length': 864.0, 'completions/max_length': 2729.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1778.28125, 'completions/min_terminated_length': 864.0, 'completions/max_terminated_length': 2729.0, 'rewards/rollout_reward_func/mean': 11.68906307220459, 'rewards/rollout_reward_func/std': 5.223637580871582, 'reward': 11.68906307220459, 'reward_std': 5.179832458496094, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03545784950256348, 'sampling/sampling_logp_difference/max': 2.1596012115478516, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.919209361076355, 'sampling/importance_sampling_ratio/max': 2.5212738513946533, 'kl': 0.8386971205472946, 'entropy': 0.0748101060744375, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 23.294368001021212, 'epoch': 2.56}
+ 32%|███▏      | 320/1000 [2:46:47<5:09:32, 27.31s/it] 32%|███▏      | 321/1000 [2:47:20<5:28:58, 29.07s/it]                                                      {'loss': 0.0002, 'grad_norm': 0.007304069586098194, 'learning_rate': 1.942400079832638e-05, 'num_tokens': 51843857.0, 'completions/mean_length': 1923.265625, 'completions/min_length': 854.0, 'completions/max_length': 3664.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1923.265625, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 3664.0, 'rewards/rollout_reward_func/mean': 11.3984375, 'rewards/rollout_reward_func/std': 5.2454514503479, 'reward': 11.3984375, 'reward_std': 4.792120933532715, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04674407094717026, 'sampling/sampling_logp_difference/max': 2.468623399734497, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8179612159729004, 'sampling/importance_sampling_ratio/max': 2.6858696937561035, 'kl': 0.7393220774829388, 'entropy': 0.08319764118641615, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.78395991000434, 'epoch': 2.57}
+ 32%|███▏      | 321/1000 [2:47:20<5:28:58, 29.07s/it] 32%|███▏      | 322/1000 [2:47:51<5:34:57, 29.64s/it]                                                      {'loss': -0.0008, 'grad_norm': 0.00562688522040844, 'learning_rate': 1.9390940797774794e-05, 'num_tokens': 52032949.0, 'completions/mean_length': 2393.1875, 'completions/min_length': 784.0, 'completions/max_length': 3442.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2393.1875, 'completions/min_terminated_length': 784.0, 'completions/max_terminated_length': 3442.0, 'rewards/rollout_reward_func/mean': 11.893750190734863, 'rewards/rollout_reward_func/std': 5.5870280265808105, 'reward': 11.893750190734863, 'reward_std': 5.363766193389893, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04374673217535019, 'sampling/sampling_logp_difference/max': 2.7617249488830566, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7753733396530151, 'sampling/importance_sampling_ratio/max': 2.075775384902954, 'kl': 0.7751779146492481, 'entropy': 0.09385794098488986, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.709216903000197, 'epoch': 2.58}
+ 32%|███▏      | 322/1000 [2:47:51<5:34:57, 29.64s/it] 32%|███▏      | 323/1000 [2:48:21<5:35:21, 29.72s/it]                                                      {'loss': 0.0015, 'grad_norm': 0.003917176276445389, 'learning_rate': 1.9357811405525876e-05, 'num_tokens': 52176303.0, 'completions/mean_length': 1697.40625, 'completions/min_length': 783.0, 'completions/max_length': 3413.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1697.40625, 'completions/min_terminated_length': 783.0, 'completions/max_terminated_length': 3413.0, 'rewards/rollout_reward_func/mean': 10.068750381469727, 'rewards/rollout_reward_func/std': 5.087453842163086, 'reward': 10.068750381469727, 'reward_std': 4.751240253448486, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03958573192358017, 'sampling/sampling_logp_difference/max': 4.1128129959106445, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7939615249633789, 'sampling/importance_sampling_ratio/max': 1.8842782974243164, 'kl': 0.8843217995017767, 'entropy': 0.07498325570486486, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.76151034202485, 'epoch': 2.58}
+ 32%|███▏      | 323/1000 [2:48:21<5:35:21, 29.72s/it] 32%|███▏      | 324/1000 [2:48:52<5:39:33, 30.14s/it]                                                      {'loss': -0.0008, 'grad_norm': 0.004713492467999458, 'learning_rate': 1.932461295519224e-05, 'num_tokens': 52336461.0, 'completions/mean_length': 1952.71875, 'completions/min_length': 784.0, 'completions/max_length': 3447.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1952.71875, 'completions/min_terminated_length': 784.0, 'completions/max_terminated_length': 3447.0, 'rewards/rollout_reward_func/mean': 11.498437881469727, 'rewards/rollout_reward_func/std': 5.338315963745117, 'reward': 11.498437881469727, 'reward_std': 5.261802673339844, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03881656378507614, 'sampling/sampling_logp_difference/max': 2.2618324756622314, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.80030357837677, 'sampling/importance_sampling_ratio/max': 2.4704463481903076, 'kl': 1.9789274092763662, 'entropy': 0.0674896331038326, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.82186134800577, 'epoch': 2.59}
+ 32%|███▏      | 324/1000 [2:48:52<5:39:33, 30.14s/it] 32%|███▎      | 325/1000 [2:49:17<5:22:25, 28.66s/it]                                                      {'loss': -0.0007, 'grad_norm': 0.008189622312784195, 'learning_rate': 1.9291345781081914e-05, 'num_tokens': 52498948.0, 'completions/mean_length': 1987.484375, 'completions/min_length': 853.0, 'completions/max_length': 2807.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1987.484375, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 2807.0, 'rewards/rollout_reward_func/mean': 11.465624809265137, 'rewards/rollout_reward_func/std': 5.361094951629639, 'reward': 11.465624809265137, 'reward_std': 5.491211891174316, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.05011620372533798, 'sampling/sampling_logp_difference/max': 3.7403409481048584, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7549366354942322, 'sampling/importance_sampling_ratio/max': 2.9427871704101562, 'kl': 0.9716931991279125, 'entropy': 0.08134910091757774, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 24.14194090798992, 'epoch': 2.6}
+ 32%|███▎      | 325/1000 [2:49:17<5:22:25, 28.66s/it] 33%|███▎      | 326/1000 [2:49:42<5:09:11, 27.52s/it]                                                      {'loss': 0.001, 'grad_norm': 0.010876079089939594, 'learning_rate': 1.925801021819497e-05, 'num_tokens': 52640970.0, 'completions/mean_length': 1677.34375, 'completions/min_length': 853.0, 'completions/max_length': 2858.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1677.34375, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 2858.0, 'rewards/rollout_reward_func/mean': 11.693750381469727, 'rewards/rollout_reward_func/std': 5.421938896179199, 'reward': 11.693750381469727, 'reward_std': 4.759226322174072, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03625047951936722, 'sampling/sampling_logp_difference/max': 3.914559841156006, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8861720561981201, 'sampling/importance_sampling_ratio/max': 2.442206621170044, 'kl': 0.8755617812275887, 'entropy': 0.0622148762922734, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 23.81134181300149, 'epoch': 2.61}
+ 33%|███▎      | 326/1000 [2:49:42<5:09:11, 27.52s/it] 33%|███▎      | 327/1000 [2:50:13<5:21:36, 28.67s/it]                                                      {'loss': -0.001, 'grad_norm': 0.005252827890217304, 'learning_rate': 1.9224606602220156e-05, 'num_tokens': 52808510.0, 'completions/mean_length': 2065.6875, 'completions/min_length': 850.0, 'completions/max_length': 3454.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2065.6875, 'completions/min_terminated_length': 850.0, 'completions/max_terminated_length': 3454.0, 'rewards/rollout_reward_func/mean': 12.373437881469727, 'rewards/rollout_reward_func/std': 5.0722479820251465, 'reward': 12.373437881469727, 'reward_std': 5.193896293640137, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.038412995636463165, 'sampling/sampling_logp_difference/max': 3.025611400604248, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7598429322242737, 'sampling/importance_sampling_ratio/max': 2.4042282104492188, 'kl': 0.993163451552391, 'entropy': 0.08066459908150136, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.187675653985934, 'epoch': 2.62}
+ 33%|███▎      | 327/1000 [2:50:13<5:21:36, 28.67s/it] 33%|███▎      | 328/1000 [2:50:44<5:29:37, 29.43s/it]                                                      {'loss': -0.0014, 'grad_norm': 0.00506759574636817, 'learning_rate': 1.9191135269531517e-05, 'num_tokens': 52992027.0, 'completions/mean_length': 2308.078125, 'completions/min_length': 850.0, 'completions/max_length': 3531.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2308.078125, 'completions/min_terminated_length': 850.0, 'completions/max_terminated_length': 3531.0, 'rewards/rollout_reward_func/mean': 12.692188262939453, 'rewards/rollout_reward_func/std': 5.5028510093688965, 'reward': 12.692187309265137, 'reward_std': 5.154870510101318, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04725617170333862, 'sampling/sampling_logp_difference/max': 2.971632480621338, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.6371420621871948, 'sampling/importance_sampling_ratio/max': 2.1178929805755615, 'kl': 1.0003136359155178, 'entropy': 0.09222196089103818, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.873081152014493, 'epoch': 2.62}
+ 33%|███▎      | 328/1000 [2:50:44<5:29:37, 29.43s/it] 33%|███▎      | 329/1000 [2:51:11<5:21:07, 28.72s/it]                                                      {'loss': -0.0021, 'grad_norm': 0.004621789790689945, 'learning_rate': 1.9157596557184998e-05, 'num_tokens': 53137974.0, 'completions/mean_length': 1737.921875, 'completions/min_length': 851.0, 'completions/max_length': 3096.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1737.921875, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 3096.0, 'rewards/rollout_reward_func/mean': 11.660937309265137, 'rewards/rollout_reward_func/std': 5.432460308074951, 'reward': 11.660937309265137, 'reward_std': 5.155062675476074, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03719080984592438, 'sampling/sampling_logp_difference/max': 3.154703140258789, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7833520174026489, 'sampling/importance_sampling_ratio/max': 2.769148111343384, 'kl': 1.0481014363467693, 'entropy': 0.06574133585672826, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 25.944893607993436, 'epoch': 2.63}
+ 33%|███▎      | 329/1000 [2:51:11<5:21:07, 28.72s/it] 33%|███▎      | 330/1000 [2:51:41<5:22:43, 28.90s/it]                                                      {'loss': -0.0004, 'grad_norm': 0.005441636312752962, 'learning_rate': 1.912399080291506e-05, 'num_tokens': 53265990.0, 'completions/mean_length': 1465.75, 'completions/min_length': 854.0, 'completions/max_length': 3472.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1465.75, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 3472.0, 'rewards/rollout_reward_func/mean': 10.3125, 'rewards/rollout_reward_func/std': 5.349781513214111, 'reward': 10.3125, 'reward_std': 4.802867889404297, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03570128604769707, 'sampling/sampling_logp_difference/max': 4.3666582107543945, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8028405904769897, 'sampling/importance_sampling_ratio/max': 1.861984372138977, 'kl': 0.7934540063142776, 'entropy': 0.05440376594197005, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.245386461014277, 'epoch': 2.64}
+ 33%|███▎      | 330/1000 [2:51:41<5:22:43, 28.90s/it] 33%|███▎      | 331/1000 [2:52:11<5:26:44, 29.30s/it]                                                      {'loss': -0.0009, 'grad_norm': 0.006152746733278036, 'learning_rate': 1.909031834513128e-05, 'num_tokens': 53433324.0, 'completions/mean_length': 2062.84375, 'completions/min_length': 780.0, 'completions/max_length': 3391.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2062.84375, 'completions/min_terminated_length': 780.0, 'completions/max_terminated_length': 3391.0, 'rewards/rollout_reward_func/mean': 11.901561737060547, 'rewards/rollout_reward_func/std': 5.145794868469238, 'reward': 11.901561737060547, 'reward_std': 5.190683364868164, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.053734079003334045, 'sampling/sampling_logp_difference/max': 5.429941654205322, 'sampling/importance_sampling_ratio/min': 0.0013296285178512335, 'sampling/importance_sampling_ratio/mean': 0.6913185119628906, 'sampling/importance_sampling_ratio/max': 2.447524309158325, 'kl': 2.9061026573181152, 'entropy': 0.07475863746367395, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.10814960699645, 'epoch': 2.65}
+ 33%|███▎      | 331/1000 [2:52:11<5:26:44, 29.30s/it] 33%|███▎      | 332/1000 [2:52:42<5:30:42, 29.70s/it]                                                      {'loss': 0.0003, 'grad_norm': 0.0051482440903782845, 'learning_rate': 1.9056579522914932e-05, 'num_tokens': 53575257.0, 'completions/mean_length': 1677.203125, 'completions/min_length': 853.0, 'completions/max_length': 3561.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1677.203125, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3561.0, 'rewards/rollout_reward_func/mean': 11.171875, 'rewards/rollout_reward_func/std': 5.763444900512695, 'reward': 11.171875, 'reward_std': 4.659849643707275, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03311910480260849, 'sampling/sampling_logp_difference/max': 2.5598883628845215, 'sampling/importance_sampling_ratio/min': 0.04013939946889877, 'sampling/importance_sampling_ratio/mean': 0.8302516937255859, 'sampling/importance_sampling_ratio/max': 1.9764280319213867, 'kl': 0.7684854567050934, 'entropy': 0.06026570359244943, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.369256219004455, 'epoch': 2.66}
+ 33%|███▎      | 332/1000 [2:52:42<5:30:42, 29.70s/it] 33%|███▎      | 333/1000 [2:53:13<5:35:33, 30.18s/it]                                                      {'loss': 0.0016, 'grad_norm': 0.0051423790864646435, 'learning_rate': 1.9022774676015575e-05, 'num_tokens': 53753420.0, 'completions/mean_length': 2226.421875, 'completions/min_length': 852.0, 'completions/max_length': 3482.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2226.421875, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3482.0, 'rewards/rollout_reward_func/mean': 12.782812118530273, 'rewards/rollout_reward_func/std': 5.547044277191162, 'reward': 12.782812118530273, 'reward_std': 4.963067531585693, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.035179778933525085, 'sampling/sampling_logp_difference/max': 2.9189040660858154, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8104185461997986, 'sampling/importance_sampling_ratio/max': 2.3019139766693115, 'kl': 0.829167902469635, 'entropy': 0.07524094951804727, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.001045636017807, 'epoch': 2.66}
+ 33%|███▎      | 333/1000 [2:53:13<5:35:33, 30.18s/it] 33%|███▎      | 334/1000 [2:53:44<5:39:45, 30.61s/it]                                                      {'loss': 0.0012, 'grad_norm': 0.006060537416487932, 'learning_rate': 1.8988904144847653e-05, 'num_tokens': 53916188.0, 'completions/mean_length': 1993.5, 'completions/min_length': 782.0, 'completions/max_length': 3504.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1993.5, 'completions/min_terminated_length': 782.0, 'completions/max_terminated_length': 3504.0, 'rewards/rollout_reward_func/mean': 12.485937118530273, 'rewards/rollout_reward_func/std': 5.449941635131836, 'reward': 12.485937118530273, 'reward_std': 5.45762300491333, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03419214487075806, 'sampling/sampling_logp_difference/max': 2.745314359664917, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8626217842102051, 'sampling/importance_sampling_ratio/max': 2.8408710956573486, 'kl': 0.9798630978912115, 'entropy': 0.0608923127874732, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.518875913992815, 'epoch': 2.67}
+ 33%|███▎      | 334/1000 [2:53:44<5:39:45, 30.61s/it] 34%|███▎      | 335/1000 [2:54:22<6:01:37, 32.63s/it]                                                      {'loss': 0.0009, 'grad_norm': 0.005282141733914614, 'learning_rate': 1.8954968270487025e-05, 'num_tokens': 54058204.0, 'completions/mean_length': 1679.25, 'completions/min_length': 782.0, 'completions/max_length': 4246.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1679.25, 'completions/min_terminated_length': 782.0, 'completions/max_terminated_length': 4246.0, 'rewards/rollout_reward_func/mean': 9.5390625, 'rewards/rollout_reward_func/std': 5.198889255523682, 'reward': 9.5390625, 'reward_std': 5.398701190948486, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04316730797290802, 'sampling/sampling_logp_difference/max': 3.830362319946289, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7800226807594299, 'sampling/importance_sampling_ratio/max': 2.001352071762085, 'kl': 0.9632895737886429, 'entropy': 0.06279933056794107, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 36.01172512299672, 'epoch': 2.68}
+ 34%|███▎      | 335/1000 [2:54:22<6:01:37, 32.63s/it] 34%|███▎      | 336/1000 [2:54:52<5:54:23, 32.02s/it]                                                      {'loss': 0.0007, 'grad_norm': 0.00610776711255312, 'learning_rate': 1.8920967394667582e-05, 'num_tokens': 54243093.0, 'completions/mean_length': 2327.890625, 'completions/min_length': 1267.0, 'completions/max_length': 3441.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2327.890625, 'completions/min_terminated_length': 1267.0, 'completions/max_terminated_length': 3441.0, 'rewards/rollout_reward_func/mean': 12.370312690734863, 'rewards/rollout_reward_func/std': 5.189051151275635, 'reward': 12.370312690734863, 'reward_std': 4.758936882019043, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.042982012033462524, 'sampling/sampling_logp_difference/max': 3.186398506164551, 'sampling/importance_sampling_ratio/min': 0.020352046936750412, 'sampling/importance_sampling_ratio/mean': 0.8223675489425659, 'sampling/importance_sampling_ratio/max': 2.7055163383483887, 'kl': 0.8840320929884911, 'entropy': 0.07628985703922808, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.346131418009463, 'epoch': 2.69}
+ 34%|███▎      | 336/1000 [2:54:52<5:54:23, 32.02s/it] 34%|███▎      | 337/1000 [2:55:22<5:44:32, 31.18s/it]                                                      {'loss': -0.0017, 'grad_norm': 0.005508470349013805, 'learning_rate': 1.8886901859777757e-05, 'num_tokens': 54408195.0, 'completions/mean_length': 2027.96875, 'completions/min_length': 780.0, 'completions/max_length': 3236.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2027.96875, 'completions/min_terminated_length': 780.0, 'completions/max_terminated_length': 3236.0, 'rewards/rollout_reward_func/mean': 12.214061737060547, 'rewards/rollout_reward_func/std': 5.521153450012207, 'reward': 12.214062690734863, 'reward_std': 4.569606781005859, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03728317469358444, 'sampling/sampling_logp_difference/max': 3.821244478225708, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.833482563495636, 'sampling/importance_sampling_ratio/max': 2.2331185340881348, 'kl': 0.781012486666441, 'entropy': 0.06213488685898483, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.099178453012428, 'epoch': 2.7}
+ 34%|███▎      | 337/1000 [2:55:22<5:44:32, 31.18s/it] 34%|███▍      | 338/1000 [2:55:46<5:22:49, 29.26s/it]                                                      {'loss': 0.0025, 'grad_norm': 0.007530990522354841, 'learning_rate': 1.8852772008857115e-05, 'num_tokens': 54555217.0, 'completions/mean_length': 1753.84375, 'completions/min_length': 782.0, 'completions/max_length': 2832.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1753.84375, 'completions/min_terminated_length': 782.0, 'completions/max_terminated_length': 2832.0, 'rewards/rollout_reward_func/mean': 12.081250190734863, 'rewards/rollout_reward_func/std': 5.30856990814209, 'reward': 12.081249237060547, 'reward_std': 5.411704063415527, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04353143274784088, 'sampling/sampling_logp_difference/max': 3.3319647312164307, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7490882873535156, 'sampling/importance_sampling_ratio/max': 2.1505608558654785, 'kl': 1.323087427765131, 'entropy': 0.057629012037068605, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 23.821611733015743, 'epoch': 2.7}
+ 34%|███▍      | 338/1000 [2:55:46<5:22:49, 29.26s/it] 34%|███▍      | 339/1000 [2:56:17<5:26:41, 29.65s/it]                                                      {'loss': 0.0018, 'grad_norm': 0.010480758734047413, 'learning_rate': 1.8818578185592874e-05, 'num_tokens': 54709663.0, 'completions/mean_length': 1867.46875, 'completions/min_length': 851.0, 'completions/max_length': 3400.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1867.46875, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 3400.0, 'rewards/rollout_reward_func/mean': 10.912500381469727, 'rewards/rollout_reward_func/std': 5.257874011993408, 'reward': 10.912500381469727, 'reward_std': 5.289491653442383, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04849131405353546, 'sampling/sampling_logp_difference/max': 3.3341424465179443, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.6874701976776123, 'sampling/importance_sampling_ratio/max': 2.479377508163452, 'kl': 1.4649802334606647, 'entropy': 0.06612713821232319, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.282827852017363, 'epoch': 2.71}
+ 34%|███▍      | 339/1000 [2:56:17<5:26:41, 29.65s/it] 34%|███▍      | 340/1000 [2:56:52<5:42:59, 31.18s/it]                                                      {'loss': -0.0011, 'grad_norm': 0.006090896669775248, 'learning_rate': 1.878432073431645e-05, 'num_tokens': 54883530.0, 'completions/mean_length': 2161.296875, 'completions/min_length': 866.0, 'completions/max_length': 3811.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2161.296875, 'completions/min_terminated_length': 866.0, 'completions/max_terminated_length': 3811.0, 'rewards/rollout_reward_func/mean': 11.671875, 'rewards/rollout_reward_func/std': 5.561531066894531, 'reward': 11.671875, 'reward_std': 5.27352237701416, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.0476837083697319, 'sampling/sampling_logp_difference/max': 4.174665927886963, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.714109480381012, 'sampling/importance_sampling_ratio/max': 2.3853938579559326, 'kl': 0.8064757362008095, 'entropy': 0.06738276942633092, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 33.287097146014275, 'epoch': 2.72}
+ 34%|███▍      | 340/1000 [2:56:52<5:42:59, 31.18s/it] 34%|███▍      | 341/1000 [2:57:22<5:39:16, 30.89s/it]                                                      {'loss': -0.0009, 'grad_norm': 0.006680883467197418, 'learning_rate': 1.8750000000000002e-05, 'num_tokens': 55018850.0, 'completions/mean_length': 1576.25, 'completions/min_length': 852.0, 'completions/max_length': 3360.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1576.25, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3360.0, 'rewards/rollout_reward_func/mean': 10.910937309265137, 'rewards/rollout_reward_func/std': 5.19395637512207, 'reward': 10.910938262939453, 'reward_std': 5.214179039001465, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.0237197857350111, 'sampling/sampling_logp_difference/max': 2.0298032760620117, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8516586422920227, 'sampling/importance_sampling_ratio/max': 2.457561731338501, 'kl': 0.7476881574839354, 'entropy': 0.05366265994962305, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.019368897992535, 'epoch': 2.73}
+ 34%|███▍      | 341/1000 [2:57:22<5:39:16, 30.89s/it] 34%|███▍      | 342/1000 [2:57:53<5:37:58, 30.82s/it]                                                      {'loss': -0.0015, 'grad_norm': 0.007279521785676479, 'learning_rate': 1.8715616328252943e-05, 'num_tokens': 55193533.0, 'completions/mean_length': 2174.046875, 'completions/min_length': 854.0, 'completions/max_length': 3489.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2174.046875, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 3489.0, 'rewards/rollout_reward_func/mean': 11.964062690734863, 'rewards/rollout_reward_func/std': 5.399658203125, 'reward': 11.964062690734863, 'reward_std': 5.384920597076416, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.033904872834682465, 'sampling/sampling_logp_difference/max': 1.653747797012329, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.800432562828064, 'sampling/importance_sampling_ratio/max': 2.923581600189209, 'kl': 0.8801755346357822, 'entropy': 0.07190098008140922, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.50514461802959, 'epoch': 2.74}
+ 34%|███▍      | 342/1000 [2:57:53<5:37:58, 30.82s/it] 34%|███▍      | 343/1000 [2:58:17<5:15:08, 28.78s/it]                                                      {'loss': 0.0006, 'grad_norm': 0.011160723865032196, 'learning_rate': 1.8681170065318462e-05, 'num_tokens': 55318620.0, 'completions/mean_length': 1420.359375, 'completions/min_length': 782.0, 'completions/max_length': 2687.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1420.359375, 'completions/min_terminated_length': 782.0, 'completions/max_terminated_length': 2687.0, 'rewards/rollout_reward_func/mean': 10.557812690734863, 'rewards/rollout_reward_func/std': 5.244189739227295, 'reward': 10.557811737060547, 'reward_std': 5.222210884094238, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.027912380173802376, 'sampling/sampling_logp_difference/max': 3.5684244632720947, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8950728178024292, 'sampling/importance_sampling_ratio/max': 2.8048653602600098, 'kl': 1.294106150045991, 'entropy': 0.04346517822705209, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 22.98931521198392, 'epoch': 2.74}
+ 34%|███▍      | 343/1000 [2:58:17<5:15:08, 28.78s/it] 34%|███▍      | 344/1000 [2:58:36<4:44:41, 26.04s/it]                                                      {'loss': -0.0002, 'grad_norm': 0.006973966024816036, 'learning_rate': 1.864666155807005e-05, 'num_tokens': 55434852.0, 'completions/mean_length': 1286.0, 'completions/min_length': 783.0, 'completions/max_length': 2183.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1286.0, 'completions/min_terminated_length': 783.0, 'completions/max_terminated_length': 2183.0, 'rewards/rollout_reward_func/mean': 9.879688262939453, 'rewards/rollout_reward_func/std': 5.148899555206299, 'reward': 9.879688262939453, 'reward_std': 5.15186882019043, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.025002960115671158, 'sampling/sampling_logp_difference/max': 2.51129412651062, 'sampling/importance_sampling_ratio/min': 0.021135514602065086, 'sampling/importance_sampling_ratio/mean': 0.9510688781738281, 'sampling/importance_sampling_ratio/max': 2.684922933578491, 'kl': 0.827759338542819, 'entropy': 0.044936164282262325, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 18.782171557977563, 'epoch': 2.75}
+ 34%|███▍      | 344/1000 [2:58:36<4:44:41, 26.04s/it] 34%|███▍      | 345/1000 [2:59:00<4:35:54, 25.27s/it]                                                      {'loss': 0.0002, 'grad_norm': 0.007039931602776051, 'learning_rate': 1.8612091154007987e-05, 'num_tokens': 55565107.0, 'completions/mean_length': 1499.109375, 'completions/min_length': 782.0, 'completions/max_length': 2707.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1499.109375, 'completions/min_terminated_length': 782.0, 'completions/max_terminated_length': 2707.0, 'rewards/rollout_reward_func/mean': 10.764062881469727, 'rewards/rollout_reward_func/std': 5.211171627044678, 'reward': 10.764062881469727, 'reward_std': 5.45424747467041, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03897188603878021, 'sampling/sampling_logp_difference/max': 5.404949188232422, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7897881865501404, 'sampling/importance_sampling_ratio/max': 2.1805694103240967, 'kl': 2.489430610090494, 'entropy': 0.04731746739707887, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 22.552406112001336, 'epoch': 2.76}
+ 34%|███▍      | 345/1000 [2:59:00<4:35:54, 25.27s/it] 35%|███▍      | 346/1000 [2:59:25<4:35:44, 25.30s/it]                                                      {'loss': 0.0005, 'grad_norm': 0.006018970161676407, 'learning_rate': 1.857745920125586e-05, 'num_tokens': 55729482.0, 'completions/mean_length': 2017.359375, 'completions/min_length': 1198.0, 'completions/max_length': 2813.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2017.359375, 'completions/min_terminated_length': 1198.0, 'completions/max_terminated_length': 2813.0, 'rewards/rollout_reward_func/mean': 11.4453125, 'rewards/rollout_reward_func/std': 5.3414201736450195, 'reward': 11.4453125, 'reward_std': 5.344292163848877, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.039850153028964996, 'sampling/sampling_logp_difference/max': 3.253694534301758, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.742372453212738, 'sampling/importance_sampling_ratio/max': 2.15964937210083, 'kl': 0.8681376986205578, 'entropy': 0.06014409242197871, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 24.30422984699544, 'epoch': 2.77}
+ 35%|███▍      | 346/1000 [2:59:25<4:35:44, 25.30s/it] 35%|███▍      | 347/1000 [2:59:56<4:52:03, 26.84s/it]                                                      {'loss': -0.0016, 'grad_norm': 0.016461091116070747, 'learning_rate': 1.8542766048557046e-05, 'num_tokens': 55915550.0, 'completions/mean_length': 2346.3125, 'completions/min_length': 1688.0, 'completions/max_length': 3341.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2346.3125, 'completions/min_terminated_length': 1688.0, 'completions/max_terminated_length': 3341.0, 'rewards/rollout_reward_func/mean': 11.646875381469727, 'rewards/rollout_reward_func/std': 5.279068470001221, 'reward': 11.646875381469727, 'reward_std': 5.232149600982666, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04933125525712967, 'sampling/sampling_logp_difference/max': 4.351672649383545, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7596540451049805, 'sampling/importance_sampling_ratio/max': 2.841503143310547, 'kl': 1.5012225173413754, 'entropy': 0.07505749515257776, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.161670180008514, 'epoch': 2.78}
+ 35%|███▍      | 347/1000 [2:59:56<4:52:03, 26.84s/it] 35%|███▍      | 348/1000 [3:00:20<4:44:00, 26.13s/it]                                                      {'loss': 0.0014, 'grad_norm': 0.006130962632596493, 'learning_rate': 1.8508012045271217e-05, 'num_tokens': 56041921.0, 'completions/mean_length': 1440.046875, 'completions/min_length': 780.0, 'completions/max_length': 2834.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1440.046875, 'completions/min_terminated_length': 780.0, 'completions/max_terminated_length': 2834.0, 'rewards/rollout_reward_func/mean': 10.660938262939453, 'rewards/rollout_reward_func/std': 5.01520299911499, 'reward': 10.660938262939453, 'reward_std': 5.0255126953125, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03618118166923523, 'sampling/sampling_logp_difference/max': 4.56378173828125, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8543630242347717, 'sampling/importance_sampling_ratio/max': 2.4581282138824463, 'kl': 1.185657948255539, 'entropy': 0.0452416279586032, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 23.43496705500729, 'epoch': 2.78}
+ 35%|███▍      | 348/1000 [3:00:20<4:44:00, 26.13s/it] 35%|███▍      | 349/1000 [3:00:49<4:51:51, 26.90s/it]                                                      {'loss': 0.0014, 'grad_norm': 0.010367716662585735, 'learning_rate': 1.847319754137079e-05, 'num_tokens': 56189286.0, 'completions/mean_length': 1758.828125, 'completions/min_length': 849.0, 'completions/max_length': 3246.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1758.828125, 'completions/min_terminated_length': 849.0, 'completions/max_terminated_length': 3246.0, 'rewards/rollout_reward_func/mean': 13.107812881469727, 'rewards/rollout_reward_func/std': 4.9818501472473145, 'reward': 13.10781192779541, 'reward_std': 3.7436623573303223, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04134431108832359, 'sampling/sampling_logp_difference/max': 2.9643614292144775, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7217164039611816, 'sampling/importance_sampling_ratio/max': 2.461076259613037, 'kl': 1.3602182120084763, 'entropy': 0.06083208438940346, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 27.454319101016154, 'epoch': 2.79}
+ 35%|███▍      | 349/1000 [3:00:49<4:51:51, 26.90s/it] 35%|███▌      | 350/1000 [3:01:19<5:03:08, 27.98s/it]                                                      {'loss': -0.0021, 'grad_norm': 0.0048636640422046185, 'learning_rate': 1.8438322887437438e-05, 'num_tokens': 56365135.0, 'completions/mean_length': 2190.640625, 'completions/min_length': 1186.0, 'completions/max_length': 3324.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2190.640625, 'completions/min_terminated_length': 1186.0, 'completions/max_terminated_length': 3324.0, 'rewards/rollout_reward_func/mean': 12.168749809265137, 'rewards/rollout_reward_func/std': 5.043300628662109, 'reward': 12.168749809265137, 'reward_std': 5.065101623535156, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.047858577221632004, 'sampling/sampling_logp_difference/max': 3.205552101135254, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7665119767189026, 'sampling/importance_sampling_ratio/max': 2.6515610218048096, 'kl': 0.986776027828455, 'entropy': 0.07875138730742037, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.257428969009197, 'epoch': 2.8}
+ 35%|███▌      | 350/1000 [3:01:19<5:03:08, 27.98s/it] 35%|███▌      | 351/1000 [3:01:50<5:10:50, 28.74s/it]                                                      {'loss': -0.0018, 'grad_norm': 0.007360266521573067, 'learning_rate': 1.8403388434658536e-05, 'num_tokens': 56521011.0, 'completions/mean_length': 1888.1875, 'completions/min_length': 865.0, 'completions/max_length': 3464.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1888.1875, 'completions/min_terminated_length': 865.0, 'completions/max_terminated_length': 3464.0, 'rewards/rollout_reward_func/mean': 11.646875381469727, 'rewards/rollout_reward_func/std': 5.6168107986450195, 'reward': 11.646875381469727, 'reward_std': 5.37178897857666, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03527168557047844, 'sampling/sampling_logp_difference/max': 3.290691614151001, 'sampling/importance_sampling_ratio/min': 0.023981425911188126, 'sampling/importance_sampling_ratio/mean': 0.8543505668640137, 'sampling/importance_sampling_ratio/max': 2.5752062797546387, 'kl': 0.9643312301486731, 'entropy': 0.06881731725297868, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.202597356998012, 'epoch': 2.81}
+ 35%|███▌      | 351/1000 [3:01:50<5:10:50, 28.74s/it] 35%|███▌      | 352/1000 [3:02:17<5:06:53, 28.42s/it]                                                      {'loss': -0.0001, 'grad_norm': 0.0063909199088811874, 'learning_rate': 1.8368394534823635e-05, 'num_tokens': 56659341.0, 'completions/mean_length': 1621.28125, 'completions/min_length': 852.0, 'completions/max_length': 3129.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1621.28125, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3129.0, 'rewards/rollout_reward_func/mean': 12.700000762939453, 'rewards/rollout_reward_func/std': 5.319655418395996, 'reward': 12.699999809265137, 'reward_std': 5.365779876708984, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03486834466457367, 'sampling/sampling_logp_difference/max': 3.976900577545166, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7719494700431824, 'sampling/importance_sampling_ratio/max': 1.8614040613174438, 'kl': 1.2097809799015522, 'entropy': 0.05892345868051052, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 26.471712815015053, 'epoch': 2.82}
+ 35%|███▌      | 352/1000 [3:02:17<5:06:53, 28.42s/it] 35%|███▌      | 353/1000 [3:02:54<5:32:29, 30.83s/it]                                                      {'loss': 0.0002, 'grad_norm': 0.00604790635406971, 'learning_rate': 1.8333341540320923e-05, 'num_tokens': 56814234.0, 'completions/mean_length': 1874.453125, 'completions/min_length': 862.0, 'completions/max_length': 4090.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1874.453125, 'completions/min_terminated_length': 862.0, 'completions/max_terminated_length': 4090.0, 'rewards/rollout_reward_func/mean': 11.173437118530273, 'rewards/rollout_reward_func/std': 5.433939456939697, 'reward': 11.173437118530273, 'reward_std': 5.044375419616699, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04223785549402237, 'sampling/sampling_logp_difference/max': 2.4924328327178955, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7786881327629089, 'sampling/importance_sampling_ratio/max': 2.6709485054016113, 'kl': 0.8763927966356277, 'entropy': 0.07086747023276985, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 34.93280565099849, 'epoch': 2.82}
+ 35%|███▌      | 353/1000 [3:02:54<5:32:29, 30.83s/it] 35%|███▌      | 354/1000 [3:03:26<5:34:34, 31.08s/it]                                                      {'loss': 0.0009, 'grad_norm': 0.0059526655822992325, 'learning_rate': 1.829822980413366e-05, 'num_tokens': 56969658.0, 'completions/mean_length': 1882.75, 'completions/min_length': 863.0, 'completions/max_length': 3560.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1882.75, 'completions/min_terminated_length': 863.0, 'completions/max_terminated_length': 3560.0, 'rewards/rollout_reward_func/mean': 11.056249618530273, 'rewards/rollout_reward_func/std': 5.084800720214844, 'reward': 11.056249618530273, 'reward_std': 5.084841728210449, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.045415669679641724, 'sampling/sampling_logp_difference/max': 3.8762786388397217, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7222275733947754, 'sampling/importance_sampling_ratio/max': 2.178814649581909, 'kl': 1.4061407670378685, 'entropy': 0.07221311726607382, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.3073485339919, 'epoch': 2.83}
+ 35%|███▌      | 354/1000 [3:03:26<5:34:34, 31.08s/it] 36%|███▌      | 355/1000 [3:03:56<5:33:06, 30.99s/it]                                                      {'loss': -0.0022, 'grad_norm': 0.00956408865749836, 'learning_rate': 1.8263059679836642e-05, 'num_tokens': 57120932.0, 'completions/mean_length': 1819.53125, 'completions/min_length': 782.0, 'completions/max_length': 3576.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1819.53125, 'completions/min_terminated_length': 782.0, 'completions/max_terminated_length': 3576.0, 'rewards/rollout_reward_func/mean': 10.685937881469727, 'rewards/rollout_reward_func/std': 5.132216453552246, 'reward': 10.685937881469727, 'reward_std': 5.154736518859863, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.036477915942668915, 'sampling/sampling_logp_difference/max': 3.260183811187744, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8710392117500305, 'sampling/importance_sampling_ratio/max': 2.3865270614624023, 'kl': 0.9346331991255283, 'entropy': 0.06461221573408693, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.45534323999891, 'epoch': 2.84}
+ 36%|███▌      | 355/1000 [3:03:56<5:33:06, 30.99s/it] 36%|███▌      | 356/1000 [3:04:28<5:34:30, 31.17s/it]                                                      {'loss': -0.0004, 'grad_norm': 0.007130856160074472, 'learning_rate': 1.822783152159263e-05, 'num_tokens': 57308005.0, 'completions/mean_length': 2362.015625, 'completions/min_length': 1179.0, 'completions/max_length': 3509.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2362.015625, 'completions/min_terminated_length': 1179.0, 'completions/max_terminated_length': 3509.0, 'rewards/rollout_reward_func/mean': 13.475000381469727, 'rewards/rollout_reward_func/std': 5.212804794311523, 'reward': 13.475000381469727, 'reward_std': 4.862048149108887, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.049093324691057205, 'sampling/sampling_logp_difference/max': 4.4737324714660645, 'sampling/importance_sampling_ratio/min': 0.0028158589266240597, 'sampling/importance_sampling_ratio/mean': 0.9149746894836426, 'sampling/importance_sampling_ratio/max': 2.898223638534546, 'kl': 0.9470633938908577, 'entropy': 0.08725592959672213, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.28193078100594, 'epoch': 2.85}
+ 36%|███▌      | 356/1000 [3:04:28<5:34:30, 31.17s/it] 36%|███▌      | 357/1000 [3:04:57<5:28:16, 30.63s/it]                                                      {'loss': 0.0031, 'grad_norm': 0.0054515041410923, 'learning_rate': 1.819254568414879e-05, 'num_tokens': 57472256.0, 'completions/mean_length': 2015.046875, 'completions/min_length': 854.0, 'completions/max_length': 3315.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2015.046875, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 3315.0, 'rewards/rollout_reward_func/mean': 11.332813262939453, 'rewards/rollout_reward_func/std': 4.886425971984863, 'reward': 11.332813262939453, 'reward_std': 4.952079772949219, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.0411185622215271, 'sampling/sampling_logp_difference/max': 2.535670518875122, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7861603498458862, 'sampling/importance_sampling_ratio/max': 2.8645424842834473, 'kl': 1.138117492198944, 'entropy': 0.07606907933950424, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.128506453977025, 'epoch': 2.86}
+ 36%|███▌      | 357/1000 [3:04:57<5:28:16, 30.63s/it] 36%|███▌      | 358/1000 [3:05:27<5:23:39, 30.25s/it]                                                      {'loss': 0.0018, 'grad_norm': 0.008653227239847183, 'learning_rate': 1.8157202522833104e-05, 'num_tokens': 57621883.0, 'completions/mean_length': 1794.171875, 'completions/min_length': 779.0, 'completions/max_length': 3384.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1794.171875, 'completions/min_terminated_length': 779.0, 'completions/max_terminated_length': 3384.0, 'rewards/rollout_reward_func/mean': 11.490625381469727, 'rewards/rollout_reward_func/std': 5.307279586791992, 'reward': 11.49062442779541, 'reward_std': 5.095699787139893, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03813505172729492, 'sampling/sampling_logp_difference/max': 3.813045024871826, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8665518760681152, 'sampling/importance_sampling_ratio/max': 2.8297574520111084, 'kl': 1.095504181459546, 'entropy': 0.07114352425560355, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.08718354497978, 'epoch': 2.86}
+ 36%|███▌      | 358/1000 [3:05:27<5:23:39, 30.25s/it] 36%|███▌      | 359/1000 [3:05:56<5:20:24, 29.99s/it]                                                      {'loss': -0.001, 'grad_norm': 0.007241146173328161, 'learning_rate': 1.8121802393550825e-05, 'num_tokens': 57766854.0, 'completions/mean_length': 1723.046875, 'completions/min_length': 852.0, 'completions/max_length': 3379.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1723.046875, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3379.0, 'rewards/rollout_reward_func/mean': 10.728124618530273, 'rewards/rollout_reward_func/std': 5.350077152252197, 'reward': 10.72812557220459, 'reward_std': 5.077939987182617, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.02880384959280491, 'sampling/sampling_logp_difference/max': 2.199960231781006, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.94400954246521, 'sampling/importance_sampling_ratio/max': 2.5942931175231934, 'kl': 1.1785823106765747, 'entropy': 0.0626008752733469, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.12369044299703, 'epoch': 2.87}
+ 36%|███▌      | 359/1000 [3:05:56<5:20:24, 29.99s/it] 36%|███▌      | 360/1000 [3:06:16<4:48:11, 27.02s/it]                                                      {'loss': 0.001, 'grad_norm': 0.008055724203586578, 'learning_rate': 1.808634565278085e-05, 'num_tokens': 57889225.0, 'completions/mean_length': 1379.546875, 'completions/min_length': 854.0, 'completions/max_length': 2236.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1379.546875, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 2236.0, 'rewards/rollout_reward_func/mean': 10.246875762939453, 'rewards/rollout_reward_func/std': 5.275850296020508, 'reward': 10.246874809265137, 'reward_std': 5.1193742752075195, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03099362552165985, 'sampling/sampling_logp_difference/max': 2.809422016143799, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9419958591461182, 'sampling/importance_sampling_ratio/max': 2.6690468788146973, 'kl': 1.0233747251331806, 'entropy': 0.04695991554763168, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 19.203660187988135, 'epoch': 2.88}
+ 36%|███▌      | 360/1000 [3:06:16<4:48:11, 27.02s/it] 36%|███▌      | 361/1000 [3:06:53<5:18:23, 29.90s/it]                                                      {'loss': 0.0009, 'grad_norm': 0.009613524191081524, 'learning_rate': 1.805083265757218e-05, 'num_tokens': 58060922.0, 'completions/mean_length': 2129.765625, 'completions/min_length': 1272.0, 'completions/max_length': 3933.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2129.765625, 'completions/min_terminated_length': 1272.0, 'completions/max_terminated_length': 3933.0, 'rewards/rollout_reward_func/mean': 12.345312118530273, 'rewards/rollout_reward_func/std': 5.037728786468506, 'reward': 12.345312118530273, 'reward_std': 5.033524513244629, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.040191248059272766, 'sampling/sampling_logp_difference/max': 2.6946208477020264, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7502907514572144, 'sampling/importance_sampling_ratio/max': 2.8730263710021973, 'kl': 1.2139912396669388, 'entropy': 0.07901420257985592, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 34.20427665098396, 'epoch': 2.89}
+ 36%|███▌      | 361/1000 [3:06:53<5:18:23, 29.90s/it] 36%|███▌      | 362/1000 [3:07:23<5:18:39, 29.97s/it]                                                      {'loss': 0.003, 'grad_norm': 0.009410962462425232, 'learning_rate': 1.8015263765540265e-05, 'num_tokens': 58242267.0, 'completions/mean_length': 2274.515625, 'completions/min_length': 1194.0, 'completions/max_length': 3297.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2274.515625, 'completions/min_terminated_length': 1194.0, 'completions/max_terminated_length': 3297.0, 'rewards/rollout_reward_func/mean': 12.223437309265137, 'rewards/rollout_reward_func/std': 5.266417980194092, 'reward': 12.223437309265137, 'reward_std': 5.391239166259766, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.047317977994680405, 'sampling/sampling_logp_difference/max': 1.9303514957427979, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7466963529586792, 'sampling/importance_sampling_ratio/max': 2.700201988220215, 'kl': 2.158690057694912, 'entropy': 0.0982918655499816, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.882366772995738, 'epoch': 2.9}
+ 36%|███▌      | 362/1000 [3:07:23<5:18:39, 29.97s/it] 36%|███▋      | 363/1000 [3:07:53<5:20:15, 30.17s/it]                                                      {'loss': -0.0016, 'grad_norm': 0.009131496772170067, 'learning_rate': 1.7979639334863467e-05, 'num_tokens': 58420917.0, 'completions/mean_length': 2234.03125, 'completions/min_length': 892.0, 'completions/max_length': 3384.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2234.03125, 'completions/min_terminated_length': 892.0, 'completions/max_terminated_length': 3384.0, 'rewards/rollout_reward_func/mean': 13.06406307220459, 'rewards/rollout_reward_func/std': 5.2126641273498535, 'reward': 13.06406307220459, 'reward_std': 4.99512243270874, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04279740899801254, 'sampling/sampling_logp_difference/max': 4.116156101226807, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8149133920669556, 'sampling/importance_sampling_ratio/max': 2.944526433944702, 'kl': 0.843137152493, 'entropy': 0.08049185364507139, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.36570572401979, 'epoch': 2.9}
+ 36%|███▋      | 363/1000 [3:07:53<5:20:15, 30.17s/it] 36%|███▋      | 364/1000 [3:08:25<5:25:01, 30.66s/it]                                                      {'loss': -0.0006, 'grad_norm': 0.0068746996112167835, 'learning_rate': 1.7943959724279405e-05, 'num_tokens': 58603908.0, 'completions/mean_length': 2299.859375, 'completions/min_length': 786.0, 'completions/max_length': 3547.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2299.859375, 'completions/min_terminated_length': 786.0, 'completions/max_terminated_length': 3547.0, 'rewards/rollout_reward_func/mean': 11.870311737060547, 'rewards/rollout_reward_func/std': 5.179590225219727, 'reward': 11.870311737060547, 'reward_std': 4.7173590660095215, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04936789721250534, 'sampling/sampling_logp_difference/max': 2.3051376342773438, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7252504825592041, 'sampling/importance_sampling_ratio/max': 2.34775447845459, 'kl': 0.8990882392972708, 'entropy': 0.0966574689373374, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.49406441598694, 'epoch': 2.91}
+ 36%|███▋      | 364/1000 [3:08:25<5:25:01, 30.66s/it] 36%|███▋      | 365/1000 [3:08:56<5:25:39, 30.77s/it]                                                      {'loss': 0.0002, 'grad_norm': 0.005137615371495485, 'learning_rate': 1.7908225293081356e-05, 'num_tokens': 58753387.0, 'completions/mean_length': 1791.484375, 'completions/min_length': 853.0, 'completions/max_length': 3584.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1791.484375, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3584.0, 'rewards/rollout_reward_func/mean': 12.390625, 'rewards/rollout_reward_func/std': 4.690507888793945, 'reward': 12.390625, 'reward_std': 4.694921493530273, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03886817768216133, 'sampling/sampling_logp_difference/max': 2.557629346847534, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7692372798919678, 'sampling/importance_sampling_ratio/max': 2.012470245361328, 'kl': 0.9698151517659426, 'entropy': 0.07437815982848406, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.715681299974676, 'epoch': 2.92}
+ 36%|███▋      | 365/1000 [3:08:56<5:25:39, 30.77s/it] 37%|███▋      | 366/1000 [3:09:24<5:14:52, 29.80s/it]                                                      {'loss': -0.0001, 'grad_norm': 0.006853668484836817, 'learning_rate': 1.7872436401114648e-05, 'num_tokens': 58878223.0, 'completions/mean_length': 1417.6875, 'completions/min_length': 851.0, 'completions/max_length': 3145.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1417.6875, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 3145.0, 'rewards/rollout_reward_func/mean': 10.721875190734863, 'rewards/rollout_reward_func/std': 5.449697017669678, 'reward': 10.721875190734863, 'reward_std': 5.160262107849121, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03289750590920448, 'sampling/sampling_logp_difference/max': 2.2955055236816406, 'sampling/importance_sampling_ratio/min': 0.02662505954504013, 'sampling/importance_sampling_ratio/mean': 0.9984978437423706, 'sampling/importance_sampling_ratio/max': 2.8750529289245605, 'kl': 0.8509598691016436, 'entropy': 0.05596539657562971, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 26.33812028898683, 'epoch': 2.93}
+ 37%|███▋      | 366/1000 [3:09:24<5:14:52, 29.80s/it] 37%|███▋      | 367/1000 [3:09:56<5:20:52, 30.41s/it]                                                      {'loss': -0.0, 'grad_norm': 0.0056606475263834, 'learning_rate': 1.7836593408773024e-05, 'num_tokens': 59042135.0, 'completions/mean_length': 2011.0, 'completions/min_length': 782.0, 'completions/max_length': 3559.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2011.0, 'completions/min_terminated_length': 782.0, 'completions/max_terminated_length': 3559.0, 'rewards/rollout_reward_func/mean': 11.274999618530273, 'rewards/rollout_reward_func/std': 5.378115653991699, 'reward': 11.274999618530273, 'reward_std': 5.20512056350708, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.037278808653354645, 'sampling/sampling_logp_difference/max': 2.5702884197235107, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8080817461013794, 'sampling/importance_sampling_ratio/max': 2.7818589210510254, 'kl': 0.7552842944860458, 'entropy': 0.08460043696686625, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.516882609001186, 'epoch': 2.94}
+ 37%|███▋      | 367/1000 [3:09:56<5:20:52, 30.41s/it] 37%|███▋      | 368/1000 [3:10:27<5:22:28, 30.61s/it]                                                      {'loss': 0.0013, 'grad_norm': 0.008359738625586033, 'learning_rate': 1.7800696676995023e-05, 'num_tokens': 59222384.0, 'completions/mean_length': 2258.640625, 'completions/min_length': 854.0, 'completions/max_length': 3490.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2258.640625, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 3490.0, 'rewards/rollout_reward_func/mean': 11.926563262939453, 'rewards/rollout_reward_func/std': 5.039975166320801, 'reward': 11.926563262939453, 'reward_std': 5.048572063446045, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04571344703435898, 'sampling/sampling_logp_difference/max': 2.896690607070923, 'sampling/importance_sampling_ratio/min': 0.03189513087272644, 'sampling/importance_sampling_ratio/mean': 0.703134298324585, 'sampling/importance_sampling_ratio/max': 2.8281095027923584, 'kl': 0.837201127782464, 'entropy': 0.10355860367417336, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.78964547599753, 'epoch': 2.94}
+ 37%|███▋      | 368/1000 [3:10:27<5:22:28, 30.61s/it] 37%|███▋      | 369/1000 [3:11:03<5:38:20, 32.17s/it]                                                      {'loss': 0.0006, 'grad_norm': 0.01961888000369072, 'learning_rate': 1.7764746567260335e-05, 'num_tokens': 59383416.0, 'completions/mean_length': 1966.375, 'completions/min_length': 850.0, 'completions/max_length': 4028.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1966.375, 'completions/min_terminated_length': 850.0, 'completions/max_terminated_length': 4028.0, 'rewards/rollout_reward_func/mean': 11.787500381469727, 'rewards/rollout_reward_func/std': 5.499826908111572, 'reward': 11.787500381469727, 'reward_std': 5.4364705085754395, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03615507856011391, 'sampling/sampling_logp_difference/max': 2.624391794204712, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8771173357963562, 'sampling/importance_sampling_ratio/max': 2.8016717433929443, 'kl': 1.0844214335083961, 'entropy': 0.07626503542996943, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 34.26001239497418, 'epoch': 2.95}
+ 37%|███▋      | 369/1000 [3:11:03<5:38:20, 32.17s/it] 37%|███▋      | 370/1000 [3:11:41<5:58:57, 34.19s/it]                                                      {'loss': -0.0014, 'grad_norm': 0.0059527806006371975, 'learning_rate': 1.772874344158616e-05, 'num_tokens': 59565741.0, 'completions/mean_length': 2291.078125, 'completions/min_length': 852.0, 'completions/max_length': 4206.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2291.078125, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 4206.0, 'rewards/rollout_reward_func/mean': 11.301562309265137, 'rewards/rollout_reward_func/std': 5.67711877822876, 'reward': 11.301562309265137, 'reward_std': 5.6045050621032715, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04768507927656174, 'sampling/sampling_logp_difference/max': 3.0392260551452637, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.6444642543792725, 'sampling/importance_sampling_ratio/max': 2.2914183139801025, 'kl': 1.246547695249319, 'entropy': 0.09710836433805525, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 37.540348763010115, 'epoch': 2.96}
+ 37%|███▋      | 370/1000 [3:11:41<5:58:57, 34.19s/it] 37%|███▋      | 371/1000 [3:12:12<5:47:47, 33.18s/it]                                                      {'loss': 0.0017, 'grad_norm': 0.006541519425809383, 'learning_rate': 1.7692687662523583e-05, 'num_tokens': 59739251.0, 'completions/mean_length': 2156.09375, 'completions/min_length': 1193.0, 'completions/max_length': 3482.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2156.09375, 'completions/min_terminated_length': 1193.0, 'completions/max_terminated_length': 3482.0, 'rewards/rollout_reward_func/mean': 12.271875381469727, 'rewards/rollout_reward_func/std': 5.235151767730713, 'reward': 12.271875381469727, 'reward_std': 5.320284843444824, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.0333465114235878, 'sampling/sampling_logp_difference/max': 2.603156328201294, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8120359182357788, 'sampling/importance_sampling_ratio/max': 2.8747735023498535, 'kl': 0.868212066590786, 'entropy': 0.08385550836101174, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.551681417993677, 'epoch': 2.97}
+ 37%|███▋      | 371/1000 [3:12:12<5:47:47, 33.18s/it] 37%|███▋      | 372/1000 [3:12:38<5:23:52, 30.94s/it]                                                      {'loss': -0.0001, 'grad_norm': 0.00691134762018919, 'learning_rate': 1.7656579593153892e-05, 'num_tokens': 59896574.0, 'completions/mean_length': 1910.421875, 'completions/min_length': 781.0, 'completions/max_length': 2912.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1910.421875, 'completions/min_terminated_length': 781.0, 'completions/max_terminated_length': 2912.0, 'rewards/rollout_reward_func/mean': 11.956250190734863, 'rewards/rollout_reward_func/std': 5.4525628089904785, 'reward': 11.956250190734863, 'reward_std': 5.299910545349121, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03899100050330162, 'sampling/sampling_logp_difference/max': 3.0644242763519287, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8777697086334229, 'sampling/importance_sampling_ratio/max': 2.7256603240966797, 'kl': 0.8028136659413576, 'entropy': 0.07807495980523527, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 24.650476682014414, 'epoch': 2.98}
+ 37%|███▋      | 372/1000 [3:12:38<5:23:52, 30.94s/it] 37%|███▋      | 373/1000 [3:13:11<5:30:05, 31.59s/it]                                                      {'loss': -0.001, 'grad_norm': 0.005937162786722183, 'learning_rate': 1.7620419597084943e-05, 'num_tokens': 60063100.0, 'completions/mean_length': 2050.59375, 'completions/min_length': 780.0, 'completions/max_length': 3670.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2050.59375, 'completions/min_terminated_length': 780.0, 'completions/max_terminated_length': 3670.0, 'rewards/rollout_reward_func/mean': 11.623437881469727, 'rewards/rollout_reward_func/std': 5.090038299560547, 'reward': 11.623437881469727, 'reward_std': 5.167032241821289, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.043267715722322464, 'sampling/sampling_logp_difference/max': 3.6394286155700684, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.6908366084098816, 'sampling/importance_sampling_ratio/max': 2.8387067317962646, 'kl': 0.8700506258755922, 'entropy': 0.08428547414951026, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.679069719990366, 'epoch': 2.98}
+ 37%|███▋      | 373/1000 [3:13:11<5:30:05, 31.59s/it] 37%|███▋      | 374/1000 [3:13:46<5:40:01, 32.59s/it]                                                      {'loss': -0.0022, 'grad_norm': 0.004893559962511063, 'learning_rate': 1.7584208038447505e-05, 'num_tokens': 60236792.0, 'completions/mean_length': 2159.8125, 'completions/min_length': 850.0, 'completions/max_length': 3888.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2159.8125, 'completions/min_terminated_length': 850.0, 'completions/max_terminated_length': 3888.0, 'rewards/rollout_reward_func/mean': 12.221874237060547, 'rewards/rollout_reward_func/std': 5.498902320861816, 'reward': 12.221875190734863, 'reward_std': 5.367801189422607, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.041686348617076874, 'sampling/sampling_logp_difference/max': 2.136868476867676, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8431103825569153, 'sampling/importance_sampling_ratio/max': 2.3294737339019775, 'kl': 0.9011336620897055, 'entropy': 0.0832437532953918, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 33.67488944899378, 'epoch': 2.99}
+ 37%|███▋      | 374/1000 [3:13:46<5:40:01, 32.59s/it] 38%|███▊      | 375/1000 [3:14:20<5:43:59, 33.02s/it]                                                      {'loss': 0.0012, 'grad_norm': 0.004658821504563093, 'learning_rate': 1.754794528189156e-05, 'num_tokens': 60405463.0, 'completions/mean_length': 2083.734375, 'completions/min_length': 866.0, 'completions/max_length': 3730.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2083.734375, 'completions/min_terminated_length': 866.0, 'completions/max_terminated_length': 3730.0, 'rewards/rollout_reward_func/mean': 11.340625762939453, 'rewards/rollout_reward_func/std': 5.606564521789551, 'reward': 11.340625762939453, 'reward_std': 5.1971435546875, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04246422275900841, 'sampling/sampling_logp_difference/max': 3.0430386066436768, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.6770968437194824, 'sampling/importance_sampling_ratio/max': 2.4950389862060547, 'kl': 0.7533171325922012, 'entropy': 0.07803179952315986, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.74967697601096, 'epoch': 3.0}
+ 38%|███▊      | 375/1000 [3:14:20<5:43:59, 33.02s/it] 38%|███▊      | 376/1000 [3:14:51<5:38:01, 32.50s/it]                                                      {'loss': -0.0004, 'grad_norm': 0.005679543130099773, 'learning_rate': 1.751163169258267e-05, 'num_tokens': 60583489.0, 'completions/mean_length': 2224.28125, 'completions/min_length': 854.0, 'completions/max_length': 3440.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2224.28125, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 3440.0, 'rewards/rollout_reward_func/mean': 12.329687118530273, 'rewards/rollout_reward_func/std': 5.450460433959961, 'reward': 12.329687118530273, 'reward_std': 5.09493350982666, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.037262558937072754, 'sampling/sampling_logp_difference/max': 3.050436496734619, 'sampling/importance_sampling_ratio/min': 0.013413100503385067, 'sampling/importance_sampling_ratio/mean': 0.7763373851776123, 'sampling/importance_sampling_ratio/max': 1.887111783027649, 'kl': 1.0347666963934898, 'entropy': 0.08709136582911015, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.84729671201785, 'epoch': 3.01}
+ 38%|███▊      | 376/1000 [3:14:51<5:38:01, 32.50s/it] 38%|███▊      | 377/1000 [3:15:21<5:28:49, 31.67s/it]                                                      {'loss': 0.0009, 'grad_norm': 0.011669867672026157, 'learning_rate': 1.747526763619828e-05, 'num_tokens': 60739980.0, 'completions/mean_length': 1897.421875, 'completions/min_length': 865.0, 'completions/max_length': 3405.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1897.421875, 'completions/min_terminated_length': 865.0, 'completions/max_terminated_length': 3405.0, 'rewards/rollout_reward_func/mean': 11.88593864440918, 'rewards/rollout_reward_func/std': 5.589385509490967, 'reward': 11.885936737060547, 'reward_std': 5.640444278717041, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03427765518426895, 'sampling/sampling_logp_difference/max': 2.1685147285461426, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8322256803512573, 'sampling/importance_sampling_ratio/max': 2.5216004848480225, 'kl': 0.8354055136442184, 'entropy': 0.07433738862164319, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.570101321005495, 'epoch': 3.02}
+ 38%|███▊      | 377/1000 [3:15:21<5:28:49, 31.67s/it] 38%|███▊      | 378/1000 [3:15:47<5:09:14, 29.83s/it]                                                      {'loss': -0.0006, 'grad_norm': 0.005862871650606394, 'learning_rate': 1.7438853478924024e-05, 'num_tokens': 60900231.0, 'completions/mean_length': 1954.546875, 'completions/min_length': 851.0, 'completions/max_length': 2875.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1954.546875, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 2875.0, 'rewards/rollout_reward_func/mean': 11.235937118530273, 'rewards/rollout_reward_func/std': 5.4379143714904785, 'reward': 11.235937118530273, 'reward_std': 4.94227933883667, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.040103211998939514, 'sampling/sampling_logp_difference/max': 2.968003749847412, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8387154340744019, 'sampling/importance_sampling_ratio/max': 2.999561309814453, 'kl': 0.8351422660052776, 'entropy': 0.07087162602692842, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 24.48992062801699, 'epoch': 3.02}
+ 38%|███▊      | 378/1000 [3:15:47<5:09:14, 29.83s/it] 38%|███▊      | 379/1000 [3:16:12<4:55:18, 28.53s/it]                                                      {'loss': 0.0014, 'grad_norm': 0.0065164268016815186, 'learning_rate': 1.740238958745007e-05, 'num_tokens': 61055742.0, 'completions/mean_length': 1882.484375, 'completions/min_length': 851.0, 'completions/max_length': 2901.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1882.484375, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 2901.0, 'rewards/rollout_reward_func/mean': 11.203125, 'rewards/rollout_reward_func/std': 5.2009453773498535, 'reward': 11.203125, 'reward_std': 4.995068550109863, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03553502634167671, 'sampling/sampling_logp_difference/max': 2.7826075553894043, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7978107929229736, 'sampling/importance_sampling_ratio/max': 2.932028293609619, 'kl': 0.9190922491252422, 'entropy': 0.0637603256618604, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 24.455904789014312, 'epoch': 3.03}
+ 38%|███▊      | 379/1000 [3:16:12<4:55:18, 28.53s/it] 38%|███▊      | 380/1000 [3:16:37<4:44:58, 27.58s/it]                                                      {'loss': 0.0003, 'grad_norm': 0.005223467480391264, 'learning_rate': 1.7365876328967397e-05, 'num_tokens': 61170466.0, 'completions/mean_length': 1263.6875, 'completions/min_length': 779.0, 'completions/max_length': 2951.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1263.6875, 'completions/min_terminated_length': 779.0, 'completions/max_terminated_length': 2951.0, 'rewards/rollout_reward_func/mean': 10.36875057220459, 'rewards/rollout_reward_func/std': 5.093160152435303, 'reward': 10.36875057220459, 'reward_std': 5.273434638977051, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.026366496458649635, 'sampling/sampling_logp_difference/max': 3.239562511444092, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8375259041786194, 'sampling/importance_sampling_ratio/max': 2.0350453853607178, 'kl': 0.8382971081882715, 'entropy': 0.047547846334055066, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 24.256957748002606, 'epoch': 3.04}
+ 38%|███▊      | 380/1000 [3:16:37<4:44:58, 27.58s/it] 38%|███▊      | 381/1000 [3:17:08<4:54:54, 28.59s/it]                                                      {'loss': -0.0018, 'grad_norm': 0.006908774841576815, 'learning_rate': 1.732931407116411e-05, 'num_tokens': 61336644.0, 'completions/mean_length': 2045.15625, 'completions/min_length': 854.0, 'completions/max_length': 3405.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2045.15625, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 3405.0, 'rewards/rollout_reward_func/mean': 12.118749618530273, 'rewards/rollout_reward_func/std': 5.217700958251953, 'reward': 12.11875057220459, 'reward_std': 4.557244777679443, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03563650697469711, 'sampling/sampling_logp_difference/max': 3.143646240234375, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9582186937332153, 'sampling/importance_sampling_ratio/max': 2.700080394744873, 'kl': 0.9827351681888103, 'entropy': 0.07315354025922716, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.644307089001813, 'epoch': 3.05}
+ 38%|███▊      | 381/1000 [3:17:08<4:54:54, 28.59s/it] 38%|███▊      | 382/1000 [3:17:42<5:08:51, 29.99s/it]                                                      {'loss': -0.0008, 'grad_norm': 0.0077890632674098015, 'learning_rate': 1.7292703182221743e-05, 'num_tokens': 61514080.0, 'completions/mean_length': 2217.0625, 'completions/min_length': 851.0, 'completions/max_length': 3650.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2217.0625, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 3650.0, 'rewards/rollout_reward_func/mean': 12.1875, 'rewards/rollout_reward_func/std': 5.124497890472412, 'reward': 12.1875, 'reward_std': 5.22678279876709, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03671057149767876, 'sampling/sampling_logp_difference/max': 3.652449131011963, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8806557655334473, 'sampling/importance_sampling_ratio/max': 2.392101287841797, 'kl': 0.9346190206706524, 'entropy': 0.07505566300824285, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.840333180996822, 'epoch': 3.06}
+ 38%|███▊      | 382/1000 [3:17:42<5:08:51, 29.99s/it] 38%|███▊      | 383/1000 [3:18:32<6:10:25, 36.02s/it]                                                      {'loss': -0.0002, 'grad_norm': 0.004691601265221834, 'learning_rate': 1.7256044030811537e-05, 'num_tokens': 61713343.0, 'completions/mean_length': 2548.484375, 'completions/min_length': 1666.0, 'completions/max_length': 5421.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2548.484375, 'completions/min_terminated_length': 1666.0, 'completions/max_terminated_length': 5421.0, 'rewards/rollout_reward_func/mean': 13.982812881469727, 'rewards/rollout_reward_func/std': 4.894135475158691, 'reward': 13.982812881469727, 'reward_std': 4.936036109924316, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04178641736507416, 'sampling/sampling_logp_difference/max': 2.8125016689300537, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8075505495071411, 'sampling/importance_sampling_ratio/max': 2.9489850997924805, 'kl': 0.8672361336648464, 'entropy': 0.0729064978659153, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 47.91991365799913, 'epoch': 3.06}
+ 38%|███▊      | 383/1000 [3:18:32<6:10:25, 36.02s/it] 38%|███▊      | 384/1000 [3:19:04<5:59:21, 35.00s/it]                                                      {'loss': -0.001, 'grad_norm': 0.006163216661661863, 'learning_rate': 1.721933698609075e-05, 'num_tokens': 61909834.0, 'completions/mean_length': 2506.796875, 'completions/min_length': 854.0, 'completions/max_length': 3592.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2506.796875, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 3592.0, 'rewards/rollout_reward_func/mean': 11.173437118530273, 'rewards/rollout_reward_func/std': 5.3998308181762695, 'reward': 11.173437118530273, 'reward_std': 5.499329566955566, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04391838237643242, 'sampling/sampling_logp_difference/max': 3.868004560470581, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7125563621520996, 'sampling/importance_sampling_ratio/max': 2.9019291400909424, 'kl': 1.230439681559801, 'entropy': 0.07723447401076555, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.322129627013055, 'epoch': 3.07}
+ 38%|███▊      | 384/1000 [3:19:04<5:59:21, 35.00s/it] 38%|███▊      | 385/1000 [3:19:37<5:50:00, 34.15s/it]                                                      {'loss': 0.0007, 'grad_norm': 0.005998130422085524, 'learning_rate': 1.7182582417698903e-05, 'num_tokens': 62113749.0, 'completions/mean_length': 2619.171875, 'completions/min_length': 1268.0, 'completions/max_length': 3548.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2619.171875, 'completions/min_terminated_length': 1268.0, 'completions/max_terminated_length': 3548.0, 'rewards/rollout_reward_func/mean': 11.845312118530273, 'rewards/rollout_reward_func/std': 5.741603374481201, 'reward': 11.845312118530273, 'reward_std': 5.480267524719238, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04513099044561386, 'sampling/sampling_logp_difference/max': 2.9373018741607666, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.74210524559021, 'sampling/importance_sampling_ratio/max': 2.8895792961120605, 'kl': 1.0157707780599594, 'entropy': 0.08109961543232203, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.817699295992497, 'epoch': 3.08}
+ 38%|███▊      | 385/1000 [3:19:37<5:50:00, 34.15s/it] 39%|███▊      | 386/1000 [3:20:08<5:41:05, 33.33s/it]                                                      {'loss': -0.0006, 'grad_norm': 0.005502008367329836, 'learning_rate': 1.7145780695754092e-05, 'num_tokens': 62280166.0, 'completions/mean_length': 2048.515625, 'completions/min_length': 851.0, 'completions/max_length': 3492.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2048.515625, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 3492.0, 'rewards/rollout_reward_func/mean': 12.015625, 'rewards/rollout_reward_func/std': 5.679375648498535, 'reward': 12.015625, 'reward_std': 4.961740493774414, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.027093781158328056, 'sampling/sampling_logp_difference/max': 2.0165772438049316, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8467873334884644, 'sampling/importance_sampling_ratio/max': 2.6410603523254395, 'kl': 1.7986787147819996, 'entropy': 0.0543316233670339, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.11977985900012, 'epoch': 3.09}
+ 39%|███▊      | 386/1000 [3:20:08<5:41:05, 33.33s/it] 39%|███▊      | 387/1000 [3:20:40<5:35:28, 32.84s/it]                                                      {'loss': 0.0008, 'grad_norm': 0.0050413766875863075, 'learning_rate': 1.710893219084926e-05, 'num_tokens': 62451254.0, 'completions/mean_length': 2119.5, 'completions/min_length': 864.0, 'completions/max_length': 3445.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2119.5, 'completions/min_terminated_length': 864.0, 'completions/max_terminated_length': 3445.0, 'rewards/rollout_reward_func/mean': 12.407812118530273, 'rewards/rollout_reward_func/std': 5.059371471405029, 'reward': 12.407812118530273, 'reward_std': 4.902698040008545, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.032651886343955994, 'sampling/sampling_logp_difference/max': 4.073609352111816, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.786072850227356, 'sampling/importance_sampling_ratio/max': 2.744462728500366, 'kl': 1.060353059321642, 'entropy': 0.05788292223587632, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.390482178998354, 'epoch': 3.1}
+ 39%|███▊      | 387/1000 [3:20:40<5:35:28, 32.84s/it] 39%|███▉      | 388/1000 [3:21:08<5:20:43, 31.44s/it]                                                      {'loss': 0.0027, 'grad_norm': 0.010804932564496994, 'learning_rate': 1.7072037274048433e-05, 'num_tokens': 62597163.0, 'completions/mean_length': 1737.328125, 'completions/min_length': 852.0, 'completions/max_length': 3259.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1737.328125, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3259.0, 'rewards/rollout_reward_func/mean': 11.3671875, 'rewards/rollout_reward_func/std': 5.60541296005249, 'reward': 11.3671875, 'reward_std': 5.3258056640625, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03216180205345154, 'sampling/sampling_logp_difference/max': 2.7754549980163574, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9691994786262512, 'sampling/importance_sampling_ratio/max': 2.5908191204071045, 'kl': 0.7934439964592457, 'entropy': 0.057356361066922545, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 26.982736635996844, 'epoch': 3.1}
+ 39%|███▉      | 388/1000 [3:21:08<5:20:43, 31.44s/it] 39%|███▉      | 389/1000 [3:21:38<5:16:48, 31.11s/it]                                                      {'loss': 0.0023, 'grad_norm': 0.00459650531411171, 'learning_rate': 1.7035096316883013e-05, 'num_tokens': 62745793.0, 'completions/mean_length': 1778.59375, 'completions/min_length': 865.0, 'completions/max_length': 3442.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1778.59375, 'completions/min_terminated_length': 865.0, 'completions/max_terminated_length': 3442.0, 'rewards/rollout_reward_func/mean': 11.970312118530273, 'rewards/rollout_reward_func/std': 5.057092666625977, 'reward': 11.970312118530273, 'reward_std': 4.949230194091797, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.02846892736852169, 'sampling/sampling_logp_difference/max': 2.250535488128662, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9000495076179504, 'sampling/importance_sampling_ratio/max': 2.760155200958252, 'kl': 0.848563315346837, 'entropy': 0.05492855072952807, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.03700819900405, 'epoch': 3.11}
+ 39%|███▉      | 389/1000 [3:21:38<5:16:48, 31.11s/it] 39%|███▉      | 390/1000 [3:22:11<5:21:08, 31.59s/it]                                                      {'loss': 0.001, 'grad_norm': 0.005405311472713947, 'learning_rate': 1.699810969134803e-05, 'num_tokens': 62892724.0, 'completions/mean_length': 1753.671875, 'completions/min_length': 851.0, 'completions/max_length': 3709.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1753.671875, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 3709.0, 'rewards/rollout_reward_func/mean': 11.609375, 'rewards/rollout_reward_func/std': 4.996561527252197, 'reward': 11.609375, 'reward_std': 5.215224742889404, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03103681467473507, 'sampling/sampling_logp_difference/max': 3.379117965698242, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8247416019439697, 'sampling/importance_sampling_ratio/max': 2.0246381759643555, 'kl': 1.5192690901458263, 'entropy': 0.0565677402773872, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.331832485986524, 'epoch': 3.12}
+ 39%|███▉      | 390/1000 [3:22:11<5:21:08, 31.59s/it] 39%|███▉      | 391/1000 [3:22:36<5:01:11, 29.67s/it]                                                      {'loss': 0.0007, 'grad_norm': 0.008099584840238094, 'learning_rate': 1.6961077769898396e-05, 'num_tokens': 63046011.0, 'completions/mean_length': 1848.984375, 'completions/min_length': 780.0, 'completions/max_length': 2712.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1848.984375, 'completions/min_terminated_length': 780.0, 'completions/max_terminated_length': 2712.0, 'rewards/rollout_reward_func/mean': 11.603124618530273, 'rewards/rollout_reward_func/std': 5.221900463104248, 'reward': 11.603124618530273, 'reward_std': 5.252480506896973, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.02683320641517639, 'sampling/sampling_logp_difference/max': 3.907991886138916, 'sampling/importance_sampling_ratio/min': 0.011742707341909409, 'sampling/importance_sampling_ratio/mean': 1.0172343254089355, 'sampling/importance_sampling_ratio/max': 2.870248317718506, 'kl': 0.8137610349804163, 'entropy': 0.04986245185136795, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 24.17674280099891, 'epoch': 3.13}
+ 39%|███▉      | 391/1000 [3:22:36<5:01:11, 29.67s/it] 39%|███▉      | 392/1000 [3:23:06<5:01:34, 29.76s/it]                                                      {'loss': 0.0006, 'grad_norm': 0.004955844487994909, 'learning_rate': 1.6924000925445148e-05, 'num_tokens': 63199392.0, 'completions/mean_length': 1850.828125, 'completions/min_length': 852.0, 'completions/max_length': 3402.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1850.828125, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3402.0, 'rewards/rollout_reward_func/mean': 11.543750762939453, 'rewards/rollout_reward_func/std': 5.588902950286865, 'reward': 11.543749809265137, 'reward_std': 5.403134346008301, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03780217468738556, 'sampling/sampling_logp_difference/max': 3.7703802585601807, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.75560462474823, 'sampling/importance_sampling_ratio/max': 1.8105965852737427, 'kl': 0.9988280721008778, 'entropy': 0.05711740651167929, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.676569528986875, 'epoch': 3.14}
+ 39%|███▉      | 392/1000 [3:23:06<5:01:34, 29.76s/it] 39%|███▉      | 393/1000 [3:23:35<4:58:32, 29.51s/it]                                                      {'loss': -0.0016, 'grad_norm': 0.00463474215939641, 'learning_rate': 1.6886879531351698e-05, 'num_tokens': 63368995.0, 'completions/mean_length': 2096.671875, 'completions/min_length': 783.0, 'completions/max_length': 3197.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2096.671875, 'completions/min_terminated_length': 783.0, 'completions/max_terminated_length': 3197.0, 'rewards/rollout_reward_func/mean': 12.1640625, 'rewards/rollout_reward_func/std': 5.350697040557861, 'reward': 12.1640625, 'reward_std': 5.380730152130127, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03633740544319153, 'sampling/sampling_logp_difference/max': 4.078953742980957, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7105947732925415, 'sampling/importance_sampling_ratio/max': 2.123255729675293, 'kl': 1.02053951472044, 'entropy': 0.05902525852434337, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 27.701074545992014, 'epoch': 3.14}
+ 39%|███▉      | 393/1000 [3:23:35<4:58:32, 29.51s/it] 39%|███▉      | 394/1000 [3:24:00<4:44:04, 28.13s/it]                                                      {'loss': -0.0011, 'grad_norm': 0.007281264755874872, 'learning_rate': 1.6849713961430064e-05, 'num_tokens': 63501168.0, 'completions/mean_length': 1529.453125, 'completions/min_length': 855.0, 'completions/max_length': 2852.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1529.453125, 'completions/min_terminated_length': 855.0, 'completions/max_terminated_length': 2852.0, 'rewards/rollout_reward_func/mean': 9.887500762939453, 'rewards/rollout_reward_func/std': 4.900097370147705, 'reward': 9.887499809265137, 'reward_std': 5.085855484008789, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.025473907589912415, 'sampling/sampling_logp_difference/max': 3.5054593086242676, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9045194387435913, 'sampling/importance_sampling_ratio/max': 2.426523447036743, 'kl': 1.1380337551236153, 'entropy': 0.03848517034202814, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 23.82908527899417, 'epoch': 3.15}
+ 39%|███▉      | 394/1000 [3:24:00<4:44:04, 28.13s/it] 40%|███▉      | 395/1000 [3:24:31<4:52:59, 29.06s/it]                                                      {'loss': 0.0001, 'grad_norm': 0.004146618768572807, 'learning_rate': 1.6812504589937133e-05, 'num_tokens': 63668199.0, 'completions/mean_length': 2058.109375, 'completions/min_length': 863.0, 'completions/max_length': 3557.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2058.109375, 'completions/min_terminated_length': 863.0, 'completions/max_terminated_length': 3557.0, 'rewards/rollout_reward_func/mean': 12.53125, 'rewards/rollout_reward_func/std': 5.277411460876465, 'reward': 12.53125, 'reward_std': 4.661263465881348, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.034684740006923676, 'sampling/sampling_logp_difference/max': 2.4391164779663086, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7765990495681763, 'sampling/importance_sampling_ratio/max': 2.0412724018096924, 'kl': 0.8520996663719416, 'entropy': 0.06267684325575829, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.95116942399909, 'epoch': 3.16}
+ 40%|███▉      | 395/1000 [3:24:31<4:52:59, 29.06s/it] 40%|███▉      | 396/1000 [3:25:05<5:07:25, 30.54s/it]                                                      {'loss': 0.0007, 'grad_norm': 0.00627775676548481, 'learning_rate': 1.677525179157086e-05, 'num_tokens': 63840513.0, 'completions/mean_length': 2139.03125, 'completions/min_length': 947.0, 'completions/max_length': 3774.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2139.03125, 'completions/min_terminated_length': 947.0, 'completions/max_terminated_length': 3774.0, 'rewards/rollout_reward_func/mean': 10.548437118530273, 'rewards/rollout_reward_func/std': 5.140409469604492, 'reward': 10.548437118530273, 'reward_std': 4.988865375518799, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03381289541721344, 'sampling/sampling_logp_difference/max': 2.5260202884674072, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8805621266365051, 'sampling/importance_sampling_ratio/max': 2.9334115982055664, 'kl': 1.067230250686407, 'entropy': 0.061538391979411244, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.53915649098781, 'epoch': 3.17}
+ 40%|███▉      | 396/1000 [3:25:05<5:07:25, 30.54s/it] 40%|███▉      | 397/1000 [3:25:32<4:55:40, 29.42s/it]                                                      {'loss': 0.0005, 'grad_norm': 0.005653520114719868, 'learning_rate': 1.6737955941466507e-05, 'num_tokens': 63983328.0, 'completions/mean_length': 1689.734375, 'completions/min_length': 849.0, 'completions/max_length': 3052.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1689.734375, 'completions/min_terminated_length': 849.0, 'completions/max_terminated_length': 3052.0, 'rewards/rollout_reward_func/mean': 11.634374618530273, 'rewards/rollout_reward_func/std': 5.057768821716309, 'reward': 11.634374618530273, 'reward_std': 5.007532119750977, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.030189843848347664, 'sampling/sampling_logp_difference/max': 2.5880603790283203, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8516426086425781, 'sampling/importance_sampling_ratio/max': 2.448115110397339, 'kl': 0.9284293279051781, 'entropy': 0.0531439499463886, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 25.642030686998623, 'epoch': 3.18}
+ 40%|███▉      | 397/1000 [3:25:32<4:55:40, 29.42s/it] 40%|███▉      | 398/1000 [3:26:06<5:08:42, 30.77s/it]                                                      {'loss': 0.0005, 'grad_norm': 0.005409872625023127, 'learning_rate': 1.6700617415192878e-05, 'num_tokens': 64149264.0, 'completions/mean_length': 2041.75, 'completions/min_length': 1186.0, 'completions/max_length': 3721.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2041.75, 'completions/min_terminated_length': 1186.0, 'completions/max_terminated_length': 3721.0, 'rewards/rollout_reward_func/mean': 12.2890625, 'rewards/rollout_reward_func/std': 4.979326248168945, 'reward': 12.2890625, 'reward_std': 5.138265609741211, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03508641943335533, 'sampling/sampling_logp_difference/max': 2.6260414123535156, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7285141944885254, 'sampling/importance_sampling_ratio/max': 1.8279200792312622, 'kl': 0.9269903600215912, 'entropy': 0.057340948609635234, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.482148068011156, 'epoch': 3.18}
+ 40%|███▉      | 398/1000 [3:26:06<5:08:42, 30.77s/it] 40%|███▉      | 399/1000 [3:26:30<4:47:26, 28.70s/it]                                                      {'loss': 0.0018, 'grad_norm': 0.008181313052773476, 'learning_rate': 1.666323658874851e-05, 'num_tokens': 64284895.0, 'completions/mean_length': 1580.734375, 'completions/min_length': 853.0, 'completions/max_length': 2672.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1580.734375, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 2672.0, 'rewards/rollout_reward_func/mean': 11.973437309265137, 'rewards/rollout_reward_func/std': 5.17589807510376, 'reward': 11.973437309265137, 'reward_std': 4.831038475036621, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.026936594396829605, 'sampling/sampling_logp_difference/max': 2.278256416320801, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9526726007461548, 'sampling/importance_sampling_ratio/max': 2.9078242778778076, 'kl': 0.7687733303755522, 'entropy': 0.051978832110762596, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 22.841899294980976, 'epoch': 3.19}
+ 40%|███▉      | 399/1000 [3:26:30<4:47:26, 28.70s/it] 40%|████      | 400/1000 [3:27:00<4:51:07, 29.11s/it]                                                      {'loss': 0.0007, 'grad_norm': 0.007017477415502071, 'learning_rate': 1.6625813838557917e-05, 'num_tokens': 64424657.0, 'completions/mean_length': 1643.65625, 'completions/min_length': 853.0, 'completions/max_length': 3507.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1643.65625, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3507.0, 'rewards/rollout_reward_func/mean': 10.803125381469727, 'rewards/rollout_reward_func/std': 5.294800758361816, 'reward': 10.803125381469727, 'reward_std': 4.984034538269043, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03305204212665558, 'sampling/sampling_logp_difference/max': 2.333803653717041, 'sampling/importance_sampling_ratio/min': 0.00041382209747098386, 'sampling/importance_sampling_ratio/mean': 0.8958672881126404, 'sampling/importance_sampling_ratio/max': 2.888843059539795, 'kl': 1.1170114874839783, 'entropy': 0.05273376766126603, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.778016824995575, 'epoch': 3.2}
+ 40%|████      | 400/1000 [3:27:00<4:51:07, 29.11s/it] 40%|████      | 401/1000 [3:27:32<4:59:19, 29.98s/it]                                                      {'loss': -0.002, 'grad_norm': 0.006815061904489994, 'learning_rate': 1.6588349541467772e-05, 'num_tokens': 64595343.0, 'completions/mean_length': 2113.96875, 'completions/min_length': 1272.0, 'completions/max_length': 3442.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2113.96875, 'completions/min_terminated_length': 1272.0, 'completions/max_terminated_length': 3442.0, 'rewards/rollout_reward_func/mean': 11.807812690734863, 'rewards/rollout_reward_func/std': 5.166568756103516, 'reward': 11.80781364440918, 'reward_std': 4.822998046875, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.029597768560051918, 'sampling/sampling_logp_difference/max': 2.437093734741211, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9150280952453613, 'sampling/importance_sampling_ratio/max': 2.736328601837158, 'kl': 0.9906306900084019, 'entropy': 0.05767075810581446, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.797452263992454, 'epoch': 3.21}
+ 40%|████      | 401/1000 [3:27:32<4:59:19, 29.98s/it] 40%|████      | 402/1000 [3:27:57<4:43:34, 28.45s/it]                                                      {'loss': 0.0, 'grad_norm': 0.006526049692183733, 'learning_rate': 1.6550844074743134e-05, 'num_tokens': 64744196.0, 'completions/mean_length': 1782.078125, 'completions/min_length': 853.0, 'completions/max_length': 2814.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1782.078125, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 2814.0, 'rewards/rollout_reward_func/mean': 10.451562881469727, 'rewards/rollout_reward_func/std': 5.369076728820801, 'reward': 10.451562881469727, 'reward_std': 5.045855522155762, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.02846779301762581, 'sampling/sampling_logp_difference/max': 2.994069814682007, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8884551525115967, 'sampling/importance_sampling_ratio/max': 2.5746591091156006, 'kl': 0.8859331458806992, 'entropy': 0.047281104256398976, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 23.865289112007304, 'epoch': 3.22}
+ 40%|████      | 402/1000 [3:27:57<4:43:34, 28.45s/it] 40%|████      | 403/1000 [3:28:31<5:01:24, 30.29s/it]                                                      {'loss': -0.0006, 'grad_norm': 0.0051750061102211475, 'learning_rate': 1.6513297816063636e-05, 'num_tokens': 64953063.0, 'completions/mean_length': 2694.546875, 'completions/min_length': 1288.0, 'completions/max_length': 3784.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2694.546875, 'completions/min_terminated_length': 1288.0, 'completions/max_terminated_length': 3784.0, 'rewards/rollout_reward_func/mean': 13.193750381469727, 'rewards/rollout_reward_func/std': 5.1033101081848145, 'reward': 13.19374942779541, 'reward_std': 4.937307357788086, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04004775732755661, 'sampling/sampling_logp_difference/max': 3.347529649734497, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.728166401386261, 'sampling/importance_sampling_ratio/max': 2.280015707015991, 'kl': 0.9407300911843777, 'entropy': 0.07913076248951256, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 33.21378986900527, 'epoch': 3.22}
+ 40%|████      | 403/1000 [3:28:31<5:01:24, 30.29s/it] 40%|████      | 404/1000 [3:29:03<5:04:34, 30.66s/it]                                                      {'loss': 0.001, 'grad_norm': 0.007046873215585947, 'learning_rate': 1.647571114351969e-05, 'num_tokens': 65114420.0, 'completions/mean_length': 1971.828125, 'completions/min_length': 782.0, 'completions/max_length': 3532.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1971.828125, 'completions/min_terminated_length': 782.0, 'completions/max_terminated_length': 3532.0, 'rewards/rollout_reward_func/mean': 10.784375190734863, 'rewards/rollout_reward_func/std': 5.558297634124756, 'reward': 10.784375190734863, 'reward_std': 5.163177967071533, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03802012652158737, 'sampling/sampling_logp_difference/max': 5.879412651062012, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7479469180107117, 'sampling/importance_sampling_ratio/max': 2.3214704990386963, 'kl': 2.083492949604988, 'entropy': 0.05987192993052304, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.1930820629932, 'epoch': 3.23}
+ 40%|████      | 404/1000 [3:29:03<5:04:34, 30.66s/it] 40%|████      | 405/1000 [3:29:33<5:01:21, 30.39s/it]                                                      {'loss': -0.0025, 'grad_norm': 0.007036640774458647, 'learning_rate': 1.6438084435608662e-05, 'num_tokens': 65285404.0, 'completions/mean_length': 2118.25, 'completions/min_length': 878.0, 'completions/max_length': 3380.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2118.25, 'completions/min_terminated_length': 878.0, 'completions/max_terminated_length': 3380.0, 'rewards/rollout_reward_func/mean': 11.243749618530273, 'rewards/rollout_reward_func/std': 4.9989166259765625, 'reward': 11.243749618530273, 'reward_std': 4.485376358032227, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04765668511390686, 'sampling/sampling_logp_difference/max': 4.7498579025268555, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7071055769920349, 'sampling/importance_sampling_ratio/max': 2.8383431434631348, 'kl': 0.8722444549202919, 'entropy': 0.0670093814842403, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.491765368016786, 'epoch': 3.24}
+ 40%|████      | 405/1000 [3:29:33<5:01:21, 30.39s/it] 41%|████      | 406/1000 [3:30:02<4:58:14, 30.13s/it]                                                      {'loss': 0.0001, 'grad_norm': 0.006603130139410496, 'learning_rate': 1.640041807123109e-05, 'num_tokens': 65445525.0, 'completions/mean_length': 1952.890625, 'completions/min_length': 1221.0, 'completions/max_length': 3292.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1952.890625, 'completions/min_terminated_length': 1221.0, 'completions/max_terminated_length': 3292.0, 'rewards/rollout_reward_func/mean': 11.529687881469727, 'rewards/rollout_reward_func/std': 5.260807037353516, 'reward': 11.529687881469727, 'reward_std': 5.432438850402832, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03280435502529144, 'sampling/sampling_logp_difference/max': 3.416687488555908, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8730928301811218, 'sampling/importance_sampling_ratio/max': 2.686084747314453, 'kl': 1.0096429735422134, 'entropy': 0.06036613439209759, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.25240675099485, 'epoch': 3.25}
+ 41%|████      | 406/1000 [3:30:02<4:58:14, 30.13s/it] 41%|████      | 407/1000 [3:30:28<4:44:45, 28.81s/it]                                                      {'loss': 0.0006, 'grad_norm': 0.011076332069933414, 'learning_rate': 1.6362712429686846e-05, 'num_tokens': 65606637.0, 'completions/mean_length': 1968.0, 'completions/min_length': 852.0, 'completions/max_length': 2852.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1968.0, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 2852.0, 'rewards/rollout_reward_func/mean': 12.006250381469727, 'rewards/rollout_reward_func/std': 4.966902256011963, 'reward': 12.006250381469727, 'reward_std': 4.734637260437012, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03667907044291496, 'sampling/sampling_logp_difference/max': 3.0076136589050293, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8398180603981018, 'sampling/importance_sampling_ratio/max': 2.715336322784424, 'kl': 0.8997689746320248, 'entropy': 0.0665740326512605, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 24.700654838990886, 'epoch': 3.26}
+ 41%|████      | 407/1000 [3:30:28<4:44:45, 28.81s/it] 41%|████      | 408/1000 [3:30:59<4:50:01, 29.39s/it]                                                      {'loss': 0.0009, 'grad_norm': 0.005587076302617788, 'learning_rate': 1.6324967890671316e-05, 'num_tokens': 65772566.0, 'completions/mean_length': 2041.265625, 'completions/min_length': 780.0, 'completions/max_length': 3510.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2041.265625, 'completions/min_terminated_length': 780.0, 'completions/max_terminated_length': 3510.0, 'rewards/rollout_reward_func/mean': 12.884374618530273, 'rewards/rollout_reward_func/std': 4.734950065612793, 'reward': 12.884374618530273, 'reward_std': 4.782377243041992, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.0404115691781044, 'sampling/sampling_logp_difference/max': 4.42790412902832, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8979271650314331, 'sampling/importance_sampling_ratio/max': 2.7370471954345703, 'kl': 1.3808331452310085, 'entropy': 0.06070590345188975, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.451144648999616, 'epoch': 3.26}
+ 41%|████      | 408/1000 [3:30:59<4:50:01, 29.39s/it] 41%|████      | 409/1000 [3:31:29<4:53:35, 29.81s/it]                                                      {'loss': 0.0001, 'grad_norm': 0.005819153971970081, 'learning_rate': 1.6287184834271595e-05, 'num_tokens': 65946924.0, 'completions/mean_length': 2168.59375, 'completions/min_length': 787.0, 'completions/max_length': 3467.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2168.59375, 'completions/min_terminated_length': 787.0, 'completions/max_terminated_length': 3467.0, 'rewards/rollout_reward_func/mean': 12.49531364440918, 'rewards/rollout_reward_func/std': 5.109730243682861, 'reward': 12.495312690734863, 'reward_std': 5.0758867263793945, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03518142178654671, 'sampling/sampling_logp_difference/max': 1.8777772188186646, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.89551842212677, 'sampling/importance_sampling_ratio/max': 2.639111280441284, 'kl': 0.9263714365661144, 'entropy': 0.06930848048068583, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.4683992470018, 'epoch': 3.27}
+ 41%|████      | 409/1000 [3:31:29<4:53:35, 29.81s/it] 41%|████      | 410/1000 [3:32:00<4:54:17, 29.93s/it]                                                      {'loss': 0.0024, 'grad_norm': 0.007031072862446308, 'learning_rate': 1.6249363640962634e-05, 'num_tokens': 66107108.0, 'completions/mean_length': 1953.875, 'completions/min_length': 1268.0, 'completions/max_length': 3424.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1953.875, 'completions/min_terminated_length': 1268.0, 'completions/max_terminated_length': 3424.0, 'rewards/rollout_reward_func/mean': 11.496874809265137, 'rewards/rollout_reward_func/std': 5.092695713043213, 'reward': 11.496874809265137, 'reward_std': 5.076436996459961, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.028428465127944946, 'sampling/sampling_logp_difference/max': 2.665355682373047, 'sampling/importance_sampling_ratio/min': 0.044771865010261536, 'sampling/importance_sampling_ratio/mean': 0.8774588108062744, 'sampling/importance_sampling_ratio/max': 2.363478660583496, 'kl': 0.9008217230439186, 'entropy': 0.05845151958055794, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.919350561984174, 'epoch': 3.28}
+ 41%|████      | 410/1000 [3:32:00<4:54:17, 29.93s/it] 41%|████      | 411/1000 [3:32:31<4:59:04, 30.47s/it]                                                      {'loss': -0.0006, 'grad_norm': 0.006294884718954563, 'learning_rate': 1.6211504691603438e-05, 'num_tokens': 66271602.0, 'completions/mean_length': 2020.46875, 'completions/min_length': 853.0, 'completions/max_length': 3561.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2020.46875, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3561.0, 'rewards/rollout_reward_func/mean': 11.72031307220459, 'rewards/rollout_reward_func/std': 5.351195812225342, 'reward': 11.72031307220459, 'reward_std': 5.273229598999023, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.032023437321186066, 'sampling/sampling_logp_difference/max': 2.469754695892334, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8021551370620728, 'sampling/importance_sampling_ratio/max': 1.9889909029006958, 'kl': 1.1149950474500656, 'entropy': 0.06002950668334961, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.54899973099964, 'epoch': 3.29}
+ 41%|████      | 411/1000 [3:32:31<4:59:04, 30.47s/it] 41%|████      | 412/1000 [3:33:03<5:02:05, 30.83s/it]                                                      {'loss': -0.0004, 'grad_norm': 0.006436496041715145, 'learning_rate': 1.61736083674332e-05, 'num_tokens': 66437634.0, 'completions/mean_length': 2042.5, 'completions/min_length': 862.0, 'completions/max_length': 3554.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2042.5, 'completions/min_terminated_length': 862.0, 'completions/max_terminated_length': 3554.0, 'rewards/rollout_reward_func/mean': 12.0390625, 'rewards/rollout_reward_func/std': 4.882837295532227, 'reward': 12.0390625, 'reward_std': 4.893890380859375, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.038269784301519394, 'sampling/sampling_logp_difference/max': 3.651611566543579, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8611940145492554, 'sampling/importance_sampling_ratio/max': 2.566086769104004, 'kl': 1.4650583826005459, 'entropy': 0.06835753470659256, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.328025381997577, 'epoch': 3.3}
+ 41%|████      | 412/1000 [3:33:03<5:02:05, 30.83s/it] 41%|████▏     | 413/1000 [3:33:33<4:59:24, 30.60s/it]                                                      {'loss': 0.0019, 'grad_norm': 0.009387747384607792, 'learning_rate': 1.6135675050067488e-05, 'num_tokens': 66585948.0, 'completions/mean_length': 1773.65625, 'completions/min_length': 862.0, 'completions/max_length': 3486.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1773.65625, 'completions/min_terminated_length': 862.0, 'completions/max_terminated_length': 3486.0, 'rewards/rollout_reward_func/mean': 13.046875, 'rewards/rollout_reward_func/std': 4.74408483505249, 'reward': 13.046875, 'reward_std': 4.417415618896484, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.037574805319309235, 'sampling/sampling_logp_difference/max': 3.079314947128296, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9262807965278625, 'sampling/importance_sampling_ratio/max': 2.731515884399414, 'kl': 1.0669991560280323, 'entropy': 0.06640510563738644, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.92748556598235, 'epoch': 3.3}
+ 41%|████▏     | 413/1000 [3:33:33<4:59:24, 30.60s/it] 41%|████▏     | 414/1000 [3:33:59<4:44:30, 29.13s/it]                                                      {'loss': -0.0001, 'grad_norm': 0.008580341935157776, 'learning_rate': 1.6097705121494388e-05, 'num_tokens': 66728743.0, 'completions/mean_length': 1689.796875, 'completions/min_length': 854.0, 'completions/max_length': 2909.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1689.796875, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 2909.0, 'rewards/rollout_reward_func/mean': 11.918749809265137, 'rewards/rollout_reward_func/std': 5.266452312469482, 'reward': 11.918750762939453, 'reward_std': 5.296701431274414, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.02718289941549301, 'sampling/sampling_logp_difference/max': 3.4324047565460205, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.909769594669342, 'sampling/importance_sampling_ratio/max': 2.8062868118286133, 'kl': 0.9866912737488747, 'entropy': 0.047383968136273324, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 24.613777572005347, 'epoch': 3.31}
+ 41%|████▏     | 414/1000 [3:33:59<4:44:30, 29.13s/it] 42%|████▏     | 415/1000 [3:34:29<4:47:34, 29.50s/it]                                                      {'loss': -0.0016, 'grad_norm': 0.007158814463764429, 'learning_rate': 1.6059698964070653e-05, 'num_tokens': 66902531.0, 'completions/mean_length': 2160.0625, 'completions/min_length': 865.0, 'completions/max_length': 3392.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2160.0625, 'completions/min_terminated_length': 865.0, 'completions/max_terminated_length': 3392.0, 'rewards/rollout_reward_func/mean': 12.870311737060547, 'rewards/rollout_reward_func/std': 5.17115592956543, 'reward': 12.870311737060547, 'reward_std': 5.358059406280518, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04147365316748619, 'sampling/sampling_logp_difference/max': 4.429161548614502, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9071406722068787, 'sampling/importance_sampling_ratio/max': 2.9782392978668213, 'kl': 1.7821546979248524, 'entropy': 0.07413974683731794, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.204791807998845, 'epoch': 3.32}
+ 42%|████▏     | 415/1000 [3:34:29<4:47:34, 29.50s/it] 42%|████▏     | 416/1000 [3:34:53<4:29:42, 27.71s/it]                                                      {'loss': 0.0009, 'grad_norm': 0.004786275792866945, 'learning_rate': 1.6021656960517872e-05, 'num_tokens': 67032836.0, 'completions/mean_length': 1500.265625, 'completions/min_length': 783.0, 'completions/max_length': 2685.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1500.265625, 'completions/min_terminated_length': 783.0, 'completions/max_terminated_length': 2685.0, 'rewards/rollout_reward_func/mean': 10.193750381469727, 'rewards/rollout_reward_func/std': 5.317025184631348, 'reward': 10.193750381469727, 'reward_std': 5.388704299926758, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.025279082357883453, 'sampling/sampling_logp_difference/max': 4.973705291748047, 'sampling/importance_sampling_ratio/min': 0.008342210203409195, 'sampling/importance_sampling_ratio/mean': 0.837450385093689, 'sampling/importance_sampling_ratio/max': 1.5530952215194702, 'kl': 1.0464935004711151, 'entropy': 0.053211658261716366, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 22.608603897999274, 'epoch': 3.33}
+ 42%|████▏     | 416/1000 [3:34:53<4:29:42, 27.71s/it] 42%|████▏     | 417/1000 [3:35:17<4:19:32, 26.71s/it]                                                      {'loss': -0.0012, 'grad_norm': 0.005434812046587467, 'learning_rate': 1.59835794939186e-05, 'num_tokens': 67191995.0, 'completions/mean_length': 1937.859375, 'completions/min_length': 1273.0, 'completions/max_length': 2701.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1937.859375, 'completions/min_terminated_length': 1273.0, 'completions/max_terminated_length': 2701.0, 'rewards/rollout_reward_func/mean': 12.428125381469727, 'rewards/rollout_reward_func/std': 4.968966484069824, 'reward': 12.428125381469727, 'reward_std': 4.915772438049316, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03587719798088074, 'sampling/sampling_logp_difference/max': 4.026087284088135, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8332663178443909, 'sampling/importance_sampling_ratio/max': 2.8583288192749023, 'kl': 1.037774957716465, 'entropy': 0.05877666431479156, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 23.357113296013267, 'epoch': 3.34}
+ 42%|████▏     | 417/1000 [3:35:17<4:19:32, 26.71s/it] 42%|████▏     | 418/1000 [3:35:48<4:31:43, 28.01s/it]                                                      {'loss': -0.0016, 'grad_norm': 0.0056284768506884575, 'learning_rate': 1.5945466947712488e-05, 'num_tokens': 67372564.0, 'completions/mean_length': 2264.015625, 'completions/min_length': 865.0, 'completions/max_length': 3456.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2264.015625, 'completions/min_terminated_length': 865.0, 'completions/max_terminated_length': 3456.0, 'rewards/rollout_reward_func/mean': 11.984375, 'rewards/rollout_reward_func/std': 5.135720729827881, 'reward': 11.984375, 'reward_std': 5.314899444580078, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.036936305463314056, 'sampling/sampling_logp_difference/max': 4.412140846252441, 'sampling/importance_sampling_ratio/min': 0.004045901820063591, 'sampling/importance_sampling_ratio/mean': 0.8200145959854126, 'sampling/importance_sampling_ratio/max': 2.968006134033203, 'kl': 2.2585190162062645, 'entropy': 0.07336120842956007, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.76190267999482, 'epoch': 3.34}
+ 42%|████▏     | 418/1000 [3:35:48<4:31:43, 28.01s/it] 42%|████▏     | 419/1000 [3:36:14<4:24:00, 27.26s/it]                                                      {'loss': -0.0007, 'grad_norm': 0.006026838906109333, 'learning_rate': 1.5907319705692474e-05, 'num_tokens': 67536164.0, 'completions/mean_length': 2004.875, 'completions/min_length': 849.0, 'completions/max_length': 2828.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2004.875, 'completions/min_terminated_length': 849.0, 'completions/max_terminated_length': 2828.0, 'rewards/rollout_reward_func/mean': 12.860937118530273, 'rewards/rollout_reward_func/std': 4.926076889038086, 'reward': 12.860937118530273, 'reward_std': 4.955076217651367, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03793902322649956, 'sampling/sampling_logp_difference/max': 4.421456336975098, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8075112700462341, 'sampling/importance_sampling_ratio/max': 2.588658332824707, 'kl': 1.011823620647192, 'entropy': 0.06389788188971579, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 24.470512244020938, 'epoch': 3.35}
+ 42%|████▏     | 419/1000 [3:36:14<4:24:00, 27.26s/it] 42%|████▏     | 420/1000 [3:36:43<4:30:53, 28.02s/it]                                                      {'loss': 0.0009, 'grad_norm': 0.005522600375115871, 'learning_rate': 1.586913815200085e-05, 'num_tokens': 67698286.0, 'completions/mean_length': 1983.78125, 'completions/min_length': 852.0, 'completions/max_length': 3382.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1983.78125, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3382.0, 'rewards/rollout_reward_func/mean': 11.75, 'rewards/rollout_reward_func/std': 5.256349086761475, 'reward': 11.75, 'reward_std': 5.312500953674316, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03331603482365608, 'sampling/sampling_logp_difference/max': 2.8342084884643555, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8235841989517212, 'sampling/importance_sampling_ratio/max': 2.0148274898529053, 'kl': 0.8956227600574493, 'entropy': 0.06543398834764957, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.52767778798443, 'epoch': 3.36}
+ 42%|████▏     | 420/1000 [3:36:43<4:30:53, 28.02s/it] 42%|████▏     | 421/1000 [3:37:15<4:42:21, 29.26s/it]                                                      {'loss': -0.0003, 'grad_norm': 0.005945844110101461, 'learning_rate': 1.5830922671125436e-05, 'num_tokens': 67891778.0, 'completions/mean_length': 2460.3125, 'completions/min_length': 1214.0, 'completions/max_length': 3542.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2460.3125, 'completions/min_terminated_length': 1214.0, 'completions/max_terminated_length': 3542.0, 'rewards/rollout_reward_func/mean': 12.81093692779541, 'rewards/rollout_reward_func/std': 5.226128578186035, 'reward': 12.810937881469727, 'reward_std': 5.2128705978393555, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.036311037838459015, 'sampling/sampling_logp_difference/max': 2.284045457839966, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7898166179656982, 'sampling/importance_sampling_ratio/max': 2.633795738220215, 'kl': 0.8598044291138649, 'entropy': 0.07247090572491288, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.93896941497951, 'epoch': 3.37}
+ 42%|████▏     | 421/1000 [3:37:15<4:42:21, 29.26s/it] 42%|████▏     | 422/1000 [3:37:47<4:48:08, 29.91s/it]                                                      {'loss': -0.0, 'grad_norm': 0.005314596928656101, 'learning_rate': 1.579267364789571e-05, 'num_tokens': 68064263.0, 'completions/mean_length': 2140.078125, 'completions/min_length': 1281.0, 'completions/max_length': 3495.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2140.078125, 'completions/min_terminated_length': 1281.0, 'completions/max_terminated_length': 3495.0, 'rewards/rollout_reward_func/mean': 12.6484375, 'rewards/rollout_reward_func/std': 5.329016208648682, 'reward': 12.6484375, 'reward_std': 5.372483730316162, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03039485216140747, 'sampling/sampling_logp_difference/max': 2.926571846008301, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8202124834060669, 'sampling/importance_sampling_ratio/max': 2.8627872467041016, 'kl': 1.3735824190080166, 'entropy': 0.062180340057238936, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.122723989996302, 'epoch': 3.38}
+ 42%|████▏     | 422/1000 [3:37:47<4:48:08, 29.91s/it] 42%|████▏     | 423/1000 [3:38:18<4:51:31, 30.32s/it]                                                      {'loss': -0.0006, 'grad_norm': 0.005966605618596077, 'learning_rate': 1.57543914674789e-05, 'num_tokens': 68239377.0, 'completions/mean_length': 2180.40625, 'completions/min_length': 783.0, 'completions/max_length': 3565.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2180.40625, 'completions/min_terminated_length': 783.0, 'completions/max_terminated_length': 3565.0, 'rewards/rollout_reward_func/mean': 12.043749809265137, 'rewards/rollout_reward_func/std': 5.28417444229126, 'reward': 12.043749809265137, 'reward_std': 5.349510192871094, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03484231233596802, 'sampling/sampling_logp_difference/max': 1.9339299201965332, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8245103359222412, 'sampling/importance_sampling_ratio/max': 2.4212071895599365, 'kl': 0.9385549984872341, 'entropy': 0.07606822554953396, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.965441091015236, 'epoch': 3.38}
+ 42%|████▏     | 423/1000 [3:38:18<4:51:31, 30.32s/it] 42%|████▏     | 424/1000 [3:38:49<4:53:43, 30.60s/it]                                                      {'loss': 0.0008, 'grad_norm': 0.004985989071428776, 'learning_rate': 1.5716076515376148e-05, 'num_tokens': 68415853.0, 'completions/mean_length': 2202.0625, 'completions/min_length': 935.0, 'completions/max_length': 3473.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2202.0625, 'completions/min_terminated_length': 935.0, 'completions/max_terminated_length': 3473.0, 'rewards/rollout_reward_func/mean': 12.342187881469727, 'rewards/rollout_reward_func/std': 5.132307052612305, 'reward': 12.342187881469727, 'reward_std': 5.236462593078613, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.036432549357414246, 'sampling/sampling_logp_difference/max': 3.479569673538208, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7548508644104004, 'sampling/importance_sampling_ratio/max': 2.790699005126953, 'kl': 1.045756809413433, 'entropy': 0.07409813231788576, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.951362959000107, 'epoch': 3.39}
+ 42%|████▏     | 424/1000 [3:38:49<4:53:43, 30.60s/it] 42%|████▎     | 425/1000 [3:39:13<4:33:53, 28.58s/it]                                                      {'loss': 0.001, 'grad_norm': 0.016735007986426353, 'learning_rate': 1.567772917741859e-05, 'num_tokens': 68562968.0, 'completions/mean_length': 1754.546875, 'completions/min_length': 850.0, 'completions/max_length': 2677.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1754.546875, 'completions/min_terminated_length': 850.0, 'completions/max_terminated_length': 2677.0, 'rewards/rollout_reward_func/mean': 13.131250381469727, 'rewards/rollout_reward_func/std': 5.0398688316345215, 'reward': 13.131250381469727, 'reward_std': 4.613822937011719, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03931637853384018, 'sampling/sampling_logp_difference/max': 2.301513671875, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7202426791191101, 'sampling/importance_sampling_ratio/max': 1.8784751892089844, 'kl': 14.480882678180933, 'entropy': 0.06830467144027352, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 22.878987628006143, 'epoch': 3.4}
+ 42%|████▎     | 425/1000 [3:39:13<4:33:53, 28.58s/it] 43%|████▎     | 426/1000 [3:39:45<4:41:49, 29.46s/it]                                                      {'loss': 0.0014, 'grad_norm': 0.0046768770553171635, 'learning_rate': 1.563934983976349e-05, 'num_tokens': 68728878.0, 'completions/mean_length': 2040.96875, 'completions/min_length': 853.0, 'completions/max_length': 3597.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2040.96875, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3597.0, 'rewards/rollout_reward_func/mean': 11.639062881469727, 'rewards/rollout_reward_func/std': 5.096672534942627, 'reward': 11.639062881469727, 'reward_std': 5.002854347229004, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.041687265038490295, 'sampling/sampling_logp_difference/max': 2.8286027908325195, 'sampling/importance_sampling_ratio/min': 0.0026497358921915293, 'sampling/importance_sampling_ratio/mean': 0.777382493019104, 'sampling/importance_sampling_ratio/max': 2.916454792022705, 'kl': 0.9489652775228024, 'entropy': 0.0793094711843878, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.225646230006532, 'epoch': 3.41}
+ 43%|████▎     | 426/1000 [3:39:45<4:41:49, 29.46s/it] 43%|████▎     | 427/1000 [3:40:15<4:43:03, 29.64s/it]                                                      {'loss': 0.0001, 'grad_norm': 0.005426411051303148, 'learning_rate': 1.5600938888890363e-05, 'num_tokens': 68893055.0, 'completions/mean_length': 2013.890625, 'completions/min_length': 783.0, 'completions/max_length': 3410.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2013.890625, 'completions/min_terminated_length': 783.0, 'completions/max_terminated_length': 3410.0, 'rewards/rollout_reward_func/mean': 12.870312690734863, 'rewards/rollout_reward_func/std': 5.333323955535889, 'reward': 12.870312690734863, 'reward_std': 5.218038558959961, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.036180175840854645, 'sampling/sampling_logp_difference/max': 2.753844976425171, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7974449396133423, 'sampling/importance_sampling_ratio/max': 2.9329285621643066, 'kl': 0.9934357069432735, 'entropy': 0.0709789888933301, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.901862897015235, 'epoch': 3.42}
+ 43%|████▎     | 427/1000 [3:40:15<4:43:03, 29.64s/it] 43%|████▎     | 428/1000 [3:40:46<4:45:39, 29.96s/it]                                                      {'loss': -0.0008, 'grad_norm': 0.004973109811544418, 'learning_rate': 1.556249671159705e-05, 'num_tokens': 69048554.0, 'completions/mean_length': 1882.296875, 'completions/min_length': 784.0, 'completions/max_length': 3471.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1882.296875, 'completions/min_terminated_length': 784.0, 'completions/max_terminated_length': 3471.0, 'rewards/rollout_reward_func/mean': 11.95468807220459, 'rewards/rollout_reward_func/std': 5.071831226348877, 'reward': 11.95468807220459, 'reward_std': 4.991792678833008, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03466571867465973, 'sampling/sampling_logp_difference/max': 2.536787986755371, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7704286575317383, 'sampling/importance_sampling_ratio/max': 2.3453471660614014, 'kl': 1.353324145078659, 'entropy': 0.07657628692686558, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.638772238002275, 'epoch': 3.42}
+ 43%|████▎     | 428/1000 [3:40:46<4:45:39, 29.96s/it] 43%|████▎     | 429/1000 [3:41:16<4:45:55, 30.04s/it]                                                      {'loss': 0.002, 'grad_norm': 0.009576860815286636, 'learning_rate': 1.5524023694995844e-05, 'num_tokens': 69206182.0, 'completions/mean_length': 1915.1875, 'completions/min_length': 849.0, 'completions/max_length': 3433.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1915.1875, 'completions/min_terminated_length': 849.0, 'completions/max_terminated_length': 3433.0, 'rewards/rollout_reward_func/mean': 12.0, 'rewards/rollout_reward_func/std': 5.330386161804199, 'reward': 12.0, 'reward_std': 5.261165142059326, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03842117637395859, 'sampling/sampling_logp_difference/max': 2.5699944496154785, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8524178862571716, 'sampling/importance_sampling_ratio/max': 2.67954683303833, 'kl': 0.8429468460381031, 'entropy': 0.0869662850163877, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.9634834890021, 'epoch': 3.43}
+ 43%|████▎     | 429/1000 [3:41:16<4:45:55, 30.04s/it] 43%|████▎     | 430/1000 [3:41:47<4:48:36, 30.38s/it]                                                      {'loss': 0.0015, 'grad_norm': 0.007125708740204573, 'learning_rate': 1.548552022650961e-05, 'num_tokens': 69383976.0, 'completions/mean_length': 2222.28125, 'completions/min_length': 784.0, 'completions/max_length': 3527.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2222.28125, 'completions/min_terminated_length': 784.0, 'completions/max_terminated_length': 3527.0, 'rewards/rollout_reward_func/mean': 11.514062881469727, 'rewards/rollout_reward_func/std': 5.374037265777588, 'reward': 11.514062881469727, 'reward_std': 5.510138511657715, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03317137062549591, 'sampling/sampling_logp_difference/max': 2.9091765880584717, 'sampling/importance_sampling_ratio/min': 0.01312268152832985, 'sampling/importance_sampling_ratio/mean': 0.969260573387146, 'sampling/importance_sampling_ratio/max': 2.9049201011657715, 'kl': 0.9428243823349476, 'entropy': 0.09422602108679712, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.85442034200969, 'epoch': 3.44}
+ 43%|████▎     | 430/1000 [3:41:47<4:48:36, 30.38s/it] 43%|████▎     | 431/1000 [3:42:15<4:42:03, 29.74s/it]                                                      {'loss': -0.0006, 'grad_norm': 0.005205029156059027, 'learning_rate': 1.5446986693867843e-05, 'num_tokens': 69531930.0, 'completions/mean_length': 1768.03125, 'completions/min_length': 780.0, 'completions/max_length': 3250.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1768.03125, 'completions/min_terminated_length': 780.0, 'completions/max_terminated_length': 3250.0, 'rewards/rollout_reward_func/mean': 11.720312118530273, 'rewards/rollout_reward_func/std': 5.036255359649658, 'reward': 11.720312118530273, 'reward_std': 4.922503471374512, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03201526403427124, 'sampling/sampling_logp_difference/max': 2.3219380378723145, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8472928404808044, 'sampling/importance_sampling_ratio/max': 2.346179962158203, 'kl': 0.8878933601081371, 'entropy': 0.07839183113537729, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 27.042807318008272, 'epoch': 3.45}
+ 43%|████▎     | 431/1000 [3:42:15<4:42:03, 29.74s/it] 43%|████▎     | 432/1000 [3:42:45<4:42:06, 29.80s/it]                                                      {'loss': 0.0009, 'grad_norm': 0.0066345371305942535, 'learning_rate': 1.5408423485102778e-05, 'num_tokens': 69669633.0, 'completions/mean_length': 1611.859375, 'completions/min_length': 851.0, 'completions/max_length': 3475.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1611.859375, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 3475.0, 'rewards/rollout_reward_func/mean': 12.646875381469727, 'rewards/rollout_reward_func/std': 5.043869972229004, 'reward': 12.646875381469727, 'reward_std': 5.045624732971191, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03267403692007065, 'sampling/sampling_logp_difference/max': 2.7989892959594727, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8583581447601318, 'sampling/importance_sampling_ratio/max': 2.120677947998047, 'kl': 1.4789441172033548, 'entropy': 0.07805481646209955, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.634408551981323, 'epoch': 3.46}
+ 43%|████▎     | 432/1000 [3:42:45<4:42:06, 29.80s/it] 43%|████▎     | 433/1000 [3:43:15<4:40:55, 29.73s/it]                                                      {'loss': 0.0009, 'grad_norm': 0.007834520190954208, 'learning_rate': 1.5369830988545514e-05, 'num_tokens': 69819839.0, 'completions/mean_length': 1801.59375, 'completions/min_length': 935.0, 'completions/max_length': 3303.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1801.59375, 'completions/min_terminated_length': 935.0, 'completions/max_terminated_length': 3303.0, 'rewards/rollout_reward_func/mean': 11.578125, 'rewards/rollout_reward_func/std': 5.161501884460449, 'reward': 11.578125, 'reward_std': 5.013113021850586, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03570689260959625, 'sampling/sampling_logp_difference/max': 1.9523447751998901, 'sampling/importance_sampling_ratio/min': 0.07645668834447861, 'sampling/importance_sampling_ratio/mean': 0.9544084072113037, 'sampling/importance_sampling_ratio/max': 2.691964626312256, 'kl': 2.6711538545787334, 'entropy': 0.0840881874319166, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.30291247399873, 'epoch': 3.46}
+ 43%|████▎     | 433/1000 [3:43:15<4:40:55, 29.73s/it] 43%|████▎     | 434/1000 [3:43:44<4:38:45, 29.55s/it]                                                      {'loss': -0.0012, 'grad_norm': 0.006552416831254959, 'learning_rate': 1.5331209592822057e-05, 'num_tokens': 69962598.0, 'completions/mean_length': 1688.484375, 'completions/min_length': 853.0, 'completions/max_length': 3295.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1688.484375, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3295.0, 'rewards/rollout_reward_func/mean': 11.334375381469727, 'rewards/rollout_reward_func/std': 5.046395301818848, 'reward': 11.334375381469727, 'reward_std': 4.873653411865234, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03153154253959656, 'sampling/sampling_logp_difference/max': 1.6436024904251099, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 1.0076966285705566, 'sampling/importance_sampling_ratio/max': 2.9786698818206787, 'kl': 0.9008219912648201, 'entropy': 0.0895741730928421, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.041412604005018, 'epoch': 3.47}
+ 43%|████▎     | 434/1000 [3:43:44<4:38:45, 29.55s/it] 44%|████▎     | 435/1000 [3:44:12<4:35:23, 29.24s/it]                                                      {'loss': -0.0021, 'grad_norm': 0.004884912632405758, 'learning_rate': 1.529255968684943e-05, 'num_tokens': 70104358.0, 'completions/mean_length': 1672.875, 'completions/min_length': 784.0, 'completions/max_length': 3257.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1672.875, 'completions/min_terminated_length': 784.0, 'completions/max_terminated_length': 3257.0, 'rewards/rollout_reward_func/mean': 11.8046875, 'rewards/rollout_reward_func/std': 5.120498180389404, 'reward': 11.8046875, 'reward_std': 4.825350761413574, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.025299323722720146, 'sampling/sampling_logp_difference/max': 1.7614147663116455, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9295041561126709, 'sampling/importance_sampling_ratio/max': 2.10124135017395, 'kl': 0.7899254336953163, 'entropy': 0.08532754587940872, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 27.30384292900999, 'epoch': 3.48}
+ 44%|████▎     | 435/1000 [3:44:12<4:35:23, 29.24s/it] 44%|████▎     | 436/1000 [3:44:37<4:21:25, 27.81s/it]                                                      {'loss': 0.0003, 'grad_norm': 0.006745470687747002, 'learning_rate': 1.5253881659831759e-05, 'num_tokens': 70225342.0, 'completions/mean_length': 1358.25, 'completions/min_length': 852.0, 'completions/max_length': 2872.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1358.25, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 2872.0, 'rewards/rollout_reward_func/mean': 10.595312118530273, 'rewards/rollout_reward_func/std': 5.228931427001953, 'reward': 10.59531307220459, 'reward_std': 4.437309265136719, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.02039579302072525, 'sampling/sampling_logp_difference/max': 1.4157506227493286, 'sampling/importance_sampling_ratio/min': 0.23051173985004425, 'sampling/importance_sampling_ratio/mean': 1.0141546726226807, 'sampling/importance_sampling_ratio/max': 2.1576271057128906, 'kl': 0.7214660923928022, 'entropy': 0.07193829433526844, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 23.551998811002704, 'epoch': 3.49}
+ 44%|████▎     | 436/1000 [3:44:37<4:21:25, 27.81s/it] 44%|████▎     | 437/1000 [3:45:06<4:25:28, 28.29s/it]                                                      {'loss': 0.0003, 'grad_norm': 0.0056178979575634, 'learning_rate': 1.5215175901256349e-05, 'num_tokens': 70400815.0, 'completions/mean_length': 2184.765625, 'completions/min_length': 1185.0, 'completions/max_length': 3163.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2184.765625, 'completions/min_terminated_length': 1185.0, 'completions/max_terminated_length': 3163.0, 'rewards/rollout_reward_func/mean': 11.456250190734863, 'rewards/rollout_reward_func/std': 5.268199920654297, 'reward': 11.456250190734863, 'reward_std': 5.285879611968994, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.035925865173339844, 'sampling/sampling_logp_difference/max': 2.020768165588379, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7997030019760132, 'sampling/importance_sampling_ratio/max': 2.7599446773529053, 'kl': 0.8810430392622948, 'entropy': 0.1053825649432838, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.19111507898924, 'epoch': 3.5}
+ 44%|████▎     | 437/1000 [3:45:06<4:25:28, 28.29s/it] 44%|████▍     | 438/1000 [3:45:37<4:31:46, 29.01s/it]                                                      {'loss': -0.0019, 'grad_norm': 0.007516451179981232, 'learning_rate': 1.5176442800889756e-05, 'num_tokens': 70572182.0, 'completions/mean_length': 2123.859375, 'completions/min_length': 781.0, 'completions/max_length': 3499.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2123.859375, 'completions/min_terminated_length': 781.0, 'completions/max_terminated_length': 3499.0, 'rewards/rollout_reward_func/mean': 11.878125190734863, 'rewards/rollout_reward_func/std': 5.250229835510254, 'reward': 11.87812614440918, 'reward_std': 5.414029121398926, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03962497040629387, 'sampling/sampling_logp_difference/max': 2.6819143295288086, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8320205211639404, 'sampling/importance_sampling_ratio/max': 2.708585023880005, 'kl': 0.7879619002342224, 'entropy': 0.11539410380646586, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.39521854900522, 'epoch': 3.5}
+ 44%|████▍     | 438/1000 [3:45:37<4:31:46, 29.01s/it] 44%|████▍     | 439/1000 [3:46:08<4:38:03, 29.74s/it]                                                      {'loss': 0.0007, 'grad_norm': 0.007348367478698492, 'learning_rate': 1.5137682748773874e-05, 'num_tokens': 70748286.0, 'completions/mean_length': 2194.625, 'completions/min_length': 1197.0, 'completions/max_length': 3556.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2194.625, 'completions/min_terminated_length': 1197.0, 'completions/max_terminated_length': 3556.0, 'rewards/rollout_reward_func/mean': 12.279687881469727, 'rewards/rollout_reward_func/std': 5.3763203620910645, 'reward': 12.279687881469727, 'reward_std': 5.29761266708374, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03832988440990448, 'sampling/sampling_logp_difference/max': 2.5272507667541504, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7945957183837891, 'sampling/importance_sampling_ratio/max': 2.3196938037872314, 'kl': 0.8490586280822754, 'entropy': 0.11114846123382449, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.09616905200528, 'epoch': 3.51}
+ 44%|████▍     | 439/1000 [3:46:08<4:38:03, 29.74s/it] 44%|████▍     | 440/1000 [3:46:39<4:40:31, 30.06s/it]                                                      {'loss': -0.0016, 'grad_norm': 0.008242971263825893, 'learning_rate': 1.5098896135221991e-05, 'num_tokens': 70901687.0, 'completions/mean_length': 1850.765625, 'completions/min_length': 868.0, 'completions/max_length': 3494.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1850.765625, 'completions/min_terminated_length': 868.0, 'completions/max_terminated_length': 3494.0, 'rewards/rollout_reward_func/mean': 11.017187118530273, 'rewards/rollout_reward_func/std': 5.473211765289307, 'reward': 11.017187118530273, 'reward_std': 5.01925802230835, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03407834470272064, 'sampling/sampling_logp_difference/max': 2.369474411010742, 'sampling/importance_sampling_ratio/min': 0.11056353896856308, 'sampling/importance_sampling_ratio/mean': 0.961031436920166, 'sampling/importance_sampling_ratio/max': 2.284442186355591, 'kl': 0.8116237539798021, 'entropy': 0.11087202304042876, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.497434496988717, 'epoch': 3.52}
+ 44%|████▍     | 440/1000 [3:46:39<4:40:31, 30.06s/it] 44%|████▍     | 441/1000 [3:47:05<4:29:11, 28.89s/it]                                                      {'loss': -0.0006, 'grad_norm': 0.006746953818947077, 'learning_rate': 1.5060083350814885e-05, 'num_tokens': 71068309.0, 'completions/mean_length': 2050.09375, 'completions/min_length': 864.0, 'completions/max_length': 2772.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2050.09375, 'completions/min_terminated_length': 864.0, 'completions/max_terminated_length': 2772.0, 'rewards/rollout_reward_func/mean': 11.807811737060547, 'rewards/rollout_reward_func/std': 5.559728145599365, 'reward': 11.807812690734863, 'reward_std': 5.322182655334473, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03954105079174042, 'sampling/sampling_logp_difference/max': 4.664106845855713, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.864974856376648, 'sampling/importance_sampling_ratio/max': 2.7318286895751953, 'kl': 0.8823696039617062, 'entropy': 0.1170240817591548, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 24.214070058995276, 'epoch': 3.53}
+ 44%|████▍     | 441/1000 [3:47:05<4:29:11, 28.89s/it] 44%|████▍     | 442/1000 [3:47:30<4:16:28, 27.58s/it]                                                      {'loss': -0.0013, 'grad_norm': 0.007218437734991312, 'learning_rate': 1.502124478639686e-05, 'num_tokens': 71210047.0, 'completions/mean_length': 1672.90625, 'completions/min_length': 855.0, 'completions/max_length': 2746.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1672.90625, 'completions/min_terminated_length': 855.0, 'completions/max_terminated_length': 2746.0, 'rewards/rollout_reward_func/mean': 10.592187881469727, 'rewards/rollout_reward_func/std': 5.105095863342285, 'reward': 10.592187881469727, 'reward_std': 5.284249782562256, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03696909546852112, 'sampling/sampling_logp_difference/max': 1.7754725217819214, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9414769411087036, 'sampling/importance_sampling_ratio/max': 2.9637413024902344, 'kl': 0.7212585136294365, 'entropy': 0.111062441021204, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 23.467717007981264, 'epoch': 3.54}
+ 44%|████▍     | 442/1000 [3:47:30<4:16:28, 27.58s/it] 44%|████▍     | 443/1000 [3:48:00<4:23:21, 28.37s/it]                                                      {'loss': 0.0005, 'grad_norm': 0.007642512675374746, 'learning_rate': 1.498238083307182e-05, 'num_tokens': 71365729.0, 'completions/mean_length': 1884.78125, 'completions/min_length': 782.0, 'completions/max_length': 3304.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1884.78125, 'completions/min_terminated_length': 782.0, 'completions/max_terminated_length': 3304.0, 'rewards/rollout_reward_func/mean': 11.629687309265137, 'rewards/rollout_reward_func/std': 5.077610015869141, 'reward': 11.629688262939453, 'reward_std': 4.999340534210205, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.037001945078372955, 'sampling/sampling_logp_difference/max': 1.4726340770721436, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8337061405181885, 'sampling/importance_sampling_ratio/max': 2.8176796436309814, 'kl': 1.3037452064454556, 'entropy': 0.1189351906068623, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.95780143099546, 'epoch': 3.54}
+ 44%|████▍     | 443/1000 [3:48:00<4:23:21, 28.37s/it] 44%|████▍     | 444/1000 [3:48:30<4:28:06, 28.93s/it]                                                      {'loss': -0.0003, 'grad_norm': 0.00756859639659524, 'learning_rate': 1.4943491882199354e-05, 'num_tokens': 71527388.0, 'completions/mean_length': 1976.171875, 'completions/min_length': 853.0, 'completions/max_length': 3507.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1976.171875, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3507.0, 'rewards/rollout_reward_func/mean': 11.560937881469727, 'rewards/rollout_reward_func/std': 5.490731716156006, 'reward': 11.560937881469727, 'reward_std': 4.171053886413574, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04023747146129608, 'sampling/sampling_logp_difference/max': 4.710524559020996, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8958827257156372, 'sampling/importance_sampling_ratio/max': 2.727670669555664, 'kl': 0.756389643996954, 'entropy': 0.13301974488422275, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.97852396399685, 'epoch': 3.55}
+ 44%|████▍     | 444/1000 [3:48:30<4:28:06, 28.93s/it] 44%|████▍     | 445/1000 [3:49:01<4:33:07, 29.53s/it]                                                      {'loss': 0.0006, 'grad_norm': 0.00612846203148365, 'learning_rate': 1.4904578325390764e-05, 'num_tokens': 71685878.0, 'completions/mean_length': 1927.03125, 'completions/min_length': 895.0, 'completions/max_length': 3556.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1927.03125, 'completions/min_terminated_length': 895.0, 'completions/max_terminated_length': 3556.0, 'rewards/rollout_reward_func/mean': 11.667187690734863, 'rewards/rollout_reward_func/std': 5.279341697692871, 'reward': 11.667187690734863, 'reward_std': 4.836421966552734, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03283802419900894, 'sampling/sampling_logp_difference/max': 1.4662275314331055, 'sampling/importance_sampling_ratio/min': 0.15076006948947906, 'sampling/importance_sampling_ratio/mean': 0.9428801536560059, 'sampling/importance_sampling_ratio/max': 2.814335823059082, 'kl': 0.7027723230421543, 'entropy': 0.12231546407565475, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.80157920299098, 'epoch': 3.56}
+ 44%|████▍     | 445/1000 [3:49:01<4:33:07, 29.53s/it] 45%|████▍     | 446/1000 [3:49:31<4:32:40, 29.53s/it]                                                      {'loss': -0.0027, 'grad_norm': 0.009535507299005985, 'learning_rate': 1.4865640554505128e-05, 'num_tokens': 71812364.0, 'completions/mean_length': 1441.84375, 'completions/min_length': 853.0, 'completions/max_length': 3391.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1441.84375, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3391.0, 'rewards/rollout_reward_func/mean': 9.7421875, 'rewards/rollout_reward_func/std': 5.1829023361206055, 'reward': 9.7421875, 'reward_std': 5.004632949829102, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04053705558180809, 'sampling/sampling_logp_difference/max': 1.791523814201355, 'sampling/importance_sampling_ratio/min': 0.01264493353664875, 'sampling/importance_sampling_ratio/mean': 0.9186525344848633, 'sampling/importance_sampling_ratio/max': 2.458869218826294, 'kl': 0.7112018130719662, 'entropy': 0.12122232792899013, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.259617016992706, 'epoch': 3.57}
+ 45%|████▍     | 446/1000 [3:49:31<4:32:40, 29.53s/it] 45%|████▍     | 447/1000 [3:50:01<4:35:10, 29.86s/it]                                                      {'loss': -0.0003, 'grad_norm': 0.006640071980655193, 'learning_rate': 1.4826678961645377e-05, 'num_tokens': 71956230.0, 'completions/mean_length': 1705.78125, 'completions/min_length': 852.0, 'completions/max_length': 3502.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1705.78125, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3502.0, 'rewards/rollout_reward_func/mean': 9.989062309265137, 'rewards/rollout_reward_func/std': 4.920676231384277, 'reward': 9.989062309265137, 'reward_std': 4.76178503036499, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03898931294679642, 'sampling/sampling_logp_difference/max': 2.3280301094055176, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8140865564346313, 'sampling/importance_sampling_ratio/max': 2.677199363708496, 'kl': 0.7854504380375147, 'entropy': 0.13004993507638574, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.306092935992638, 'epoch': 3.58}
+ 45%|████▍     | 447/1000 [3:50:01<4:35:10, 29.86s/it] 45%|████▍     | 448/1000 [3:50:33<4:38:47, 30.30s/it]                                                      {'loss': -0.0001, 'grad_norm': 0.007504289038479328, 'learning_rate': 1.4787693939154307e-05, 'num_tokens': 72098953.0, 'completions/mean_length': 1688.296875, 'completions/min_length': 784.0, 'completions/max_length': 3608.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1688.296875, 'completions/min_terminated_length': 784.0, 'completions/max_terminated_length': 3608.0, 'rewards/rollout_reward_func/mean': 11.182812690734863, 'rewards/rollout_reward_func/std': 5.069033145904541, 'reward': 11.182812690734863, 'reward_std': 4.945502281188965, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03748876601457596, 'sampling/sampling_logp_difference/max': 1.8169457912445068, 'sampling/importance_sampling_ratio/min': 0.0399077869951725, 'sampling/importance_sampling_ratio/mean': 0.947618842124939, 'sampling/importance_sampling_ratio/max': 2.3141939640045166, 'kl': 0.7900458853691816, 'entropy': 0.13488665176555514, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.00663555799838, 'epoch': 3.58}
+ 45%|████▍     | 448/1000 [3:50:33<4:38:47, 30.30s/it] 45%|████▍     | 449/1000 [3:51:03<4:37:57, 30.27s/it]                                                      {'loss': 0.0002, 'grad_norm': 0.008042569272220135, 'learning_rate': 1.4748685879610674e-05, 'num_tokens': 72259224.0, 'completions/mean_length': 1954.484375, 'completions/min_length': 852.0, 'completions/max_length': 3368.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1954.484375, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3368.0, 'rewards/rollout_reward_func/mean': 11.7109375, 'rewards/rollout_reward_func/std': 5.095379829406738, 'reward': 11.7109375, 'reward_std': 5.200185775756836, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03963480889797211, 'sampling/sampling_logp_difference/max': 1.4985551834106445, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8554693460464478, 'sampling/importance_sampling_ratio/max': 2.139343738555908, 'kl': 0.8575057946145535, 'entropy': 0.15386809688061476, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.918601677003608, 'epoch': 3.59}
+ 45%|████▍     | 449/1000 [3:51:03<4:37:57, 30.27s/it] 45%|████▌     | 450/1000 [3:51:32<4:33:08, 29.80s/it]                                                      {'loss': -0.0011, 'grad_norm': 0.00673682102933526, 'learning_rate': 1.4709655175825196e-05, 'num_tokens': 72426988.0, 'completions/mean_length': 2067.5625, 'completions/min_length': 854.0, 'completions/max_length': 3236.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2067.5625, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 3236.0, 'rewards/rollout_reward_func/mean': 12.100000381469727, 'rewards/rollout_reward_func/std': 5.334404468536377, 'reward': 12.100000381469727, 'reward_std': 5.064055919647217, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.037043213844299316, 'sampling/sampling_logp_difference/max': 2.5108089447021484, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8690809011459351, 'sampling/importance_sampling_ratio/max': 2.5340416431427, 'kl': 1.1537803262472153, 'entropy': 0.15382158011198044, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 27.482608751983207, 'epoch': 3.6}
+ 45%|████▌     | 450/1000 [3:51:32<4:33:08, 29.80s/it] 45%|████▌     | 451/1000 [3:52:02<4:33:59, 29.94s/it]                                                      {'loss': -0.0014, 'grad_norm': 0.006561968009918928, 'learning_rate': 1.4670602220836633e-05, 'num_tokens': 72581154.0, 'completions/mean_length': 1862.71875, 'completions/min_length': 852.0, 'completions/max_length': 3513.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1862.71875, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3513.0, 'rewards/rollout_reward_func/mean': 11.34375, 'rewards/rollout_reward_func/std': 5.263949871063232, 'reward': 11.34375, 'reward_std': 4.899665355682373, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04330635815858841, 'sampling/sampling_logp_difference/max': 3.016773223876953, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8226033449172974, 'sampling/importance_sampling_ratio/max': 2.574281692504883, 'kl': 0.6833806689828634, 'entropy': 0.1487382031045854, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.98954348202824, 'epoch': 3.61}
+ 45%|████▌     | 451/1000 [3:52:02<4:33:59, 29.94s/it] 45%|████▌     | 452/1000 [3:52:34<4:39:53, 30.65s/it]                                                      {'loss': 0.0009, 'grad_norm': 0.008225372061133385, 'learning_rate': 1.46315274079078e-05, 'num_tokens': 72763670.0, 'completions/mean_length': 2292.0625, 'completions/min_length': 785.0, 'completions/max_length': 3599.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2292.0625, 'completions/min_terminated_length': 785.0, 'completions/max_terminated_length': 3599.0, 'rewards/rollout_reward_func/mean': 11.875, 'rewards/rollout_reward_func/std': 5.500649452209473, 'reward': 11.875, 'reward_std': 4.888298988342285, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.039892926812171936, 'sampling/sampling_logp_difference/max': 1.6977753639221191, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9317073225975037, 'sampling/importance_sampling_ratio/max': 2.996361255645752, 'kl': 0.667897455394268, 'entropy': 0.16911195777356625, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.939115689012397, 'epoch': 3.62}
+ 45%|████▌     | 452/1000 [3:52:34<4:39:53, 30.65s/it] 45%|████▌     | 453/1000 [3:53:05<4:39:44, 30.69s/it]                                                      {'loss': 0.0008, 'grad_norm': 0.008667216636240482, 'learning_rate': 1.4592431130521635e-05, 'num_tokens': 72913984.0, 'completions/mean_length': 1802.90625, 'completions/min_length': 852.0, 'completions/max_length': 3574.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1802.90625, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3574.0, 'rewards/rollout_reward_func/mean': 11.637499809265137, 'rewards/rollout_reward_func/std': 5.112310409545898, 'reward': 11.637500762939453, 'reward_std': 4.797272682189941, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.035175006836652756, 'sampling/sampling_logp_difference/max': 3.3372840881347656, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9548031091690063, 'sampling/importance_sampling_ratio/max': 2.821878433227539, 'kl': 0.8772203382104635, 'entropy': 0.142072647344321, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.611308563995408, 'epoch': 3.62}
+ 45%|████▌     | 453/1000 [3:53:05<4:39:44, 30.69s/it] 45%|████▌     | 454/1000 [3:53:30<4:22:46, 28.88s/it]                                                      {'loss': 0.0014, 'grad_norm': 0.011665306985378265, 'learning_rate': 1.4553313782377215e-05, 'num_tokens': 73045370.0, 'completions/mean_length': 1515.53125, 'completions/min_length': 854.0, 'completions/max_length': 2822.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1515.53125, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 2822.0, 'rewards/rollout_reward_func/mean': 10.310937881469727, 'rewards/rollout_reward_func/std': 5.000956058502197, 'reward': 10.310937881469727, 'reward_std': 4.850777626037598, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03221210092306137, 'sampling/sampling_logp_difference/max': 1.0804071426391602, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9749182462692261, 'sampling/importance_sampling_ratio/max': 2.891272783279419, 'kl': 0.7404478825628757, 'entropy': 0.12649071589112282, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 23.7415353749966, 'epoch': 3.63}
+ 45%|████▌     | 454/1000 [3:53:30<4:22:46, 28.88s/it] 46%|████▌     | 455/1000 [3:53:57<4:18:21, 28.44s/it]                                                      {'loss': -0.0016, 'grad_norm': 0.006804957985877991, 'learning_rate': 1.4514175757385803e-05, 'num_tokens': 73202671.0, 'completions/mean_length': 1910.453125, 'completions/min_length': 864.0, 'completions/max_length': 3096.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1910.453125, 'completions/min_terminated_length': 864.0, 'completions/max_terminated_length': 3096.0, 'rewards/rollout_reward_func/mean': 10.342187881469727, 'rewards/rollout_reward_func/std': 5.092597007751465, 'reward': 10.34218692779541, 'reward_std': 4.981766700744629, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03636561706662178, 'sampling/sampling_logp_difference/max': 1.5789079666137695, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.878058910369873, 'sampling/importance_sampling_ratio/max': 2.8884077072143555, 'kl': 1.2325297892093658, 'entropy': 0.1396878487430513, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 26.34208705099445, 'epoch': 3.64}
+ 46%|████▌     | 455/1000 [3:53:57<4:18:21, 28.44s/it] 46%|████▌     | 456/1000 [3:54:17<3:53:36, 25.77s/it]                                                      {'loss': -0.0015, 'grad_norm': 0.00786252599209547, 'learning_rate': 1.4475017449666875e-05, 'num_tokens': 73327726.0, 'completions/mean_length': 1419.859375, 'completions/min_length': 779.0, 'completions/max_length': 2182.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1419.859375, 'completions/min_terminated_length': 779.0, 'completions/max_terminated_length': 2182.0, 'rewards/rollout_reward_func/mean': 11.612499237060547, 'rewards/rollout_reward_func/std': 5.268369674682617, 'reward': 11.612499237060547, 'reward_std': 5.03355598449707, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.038255684077739716, 'sampling/sampling_logp_difference/max': 2.5150740146636963, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8135022521018982, 'sampling/importance_sampling_ratio/max': 2.205672264099121, 'kl': 0.7680450230836868, 'entropy': 0.12786052282899618, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 18.670287443987036, 'epoch': 3.65}
+ 46%|████▌     | 456/1000 [3:54:17<3:53:36, 25.77s/it] 46%|████▌     | 457/1000 [3:54:48<4:07:51, 27.39s/it]                                                      {'loss': 0.002, 'grad_norm': 0.006435542367398739, 'learning_rate': 1.4435839253544156e-05, 'num_tokens': 73499045.0, 'completions/mean_length': 2121.859375, 'completions/min_length': 1238.0, 'completions/max_length': 3561.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2121.859375, 'completions/min_terminated_length': 1238.0, 'completions/max_terminated_length': 3561.0, 'rewards/rollout_reward_func/mean': 10.921875, 'rewards/rollout_reward_func/std': 5.13118314743042, 'reward': 10.921875, 'reward_std': 5.012796878814697, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04229050129652023, 'sampling/sampling_logp_difference/max': 1.9500877857208252, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8287270069122314, 'sampling/importance_sampling_ratio/max': 2.7924270629882812, 'kl': 0.9005201198160648, 'entropy': 0.152735257986933, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.00837939500343, 'epoch': 3.66}
+ 46%|████▌     | 457/1000 [3:54:48<4:07:51, 27.39s/it] 46%|████▌     | 458/1000 [3:55:11<3:57:04, 26.24s/it]                                                      {'loss': 0.0019, 'grad_norm': 0.008762049488723278, 'learning_rate': 1.4396641563541646e-05, 'num_tokens': 73622497.0, 'completions/mean_length': 1395.1875, 'completions/min_length': 850.0, 'completions/max_length': 2663.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1395.1875, 'completions/min_terminated_length': 850.0, 'completions/max_terminated_length': 2663.0, 'rewards/rollout_reward_func/mean': 12.042187690734863, 'rewards/rollout_reward_func/std': 4.933745384216309, 'reward': 12.042186737060547, 'reward_std': 4.689052104949951, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03234526515007019, 'sampling/sampling_logp_difference/max': 1.6372709274291992, 'sampling/importance_sampling_ratio/min': 0.09964244067668915, 'sampling/importance_sampling_ratio/mean': 0.9756567478179932, 'sampling/importance_sampling_ratio/max': 2.9153940677642822, 'kl': 0.7572938911616802, 'entropy': 0.11641204124316573, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 22.545477814011974, 'epoch': 3.66}
+ 46%|████▌     | 458/1000 [3:55:11<3:57:04, 26.24s/it] 46%|████▌     | 459/1000 [3:55:47<4:20:45, 28.92s/it]                                                      {'loss': 0.0006, 'grad_norm': 0.007433431223034859, 'learning_rate': 1.4357424774379646e-05, 'num_tokens': 73800887.0, 'completions/mean_length': 2231.59375, 'completions/min_length': 781.0, 'completions/max_length': 3865.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2231.59375, 'completions/min_terminated_length': 781.0, 'completions/max_terminated_length': 3865.0, 'rewards/rollout_reward_func/mean': 10.893749237060547, 'rewards/rollout_reward_func/std': 5.101287841796875, 'reward': 10.893749237060547, 'reward_std': 5.099732398986816, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04340904578566551, 'sampling/sampling_logp_difference/max': 2.358288049697876, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8218661546707153, 'sampling/importance_sampling_ratio/max': 2.3732025623321533, 'kl': 0.9985655471682549, 'entropy': 0.1626893738284707, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 33.69382800599851, 'epoch': 3.67}
+ 46%|████▌     | 459/1000 [3:55:47<4:20:45, 28.92s/it] 46%|████▌     | 460/1000 [3:56:18<4:28:12, 29.80s/it]                                                      {'loss': -0.0009, 'grad_norm': 0.005821694154292345, 'learning_rate': 1.4318189280970796e-05, 'num_tokens': 73975925.0, 'completions/mean_length': 2177.96875, 'completions/min_length': 1287.0, 'completions/max_length': 3618.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2177.96875, 'completions/min_terminated_length': 1287.0, 'completions/max_terminated_length': 3618.0, 'rewards/rollout_reward_func/mean': 12.084375381469727, 'rewards/rollout_reward_func/std': 5.327801704406738, 'reward': 12.084375381469727, 'reward_std': 5.255215644836426, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.041667867451906204, 'sampling/sampling_logp_difference/max': 1.6393704414367676, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7897485494613647, 'sampling/importance_sampling_ratio/max': 2.648175001144409, 'kl': 0.7266782857477665, 'entropy': 0.15137057099491358, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.50988140199479, 'epoch': 3.68}
+ 46%|████▌     | 460/1000 [3:56:18<4:28:12, 29.80s/it] 46%|████▌     | 461/1000 [3:56:58<4:53:43, 32.70s/it]                                                      {'loss': -0.0016, 'grad_norm': 0.004448211286216974, 'learning_rate': 1.4278935478416066e-05, 'num_tokens': 74171626.0, 'completions/mean_length': 2492.828125, 'completions/min_length': 1300.0, 'completions/max_length': 4284.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2492.828125, 'completions/min_terminated_length': 1300.0, 'completions/max_terminated_length': 4284.0, 'rewards/rollout_reward_func/mean': 12.915624618530273, 'rewards/rollout_reward_func/std': 5.386321067810059, 'reward': 12.915624618530273, 'reward_std': 5.023721694946289, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04120423644781113, 'sampling/sampling_logp_difference/max': 3.018251895904541, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7226595282554626, 'sampling/importance_sampling_ratio/max': 2.3393146991729736, 'kl': 0.6206046529114246, 'entropy': 0.17373695923015475, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 37.086088837990246, 'epoch': 3.69}
+ 46%|████▌     | 461/1000 [3:56:58<4:53:43, 32.70s/it] 46%|████▌     | 462/1000 [3:57:30<4:50:32, 32.40s/it]                                                      {'loss': -0.0014, 'grad_norm': 0.006988612934947014, 'learning_rate': 1.4239663762000818e-05, 'num_tokens': 74325507.0, 'completions/mean_length': 1858.265625, 'completions/min_length': 784.0, 'completions/max_length': 3596.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1858.265625, 'completions/min_terminated_length': 784.0, 'completions/max_terminated_length': 3596.0, 'rewards/rollout_reward_func/mean': 11.360937118530273, 'rewards/rollout_reward_func/std': 5.185223579406738, 'reward': 11.360937118530273, 'reward_std': 5.191651821136475, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03913568705320358, 'sampling/sampling_logp_difference/max': 2.362494707107544, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7828835844993591, 'sampling/importance_sampling_ratio/max': 2.111178159713745, 'kl': 1.024133713915944, 'entropy': 0.14072148129343987, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.592391579994, 'epoch': 3.7}
+ 46%|████▌     | 462/1000 [3:57:30<4:50:32, 32.40s/it] 46%|████▋     | 463/1000 [3:58:05<4:57:58, 33.29s/it]                                                      {'loss': 0.0005, 'grad_norm': 0.006132496986538172, 'learning_rate': 1.4200374527190805e-05, 'num_tokens': 74492311.0, 'completions/mean_length': 2054.5625, 'completions/min_length': 785.0, 'completions/max_length': 3944.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2054.5625, 'completions/min_terminated_length': 785.0, 'completions/max_terminated_length': 3944.0, 'rewards/rollout_reward_func/mean': 12.782812118530273, 'rewards/rollout_reward_func/std': 4.9936323165893555, 'reward': 12.782812118530273, 'reward_std': 5.003907203674316, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.035479724407196045, 'sampling/sampling_logp_difference/max': 1.4077110290527344, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9744431972503662, 'sampling/importance_sampling_ratio/max': 2.9088807106018066, 'kl': 0.7081745732575655, 'entropy': 0.15029464848339558, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 33.968942357983906, 'epoch': 3.7}
+ 46%|████▋     | 463/1000 [3:58:05<4:57:58, 33.29s/it] 46%|████▋     | 464/1000 [3:58:35<4:49:23, 32.40s/it]                                                      {'loss': 0.0007, 'grad_norm': 0.008350926451385021, 'learning_rate': 1.4161068169628178e-05, 'num_tokens': 74641269.0, 'completions/mean_length': 1783.34375, 'completions/min_length': 865.0, 'completions/max_length': 3455.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1783.34375, 'completions/min_terminated_length': 865.0, 'completions/max_terminated_length': 3455.0, 'rewards/rollout_reward_func/mean': 10.332812309265137, 'rewards/rollout_reward_func/std': 4.90574836730957, 'reward': 10.332812309265137, 'reward_std': 4.903596878051758, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03592779114842415, 'sampling/sampling_logp_difference/max': 1.7838445901870728, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8616660833358765, 'sampling/importance_sampling_ratio/max': 2.7365760803222656, 'kl': 1.2118265517055988, 'entropy': 0.13645576126873493, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.000123749989143, 'epoch': 3.71}
+ 46%|████▋     | 464/1000 [3:58:35<4:49:23, 32.40s/it] 46%|████▋     | 465/1000 [3:58:54<4:12:43, 28.34s/it]                                                      {'loss': 0.0007, 'grad_norm': 0.008175428956747055, 'learning_rate': 1.4121745085127521e-05, 'num_tokens': 74757586.0, 'completions/mean_length': 1287.328125, 'completions/min_length': 851.0, 'completions/max_length': 2104.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1287.328125, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 2104.0, 'rewards/rollout_reward_func/mean': 10.446874618530273, 'rewards/rollout_reward_func/std': 5.4551262855529785, 'reward': 10.446874618530273, 'reward_std': 5.454414367675781, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.033902015537023544, 'sampling/sampling_logp_difference/max': 2.2796595096588135, 'sampling/importance_sampling_ratio/min': 0.061010632663965225, 'sampling/importance_sampling_ratio/mean': 0.9875868558883667, 'sampling/importance_sampling_ratio/max': 2.155000925064087, 'kl': 0.7620282247662544, 'entropy': 0.11288497783243656, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 18.054743905006035, 'epoch': 3.72}
+ 46%|████▋     | 465/1000 [3:58:54<4:12:43, 28.34s/it] 47%|████▋     | 466/1000 [3:59:22<4:10:44, 28.17s/it]                                                      {'loss': -0.0008, 'grad_norm': 0.005278457887470722, 'learning_rate': 1.4082405669671866e-05, 'num_tokens': 74906703.0, 'completions/mean_length': 1784.578125, 'completions/min_length': 784.0, 'completions/max_length': 3105.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1784.578125, 'completions/min_terminated_length': 784.0, 'completions/max_terminated_length': 3105.0, 'rewards/rollout_reward_func/mean': 12.049999237060547, 'rewards/rollout_reward_func/std': 4.970643997192383, 'reward': 12.049999237060547, 'reward_std': 4.984238624572754, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.037405241280794144, 'sampling/sampling_logp_difference/max': 2.1945345401763916, 'sampling/importance_sampling_ratio/min': 0.030148329213261604, 'sampling/importance_sampling_ratio/mean': 0.7999552488327026, 'sampling/importance_sampling_ratio/max': 2.9215755462646484, 'kl': 0.6904229782521725, 'entropy': 0.12631014036014676, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 26.763367791987548, 'epoch': 3.73}
+ 47%|████▋     | 466/1000 [3:59:22<4:10:44, 28.17s/it] 47%|████▋     | 467/1000 [3:59:45<3:58:06, 26.80s/it]                                                      {'loss': 0.0015, 'grad_norm': 0.0069976989179849625, 'learning_rate': 1.4043050319408685e-05, 'num_tokens': 75034586.0, 'completions/mean_length': 1462.421875, 'completions/min_length': 851.0, 'completions/max_length': 2628.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1462.421875, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 2628.0, 'rewards/rollout_reward_func/mean': 11.2421875, 'rewards/rollout_reward_func/std': 5.08916711807251, 'reward': 11.2421875, 'reward_std': 5.223227500915527, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.038747940212488174, 'sampling/sampling_logp_difference/max': 1.3623931407928467, 'sampling/importance_sampling_ratio/min': 0.06730775535106659, 'sampling/importance_sampling_ratio/mean': 0.9433869123458862, 'sampling/importance_sampling_ratio/max': 2.5515096187591553, 'kl': 0.8444752842187881, 'entropy': 0.12348656356334686, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 22.60705761500867, 'epoch': 3.74}
+ 47%|████▋     | 467/1000 [3:59:45<3:58:06, 26.80s/it] 47%|████▋     | 468/1000 [4:00:17<4:09:13, 28.11s/it]                                                      {'loss': 0.0015, 'grad_norm': 0.005810877773910761, 'learning_rate': 1.400367943064592e-05, 'num_tokens': 75179314.0, 'completions/mean_length': 1718.0, 'completions/min_length': 782.0, 'completions/max_length': 3573.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1718.0, 'completions/min_terminated_length': 782.0, 'completions/max_terminated_length': 3573.0, 'rewards/rollout_reward_func/mean': 10.7734375, 'rewards/rollout_reward_func/std': 5.27646017074585, 'reward': 10.7734375, 'reward_std': 5.458688735961914, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03884199261665344, 'sampling/sampling_logp_difference/max': 2.6381676197052, 'sampling/importance_sampling_ratio/min': 0.09312852472066879, 'sampling/importance_sampling_ratio/mean': 0.7885239720344543, 'sampling/importance_sampling_ratio/max': 1.9713369607925415, 'kl': 1.0529650375247002, 'entropy': 0.1236865040846169, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.82158374899882, 'epoch': 3.74}
+ 47%|████▋     | 468/1000 [4:00:17<4:09:13, 28.11s/it] 47%|████▋     | 469/1000 [4:00:49<4:18:46, 29.24s/it]                                                      {'loss': -0.0001, 'grad_norm': 0.008501394651830196, 'learning_rate': 1.396429339984798e-05, 'num_tokens': 75329959.0, 'completions/mean_length': 1808.453125, 'completions/min_length': 850.0, 'completions/max_length': 3625.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1808.453125, 'completions/min_terminated_length': 850.0, 'completions/max_terminated_length': 3625.0, 'rewards/rollout_reward_func/mean': 11.073436737060547, 'rewards/rollout_reward_func/std': 5.295648097991943, 'reward': 11.073436737060547, 'reward_std': 5.440524578094482, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03468472510576248, 'sampling/sampling_logp_difference/max': 1.6373848915100098, 'sampling/importance_sampling_ratio/min': 0.04368678107857704, 'sampling/importance_sampling_ratio/mean': 1.0005241632461548, 'sampling/importance_sampling_ratio/max': 2.8661282062530518, 'kl': 0.7945861238986254, 'entropy': 0.13351312465965748, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.532285679008055, 'epoch': 3.75}
+ 47%|████▋     | 469/1000 [4:00:49<4:18:46, 29.24s/it] 47%|████▋     | 470/1000 [4:01:13<4:06:08, 27.87s/it]                                                      {'loss': 0.0002, 'grad_norm': 0.007492664270102978, 'learning_rate': 1.3924892623631757e-05, 'num_tokens': 75469351.0, 'completions/mean_length': 1638.25, 'completions/min_length': 864.0, 'completions/max_length': 2891.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1638.25, 'completions/min_terminated_length': 864.0, 'completions/max_terminated_length': 2891.0, 'rewards/rollout_reward_func/mean': 10.504687309265137, 'rewards/rollout_reward_func/std': 5.290975570678711, 'reward': 10.504687309265137, 'reward_std': 5.361474990844727, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03534190356731415, 'sampling/sampling_logp_difference/max': 2.306706428527832, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9228168725967407, 'sampling/importance_sampling_ratio/max': 2.701895236968994, 'kl': 1.5650344416499138, 'entropy': 0.11769299674779177, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 23.697157190006692, 'epoch': 3.76}
+ 47%|████▋     | 470/1000 [4:01:13<4:06:08, 27.87s/it] 47%|████▋     | 471/1000 [4:01:44<4:13:35, 28.76s/it]                                                      {'loss': 0.0013, 'grad_norm': 0.008760751225054264, 'learning_rate': 1.3885477498762639e-05, 'num_tokens': 75653984.0, 'completions/mean_length': 2323.890625, 'completions/min_length': 1276.0, 'completions/max_length': 3398.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2323.890625, 'completions/min_terminated_length': 1276.0, 'completions/max_terminated_length': 3398.0, 'rewards/rollout_reward_func/mean': 12.0, 'rewards/rollout_reward_func/std': 5.232378005981445, 'reward': 12.0, 'reward_std': 5.4217400550842285, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.041798751801252365, 'sampling/sampling_logp_difference/max': 2.8515381813049316, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9348753094673157, 'sampling/importance_sampling_ratio/max': 2.8038909435272217, 'kl': 0.9525289833545685, 'entropy': 0.16140186320990324, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.713755142998707, 'epoch': 3.77}
+ 47%|████▋     | 471/1000 [4:01:44<4:13:35, 28.76s/it] 47%|████▋     | 472/1000 [4:02:16<4:20:19, 29.58s/it]                                                      {'loss': -0.0016, 'grad_norm': 0.006440225522965193, 'learning_rate': 1.384604842215049e-05, 'num_tokens': 75827924.0, 'completions/mean_length': 2162.8125, 'completions/min_length': 1305.0, 'completions/max_length': 3520.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2162.8125, 'completions/min_terminated_length': 1305.0, 'completions/max_terminated_length': 3520.0, 'rewards/rollout_reward_func/mean': 11.693750381469727, 'rewards/rollout_reward_func/std': 4.8153815269470215, 'reward': 11.693750381469727, 'reward_std': 4.705842018127441, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03969947621226311, 'sampling/sampling_logp_difference/max': 2.271811008453369, 'sampling/importance_sampling_ratio/min': 0.06277499347925186, 'sampling/importance_sampling_ratio/mean': 0.81971275806427, 'sampling/importance_sampling_ratio/max': 2.8226070404052734, 'kl': 0.8300433792173862, 'entropy': 0.15192374121397734, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.162307916005375, 'epoch': 3.78}
+ 47%|████▋     | 472/1000 [4:02:16<4:20:19, 29.58s/it] 47%|████▋     | 473/1000 [4:02:46<4:21:19, 29.75s/it]                                                      {'loss': 0.001, 'grad_norm': 0.005349290557205677, 'learning_rate': 1.380660579084567e-05, 'num_tokens': 75972256.0, 'completions/mean_length': 1713.0625, 'completions/min_length': 851.0, 'completions/max_length': 3547.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1713.0625, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 3547.0, 'rewards/rollout_reward_func/mean': 10.821874618530273, 'rewards/rollout_reward_func/std': 5.201235294342041, 'reward': 10.821874618530273, 'reward_std': 5.05924129486084, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03717697411775589, 'sampling/sampling_logp_difference/max': 3.0585803985595703, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7946590185165405, 'sampling/importance_sampling_ratio/max': 1.893136739730835, 'kl': 0.7072943244129419, 'entropy': 0.13488238910213113, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.859456759011664, 'epoch': 3.78}
+ 47%|████▋     | 473/1000 [4:02:46<4:21:19, 29.75s/it] 47%|████▋     | 474/1000 [4:03:11<4:08:34, 28.36s/it]                                                      {'loss': -0.001, 'grad_norm': 0.011108199134469032, 'learning_rate': 1.3767150002035043e-05, 'num_tokens': 76117511.0, 'completions/mean_length': 1725.859375, 'completions/min_length': 854.0, 'completions/max_length': 2840.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1725.859375, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 2840.0, 'rewards/rollout_reward_func/mean': 11.885937690734863, 'rewards/rollout_reward_func/std': 5.367682933807373, 'reward': 11.885937690734863, 'reward_std': 4.884479999542236, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03574145957827568, 'sampling/sampling_logp_difference/max': 1.9012869596481323, 'sampling/importance_sampling_ratio/min': 0.1381523162126541, 'sampling/importance_sampling_ratio/mean': 0.9162623286247253, 'sampling/importance_sampling_ratio/max': 2.532181978225708, 'kl': 0.7737298309803009, 'entropy': 0.13365830574184656, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 24.041829546986264, 'epoch': 3.79}
+ 47%|████▋     | 474/1000 [4:03:11<4:08:34, 28.36s/it] 48%|████▊     | 475/1000 [4:03:41<4:13:19, 28.95s/it]                                                      {'loss': -0.0014, 'grad_norm': 0.004056519828736782, 'learning_rate': 1.3727681453037966e-05, 'num_tokens': 76256374.0, 'completions/mean_length': 1629.609375, 'completions/min_length': 851.0, 'completions/max_length': 3430.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1629.609375, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 3430.0, 'rewards/rollout_reward_func/mean': 12.268749237060547, 'rewards/rollout_reward_func/std': 4.569355010986328, 'reward': 12.268750190734863, 'reward_std': 4.403573036193848, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.035884641110897064, 'sampling/sampling_logp_difference/max': 1.342111587524414, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.801765501499176, 'sampling/importance_sampling_ratio/max': 2.0240232944488525, 'kl': 0.8068685289472342, 'entropy': 0.12727364897727966, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.05462748499849, 'epoch': 3.8}
+ 48%|████▊     | 475/1000 [4:03:41<4:13:19, 28.95s/it] 48%|████▊     | 476/1000 [4:04:16<4:29:18, 30.84s/it]                                                      {'loss': -0.001, 'grad_norm': 0.007209634408354759, 'learning_rate': 1.3688200541302282e-05, 'num_tokens': 76431877.0, 'completions/mean_length': 2185.234375, 'completions/min_length': 1204.0, 'completions/max_length': 3881.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2185.234375, 'completions/min_terminated_length': 1204.0, 'completions/max_terminated_length': 3881.0, 'rewards/rollout_reward_func/mean': 11.9453125, 'rewards/rollout_reward_func/std': 5.6767401695251465, 'reward': 11.9453125, 'reward_std': 5.4233903884887695, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.037639640271663666, 'sampling/sampling_logp_difference/max': 1.4699957370758057, 'sampling/importance_sampling_ratio/min': 0.08166978508234024, 'sampling/importance_sampling_ratio/mean': 0.8373205065727234, 'sampling/importance_sampling_ratio/max': 2.4165966510772705, 'kl': 0.8353844191879034, 'entropy': 0.14778558211401105, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 33.765089984983206, 'epoch': 3.81}
+ 48%|████▊     | 476/1000 [4:04:16<4:29:18, 30.84s/it] 48%|████▊     | 477/1000 [4:04:47<4:27:19, 30.67s/it]                                                      {'loss': -0.001, 'grad_norm': 0.006409965455532074, 'learning_rate': 1.3648707664400346e-05, 'num_tokens': 76577800.0, 'completions/mean_length': 1736.296875, 'completions/min_length': 850.0, 'completions/max_length': 3442.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1736.296875, 'completions/min_terminated_length': 850.0, 'completions/max_terminated_length': 3442.0, 'rewards/rollout_reward_func/mean': 12.245312690734863, 'rewards/rollout_reward_func/std': 5.035806655883789, 'reward': 12.245312690734863, 'reward_std': 5.0649518966674805, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.028844226151704788, 'sampling/sampling_logp_difference/max': 1.2231252193450928, 'sampling/importance_sampling_ratio/min': 0.07829659432172775, 'sampling/importance_sampling_ratio/mean': 0.8402824401855469, 'sampling/importance_sampling_ratio/max': 2.2177112102508545, 'kl': 0.7855841666460037, 'entropy': 0.12363962829113007, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.193601254017267, 'epoch': 3.82}
+ 48%|████▊     | 477/1000 [4:04:47<4:27:19, 30.67s/it] 48%|████▊     | 478/1000 [4:05:18<4:29:43, 31.00s/it]                                                      {'loss': 0.0003, 'grad_norm': 0.007402354385703802, 'learning_rate': 1.3609203220024977e-05, 'num_tokens': 76759249.0, 'completions/mean_length': 2275.765625, 'completions/min_length': 851.0, 'completions/max_length': 3537.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2275.765625, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 3537.0, 'rewards/rollout_reward_func/mean': 12.876562118530273, 'rewards/rollout_reward_func/std': 5.0490217208862305, 'reward': 12.876562118530273, 'reward_std': 4.950869560241699, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04343219846487045, 'sampling/sampling_logp_difference/max': 2.294179916381836, 'sampling/importance_sampling_ratio/min': 0.01661592908203602, 'sampling/importance_sampling_ratio/mean': 0.8988010287284851, 'sampling/importance_sampling_ratio/max': 2.8814697265625, 'kl': 0.693198274821043, 'entropy': 0.14722163788974285, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.488198307000857, 'epoch': 3.82}
+ 48%|████▊     | 478/1000 [4:05:18<4:29:43, 31.00s/it] 48%|████▊     | 479/1000 [4:05:48<4:25:36, 30.59s/it]                                                      {'loss': -0.0003, 'grad_norm': 0.013209199532866478, 'learning_rate': 1.3569687605985498e-05, 'num_tokens': 76931083.0, 'completions/mean_length': 2129.53125, 'completions/min_length': 851.0, 'completions/max_length': 3304.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2129.53125, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 3304.0, 'rewards/rollout_reward_func/mean': 11.456250190734863, 'rewards/rollout_reward_func/std': 5.252297401428223, 'reward': 11.456250190734863, 'reward_std': 5.109410285949707, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.039783596992492676, 'sampling/sampling_logp_difference/max': 1.5235819816589355, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8552046418190002, 'sampling/importance_sampling_ratio/max': 2.816981077194214, 'kl': 1.0958508476614952, 'entropy': 0.1452372232452035, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.384399871989444, 'epoch': 3.83}
+ 48%|████▊     | 479/1000 [4:05:48<4:25:36, 30.59s/it] 48%|████▊     | 480/1000 [4:06:19<4:25:06, 30.59s/it]                                                      {'loss': 0.0, 'grad_norm': 0.00533260265365243, 'learning_rate': 1.3530161220203705e-05, 'num_tokens': 77111714.0, 'completions/mean_length': 2262.984375, 'completions/min_length': 855.0, 'completions/max_length': 3345.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2262.984375, 'completions/min_terminated_length': 855.0, 'completions/max_terminated_length': 3345.0, 'rewards/rollout_reward_func/mean': 11.810937881469727, 'rewards/rollout_reward_func/std': 5.23465633392334, 'reward': 11.810937881469727, 'reward_std': 5.372901916503906, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03718556463718414, 'sampling/sampling_logp_difference/max': 1.8069992065429688, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7707640528678894, 'sampling/importance_sampling_ratio/max': 2.9013381004333496, 'kl': 0.9998586922883987, 'entropy': 0.14136332413181663, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.337423044999014, 'epoch': 3.84}
+ 48%|████▊     | 480/1000 [4:06:19<4:25:06, 30.59s/it] 48%|████▊     | 481/1000 [4:06:50<4:26:41, 30.83s/it]                                                      {'loss': 0.0017, 'grad_norm': 0.00581192784011364, 'learning_rate': 1.3490624460709855e-05, 'num_tokens': 77265781.0, 'completions/mean_length': 1859.546875, 'completions/min_length': 782.0, 'completions/max_length': 3414.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1859.546875, 'completions/min_terminated_length': 782.0, 'completions/max_terminated_length': 3414.0, 'rewards/rollout_reward_func/mean': 11.907812118530273, 'rewards/rollout_reward_func/std': 5.336823463439941, 'reward': 11.907812118530273, 'reward_std': 5.19211483001709, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.035658977925777435, 'sampling/sampling_logp_difference/max': 2.0152502059936523, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8651421070098877, 'sampling/importance_sampling_ratio/max': 2.3116977214813232, 'kl': 0.8220405913889408, 'entropy': 0.12749286321923137, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.142149207975308, 'epoch': 3.85}
+ 48%|████▊     | 481/1000 [4:06:50<4:26:41, 30.83s/it] 48%|████▊     | 482/1000 [4:07:20<4:23:21, 30.50s/it]                                                      {'loss': -0.0003, 'grad_norm': 0.007181969936937094, 'learning_rate': 1.3451077725638689e-05, 'num_tokens': 77438567.0, 'completions/mean_length': 2144.40625, 'completions/min_length': 856.0, 'completions/max_length': 3315.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2144.40625, 'completions/min_terminated_length': 856.0, 'completions/max_terminated_length': 3315.0, 'rewards/rollout_reward_func/mean': 12.25, 'rewards/rollout_reward_func/std': 5.455883979797363, 'reward': 12.25, 'reward_std': 4.8407883644104, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03798244893550873, 'sampling/sampling_logp_difference/max': 2.598538398742676, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8526684045791626, 'sampling/importance_sampling_ratio/max': 2.7568905353546143, 'kl': 1.2323920000344515, 'entropy': 0.13602076889947057, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.48767397400661, 'epoch': 3.86}
+ 48%|████▊     | 482/1000 [4:07:20<4:23:21, 30.50s/it] 48%|████▊     | 483/1000 [4:07:50<4:22:31, 30.47s/it]                                                      {'loss': 0.0002, 'grad_norm': 0.007845508866012096, 'learning_rate': 1.3411521413225387e-05, 'num_tokens': 77594825.0, 'completions/mean_length': 1893.78125, 'completions/min_length': 854.0, 'completions/max_length': 3497.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1893.78125, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 3497.0, 'rewards/rollout_reward_func/mean': 11.024999618530273, 'rewards/rollout_reward_func/std': 5.377082824707031, 'reward': 11.024999618530273, 'reward_std': 5.429083824157715, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.036783307790756226, 'sampling/sampling_logp_difference/max': 1.5786173343658447, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.924054741859436, 'sampling/importance_sampling_ratio/max': 2.758702516555786, 'kl': 0.7606094647198915, 'entropy': 0.1310937451198697, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.213674374994298, 'epoch': 3.86}
+ 48%|████▊     | 483/1000 [4:07:50<4:22:31, 30.47s/it] 48%|████▊     | 484/1000 [4:08:16<4:11:09, 29.20s/it]                                                      {'loss': 0.0015, 'grad_norm': 0.007697246503084898, 'learning_rate': 1.3371955921801566e-05, 'num_tokens': 77738862.0, 'completions/mean_length': 1706.828125, 'completions/min_length': 782.0, 'completions/max_length': 2998.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1706.828125, 'completions/min_terminated_length': 782.0, 'completions/max_terminated_length': 2998.0, 'rewards/rollout_reward_func/mean': 12.171875, 'rewards/rollout_reward_func/std': 5.56843376159668, 'reward': 12.171875, 'reward_std': 4.998969554901123, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03230734542012215, 'sampling/sampling_logp_difference/max': 1.426332712173462, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.881781816482544, 'sampling/importance_sampling_ratio/max': 2.0727274417877197, 'kl': 0.7243776768445969, 'entropy': 0.12324794847518206, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 25.29103168601432, 'epoch': 3.87}
+ 48%|████▊     | 484/1000 [4:08:16<4:11:09, 29.20s/it] 48%|████▊     | 485/1000 [4:08:48<4:16:10, 29.85s/it]                                                      {'loss': 0.0003, 'grad_norm': 0.004599796142429113, 'learning_rate': 1.3332381649791301e-05, 'num_tokens': 77905101.0, 'completions/mean_length': 2046.109375, 'completions/min_length': 849.0, 'completions/max_length': 3573.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2046.109375, 'completions/min_terminated_length': 849.0, 'completions/max_terminated_length': 3573.0, 'rewards/rollout_reward_func/mean': 11.99843692779541, 'rewards/rollout_reward_func/std': 5.058593273162842, 'reward': 11.998437881469727, 'reward_std': 5.036531925201416, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04245424270629883, 'sampling/sampling_logp_difference/max': 3.0718636512756348, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.707421064376831, 'sampling/importance_sampling_ratio/max': 2.0826547145843506, 'kl': 0.9365349858999252, 'entropy': 0.1347993640229106, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.011823990993435, 'epoch': 3.88}
+ 48%|████▊     | 485/1000 [4:08:48<4:16:10, 29.85s/it] 49%|████▊     | 486/1000 [4:09:22<4:26:10, 31.07s/it]                                                      {'loss': -0.0013, 'grad_norm': 0.006231773179024458, 'learning_rate': 1.3292798995707057e-05, 'num_tokens': 78079475.0, 'completions/mean_length': 2168.84375, 'completions/min_length': 854.0, 'completions/max_length': 3688.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2168.84375, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 3688.0, 'rewards/rollout_reward_func/mean': 11.915624618530273, 'rewards/rollout_reward_func/std': 5.617524147033691, 'reward': 11.915624618530273, 'reward_std': 5.197309970855713, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03711490333080292, 'sampling/sampling_logp_difference/max': 3.632168769836426, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9263426065444946, 'sampling/importance_sampling_ratio/max': 2.5850820541381836, 'kl': 0.783223221078515, 'entropy': 0.1439835987985134, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.51658455200959, 'epoch': 3.89}
+ 49%|████▊     | 486/1000 [4:09:22<4:26:10, 31.07s/it] 49%|████▊     | 487/1000 [4:09:57<4:35:36, 32.23s/it]                                                      {'loss': -0.0009, 'grad_norm': 0.005847404710948467, 'learning_rate': 1.3253208358145732e-05, 'num_tokens': 78253378.0, 'completions/mean_length': 2162.234375, 'completions/min_length': 1189.0, 'completions/max_length': 3908.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2162.234375, 'completions/min_terminated_length': 1189.0, 'completions/max_terminated_length': 3908.0, 'rewards/rollout_reward_func/mean': 12.128125190734863, 'rewards/rollout_reward_func/std': 5.527377128601074, 'reward': 12.128125190734863, 'reward_std': 5.563512802124023, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04362151771783829, 'sampling/sampling_logp_difference/max': 2.489553451538086, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8265804052352905, 'sampling/importance_sampling_ratio/max': 2.8624496459960938, 'kl': 0.8935831971466541, 'entropy': 0.1435607522726059, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 33.45132429800287, 'epoch': 3.9}
+ 49%|████▊     | 487/1000 [4:09:57<4:35:36, 32.23s/it] 49%|████▉     | 488/1000 [4:10:29<4:36:39, 32.42s/it]                                                      {'loss': -0.0004, 'grad_norm': 0.007203816436231136, 'learning_rate': 1.3213610135784602e-05, 'num_tokens': 78390653.0, 'completions/mean_length': 1605.171875, 'completions/min_length': 851.0, 'completions/max_length': 3760.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1605.171875, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 3760.0, 'rewards/rollout_reward_func/mean': 10.779687881469727, 'rewards/rollout_reward_func/std': 5.238780498504639, 'reward': 10.779687881469727, 'reward_std': 4.8914690017700195, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.028561409562826157, 'sampling/sampling_logp_difference/max': 1.5028502941131592, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9662545323371887, 'sampling/importance_sampling_ratio/max': 2.911123275756836, 'kl': 1.1883996594697237, 'entropy': 0.10623334813863039, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.418670306018612, 'epoch': 3.9}
+ 49%|████▉     | 488/1000 [4:10:29<4:36:39, 32.42s/it] 49%|████▉     | 489/1000 [4:11:08<4:52:10, 34.31s/it]                                                      {'loss': 0.0008, 'grad_norm': 0.0075428965501487255, 'learning_rate': 1.3174004727377326e-05, 'num_tokens': 78560591.0, 'completions/mean_length': 2101.90625, 'completions/min_length': 852.0, 'completions/max_length': 4301.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2101.90625, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 4301.0, 'rewards/rollout_reward_func/mean': 11.796875, 'rewards/rollout_reward_func/std': 5.565226078033447, 'reward': 11.796875, 'reward_std': 5.467101097106934, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04079121723771095, 'sampling/sampling_logp_difference/max': 1.9418025016784668, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8916345834732056, 'sampling/importance_sampling_ratio/max': 2.8448705673217773, 'kl': 1.2347954995930195, 'entropy': 0.1254096133634448, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 37.02989906301082, 'epoch': 3.91}
+ 49%|████▉     | 489/1000 [4:11:08<4:52:10, 34.31s/it] 49%|████▉     | 490/1000 [4:11:39<4:43:12, 33.32s/it]                                                      {'loss': -0.0002, 'grad_norm': 0.006042121443897486, 'learning_rate': 1.313439253174993e-05, 'num_tokens': 78747855.0, 'completions/mean_length': 2365.0, 'completions/min_length': 1260.0, 'completions/max_length': 3406.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2365.0, 'completions/min_terminated_length': 1260.0, 'completions/max_terminated_length': 3406.0, 'rewards/rollout_reward_func/mean': 11.540624618530273, 'rewards/rollout_reward_func/std': 5.267833709716797, 'reward': 11.540624618530273, 'reward_std': 4.886753082275391, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03870907425880432, 'sampling/sampling_logp_difference/max': 1.6766200065612793, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7794821262359619, 'sampling/importance_sampling_ratio/max': 2.804945468902588, 'kl': 0.8194272257387638, 'entropy': 0.13922240678220987, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.73002028097835, 'epoch': 3.92}
+ 49%|████▉     | 490/1000 [4:11:39<4:43:12, 33.32s/it] 49%|████▉     | 491/1000 [4:12:10<4:36:20, 32.57s/it]                                                      {'loss': 0.0003, 'grad_norm': 0.005941644310951233, 'learning_rate': 1.3094773947796781e-05, 'num_tokens': 78890024.0, 'completions/mean_length': 1680.015625, 'completions/min_length': 864.0, 'completions/max_length': 3580.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1680.015625, 'completions/min_terminated_length': 864.0, 'completions/max_terminated_length': 3580.0, 'rewards/rollout_reward_func/mean': 12.1640625, 'rewards/rollout_reward_func/std': 5.247655868530273, 'reward': 12.1640625, 'reward_std': 5.283168792724609, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03533487766981125, 'sampling/sampling_logp_difference/max': 2.2942709922790527, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7738884687423706, 'sampling/importance_sampling_ratio/max': 2.037752389907837, 'kl': 1.1337284334003925, 'entropy': 0.10853376472368836, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.712022057996364, 'epoch': 3.93}
+ 49%|████▉     | 491/1000 [4:12:10<4:36:20, 32.57s/it] 49%|████▉     | 492/1000 [4:12:42<4:34:03, 32.37s/it]                                                      {'loss': -0.0005, 'grad_norm': 0.0057713245041668415, 'learning_rate': 1.3055149374476577e-05, 'num_tokens': 79071079.0, 'completions/mean_length': 2271.609375, 'completions/min_length': 849.0, 'completions/max_length': 3603.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2271.609375, 'completions/min_terminated_length': 849.0, 'completions/max_terminated_length': 3603.0, 'rewards/rollout_reward_func/mean': 12.0859375, 'rewards/rollout_reward_func/std': 5.298333644866943, 'reward': 12.0859375, 'reward_std': 5.272335052490234, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04255259782075882, 'sampling/sampling_logp_difference/max': 1.555511474609375, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8823848962783813, 'sampling/importance_sampling_ratio/max': 2.557039499282837, 'kl': 0.8374439813196659, 'entropy': 0.14148564590141177, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.57354452200525, 'epoch': 3.94}
+ 49%|████▉     | 492/1000 [4:12:42<4:34:03, 32.37s/it] 49%|████▉     | 493/1000 [4:13:11<4:25:47, 31.45s/it]                                                      {'loss': -0.0002, 'grad_norm': 0.0070921494625508785, 'learning_rate': 1.3015519210808341e-05, 'num_tokens': 79233852.0, 'completions/mean_length': 1991.953125, 'completions/min_length': 779.0, 'completions/max_length': 3308.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1991.953125, 'completions/min_terminated_length': 779.0, 'completions/max_terminated_length': 3308.0, 'rewards/rollout_reward_func/mean': 11.665624618530273, 'rewards/rollout_reward_func/std': 5.158356666564941, 'reward': 11.66562557220459, 'reward_std': 5.375140190124512, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.037518784403800964, 'sampling/sampling_logp_difference/max': 1.89010751247406, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8538929224014282, 'sampling/importance_sampling_ratio/max': 2.8789899349212646, 'kl': 0.8711109161376953, 'entropy': 0.12528298748657107, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.065133082011016, 'epoch': 3.94}
+ 49%|████▉     | 493/1000 [4:13:11<4:25:47, 31.45s/it] 49%|████▉     | 494/1000 [4:13:42<4:23:27, 31.24s/it]                                                      {'loss': -0.0012, 'grad_norm': 0.004644323606044054, 'learning_rate': 1.2975883855867376e-05, 'num_tokens': 79410530.0, 'completions/mean_length': 2203.59375, 'completions/min_length': 1185.0, 'completions/max_length': 3436.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2203.59375, 'completions/min_terminated_length': 1185.0, 'completions/max_terminated_length': 3436.0, 'rewards/rollout_reward_func/mean': 12.006250381469727, 'rewards/rollout_reward_func/std': 5.353589057922363, 'reward': 12.006250381469727, 'reward_std': 5.359437942504883, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.036455653607845306, 'sampling/sampling_logp_difference/max': 2.082934856414795, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7276488542556763, 'sampling/importance_sampling_ratio/max': 2.5704219341278076, 'kl': 0.7952378783375025, 'entropy': 0.12231605127453804, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.488645010984328, 'epoch': 3.95}
+ 49%|████▉     | 494/1000 [4:13:42<4:23:27, 31.24s/it] 50%|████▉     | 495/1000 [4:14:16<4:29:14, 31.99s/it]                                                      {'loss': 0.0003, 'grad_norm': 0.004453397821635008, 'learning_rate': 1.2936243708781266e-05, 'num_tokens': 79596460.0, 'completions/mean_length': 2343.78125, 'completions/min_length': 850.0, 'completions/max_length': 3756.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2343.78125, 'completions/min_terminated_length': 850.0, 'completions/max_terminated_length': 3756.0, 'rewards/rollout_reward_func/mean': 11.935937881469727, 'rewards/rollout_reward_func/std': 5.088092803955078, 'reward': 11.935937881469727, 'reward_std': 5.127648830413818, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03697327896952629, 'sampling/sampling_logp_difference/max': 1.3584108352661133, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7093732953071594, 'sampling/importance_sampling_ratio/max': 2.7213294506073, 'kl': 0.9414736218750477, 'entropy': 0.14177379291504622, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.40402582800016, 'epoch': 3.96}
+ 50%|████▉     | 495/1000 [4:14:16<4:29:14, 31.99s/it] 50%|████▉     | 496/1000 [4:14:35<3:57:13, 28.24s/it]                                                      {'loss': -0.0005, 'grad_norm': 0.004827084951102734, 'learning_rate': 1.2896599168725848e-05, 'num_tokens': 79715344.0, 'completions/mean_length': 1325.8125, 'completions/min_length': 781.0, 'completions/max_length': 2146.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1325.8125, 'completions/min_terminated_length': 781.0, 'completions/max_terminated_length': 2146.0, 'rewards/rollout_reward_func/mean': 12.232812881469727, 'rewards/rollout_reward_func/std': 4.791230201721191, 'reward': 12.232812881469727, 'reward_std': 4.870894432067871, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.025484129786491394, 'sampling/sampling_logp_difference/max': 1.4284101724624634, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9446946382522583, 'sampling/importance_sampling_ratio/max': 2.2539312839508057, 'kl': 0.8557164929807186, 'entropy': 0.09007409168407321, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 18.638224200978584, 'epoch': 3.97}
+ 50%|████▉     | 496/1000 [4:14:35<3:57:13, 28.24s/it] 50%|████▉     | 497/1000 [4:15:07<4:05:25, 29.27s/it]                                                      {'loss': -0.0025, 'grad_norm': 0.007482180371880531, 'learning_rate': 1.2856950634921202e-05, 'num_tokens': 79878594.0, 'completions/mean_length': 1999.40625, 'completions/min_length': 850.0, 'completions/max_length': 3553.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1999.40625, 'completions/min_terminated_length': 850.0, 'completions/max_terminated_length': 3553.0, 'rewards/rollout_reward_func/mean': 10.990625381469727, 'rewards/rollout_reward_func/std': 5.117034435272217, 'reward': 10.990625381469727, 'reward_std': 5.190014839172363, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04284350574016571, 'sampling/sampling_logp_difference/max': 2.023374319076538, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.876356840133667, 'sampling/importance_sampling_ratio/max': 2.940732955932617, 'kl': 0.8691448457539082, 'entropy': 0.13502812245860696, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.354467897988798, 'epoch': 3.98}
+ 50%|████▉     | 497/1000 [4:15:07<4:05:25, 29.27s/it] 50%|████▉     | 498/1000 [4:15:40<4:14:45, 30.45s/it]                                                      {'loss': -0.0018, 'grad_norm': 0.006828838959336281, 'learning_rate': 1.281729850662763e-05, 'num_tokens': 80054128.0, 'completions/mean_length': 2185.71875, 'completions/min_length': 1201.0, 'completions/max_length': 3715.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2185.71875, 'completions/min_terminated_length': 1201.0, 'completions/max_terminated_length': 3715.0, 'rewards/rollout_reward_func/mean': 11.28593635559082, 'rewards/rollout_reward_func/std': 5.722855091094971, 'reward': 11.285938262939453, 'reward_std': 5.543143272399902, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03951837867498398, 'sampling/sampling_logp_difference/max': 1.7247869968414307, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7284921407699585, 'sampling/importance_sampling_ratio/max': 2.867960214614868, 'kl': 0.7709855511784554, 'entropy': 0.14059506636112928, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.75997230401117, 'epoch': 3.98}
+ 50%|████▉     | 498/1000 [4:15:40<4:14:45, 30.45s/it] 50%|████▉     | 499/1000 [4:16:10<4:12:34, 30.25s/it]                                                      {'loss': 0.0012, 'grad_norm': 0.01973149925470352, 'learning_rate': 1.2777643183141619e-05, 'num_tokens': 80212870.0, 'completions/mean_length': 1930.96875, 'completions/min_length': 853.0, 'completions/max_length': 3435.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1930.96875, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3435.0, 'rewards/rollout_reward_func/mean': 11.350000381469727, 'rewards/rollout_reward_func/std': 5.263591766357422, 'reward': 11.350000381469727, 'reward_std': 5.224307060241699, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04104519635438919, 'sampling/sampling_logp_difference/max': 2.107631206512451, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7875585556030273, 'sampling/importance_sampling_ratio/max': 2.8700265884399414, 'kl': 5.987147606909275, 'entropy': 0.12548567354679108, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.650993127004767, 'epoch': 3.99}
+ 50%|████▉     | 499/1000 [4:16:10<4:12:34, 30.25s/it] 50%|█████     | 500/1000 [4:16:41<4:13:31, 30.42s/it]                                                      {'loss': -0.0036, 'grad_norm': 0.0073152994737029076, 'learning_rate': 1.2737985063791833e-05, 'num_tokens': 80367852.0, 'completions/mean_length': 1873.46875, 'completions/min_length': 781.0, 'completions/max_length': 3587.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1873.46875, 'completions/min_terminated_length': 781.0, 'completions/max_terminated_length': 3587.0, 'rewards/rollout_reward_func/mean': 12.5390625, 'rewards/rollout_reward_func/std': 4.698180198669434, 'reward': 12.5390625, 'reward_std': 4.710728645324707, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03531912714242935, 'sampling/sampling_logp_difference/max': 1.561934232711792, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 1.0248117446899414, 'sampling/importance_sampling_ratio/max': 2.6749653816223145, 'kl': 0.754002433270216, 'entropy': 0.13059023022651672, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.428832890022022, 'epoch': 4.0}
+ 50%|█████     | 500/1000 [4:16:41<4:13:31, 30.42s/it] 50%|█████     | 501/1000 [4:17:16<4:24:36, 31.82s/it]                                                      {'loss': 0.0002, 'grad_norm': 0.0061794789507985115, 'learning_rate': 1.2698324547935101e-05, 'num_tokens': 80534168.0, 'completions/mean_length': 2045.6875, 'completions/min_length': 1113.0, 'completions/max_length': 3895.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2045.6875, 'completions/min_terminated_length': 1113.0, 'completions/max_terminated_length': 3895.0, 'rewards/rollout_reward_func/mean': 11.53749942779541, 'rewards/rollout_reward_func/std': 5.4597954750061035, 'reward': 11.537500381469727, 'reward_std': 5.6816020011901855, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.033667661249637604, 'sampling/sampling_logp_difference/max': 2.1804356575012207, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8809750080108643, 'sampling/importance_sampling_ratio/max': 2.7432048320770264, 'kl': 2.2796150781214237, 'entropy': 0.1274350741878152, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.600598152013845, 'epoch': 4.01}
+ 50%|█████     | 501/1000 [4:17:16<4:24:36, 31.82s/it] 50%|█████     | 502/1000 [4:17:50<4:31:17, 32.68s/it]                                                      {'loss': 0.0012, 'grad_norm': 0.006815878674387932, 'learning_rate': 1.265866203495237e-05, 'num_tokens': 80698429.0, 'completions/mean_length': 2015.203125, 'completions/min_length': 781.0, 'completions/max_length': 3901.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2015.203125, 'completions/min_terminated_length': 781.0, 'completions/max_terminated_length': 3901.0, 'rewards/rollout_reward_func/mean': 11.457813262939453, 'rewards/rollout_reward_func/std': 5.2133469581604, 'reward': 11.457813262939453, 'reward_std': 5.24716854095459, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03424683213233948, 'sampling/sampling_logp_difference/max': 1.7377853393554688, 'sampling/importance_sampling_ratio/min': 0.03979749605059624, 'sampling/importance_sampling_ratio/mean': 0.915858268737793, 'sampling/importance_sampling_ratio/max': 2.75339674949646, 'kl': 0.8308353871107101, 'entropy': 0.11966835334897041, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 33.44673361499008, 'epoch': 4.02}
+ 50%|█████     | 502/1000 [4:17:50<4:31:17, 32.68s/it] 50%|█████     | 503/1000 [4:18:23<4:29:37, 32.55s/it]                                                      {'loss': 0.0005, 'grad_norm': 0.006315320730209351, 'learning_rate': 1.261899792424471e-05, 'num_tokens': 80874504.0, 'completions/mean_length': 2196.171875, 'completions/min_length': 1178.0, 'completions/max_length': 3607.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2196.171875, 'completions/min_terminated_length': 1178.0, 'completions/max_terminated_length': 3607.0, 'rewards/rollout_reward_func/mean': 11.712499618530273, 'rewards/rollout_reward_func/std': 4.981122970581055, 'reward': 11.712499618530273, 'reward_std': 5.153273105621338, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.041097141802310944, 'sampling/sampling_logp_difference/max': 1.296180248260498, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8902949094772339, 'sampling/importance_sampling_ratio/max': 2.4667513370513916, 'kl': 1.018267672508955, 'entropy': 0.14289637841284275, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.891392630001064, 'epoch': 4.02}
+ 50%|█████     | 503/1000 [4:18:23<4:29:37, 32.55s/it] 50%|█████     | 504/1000 [4:18:52<4:21:35, 31.64s/it]                                                      {'loss': 0.0019, 'grad_norm': 0.00623426353558898, 'learning_rate': 1.2579332615229275e-05, 'num_tokens': 81035413.0, 'completions/mean_length': 1964.828125, 'completions/min_length': 878.0, 'completions/max_length': 3276.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1964.828125, 'completions/min_terminated_length': 878.0, 'completions/max_terminated_length': 3276.0, 'rewards/rollout_reward_func/mean': 12.026562690734863, 'rewards/rollout_reward_func/std': 5.207907676696777, 'reward': 12.026561737060547, 'reward_std': 5.082024574279785, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03416367620229721, 'sampling/sampling_logp_difference/max': 1.2979034185409546, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9089920520782471, 'sampling/importance_sampling_ratio/max': 2.8675122261047363, 'kl': 1.1124080456793308, 'entropy': 0.1248095496557653, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.27274385400233, 'epoch': 4.03}
+ 50%|█████     | 504/1000 [4:18:52<4:21:35, 31.64s/it] 50%|█████     | 505/1000 [4:19:23<4:19:01, 31.40s/it]                                                      {'loss': 0.0003, 'grad_norm': 0.007209641393274069, 'learning_rate': 1.253966650733528e-05, 'num_tokens': 81213806.0, 'completions/mean_length': 2230.015625, 'completions/min_length': 936.0, 'completions/max_length': 3395.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2230.015625, 'completions/min_terminated_length': 936.0, 'completions/max_terminated_length': 3395.0, 'rewards/rollout_reward_func/mean': 11.4296875, 'rewards/rollout_reward_func/std': 4.892354965209961, 'reward': 11.4296875, 'reward_std': 5.006247520446777, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03808179125189781, 'sampling/sampling_logp_difference/max': 1.8938789367675781, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8139913082122803, 'sampling/importance_sampling_ratio/max': 2.7767560482025146, 'kl': 0.953147679567337, 'entropy': 0.13060330785810947, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.531496079020144, 'epoch': 4.04}
+ 50%|█████     | 505/1000 [4:19:23<4:19:01, 31.40s/it] 51%|█████     | 506/1000 [4:19:55<4:19:24, 31.51s/it]                                                      {'loss': 0.0008, 'grad_norm': 0.006336775608360767, 'learning_rate': 1.25e-05, 'num_tokens': 81398970.0, 'completions/mean_length': 2333.8125, 'completions/min_length': 866.0, 'completions/max_length': 3574.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2333.8125, 'completions/min_terminated_length': 866.0, 'completions/max_terminated_length': 3574.0, 'rewards/rollout_reward_func/mean': 12.026562690734863, 'rewards/rollout_reward_func/std': 5.309597015380859, 'reward': 12.026562690734863, 'reward_std': 5.432889461517334, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03681774437427521, 'sampling/sampling_logp_difference/max': 4.013701438903809, 'sampling/importance_sampling_ratio/min': 0.03226146847009659, 'sampling/importance_sampling_ratio/mean': 0.9359298944473267, 'sampling/importance_sampling_ratio/max': 2.897359848022461, 'kl': 1.1974435914307833, 'entropy': 0.1442432734183967, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.431161845990573, 'epoch': 4.05}
+ 51%|█████     | 506/1000 [4:19:55<4:19:24, 31.51s/it] 51%|█████     | 507/1000 [4:20:24<4:12:53, 30.78s/it]                                                      {'loss': -0.0013, 'grad_norm': 0.0045750942081213, 'learning_rate': 1.2460333492664722e-05, 'num_tokens': 81548836.0, 'completions/mean_length': 1796.28125, 'completions/min_length': 866.0, 'completions/max_length': 3215.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1796.28125, 'completions/min_terminated_length': 866.0, 'completions/max_terminated_length': 3215.0, 'rewards/rollout_reward_func/mean': 11.024999618530273, 'rewards/rollout_reward_func/std': 5.076525688171387, 'reward': 11.024999618530273, 'reward_std': 5.136320114135742, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03156644478440285, 'sampling/sampling_logp_difference/max': 1.5965776443481445, 'sampling/importance_sampling_ratio/min': 0.1630912870168686, 'sampling/importance_sampling_ratio/mean': 0.8700979351997375, 'sampling/importance_sampling_ratio/max': 2.1546010971069336, 'kl': 0.9211675673723221, 'entropy': 0.10975323943421245, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 27.852964920995873, 'epoch': 4.06}
+ 51%|█████     | 507/1000 [4:20:24<4:12:53, 30.78s/it] 51%|█████     | 508/1000 [4:20:56<4:15:09, 31.12s/it]                                                      {'loss': -0.0025, 'grad_norm': 0.004981657490134239, 'learning_rate': 1.242066738477073e-05, 'num_tokens': 81740679.0, 'completions/mean_length': 2434.546875, 'completions/min_length': 1189.0, 'completions/max_length': 3627.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2434.546875, 'completions/min_terminated_length': 1189.0, 'completions/max_terminated_length': 3627.0, 'rewards/rollout_reward_func/mean': 13.323437690734863, 'rewards/rollout_reward_func/std': 5.455294609069824, 'reward': 13.323437690734863, 'reward_std': 5.205477237701416, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03757154196500778, 'sampling/sampling_logp_difference/max': 1.7080020904541016, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7942314147949219, 'sampling/importance_sampling_ratio/max': 2.9776012897491455, 'kl': 0.8914356231689453, 'entropy': 0.13578295148909092, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.601883767012623, 'epoch': 4.06}
+ 51%|█████     | 508/1000 [4:20:56<4:15:09, 31.12s/it] 51%|█████     | 509/1000 [4:21:26<4:13:18, 30.95s/it]                                                      {'loss': -0.0007, 'grad_norm': 0.004998162388801575, 'learning_rate': 1.2381002075755292e-05, 'num_tokens': 81933981.0, 'completions/mean_length': 2455.34375, 'completions/min_length': 1274.0, 'completions/max_length': 3343.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2455.34375, 'completions/min_terminated_length': 1274.0, 'completions/max_terminated_length': 3343.0, 'rewards/rollout_reward_func/mean': 11.990625381469727, 'rewards/rollout_reward_func/std': 4.996847629547119, 'reward': 11.990625381469727, 'reward_std': 4.840007781982422, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.037811145186424255, 'sampling/sampling_logp_difference/max': 1.5878419876098633, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8429430723190308, 'sampling/importance_sampling_ratio/max': 2.255049467086792, 'kl': 0.8537536785006523, 'entropy': 0.15133182052522898, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.447237975989992, 'epoch': 4.07}
+ 51%|█████     | 509/1000 [4:21:26<4:13:18, 30.95s/it] 51%|█████     | 510/1000 [4:22:01<4:22:00, 32.08s/it]                                                      {'loss': 0.0004, 'grad_norm': 0.007526221219450235, 'learning_rate': 1.2341337965047631e-05, 'num_tokens': 82099338.0, 'completions/mean_length': 2032.328125, 'completions/min_length': 854.0, 'completions/max_length': 3925.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2032.328125, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 3925.0, 'rewards/rollout_reward_func/mean': 11.409375190734863, 'rewards/rollout_reward_func/std': 5.343137264251709, 'reward': 11.409375190734863, 'reward_std': 5.377274990081787, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.036938030272722244, 'sampling/sampling_logp_difference/max': 2.1326632499694824, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7705551385879517, 'sampling/importance_sampling_ratio/max': 2.461108684539795, 'kl': 0.8205748349428177, 'entropy': 0.12970535596832633, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 33.22221552900737, 'epoch': 4.08}
+ 51%|█████     | 510/1000 [4:22:01<4:22:00, 32.08s/it] 51%|█████     | 511/1000 [4:22:32<4:18:51, 31.76s/it]                                                      {'loss': 0.0004, 'grad_norm': 0.005581095814704895, 'learning_rate': 1.23016754520649e-05, 'num_tokens': 82252242.0, 'completions/mean_length': 1843.375, 'completions/min_length': 783.0, 'completions/max_length': 3600.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1843.375, 'completions/min_terminated_length': 783.0, 'completions/max_terminated_length': 3600.0, 'rewards/rollout_reward_func/mean': 10.824999809265137, 'rewards/rollout_reward_func/std': 5.1919660568237305, 'reward': 10.824999809265137, 'reward_std': 5.267312049865723, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03161890059709549, 'sampling/sampling_logp_difference/max': 1.5002586841583252, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.944050669670105, 'sampling/importance_sampling_ratio/max': 2.3637661933898926, 'kl': 0.7902540694922209, 'entropy': 0.11434274958446622, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.6684491470005, 'epoch': 4.09}
+ 51%|█████     | 511/1000 [4:22:32<4:18:51, 31.76s/it] 51%|█████     | 512/1000 [4:23:07<4:27:06, 32.84s/it]                                                      {'loss': 0.0004, 'grad_norm': 0.005426982883363962, 'learning_rate': 1.2262014936208166e-05, 'num_tokens': 82422473.0, 'completions/mean_length': 2106.484375, 'completions/min_length': 849.0, 'completions/max_length': 3992.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2106.484375, 'completions/min_terminated_length': 849.0, 'completions/max_terminated_length': 3992.0, 'rewards/rollout_reward_func/mean': 11.903124809265137, 'rewards/rollout_reward_func/std': 5.430103302001953, 'reward': 11.903125762939453, 'reward_std': 5.374667644500732, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03718319535255432, 'sampling/sampling_logp_difference/max': 3.102084159851074, 'sampling/importance_sampling_ratio/min': 0.039880406111478806, 'sampling/importance_sampling_ratio/mean': 0.822603702545166, 'sampling/importance_sampling_ratio/max': 1.7666083574295044, 'kl': 0.8711588382720947, 'entropy': 0.13163464702665806, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 33.91442944100709, 'epoch': 4.1}
+ 51%|█████     | 512/1000 [4:23:07<4:27:06, 32.84s/it] 51%|█████▏    | 513/1000 [4:23:37<4:19:34, 31.98s/it]                                                      {'loss': 0.0008, 'grad_norm': 0.006542970426380634, 'learning_rate': 1.2222356816858382e-05, 'num_tokens': 82570690.0, 'completions/mean_length': 1771.765625, 'completions/min_length': 779.0, 'completions/max_length': 3426.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1771.765625, 'completions/min_terminated_length': 779.0, 'completions/max_terminated_length': 3426.0, 'rewards/rollout_reward_func/mean': 12.385937690734863, 'rewards/rollout_reward_func/std': 5.145035266876221, 'reward': 12.385937690734863, 'reward_std': 4.7891926765441895, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03922555595636368, 'sampling/sampling_logp_difference/max': 2.936762571334839, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8832951784133911, 'sampling/importance_sampling_ratio/max': 2.9836020469665527, 'kl': 0.8430980518460274, 'entropy': 0.1220114678144455, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.685428087002947, 'epoch': 4.1}
+ 51%|█████▏    | 513/1000 [4:23:37<4:19:34, 31.98s/it] 51%|█████▏    | 514/1000 [4:24:11<4:22:09, 32.37s/it]                                                      {'loss': 0.0011, 'grad_norm': 0.007153669837862253, 'learning_rate': 1.2182701493372369e-05, 'num_tokens': 82754137.0, 'completions/mean_length': 2307.359375, 'completions/min_length': 1378.0, 'completions/max_length': 3646.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2307.359375, 'completions/min_terminated_length': 1378.0, 'completions/max_terminated_length': 3646.0, 'rewards/rollout_reward_func/mean': 13.015625, 'rewards/rollout_reward_func/std': 4.944300174713135, 'reward': 13.015625, 'reward_std': 4.789273262023926, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03761414438486099, 'sampling/sampling_logp_difference/max': 2.0286245346069336, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8692885637283325, 'sampling/importance_sampling_ratio/max': 2.8227977752685547, 'kl': 0.8213253952562809, 'entropy': 0.13298394344747066, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.858325271001377, 'epoch': 4.11}
+ 51%|█████▏    | 514/1000 [4:24:11<4:22:09, 32.37s/it] 52%|█████▏    | 515/1000 [4:24:42<4:19:47, 32.14s/it]                                                      {'loss': 0.0018, 'grad_norm': 0.006945634726434946, 'learning_rate': 1.21430493650788e-05, 'num_tokens': 82950653.0, 'completions/mean_length': 2505.5625, 'completions/min_length': 1717.0, 'completions/max_length': 3643.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2505.5625, 'completions/min_terminated_length': 1717.0, 'completions/max_terminated_length': 3643.0, 'rewards/rollout_reward_func/mean': 12.442188262939453, 'rewards/rollout_reward_func/std': 5.205760478973389, 'reward': 12.442188262939453, 'reward_std': 5.098516464233398, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.040082551538944244, 'sampling/sampling_logp_difference/max': 2.198035717010498, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7702159881591797, 'sampling/importance_sampling_ratio/max': 2.4533002376556396, 'kl': 1.2023937329649925, 'entropy': 0.1371606858447194, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.352659513999242, 'epoch': 4.12}
+ 52%|█████▏    | 515/1000 [4:24:42<4:19:47, 32.14s/it] 52%|█████▏    | 516/1000 [4:25:16<4:23:07, 32.62s/it]                                                      {'loss': -0.0003, 'grad_norm': 0.006327862851321697, 'learning_rate': 1.2103400831274157e-05, 'num_tokens': 83092777.0, 'completions/mean_length': 1678.9375, 'completions/min_length': 851.0, 'completions/max_length': 3778.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1678.9375, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 3778.0, 'rewards/rollout_reward_func/mean': 11.928125381469727, 'rewards/rollout_reward_func/std': 5.4200239181518555, 'reward': 11.928125381469727, 'reward_std': 5.456652641296387, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03689591586589813, 'sampling/sampling_logp_difference/max': 2.375196933746338, 'sampling/importance_sampling_ratio/min': 0.02985209971666336, 'sampling/importance_sampling_ratio/mean': 0.905479907989502, 'sampling/importance_sampling_ratio/max': 2.9603281021118164, 'kl': 0.8730805106461048, 'entropy': 0.10280486941337585, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.29943497799832, 'epoch': 4.13}
+ 52%|█████▏    | 516/1000 [4:25:16<4:23:07, 32.62s/it] 52%|█████▏    | 517/1000 [4:25:46<4:15:39, 31.76s/it]                                                      {'loss': 0.0004, 'grad_norm': 0.007483180146664381, 'learning_rate': 1.2063756291218742e-05, 'num_tokens': 83238152.0, 'completions/mean_length': 1728.984375, 'completions/min_length': 851.0, 'completions/max_length': 3387.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1728.984375, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 3387.0, 'rewards/rollout_reward_func/mean': 11.510937690734863, 'rewards/rollout_reward_func/std': 5.394092082977295, 'reward': 11.510937690734863, 'reward_std': 5.033642768859863, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.036769136786460876, 'sampling/sampling_logp_difference/max': 1.7006118297576904, 'sampling/importance_sampling_ratio/min': 0.07998763769865036, 'sampling/importance_sampling_ratio/mean': 0.8859492540359497, 'sampling/importance_sampling_ratio/max': 2.1786093711853027, 'kl': 0.9597693681716919, 'entropy': 0.1096293805167079, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.512218713010952, 'epoch': 4.14}
+ 52%|█████▏    | 517/1000 [4:25:46<4:15:39, 31.76s/it] 52%|█████▏    | 518/1000 [4:26:18<4:15:54, 31.86s/it]                                                      {'loss': 0.0004, 'grad_norm': 0.009827465750277042, 'learning_rate': 1.2024116144132627e-05, 'num_tokens': 83412496.0, 'completions/mean_length': 2168.375, 'completions/min_length': 784.0, 'completions/max_length': 3612.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2168.375, 'completions/min_terminated_length': 784.0, 'completions/max_terminated_length': 3612.0, 'rewards/rollout_reward_func/mean': 11.626562118530273, 'rewards/rollout_reward_func/std': 5.337029933929443, 'reward': 11.626562118530273, 'reward_std': 5.017394065856934, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03573063015937805, 'sampling/sampling_logp_difference/max': 2.154470682144165, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8544834852218628, 'sampling/importance_sampling_ratio/max': 2.232856512069702, 'kl': 0.8891680277884007, 'entropy': 0.12613350665196776, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.911006448994158, 'epoch': 4.14}
+ 52%|█████▏    | 518/1000 [4:26:18<4:15:54, 31.86s/it] 52%|█████▏    | 519/1000 [4:26:48<4:10:18, 31.22s/it]                                                      {'loss': 0.0007, 'grad_norm': 0.006782885640859604, 'learning_rate': 1.1984480789191661e-05, 'num_tokens': 83552371.0, 'completions/mean_length': 1645.046875, 'completions/min_length': 781.0, 'completions/max_length': 3418.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1645.046875, 'completions/min_terminated_length': 781.0, 'completions/max_terminated_length': 3418.0, 'rewards/rollout_reward_func/mean': 10.950000762939453, 'rewards/rollout_reward_func/std': 5.050192832946777, 'reward': 10.950000762939453, 'reward_std': 5.100171089172363, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03436274453997612, 'sampling/sampling_logp_difference/max': 1.8425028324127197, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8862068057060242, 'sampling/importance_sampling_ratio/max': 2.756216526031494, 'kl': 1.0091899298131466, 'entropy': 0.10123926773667336, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.459026642005483, 'epoch': 4.15}
+ 52%|█████▏    | 519/1000 [4:26:48<4:10:18, 31.22s/it] 52%|█████▏    | 520/1000 [4:27:18<4:08:08, 31.02s/it]                                                      {'loss': 0.0012, 'grad_norm': 0.005919900722801685, 'learning_rate': 1.1944850625523425e-05, 'num_tokens': 83724275.0, 'completions/mean_length': 2132.25, 'completions/min_length': 854.0, 'completions/max_length': 3436.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2132.25, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 3436.0, 'rewards/rollout_reward_func/mean': 11.731250762939453, 'rewards/rollout_reward_func/std': 5.459864616394043, 'reward': 11.731250762939453, 'reward_std': 4.922604560852051, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03635273873806, 'sampling/sampling_logp_difference/max': 1.6230801343917847, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9889493584632874, 'sampling/importance_sampling_ratio/max': 2.8014132976531982, 'kl': 0.8863223865628242, 'entropy': 0.13070659944787621, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.318056611009524, 'epoch': 4.16}
+ 52%|█████▏    | 520/1000 [4:27:18<4:08:08, 31.02s/it] 52%|█████▏    | 521/1000 [4:27:43<3:52:55, 29.18s/it]                                                      {'loss': -0.0005, 'grad_norm': 0.007131087593734264, 'learning_rate': 1.1905226052203222e-05, 'num_tokens': 83875787.0, 'completions/mean_length': 1821.625, 'completions/min_length': 852.0, 'completions/max_length': 2709.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1821.625, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 2709.0, 'rewards/rollout_reward_func/mean': 12.004687309265137, 'rewards/rollout_reward_func/std': 5.397396087646484, 'reward': 12.004687309265137, 'reward_std': 5.093395709991455, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.036083512008190155, 'sampling/sampling_logp_difference/max': 3.005575656890869, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8646289706230164, 'sampling/importance_sampling_ratio/max': 2.483821153640747, 'kl': 1.892858825623989, 'entropy': 0.11073091812431812, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 22.919223261000297, 'epoch': 4.17}
+ 52%|█████▏    | 521/1000 [4:27:43<3:52:55, 29.18s/it] 52%|█████▏    | 522/1000 [4:28:17<4:02:56, 30.49s/it]                                                      {'loss': -0.0008, 'grad_norm': 0.007762385997921228, 'learning_rate': 1.1865607468250074e-05, 'num_tokens': 84023703.0, 'completions/mean_length': 1767.4375, 'completions/min_length': 784.0, 'completions/max_length': 3778.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1767.4375, 'completions/min_terminated_length': 784.0, 'completions/max_terminated_length': 3778.0, 'rewards/rollout_reward_func/mean': 10.721875190734863, 'rewards/rollout_reward_func/std': 5.3366498947143555, 'reward': 10.721875190734863, 'reward_std': 5.476191520690918, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.031575266271829605, 'sampling/sampling_logp_difference/max': 1.8504374027252197, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9034426212310791, 'sampling/importance_sampling_ratio/max': 2.341510057449341, 'kl': 0.9218215793371201, 'entropy': 0.10336704878136516, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.382049192987324, 'epoch': 4.18}
+ 52%|█████▏    | 522/1000 [4:28:17<4:02:56, 30.49s/it] 52%|█████▏    | 523/1000 [4:29:03<4:40:54, 35.33s/it]                                                      {'loss': -0.0001, 'grad_norm': 0.005753889214247465, 'learning_rate': 1.1825995272622678e-05, 'num_tokens': 84211549.0, 'completions/mean_length': 2373.71875, 'completions/min_length': 852.0, 'completions/max_length': 5079.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2373.71875, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 5079.0, 'rewards/rollout_reward_func/mean': 11.787500381469727, 'rewards/rollout_reward_func/std': 5.756335735321045, 'reward': 11.787500381469727, 'reward_std': 5.622357368469238, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03233036398887634, 'sampling/sampling_logp_difference/max': 1.6291186809539795, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8739476203918457, 'sampling/importance_sampling_ratio/max': 2.6547534465789795, 'kl': 1.4961185604333878, 'entropy': 0.11562306294217706, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 44.61543375701149, 'epoch': 4.18}
+ 52%|█████▏    | 523/1000 [4:29:03<4:40:54, 35.33s/it] 52%|█████▏    | 524/1000 [4:29:34<4:29:28, 33.97s/it]                                                      {'loss': -0.0013, 'grad_norm': 0.004246141761541367, 'learning_rate': 1.17863898642154e-05, 'num_tokens': 84388056.0, 'completions/mean_length': 2200.921875, 'completions/min_length': 1193.0, 'completions/max_length': 3430.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2200.921875, 'completions/min_terminated_length': 1193.0, 'completions/max_terminated_length': 3430.0, 'rewards/rollout_reward_func/mean': 11.895312309265137, 'rewards/rollout_reward_func/std': 5.129851341247559, 'reward': 11.895312309265137, 'reward_std': 5.009579658508301, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.035083573311567307, 'sampling/sampling_logp_difference/max': 2.0030698776245117, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8093255758285522, 'sampling/importance_sampling_ratio/max': 2.5486786365509033, 'kl': 0.9762937277555466, 'entropy': 0.11215396597981453, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.634177525003906, 'epoch': 4.19}
+ 52%|█████▏    | 524/1000 [4:29:34<4:29:28, 33.97s/it] 52%|█████▎    | 525/1000 [4:30:05<4:22:04, 33.10s/it]                                                      {'loss': 0.0007, 'grad_norm': 0.003501168917864561, 'learning_rate': 1.174679164185427e-05, 'num_tokens': 84553534.0, 'completions/mean_length': 2033.46875, 'completions/min_length': 850.0, 'completions/max_length': 3480.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2033.46875, 'completions/min_terminated_length': 850.0, 'completions/max_terminated_length': 3480.0, 'rewards/rollout_reward_func/mean': 12.23593807220459, 'rewards/rollout_reward_func/std': 5.0615692138671875, 'reward': 12.235937118530273, 'reward_std': 5.063863754272461, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03237796574831009, 'sampling/sampling_logp_difference/max': 1.5023295879364014, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7669018507003784, 'sampling/importance_sampling_ratio/max': 2.455993413925171, 'kl': 0.8174409121274948, 'entropy': 0.10407461109571159, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.791285071005404, 'epoch': 4.2}
+ 52%|█████▎    | 525/1000 [4:30:05<4:22:04, 33.10s/it] 53%|█████▎    | 526/1000 [4:30:34<4:11:15, 31.80s/it]                                                      {'loss': -0.0019, 'grad_norm': 0.006827922537922859, 'learning_rate': 1.1707201004292944e-05, 'num_tokens': 84707432.0, 'completions/mean_length': 1858.90625, 'completions/min_length': 782.0, 'completions/max_length': 3284.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1858.90625, 'completions/min_terminated_length': 782.0, 'completions/max_terminated_length': 3284.0, 'rewards/rollout_reward_func/mean': 10.712499618530273, 'rewards/rollout_reward_func/std': 5.462440490722656, 'reward': 10.712499618530273, 'reward_std': 5.368532180786133, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.034256890416145325, 'sampling/sampling_logp_difference/max': 1.971630334854126, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7932416200637817, 'sampling/importance_sampling_ratio/max': 2.357025623321533, 'kl': 1.1504227630794048, 'entropy': 0.10181845398619771, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 27.637155934004113, 'epoch': 4.21}
+ 53%|█████▎    | 526/1000 [4:30:34<4:11:15, 31.80s/it] 53%|█████▎    | 527/1000 [4:31:04<4:05:46, 31.18s/it]                                                      {'loss': 0.0001, 'grad_norm': 0.006573425140231848, 'learning_rate': 1.1667618350208702e-05, 'num_tokens': 84879067.0, 'completions/mean_length': 2126.796875, 'completions/min_length': 1271.0, 'completions/max_length': 3336.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2126.796875, 'completions/min_terminated_length': 1271.0, 'completions/max_terminated_length': 3336.0, 'rewards/rollout_reward_func/mean': 10.868749618530273, 'rewards/rollout_reward_func/std': 5.202895641326904, 'reward': 10.868749618530273, 'reward_std': 4.7831501960754395, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03940342366695404, 'sampling/sampling_logp_difference/max': 1.7069761753082275, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7729529142379761, 'sampling/importance_sampling_ratio/max': 2.4003539085388184, 'kl': 0.9652081318199635, 'entropy': 0.11519601615145802, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.459632370984764, 'epoch': 4.22}
+ 53%|█████▎    | 527/1000 [4:31:04<4:05:46, 31.18s/it] 53%|█████▎    | 528/1000 [4:31:33<4:01:39, 30.72s/it]                                                      {'loss': 0.0002, 'grad_norm': 0.0058004590682685375, 'learning_rate': 1.1628044078198434e-05, 'num_tokens': 85047539.0, 'completions/mean_length': 2079.0, 'completions/min_length': 867.0, 'completions/max_length': 3370.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2079.0, 'completions/min_terminated_length': 867.0, 'completions/max_terminated_length': 3370.0, 'rewards/rollout_reward_func/mean': 12.637499809265137, 'rewards/rollout_reward_func/std': 5.4317851066589355, 'reward': 12.637499809265137, 'reward_std': 5.209969520568848, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.034792907536029816, 'sampling/sampling_logp_difference/max': 1.8472180366516113, 'sampling/importance_sampling_ratio/min': 0.05276517570018768, 'sampling/importance_sampling_ratio/mean': 0.8586641550064087, 'sampling/importance_sampling_ratio/max': 2.689485549926758, 'kl': 0.9186257310211658, 'entropy': 0.1077411265578121, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.51955372298835, 'epoch': 4.22}
+ 53%|█████▎    | 528/1000 [4:31:33<4:01:39, 30.72s/it] 53%|█████▎    | 529/1000 [4:32:02<3:57:35, 30.27s/it]                                                      {'loss': 0.0015, 'grad_norm': 0.005053618922829628, 'learning_rate': 1.1588478586774618e-05, 'num_tokens': 85218940.0, 'completions/mean_length': 2123.140625, 'completions/min_length': 1209.0, 'completions/max_length': 3239.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2123.140625, 'completions/min_terminated_length': 1209.0, 'completions/max_terminated_length': 3239.0, 'rewards/rollout_reward_func/mean': 11.546875, 'rewards/rollout_reward_func/std': 5.088610649108887, 'reward': 11.546875, 'reward_std': 5.240344047546387, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.035250917077064514, 'sampling/sampling_logp_difference/max': 2.113865852355957, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8207353353500366, 'sampling/importance_sampling_ratio/max': 2.4585282802581787, 'kl': 1.0016038473695517, 'entropy': 0.1113838804885745, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 27.976504243997624, 'epoch': 4.23}
+ 53%|█████▎    | 529/1000 [4:32:02<3:57:35, 30.27s/it] 53%|█████▎    | 530/1000 [4:32:36<4:03:57, 31.14s/it]                                                      {'loss': 0.0008, 'grad_norm': 0.00673267338424921, 'learning_rate': 1.154892227436131e-05, 'num_tokens': 85356258.0, 'completions/mean_length': 1606.59375, 'completions/min_length': 1107.0, 'completions/max_length': 3843.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1606.59375, 'completions/min_terminated_length': 1107.0, 'completions/max_terminated_length': 3843.0, 'rewards/rollout_reward_func/mean': 11.537500381469727, 'rewards/rollout_reward_func/std': 5.280497074127197, 'reward': 11.537500381469727, 'reward_std': 5.27650785446167, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.031619176268577576, 'sampling/sampling_logp_difference/max': 1.6306811571121216, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9132039546966553, 'sampling/importance_sampling_ratio/max': 2.6243019104003906, 'kl': 0.9326020069420338, 'entropy': 0.09165070578455925, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.73223938299634, 'epoch': 4.24}
+ 53%|█████▎    | 530/1000 [4:32:36<4:03:57, 31.14s/it] 53%|█████▎    | 531/1000 [4:33:05<3:58:20, 30.49s/it]                                                      {'loss': -0.0005, 'grad_norm': 0.007409017998725176, 'learning_rate': 1.1509375539290143e-05, 'num_tokens': 85501311.0, 'completions/mean_length': 1724.703125, 'completions/min_length': 851.0, 'completions/max_length': 3221.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1724.703125, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 3221.0, 'rewards/rollout_reward_func/mean': 11.348438262939453, 'rewards/rollout_reward_func/std': 5.273593902587891, 'reward': 11.34843635559082, 'reward_std': 4.820257186889648, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03152690455317497, 'sampling/sampling_logp_difference/max': 2.216312885284424, 'sampling/importance_sampling_ratio/min': 0.038849446922540665, 'sampling/importance_sampling_ratio/mean': 0.9406248331069946, 'sampling/importance_sampling_ratio/max': 2.694169521331787, 'kl': 0.9973732307553291, 'entropy': 0.09798847232013941, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 27.747838681978465, 'epoch': 4.25}
+ 53%|█████▎    | 531/1000 [4:33:05<3:58:20, 30.49s/it] 53%|█████▎    | 532/1000 [4:33:36<3:59:14, 30.67s/it]                                                      {'loss': 0.001, 'grad_norm': 0.006010278128087521, 'learning_rate': 1.1469838779796302e-05, 'num_tokens': 85655533.0, 'completions/mean_length': 1863.59375, 'completions/min_length': 780.0, 'completions/max_length': 3623.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1863.59375, 'completions/min_terminated_length': 780.0, 'completions/max_terminated_length': 3623.0, 'rewards/rollout_reward_func/mean': 11.231249809265137, 'rewards/rollout_reward_func/std': 5.3616180419921875, 'reward': 11.231249809265137, 'reward_std': 5.025750160217285, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.035046495497226715, 'sampling/sampling_logp_difference/max': 1.8556569814682007, 'sampling/importance_sampling_ratio/min': 0.0229038093239069, 'sampling/importance_sampling_ratio/mean': 0.8103591799736023, 'sampling/importance_sampling_ratio/max': 2.306751012802124, 'kl': 1.3299831561744213, 'entropy': 0.10584890330210328, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.90343550201942, 'epoch': 4.26}
+ 53%|█████▎    | 532/1000 [4:33:36<3:59:14, 30.67s/it] 53%|█████▎    | 533/1000 [4:34:10<4:07:56, 31.86s/it]                                                      {'loss': -0.0016, 'grad_norm': 0.004412696231156588, 'learning_rate': 1.1430312394014507e-05, 'num_tokens': 85817062.0, 'completions/mean_length': 1974.515625, 'completions/min_length': 853.0, 'completions/max_length': 3798.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1974.515625, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3798.0, 'rewards/rollout_reward_func/mean': 12.13906192779541, 'rewards/rollout_reward_func/std': 5.474315643310547, 'reward': 12.139062881469727, 'reward_std': 4.804846286773682, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03234568238258362, 'sampling/sampling_logp_difference/max': 2.2745280265808105, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7973049879074097, 'sampling/importance_sampling_ratio/max': 2.5434443950653076, 'kl': 1.0049941800534725, 'entropy': 0.0981343318708241, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 33.159955015005835, 'epoch': 4.26}
+ 53%|█████▎    | 533/1000 [4:34:10<4:07:56, 31.86s/it] 53%|█████▎    | 534/1000 [4:34:41<4:03:27, 31.35s/it]                                                      {'loss': -0.002, 'grad_norm': 0.0041947197169065475, 'learning_rate': 1.1390796779975026e-05, 'num_tokens': 85980541.0, 'completions/mean_length': 2004.609375, 'completions/min_length': 853.0, 'completions/max_length': 3413.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2004.609375, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3413.0, 'rewards/rollout_reward_func/mean': 12.88906192779541, 'rewards/rollout_reward_func/std': 4.958498001098633, 'reward': 12.88906192779541, 'reward_std': 4.7294416427612305, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.037781208753585815, 'sampling/sampling_logp_difference/max': 2.7846198081970215, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8294350504875183, 'sampling/importance_sampling_ratio/max': 2.4489331245422363, 'kl': 0.9784301780164242, 'entropy': 0.10208515543490648, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.873065716019482, 'epoch': 4.27}
+ 53%|█████▎    | 534/1000 [4:34:41<4:03:27, 31.35s/it] 54%|█████▎    | 535/1000 [4:35:12<4:04:22, 31.53s/it]                                                      {'loss': -0.0011, 'grad_norm': 0.005208507180213928, 'learning_rate': 1.1351292335599659e-05, 'num_tokens': 86160948.0, 'completions/mean_length': 2261.859375, 'completions/min_length': 1673.0, 'completions/max_length': 3599.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2261.859375, 'completions/min_terminated_length': 1673.0, 'completions/max_terminated_length': 3599.0, 'rewards/rollout_reward_func/mean': 11.993749618530273, 'rewards/rollout_reward_func/std': 5.594949245452881, 'reward': 11.993749618530273, 'reward_std': 5.448629379272461, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03255381062626839, 'sampling/sampling_logp_difference/max': 1.8771735429763794, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8808032274246216, 'sampling/importance_sampling_ratio/max': 2.7111477851867676, 'kl': 1.097968652844429, 'entropy': 0.11196955991908908, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.657907696986513, 'epoch': 4.28}
+ 54%|█████▎    | 535/1000 [4:35:12<4:04:22, 31.53s/it] 54%|█████▎    | 536/1000 [4:35:41<3:57:58, 30.77s/it]                                                      {'loss': 0.0006, 'grad_norm': 0.006596118211746216, 'learning_rate': 1.1311799458697719e-05, 'num_tokens': 86304829.0, 'completions/mean_length': 1705.640625, 'completions/min_length': 851.0, 'completions/max_length': 3275.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1705.640625, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 3275.0, 'rewards/rollout_reward_func/mean': 12.78593635559082, 'rewards/rollout_reward_func/std': 5.218765735626221, 'reward': 12.785937309265137, 'reward_std': 4.709003448486328, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.02959023043513298, 'sampling/sampling_logp_difference/max': 1.7215490341186523, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.950190007686615, 'sampling/importance_sampling_ratio/max': 2.777787685394287, 'kl': 0.9125148952007294, 'entropy': 0.095981121994555, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 27.744929008003965, 'epoch': 4.29}
+ 54%|█████▎    | 536/1000 [4:35:41<3:57:58, 30.77s/it] 54%|█████▎    | 537/1000 [4:36:12<3:57:00, 30.71s/it]                                                      {'loss': 0.0, 'grad_norm': 0.005108986981213093, 'learning_rate': 1.1272318546962037e-05, 'num_tokens': 86456857.0, 'completions/mean_length': 1829.6875, 'completions/min_length': 782.0, 'completions/max_length': 3443.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1829.6875, 'completions/min_terminated_length': 782.0, 'completions/max_terminated_length': 3443.0, 'rewards/rollout_reward_func/mean': 10.887499809265137, 'rewards/rollout_reward_func/std': 4.964365005493164, 'reward': 10.887499809265137, 'reward_std': 5.238099575042725, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.02734125778079033, 'sampling/sampling_logp_difference/max': 2.039060115814209, 'sampling/importance_sampling_ratio/min': 0.03292778879404068, 'sampling/importance_sampling_ratio/mean': 0.8758863210678101, 'sampling/importance_sampling_ratio/max': 1.8129632472991943, 'kl': 0.9207190982997417, 'entropy': 0.08805567328818142, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.28254928898241, 'epoch': 4.3}
+ 54%|█████▎    | 537/1000 [4:36:12<3:57:00, 30.71s/it] 54%|█████▍    | 538/1000 [4:36:43<3:56:46, 30.75s/it]                                                      {'loss': -0.0004, 'grad_norm': 0.005372657440602779, 'learning_rate': 1.1232849997964958e-05, 'num_tokens': 86613255.0, 'completions/mean_length': 1896.34375, 'completions/min_length': 854.0, 'completions/max_length': 3524.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1896.34375, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 3524.0, 'rewards/rollout_reward_func/mean': 12.048437118530273, 'rewards/rollout_reward_func/std': 5.2373504638671875, 'reward': 12.048437118530273, 'reward_std': 5.177496910095215, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03233031556010246, 'sampling/sampling_logp_difference/max': 2.493583917617798, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8361144065856934, 'sampling/importance_sampling_ratio/max': 2.408045530319214, 'kl': 1.2070932239294052, 'entropy': 0.09486235631629825, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.6776533850134, 'epoch': 4.3}
+ 54%|█████▍    | 538/1000 [4:36:43<3:56:46, 30.75s/it] 54%|█████▍    | 539/1000 [4:37:17<4:04:50, 31.87s/it]                                                      {'loss': -0.0029, 'grad_norm': 0.005433984566479921, 'learning_rate': 1.1193394209154334e-05, 'num_tokens': 86796332.0, 'completions/mean_length': 2302.828125, 'completions/min_length': 853.0, 'completions/max_length': 3684.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2302.828125, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3684.0, 'rewards/rollout_reward_func/mean': 11.4453125, 'rewards/rollout_reward_func/std': 5.645701885223389, 'reward': 11.4453125, 'reward_std': 5.420544624328613, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03712132200598717, 'sampling/sampling_logp_difference/max': 2.0465593338012695, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9150664806365967, 'sampling/importance_sampling_ratio/max': 2.601125717163086, 'kl': 0.8698436692357063, 'entropy': 0.10915415454655886, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 33.048152441006096, 'epoch': 4.31}
+ 54%|█████▍    | 539/1000 [4:37:17<4:04:50, 31.87s/it] 54%|█████▍    | 540/1000 [4:37:47<3:59:56, 31.30s/it]                                                      {'loss': 0.0012, 'grad_norm': 0.007443188689649105, 'learning_rate': 1.1153951577849513e-05, 'num_tokens': 86966498.0, 'completions/mean_length': 2105.46875, 'completions/min_length': 937.0, 'completions/max_length': 3327.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2105.46875, 'completions/min_terminated_length': 937.0, 'completions/max_terminated_length': 3327.0, 'rewards/rollout_reward_func/mean': 12.51718807220459, 'rewards/rollout_reward_func/std': 5.32420539855957, 'reward': 12.51718807220459, 'reward_std': 5.082638740539551, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.036361150443553925, 'sampling/sampling_logp_difference/max': 1.7208304405212402, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8294142484664917, 'sampling/importance_sampling_ratio/max': 2.8005623817443848, 'kl': 0.983971294015646, 'entropy': 0.10378122981637716, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.82655271898693, 'epoch': 4.32}
+ 54%|█████▍    | 540/1000 [4:37:47<3:59:56, 31.30s/it] 54%|█████▍    | 541/1000 [4:38:19<3:59:32, 31.31s/it]                                                      {'loss': 0.0002, 'grad_norm': 0.00603461405262351, 'learning_rate': 1.1114522501237364e-05, 'num_tokens': 87139645.0, 'completions/mean_length': 2150.046875, 'completions/min_length': 785.0, 'completions/max_length': 3388.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2150.046875, 'completions/min_terminated_length': 785.0, 'completions/max_terminated_length': 3388.0, 'rewards/rollout_reward_func/mean': 13.237500190734863, 'rewards/rollout_reward_func/std': 5.080041885375977, 'reward': 13.237500190734863, 'reward_std': 5.012907981872559, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03139925003051758, 'sampling/sampling_logp_difference/max': 1.7149851322174072, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8632943630218506, 'sampling/importance_sampling_ratio/max': 2.496649742126465, 'kl': 0.9286503382027149, 'entropy': 0.09915223950520158, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.27558214000601, 'epoch': 4.33}
+ 54%|█████▍    | 541/1000 [4:38:19<3:59:32, 31.31s/it] 54%|█████▍    | 542/1000 [4:38:45<3:47:50, 29.85s/it]                                                      {'loss': -0.0008, 'grad_norm': 0.007084421347826719, 'learning_rate': 1.1075107376368244e-05, 'num_tokens': 87291874.0, 'completions/mean_length': 1833.203125, 'completions/min_length': 935.0, 'completions/max_length': 3006.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1833.203125, 'completions/min_terminated_length': 935.0, 'completions/max_terminated_length': 3006.0, 'rewards/rollout_reward_func/mean': 11.496875762939453, 'rewards/rollout_reward_func/std': 5.0134100914001465, 'reward': 11.496875762939453, 'reward_std': 4.874532699584961, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.033313725143671036, 'sampling/sampling_logp_difference/max': 2.2362420558929443, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8989059925079346, 'sampling/importance_sampling_ratio/max': 2.9355411529541016, 'kl': 1.7719793915748596, 'entropy': 0.09019935573451221, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 25.374965318995237, 'epoch': 4.34}
+ 54%|█████▍    | 542/1000 [4:38:45<3:47:50, 29.85s/it] 54%|█████▍    | 543/1000 [4:39:16<3:49:04, 30.08s/it]                                                      {'loss': -0.0009, 'grad_norm': 0.004315474536269903, 'learning_rate': 1.1035706600152022e-05, 'num_tokens': 87462015.0, 'completions/mean_length': 2105.078125, 'completions/min_length': 877.0, 'completions/max_length': 3491.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2105.078125, 'completions/min_terminated_length': 877.0, 'completions/max_terminated_length': 3491.0, 'rewards/rollout_reward_func/mean': 12.442187309265137, 'rewards/rollout_reward_func/std': 5.2060346603393555, 'reward': 12.442187309265137, 'reward_std': 5.123443603515625, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03330310806632042, 'sampling/sampling_logp_difference/max': 1.9523584842681885, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7839115858078003, 'sampling/importance_sampling_ratio/max': 2.1544556617736816, 'kl': 0.899638619273901, 'entropy': 0.10104405041784048, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.453364146997046, 'epoch': 4.34}
+ 54%|█████▍    | 543/1000 [4:39:16<3:49:04, 30.08s/it] 54%|█████▍    | 544/1000 [4:39:47<3:51:41, 30.49s/it]                                                      {'loss': -0.001, 'grad_norm': 0.00599629757925868, 'learning_rate': 1.0996320569354083e-05, 'num_tokens': 87625428.0, 'completions/mean_length': 2003.578125, 'completions/min_length': 850.0, 'completions/max_length': 3582.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2003.578125, 'completions/min_terminated_length': 850.0, 'completions/max_terminated_length': 3582.0, 'rewards/rollout_reward_func/mean': 12.146875381469727, 'rewards/rollout_reward_func/std': 5.566224098205566, 'reward': 12.146875381469727, 'reward_std': 4.945868492126465, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.034721486270427704, 'sampling/sampling_logp_difference/max': 2.4607603549957275, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9607465267181396, 'sampling/importance_sampling_ratio/max': 2.9782729148864746, 'kl': 2.9654676616191864, 'entropy': 0.0946847666054964, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.149307266001415, 'epoch': 4.35}
+ 54%|█████▍    | 544/1000 [4:39:47<3:51:41, 30.49s/it] 55%|█████▍    | 545/1000 [4:40:19<3:54:39, 30.94s/it]                                                      {'loss': -0.0005, 'grad_norm': 0.0074997637420892715, 'learning_rate': 1.0956949680591316e-05, 'num_tokens': 87801399.0, 'completions/mean_length': 2194.546875, 'completions/min_length': 1201.0, 'completions/max_length': 3560.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2194.546875, 'completions/min_terminated_length': 1201.0, 'completions/max_terminated_length': 3560.0, 'rewards/rollout_reward_func/mean': 12.256250381469727, 'rewards/rollout_reward_func/std': 5.078522682189941, 'reward': 12.25624942779541, 'reward_std': 5.047375679016113, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.039530254900455475, 'sampling/sampling_logp_difference/max': 2.882779121398926, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8933619856834412, 'sampling/importance_sampling_ratio/max': 2.83064603805542, 'kl': 1.2136546149849892, 'entropy': 0.10679952707141638, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.900886652991176, 'epoch': 4.36}
+ 55%|█████▍    | 545/1000 [4:40:19<3:54:39, 30.94s/it] 55%|█████▍    | 546/1000 [4:40:43<3:38:52, 28.93s/it]                                                      {'loss': 0.0019, 'grad_norm': 0.006574221886694431, 'learning_rate': 1.0917594330328134e-05, 'num_tokens': 87950125.0, 'completions/mean_length': 1778.46875, 'completions/min_length': 865.0, 'completions/max_length': 2681.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1778.46875, 'completions/min_terminated_length': 865.0, 'completions/max_terminated_length': 2681.0, 'rewards/rollout_reward_func/mean': 11.943750381469727, 'rewards/rollout_reward_func/std': 5.323946475982666, 'reward': 11.943750381469727, 'reward_std': 5.102965354919434, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.033384718000888824, 'sampling/sampling_logp_difference/max': 4.300349712371826, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.865271806716919, 'sampling/importance_sampling_ratio/max': 2.9598262310028076, 'kl': 1.9620357900857925, 'entropy': 0.09177300240844488, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 23.186201609991258, 'epoch': 4.37}
+ 55%|█████▍    | 546/1000 [4:40:43<3:38:52, 28.93s/it] 55%|█████▍    | 547/1000 [4:41:23<4:01:40, 32.01s/it]                                                      {'loss': -0.0009, 'grad_norm': 0.006763387005776167, 'learning_rate': 1.0878254914872478e-05, 'num_tokens': 88103303.0, 'completions/mean_length': 1848.03125, 'completions/min_length': 853.0, 'completions/max_length': 4537.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1848.03125, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 4537.0, 'rewards/rollout_reward_func/mean': 10.865625381469727, 'rewards/rollout_reward_func/std': 5.219597339630127, 'reward': 10.865625381469727, 'reward_std': 5.106043338775635, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03469811752438545, 'sampling/sampling_logp_difference/max': 1.6996619701385498, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9289295673370361, 'sampling/importance_sampling_ratio/max': 2.3381285667419434, 'kl': 0.9462661519646645, 'entropy': 0.09144960716366768, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 37.83252182501019, 'epoch': 4.38}
+ 55%|█████▍    | 547/1000 [4:41:23<4:01:40, 32.01s/it] 55%|█████▍    | 548/1000 [4:41:57<4:06:42, 32.75s/it]                                                      {'loss': 0.0013, 'grad_norm': 0.004346128087490797, 'learning_rate': 1.0838931830371825e-05, 'num_tokens': 88275517.0, 'completions/mean_length': 2137.09375, 'completions/min_length': 853.0, 'completions/max_length': 3774.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2137.09375, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3774.0, 'rewards/rollout_reward_func/mean': 11.515625, 'rewards/rollout_reward_func/std': 5.324821472167969, 'reward': 11.515625, 'reward_std': 4.727297782897949, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03701707348227501, 'sampling/sampling_logp_difference/max': 2.4723241329193115, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8636676073074341, 'sampling/importance_sampling_ratio/max': 2.92492938041687, 'kl': 0.8806167356669903, 'entropy': 0.1058154790662229, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 33.12590898700728, 'epoch': 4.38}
+ 55%|█████▍    | 548/1000 [4:41:57<4:06:42, 32.75s/it] 55%|█████▍    | 549/1000 [4:42:31<4:08:03, 33.00s/it]                                                      {'loss': -0.0007, 'grad_norm': 0.005107429344207048, 'learning_rate': 1.0799625472809201e-05, 'num_tokens': 88428987.0, 'completions/mean_length': 1852.21875, 'completions/min_length': 853.0, 'completions/max_length': 3862.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1852.21875, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3862.0, 'rewards/rollout_reward_func/mean': 12.845312118530273, 'rewards/rollout_reward_func/std': 5.1658501625061035, 'reward': 12.845312118530273, 'reward_std': 5.086876392364502, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03336594998836517, 'sampling/sampling_logp_difference/max': 1.713235855102539, 'sampling/importance_sampling_ratio/min': 0.047495316714048386, 'sampling/importance_sampling_ratio/mean': 0.9192813634872437, 'sampling/importance_sampling_ratio/max': 2.960054874420166, 'kl': 0.9343333058059216, 'entropy': 0.0973886176943779, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.13568509800098, 'epoch': 4.39}
+ 55%|█████▍    | 549/1000 [4:42:31<4:08:03, 33.00s/it] 55%|█████▌    | 550/1000 [4:43:03<4:04:58, 32.66s/it]                                                      {'loss': -0.0007, 'grad_norm': 0.004031492862850428, 'learning_rate': 1.0760336237999187e-05, 'num_tokens': 88612222.0, 'completions/mean_length': 2303.671875, 'completions/min_length': 856.0, 'completions/max_length': 3595.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2303.671875, 'completions/min_terminated_length': 856.0, 'completions/max_terminated_length': 3595.0, 'rewards/rollout_reward_func/mean': 11.3515625, 'rewards/rollout_reward_func/std': 5.53135347366333, 'reward': 11.3515625, 'reward_std': 5.544478416442871, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.0394529327750206, 'sampling/sampling_logp_difference/max': 1.9160418510437012, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7112535238265991, 'sampling/importance_sampling_ratio/max': 2.750824451446533, 'kl': 1.036574024707079, 'entropy': 0.11738184653222561, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.528765328999725, 'epoch': 4.4}
+ 55%|█████▌    | 550/1000 [4:43:03<4:04:58, 32.66s/it] 55%|█████▌    | 551/1000 [4:43:36<4:07:08, 33.02s/it]                                                      {'loss': -0.0008, 'grad_norm': 0.00495621282607317, 'learning_rate': 1.0721064521583937e-05, 'num_tokens': 88787114.0, 'completions/mean_length': 2176.9375, 'completions/min_length': 851.0, 'completions/max_length': 3764.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2176.9375, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 3764.0, 'rewards/rollout_reward_func/mean': 12.598437309265137, 'rewards/rollout_reward_func/std': 5.516655921936035, 'reward': 12.598437309265137, 'reward_std': 5.345566749572754, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03556530550122261, 'sampling/sampling_logp_difference/max': 1.9108786582946777, 'sampling/importance_sampling_ratio/min': 0.004915004596114159, 'sampling/importance_sampling_ratio/mean': 0.8877140283584595, 'sampling/importance_sampling_ratio/max': 2.60380220413208, 'kl': 0.8895085882395506, 'entropy': 0.10339781735092402, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.4396972169925, 'epoch': 4.41}
+ 55%|█████▌    | 551/1000 [4:43:36<4:07:08, 33.02s/it] 55%|█████▌    | 552/1000 [4:44:22<4:35:01, 36.83s/it]                                                      {'loss': 0.0027, 'grad_norm': 0.005919941700994968, 'learning_rate': 1.068181071902921e-05, 'num_tokens': 88971234.0, 'completions/mean_length': 2319.875, 'completions/min_length': 1231.0, 'completions/max_length': 5083.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2319.875, 'completions/min_terminated_length': 1231.0, 'completions/max_terminated_length': 5083.0, 'rewards/rollout_reward_func/mean': 11.957812309265137, 'rewards/rollout_reward_func/std': 5.006592750549316, 'reward': 11.957813262939453, 'reward_std': 5.100225448608398, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04109382629394531, 'sampling/sampling_logp_difference/max': 2.7566347122192383, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7831742167472839, 'sampling/importance_sampling_ratio/max': 2.968513011932373, 'kl': 1.4045905955135822, 'entropy': 0.10949210729449987, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 44.05879407597968, 'epoch': 4.42}
+ 55%|█████▌    | 552/1000 [4:44:22<4:35:01, 36.83s/it] 55%|█████▌    | 553/1000 [4:44:55<4:26:21, 35.75s/it]                                                      {'loss': 0.0013, 'grad_norm': 0.004889112897217274, 'learning_rate': 1.0642575225620357e-05, 'num_tokens': 89120668.0, 'completions/mean_length': 1790.78125, 'completions/min_length': 849.0, 'completions/max_length': 3786.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1790.78125, 'completions/min_terminated_length': 849.0, 'completions/max_terminated_length': 3786.0, 'rewards/rollout_reward_func/mean': 11.484375, 'rewards/rollout_reward_func/std': 4.763559341430664, 'reward': 11.484375, 'reward_std': 4.882108688354492, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.035897962749004364, 'sampling/sampling_logp_difference/max': 1.9302887916564941, 'sampling/importance_sampling_ratio/min': 0.0916253924369812, 'sampling/importance_sampling_ratio/mean': 0.8190010786056519, 'sampling/importance_sampling_ratio/max': 2.5537948608398438, 'kl': 1.6000750362873077, 'entropy': 0.1019991678185761, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.02724310697522, 'epoch': 4.42}
+ 55%|█████▌    | 553/1000 [4:44:55<4:26:21, 35.75s/it] 55%|█████▌    | 554/1000 [4:45:31<4:24:27, 35.58s/it]                                                      {'loss': -0.0006, 'grad_norm': 0.005123517941683531, 'learning_rate': 1.0603358436458357e-05, 'num_tokens': 89297173.0, 'completions/mean_length': 2202.890625, 'completions/min_length': 1190.0, 'completions/max_length': 3850.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2202.890625, 'completions/min_terminated_length': 1190.0, 'completions/max_terminated_length': 3850.0, 'rewards/rollout_reward_func/mean': 11.301563262939453, 'rewards/rollout_reward_func/std': 4.992168426513672, 'reward': 11.301563262939453, 'reward_std': 4.8406476974487305, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03365786746144295, 'sampling/sampling_logp_difference/max': 1.9988975524902344, 'sampling/importance_sampling_ratio/min': 0.016515450552105904, 'sampling/importance_sampling_ratio/mean': 0.8601158857345581, 'sampling/importance_sampling_ratio/max': 2.5099573135375977, 'kl': 1.484808400273323, 'entropy': 0.10846452508121729, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 33.964797139997245, 'epoch': 4.43}
+ 55%|█████▌    | 554/1000 [4:45:31<4:24:27, 35.58s/it] 56%|█████▌    | 555/1000 [4:46:05<4:20:29, 35.12s/it]                                                      {'loss': 0.0018, 'grad_norm': 0.004771237727254629, 'learning_rate': 1.0564160746455849e-05, 'num_tokens': 89474614.0, 'completions/mean_length': 2217.140625, 'completions/min_length': 939.0, 'completions/max_length': 3791.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2217.140625, 'completions/min_terminated_length': 939.0, 'completions/max_terminated_length': 3791.0, 'rewards/rollout_reward_func/mean': 11.879687309265137, 'rewards/rollout_reward_func/std': 5.264471530914307, 'reward': 11.879688262939453, 'reward_std': 4.785146713256836, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04012681916356087, 'sampling/sampling_logp_difference/max': 1.9224283695220947, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7967492341995239, 'sampling/importance_sampling_ratio/max': 2.6665987968444824, 'kl': 0.9468823373317719, 'entropy': 0.12025649007409811, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.60547245800262, 'epoch': 4.44}
+ 56%|█████▌    | 555/1000 [4:46:05<4:20:29, 35.12s/it] 56%|█████▌    | 556/1000 [4:46:35<4:10:13, 33.81s/it]                                                      {'loss': -0.0029, 'grad_norm': 0.005067368037998676, 'learning_rate': 1.0524982550333126e-05, 'num_tokens': 89645315.0, 'completions/mean_length': 2113.453125, 'completions/min_length': 852.0, 'completions/max_length': 3470.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2113.453125, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3470.0, 'rewards/rollout_reward_func/mean': 11.862500190734863, 'rewards/rollout_reward_func/std': 4.761969089508057, 'reward': 11.862499237060547, 'reward_std': 4.9298248291015625, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03563797473907471, 'sampling/sampling_logp_difference/max': 2.328887939453125, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9137759208679199, 'sampling/importance_sampling_ratio/max': 2.628830909729004, 'kl': 0.971720814704895, 'entropy': 0.1114956708624959, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.460822214001382, 'epoch': 4.45}
+ 56%|█████▌    | 556/1000 [4:46:35<4:10:13, 33.81s/it] 56%|█████▌    | 557/1000 [4:47:04<3:58:37, 32.32s/it]                                                      {'loss': 0.0001, 'grad_norm': 0.006339074112474918, 'learning_rate': 1.04858242426142e-05, 'num_tokens': 89785182.0, 'completions/mean_length': 1645.296875, 'completions/min_length': 779.0, 'completions/max_length': 3263.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1645.296875, 'completions/min_terminated_length': 779.0, 'completions/max_terminated_length': 3263.0, 'rewards/rollout_reward_func/mean': 11.939062118530273, 'rewards/rollout_reward_func/std': 5.759398937225342, 'reward': 11.939062118530273, 'reward_std': 5.48974609375, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.028146915137767792, 'sampling/sampling_logp_difference/max': 1.7416369915008545, 'sampling/importance_sampling_ratio/min': 0.1488465815782547, 'sampling/importance_sampling_ratio/mean': 1.0380892753601074, 'sampling/importance_sampling_ratio/max': 2.7643494606018066, 'kl': 1.3709032982587814, 'entropy': 0.09373558824881911, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 27.583502819979913, 'epoch': 4.46}
+ 56%|█████▌    | 557/1000 [4:47:04<3:58:37, 32.32s/it] 56%|█████▌    | 558/1000 [4:47:44<4:15:29, 34.68s/it]                                                      {'loss': -0.0024, 'grad_norm': 0.0064964271150529385, 'learning_rate': 1.044668621762279e-05, 'num_tokens': 89991284.0, 'completions/mean_length': 2651.34375, 'completions/min_length': 1262.0, 'completions/max_length': 4359.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2651.34375, 'completions/min_terminated_length': 1262.0, 'completions/max_terminated_length': 4359.0, 'rewards/rollout_reward_func/mean': 13.607812881469727, 'rewards/rollout_reward_func/std': 5.292112350463867, 'reward': 13.607812881469727, 'reward_std': 5.042041301727295, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03992278501391411, 'sampling/sampling_logp_difference/max': 1.867372751235962, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9911173582077026, 'sampling/importance_sampling_ratio/max': 2.856727361679077, 'kl': 0.9969629608094692, 'entropy': 0.1304268203675747, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 38.502190458995756, 'epoch': 4.46}
+ 56%|█████▌    | 558/1000 [4:47:44<4:15:29, 34.68s/it] 56%|█████▌    | 559/1000 [4:48:13<4:01:12, 32.82s/it]                                                      {'loss': -0.0013, 'grad_norm': 0.005661371164023876, 'learning_rate': 1.0407568869478368e-05, 'num_tokens': 90134033.0, 'completions/mean_length': 1689.078125, 'completions/min_length': 779.0, 'completions/max_length': 3271.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1689.078125, 'completions/min_terminated_length': 779.0, 'completions/max_terminated_length': 3271.0, 'rewards/rollout_reward_func/mean': 12.673437118530273, 'rewards/rollout_reward_func/std': 4.93829345703125, 'reward': 12.673437118530273, 'reward_std': 4.945743560791016, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.02845935896039009, 'sampling/sampling_logp_difference/max': 1.4459114074707031, 'sampling/importance_sampling_ratio/min': 0.221842959523201, 'sampling/importance_sampling_ratio/mean': 0.9129244089126587, 'sampling/importance_sampling_ratio/max': 1.8991823196411133, 'kl': 0.9131476357579231, 'entropy': 0.09431314026005566, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 27.340826635008852, 'epoch': 4.47}
+ 56%|█████▌    | 559/1000 [4:48:13<4:01:12, 32.82s/it] 56%|█████▌    | 560/1000 [4:48:53<4:15:49, 34.89s/it]                                                      {'loss': -0.0001, 'grad_norm': 0.004415059927850962, 'learning_rate': 1.0368472592092203e-05, 'num_tokens': 90310903.0, 'completions/mean_length': 2208.59375, 'completions/min_length': 1302.0, 'completions/max_length': 4475.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2208.59375, 'completions/min_terminated_length': 1302.0, 'completions/max_terminated_length': 4475.0, 'rewards/rollout_reward_func/mean': 13.34843635559082, 'rewards/rollout_reward_func/std': 5.249882698059082, 'reward': 13.348438262939453, 'reward_std': 4.318648338317871, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03256271779537201, 'sampling/sampling_logp_difference/max': 2.443772792816162, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8565115928649902, 'sampling/importance_sampling_ratio/max': 2.60170578956604, 'kl': 1.0128770433366299, 'entropy': 0.11449941946193576, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 38.22711734101176, 'epoch': 4.48}
+ 56%|█████▌    | 560/1000 [4:48:53<4:15:49, 34.89s/it] 56%|█████▌    | 561/1000 [4:49:28<4:15:33, 34.93s/it]                                                      {'loss': 0.001, 'grad_norm': 0.007633925415575504, 'learning_rate': 1.0329397779163372e-05, 'num_tokens': 90459541.0, 'completions/mean_length': 1778.34375, 'completions/min_length': 851.0, 'completions/max_length': 3976.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1778.34375, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 3976.0, 'rewards/rollout_reward_func/mean': 11.98593807220459, 'rewards/rollout_reward_func/std': 5.472206115722656, 'reward': 11.985937118530273, 'reward_std': 4.832409858703613, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03412911295890808, 'sampling/sampling_logp_difference/max': 2.1852385997772217, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9777839183807373, 'sampling/importance_sampling_ratio/max': 2.6854491233825684, 'kl': 0.952709749341011, 'entropy': 0.10009885812178254, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.76872561302298, 'epoch': 4.49}
+ 56%|█████▌    | 561/1000 [4:49:28<4:15:33, 34.93s/it] 56%|█████▌    | 562/1000 [4:49:59<4:08:22, 34.02s/it]                                                      {'loss': -0.001, 'grad_norm': 0.0049529122188687325, 'learning_rate': 1.0290344824174802e-05, 'num_tokens': 90643271.0, 'completions/mean_length': 2311.78125, 'completions/min_length': 1202.0, 'completions/max_length': 3570.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2311.78125, 'completions/min_terminated_length': 1202.0, 'completions/max_terminated_length': 3570.0, 'rewards/rollout_reward_func/mean': 12.951562881469727, 'rewards/rollout_reward_func/std': 5.465853691101074, 'reward': 12.951562881469727, 'reward_std': 4.951096057891846, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03591904044151306, 'sampling/sampling_logp_difference/max': 2.59391188621521, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8459644317626953, 'sampling/importance_sampling_ratio/max': 2.926257610321045, 'kl': 1.468603279441595, 'entropy': 0.12084710504859686, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.633815184010018, 'epoch': 4.5}
+ 56%|█████▌    | 562/1000 [4:49:59<4:08:22, 34.02s/it] 56%|█████▋    | 563/1000 [4:50:29<3:58:29, 32.75s/it]                                                      {'loss': 0.0022, 'grad_norm': 0.007505280897021294, 'learning_rate': 1.0251314120389328e-05, 'num_tokens': 90786922.0, 'completions/mean_length': 1702.421875, 'completions/min_length': 785.0, 'completions/max_length': 3345.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1702.421875, 'completions/min_terminated_length': 785.0, 'completions/max_terminated_length': 3345.0, 'rewards/rollout_reward_func/mean': 11.540624618530273, 'rewards/rollout_reward_func/std': 5.497610569000244, 'reward': 11.540624618530273, 'reward_std': 5.310208797454834, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.0295085608959198, 'sampling/sampling_logp_difference/max': 1.3488497734069824, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9447261691093445, 'sampling/importance_sampling_ratio/max': 2.91042160987854, 'kl': 1.0121349804103374, 'entropy': 0.09992179158143699, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.50624054101354, 'epoch': 4.5}
+ 56%|█████▋    | 563/1000 [4:50:29<3:58:29, 32.75s/it] 56%|█████▋    | 564/1000 [4:50:58<3:49:14, 31.55s/it]                                                      {'loss': -0.0002, 'grad_norm': 0.005632383283227682, 'learning_rate': 1.0212306060845692e-05, 'num_tokens': 90938983.0, 'completions/mean_length': 1830.203125, 'completions/min_length': 782.0, 'completions/max_length': 3195.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1830.203125, 'completions/min_terminated_length': 782.0, 'completions/max_terminated_length': 3195.0, 'rewards/rollout_reward_func/mean': 12.114062309265137, 'rewards/rollout_reward_func/std': 5.294557571411133, 'reward': 12.114062309265137, 'reward_std': 5.006448745727539, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.030888482928276062, 'sampling/sampling_logp_difference/max': 2.7933402061462402, 'sampling/importance_sampling_ratio/min': 0.06087609753012657, 'sampling/importance_sampling_ratio/mean': 0.9072291851043701, 'sampling/importance_sampling_ratio/max': 2.165032386779785, 'kl': 1.0618296973407269, 'entropy': 0.10809313366189599, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 27.520076038992556, 'epoch': 4.51}
+ 56%|█████▋    | 564/1000 [4:50:58<3:49:14, 31.55s/it] 56%|█████▋    | 565/1000 [4:51:26<3:41:43, 30.58s/it]                                                      {'loss': 0.0012, 'grad_norm': 0.0056591699831187725, 'learning_rate': 1.0173321038354625e-05, 'num_tokens': 91089079.0, 'completions/mean_length': 1799.875, 'completions/min_length': 854.0, 'completions/max_length': 3219.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1799.875, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 3219.0, 'rewards/rollout_reward_func/mean': 11.809374809265137, 'rewards/rollout_reward_func/std': 5.485325813293457, 'reward': 11.809374809265137, 'reward_std': 5.385446071624756, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03208521008491516, 'sampling/sampling_logp_difference/max': 2.1462855339050293, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8960935473442078, 'sampling/importance_sampling_ratio/max': 2.2012124061584473, 'kl': 1.6913181282579899, 'entropy': 0.10115482332184911, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 27.11063733098854, 'epoch': 4.52}
+ 56%|█████▋    | 565/1000 [4:51:26<3:41:43, 30.58s/it] 57%|█████▋    | 566/1000 [4:51:59<3:44:45, 31.07s/it]                                                      {'loss': -0.0001, 'grad_norm': 0.0037073343992233276, 'learning_rate': 1.0134359445494877e-05, 'num_tokens': 91233649.0, 'completions/mean_length': 1716.78125, 'completions/min_length': 850.0, 'completions/max_length': 3656.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1716.78125, 'completions/min_terminated_length': 850.0, 'completions/max_terminated_length': 3656.0, 'rewards/rollout_reward_func/mean': 11.473437309265137, 'rewards/rollout_reward_func/std': 5.323301792144775, 'reward': 11.473438262939453, 'reward_std': 4.604057788848877, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.031432438641786575, 'sampling/sampling_logp_difference/max': 1.7557449340820312, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.876220166683197, 'sampling/importance_sampling_ratio/max': 2.3802847862243652, 'kl': 1.0929358266294003, 'entropy': 0.11232458800077438, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.86275165902771, 'epoch': 4.53}
+ 57%|█████▋    | 566/1000 [4:51:59<3:44:45, 31.07s/it] 57%|█████▋    | 567/1000 [4:52:29<3:42:38, 30.85s/it]                                                      {'loss': -0.0012, 'grad_norm': 0.0041719661094248295, 'learning_rate': 1.0095421674609242e-05, 'num_tokens': 91398599.0, 'completions/mean_length': 2025.96875, 'completions/min_length': 855.0, 'completions/max_length': 3394.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2025.96875, 'completions/min_terminated_length': 855.0, 'completions/max_terminated_length': 3394.0, 'rewards/rollout_reward_func/mean': 11.4765625, 'rewards/rollout_reward_func/std': 4.969357967376709, 'reward': 11.4765625, 'reward_std': 5.122696876525879, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.036536961793899536, 'sampling/sampling_logp_difference/max': 2.871793270111084, 'sampling/importance_sampling_ratio/min': 0.004943588748574257, 'sampling/importance_sampling_ratio/mean': 0.7695487141609192, 'sampling/importance_sampling_ratio/max': 2.6395015716552734, 'kl': 0.9275121726095676, 'entropy': 0.11778249312192202, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.05039747797855, 'epoch': 4.54}
+ 57%|█████▋    | 567/1000 [4:52:29<3:42:38, 30.85s/it] 57%|█████▋    | 568/1000 [4:53:02<3:47:10, 31.55s/it]                                                      {'loss': 0.0005, 'grad_norm': 0.003210292896255851, 'learning_rate': 1.0056508117800651e-05, 'num_tokens': 91577001.0, 'completions/mean_length': 2230.15625, 'completions/min_length': 849.0, 'completions/max_length': 3734.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2230.15625, 'completions/min_terminated_length': 849.0, 'completions/max_terminated_length': 3734.0, 'rewards/rollout_reward_func/mean': 12.301562309265137, 'rewards/rollout_reward_func/std': 4.972639560699463, 'reward': 12.301562309265137, 'reward_std': 4.922025680541992, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03666163235902786, 'sampling/sampling_logp_difference/max': 1.3824996948242188, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7295262813568115, 'sampling/importance_sampling_ratio/max': 1.9714988470077515, 'kl': 1.2791540920734406, 'entropy': 0.1306778211146593, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.9551719709998, 'epoch': 4.54}
+ 57%|█████▋    | 568/1000 [4:53:02<3:47:10, 31.55s/it] 57%|█████▋    | 569/1000 [4:53:30<3:38:22, 30.40s/it]                                                      {'loss': -0.0016, 'grad_norm': 0.005294510629028082, 'learning_rate': 1.0017619166928185e-05, 'num_tokens': 91725753.0, 'completions/mean_length': 1780.5, 'completions/min_length': 852.0, 'completions/max_length': 3114.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1780.5, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3114.0, 'rewards/rollout_reward_func/mean': 12.293749809265137, 'rewards/rollout_reward_func/std': 5.223265171051025, 'reward': 12.293750762939453, 'reward_std': 4.81107759475708, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03360692784190178, 'sampling/sampling_logp_difference/max': 1.5044245719909668, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9040141105651855, 'sampling/importance_sampling_ratio/max': 2.457941770553589, 'kl': 1.0402198545634747, 'entropy': 0.1219731317833066, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 26.518245958010084, 'epoch': 4.55}
+ 57%|█████▋    | 569/1000 [4:53:30<3:38:22, 30.40s/it] 57%|█████▋    | 570/1000 [4:54:04<3:45:02, 31.40s/it]                                                      {'loss': -0.001, 'grad_norm': 0.005676604807376862, 'learning_rate': 9.978755213603148e-06, 'num_tokens': 91895676.0, 'completions/mean_length': 2102.046875, 'completions/min_length': 1203.0, 'completions/max_length': 3659.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2102.046875, 'completions/min_terminated_length': 1203.0, 'completions/max_terminated_length': 3659.0, 'rewards/rollout_reward_func/mean': 11.06406307220459, 'rewards/rollout_reward_func/std': 5.361395359039307, 'reward': 11.06406307220459, 'reward_std': 5.511383056640625, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03206254541873932, 'sampling/sampling_logp_difference/max': 1.3525383472442627, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9552298784255981, 'sampling/importance_sampling_ratio/max': 2.734395980834961, 'kl': 1.0971531867980957, 'entropy': 0.1327190981246531, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.31517125199025, 'epoch': 4.56}
+ 57%|█████▋    | 570/1000 [4:54:04<3:45:02, 31.40s/it] 57%|█████▋    | 571/1000 [4:54:34<3:42:28, 31.11s/it]                                                      {'loss': 0.0007, 'grad_norm': 0.006874530576169491, 'learning_rate': 9.939916649185119e-06, 'num_tokens': 92056886.0, 'completions/mean_length': 1968.78125, 'completions/min_length': 852.0, 'completions/max_length': 3476.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1968.78125, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3476.0, 'rewards/rollout_reward_func/mean': 12.71875, 'rewards/rollout_reward_func/std': 4.97794771194458, 'reward': 12.71875, 'reward_std': 4.754152297973633, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.035572513937950134, 'sampling/sampling_logp_difference/max': 2.067652463912964, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8805467486381531, 'sampling/importance_sampling_ratio/max': 2.930448532104492, 'kl': 0.9264366813004017, 'entropy': 0.1283460739068687, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.147603424011322, 'epoch': 4.57}
+ 57%|█████▋    | 571/1000 [4:54:34<3:42:28, 31.11s/it] 57%|█████▋    | 572/1000 [4:55:06<3:43:30, 31.33s/it]                                                      {'loss': 0.0007, 'grad_norm': 0.005636559333652258, 'learning_rate': 9.90110386477801e-06, 'num_tokens': 92226716.0, 'completions/mean_length': 2100.21875, 'completions/min_length': 782.0, 'completions/max_length': 3584.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2100.21875, 'completions/min_terminated_length': 782.0, 'completions/max_terminated_length': 3584.0, 'rewards/rollout_reward_func/mean': 11.4140625, 'rewards/rollout_reward_func/std': 5.13438081741333, 'reward': 11.4140625, 'reward_std': 5.197753429412842, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.032516688108444214, 'sampling/sampling_logp_difference/max': 1.4947952032089233, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8626705408096313, 'sampling/importance_sampling_ratio/max': 2.4787778854370117, 'kl': 2.0321886986494064, 'entropy': 0.1351111871190369, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.498691067994514, 'epoch': 4.58}
+ 57%|█████▋    | 572/1000 [4:55:06<3:43:30, 31.33s/it] 57%|█████▋    | 573/1000 [4:55:36<3:40:23, 30.97s/it]                                                      {'loss': -0.002, 'grad_norm': 0.005431120749562979, 'learning_rate': 9.86231725122613e-06, 'num_tokens': 92383064.0, 'completions/mean_length': 1895.1875, 'completions/min_length': 853.0, 'completions/max_length': 3432.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1895.1875, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3432.0, 'rewards/rollout_reward_func/mean': 11.854687690734863, 'rewards/rollout_reward_func/std': 5.355932235717773, 'reward': 11.854687690734863, 'reward_std': 5.119357585906982, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.033861350268125534, 'sampling/sampling_logp_difference/max': 2.830392360687256, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8856837749481201, 'sampling/importance_sampling_ratio/max': 2.1181111335754395, 'kl': 0.9467819482088089, 'entropy': 0.13085029972717166, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.977914157010673, 'epoch': 4.58}
+ 57%|█████▋    | 573/1000 [4:55:36<3:40:23, 30.97s/it] 57%|█████▋    | 574/1000 [4:56:06<3:37:11, 30.59s/it]                                                      {'loss': -0.0011, 'grad_norm': 0.006515985820442438, 'learning_rate': 9.823557199110247e-06, 'num_tokens': 92563214.0, 'completions/mean_length': 2255.46875, 'completions/min_length': 867.0, 'completions/max_length': 3221.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2255.46875, 'completions/min_terminated_length': 867.0, 'completions/max_terminated_length': 3221.0, 'rewards/rollout_reward_func/mean': 12.82187557220459, 'rewards/rollout_reward_func/std': 5.163930892944336, 'reward': 12.821874618530273, 'reward_std': 5.176410675048828, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03310910612344742, 'sampling/sampling_logp_difference/max': 2.255779504776001, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8426769971847534, 'sampling/importance_sampling_ratio/max': 2.7809691429138184, 'kl': 0.8525167405605316, 'entropy': 0.13794394629076123, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.478979972998786, 'epoch': 4.59}
+ 57%|█████▋    | 574/1000 [4:56:06<3:37:11, 30.59s/it] 57%|█████▊    | 575/1000 [4:56:34<3:32:47, 30.04s/it]                                                      {'loss': -0.0006, 'grad_norm': 0.004968208260834217, 'learning_rate': 9.784824098743656e-06, 'num_tokens': 92698747.0, 'completions/mean_length': 1579.578125, 'completions/min_length': 784.0, 'completions/max_length': 3376.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1579.578125, 'completions/min_terminated_length': 784.0, 'completions/max_terminated_length': 3376.0, 'rewards/rollout_reward_func/mean': 10.448437690734863, 'rewards/rollout_reward_func/std': 5.205156326293945, 'reward': 10.448437690734863, 'reward_std': 4.343331813812256, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03178279474377632, 'sampling/sampling_logp_difference/max': 1.8718209266662598, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8214250206947327, 'sampling/importance_sampling_ratio/max': 1.9797371625900269, 'kl': 0.8642120063304901, 'entropy': 0.10356556996703148, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 27.68373812599748, 'epoch': 4.6}
+ 57%|█████▊    | 575/1000 [4:56:34<3:32:47, 30.04s/it] 58%|█████▊    | 576/1000 [4:57:06<3:36:39, 30.66s/it]                                                      {'loss': 0.0008, 'grad_norm': 0.005034620873630047, 'learning_rate': 9.746118340168243e-06, 'num_tokens': 92884886.0, 'completions/mean_length': 2347.421875, 'completions/min_length': 1284.0, 'completions/max_length': 3548.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2347.421875, 'completions/min_terminated_length': 1284.0, 'completions/max_terminated_length': 3548.0, 'rewards/rollout_reward_func/mean': 12.77500057220459, 'rewards/rollout_reward_func/std': 4.94146728515625, 'reward': 12.77500057220459, 'reward_std': 4.710050106048584, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.036393530666828156, 'sampling/sampling_logp_difference/max': 1.5361626148223877, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7994250059127808, 'sampling/importance_sampling_ratio/max': 2.8417227268218994, 'kl': 0.9056056477129459, 'entropy': 0.14919860940426588, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.767372251008055, 'epoch': 4.61}
+ 58%|█████▊    | 576/1000 [4:57:07<3:36:39, 30.66s/it] 58%|█████▊    | 577/1000 [4:57:41<3:43:19, 31.68s/it]                                                      {'loss': 0.0006, 'grad_norm': 0.006265582982450724, 'learning_rate': 9.707440313150573e-06, 'num_tokens': 93052147.0, 'completions/mean_length': 2062.078125, 'completions/min_length': 949.0, 'completions/max_length': 3793.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2062.078125, 'completions/min_terminated_length': 949.0, 'completions/max_terminated_length': 3793.0, 'rewards/rollout_reward_func/mean': 10.9296875, 'rewards/rollout_reward_func/std': 5.098947525024414, 'reward': 10.9296875, 'reward_std': 5.288829326629639, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03430473059415817, 'sampling/sampling_logp_difference/max': 3.558927536010742, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8619807362556458, 'sampling/importance_sampling_ratio/max': 2.5931522846221924, 'kl': 1.1068141460418701, 'entropy': 0.13926107669249177, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.72389589599334, 'epoch': 4.62}
+ 58%|█████▊    | 577/1000 [4:57:41<3:43:19, 31.68s/it] 58%|█████▊    | 578/1000 [4:58:09<3:36:09, 30.73s/it]                                                      {'loss': -0.0016, 'grad_norm': 0.00617050938308239, 'learning_rate': 9.668790407177944e-06, 'num_tokens': 93206379.0, 'completions/mean_length': 1862.5, 'completions/min_length': 865.0, 'completions/max_length': 3245.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1862.5, 'completions/min_terminated_length': 865.0, 'completions/max_terminated_length': 3245.0, 'rewards/rollout_reward_func/mean': 11.692188262939453, 'rewards/rollout_reward_func/std': 5.38602876663208, 'reward': 11.692188262939453, 'reward_std': 4.924185752868652, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.0324842669069767, 'sampling/sampling_logp_difference/max': 1.8939836025238037, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8714443445205688, 'sampling/importance_sampling_ratio/max': 2.6376354694366455, 'kl': 1.1683967299759388, 'entropy': 0.12382374284788966, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 27.29797535498801, 'epoch': 4.62}
+ 58%|█████▊    | 578/1000 [4:58:09<3:36:09, 30.73s/it] 58%|█████▊    | 579/1000 [4:58:41<3:37:09, 30.95s/it]                                                      {'loss': 0.0003, 'grad_norm': 0.008749839849770069, 'learning_rate': 9.630169011454486e-06, 'num_tokens': 93354765.0, 'completions/mean_length': 1774.78125, 'completions/min_length': 850.0, 'completions/max_length': 3551.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1774.78125, 'completions/min_terminated_length': 850.0, 'completions/max_terminated_length': 3551.0, 'rewards/rollout_reward_func/mean': 10.71875, 'rewards/rollout_reward_func/std': 4.988649845123291, 'reward': 10.71875, 'reward_std': 4.891767501831055, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03116755560040474, 'sampling/sampling_logp_difference/max': 1.584981918334961, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9271837472915649, 'sampling/importance_sampling_ratio/max': 2.9529433250427246, 'kl': 0.961803499609232, 'entropy': 0.11975723225623369, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.122319429989147, 'epoch': 4.63}
+ 58%|█████▊    | 579/1000 [4:58:41<3:37:09, 30.95s/it] 58%|█████▊    | 580/1000 [4:59:11<3:35:21, 30.77s/it]                                                      {'loss': -0.0001, 'grad_norm': 0.004155335016548634, 'learning_rate': 9.59157651489722e-06, 'num_tokens': 93491533.0, 'completions/mean_length': 1598.875, 'completions/min_length': 850.0, 'completions/max_length': 3538.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1598.875, 'completions/min_terminated_length': 850.0, 'completions/max_terminated_length': 3538.0, 'rewards/rollout_reward_func/mean': 10.03125, 'rewards/rollout_reward_func/std': 5.076396942138672, 'reward': 10.03125, 'reward_std': 4.977950096130371, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03100132942199707, 'sampling/sampling_logp_difference/max': 1.421631932258606, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8175917267799377, 'sampling/importance_sampling_ratio/max': 1.660770058631897, 'kl': 0.8606534190475941, 'entropy': 0.11766920937225223, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.18141084000672, 'epoch': 4.64}
+ 58%|█████▊    | 580/1000 [4:59:11<3:35:21, 30.77s/it] 58%|█████▊    | 581/1000 [4:59:41<3:34:20, 30.69s/it]                                                      {'loss': 0.0007, 'grad_norm': 0.004462218377739191, 'learning_rate': 9.553013306132158e-06, 'num_tokens': 93633102.0, 'completions/mean_length': 1671.140625, 'completions/min_length': 852.0, 'completions/max_length': 3338.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1671.140625, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3338.0, 'rewards/rollout_reward_func/mean': 12.095312118530273, 'rewards/rollout_reward_func/std': 5.126972675323486, 'reward': 12.095312118530273, 'reward_std': 4.845194339752197, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.028603898361325264, 'sampling/sampling_logp_difference/max': 1.450087070465088, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8456491231918335, 'sampling/importance_sampling_ratio/max': 1.7421066761016846, 'kl': 0.7585711721330881, 'entropy': 0.12143097585067153, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.302506883992464, 'epoch': 4.65}
+ 58%|█████▊    | 581/1000 [4:59:41<3:34:20, 30.69s/it] 58%|█████▊    | 582/1000 [5:00:15<3:39:30, 31.51s/it]                                                      {'loss': -0.0015, 'grad_norm': 0.004211280960589647, 'learning_rate': 9.514479773490388e-06, 'num_tokens': 93807914.0, 'completions/mean_length': 2176.0625, 'completions/min_length': 937.0, 'completions/max_length': 3755.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2176.0625, 'completions/min_terminated_length': 937.0, 'completions/max_terminated_length': 3755.0, 'rewards/rollout_reward_func/mean': 11.196874618530273, 'rewards/rollout_reward_func/std': 5.319505214691162, 'reward': 11.196874618530273, 'reward_std': 5.209991931915283, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.030909422785043716, 'sampling/sampling_logp_difference/max': 1.75315523147583, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9001510739326477, 'sampling/importance_sampling_ratio/max': 2.6709561347961426, 'kl': 0.977774154394865, 'entropy': 0.129940174985677, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.094540375022916, 'epoch': 4.66}
+ 58%|█████▊    | 582/1000 [5:00:15<3:39:30, 31.51s/it] 58%|█████▊    | 583/1000 [5:00:47<3:40:38, 31.75s/it]                                                      {'loss': 0.0005, 'grad_norm': 0.0036657676100730896, 'learning_rate': 9.475976305004155e-06, 'num_tokens': 94008938.0, 'completions/mean_length': 2574.0, 'completions/min_length': 1289.0, 'completions/max_length': 3606.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2574.0, 'completions/min_terminated_length': 1289.0, 'completions/max_terminated_length': 3606.0, 'rewards/rollout_reward_func/mean': 12.057812690734863, 'rewards/rollout_reward_func/std': 4.805677890777588, 'reward': 12.057812690734863, 'reward_std': 4.799498558044434, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03411862254142761, 'sampling/sampling_logp_difference/max': 2.187737226486206, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.707587480545044, 'sampling/importance_sampling_ratio/max': 1.8945074081420898, 'kl': 0.8585057929158211, 'entropy': 0.14693287201225758, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.98718870099401, 'epoch': 4.66}
+ 58%|█████▊    | 583/1000 [5:00:47<3:40:38, 31.75s/it] 58%|█████▊    | 584/1000 [5:01:11<3:23:33, 29.36s/it]                                                      {'loss': -0.0022, 'grad_norm': 0.005947433412075043, 'learning_rate': 9.437503288402957e-06, 'num_tokens': 94146658.0, 'completions/mean_length': 1612.125, 'completions/min_length': 854.0, 'completions/max_length': 2665.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1612.125, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 2665.0, 'rewards/rollout_reward_func/mean': 11.8828125, 'rewards/rollout_reward_func/std': 5.025824069976807, 'reward': 11.8828125, 'reward_std': 4.878497123718262, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.027827955782413483, 'sampling/sampling_logp_difference/max': 2.2242422103881836, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9067506790161133, 'sampling/importance_sampling_ratio/max': 2.6662075519561768, 'kl': 0.9169488232582808, 'entropy': 0.10809914069250226, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 22.769825227987894, 'epoch': 4.67}
+ 58%|█████▊    | 584/1000 [5:01:11<3:23:33, 29.36s/it] 58%|█████▊    | 585/1000 [5:01:43<3:29:24, 30.28s/it]                                                      {'loss': 0.0011, 'grad_norm': 0.005073494743555784, 'learning_rate': 9.399061111109645e-06, 'num_tokens': 94300398.0, 'completions/mean_length': 1856.8125, 'completions/min_length': 782.0, 'completions/max_length': 3651.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1856.8125, 'completions/min_terminated_length': 782.0, 'completions/max_terminated_length': 3651.0, 'rewards/rollout_reward_func/mean': 11.559375762939453, 'rewards/rollout_reward_func/std': 5.434975624084473, 'reward': 11.559375762939453, 'reward_std': 5.341474533081055, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03437710553407669, 'sampling/sampling_logp_difference/max': 2.172330379486084, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8833554983139038, 'sampling/importance_sampling_ratio/max': 2.0654492378234863, 'kl': 1.0311388745903969, 'entropy': 0.11912029795348644, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.21839196500514, 'epoch': 4.68}
+ 58%|█████▊    | 585/1000 [5:01:43<3:29:24, 30.28s/it] 59%|█████▊    | 586/1000 [5:02:25<3:52:49, 33.74s/it]                                                      {'loss': 0.0002, 'grad_norm': 0.007622597273439169, 'learning_rate': 9.36065016023651e-06, 'num_tokens': 94463968.0, 'completions/mean_length': 2006.03125, 'completions/min_length': 853.0, 'completions/max_length': 4545.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2006.03125, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 4545.0, 'rewards/rollout_reward_func/mean': 12.110937118530273, 'rewards/rollout_reward_func/std': 5.311835765838623, 'reward': 12.110937118530273, 'reward_std': 5.1625142097473145, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03218492865562439, 'sampling/sampling_logp_difference/max': 1.31304132938385, 'sampling/importance_sampling_ratio/min': 0.03345494717359543, 'sampling/importance_sampling_ratio/mean': 0.9291505217552185, 'sampling/importance_sampling_ratio/max': 2.870692014694214, 'kl': 0.8538641296327114, 'entropy': 0.13008949672803283, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 40.06456755998079, 'epoch': 4.69}
+ 59%|█████▊    | 586/1000 [5:02:25<3:52:49, 33.74s/it] 59%|█████▊    | 587/1000 [5:02:56<3:45:46, 32.80s/it]                                                      {'loss': -0.0014, 'grad_norm': 0.0050766346976161, 'learning_rate': 9.322270822581417e-06, 'num_tokens': 94628628.0, 'completions/mean_length': 2021.4375, 'completions/min_length': 783.0, 'completions/max_length': 3438.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2021.4375, 'completions/min_terminated_length': 783.0, 'completions/max_terminated_length': 3438.0, 'rewards/rollout_reward_func/mean': 13.4140625, 'rewards/rollout_reward_func/std': 5.310871601104736, 'reward': 13.4140625, 'reward_std': 4.122660160064697, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03253837302327156, 'sampling/sampling_logp_difference/max': 1.7576148509979248, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8739378452301025, 'sampling/importance_sampling_ratio/max': 2.7216384410858154, 'kl': 1.4146051220595837, 'entropy': 0.1271670488640666, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.46317351898324, 'epoch': 4.7}
+ 59%|█████▊    | 587/1000 [5:02:56<3:45:46, 32.80s/it] 59%|█████▉    | 588/1000 [5:03:24<3:35:29, 31.38s/it]                                                      {'loss': -0.0, 'grad_norm': 0.004376688506454229, 'learning_rate': 9.283923484623857e-06, 'num_tokens': 94783935.0, 'completions/mean_length': 1879.296875, 'completions/min_length': 853.0, 'completions/max_length': 3172.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1879.296875, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3172.0, 'rewards/rollout_reward_func/mean': 12.399999618530273, 'rewards/rollout_reward_func/std': 5.569674491882324, 'reward': 12.40000057220459, 'reward_std': 5.380146026611328, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.025935066863894463, 'sampling/sampling_logp_difference/max': 1.538308024406433, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8723769783973694, 'sampling/importance_sampling_ratio/max': 2.1264970302581787, 'kl': 0.9040827006101608, 'entropy': 0.11611808557063341, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 26.889820679003606, 'epoch': 4.7}
+ 59%|█████▉    | 588/1000 [5:03:24<3:35:29, 31.38s/it] 59%|█████▉    | 589/1000 [5:03:55<3:33:37, 31.19s/it]                                                      {'loss': 0.0, 'grad_norm': 0.004532831721007824, 'learning_rate': 9.2456085325211e-06, 'num_tokens': 94961322.0, 'completions/mean_length': 2214.671875, 'completions/min_length': 1232.0, 'completions/max_length': 3484.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2214.671875, 'completions/min_terminated_length': 1232.0, 'completions/max_terminated_length': 3484.0, 'rewards/rollout_reward_func/mean': 12.47187614440918, 'rewards/rollout_reward_func/std': 5.234576225280762, 'reward': 12.471874237060547, 'reward_std': 5.267788410186768, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.039469074457883835, 'sampling/sampling_logp_difference/max': 2.219095468521118, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7446602582931519, 'sampling/importance_sampling_ratio/max': 2.290093421936035, 'kl': 1.4844605438411236, 'entropy': 0.13533779187127948, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.44592195199948, 'epoch': 4.71}
+ 59%|█████▉    | 589/1000 [5:03:55<3:33:37, 31.19s/it] 59%|█████▉    | 590/1000 [5:04:28<3:38:16, 31.94s/it]                                                      {'loss': -0.0012, 'grad_norm': 0.004427293315529823, 'learning_rate': 9.207326352104292e-06, 'num_tokens': 95129654.0, 'completions/mean_length': 2078.0625, 'completions/min_length': 779.0, 'completions/max_length': 3723.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2078.0625, 'completions/min_terminated_length': 779.0, 'completions/max_terminated_length': 3723.0, 'rewards/rollout_reward_func/mean': 12.646875381469727, 'rewards/rollout_reward_func/std': 5.240349292755127, 'reward': 12.646875381469727, 'reward_std': 5.129344940185547, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03523608297109604, 'sampling/sampling_logp_difference/max': 1.927598237991333, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8322577476501465, 'sampling/importance_sampling_ratio/max': 2.5749094486236572, 'kl': 1.0416321195662022, 'entropy': 0.13101121969521046, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.33512605900614, 'epoch': 4.72}
+ 59%|█████▉    | 590/1000 [5:04:28<3:38:16, 31.94s/it] 59%|█████▉    | 591/1000 [5:05:03<3:42:30, 32.64s/it]                                                      {'loss': -0.0002, 'grad_norm': 0.005916389636695385, 'learning_rate': 9.169077328874564e-06, 'num_tokens': 95323589.0, 'completions/mean_length': 2466.859375, 'completions/min_length': 932.0, 'completions/max_length': 3722.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2466.859375, 'completions/min_terminated_length': 932.0, 'completions/max_terminated_length': 3722.0, 'rewards/rollout_reward_func/mean': 12.356250762939453, 'rewards/rollout_reward_func/std': 5.477077484130859, 'reward': 12.356250762939453, 'reward_std': 5.381228446960449, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.036572251468896866, 'sampling/sampling_logp_difference/max': 1.4061236381530762, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.80332350730896, 'sampling/importance_sampling_ratio/max': 2.8098156452178955, 'kl': 0.8404377810657024, 'entropy': 0.14739996334537864, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 33.04477206501906, 'epoch': 4.73}
+ 59%|█████▉    | 591/1000 [5:05:03<3:42:30, 32.64s/it] 59%|█████▉    | 592/1000 [5:05:39<3:48:51, 33.66s/it]                                                      {'loss': -0.0006, 'grad_norm': 0.006135617848485708, 'learning_rate': 9.130861847999154e-06, 'num_tokens': 95478347.0, 'completions/mean_length': 1871.96875, 'completions/min_length': 854.0, 'completions/max_length': 4118.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1871.96875, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 4118.0, 'rewards/rollout_reward_func/mean': 12.626562118530273, 'rewards/rollout_reward_func/std': 5.176541805267334, 'reward': 12.626562118530273, 'reward_std': 5.137678146362305, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.0323132760822773, 'sampling/sampling_logp_difference/max': 1.4696693420410156, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8587424755096436, 'sampling/importance_sampling_ratio/max': 2.943373680114746, 'kl': 0.8877804577350616, 'entropy': 0.12479436350986362, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 34.46000596498925, 'epoch': 4.74}
+ 59%|█████▉    | 592/1000 [5:05:39<3:48:51, 33.66s/it] 59%|█████▉    | 593/1000 [5:06:12<3:47:54, 33.60s/it]                                                      {'loss': 0.0011, 'grad_norm': 0.0040567005053162575, 'learning_rate': 9.092680294307529e-06, 'num_tokens': 95649210.0, 'completions/mean_length': 2116.359375, 'completions/min_length': 854.0, 'completions/max_length': 3666.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2116.359375, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 3666.0, 'rewards/rollout_reward_func/mean': 12.026562690734863, 'rewards/rollout_reward_func/std': 5.335453510284424, 'reward': 12.026561737060547, 'reward_std': 4.747476577758789, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03595781326293945, 'sampling/sampling_logp_difference/max': 1.1565178632736206, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9086580276489258, 'sampling/importance_sampling_ratio/max': 2.222673177719116, 'kl': 1.037984024733305, 'entropy': 0.13346837367862463, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.05163761298172, 'epoch': 4.74}
+ 59%|█████▉    | 593/1000 [5:06:12<3:47:54, 33.60s/it] 59%|█████▉    | 594/1000 [5:06:43<3:42:07, 32.83s/it]                                                      {'loss': -0.001, 'grad_norm': 0.005316668655723333, 'learning_rate': 9.054533052287511e-06, 'num_tokens': 95803773.0, 'completions/mean_length': 1868.921875, 'completions/min_length': 852.0, 'completions/max_length': 3421.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1868.921875, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3421.0, 'rewards/rollout_reward_func/mean': 10.412500381469727, 'rewards/rollout_reward_func/std': 5.59853982925415, 'reward': 10.412500381469727, 'reward_std': 5.253489017486572, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.033221546560525894, 'sampling/sampling_logp_difference/max': 1.4056888818740845, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8965476751327515, 'sampling/importance_sampling_ratio/max': 2.536639451980591, 'kl': 1.0153222978115082, 'entropy': 0.12627989705651999, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.96736302800855, 'epoch': 4.75}
+ 59%|█████▉    | 594/1000 [5:06:43<3:42:07, 32.83s/it] 60%|█████▉    | 595/1000 [5:07:09<3:26:56, 30.66s/it]                                                      {'loss': 0.0002, 'grad_norm': 0.004094589501619339, 'learning_rate': 9.016420506081405e-06, 'num_tokens': 95928072.0, 'completions/mean_length': 1408.046875, 'completions/min_length': 784.0, 'completions/max_length': 2908.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1408.046875, 'completions/min_terminated_length': 784.0, 'completions/max_terminated_length': 2908.0, 'rewards/rollout_reward_func/mean': 12.12187385559082, 'rewards/rollout_reward_func/std': 5.157779216766357, 'reward': 12.121874809265137, 'reward_std': 5.150856018066406, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.025888022035360336, 'sampling/sampling_logp_difference/max': 1.155555248260498, 'sampling/importance_sampling_ratio/min': 0.35335636138916016, 'sampling/importance_sampling_ratio/mean': 0.8497207760810852, 'sampling/importance_sampling_ratio/max': 1.602367877960205, 'kl': 0.7439082320779562, 'entropy': 0.09173822775483131, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 24.515733635002107, 'epoch': 4.76}
+ 60%|█████▉    | 595/1000 [5:07:09<3:26:56, 30.66s/it] 60%|█████▉    | 596/1000 [5:07:34<3:16:02, 29.11s/it]                                                      {'loss': 0.0004, 'grad_norm': 0.0065245251171290874, 'learning_rate': 8.97834303948213e-06, 'num_tokens': 96086961.0, 'completions/mean_length': 1933.265625, 'completions/min_length': 852.0, 'completions/max_length': 2769.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1933.265625, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 2769.0, 'rewards/rollout_reward_func/mean': 11.3515625, 'rewards/rollout_reward_func/std': 5.247644901275635, 'reward': 11.3515625, 'reward_std': 5.380781173706055, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.030375458300113678, 'sampling/sampling_logp_difference/max': 1.4879546165466309, 'sampling/importance_sampling_ratio/min': 0.04421815276145935, 'sampling/importance_sampling_ratio/mean': 0.8894014358520508, 'sampling/importance_sampling_ratio/max': 2.31691837310791, 'kl': 0.9111350234597921, 'entropy': 0.12234131572768092, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 24.46466235301341, 'epoch': 4.77}
+ 60%|█████▉    | 596/1000 [5:07:34<3:16:02, 29.11s/it] 60%|█████▉    | 597/1000 [5:07:55<2:58:17, 26.54s/it]                                                      {'loss': 0.0004, 'grad_norm': 0.005309356842190027, 'learning_rate': 8.940301035929346e-06, 'num_tokens': 96228188.0, 'completions/mean_length': 1665.296875, 'completions/min_length': 878.0, 'completions/max_length': 2245.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1665.296875, 'completions/min_terminated_length': 878.0, 'completions/max_terminated_length': 2245.0, 'rewards/rollout_reward_func/mean': 12.9296875, 'rewards/rollout_reward_func/std': 4.969228744506836, 'reward': 12.9296875, 'reward_std': 4.4165496826171875, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.027272939682006836, 'sampling/sampling_logp_difference/max': 2.1294102668762207, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 1.021207332611084, 'sampling/importance_sampling_ratio/max': 2.692431926727295, 'kl': 0.9367233626544476, 'entropy': 0.10082828486338258, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 19.669945490997634, 'epoch': 4.78}
+ 60%|█████▉    | 597/1000 [5:07:55<2:58:17, 26.54s/it] 60%|█████▉    | 598/1000 [5:08:18<2:52:19, 25.72s/it]                                                      {'loss': 0.0008, 'grad_norm': 0.0047003766521811485, 'learning_rate': 8.902294878505613e-06, 'num_tokens': 96369344.0, 'completions/mean_length': 1664.5625, 'completions/min_length': 1232.0, 'completions/max_length': 2739.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1664.5625, 'completions/min_terminated_length': 1232.0, 'completions/max_terminated_length': 2739.0, 'rewards/rollout_reward_func/mean': 11.270313262939453, 'rewards/rollout_reward_func/std': 5.147712707519531, 'reward': 11.270313262939453, 'reward_std': 4.938654899597168, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.02682293951511383, 'sampling/sampling_logp_difference/max': 2.3518521785736084, 'sampling/importance_sampling_ratio/min': 0.02709789387881756, 'sampling/importance_sampling_ratio/mean': 1.0266385078430176, 'sampling/importance_sampling_ratio/max': 2.6062679290771484, 'kl': 1.0147784054279327, 'entropy': 0.1041821832768619, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 22.82647995199659, 'epoch': 4.78}
+ 60%|█████▉    | 598/1000 [5:08:18<2:52:19, 25.72s/it] 60%|█████▉    | 599/1000 [5:08:48<3:00:17, 26.98s/it]                                                      {'loss': 0.004, 'grad_norm': 0.008240792900323868, 'learning_rate': 8.864324949932512e-06, 'num_tokens': 96520252.0, 'completions/mean_length': 1812.5625, 'completions/min_length': 852.0, 'completions/max_length': 3400.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1812.5625, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3400.0, 'rewards/rollout_reward_func/mean': 10.589061737060547, 'rewards/rollout_reward_func/std': 5.658568859100342, 'reward': 10.589061737060547, 'reward_std': 5.208897590637207, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03167250007390976, 'sampling/sampling_logp_difference/max': 2.479419231414795, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8983639478683472, 'sampling/importance_sampling_ratio/max': 2.6598122119903564, 'kl': 1.0458656586706638, 'entropy': 0.10695353941991925, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.619987999009027, 'epoch': 4.79}
+ 60%|█████▉    | 599/1000 [5:08:48<3:00:17, 26.98s/it] 60%|██████    | 600/1000 [5:09:13<2:55:08, 26.27s/it]                                                      {'loss': -0.0018, 'grad_norm': 0.006251050159335136, 'learning_rate': 8.826391632566803e-06, 'num_tokens': 96658171.0, 'completions/mean_length': 1615.234375, 'completions/min_length': 863.0, 'completions/max_length': 2770.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1615.234375, 'completions/min_terminated_length': 863.0, 'completions/max_terminated_length': 2770.0, 'rewards/rollout_reward_func/mean': 11.021875381469727, 'rewards/rollout_reward_func/std': 5.560588836669922, 'reward': 11.021875381469727, 'reward_std': 5.1699724197387695, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.028299398720264435, 'sampling/sampling_logp_difference/max': 2.1830642223358154, 'sampling/importance_sampling_ratio/min': 0.14788047969341278, 'sampling/importance_sampling_ratio/mean': 0.8446122407913208, 'sampling/importance_sampling_ratio/max': 2.381657361984253, 'kl': 3.2556998021900654, 'entropy': 0.10729183861985803, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 23.577941894000105, 'epoch': 4.8}
+ 60%|██████    | 600/1000 [5:09:13<2:55:08, 26.27s/it] 60%|██████    | 601/1000 [5:09:46<3:08:21, 28.32s/it]                                                      {'loss': 0.0006, 'grad_norm': 0.0070889717899262905, 'learning_rate': 8.788495308396568e-06, 'num_tokens': 96846146.0, 'completions/mean_length': 2376.109375, 'completions/min_length': 1278.0, 'completions/max_length': 3594.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2376.109375, 'completions/min_terminated_length': 1278.0, 'completions/max_terminated_length': 3594.0, 'rewards/rollout_reward_func/mean': 11.737500190734863, 'rewards/rollout_reward_func/std': 5.491797924041748, 'reward': 11.737500190734863, 'reward_std': 5.376395225524902, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03533700481057167, 'sampling/sampling_logp_difference/max': 1.3731052875518799, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8590083122253418, 'sampling/importance_sampling_ratio/max': 2.459263563156128, 'kl': 0.9626652076840401, 'entropy': 0.15547370677813888, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.81639831999928, 'epoch': 4.81}
+ 60%|██████    | 601/1000 [5:09:46<3:08:21, 28.32s/it] 60%|██████    | 602/1000 [5:10:16<3:10:41, 28.75s/it]                                                      {'loss': -0.0013, 'grad_norm': 0.008273308165371418, 'learning_rate': 8.750636359037369e-06, 'num_tokens': 97019700.0, 'completions/mean_length': 2156.40625, 'completions/min_length': 856.0, 'completions/max_length': 3351.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2156.40625, 'completions/min_terminated_length': 856.0, 'completions/max_terminated_length': 3351.0, 'rewards/rollout_reward_func/mean': 12.2578125, 'rewards/rollout_reward_func/std': 5.666801452636719, 'reward': 12.2578125, 'reward_std': 4.763096332550049, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03036315366625786, 'sampling/sampling_logp_difference/max': 1.2821741104125977, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8632936477661133, 'sampling/importance_sampling_ratio/max': 2.399470567703247, 'kl': 1.3550480492413044, 'entropy': 0.12005676189437509, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.495037716005754, 'epoch': 4.82}
+ 60%|██████    | 602/1000 [5:10:16<3:10:41, 28.75s/it] 60%|██████    | 603/1000 [5:10:44<3:08:22, 28.47s/it]                                                      {'loss': 0.0007, 'grad_norm': 0.005631976295262575, 'learning_rate': 8.71281516572841e-06, 'num_tokens': 97162892.0, 'completions/mean_length': 1695.25, 'completions/min_length': 782.0, 'completions/max_length': 3182.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1695.25, 'completions/min_terminated_length': 782.0, 'completions/max_terminated_length': 3182.0, 'rewards/rollout_reward_func/mean': 10.72031307220459, 'rewards/rollout_reward_func/std': 5.131205081939697, 'reward': 10.720312118530273, 'reward_std': 4.914218902587891, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03210823982954025, 'sampling/sampling_logp_difference/max': 1.3843097686767578, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8892749547958374, 'sampling/importance_sampling_ratio/max': 2.7946951389312744, 'kl': 0.8898764885962009, 'entropy': 0.11570829851552844, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 26.71801944800245, 'epoch': 4.82}
+ 60%|██████    | 603/1000 [5:10:44<3:08:22, 28.47s/it] 60%|██████    | 604/1000 [5:11:09<3:01:06, 27.44s/it]                                                      {'loss': 0.0007, 'grad_norm': 0.0063061583787202835, 'learning_rate': 8.67503210932869e-06, 'num_tokens': 97298229.0, 'completions/mean_length': 1577.265625, 'completions/min_length': 933.0, 'completions/max_length': 2912.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1577.265625, 'completions/min_terminated_length': 933.0, 'completions/max_terminated_length': 2912.0, 'rewards/rollout_reward_func/mean': 10.501562118530273, 'rewards/rollout_reward_func/std': 5.05470085144043, 'reward': 10.501562118530273, 'reward_std': 5.287324905395508, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.026940489187836647, 'sampling/sampling_logp_difference/max': 2.485708713531494, 'sampling/importance_sampling_ratio/min': 0.09122876077890396, 'sampling/importance_sampling_ratio/mean': 1.0567655563354492, 'sampling/importance_sampling_ratio/max': 2.4246268272399902, 'kl': 0.9403234831988811, 'entropy': 0.10286054015159607, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 24.084666944014316, 'epoch': 4.83}
+ 60%|██████    | 604/1000 [5:11:09<3:01:06, 27.44s/it] 60%|██████    | 605/1000 [5:11:39<3:05:30, 28.18s/it]                                                      {'loss': 0.0007, 'grad_norm': 0.007024785969406366, 'learning_rate': 8.637287570313159e-06, 'num_tokens': 97444701.0, 'completions/mean_length': 1745.25, 'completions/min_length': 853.0, 'completions/max_length': 3451.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1745.25, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3451.0, 'rewards/rollout_reward_func/mean': 11.645312309265137, 'rewards/rollout_reward_func/std': 5.068731784820557, 'reward': 11.645312309265137, 'reward_std': 4.881831169128418, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.032923825085163116, 'sampling/sampling_logp_difference/max': 2.1752748489379883, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 1.0784649848937988, 'sampling/importance_sampling_ratio/max': 2.965951919555664, 'kl': 1.0859825909137726, 'entropy': 0.11061924416571856, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.605342175011174, 'epoch': 4.84}
+ 60%|██████    | 605/1000 [5:11:39<3:05:30, 28.18s/it] 61%|██████    | 606/1000 [5:12:14<3:18:29, 30.23s/it]                                                      {'loss': -0.0002, 'grad_norm': 0.005987327545881271, 'learning_rate': 8.599581928768912e-06, 'num_tokens': 97627578.0, 'completions/mean_length': 2298.453125, 'completions/min_length': 1283.0, 'completions/max_length': 3864.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2298.453125, 'completions/min_terminated_length': 1283.0, 'completions/max_terminated_length': 3864.0, 'rewards/rollout_reward_func/mean': 12.0234375, 'rewards/rollout_reward_func/std': 5.153508186340332, 'reward': 12.0234375, 'reward_std': 5.134636878967285, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03684384003281593, 'sampling/sampling_logp_difference/max': 2.404266595840454, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8133774995803833, 'sampling/importance_sampling_ratio/max': 2.4461100101470947, 'kl': 1.0974642969667912, 'entropy': 0.13546973187476397, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 33.53808255899639, 'epoch': 4.85}
+ 61%|██████    | 606/1000 [5:12:14<3:18:29, 30.23s/it] 61%|██████    | 607/1000 [5:12:45<3:19:17, 30.43s/it]                                                      {'loss': -0.0012, 'grad_norm': 0.004235970322042704, 'learning_rate': 8.561915564391342e-06, 'num_tokens': 97775673.0, 'completions/mean_length': 1769.859375, 'completions/min_length': 850.0, 'completions/max_length': 3559.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1769.859375, 'completions/min_terminated_length': 850.0, 'completions/max_terminated_length': 3559.0, 'rewards/rollout_reward_func/mean': 11.865625381469727, 'rewards/rollout_reward_func/std': 5.355259418487549, 'reward': 11.865625381469727, 'reward_std': 5.231719493865967, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.029887665063142776, 'sampling/sampling_logp_difference/max': 1.5661342144012451, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8341553211212158, 'sampling/importance_sampling_ratio/max': 2.571474313735962, 'kl': 0.8229129463434219, 'entropy': 0.11102890409529209, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.5610670319802, 'epoch': 4.86}
+ 61%|██████    | 607/1000 [5:12:45<3:19:17, 30.43s/it] 61%|██████    | 608/1000 [5:13:15<3:19:36, 30.55s/it]                                                      {'loss': -0.0008, 'grad_norm': 0.005438363179564476, 'learning_rate': 8.524288856480314e-06, 'num_tokens': 97952336.0, 'completions/mean_length': 2204.984375, 'completions/min_length': 851.0, 'completions/max_length': 3429.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2204.984375, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 3429.0, 'rewards/rollout_reward_func/mean': 11.5078125, 'rewards/rollout_reward_func/std': 5.051145076751709, 'reward': 11.5078125, 'reward_std': 5.205029010772705, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.028076864778995514, 'sampling/sampling_logp_difference/max': 1.407447338104248, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9116544127464294, 'sampling/importance_sampling_ratio/max': 2.784302234649658, 'kl': 0.9159850627183914, 'entropy': 0.12601831555366516, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.5527841330113, 'epoch': 4.86}
+ 61%|██████    | 608/1000 [5:13:15<3:19:36, 30.55s/it] 61%|██████    | 609/1000 [5:13:49<3:25:34, 31.55s/it]                                                      {'loss': -0.0011, 'grad_norm': 0.0058139534667134285, 'learning_rate': 8.486702183936366e-06, 'num_tokens': 98135427.0, 'completions/mean_length': 2303.421875, 'completions/min_length': 855.0, 'completions/max_length': 3717.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2303.421875, 'completions/min_terminated_length': 855.0, 'completions/max_terminated_length': 3717.0, 'rewards/rollout_reward_func/mean': 12.1640625, 'rewards/rollout_reward_func/std': 5.671241283416748, 'reward': 12.1640625, 'reward_std': 5.352840423583984, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04006899148225784, 'sampling/sampling_logp_difference/max': 2.2989020347595215, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8913111686706543, 'sampling/importance_sampling_ratio/max': 2.5646896362304688, 'kl': 0.9972047880291939, 'entropy': 0.14158985065296292, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.45815031798702, 'epoch': 4.87}
+ 61%|██████    | 609/1000 [5:13:49<3:25:34, 31.55s/it] 61%|██████    | 610/1000 [5:14:19<3:22:03, 31.09s/it]                                                      {'loss': -0.0011, 'grad_norm': 0.004730486776679754, 'learning_rate': 8.449155925256869e-06, 'num_tokens': 98301103.0, 'completions/mean_length': 2037.6875, 'completions/min_length': 1199.0, 'completions/max_length': 3343.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2037.6875, 'completions/min_terminated_length': 1199.0, 'completions/max_terminated_length': 3343.0, 'rewards/rollout_reward_func/mean': 11.870311737060547, 'rewards/rollout_reward_func/std': 5.3756561279296875, 'reward': 11.870311737060547, 'reward_std': 5.593714714050293, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.033017419278621674, 'sampling/sampling_logp_difference/max': 2.118150234222412, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.846776008605957, 'sampling/importance_sampling_ratio/max': 2.3554341793060303, 'kl': 1.104964006692171, 'entropy': 0.12330738082528114, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.753531370006385, 'epoch': 4.88}
+ 61%|██████    | 610/1000 [5:14:19<3:22:03, 31.09s/it] 61%|██████    | 611/1000 [5:14:49<3:19:07, 30.71s/it]                                                      {'loss': -0.0014, 'grad_norm': 0.005257707554847002, 'learning_rate': 8.41165045853223e-06, 'num_tokens': 98470821.0, 'completions/mean_length': 2098.46875, 'completions/min_length': 867.0, 'completions/max_length': 3350.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2098.46875, 'completions/min_terminated_length': 867.0, 'completions/max_terminated_length': 3350.0, 'rewards/rollout_reward_func/mean': 12.751562118530273, 'rewards/rollout_reward_func/std': 5.436793804168701, 'reward': 12.751562118530273, 'reward_std': 5.237297534942627, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03337951749563217, 'sampling/sampling_logp_difference/max': 2.354177951812744, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8466428518295288, 'sampling/importance_sampling_ratio/max': 2.6594157218933105, 'kl': 0.8835160490125418, 'entropy': 0.11972009344026446, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.712645047999104, 'epoch': 4.89}
+ 61%|██████    | 611/1000 [5:14:49<3:19:07, 30.71s/it] 61%|██████    | 612/1000 [5:15:25<3:29:27, 32.39s/it]                                                      {'loss': 0.001, 'grad_norm': 0.004049777518957853, 'learning_rate': 8.374186161442085e-06, 'num_tokens': 98654605.0, 'completions/mean_length': 2312.625, 'completions/min_length': 1303.0, 'completions/max_length': 4095.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2312.625, 'completions/min_terminated_length': 1303.0, 'completions/max_terminated_length': 4095.0, 'rewards/rollout_reward_func/mean': 10.792187690734863, 'rewards/rollout_reward_func/std': 5.281032562255859, 'reward': 10.792186737060547, 'reward_std': 4.650495529174805, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.039969515055418015, 'sampling/sampling_logp_difference/max': 2.225752592086792, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7393019795417786, 'sampling/importance_sampling_ratio/max': 2.50785756111145, 'kl': 1.5640963055193424, 'entropy': 0.13405083678662777, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 34.90715372499835, 'epoch': 4.9}
+ 61%|██████    | 612/1000 [5:15:25<3:29:27, 32.39s/it] 61%|██████▏   | 613/1000 [5:15:51<3:15:17, 30.28s/it]                                                      {'loss': -0.0001, 'grad_norm': 0.004407817963510752, 'learning_rate': 8.33676341125149e-06, 'num_tokens': 98808598.0, 'completions/mean_length': 1860.390625, 'completions/min_length': 785.0, 'completions/max_length': 2792.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1860.390625, 'completions/min_terminated_length': 785.0, 'completions/max_terminated_length': 2792.0, 'rewards/rollout_reward_func/mean': 12.464062690734863, 'rewards/rollout_reward_func/std': 5.214216709136963, 'reward': 12.464061737060547, 'reward_std': 5.15985631942749, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.029919039458036423, 'sampling/sampling_logp_difference/max': 2.091050624847412, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8520506620407104, 'sampling/importance_sampling_ratio/max': 2.458667039871216, 'kl': 1.3704965561628342, 'entropy': 0.10907151130959392, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 24.294525301993417, 'epoch': 4.9}
+ 61%|██████▏   | 613/1000 [5:15:51<3:15:17, 30.28s/it] 61%|██████▏   | 614/1000 [5:16:16<3:06:00, 28.91s/it]                                                      {'loss': 0.0001, 'grad_norm': 0.005207376554608345, 'learning_rate': 8.299382584807122e-06, 'num_tokens': 98978630.0, 'completions/mean_length': 2103.375, 'completions/min_length': 850.0, 'completions/max_length': 2835.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2103.375, 'completions/min_terminated_length': 850.0, 'completions/max_terminated_length': 2835.0, 'rewards/rollout_reward_func/mean': 12.234375, 'rewards/rollout_reward_func/std': 5.56745719909668, 'reward': 12.234375, 'reward_std': 5.458410739898682, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03524898737668991, 'sampling/sampling_logp_difference/max': 1.2114307880401611, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8891770839691162, 'sampling/importance_sampling_ratio/max': 2.9947774410247803, 'kl': 1.3264630734920502, 'entropy': 0.1211390970274806, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 24.66982052700041, 'epoch': 4.91}
+ 61%|██████▏   | 614/1000 [5:16:16<3:06:00, 28.91s/it] 62%|██████▏   | 615/1000 [5:16:45<3:04:52, 28.81s/it]                                                      {'loss': 0.0015, 'grad_norm': 0.003814925206825137, 'learning_rate': 8.262044058533492e-06, 'num_tokens': 99113950.0, 'completions/mean_length': 1576.25, 'completions/min_length': 784.0, 'completions/max_length': 3240.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1576.25, 'completions/min_terminated_length': 784.0, 'completions/max_terminated_length': 3240.0, 'rewards/rollout_reward_func/mean': 10.342187881469727, 'rewards/rollout_reward_func/std': 5.263525485992432, 'reward': 10.342187881469727, 'reward_std': 4.960031986236572, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.02402704581618309, 'sampling/sampling_logp_difference/max': 1.4898194074630737, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9052532911300659, 'sampling/importance_sampling_ratio/max': 2.840571880340576, 'kl': 0.9892070591449738, 'entropy': 0.0922541287727654, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 27.54555019098916, 'epoch': 4.92}
+ 62%|██████▏   | 615/1000 [5:16:45<3:04:52, 28.81s/it] 62%|██████▏   | 616/1000 [5:17:18<3:13:10, 30.18s/it]                                                      {'loss': -0.0007, 'grad_norm': 0.005945315584540367, 'learning_rate': 8.224748208429142e-06, 'num_tokens': 99273390.0, 'completions/mean_length': 1943.5, 'completions/min_length': 856.0, 'completions/max_length': 3768.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1943.5, 'completions/min_terminated_length': 856.0, 'completions/max_terminated_length': 3768.0, 'rewards/rollout_reward_func/mean': 11.118749618530273, 'rewards/rollout_reward_func/std': 5.235497951507568, 'reward': 11.118749618530273, 'reward_std': 5.19248104095459, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03549228236079216, 'sampling/sampling_logp_difference/max': 2.688211441040039, 'sampling/importance_sampling_ratio/min': 0.0326775424182415, 'sampling/importance_sampling_ratio/mean': 0.8558346033096313, 'sampling/importance_sampling_ratio/max': 2.077810764312744, 'kl': 0.8545068893581629, 'entropy': 0.1277659614570439, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.948827331005305, 'epoch': 4.93}
+ 62%|██████▏   | 616/1000 [5:17:18<3:13:10, 30.18s/it] 62%|██████▏   | 617/1000 [5:17:55<3:25:08, 32.14s/it]                                                      {'loss': 0.0008, 'grad_norm': 0.005283953621983528, 'learning_rate': 8.18749541006287e-06, 'num_tokens': 99454625.0, 'completions/mean_length': 2274.421875, 'completions/min_length': 784.0, 'completions/max_length': 4060.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2274.421875, 'completions/min_terminated_length': 784.0, 'completions/max_terminated_length': 4060.0, 'rewards/rollout_reward_func/mean': 11.831250190734863, 'rewards/rollout_reward_func/std': 5.472757339477539, 'reward': 11.831249237060547, 'reward_std': 5.093365669250488, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03240731358528137, 'sampling/sampling_logp_difference/max': 1.7514690160751343, 'sampling/importance_sampling_ratio/min': 0.05230403691530228, 'sampling/importance_sampling_ratio/mean': 0.8787299990653992, 'sampling/importance_sampling_ratio/max': 2.3326611518859863, 'kl': 0.8486013598740101, 'entropy': 0.12960911425761878, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 35.1427780720187, 'epoch': 4.94}
+ 62%|██████▏   | 617/1000 [5:17:55<3:25:08, 32.14s/it] 62%|██████▏   | 618/1000 [5:18:19<3:08:49, 29.66s/it]                                                      {'loss': 0.001, 'grad_norm': 0.005452284589409828, 'learning_rate': 8.150286038569937e-06, 'num_tokens': 99588706.0, 'completions/mean_length': 1556.890625, 'completions/min_length': 853.0, 'completions/max_length': 2739.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1556.890625, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 2739.0, 'rewards/rollout_reward_func/mean': 11.053125381469727, 'rewards/rollout_reward_func/std': 5.112480163574219, 'reward': 11.05312442779541, 'reward_std': 5.232799530029297, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.026807064190506935, 'sampling/sampling_logp_difference/max': 2.3152246475219727, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9975587129592896, 'sampling/importance_sampling_ratio/max': 2.8704419136047363, 'kl': 1.1302332356572151, 'entropy': 0.09676077030599117, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 22.84488980301103, 'epoch': 4.94}
+ 62%|██████▏   | 618/1000 [5:18:19<3:08:49, 29.66s/it] 62%|██████▏   | 619/1000 [5:18:55<3:21:16, 31.70s/it]                                                      {'loss': 0.0019, 'grad_norm': 0.005125498864799738, 'learning_rate': 8.113120468648308e-06, 'num_tokens': 99773888.0, 'completions/mean_length': 2334.09375, 'completions/min_length': 862.0, 'completions/max_length': 4018.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2334.09375, 'completions/min_terminated_length': 862.0, 'completions/max_terminated_length': 4018.0, 'rewards/rollout_reward_func/mean': 11.140625, 'rewards/rollout_reward_func/std': 5.155386447906494, 'reward': 11.140625, 'reward_std': 5.029857635498047, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03691737353801727, 'sampling/sampling_logp_difference/max': 1.8151254653930664, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.832395076751709, 'sampling/importance_sampling_ratio/max': 2.3063950538635254, 'kl': 1.172799315303564, 'entropy': 0.1384673174470663, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 35.065627301009954, 'epoch': 4.95}
+ 62%|██████▏   | 619/1000 [5:18:55<3:21:16, 31.70s/it] 62%|██████▏   | 620/1000 [5:19:24<3:15:30, 30.87s/it]                                                      {'loss': 0.0003, 'grad_norm': 0.0066625820472836494, 'learning_rate': 8.075999074554855e-06, 'num_tokens': 99916462.0, 'completions/mean_length': 1686.34375, 'completions/min_length': 851.0, 'completions/max_length': 3323.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1686.34375, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 3323.0, 'rewards/rollout_reward_func/mean': 11.57187557220459, 'rewards/rollout_reward_func/std': 5.322890758514404, 'reward': 11.57187557220459, 'reward_std': 5.204949855804443, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03314921632409096, 'sampling/sampling_logp_difference/max': 1.8320860862731934, 'sampling/importance_sampling_ratio/min': 0.09147325903177261, 'sampling/importance_sampling_ratio/mean': 0.9956838488578796, 'sampling/importance_sampling_ratio/max': 2.4176509380340576, 'kl': 1.3194195553660393, 'entropy': 0.10992671642452478, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 27.67526182000438, 'epoch': 4.96}
+ 62%|██████▏   | 620/1000 [5:19:24<3:15:30, 30.87s/it] 62%|██████▏   | 621/1000 [5:20:01<3:26:25, 32.68s/it]                                                      {'loss': 0.0008, 'grad_norm': 0.006428064778447151, 'learning_rate': 8.038922230101603e-06, 'num_tokens': 100090922.0, 'completions/mean_length': 2172.1875, 'completions/min_length': 851.0, 'completions/max_length': 4133.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2172.1875, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 4133.0, 'rewards/rollout_reward_func/mean': 11.920312881469727, 'rewards/rollout_reward_func/std': 5.731261730194092, 'reward': 11.920312881469727, 'reward_std': 5.503973007202148, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.030916552990674973, 'sampling/sampling_logp_difference/max': 2.0270633697509766, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.952847957611084, 'sampling/importance_sampling_ratio/max': 2.958571672439575, 'kl': 1.3023202121257782, 'entropy': 0.12975472072139382, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 34.37978061000467, 'epoch': 4.97}
+ 62%|██████▏   | 621/1000 [5:20:01<3:26:25, 32.68s/it] 62%|██████▏   | 622/1000 [5:20:26<3:10:35, 30.25s/it]                                                      {'loss': -0.0, 'grad_norm': 0.004412231035530567, 'learning_rate': 8.00189030865197e-06, 'num_tokens': 100246420.0, 'completions/mean_length': 1881.90625, 'completions/min_length': 780.0, 'completions/max_length': 2733.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1881.90625, 'completions/min_terminated_length': 780.0, 'completions/max_terminated_length': 2733.0, 'rewards/rollout_reward_func/mean': 12.0703125, 'rewards/rollout_reward_func/std': 5.430387496948242, 'reward': 12.0703125, 'reward_std': 5.336793899536133, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03383871167898178, 'sampling/sampling_logp_difference/max': 2.008007526397705, 'sampling/importance_sampling_ratio/min': 0.054445043206214905, 'sampling/importance_sampling_ratio/mean': 0.9477267265319824, 'sampling/importance_sampling_ratio/max': 2.9835572242736816, 'kl': 1.1582900807261467, 'entropy': 0.11652300367131829, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 23.547604081024474, 'epoch': 4.98}
+ 62%|██████▏   | 622/1000 [5:20:26<3:10:35, 30.25s/it] 62%|██████▏   | 623/1000 [5:20:59<3:15:19, 31.09s/it]                                                      {'loss': 0.0005, 'grad_norm': 0.006819064728915691, 'learning_rate': 7.964903683116988e-06, 'num_tokens': 100377353.0, 'completions/mean_length': 1509.703125, 'completions/min_length': 782.0, 'completions/max_length': 3714.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1509.703125, 'completions/min_terminated_length': 782.0, 'completions/max_terminated_length': 3714.0, 'rewards/rollout_reward_func/mean': 12.220312118530273, 'rewards/rollout_reward_func/std': 4.906238079071045, 'reward': 12.220312118530273, 'reward_std': 4.8669328689575195, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.029388289898633957, 'sampling/sampling_logp_difference/max': 1.4650192260742188, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9611059427261353, 'sampling/importance_sampling_ratio/max': 2.873229742050171, 'kl': 0.8844387754797935, 'entropy': 0.09767335769720376, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.604156372988655, 'epoch': 4.98}
+ 62%|██████▏   | 623/1000 [5:20:59<3:15:19, 31.09s/it] 62%|██████▏   | 624/1000 [5:21:30<3:14:33, 31.05s/it]                                                      {'loss': 0.0008, 'grad_norm': 0.005132967606186867, 'learning_rate': 7.92796272595157e-06, 'num_tokens': 100532488.0, 'completions/mean_length': 1878.234375, 'completions/min_length': 786.0, 'completions/max_length': 3546.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1878.234375, 'completions/min_terminated_length': 786.0, 'completions/max_terminated_length': 3546.0, 'rewards/rollout_reward_func/mean': 11.692188262939453, 'rewards/rollout_reward_func/std': 5.116214752197266, 'reward': 11.692187309265137, 'reward_std': 5.142563819885254, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.029911698773503304, 'sampling/sampling_logp_difference/max': 1.5657916069030762, 'sampling/importance_sampling_ratio/min': 0.1805296391248703, 'sampling/importance_sampling_ratio/mean': 0.9594385623931885, 'sampling/importance_sampling_ratio/max': 2.4921722412109375, 'kl': 0.9877139590680599, 'entropy': 0.11438068561255932, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.65510433800955, 'epoch': 4.99}
+ 62%|██████▏   | 624/1000 [5:21:30<3:14:33, 31.05s/it] 62%|██████▎   | 625/1000 [5:22:01<3:14:13, 31.08s/it]                                                      {'loss': 0.0006, 'grad_norm': 0.004165802150964737, 'learning_rate': 7.891067809150743e-06, 'num_tokens': 100698620.0, 'completions/mean_length': 2044.4375, 'completions/min_length': 850.0, 'completions/max_length': 3559.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2044.4375, 'completions/min_terminated_length': 850.0, 'completions/max_terminated_length': 3559.0, 'rewards/rollout_reward_func/mean': 11.2578125, 'rewards/rollout_reward_func/std': 5.458350658416748, 'reward': 11.2578125, 'reward_std': 5.286588668823242, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.028806762769818306, 'sampling/sampling_logp_difference/max': 2.007138729095459, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.862729549407959, 'sampling/importance_sampling_ratio/max': 2.5796194076538086, 'kl': 1.0121014714241028, 'entropy': 0.12288414593786001, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.818104950994893, 'epoch': 5.0}
+ 62%|██████▎   | 625/1000 [5:22:01<3:14:13, 31.08s/it] 63%|██████▎   | 626/1000 [5:22:42<3:32:11, 34.04s/it]                                                      {'loss': 0.0004, 'grad_norm': 0.0067906454205513, 'learning_rate': 7.854219304245907e-06, 'num_tokens': 100881449.0, 'completions/mean_length': 2299.328125, 'completions/min_length': 850.0, 'completions/max_length': 4559.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2299.328125, 'completions/min_terminated_length': 850.0, 'completions/max_terminated_length': 4559.0, 'rewards/rollout_reward_func/mean': 11.581249237060547, 'rewards/rollout_reward_func/std': 5.718776702880859, 'reward': 11.58125114440918, 'reward_std': 5.6838884353637695, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03784393519163132, 'sampling/sampling_logp_difference/max': 1.4870600700378418, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9532284736633301, 'sampling/importance_sampling_ratio/max': 2.7963955402374268, 'kl': 0.9998474344611168, 'entropy': 0.13469397835433483, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 39.35722997300036, 'epoch': 5.01}
+ 63%|██████▎   | 626/1000 [5:22:42<3:32:11, 34.04s/it] 63%|██████▎   | 627/1000 [5:23:16<3:31:17, 33.99s/it]                                                      {'loss': -0.0002, 'grad_norm': 0.005198987666517496, 'learning_rate': 7.8174175823011e-06, 'num_tokens': 101018336.0, 'completions/mean_length': 1600.734375, 'completions/min_length': 849.0, 'completions/max_length': 3871.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1600.734375, 'completions/min_terminated_length': 849.0, 'completions/max_terminated_length': 3871.0, 'rewards/rollout_reward_func/mean': 10.668749809265137, 'rewards/rollout_reward_func/std': 5.24739933013916, 'reward': 10.668749809265137, 'reward_std': 4.935174942016602, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.028429284691810608, 'sampling/sampling_logp_difference/max': 1.8909876346588135, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8970562815666199, 'sampling/importance_sampling_ratio/max': 2.803093433380127, 'kl': 1.1393413543701172, 'entropy': 0.10229879221878946, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.66864738300501, 'epoch': 5.02}
+ 63%|██████▎   | 627/1000 [5:23:16<3:31:17, 33.99s/it] 63%|██████▎   | 628/1000 [5:23:49<3:29:02, 33.72s/it]                                                      {'loss': 0.0002, 'grad_norm': 0.004985153675079346, 'learning_rate': 7.780663013909254e-06, 'num_tokens': 101170002.0, 'completions/mean_length': 1824.40625, 'completions/min_length': 782.0, 'completions/max_length': 3693.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1824.40625, 'completions/min_terminated_length': 782.0, 'completions/max_terminated_length': 3693.0, 'rewards/rollout_reward_func/mean': 10.532812118530273, 'rewards/rollout_reward_func/std': 4.973199844360352, 'reward': 10.53281307220459, 'reward_std': 4.681809425354004, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.031732168048620224, 'sampling/sampling_logp_difference/max': 1.4083943367004395, 'sampling/importance_sampling_ratio/min': 0.04857392609119415, 'sampling/importance_sampling_ratio/mean': 0.9717812538146973, 'sampling/importance_sampling_ratio/max': 2.5428431034088135, 'kl': 1.3045768812298775, 'entropy': 0.10686287493444979, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.665417418982543, 'epoch': 5.02}
+ 63%|██████▎   | 628/1000 [5:23:49<3:29:02, 33.72s/it] 63%|██████▎   | 629/1000 [5:24:24<3:30:55, 34.11s/it]                                                      {'loss': 0.0003, 'grad_norm': 0.005369389895349741, 'learning_rate': 7.743955969188462e-06, 'num_tokens': 101342783.0, 'completions/mean_length': 2146.328125, 'completions/min_length': 854.0, 'completions/max_length': 3790.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2146.328125, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 3790.0, 'rewards/rollout_reward_func/mean': 11.926563262939453, 'rewards/rollout_reward_func/std': 5.21010160446167, 'reward': 11.926563262939453, 'reward_std': 5.116554260253906, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03405481576919556, 'sampling/sampling_logp_difference/max': 1.8416850566864014, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8279688954353333, 'sampling/importance_sampling_ratio/max': 2.4505515098571777, 'kl': 1.2668984085321426, 'entropy': 0.1339693390764296, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 33.84124039699236, 'epoch': 5.03}
+ 63%|██████▎   | 629/1000 [5:24:24<3:30:55, 34.11s/it] 63%|██████▎   | 630/1000 [5:25:04<3:41:42, 35.95s/it]                                                      {'loss': 0.0017, 'grad_norm': 0.005133014637976885, 'learning_rate': 7.70729681777826e-06, 'num_tokens': 101520787.0, 'completions/mean_length': 2225.9375, 'completions/min_length': 888.0, 'completions/max_length': 4412.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2225.9375, 'completions/min_terminated_length': 888.0, 'completions/max_terminated_length': 4412.0, 'rewards/rollout_reward_func/mean': 12.456249237060547, 'rewards/rollout_reward_func/std': 5.328893184661865, 'reward': 12.456249237060547, 'reward_std': 5.328373908996582, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03800203278660774, 'sampling/sampling_logp_difference/max': 2.4419126510620117, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8503651022911072, 'sampling/importance_sampling_ratio/max': 2.339278221130371, 'kl': 1.0909607261419296, 'entropy': 0.13389918254688382, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 38.53548482699989, 'epoch': 5.04}
+ 63%|██████▎   | 630/1000 [5:25:04<3:41:42, 35.95s/it] 63%|██████▎   | 631/1000 [5:25:29<3:21:11, 32.71s/it]                                                      {'loss': 0.0013, 'grad_norm': 0.004864229820668697, 'learning_rate': 7.670685928835891e-06, 'num_tokens': 101659751.0, 'completions/mean_length': 1631.9375, 'completions/min_length': 852.0, 'completions/max_length': 2886.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1631.9375, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 2886.0, 'rewards/rollout_reward_func/mean': 11.234375, 'rewards/rollout_reward_func/std': 5.072841644287109, 'reward': 11.234375, 'reward_std': 5.216676712036133, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.035100989043712616, 'sampling/sampling_logp_difference/max': 1.5166516304016113, 'sampling/importance_sampling_ratio/min': 0.0419122613966465, 'sampling/importance_sampling_ratio/mean': 0.8381640911102295, 'sampling/importance_sampling_ratio/max': 2.0842080116271973, 'kl': 1.5945935100317001, 'entropy': 0.10776344873011112, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 24.092994145001285, 'epoch': 5.05}
+ 63%|██████▎   | 631/1000 [5:25:29<3:21:11, 32.71s/it] 63%|██████▎   | 632/1000 [5:26:12<3:39:28, 35.78s/it]                                                      {'loss': 0.0021, 'grad_norm': 0.005606202408671379, 'learning_rate': 7.634123671032608e-06, 'num_tokens': 101809730.0, 'completions/mean_length': 1799.671875, 'completions/min_length': 849.0, 'completions/max_length': 4760.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1799.671875, 'completions/min_terminated_length': 849.0, 'completions/max_terminated_length': 4760.0, 'rewards/rollout_reward_func/mean': 11.1328125, 'rewards/rollout_reward_func/std': 5.463851451873779, 'reward': 11.132813453674316, 'reward_std': 5.4860076904296875, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.031388238072395325, 'sampling/sampling_logp_difference/max': 1.8554387092590332, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8585624694824219, 'sampling/importance_sampling_ratio/max': 2.3919498920440674, 'kl': 0.9677172154188156, 'entropy': 0.11270276689901948, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 41.06663206400117, 'epoch': 5.06}
+ 63%|██████▎   | 632/1000 [5:26:12<3:39:28, 35.78s/it] 63%|██████▎   | 633/1000 [5:26:44<3:31:50, 34.63s/it]                                                      {'loss': 0.0002, 'grad_norm': 0.004352097865194082, 'learning_rate': 7.597610412549931e-06, 'num_tokens': 101974337.0, 'completions/mean_length': 2020.984375, 'completions/min_length': 1225.0, 'completions/max_length': 3606.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2020.984375, 'completions/min_terminated_length': 1225.0, 'completions/max_terminated_length': 3606.0, 'rewards/rollout_reward_func/mean': 11.9765625, 'rewards/rollout_reward_func/std': 4.878353595733643, 'reward': 11.9765625, 'reward_std': 4.865346908569336, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03279305249452591, 'sampling/sampling_logp_difference/max': 2.006734848022461, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8518570065498352, 'sampling/importance_sampling_ratio/max': 2.2615795135498047, 'kl': 0.9202739261090755, 'entropy': 0.12170786177739501, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.61207748400193, 'epoch': 5.06}
+ 63%|██████▎   | 633/1000 [5:26:44<3:31:50, 34.63s/it] 63%|██████▎   | 634/1000 [5:27:09<3:12:29, 31.56s/it]                                                      {'loss': -0.0006, 'grad_norm': 0.005740774795413017, 'learning_rate': 7.561146521075976e-06, 'num_tokens': 102101204.0, 'completions/mean_length': 1447.796875, 'completions/min_length': 783.0, 'completions/max_length': 2801.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1447.796875, 'completions/min_terminated_length': 783.0, 'completions/max_terminated_length': 2801.0, 'rewards/rollout_reward_func/mean': 10.1484375, 'rewards/rollout_reward_func/std': 4.9987616539001465, 'reward': 10.1484375, 'reward_std': 4.824036598205566, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.028722573071718216, 'sampling/sampling_logp_difference/max': 1.9233206510543823, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9785182476043701, 'sampling/importance_sampling_ratio/max': 2.030421495437622, 'kl': 0.9461477436125278, 'entropy': 0.09816176863387227, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 23.431523589999415, 'epoch': 5.07}
+ 63%|██████▎   | 634/1000 [5:27:09<3:12:29, 31.56s/it] 64%|██████▎   | 635/1000 [5:27:39<3:10:03, 31.24s/it]                                                      {'loss': -0.0, 'grad_norm': 0.005236912053078413, 'learning_rate': 7.524732363801726e-06, 'num_tokens': 102267522.0, 'completions/mean_length': 2047.71875, 'completions/min_length': 1201.0, 'completions/max_length': 3388.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2047.71875, 'completions/min_terminated_length': 1201.0, 'completions/max_terminated_length': 3388.0, 'rewards/rollout_reward_func/mean': 11.832813262939453, 'rewards/rollout_reward_func/std': 5.3128790855407715, 'reward': 11.832813262939453, 'reward_std': 4.919003486633301, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.02926376834511757, 'sampling/sampling_logp_difference/max': 1.44130539894104, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 1.0785861015319824, 'sampling/importance_sampling_ratio/max': 2.9228010177612305, 'kl': 1.1872403398156166, 'entropy': 0.13080600555986166, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.419343436995405, 'epoch': 5.08}
+ 64%|██████▎   | 635/1000 [5:27:39<3:10:03, 31.24s/it] 64%|██████▎   | 636/1000 [5:28:08<3:04:27, 30.40s/it]                                                      {'loss': -0.0006, 'grad_norm': 0.0050459932535886765, 'learning_rate': 7.488368307417332e-06, 'num_tokens': 102429504.0, 'completions/mean_length': 1979.96875, 'completions/min_length': 1190.0, 'completions/max_length': 3157.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1979.96875, 'completions/min_terminated_length': 1190.0, 'completions/max_terminated_length': 3157.0, 'rewards/rollout_reward_func/mean': 12.918750762939453, 'rewards/rollout_reward_func/std': 4.756378650665283, 'reward': 12.918750762939453, 'reward_std': 4.771145343780518, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03389573097229004, 'sampling/sampling_logp_difference/max': 4.546330451965332, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8678944706916809, 'sampling/importance_sampling_ratio/max': 2.209716558456421, 'kl': 2.9663069993257523, 'entropy': 0.12597357481718063, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 27.238363167001808, 'epoch': 5.09}
+ 64%|██████▎   | 636/1000 [5:28:08<3:04:27, 30.40s/it] 64%|██████▎   | 637/1000 [5:28:45<3:17:18, 32.61s/it]                                                      {'loss': 0.0011, 'grad_norm': 0.004995801020413637, 'learning_rate': 7.452054718108442e-06, 'num_tokens': 102586180.0, 'completions/mean_length': 1901.0625, 'completions/min_length': 1123.0, 'completions/max_length': 4169.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1901.0625, 'completions/min_terminated_length': 1123.0, 'completions/max_terminated_length': 4169.0, 'rewards/rollout_reward_func/mean': 11.299999237060547, 'rewards/rollout_reward_func/std': 5.600850582122803, 'reward': 11.300000190734863, 'reward_std': 5.437837600708008, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03003225103020668, 'sampling/sampling_logp_difference/max': 1.842400074005127, 'sampling/importance_sampling_ratio/min': 0.07492145150899887, 'sampling/importance_sampling_ratio/mean': 1.014430284500122, 'sampling/importance_sampling_ratio/max': 2.750295639038086, 'kl': 1.6962957717478275, 'entropy': 0.1157409455627203, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 36.13412543498271, 'epoch': 5.1}
+ 64%|██████▎   | 637/1000 [5:28:45<3:17:18, 32.61s/it] 64%|██████▍   | 638/1000 [5:29:17<3:15:52, 32.46s/it]                                                      {'loss': -0.0017, 'grad_norm': 0.004046963527798653, 'learning_rate': 7.4157919615524994e-06, 'num_tokens': 102765317.0, 'completions/mean_length': 2241.640625, 'completions/min_length': 850.0, 'completions/max_length': 3616.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2241.640625, 'completions/min_terminated_length': 850.0, 'completions/max_terminated_length': 3616.0, 'rewards/rollout_reward_func/mean': 12.503125190734863, 'rewards/rollout_reward_func/std': 5.07433557510376, 'reward': 12.503125190734863, 'reward_std': 5.166283130645752, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.038227684795856476, 'sampling/sampling_logp_difference/max': 3.322690486907959, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7967991828918457, 'sampling/importance_sampling_ratio/max': 1.9647024869918823, 'kl': 1.372008629143238, 'entropy': 0.14533283142372966, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.766073127982963, 'epoch': 5.1}
+ 64%|██████▍   | 638/1000 [5:29:17<3:15:52, 32.46s/it] 64%|██████▍   | 639/1000 [5:29:51<3:16:45, 32.70s/it]                                                      {'loss': -0.0001, 'grad_norm': 0.00513551477342844, 'learning_rate': 7.379580402915059e-06, 'num_tokens': 102936064.0, 'completions/mean_length': 2114.546875, 'completions/min_length': 784.0, 'completions/max_length': 3706.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2114.546875, 'completions/min_terminated_length': 784.0, 'completions/max_terminated_length': 3706.0, 'rewards/rollout_reward_func/mean': 11.881250381469727, 'rewards/rollout_reward_func/std': 4.939085483551025, 'reward': 11.88124942779541, 'reward_std': 4.73765230178833, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03691926598548889, 'sampling/sampling_logp_difference/max': 1.9139301776885986, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8541143536567688, 'sampling/importance_sampling_ratio/max': 2.6771886348724365, 'kl': 0.9519509859383106, 'entropy': 0.125608641654253, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.83987300399167, 'epoch': 5.11}
+ 64%|██████▍   | 639/1000 [5:29:51<3:16:45, 32.70s/it] 64%|██████▍   | 640/1000 [5:30:24<3:17:02, 32.84s/it]                                                      {'loss': 0.0017, 'grad_norm': 0.005142255686223507, 'learning_rate': 7.343420406846112e-06, 'num_tokens': 103100436.0, 'completions/mean_length': 2017.3125, 'completions/min_length': 1187.0, 'completions/max_length': 3676.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2017.3125, 'completions/min_terminated_length': 1187.0, 'completions/max_terminated_length': 3676.0, 'rewards/rollout_reward_func/mean': 11.131250381469727, 'rewards/rollout_reward_func/std': 5.238044261932373, 'reward': 11.131250381469727, 'reward_std': 5.140142917633057, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03172815963625908, 'sampling/sampling_logp_difference/max': 1.5848549604415894, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8673238754272461, 'sampling/importance_sampling_ratio/max': 2.581139326095581, 'kl': 1.09251294657588, 'entropy': 0.12487514968961477, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.752481950985384, 'epoch': 5.12}
+ 64%|██████▍   | 640/1000 [5:30:24<3:17:02, 32.84s/it] 64%|██████▍   | 641/1000 [5:30:50<3:04:35, 30.85s/it]                                                      {'loss': -0.0009, 'grad_norm': 0.003287006402388215, 'learning_rate': 7.307312337476421e-06, 'num_tokens': 103245159.0, 'completions/mean_length': 1717.921875, 'completions/min_length': 855.0, 'completions/max_length': 2815.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1717.921875, 'completions/min_terminated_length': 855.0, 'completions/max_terminated_length': 2815.0, 'rewards/rollout_reward_func/mean': 11.557811737060547, 'rewards/rollout_reward_func/std': 5.20475435256958, 'reward': 11.557811737060547, 'reward_std': 4.831358432769775, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03047766536474228, 'sampling/sampling_logp_difference/max': 1.704406499862671, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8622328042984009, 'sampling/importance_sampling_ratio/max': 2.313023567199707, 'kl': 1.064829032868147, 'entropy': 0.1174574033357203, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 24.168479733009008, 'epoch': 5.13}
+ 64%|██████▍   | 641/1000 [5:30:50<3:04:35, 30.85s/it] 64%|██████▍   | 642/1000 [5:31:23<3:08:24, 31.58s/it]                                                      {'loss': 0.0012, 'grad_norm': 0.007360886316746473, 'learning_rate': 7.271256558413841e-06, 'num_tokens': 103376788.0, 'completions/mean_length': 1520.578125, 'completions/min_length': 781.0, 'completions/max_length': 3774.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1520.578125, 'completions/min_terminated_length': 781.0, 'completions/max_terminated_length': 3774.0, 'rewards/rollout_reward_func/mean': 11.100000381469727, 'rewards/rollout_reward_func/std': 5.279610633850098, 'reward': 11.100000381469727, 'reward_std': 5.348728179931641, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03694598376750946, 'sampling/sampling_logp_difference/max': 2.548611640930176, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9693900346755981, 'sampling/importance_sampling_ratio/max': 2.739699602127075, 'kl': 0.9198125377297401, 'entropy': 0.10550034698098898, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.820411090011476, 'epoch': 5.14}
+ 64%|██████▍   | 642/1000 [5:31:23<3:08:24, 31.58s/it] 64%|██████▍   | 643/1000 [5:31:55<3:07:12, 31.46s/it]                                                      {'loss': -0.0019, 'grad_norm': 0.004381134640425444, 'learning_rate': 7.235253432739668e-06, 'num_tokens': 103540550.0, 'completions/mean_length': 2008.65625, 'completions/min_length': 854.0, 'completions/max_length': 3635.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2008.65625, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 3635.0, 'rewards/rollout_reward_func/mean': 11.625, 'rewards/rollout_reward_func/std': 5.3324408531188965, 'reward': 11.625, 'reward_std': 5.341154098510742, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03526688367128372, 'sampling/sampling_logp_difference/max': 1.5790472030639648, 'sampling/importance_sampling_ratio/min': 0.055642589926719666, 'sampling/importance_sampling_ratio/mean': 0.8846960067749023, 'sampling/importance_sampling_ratio/max': 2.088007926940918, 'kl': 0.8840514402836561, 'entropy': 0.1355219646357, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.898287682990485, 'epoch': 5.14}
+ 64%|██████▍   | 643/1000 [5:31:55<3:07:12, 31.46s/it] 64%|██████▍   | 644/1000 [5:32:27<3:07:35, 31.62s/it]                                                      {'loss': 0.0003, 'grad_norm': 0.005556808318942785, 'learning_rate': 7.1993033230049815e-06, 'num_tokens': 103715137.0, 'completions/mean_length': 2172.921875, 'completions/min_length': 1189.0, 'completions/max_length': 3521.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2172.921875, 'completions/min_terminated_length': 1189.0, 'completions/max_terminated_length': 3521.0, 'rewards/rollout_reward_func/mean': 12.38437557220459, 'rewards/rollout_reward_func/std': 5.251582622528076, 'reward': 12.38437557220459, 'reward_std': 5.08290433883667, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03936555236577988, 'sampling/sampling_logp_difference/max': 2.3527908325195312, 'sampling/importance_sampling_ratio/min': 0.07158442586660385, 'sampling/importance_sampling_ratio/mean': 0.8960974216461182, 'sampling/importance_sampling_ratio/max': 2.806076765060425, 'kl': 1.067491564899683, 'entropy': 0.14510246133431792, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.635070182011987, 'epoch': 5.15}
+ 64%|██████▍   | 644/1000 [5:32:27<3:07:35, 31.62s/it] 64%|██████▍   | 645/1000 [5:33:00<3:10:02, 32.12s/it]                                                      {'loss': -0.0007, 'grad_norm': 0.00402631051838398, 'learning_rate': 7.163406591226979e-06, 'num_tokens': 103870654.0, 'completions/mean_length': 1882.578125, 'completions/min_length': 853.0, 'completions/max_length': 3724.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1882.578125, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3724.0, 'rewards/rollout_reward_func/mean': 11.9375, 'rewards/rollout_reward_func/std': 5.196381568908691, 'reward': 11.9375, 'reward_std': 5.1662492752075195, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.031949594616889954, 'sampling/sampling_logp_difference/max': 1.9911079406738281, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.857994556427002, 'sampling/importance_sampling_ratio/max': 2.5368306636810303, 'kl': 0.9677019231021404, 'entropy': 0.12158062634989619, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.862853822000034, 'epoch': 5.16}
+ 64%|██████▍   | 645/1000 [5:33:00<3:10:02, 32.12s/it] 65%|██████▍   | 646/1000 [5:33:29<3:04:39, 31.30s/it]                                                      {'loss': -0.0009, 'grad_norm': 0.004159210715442896, 'learning_rate': 7.127563598885355e-06, 'num_tokens': 104018582.0, 'completions/mean_length': 1767.25, 'completions/min_length': 783.0, 'completions/max_length': 3373.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1767.25, 'completions/min_terminated_length': 783.0, 'completions/max_terminated_length': 3373.0, 'rewards/rollout_reward_func/mean': 10.810937881469727, 'rewards/rollout_reward_func/std': 5.092201232910156, 'reward': 10.810937881469727, 'reward_std': 5.225551128387451, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.028118766844272614, 'sampling/sampling_logp_difference/max': 1.8478729724884033, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.926154613494873, 'sampling/importance_sampling_ratio/max': 1.707147240638733, 'kl': 0.8725127838551998, 'entropy': 0.11458494537509978, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.11664166301489, 'epoch': 5.17}
+ 65%|██████▍   | 646/1000 [5:33:29<3:04:39, 31.30s/it] 65%|██████▍   | 647/1000 [5:34:02<3:06:41, 31.73s/it]                                                      {'loss': -0.0008, 'grad_norm': 0.00521267531439662, 'learning_rate': 7.0917747069186445e-06, 'num_tokens': 104168716.0, 'completions/mean_length': 1801.34375, 'completions/min_length': 784.0, 'completions/max_length': 3739.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1801.34375, 'completions/min_terminated_length': 784.0, 'completions/max_terminated_length': 3739.0, 'rewards/rollout_reward_func/mean': 11.112500190734863, 'rewards/rollout_reward_func/std': 5.246329307556152, 'reward': 11.112500190734863, 'reward_std': 5.354443550109863, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.034398503601551056, 'sampling/sampling_logp_difference/max': 2.3403782844543457, 'sampling/importance_sampling_ratio/min': 0.04380911961197853, 'sampling/importance_sampling_ratio/mean': 0.8835865259170532, 'sampling/importance_sampling_ratio/max': 2.486176013946533, 'kl': 0.9565847665071487, 'entropy': 0.13210084289312363, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.40291096499277, 'epoch': 5.18}
+ 65%|██████▍   | 647/1000 [5:34:02<3:06:41, 31.73s/it] 65%|██████▍   | 648/1000 [5:34:31<3:02:12, 31.06s/it]                                                      {'loss': 0.0001, 'grad_norm': 0.005668495316058397, 'learning_rate': 7.056040275720599e-06, 'num_tokens': 104327859.0, 'completions/mean_length': 1938.859375, 'completions/min_length': 854.0, 'completions/max_length': 3349.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1938.859375, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 3349.0, 'rewards/rollout_reward_func/mean': 11.985937118530273, 'rewards/rollout_reward_func/std': 5.023433208465576, 'reward': 11.985937118530273, 'reward_std': 4.430957794189453, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.038710370659828186, 'sampling/sampling_logp_difference/max': 2.1622061729431152, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8220911026000977, 'sampling/importance_sampling_ratio/max': 2.5728371143341064, 'kl': 1.160319209098816, 'entropy': 0.13106598798185587, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.254441062017577, 'epoch': 5.18}
+ 65%|██████▍   | 648/1000 [5:34:31<3:02:12, 31.06s/it] 65%|██████▍   | 649/1000 [5:34:56<2:49:36, 28.99s/it]                                                      {'loss': 0.0006, 'grad_norm': 0.0065666972659528255, 'learning_rate': 7.020360665136531e-06, 'num_tokens': 104474212.0, 'completions/mean_length': 1743.015625, 'completions/min_length': 853.0, 'completions/max_length': 2758.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1743.015625, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 2758.0, 'rewards/rollout_reward_func/mean': 11.125, 'rewards/rollout_reward_func/std': 5.306509971618652, 'reward': 11.125, 'reward_std': 4.978446006774902, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.02561451494693756, 'sampling/sampling_logp_difference/max': 2.4598755836486816, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9069441556930542, 'sampling/importance_sampling_ratio/max': 2.779242753982544, 'kl': 0.9041307903826237, 'entropy': 0.10866975504904985, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 23.15856387900567, 'epoch': 5.19}
+ 65%|██████▍   | 649/1000 [5:34:56<2:49:36, 28.99s/it] 65%|██████▌   | 650/1000 [5:35:30<2:58:25, 30.59s/it]                                                      {'loss': 0.0009, 'grad_norm': 0.004823257215321064, 'learning_rate': 6.984736234459731e-06, 'num_tokens': 104649600.0, 'completions/mean_length': 2185.0625, 'completions/min_length': 865.0, 'completions/max_length': 3783.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2185.0625, 'completions/min_terminated_length': 865.0, 'completions/max_terminated_length': 3783.0, 'rewards/rollout_reward_func/mean': 11.373437881469727, 'rewards/rollout_reward_func/std': 4.920196533203125, 'reward': 11.373437881469727, 'reward_std': 4.730179786682129, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03367350250482559, 'sampling/sampling_logp_difference/max': 1.8777244091033936, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9309091567993164, 'sampling/importance_sampling_ratio/max': 2.6322498321533203, 'kl': 0.9472665935754776, 'entropy': 0.13715817360207438, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.85164934200293, 'epoch': 5.2}
+ 65%|██████▌   | 650/1000 [5:35:30<2:58:25, 30.59s/it] 65%|██████▌   | 651/1000 [5:36:03<3:02:41, 31.41s/it]                                                      {'loss': -0.0004, 'grad_norm': 0.003197537735104561, 'learning_rate': 6.9491673424278234e-06, 'num_tokens': 104828540.0, 'completions/mean_length': 2238.5625, 'completions/min_length': 783.0, 'completions/max_length': 3648.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2238.5625, 'completions/min_terminated_length': 783.0, 'completions/max_terminated_length': 3648.0, 'rewards/rollout_reward_func/mean': 13.504688262939453, 'rewards/rollout_reward_func/std': 5.302243709564209, 'reward': 13.504687309265137, 'reward_std': 4.908874034881592, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.037635840475559235, 'sampling/sampling_logp_difference/max': 1.4013471603393555, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7036354541778564, 'sampling/importance_sampling_ratio/max': 2.0517449378967285, 'kl': 1.1577824987471104, 'entropy': 0.13996312487870455, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.01550999099709, 'epoch': 5.21}
+ 65%|██████▌   | 651/1000 [5:36:03<3:02:41, 31.41s/it] 65%|██████▌   | 652/1000 [5:36:38<3:07:24, 32.31s/it]                                                      {'loss': 0.0016, 'grad_norm': 0.0049965111538767815, 'learning_rate': 6.913654347219154e-06, 'num_tokens': 104978389.0, 'completions/mean_length': 1797.265625, 'completions/min_length': 850.0, 'completions/max_length': 3790.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1797.265625, 'completions/min_terminated_length': 850.0, 'completions/max_terminated_length': 3790.0, 'rewards/rollout_reward_func/mean': 10.407812118530273, 'rewards/rollout_reward_func/std': 5.09930944442749, 'reward': 10.407812118530273, 'reward_std': 4.955267429351807, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03515142947435379, 'sampling/sampling_logp_difference/max': 2.3762893676757812, 'sampling/importance_sampling_ratio/min': 0.11153760552406311, 'sampling/importance_sampling_ratio/mean': 0.7763845920562744, 'sampling/importance_sampling_ratio/max': 2.0928399562835693, 'kl': 1.1632519364356995, 'entropy': 0.11682133376598358, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.96148259401525, 'epoch': 5.22}
+ 65%|██████▌   | 652/1000 [5:36:38<3:07:24, 32.31s/it] 65%|██████▌   | 653/1000 [5:37:03<2:53:55, 30.07s/it]                                                      {'loss': -0.0006, 'grad_norm': 0.004602785687893629, 'learning_rate': 6.8781976064491795e-06, 'num_tokens': 105117942.0, 'completions/mean_length': 1640.390625, 'completions/min_length': 782.0, 'completions/max_length': 2859.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1640.390625, 'completions/min_terminated_length': 782.0, 'completions/max_terminated_length': 2859.0, 'rewards/rollout_reward_func/mean': 11.854687690734863, 'rewards/rollout_reward_func/std': 5.126895427703857, 'reward': 11.854687690734863, 'reward_std': 5.101880073547363, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03115471825003624, 'sampling/sampling_logp_difference/max': 2.913255214691162, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8174206018447876, 'sampling/importance_sampling_ratio/max': 2.7217681407928467, 'kl': 1.140562765300274, 'entropy': 0.10223452607169747, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 23.801827585994033, 'epoch': 5.22}
+ 65%|██████▌   | 653/1000 [5:37:03<2:53:55, 30.07s/it] 65%|██████▌   | 654/1000 [5:37:34<2:55:39, 30.46s/it]                                                      {'loss': 0.0016, 'grad_norm': 0.005515777971595526, 'learning_rate': 6.842797477166901e-06, 'num_tokens': 105278302.0, 'completions/mean_length': 1956.25, 'completions/min_length': 852.0, 'completions/max_length': 3560.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1956.25, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3560.0, 'rewards/rollout_reward_func/mean': 11.5546875, 'rewards/rollout_reward_func/std': 5.182293891906738, 'reward': 11.5546875, 'reward_std': 5.198652267456055, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03545928746461868, 'sampling/sampling_logp_difference/max': 2.3177905082702637, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8748409748077393, 'sampling/importance_sampling_ratio/max': 2.8834519386291504, 'kl': 2.391529845073819, 'entropy': 0.13375845877453685, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.031729344009364, 'epoch': 5.23}
+ 65%|██████▌   | 654/1000 [5:37:34<2:55:39, 30.46s/it] 66%|██████▌   | 655/1000 [5:38:05<2:55:38, 30.55s/it]                                                      {'loss': 0.0022, 'grad_norm': 0.00728289969265461, 'learning_rate': 6.8074543158512165e-06, 'num_tokens': 105413825.0, 'completions/mean_length': 1579.796875, 'completions/min_length': 879.0, 'completions/max_length': 3590.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1579.796875, 'completions/min_terminated_length': 879.0, 'completions/max_terminated_length': 3590.0, 'rewards/rollout_reward_func/mean': 11.582812309265137, 'rewards/rollout_reward_func/std': 5.2532243728637695, 'reward': 11.58281135559082, 'reward_std': 5.119785785675049, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03250427171587944, 'sampling/sampling_logp_difference/max': 2.1921796798706055, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9367565512657166, 'sampling/importance_sampling_ratio/max': 2.4275832176208496, 'kl': 1.1344022564589977, 'entropy': 0.10076396306976676, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.63099480598612, 'epoch': 5.24}
+ 66%|██████▌   | 655/1000 [5:38:05<2:55:38, 30.55s/it] 66%|██████▌   | 656/1000 [5:38:35<2:54:06, 30.37s/it]                                                      {'loss': -0.0009, 'grad_norm': 0.0045202490873634815, 'learning_rate': 6.77216847840737e-06, 'num_tokens': 105558745.0, 'completions/mean_length': 1722.625, 'completions/min_length': 850.0, 'completions/max_length': 3462.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1722.625, 'completions/min_terminated_length': 850.0, 'completions/max_terminated_length': 3462.0, 'rewards/rollout_reward_func/mean': 12.375, 'rewards/rollout_reward_func/std': 4.826283931732178, 'reward': 12.375, 'reward_std': 4.464189529418945, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.027046380564570427, 'sampling/sampling_logp_difference/max': 2.0551741123199463, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9375272989273071, 'sampling/importance_sampling_ratio/max': 1.9680243730545044, 'kl': 0.9380163475871086, 'entropy': 0.10808692639693618, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.789781812010915, 'epoch': 5.25}
+ 66%|██████▌   | 656/1000 [5:38:35<2:54:06, 30.37s/it] 66%|██████▌   | 657/1000 [5:39:09<3:00:39, 31.60s/it]                                                      {'loss': -0.0016, 'grad_norm': 0.004716497380286455, 'learning_rate': 6.7369403201633626e-06, 'num_tokens': 105729781.0, 'completions/mean_length': 2120.3125, 'completions/min_length': 780.0, 'completions/max_length': 3857.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2120.3125, 'completions/min_terminated_length': 780.0, 'completions/max_terminated_length': 3857.0, 'rewards/rollout_reward_func/mean': 11.615625381469727, 'rewards/rollout_reward_func/std': 5.454464912414551, 'reward': 11.615625381469727, 'reward_std': 4.429771423339844, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.038684651255607605, 'sampling/sampling_logp_difference/max': 2.0473320484161377, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7957733273506165, 'sampling/importance_sampling_ratio/max': 2.291064500808716, 'kl': 0.9027209281921387, 'entropy': 0.13592538749799132, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 33.03184758799762, 'epoch': 5.26}
+ 66%|██████▌   | 657/1000 [5:39:09<3:00:39, 31.60s/it] 66%|██████▌   | 658/1000 [5:39:42<3:01:34, 31.85s/it]                                                      {'loss': -0.0, 'grad_norm': 0.0041664596647024155, 'learning_rate': 6.701770195866344e-06, 'num_tokens': 105921533.0, 'completions/mean_length': 2433.125, 'completions/min_length': 1274.0, 'completions/max_length': 3598.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2433.125, 'completions/min_terminated_length': 1274.0, 'completions/max_terminated_length': 3598.0, 'rewards/rollout_reward_func/mean': 13.1328125, 'rewards/rollout_reward_func/std': 5.114159107208252, 'reward': 13.1328125, 'reward_std': 5.308839797973633, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.037915684282779694, 'sampling/sampling_logp_difference/max': 1.7992761135101318, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7923431992530823, 'sampling/importance_sampling_ratio/max': 2.873004198074341, 'kl': 1.4647577330470085, 'entropy': 0.1440579486079514, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.132542613013356, 'epoch': 5.26}
+ 66%|██████▌   | 658/1000 [5:39:42<3:01:34, 31.85s/it] 66%|██████▌   | 659/1000 [5:40:22<3:15:37, 34.42s/it]                                                      {'loss': 0.0012, 'grad_norm': 0.0046129547990858555, 'learning_rate': 6.666658459679078e-06, 'num_tokens': 106095341.0, 'completions/mean_length': 2162.0, 'completions/min_length': 849.0, 'completions/max_length': 4465.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2162.0, 'completions/min_terminated_length': 849.0, 'completions/max_terminated_length': 4465.0, 'rewards/rollout_reward_func/mean': 11.946874618530273, 'rewards/rollout_reward_func/std': 5.325022220611572, 'reward': 11.946874618530273, 'reward_std': 4.215991973876953, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03295844420790672, 'sampling/sampling_logp_difference/max': 1.467461347579956, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9762269854545593, 'sampling/importance_sampling_ratio/max': 2.466663360595703, 'kl': 0.9683949947357178, 'entropy': 0.13595017045736313, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 38.68181378799636, 'epoch': 5.27}
+ 66%|██████▌   | 659/1000 [5:40:22<3:15:37, 34.42s/it] 66%|██████▌   | 660/1000 [5:40:54<3:10:41, 33.65s/it]                                                      {'loss': 0.0006, 'grad_norm': 0.005057001020759344, 'learning_rate': 6.631605465176368e-06, 'num_tokens': 106271768.0, 'completions/mean_length': 2201.296875, 'completions/min_length': 855.0, 'completions/max_length': 3633.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2201.296875, 'completions/min_terminated_length': 855.0, 'completions/max_terminated_length': 3633.0, 'rewards/rollout_reward_func/mean': 11.47812557220459, 'rewards/rollout_reward_func/std': 5.3316802978515625, 'reward': 11.47812557220459, 'reward_std': 4.9865617752075195, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03425130993127823, 'sampling/sampling_logp_difference/max': 2.7245235443115234, 'sampling/importance_sampling_ratio/min': 0.027031535282731056, 'sampling/importance_sampling_ratio/mean': 0.9348692893981934, 'sampling/importance_sampling_ratio/max': 2.81648325920105, 'kl': 1.5072470866143703, 'entropy': 0.13094933005049825, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.565630750003038, 'epoch': 5.28}
+ 66%|██████▌   | 660/1000 [5:40:54<3:10:41, 33.65s/it] 66%|██████▌   | 661/1000 [5:41:26<3:07:23, 33.17s/it]                                                      {'loss': 0.0001, 'grad_norm': 0.005406350363045931, 'learning_rate': 6.596611565341468e-06, 'num_tokens': 106438872.0, 'completions/mean_length': 2059.625, 'completions/min_length': 891.0, 'completions/max_length': 3561.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2059.625, 'completions/min_terminated_length': 891.0, 'completions/max_terminated_length': 3561.0, 'rewards/rollout_reward_func/mean': 12.654687881469727, 'rewards/rollout_reward_func/std': 5.233194828033447, 'reward': 12.654687881469727, 'reward_std': 5.0048346519470215, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.035356421023607254, 'sampling/sampling_logp_difference/max': 2.049635171890259, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8491523861885071, 'sampling/importance_sampling_ratio/max': 2.6176555156707764, 'kl': 1.110885076224804, 'entropy': 0.12438848661258817, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.939536984995357, 'epoch': 5.29}
+ 66%|██████▌   | 661/1000 [5:41:26<3:07:23, 33.17s/it] 66%|██████▌   | 662/1000 [5:41:56<3:02:25, 32.38s/it]                                                      {'loss': -0.0018, 'grad_norm': 0.004508397076278925, 'learning_rate': 6.561677112562564e-06, 'num_tokens': 106594464.0, 'completions/mean_length': 1883.75, 'completions/min_length': 853.0, 'completions/max_length': 3449.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1883.75, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3449.0, 'rewards/rollout_reward_func/mean': 11.885937690734863, 'rewards/rollout_reward_func/std': 5.4409637451171875, 'reward': 11.885937690734863, 'reward_std': 5.033132076263428, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.0306328684091568, 'sampling/sampling_logp_difference/max': 1.9231812953948975, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 1.0231748819351196, 'sampling/importance_sampling_ratio/max': 2.6391336917877197, 'kl': 1.4710838198661804, 'entropy': 0.11294265510514379, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.461669109979994, 'epoch': 5.3}
+ 66%|██████▌   | 662/1000 [5:41:56<3:02:25, 32.38s/it] 66%|██████▋   | 663/1000 [5:42:21<2:49:04, 30.10s/it]                                                      {'loss': -0.0006, 'grad_norm': 0.005003862548619509, 'learning_rate': 6.5268024586292135e-06, 'num_tokens': 106740629.0, 'completions/mean_length': 1740.453125, 'completions/min_length': 853.0, 'completions/max_length': 2827.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1740.453125, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 2827.0, 'rewards/rollout_reward_func/mean': 11.667186737060547, 'rewards/rollout_reward_func/std': 5.202291011810303, 'reward': 11.667187690734863, 'reward_std': 5.085628509521484, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03048877604305744, 'sampling/sampling_logp_difference/max': 2.035815477371216, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8106763362884521, 'sampling/importance_sampling_ratio/max': 2.0986392498016357, 'kl': 1.0457286015152931, 'entropy': 0.10201301798224449, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 23.710516313978587, 'epoch': 5.3}
+ 66%|██████▋   | 663/1000 [5:42:21<2:49:04, 30.10s/it] 66%|██████▋   | 664/1000 [5:43:00<3:02:38, 32.61s/it]                                                      {'loss': 0.0002, 'grad_norm': 0.004585543647408485, 'learning_rate': 6.491987954728785e-06, 'num_tokens': 106916521.0, 'completions/mean_length': 2194.5625, 'completions/min_length': 863.0, 'completions/max_length': 4262.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2194.5625, 'completions/min_terminated_length': 863.0, 'completions/max_terminated_length': 4262.0, 'rewards/rollout_reward_func/mean': 11.0859375, 'rewards/rollout_reward_func/std': 5.267657279968262, 'reward': 11.0859375, 'reward_std': 5.25579309463501, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03706718981266022, 'sampling/sampling_logp_difference/max': 1.3822221755981445, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8243604898452759, 'sampling/importance_sampling_ratio/max': 2.1530871391296387, 'kl': 1.0599100477993488, 'entropy': 0.13589060679078102, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 36.81165657899692, 'epoch': 5.31}
+ 66%|██████▋   | 664/1000 [5:43:00<3:02:38, 32.61s/it] 66%|██████▋   | 665/1000 [5:43:30<2:57:56, 31.87s/it]                                                      {'loss': 0.0, 'grad_norm': 0.005112461280077696, 'learning_rate': 6.457233951442951e-06, 'num_tokens': 107068352.0, 'completions/mean_length': 1826.609375, 'completions/min_length': 851.0, 'completions/max_length': 3505.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1826.609375, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 3505.0, 'rewards/rollout_reward_func/mean': 11.892187118530273, 'rewards/rollout_reward_func/std': 5.270381450653076, 'reward': 11.892187118530273, 'reward_std': 5.098135948181152, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04070217162370682, 'sampling/sampling_logp_difference/max': 2.3915045261383057, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7891602516174316, 'sampling/importance_sampling_ratio/max': 2.130995273590088, 'kl': 1.3356187343597412, 'entropy': 0.11974467523396015, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.970536426990293, 'epoch': 5.32}
+ 66%|██████▋   | 665/1000 [5:43:30<2:57:56, 31.87s/it] 67%|██████▋   | 666/1000 [5:43:55<2:46:32, 29.92s/it]                                                      {'loss': 0.0012, 'grad_norm': 0.0045174830593168736, 'learning_rate': 6.422540798744144e-06, 'num_tokens': 107220625.0, 'completions/mean_length': 1833.890625, 'completions/min_length': 854.0, 'completions/max_length': 2792.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1833.890625, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 2792.0, 'rewards/rollout_reward_func/mean': 11.932812690734863, 'rewards/rollout_reward_func/std': 5.3085455894470215, 'reward': 11.932812690734863, 'reward_std': 5.561716556549072, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.031236568465828896, 'sampling/sampling_logp_difference/max': 1.9481542110443115, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9419660568237305, 'sampling/importance_sampling_ratio/max': 2.5600292682647705, 'kl': 1.1311508305370808, 'entropy': 0.10641377931460738, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 24.333600819009007, 'epoch': 5.33}
+ 67%|██████▋   | 666/1000 [5:43:55<2:46:32, 29.92s/it] 67%|██████▋   | 667/1000 [5:44:25<2:45:53, 29.89s/it]                                                      {'loss': 0.0018, 'grad_norm': 0.005242392886430025, 'learning_rate': 6.387908845992016e-06, 'num_tokens': 107366610.0, 'completions/mean_length': 1738.515625, 'completions/min_length': 781.0, 'completions/max_length': 3406.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1738.515625, 'completions/min_terminated_length': 781.0, 'completions/max_terminated_length': 3406.0, 'rewards/rollout_reward_func/mean': 12.356249809265137, 'rewards/rollout_reward_func/std': 5.644744396209717, 'reward': 12.356249809265137, 'reward_std': 4.954700469970703, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.033069074153900146, 'sampling/sampling_logp_difference/max': 3.2080979347229004, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8533787131309509, 'sampling/importance_sampling_ratio/max': 1.8602983951568604, 'kl': 0.922523882240057, 'entropy': 0.11560346046462655, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.536980175005738, 'epoch': 5.34}
+ 67%|██████▋   | 667/1000 [5:44:25<2:45:53, 29.89s/it] 67%|██████▋   | 668/1000 [5:44:56<2:46:47, 30.14s/it]                                                      {'loss': -0.0011, 'grad_norm': 0.003190751885995269, 'learning_rate': 6.353338441929951e-06, 'num_tokens': 107532239.0, 'completions/mean_length': 2037.828125, 'completions/min_length': 851.0, 'completions/max_length': 3442.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2037.828125, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 3442.0, 'rewards/rollout_reward_func/mean': 11.57187557220459, 'rewards/rollout_reward_func/std': 5.495639801025391, 'reward': 11.571874618530273, 'reward_std': 5.5231451988220215, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.035345226526260376, 'sampling/sampling_logp_difference/max': 2.0766515731811523, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7417138814926147, 'sampling/importance_sampling_ratio/max': 1.8567848205566406, 'kl': 1.3508436679840088, 'entropy': 0.12880304898135364, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.438575738029613, 'epoch': 5.34}
+ 67%|██████▋   | 668/1000 [5:44:56<2:46:47, 30.14s/it] 67%|██████▋   | 669/1000 [5:45:36<3:02:59, 33.17s/it]                                                      {'loss': 0.0004, 'grad_norm': 0.005153856705874205, 'learning_rate': 6.318829934681541e-06, 'num_tokens': 107692788.0, 'completions/mean_length': 1960.828125, 'completions/min_length': 853.0, 'completions/max_length': 4519.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1960.828125, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 4519.0, 'rewards/rollout_reward_func/mean': 11.114063262939453, 'rewards/rollout_reward_func/std': 5.212252616882324, 'reward': 11.114063262939453, 'reward_std': 5.19242000579834, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.033223964273929596, 'sampling/sampling_logp_difference/max': 1.8534588813781738, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8908138275146484, 'sampling/importance_sampling_ratio/max': 2.5016093254089355, 'kl': 0.9036581702530384, 'entropy': 0.1128963865339756, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 38.49697553501028, 'epoch': 5.35}
+ 67%|██████▋   | 669/1000 [5:45:36<3:02:59, 33.17s/it] 67%|██████▋   | 670/1000 [5:46:07<2:59:41, 32.67s/it]                                                      {'loss': 0.0001, 'grad_norm': 0.006189865525811911, 'learning_rate': 6.284383671747065e-06, 'num_tokens': 107881150.0, 'completions/mean_length': 2382.15625, 'completions/min_length': 1278.0, 'completions/max_length': 3528.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2382.15625, 'completions/min_terminated_length': 1278.0, 'completions/max_terminated_length': 3528.0, 'rewards/rollout_reward_func/mean': 12.354686737060547, 'rewards/rollout_reward_func/std': 5.045379638671875, 'reward': 12.354687690734863, 'reward_std': 4.637998104095459, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.037153590470552444, 'sampling/sampling_logp_difference/max': 1.944075107574463, 'sampling/importance_sampling_ratio/min': 0.06636177748441696, 'sampling/importance_sampling_ratio/mean': 0.9519793391227722, 'sampling/importance_sampling_ratio/max': 2.9545352458953857, 'kl': 0.9607170782983303, 'entropy': 0.1320824008435011, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.346889528998872, 'epoch': 5.36}
+ 67%|██████▋   | 670/1000 [5:46:07<2:59:41, 32.67s/it] 67%|██████▋   | 671/1000 [5:46:39<2:57:48, 32.43s/it]                                                      {'loss': -0.0011, 'grad_norm': 0.0037834462709724903, 'learning_rate': 6.250000000000003e-06, 'num_tokens': 108075731.0, 'completions/mean_length': 2477.328125, 'completions/min_length': 1267.0, 'completions/max_length': 3572.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2477.328125, 'completions/min_terminated_length': 1267.0, 'completions/max_terminated_length': 3572.0, 'rewards/rollout_reward_func/mean': 11.575000762939453, 'rewards/rollout_reward_func/std': 5.342106342315674, 'reward': 11.575000762939453, 'reward_std': 5.151098251342773, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03855474665760994, 'sampling/sampling_logp_difference/max': 1.55569589138031, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8080458641052246, 'sampling/importance_sampling_ratio/max': 2.964292287826538, 'kl': 0.9797050580382347, 'entropy': 0.1357452617958188, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.547629312990466, 'epoch': 5.37}
+ 67%|██████▋   | 671/1000 [5:46:39<2:57:48, 32.43s/it] 67%|██████▋   | 672/1000 [5:47:15<3:02:59, 33.47s/it]                                                      {'loss': 0.0003, 'grad_norm': 0.004014207981526852, 'learning_rate': 6.215679265683552e-06, 'num_tokens': 108268924.0, 'completions/mean_length': 2457.265625, 'completions/min_length': 852.0, 'completions/max_length': 3919.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2457.265625, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3919.0, 'rewards/rollout_reward_func/mean': 12.765625, 'rewards/rollout_reward_func/std': 5.254573822021484, 'reward': 12.765625, 'reward_std': 5.233592510223389, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04048667103052139, 'sampling/sampling_logp_difference/max': 1.9294490814208984, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7237626314163208, 'sampling/importance_sampling_ratio/max': 1.9247944355010986, 'kl': 0.9054801948368549, 'entropy': 0.14293719548732042, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 34.44416064600955, 'epoch': 5.38}
+ 67%|██████▋   | 672/1000 [5:47:15<3:02:59, 33.47s/it] 67%|██████▋   | 673/1000 [5:47:44<2:54:45, 32.07s/it]                                                      {'loss': 0.0006, 'grad_norm': 0.004812238737940788, 'learning_rate': 6.1814218144071335e-06, 'num_tokens': 108430418.0, 'completions/mean_length': 1973.96875, 'completions/min_length': 889.0, 'completions/max_length': 3245.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1973.96875, 'completions/min_terminated_length': 889.0, 'completions/max_terminated_length': 3245.0, 'rewards/rollout_reward_func/mean': 12.49375057220459, 'rewards/rollout_reward_func/std': 5.126058101654053, 'reward': 12.493749618530273, 'reward_std': 4.982527256011963, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.0320650115609169, 'sampling/sampling_logp_difference/max': 1.55100679397583, 'sampling/importance_sampling_ratio/min': 0.17145708203315735, 'sampling/importance_sampling_ratio/mean': 0.9280014038085938, 'sampling/importance_sampling_ratio/max': 2.334010362625122, 'kl': 0.9645932465791702, 'entropy': 0.10788064310327172, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 27.668003825005144, 'epoch': 5.38}
+ 67%|██████▋   | 673/1000 [5:47:44<2:54:45, 32.07s/it] 67%|██████▋   | 674/1000 [5:48:15<2:52:00, 31.66s/it]                                                      {'loss': 0.0, 'grad_norm': 0.004102925304323435, 'learning_rate': 6.147227991142888e-06, 'num_tokens': 108575561.0, 'completions/mean_length': 1725.734375, 'completions/min_length': 784.0, 'completions/max_length': 3454.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1725.734375, 'completions/min_terminated_length': 784.0, 'completions/max_terminated_length': 3454.0, 'rewards/rollout_reward_func/mean': 11.578125, 'rewards/rollout_reward_func/std': 5.194639205932617, 'reward': 11.578125, 'reward_std': 5.1267876625061035, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.028020964935421944, 'sampling/sampling_logp_difference/max': 1.6126781702041626, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8472337126731873, 'sampling/importance_sampling_ratio/max': 2.011340618133545, 'kl': 0.8354389071464539, 'entropy': 0.10471692867577076, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.63858118000644, 'epoch': 5.39}
+ 67%|██████▋   | 674/1000 [5:48:15<2:52:00, 31.66s/it] 68%|██████▊   | 675/1000 [5:48:46<2:50:33, 31.49s/it]                                                      {'loss': 0.0006, 'grad_norm': 0.005395528860390186, 'learning_rate': 6.113098140222244e-06, 'num_tokens': 108734832.0, 'completions/mean_length': 1940.109375, 'completions/min_length': 853.0, 'completions/max_length': 3517.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1940.109375, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3517.0, 'rewards/rollout_reward_func/mean': 11.515625, 'rewards/rollout_reward_func/std': 5.669893264770508, 'reward': 11.515625, 'reward_std': 5.335785865783691, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03421793505549431, 'sampling/sampling_logp_difference/max': 1.9411673545837402, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9572709798812866, 'sampling/importance_sampling_ratio/max': 2.4409263134002686, 'kl': 0.870417756959796, 'entropy': 0.12021678639575839, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.75627618900762, 'epoch': 5.4}
+ 68%|██████▊   | 675/1000 [5:48:46<2:50:33, 31.49s/it] 68%|██████▊   | 676/1000 [5:49:22<2:57:03, 32.79s/it]                                                      {'loss': -0.0007, 'grad_norm': 0.006136258598417044, 'learning_rate': 6.079032605332424e-06, 'num_tokens': 108902962.0, 'completions/mean_length': 2075.28125, 'completions/min_length': 850.0, 'completions/max_length': 3973.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2075.28125, 'completions/min_terminated_length': 850.0, 'completions/max_terminated_length': 3973.0, 'rewards/rollout_reward_func/mean': 11.164063453674316, 'rewards/rollout_reward_func/std': 5.564923286437988, 'reward': 11.1640625, 'reward_std': 5.255000591278076, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.0365477129817009, 'sampling/sampling_logp_difference/max': 2.068410873413086, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9593757390975952, 'sampling/importance_sampling_ratio/max': 2.8635244369506836, 'kl': 1.024821326136589, 'entropy': 0.12312721088528633, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 34.31411003901303, 'epoch': 5.41}
+ 68%|██████▊   | 676/1000 [5:49:22<2:57:03, 32.79s/it] 68%|██████▊   | 677/1000 [5:49:44<2:39:00, 29.54s/it]                                                      {'loss': -0.0014, 'grad_norm': 0.004567244555801153, 'learning_rate': 6.0450317295129775e-06, 'num_tokens': 109046531.0, 'completions/mean_length': 1701.515625, 'completions/min_length': 783.0, 'completions/max_length': 2463.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1701.515625, 'completions/min_terminated_length': 783.0, 'completions/max_terminated_length': 2463.0, 'rewards/rollout_reward_func/mean': 11.7109375, 'rewards/rollout_reward_func/std': 5.1387763023376465, 'reward': 11.7109375, 'reward_std': 5.120373725891113, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.02926820144057274, 'sampling/sampling_logp_difference/max': 1.6467056274414062, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.87990403175354, 'sampling/importance_sampling_ratio/max': 2.776644229888916, 'kl': 1.010603055357933, 'entropy': 0.10156351560726762, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 21.022177634993568, 'epoch': 5.42}
+ 68%|██████▊   | 677/1000 [5:49:44<2:39:00, 29.54s/it] 68%|██████▊   | 678/1000 [5:50:19<2:47:46, 31.26s/it]                                                      {'loss': 0.0005, 'grad_norm': 0.0036349445581436157, 'learning_rate': 6.011095855152351e-06, 'num_tokens': 109224499.0, 'completions/mean_length': 2225.375, 'completions/min_length': 849.0, 'completions/max_length': 3992.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2225.375, 'completions/min_terminated_length': 849.0, 'completions/max_terminated_length': 3992.0, 'rewards/rollout_reward_func/mean': 12.534375190734863, 'rewards/rollout_reward_func/std': 5.343568325042725, 'reward': 12.534375190734863, 'reward_std': 4.9126667976379395, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03651714324951172, 'sampling/sampling_logp_difference/max': 1.8776726722717285, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7652398943901062, 'sampling/importance_sampling_ratio/max': 2.1807315349578857, 'kl': 1.0855931602418423, 'entropy': 0.12402932532131672, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 33.78462831599609, 'epoch': 5.42}
+ 68%|██████▊   | 678/1000 [5:50:19<2:47:46, 31.26s/it] 68%|██████▊   | 679/1000 [5:50:48<2:43:50, 30.62s/it]                                                      {'loss': 0.0002, 'grad_norm': 0.004629388451576233, 'learning_rate': 5.977225323984428e-06, 'num_tokens': 109372051.0, 'completions/mean_length': 1761.75, 'completions/min_length': 851.0, 'completions/max_length': 3289.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1761.75, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 3289.0, 'rewards/rollout_reward_func/mean': 12.171875, 'rewards/rollout_reward_func/std': 5.13350248336792, 'reward': 12.171875, 'reward_std': 4.882279396057129, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.02804652601480484, 'sampling/sampling_logp_difference/max': 1.7404041290283203, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8706002831459045, 'sampling/importance_sampling_ratio/max': 2.918304681777954, 'kl': 1.0593407899141312, 'entropy': 0.09861807874403894, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.013450867001666, 'epoch': 5.43}
+ 68%|██████▊   | 679/1000 [5:50:48<2:43:50, 30.62s/it] 68%|██████▊   | 680/1000 [5:51:20<2:45:15, 30.99s/it]                                                      {'loss': 0.0002, 'grad_norm': 0.0035512850154191256, 'learning_rate': 5.943420477085071e-06, 'num_tokens': 109542857.0, 'completions/mean_length': 2115.46875, 'completions/min_length': 784.0, 'completions/max_length': 3585.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2115.46875, 'completions/min_terminated_length': 784.0, 'completions/max_terminated_length': 3585.0, 'rewards/rollout_reward_func/mean': 12.296875, 'rewards/rollout_reward_func/std': 5.4011454582214355, 'reward': 12.296875, 'reward_std': 5.308708190917969, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.034027352929115295, 'sampling/sampling_logp_difference/max': 2.1078696250915527, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8339415788650513, 'sampling/importance_sampling_ratio/max': 2.091346502304077, 'kl': 1.0355480462312698, 'entropy': 0.1171253202483058, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.48573279700213, 'epoch': 5.44}
+ 68%|██████▊   | 680/1000 [5:51:20<2:45:15, 30.99s/it] 68%|██████▊   | 681/1000 [5:51:50<2:43:58, 30.84s/it]                                                      {'loss': -0.0012, 'grad_norm': 0.0046007512137293816, 'learning_rate': 5.90968165486872e-06, 'num_tokens': 109724152.0, 'completions/mean_length': 2273.734375, 'completions/min_length': 1111.0, 'completions/max_length': 3312.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2273.734375, 'completions/min_terminated_length': 1111.0, 'completions/max_terminated_length': 3312.0, 'rewards/rollout_reward_func/mean': 12.901562690734863, 'rewards/rollout_reward_func/std': 5.492404937744141, 'reward': 12.901562690734863, 'reward_std': 5.552070617675781, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03396809846162796, 'sampling/sampling_logp_difference/max': 1.7043614387512207, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8656097054481506, 'sampling/importance_sampling_ratio/max': 2.7477245330810547, 'kl': 0.9568332694470882, 'entropy': 0.11668763402849436, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.512813117020414, 'epoch': 5.45}
+ 68%|██████▊   | 681/1000 [5:51:50<2:43:58, 30.84s/it] 68%|██████▊   | 682/1000 [5:52:24<2:48:34, 31.81s/it]                                                      {'loss': 0.0007, 'grad_norm': 0.0035409601405262947, 'learning_rate': 5.87600919708494e-06, 'num_tokens': 109898782.0, 'completions/mean_length': 2173.21875, 'completions/min_length': 864.0, 'completions/max_length': 3719.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2173.21875, 'completions/min_terminated_length': 864.0, 'completions/max_terminated_length': 3719.0, 'rewards/rollout_reward_func/mean': 13.868749618530273, 'rewards/rollout_reward_func/std': 4.930271625518799, 'reward': 13.86875057220459, 'reward_std': 4.671697616577148, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03336012735962868, 'sampling/sampling_logp_difference/max': 2.5989737510681152, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8798927068710327, 'sampling/importance_sampling_ratio/max': 2.590736150741577, 'kl': 0.9746486283838749, 'entropy': 0.11073235049843788, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.63116392300435, 'epoch': 5.46}
+ 68%|██████▊   | 682/1000 [5:52:24<2:48:34, 31.81s/it] 68%|██████▊   | 683/1000 [5:52:57<2:49:57, 32.17s/it]                                                      {'loss': 0.0004, 'grad_norm': 0.003480637678876519, 'learning_rate': 5.842403442815002e-06, 'num_tokens': 110062458.0, 'completions/mean_length': 2007.6875, 'completions/min_length': 781.0, 'completions/max_length': 3746.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2007.6875, 'completions/min_terminated_length': 781.0, 'completions/max_terminated_length': 3746.0, 'rewards/rollout_reward_func/mean': 11.453125, 'rewards/rollout_reward_func/std': 5.350062370300293, 'reward': 11.453125, 'reward_std': 5.518859386444092, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03305460885167122, 'sampling/sampling_logp_difference/max': 2.705374240875244, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8151137828826904, 'sampling/importance_sampling_ratio/max': 2.5422356128692627, 'kl': 1.0489915497601032, 'entropy': 0.10836359905079007, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.764331892009068, 'epoch': 5.46}
+ 68%|██████▊   | 683/1000 [5:52:57<2:49:57, 32.17s/it] 68%|██████▊   | 684/1000 [5:53:28<2:46:55, 31.69s/it]                                                      {'loss': -0.0003, 'grad_norm': 0.004679266829043627, 'learning_rate': 5.808864730468481e-06, 'num_tokens': 110215619.0, 'completions/mean_length': 1847.015625, 'completions/min_length': 854.0, 'completions/max_length': 3495.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1847.015625, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 3495.0, 'rewards/rollout_reward_func/mean': 11.5703125, 'rewards/rollout_reward_func/std': 5.005542755126953, 'reward': 11.5703125, 'reward_std': 5.098323822021484, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.028397519141435623, 'sampling/sampling_logp_difference/max': 1.8464672565460205, 'sampling/importance_sampling_ratio/min': 0.10813740640878677, 'sampling/importance_sampling_ratio/mean': 0.9715849757194519, 'sampling/importance_sampling_ratio/max': 2.5344388484954834, 'kl': 1.0374820083379745, 'entropy': 0.10582701559178531, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.497016368994082, 'epoch': 5.47}
+ 68%|██████▊   | 684/1000 [5:53:28<2:46:55, 31.69s/it] 68%|██████▊   | 685/1000 [5:53:59<2:45:44, 31.57s/it]                                                      {'loss': 0.0014, 'grad_norm': 0.005779690109193325, 'learning_rate': 5.775393397779845e-06, 'num_tokens': 110394686.0, 'completions/mean_length': 2240.546875, 'completions/min_length': 783.0, 'completions/max_length': 3514.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2240.546875, 'completions/min_terminated_length': 783.0, 'completions/max_terminated_length': 3514.0, 'rewards/rollout_reward_func/mean': 12.621875762939453, 'rewards/rollout_reward_func/std': 5.3993377685546875, 'reward': 12.621874809265137, 'reward_std': 5.21086311340332, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.038070596754550934, 'sampling/sampling_logp_difference/max': 1.8527374267578125, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.766451895236969, 'sampling/importance_sampling_ratio/max': 2.187506914138794, 'kl': 1.320021629333496, 'entropy': 0.11808646190911531, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.975699586007977, 'epoch': 5.48}
+ 68%|██████▊   | 685/1000 [5:53:59<2:45:44, 31.57s/it] 69%|██████▊   | 686/1000 [5:54:34<2:50:11, 32.52s/it]                                                      {'loss': 0.0002, 'grad_norm': 0.0036685026716440916, 'learning_rate': 5.741989781805035e-06, 'num_tokens': 110549231.0, 'completions/mean_length': 1868.640625, 'completions/min_length': 782.0, 'completions/max_length': 3940.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1868.640625, 'completions/min_terminated_length': 782.0, 'completions/max_terminated_length': 3940.0, 'rewards/rollout_reward_func/mean': 11.537500381469727, 'rewards/rollout_reward_func/std': 4.989306449890137, 'reward': 11.537500381469727, 'reward_std': 4.8031511306762695, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.039063334465026855, 'sampling/sampling_logp_difference/max': 2.227294683456421, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7386258244514465, 'sampling/importance_sampling_ratio/max': 2.902763843536377, 'kl': 0.9483591485768557, 'entropy': 0.10691033350303769, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 33.37131724599021, 'epoch': 5.49}
+ 69%|██████▊   | 686/1000 [5:54:34<2:50:11, 32.52s/it] 69%|██████▊   | 687/1000 [5:55:03<2:44:45, 31.58s/it]                                                      {'loss': -0.0007, 'grad_norm': 0.00439834501594305, 'learning_rate': 5.70865421891809e-06, 'num_tokens': 110701423.0, 'completions/mean_length': 1832.25, 'completions/min_length': 782.0, 'completions/max_length': 3382.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1832.25, 'completions/min_terminated_length': 782.0, 'completions/max_terminated_length': 3382.0, 'rewards/rollout_reward_func/mean': 12.28125, 'rewards/rollout_reward_func/std': 5.2969255447387695, 'reward': 12.28125, 'reward_std': 5.490515232086182, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03390508517622948, 'sampling/sampling_logp_difference/max': 2.069340467453003, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.844688892364502, 'sampling/importance_sampling_ratio/max': 2.1851351261138916, 'kl': 1.0515353754162788, 'entropy': 0.10397178842686117, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.323749663984927, 'epoch': 5.5}
+ 69%|██████▊   | 687/1000 [5:55:03<2:44:45, 31.58s/it] 69%|██████▉   | 688/1000 [5:55:32<2:40:21, 30.84s/it]                                                      {'loss': -0.0004, 'grad_norm': 0.005801804829388857, 'learning_rate': 5.675387044807762e-06, 'num_tokens': 110855659.0, 'completions/mean_length': 1862.9375, 'completions/min_length': 1184.0, 'completions/max_length': 3339.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1862.9375, 'completions/min_terminated_length': 1184.0, 'completions/max_terminated_length': 3339.0, 'rewards/rollout_reward_func/mean': 11.579687118530273, 'rewards/rollout_reward_func/std': 5.300709247589111, 'reward': 11.579687118530273, 'reward_std': 5.428766250610352, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.026347719132900238, 'sampling/sampling_logp_difference/max': 2.172710657119751, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8971872329711914, 'sampling/importance_sampling_ratio/max': 2.0524370670318604, 'kl': 1.065950907766819, 'entropy': 0.09804962831549346, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.031838387003518, 'epoch': 5.5}
+ 69%|██████▉   | 688/1000 [5:55:32<2:40:21, 30.84s/it] 69%|██████▉   | 689/1000 [5:56:03<2:38:50, 30.64s/it]                                                      {'loss': 0.0006, 'grad_norm': 0.00474990950897336, 'learning_rate': 5.642188594474129e-06, 'num_tokens': 111010206.0, 'completions/mean_length': 1868.671875, 'completions/min_length': 852.0, 'completions/max_length': 3426.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1868.671875, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3426.0, 'rewards/rollout_reward_func/mean': 11.535937309265137, 'rewards/rollout_reward_func/std': 5.296191215515137, 'reward': 11.535938262939453, 'reward_std': 5.400064945220947, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.028191840276122093, 'sampling/sampling_logp_difference/max': 1.539433479309082, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9037786722183228, 'sampling/importance_sampling_ratio/max': 2.667834997177124, 'kl': 0.8140238039195538, 'entropy': 0.09833352128043771, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.899359204995562, 'epoch': 5.51}
+ 69%|██████▉   | 689/1000 [5:56:03<2:38:50, 30.64s/it] 69%|██████▉   | 690/1000 [5:56:33<2:37:17, 30.45s/it]                                                      {'loss': 0.0012, 'grad_norm': 0.004849603865295649, 'learning_rate': 5.609059202225211e-06, 'num_tokens': 111152438.0, 'completions/mean_length': 1681.875, 'completions/min_length': 786.0, 'completions/max_length': 3464.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1681.875, 'completions/min_terminated_length': 786.0, 'completions/max_terminated_length': 3464.0, 'rewards/rollout_reward_func/mean': 11.25, 'rewards/rollout_reward_func/std': 5.0360918045043945, 'reward': 11.25, 'reward_std': 5.040091514587402, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.035549283027648926, 'sampling/sampling_logp_difference/max': 2.0271196365356445, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9467035531997681, 'sampling/importance_sampling_ratio/max': 2.6165308952331543, 'kl': 0.8934179656207561, 'entropy': 0.09960201475769281, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.684391712013166, 'epoch': 5.52}
+ 69%|██████▉   | 690/1000 [5:56:33<2:37:17, 30.45s/it] 69%|██████▉   | 691/1000 [5:57:03<2:36:37, 30.41s/it]                                                      {'loss': -0.0001, 'grad_norm': 0.0043318974785506725, 'learning_rate': 5.575999201673622e-06, 'num_tokens': 111315722.0, 'completions/mean_length': 2001.9375, 'completions/min_length': 854.0, 'completions/max_length': 3453.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2001.9375, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 3453.0, 'rewards/rollout_reward_func/mean': 11.329687118530273, 'rewards/rollout_reward_func/std': 5.304765224456787, 'reward': 11.329687118530273, 'reward_std': 5.331844806671143, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03380779176950455, 'sampling/sampling_logp_difference/max': 2.057293176651001, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8893437385559082, 'sampling/importance_sampling_ratio/max': 2.988891839981079, 'kl': 0.9379531964659691, 'entropy': 0.11050593620166183, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.185443749003753, 'epoch': 5.53}
+ 69%|██████▉   | 691/1000 [5:57:03<2:36:37, 30.41s/it] 69%|██████▉   | 692/1000 [5:57:35<2:37:54, 30.76s/it]                                                      {'loss': -0.0006, 'grad_norm': 0.003547020722180605, 'learning_rate': 5.543008925733206e-06, 'num_tokens': 111495392.0, 'completions/mean_length': 2250.34375, 'completions/min_length': 1210.0, 'completions/max_length': 3607.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2250.34375, 'completions/min_terminated_length': 1210.0, 'completions/max_terminated_length': 3607.0, 'rewards/rollout_reward_func/mean': 12.240625381469727, 'rewards/rollout_reward_func/std': 4.991412162780762, 'reward': 12.240625381469727, 'reward_std': 5.10834264755249, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03711200878024101, 'sampling/sampling_logp_difference/max': 1.8987863063812256, 'sampling/importance_sampling_ratio/min': 0.08812771737575531, 'sampling/importance_sampling_ratio/mean': 0.8654650449752808, 'sampling/importance_sampling_ratio/max': 2.712581157684326, 'kl': 1.4043430723249912, 'entropy': 0.12798729864880443, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.288088601984782, 'epoch': 5.54}
+ 69%|██████▉   | 692/1000 [5:57:35<2:37:54, 30.76s/it] 69%|██████▉   | 693/1000 [5:58:04<2:35:58, 30.48s/it]                                                      {'loss': -0.001, 'grad_norm': 0.005099515896290541, 'learning_rate': 5.510088706615667e-06, 'num_tokens': 111630560.0, 'completions/mean_length': 1574.25, 'completions/min_length': 852.0, 'completions/max_length': 3426.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1574.25, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3426.0, 'rewards/rollout_reward_func/mean': 10.6640625, 'rewards/rollout_reward_func/std': 5.4451775550842285, 'reward': 10.6640625, 'reward_std': 4.564518928527832, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.02550394833087921, 'sampling/sampling_logp_difference/max': 1.4062762260437012, 'sampling/importance_sampling_ratio/min': 0.10595657676458359, 'sampling/importance_sampling_ratio/mean': 0.9959873557090759, 'sampling/importance_sampling_ratio/max': 2.8465263843536377, 'kl': 1.5603026002645493, 'entropy': 0.08982491167262197, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.54188027899363, 'epoch': 5.54}
+ 69%|██████▉   | 693/1000 [5:58:04<2:35:58, 30.48s/it] 69%|██████▉   | 694/1000 [5:58:36<2:37:05, 30.80s/it]                                                      {'loss': -0.0002, 'grad_norm': 0.004585603252053261, 'learning_rate': 5.477238875827248e-06, 'num_tokens': 111821260.0, 'completions/mean_length': 2418.6875, 'completions/min_length': 1267.0, 'completions/max_length': 3545.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2418.6875, 'completions/min_terminated_length': 1267.0, 'completions/max_terminated_length': 3545.0, 'rewards/rollout_reward_func/mean': 12.674999237060547, 'rewards/rollout_reward_func/std': 5.100265026092529, 'reward': 12.674999237060547, 'reward_std': 4.826728820800781, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.037234194576740265, 'sampling/sampling_logp_difference/max': 1.9360918998718262, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9245603680610657, 'sampling/importance_sampling_ratio/max': 2.625657081604004, 'kl': 1.0643690563738346, 'entropy': 0.1242930549196899, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.236582429992268, 'epoch': 5.55}
+ 69%|██████▉   | 694/1000 [5:58:36<2:37:05, 30.80s/it] 70%|██████▉   | 695/1000 [5:59:14<2:47:11, 32.89s/it]                                                      {'loss': 0.0022, 'grad_norm': 0.007387041114270687, 'learning_rate': 5.4444597641653886e-06, 'num_tokens': 111994101.0, 'completions/mean_length': 2147.265625, 'completions/min_length': 851.0, 'completions/max_length': 4227.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2147.265625, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 4227.0, 'rewards/rollout_reward_func/mean': 11.443750381469727, 'rewards/rollout_reward_func/std': 5.347418308258057, 'reward': 11.443750381469727, 'reward_std': 4.774629592895508, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.035831935703754425, 'sampling/sampling_logp_difference/max': 2.2302041053771973, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7708740234375, 'sampling/importance_sampling_ratio/max': 2.5194125175476074, 'kl': 1.1971968077123165, 'entropy': 0.11701669823378325, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 36.41333799900167, 'epoch': 5.56}
+ 70%|██████▉   | 695/1000 [5:59:14<2:47:11, 32.89s/it] 70%|██████▉   | 696/1000 [5:59:47<2:47:31, 33.07s/it]                                                      {'loss': -0.0013, 'grad_norm': 0.0038504712283611298, 'learning_rate': 5.411751701715367e-06, 'num_tokens': 112148020.0, 'completions/mean_length': 1859.234375, 'completions/min_length': 854.0, 'completions/max_length': 3766.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1859.234375, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 3766.0, 'rewards/rollout_reward_func/mean': 11.71875, 'rewards/rollout_reward_func/std': 5.041789531707764, 'reward': 11.71875, 'reward_std': 4.979987621307373, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03052826225757599, 'sampling/sampling_logp_difference/max': 2.3381364345550537, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8275361061096191, 'sampling/importance_sampling_ratio/max': 2.3560750484466553, 'kl': 0.981974583119154, 'entropy': 0.09752855636179447, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.26566936298332, 'epoch': 5.57}
+ 70%|██████▉   | 696/1000 [5:59:47<2:47:31, 33.07s/it] 70%|██████▉   | 697/1000 [6:00:18<2:43:44, 32.42s/it]                                                      {'loss': -0.0006, 'grad_norm': 0.0036383005790412426, 'learning_rate': 5.379115017847016e-06, 'num_tokens': 112297755.0, 'completions/mean_length': 1795.484375, 'completions/min_length': 853.0, 'completions/max_length': 3568.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1795.484375, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3568.0, 'rewards/rollout_reward_func/mean': 12.064062118530273, 'rewards/rollout_reward_func/std': 5.166201591491699, 'reward': 12.06406307220459, 'reward_std': 5.073904991149902, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03074859082698822, 'sampling/sampling_logp_difference/max': 1.553635835647583, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.903628945350647, 'sampling/importance_sampling_ratio/max': 2.4665608406066895, 'kl': 0.9629217498004436, 'entropy': 0.09506007866002619, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.586295078996045, 'epoch': 5.58}
+ 70%|██████▉   | 697/1000 [6:00:18<2:43:44, 32.42s/it] 70%|██████▉   | 698/1000 [6:00:49<2:40:52, 31.96s/it]                                                      {'loss': 0.0011, 'grad_norm': 0.005507027730345726, 'learning_rate': 5.3465500412113814e-06, 'num_tokens': 112467149.0, 'completions/mean_length': 2093.03125, 'completions/min_length': 785.0, 'completions/max_length': 3421.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2093.03125, 'completions/min_terminated_length': 785.0, 'completions/max_terminated_length': 3421.0, 'rewards/rollout_reward_func/mean': 12.065625190734863, 'rewards/rollout_reward_func/std': 5.810150623321533, 'reward': 12.065625190734863, 'reward_std': 5.475921630859375, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.036788806319236755, 'sampling/sampling_logp_difference/max': 2.067749261856079, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8367887735366821, 'sampling/importance_sampling_ratio/max': 2.8030776977539062, 'kl': 1.041028555482626, 'entropy': 0.10979631543159485, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.59474955200858, 'epoch': 5.58}
+ 70%|██████▉   | 698/1000 [6:00:49<2:40:52, 31.96s/it] 70%|██████▉   | 699/1000 [6:01:18<2:35:41, 31.03s/it]                                                      {'loss': 0.0006, 'grad_norm': 0.0064581395126879215, 'learning_rate': 5.31405709973741e-06, 'num_tokens': 112623890.0, 'completions/mean_length': 1901.328125, 'completions/min_length': 784.0, 'completions/max_length': 3194.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1901.328125, 'completions/min_terminated_length': 784.0, 'completions/max_terminated_length': 3194.0, 'rewards/rollout_reward_func/mean': 12.115625381469727, 'rewards/rollout_reward_func/std': 5.094791412353516, 'reward': 12.115625381469727, 'reward_std': 4.606990337371826, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.031314752995967865, 'sampling/sampling_logp_difference/max': 1.6989424228668213, 'sampling/importance_sampling_ratio/min': 0.13014346361160278, 'sampling/importance_sampling_ratio/mean': 0.9974181652069092, 'sampling/importance_sampling_ratio/max': 2.7502124309539795, 'kl': 1.0316732227802277, 'entropy': 0.10189763084053993, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 27.65297139598988, 'epoch': 5.59}
+ 70%|██████▉   | 699/1000 [6:01:18<2:35:41, 31.03s/it] 70%|███████   | 700/1000 [6:01:48<2:34:33, 30.91s/it]                                                      {'loss': 0.0008, 'grad_norm': 0.00449754623696208, 'learning_rate': 5.281636520628666e-06, 'num_tokens': 112791457.0, 'completions/mean_length': 2066.484375, 'completions/min_length': 863.0, 'completions/max_length': 3470.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2066.484375, 'completions/min_terminated_length': 863.0, 'completions/max_terminated_length': 3470.0, 'rewards/rollout_reward_func/mean': 12.223438262939453, 'rewards/rollout_reward_func/std': 5.504132270812988, 'reward': 12.223437309265137, 'reward_std': 5.316640853881836, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03429523482918739, 'sampling/sampling_logp_difference/max': 1.8036760091781616, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.816967248916626, 'sampling/importance_sampling_ratio/max': 2.1259169578552246, 'kl': 0.9432846494019032, 'entropy': 0.11633535102009773, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.319631279970054, 'epoch': 5.6}
+ 70%|███████   | 700/1000 [6:01:49<2:34:33, 30.91s/it] 70%|███████   | 701/1000 [6:02:20<2:35:13, 31.15s/it]                                                      {'loss': 0.0003, 'grad_norm': 0.006839631590992212, 'learning_rate': 5.249288630360025e-06, 'num_tokens': 112959574.0, 'completions/mean_length': 2075.453125, 'completions/min_length': 857.0, 'completions/max_length': 3643.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2075.453125, 'completions/min_terminated_length': 857.0, 'completions/max_terminated_length': 3643.0, 'rewards/rollout_reward_func/mean': 11.0859375, 'rewards/rollout_reward_func/std': 5.221958160400391, 'reward': 11.0859375, 'reward_std': 5.120162010192871, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03113393299281597, 'sampling/sampling_logp_difference/max': 1.9684476852416992, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8973597884178162, 'sampling/importance_sampling_ratio/max': 2.7420551776885986, 'kl': 1.0811504125595093, 'entropy': 0.10348338633775711, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.625794726001914, 'epoch': 5.61}
+ 70%|███████   | 701/1000 [6:02:20<2:35:13, 31.15s/it] 70%|███████   | 702/1000 [6:02:55<2:39:50, 32.18s/it]                                                      {'loss': 0.0008, 'grad_norm': 0.004891836084425449, 'learning_rate': 5.217013754674373e-06, 'num_tokens': 113086855.0, 'completions/mean_length': 1454.640625, 'completions/min_length': 784.0, 'completions/max_length': 4035.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1454.640625, 'completions/min_terminated_length': 784.0, 'completions/max_terminated_length': 4035.0, 'rewards/rollout_reward_func/mean': 10.796875, 'rewards/rollout_reward_func/std': 5.019136905670166, 'reward': 10.796875, 'reward_std': 5.151810169219971, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.023779504001140594, 'sampling/sampling_logp_difference/max': 1.2591352462768555, 'sampling/importance_sampling_ratio/min': 0.15504474937915802, 'sampling/importance_sampling_ratio/mean': 0.9399964809417725, 'sampling/importance_sampling_ratio/max': 2.997854471206665, 'kl': 0.8434341885149479, 'entropy': 0.08362680906429887, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 33.060391956001695, 'epoch': 5.62}
+ 70%|███████   | 702/1000 [6:02:55<2:39:50, 32.18s/it] 70%|███████   | 703/1000 [6:03:26<2:38:04, 31.93s/it]                                                      {'loss': -0.0014, 'grad_norm': 0.004463979508727789, 'learning_rate': 5.18481221857936e-06, 'num_tokens': 113239889.0, 'completions/mean_length': 1845.40625, 'completions/min_length': 863.0, 'completions/max_length': 3577.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1845.40625, 'completions/min_terminated_length': 863.0, 'completions/max_terminated_length': 3577.0, 'rewards/rollout_reward_func/mean': 11.748437881469727, 'rewards/rollout_reward_func/std': 5.345818519592285, 'reward': 11.74843692779541, 'reward_std': 5.359016418457031, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.0358479768037796, 'sampling/sampling_logp_difference/max': 1.9568867683410645, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9265207052230835, 'sampling/importance_sampling_ratio/max': 2.851029396057129, 'kl': 1.541221298277378, 'entropy': 0.09770536422729492, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.022784374988987, 'epoch': 5.62}
+ 70%|███████   | 703/1000 [6:03:26<2:38:04, 31.93s/it] 70%|███████   | 704/1000 [6:03:57<2:35:45, 31.57s/it]                                                      {'loss': -0.0004, 'grad_norm': 0.003788650967180729, 'learning_rate': 5.152684346344087e-06, 'num_tokens': 113398593.0, 'completions/mean_length': 1932.0, 'completions/min_length': 851.0, 'completions/max_length': 3430.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1932.0, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 3430.0, 'rewards/rollout_reward_func/mean': 12.557811737060547, 'rewards/rollout_reward_func/std': 5.210484027862549, 'reward': 12.557811737060547, 'reward_std': 4.935910224914551, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03243996948003769, 'sampling/sampling_logp_difference/max': 2.4525699615478516, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9186052083969116, 'sampling/importance_sampling_ratio/max': 2.4249660968780518, 'kl': 0.9768190160393715, 'entropy': 0.11039167968556285, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.436427971981175, 'epoch': 5.63}
+ 70%|███████   | 704/1000 [6:03:57<2:35:45, 31.57s/it] 70%|███████   | 705/1000 [6:04:18<2:19:56, 28.46s/it]                                                      {'loss': -0.001, 'grad_norm': 0.0033418629318475723, 'learning_rate': 5.12063046149588e-06, 'num_tokens': 113516448.0, 'completions/mean_length': 1311.359375, 'completions/min_length': 850.0, 'completions/max_length': 2474.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1311.359375, 'completions/min_terminated_length': 850.0, 'completions/max_terminated_length': 2474.0, 'rewards/rollout_reward_func/mean': 11.548437118530273, 'rewards/rollout_reward_func/std': 5.025680065155029, 'reward': 11.548437118530273, 'reward_std': 4.995125770568848, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.02827025018632412, 'sampling/sampling_logp_difference/max': 2.3717806339263916, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8595888614654541, 'sampling/importance_sampling_ratio/max': 2.8202056884765625, 'kl': 1.1073500886559486, 'entropy': 0.07336185616441071, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 20.39040235998982, 'epoch': 5.64}
+ 70%|███████   | 705/1000 [6:04:18<2:19:56, 28.46s/it] 71%|███████   | 706/1000 [6:04:42<2:13:04, 27.16s/it]                                                      {'loss': -0.0, 'grad_norm': 0.005637948866933584, 'learning_rate': 5.088650886816996e-06, 'num_tokens': 113660528.0, 'completions/mean_length': 1709.125, 'completions/min_length': 852.0, 'completions/max_length': 2744.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1709.125, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 2744.0, 'rewards/rollout_reward_func/mean': 12.015625, 'rewards/rollout_reward_func/std': 5.088618755340576, 'reward': 12.015625, 'reward_std': 4.523592472076416, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.02815089002251625, 'sampling/sampling_logp_difference/max': 2.112539768218994, 'sampling/importance_sampling_ratio/min': 0.06584173440933228, 'sampling/importance_sampling_ratio/mean': 0.908170223236084, 'sampling/importance_sampling_ratio/max': 2.357137441635132, 'kl': 0.9666280336678028, 'entropy': 0.09341292222961783, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 23.103197292002733, 'epoch': 5.65}
+ 71%|███████   | 706/1000 [6:04:42<2:13:04, 27.16s/it] 71%|███████   | 707/1000 [6:05:06<2:07:07, 26.03s/it]                                                      {'loss': -0.0006, 'grad_norm': 0.005206936504691839, 'learning_rate': 5.056745944341401e-06, 'num_tokens': 113782895.0, 'completions/mean_length': 1379.859375, 'completions/min_length': 780.0, 'completions/max_length': 2763.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1379.859375, 'completions/min_terminated_length': 780.0, 'completions/max_terminated_length': 2763.0, 'rewards/rollout_reward_func/mean': 10.356249809265137, 'rewards/rollout_reward_func/std': 4.916893005371094, 'reward': 10.356249809265137, 'reward_std': 4.8839826583862305, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.027907073497772217, 'sampling/sampling_logp_difference/max': 2.633450508117676, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8442832827568054, 'sampling/importance_sampling_ratio/max': 2.5383310317993164, 'kl': 1.0408270061016083, 'entropy': 0.07788176438771188, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 22.507832575989596, 'epoch': 5.66}
+ 71%|███████   | 707/1000 [6:05:06<2:07:07, 26.03s/it] 71%|███████   | 708/1000 [6:05:37<2:14:22, 27.61s/it]                                                      {'loss': -0.0008, 'grad_norm': 0.005757576785981655, 'learning_rate': 5.024915955351514e-06, 'num_tokens': 113953599.0, 'completions/mean_length': 2113.875, 'completions/min_length': 867.0, 'completions/max_length': 3579.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2113.875, 'completions/min_terminated_length': 867.0, 'completions/max_terminated_length': 3579.0, 'rewards/rollout_reward_func/mean': 12.2109375, 'rewards/rollout_reward_func/std': 5.116581439971924, 'reward': 12.210938453674316, 'reward_std': 4.8346452713012695, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03195105865597725, 'sampling/sampling_logp_difference/max': 2.0521957874298096, 'sampling/importance_sampling_ratio/min': 0.09100975096225739, 'sampling/importance_sampling_ratio/mean': 0.8440483808517456, 'sampling/importance_sampling_ratio/max': 2.905663251876831, 'kl': 1.0499858744442463, 'entropy': 0.10361774638295174, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.955425936008396, 'epoch': 5.66}
+ 71%|███████   | 708/1000 [6:05:37<2:14:22, 27.61s/it] 71%|███████   | 709/1000 [6:06:10<2:22:30, 29.38s/it]                                                      {'loss': 0.0004, 'grad_norm': 0.005612567067146301, 'learning_rate': 4.993161240374964e-06, 'num_tokens': 114123282.0, 'completions/mean_length': 2099.921875, 'completions/min_length': 854.0, 'completions/max_length': 3647.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2099.921875, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 3647.0, 'rewards/rollout_reward_func/mean': 11.8125, 'rewards/rollout_reward_func/std': 5.377599239349365, 'reward': 11.8125, 'reward_std': 5.1449809074401855, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.035666581243276596, 'sampling/sampling_logp_difference/max': 3.118558883666992, 'sampling/importance_sampling_ratio/min': 0.00460602855309844, 'sampling/importance_sampling_ratio/mean': 0.808608889579773, 'sampling/importance_sampling_ratio/max': 2.6632261276245117, 'kl': 1.1118900068104267, 'entropy': 0.10355821577832103, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.35475128200778, 'epoch': 5.67}
+ 71%|███████   | 709/1000 [6:06:10<2:22:30, 29.38s/it] 71%|███████   | 710/1000 [6:06:44<2:28:26, 30.71s/it]                                                      {'loss': 0.0005, 'grad_norm': 0.0051201204769313335, 'learning_rate': 4.961482119181381e-06, 'num_tokens': 114317786.0, 'completions/mean_length': 2476.125, 'completions/min_length': 1197.0, 'completions/max_length': 3661.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2476.125, 'completions/min_terminated_length': 1197.0, 'completions/max_terminated_length': 3661.0, 'rewards/rollout_reward_func/mean': 11.807812690734863, 'rewards/rollout_reward_func/std': 5.113297462463379, 'reward': 11.807811737060547, 'reward_std': 5.238959312438965, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.038041193038225174, 'sampling/sampling_logp_difference/max': 3.89981746673584, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8853822946548462, 'sampling/importance_sampling_ratio/max': 2.5256338119506836, 'kl': 1.0377920269966125, 'entropy': 0.12492832727730274, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.58439928300504, 'epoch': 5.68}
+ 71%|███████   | 710/1000 [6:06:44<2:28:26, 30.71s/it] 71%|███████   | 711/1000 [6:07:19<2:34:04, 31.99s/it]                                                      {'loss': 0.0004, 'grad_norm': 0.004436237271875143, 'learning_rate': 4.929878910779169e-06, 'num_tokens': 114475932.0, 'completions/mean_length': 1923.28125, 'completions/min_length': 849.0, 'completions/max_length': 3977.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1923.28125, 'completions/min_terminated_length': 849.0, 'completions/max_terminated_length': 3977.0, 'rewards/rollout_reward_func/mean': 11.418750762939453, 'rewards/rollout_reward_func/std': 5.468173027038574, 'reward': 11.418750762939453, 'reward_std': 5.0815253257751465, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.02658693864941597, 'sampling/sampling_logp_difference/max': 1.7066986560821533, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8956543207168579, 'sampling/importance_sampling_ratio/max': 2.7384033203125, 'kl': 0.9308305606245995, 'entropy': 0.09769895998761058, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 33.6993410829964, 'epoch': 5.69}
+ 71%|███████   | 711/1000 [6:07:19<2:34:04, 31.99s/it] 71%|███████   | 712/1000 [6:07:44<2:23:37, 29.92s/it]                                                      {'loss': -0.0009, 'grad_norm': 0.007936510257422924, 'learning_rate': 4.898351933412278e-06, 'num_tokens': 114616854.0, 'completions/mean_length': 1661.78125, 'completions/min_length': 852.0, 'completions/max_length': 2798.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1661.78125, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 2798.0, 'rewards/rollout_reward_func/mean': 10.128124237060547, 'rewards/rollout_reward_func/std': 5.218936443328857, 'reward': 10.128125190734863, 'reward_std': 4.880169868469238, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.028357747942209244, 'sampling/sampling_logp_difference/max': 2.2441816329956055, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9747009873390198, 'sampling/importance_sampling_ratio/max': 2.5643858909606934, 'kl': 1.3480688482522964, 'entropy': 0.08802390354685485, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 24.045230474002892, 'epoch': 5.7}
+ 71%|███████   | 712/1000 [6:07:44<2:23:37, 29.92s/it] 71%|███████▏  | 713/1000 [6:08:15<2:24:17, 30.17s/it]                                                      {'loss': 0.0005, 'grad_norm': 0.005217761266976595, 'learning_rate': 4.866901504557023e-06, 'num_tokens': 114776214.0, 'completions/mean_length': 1942.25, 'completions/min_length': 785.0, 'completions/max_length': 3555.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1942.25, 'completions/min_terminated_length': 785.0, 'completions/max_terminated_length': 3555.0, 'rewards/rollout_reward_func/mean': 12.109375, 'rewards/rollout_reward_func/std': 5.081423282623291, 'reward': 12.109375, 'reward_std': 5.122499942779541, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.039794158190488815, 'sampling/sampling_logp_difference/max': 2.053309202194214, 'sampling/importance_sampling_ratio/min': 0.06300943344831467, 'sampling/importance_sampling_ratio/mean': 0.839377760887146, 'sampling/importance_sampling_ratio/max': 2.7379558086395264, 'kl': 1.2264623567461967, 'entropy': 0.1145280918572098, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.406437009987712, 'epoch': 5.7}
+ 71%|███████▏  | 713/1000 [6:08:15<2:24:17, 30.17s/it] 71%|███████▏  | 714/1000 [6:08:40<2:16:31, 28.64s/it]                                                      {'loss': -0.0012, 'grad_norm': 0.007524756249040365, 'learning_rate': 4.835527940918878e-06, 'num_tokens': 114923500.0, 'completions/mean_length': 1757.59375, 'completions/min_length': 850.0, 'completions/max_length': 2856.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1757.59375, 'completions/min_terminated_length': 850.0, 'completions/max_terminated_length': 2856.0, 'rewards/rollout_reward_func/mean': 11.6484375, 'rewards/rollout_reward_func/std': 5.530779838562012, 'reward': 11.6484375, 'reward_std': 5.208975791931152, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03163028508424759, 'sampling/sampling_logp_difference/max': 1.8905177116394043, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.887438178062439, 'sampling/importance_sampling_ratio/max': 1.9943716526031494, 'kl': 1.2925843372941017, 'entropy': 0.09490097593516111, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 24.125246262985456, 'epoch': 5.71}
+ 71%|███████▏  | 714/1000 [6:08:40<2:16:31, 28.64s/it] 72%|███████▏  | 715/1000 [6:09:10<2:18:10, 29.09s/it]                                                      {'loss': -0.0001, 'grad_norm': 0.006921730935573578, 'learning_rate': 4.804231558429271e-06, 'num_tokens': 115071412.0, 'completions/mean_length': 1767.375, 'completions/min_length': 782.0, 'completions/max_length': 3477.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1767.375, 'completions/min_terminated_length': 782.0, 'completions/max_terminated_length': 3477.0, 'rewards/rollout_reward_func/mean': 11.8125, 'rewards/rollout_reward_func/std': 4.811016082763672, 'reward': 11.8125, 'reward_std': 4.743554592132568, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.02982010319828987, 'sampling/sampling_logp_difference/max': 1.33182692527771, 'sampling/importance_sampling_ratio/min': 0.05269757658243179, 'sampling/importance_sampling_ratio/mean': 0.9981058835983276, 'sampling/importance_sampling_ratio/max': 2.299151659011841, 'kl': 1.1733690537512302, 'entropy': 0.08936947491019964, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.986855713003024, 'epoch': 5.72}
+ 72%|███████▏  | 715/1000 [6:09:10<2:18:10, 29.09s/it] 72%|███████▏  | 716/1000 [6:09:42<2:21:21, 29.87s/it]                                                      {'loss': -0.0009, 'grad_norm': 0.004779125563800335, 'learning_rate': 4.7730126722424345e-06, 'num_tokens': 115223903.0, 'completions/mean_length': 1836.921875, 'completions/min_length': 852.0, 'completions/max_length': 3618.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1836.921875, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3618.0, 'rewards/rollout_reward_func/mean': 10.160938262939453, 'rewards/rollout_reward_func/std': 5.606391429901123, 'reward': 10.160937309265137, 'reward_std': 5.609121322631836, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.030528103932738304, 'sampling/sampling_logp_difference/max': 2.2187390327453613, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.846779465675354, 'sampling/importance_sampling_ratio/max': 2.657527208328247, 'kl': 0.9520748443901539, 'entropy': 0.09860955085605383, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.325946761018713, 'epoch': 5.73}
+ 72%|███████▏  | 716/1000 [6:09:42<2:21:21, 29.87s/it] 72%|███████▏  | 717/1000 [6:10:21<2:33:24, 32.53s/it]                                                      {'loss': 0.001, 'grad_norm': 0.004260528367012739, 'learning_rate': 4.741871596732204e-06, 'num_tokens': 115404674.0, 'completions/mean_length': 2268.796875, 'completions/min_length': 849.0, 'completions/max_length': 4300.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2268.796875, 'completions/min_terminated_length': 849.0, 'completions/max_terminated_length': 4300.0, 'rewards/rollout_reward_func/mean': 10.637499809265137, 'rewards/rollout_reward_func/std': 5.681087970733643, 'reward': 10.637499809265137, 'reward_std': 5.449222564697266, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03653676062822342, 'sampling/sampling_logp_difference/max': 1.6499593257904053, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8618779182434082, 'sampling/importance_sampling_ratio/max': 2.582148790359497, 'kl': 1.2059214673936367, 'entropy': 0.11739674210548401, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 37.2537932460109, 'epoch': 5.74}
+ 72%|███████▏  | 717/1000 [6:10:21<2:33:24, 32.53s/it] 72%|███████▏  | 718/1000 [6:10:50<2:28:04, 31.50s/it]                                                      {'loss': -0.0023, 'grad_norm': 0.0036279300693422556, 'learning_rate': 4.710808645488861e-06, 'num_tokens': 115560019.0, 'completions/mean_length': 1879.890625, 'completions/min_length': 783.0, 'completions/max_length': 3220.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1879.890625, 'completions/min_terminated_length': 783.0, 'completions/max_terminated_length': 3220.0, 'rewards/rollout_reward_func/mean': 12.0, 'rewards/rollout_reward_func/std': 5.699094772338867, 'reward': 12.0, 'reward_std': 5.473826885223389, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.02698713168501854, 'sampling/sampling_logp_difference/max': 1.2624306678771973, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8724261522293091, 'sampling/importance_sampling_ratio/max': 2.623652458190918, 'kl': 1.2349573150277138, 'entropy': 0.09661001292988658, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 27.891713674012863, 'epoch': 5.74}
+ 72%|███████▏  | 718/1000 [6:10:50<2:28:04, 31.50s/it] 72%|███████▏  | 719/1000 [6:11:15<2:19:14, 29.73s/it]                                                      {'loss': 0.0003, 'grad_norm': 0.0050056069158017635, 'learning_rate': 4.679824131315981e-06, 'num_tokens': 115710684.0, 'completions/mean_length': 1808.765625, 'completions/min_length': 853.0, 'completions/max_length': 2879.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1808.765625, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 2879.0, 'rewards/rollout_reward_func/mean': 11.118749618530273, 'rewards/rollout_reward_func/std': 5.591458320617676, 'reward': 11.118749618530273, 'reward_std': 5.364971160888672, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.027410436421632767, 'sampling/sampling_logp_difference/max': 1.949507236480713, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9813925623893738, 'sampling/importance_sampling_ratio/max': 2.6573612689971924, 'kl': 1.0745505467057228, 'entropy': 0.09508428396657109, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 24.51331877499615, 'epoch': 5.75}
+ 72%|███████▏  | 719/1000 [6:11:15<2:19:14, 29.73s/it] 72%|███████▏  | 720/1000 [6:11:44<2:17:16, 29.42s/it]                                                      {'loss': 0.0013, 'grad_norm': 0.0061990562826395035, 'learning_rate': 4.648918366227282e-06, 'num_tokens': 115852038.0, 'completions/mean_length': 1668.53125, 'completions/min_length': 783.0, 'completions/max_length': 3309.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1668.53125, 'completions/min_terminated_length': 783.0, 'completions/max_terminated_length': 3309.0, 'rewards/rollout_reward_func/mean': 11.671875, 'rewards/rollout_reward_func/std': 5.252829074859619, 'reward': 11.671875, 'reward_std': 5.196512222290039, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.026412490755319595, 'sampling/sampling_logp_difference/max': 2.1922035217285156, 'sampling/importance_sampling_ratio/min': 0.06745340675115585, 'sampling/importance_sampling_ratio/mean': 0.9972076416015625, 'sampling/importance_sampling_ratio/max': 2.921804904937744, 'kl': 0.9270604029297829, 'entropy': 0.09887758176773787, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 27.47292078199098, 'epoch': 5.76}
+ 72%|███████▏  | 720/1000 [6:11:44<2:17:16, 29.42s/it] 72%|███████▏  | 721/1000 [6:12:19<2:25:04, 31.20s/it]                                                      {'loss': 0.0011, 'grad_norm': 0.0063553727231919765, 'learning_rate': 4.618091661443473e-06, 'num_tokens': 116030877.0, 'completions/mean_length': 2236.984375, 'completions/min_length': 866.0, 'completions/max_length': 3775.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2236.984375, 'completions/min_terminated_length': 866.0, 'completions/max_terminated_length': 3775.0, 'rewards/rollout_reward_func/mean': 12.8828125, 'rewards/rollout_reward_func/std': 5.252197265625, 'reward': 12.8828125, 'reward_std': 4.890859127044678, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03362323343753815, 'sampling/sampling_logp_difference/max': 2.0423545837402344, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9212912321090698, 'sampling/importance_sampling_ratio/max': 2.8461623191833496, 'kl': 1.0418637096881866, 'entropy': 0.11377892829477787, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.94841901898326, 'epoch': 5.77}
+ 72%|███████▏  | 721/1000 [6:12:19<2:25:04, 31.20s/it] 72%|███████▏  | 722/1000 [6:12:55<2:29:59, 32.37s/it]                                                      {'loss': -0.001, 'grad_norm': 0.004914131481200457, 'learning_rate': 4.5873443273891215e-06, 'num_tokens': 116164577.0, 'completions/mean_length': 1552.5625, 'completions/min_length': 782.0, 'completions/max_length': 4153.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1552.5625, 'completions/min_terminated_length': 782.0, 'completions/max_terminated_length': 4153.0, 'rewards/rollout_reward_func/mean': 10.3515625, 'rewards/rollout_reward_func/std': 5.017556190490723, 'reward': 10.3515625, 'reward_std': 4.598109245300293, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.0356537364423275, 'sampling/sampling_logp_difference/max': 3.006422519683838, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8164402842521667, 'sampling/importance_sampling_ratio/max': 2.656362295150757, 'kl': 1.2037419378757477, 'entropy': 0.09165101125836372, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 33.854169220001495, 'epoch': 5.78}
+ 72%|███████▏  | 722/1000 [6:12:55<2:29:59, 32.37s/it] 72%|███████▏  | 723/1000 [6:13:28<2:30:31, 32.60s/it]                                                      {'loss': 0.0019, 'grad_norm': 0.0057378229685127735, 'learning_rate': 4.556676673689549e-06, 'num_tokens': 116333026.0, 'completions/mean_length': 2080.265625, 'completions/min_length': 852.0, 'completions/max_length': 3697.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2080.265625, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3697.0, 'rewards/rollout_reward_func/mean': 11.4375, 'rewards/rollout_reward_func/std': 5.3453288078308105, 'reward': 11.4375, 'reward_std': 5.20035457611084, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03595827519893646, 'sampling/sampling_logp_difference/max': 1.967792272567749, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8577924966812134, 'sampling/importance_sampling_ratio/max': 2.9589550495147705, 'kl': 0.9763313941657543, 'entropy': 0.12134933704510331, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.724665891961195, 'epoch': 5.78}
+ 72%|███████▏  | 723/1000 [6:13:28<2:30:31, 32.60s/it] 72%|███████▏  | 724/1000 [6:13:56<2:24:44, 31.47s/it]                                                      {'loss': -0.0001, 'grad_norm': 0.004289694596081972, 'learning_rate': 4.526089009167687e-06, 'num_tokens': 116493344.0, 'completions/mean_length': 1955.59375, 'completions/min_length': 852.0, 'completions/max_length': 3236.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1955.59375, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3236.0, 'rewards/rollout_reward_func/mean': 11.854686737060547, 'rewards/rollout_reward_func/std': 5.05640983581543, 'reward': 11.854686737060547, 'reward_std': 4.6988983154296875, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03020484745502472, 'sampling/sampling_logp_difference/max': 1.8767926692962646, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8734487295150757, 'sampling/importance_sampling_ratio/max': 2.095324754714966, 'kl': 0.9568661265075207, 'entropy': 0.10879075899720192, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 27.68659849400865, 'epoch': 5.79}
+ 72%|███████▏  | 724/1000 [6:13:56<2:24:44, 31.47s/it] 72%|███████▎  | 725/1000 [6:14:25<2:20:11, 30.59s/it]                                                      {'loss': -0.0002, 'grad_norm': 0.0033594395499676466, 'learning_rate': 4.495581641840972e-06, 'num_tokens': 116650025.0, 'completions/mean_length': 1900.765625, 'completions/min_length': 854.0, 'completions/max_length': 3202.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1900.765625, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 3202.0, 'rewards/rollout_reward_func/mean': 12.118749618530273, 'rewards/rollout_reward_func/std': 5.139108657836914, 'reward': 12.118749618530273, 'reward_std': 4.005006313323975, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.028896844014525414, 'sampling/sampling_logp_difference/max': 1.5767879486083984, 'sampling/importance_sampling_ratio/min': 0.11588028818368912, 'sampling/importance_sampling_ratio/mean': 0.8763011693954468, 'sampling/importance_sampling_ratio/max': 1.9327138662338257, 'kl': 1.098554264754057, 'entropy': 0.10777385719120502, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 27.314201148990833, 'epoch': 5.8}
+ 72%|███████▎  | 725/1000 [6:14:25<2:20:11, 30.59s/it] 73%|███████▎  | 726/1000 [6:14:57<2:21:08, 30.91s/it]                                                      {'loss': 0.0008, 'grad_norm': 0.003919915296137333, 'learning_rate': 4.465154878918258e-06, 'num_tokens': 116807614.0, 'completions/mean_length': 1914.578125, 'completions/min_length': 854.0, 'completions/max_length': 3632.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1914.578125, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 3632.0, 'rewards/rollout_reward_func/mean': 11.373437881469727, 'rewards/rollout_reward_func/std': 5.680047035217285, 'reward': 11.373437881469727, 'reward_std': 5.285799980163574, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03156937658786774, 'sampling/sampling_logp_difference/max': 2.187750816345215, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8544923067092896, 'sampling/importance_sampling_ratio/max': 2.0378594398498535, 'kl': 0.9285658672451973, 'entropy': 0.10405220603570342, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.319023804004246, 'epoch': 5.81}
+ 73%|███████▎  | 726/1000 [6:14:57<2:21:08, 30.91s/it] 73%|███████▎  | 727/1000 [6:15:32<2:26:42, 32.24s/it]                                                      {'loss': 0.0009, 'grad_norm': 0.0038059898652136326, 'learning_rate': 4.434809026796715e-06, 'num_tokens': 117005793.0, 'completions/mean_length': 2533.171875, 'completions/min_length': 850.0, 'completions/max_length': 3745.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2533.171875, 'completions/min_terminated_length': 850.0, 'completions/max_terminated_length': 3745.0, 'rewards/rollout_reward_func/mean': 12.342187881469727, 'rewards/rollout_reward_func/std': 4.844725608825684, 'reward': 12.342187881469727, 'reward_std': 4.922500133514404, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03697662800550461, 'sampling/sampling_logp_difference/max': 2.076547861099243, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8110617399215698, 'sampling/importance_sampling_ratio/max': 2.514101266860962, 'kl': 0.9707581475377083, 'entropy': 0.13035463308915496, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 33.92236087501806, 'epoch': 5.82}
+ 73%|███████▎  | 727/1000 [6:15:32<2:26:42, 32.24s/it] 73%|███████▎  | 728/1000 [6:16:06<2:27:56, 32.63s/it]                                                      {'loss': -0.002, 'grad_norm': 0.005095870234072208, 'learning_rate': 4.404544391058726e-06, 'num_tokens': 117168230.0, 'completions/mean_length': 1988.328125, 'completions/min_length': 850.0, 'completions/max_length': 3727.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1988.328125, 'completions/min_terminated_length': 850.0, 'completions/max_terminated_length': 3727.0, 'rewards/rollout_reward_func/mean': 11.706249237060547, 'rewards/rollout_reward_func/std': 5.197889804840088, 'reward': 11.706249237060547, 'reward_std': 5.245754718780518, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.030875280499458313, 'sampling/sampling_logp_difference/max': 1.555887222290039, 'sampling/importance_sampling_ratio/min': 0.08072677254676819, 'sampling/importance_sampling_ratio/mean': 0.9245928525924683, 'sampling/importance_sampling_ratio/max': 2.8978233337402344, 'kl': 1.0285918973386288, 'entropy': 0.10776343429461122, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.36403893800161, 'epoch': 5.82}
+ 73%|███████▎  | 728/1000 [6:16:06<2:27:56, 32.63s/it] 73%|███████▎  | 729/1000 [6:16:30<2:16:51, 30.30s/it]                                                      {'loss': 0.0014, 'grad_norm': 0.006088840775191784, 'learning_rate': 4.374361276468844e-06, 'num_tokens': 117303436.0, 'completions/mean_length': 1574.46875, 'completions/min_length': 787.0, 'completions/max_length': 2888.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1574.46875, 'completions/min_terminated_length': 787.0, 'completions/max_terminated_length': 2888.0, 'rewards/rollout_reward_func/mean': 11.934374809265137, 'rewards/rollout_reward_func/std': 5.064793586730957, 'reward': 11.934374809265137, 'reward_std': 4.934641361236572, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.026919344440102577, 'sampling/sampling_logp_difference/max': 1.9362200498580933, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9418925046920776, 'sampling/importance_sampling_ratio/max': 2.7301859855651855, 'kl': 1.0238422006368637, 'entropy': 0.09030473791062832, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 23.89954329302418, 'epoch': 5.83}
+ 73%|███████▎  | 729/1000 [6:16:30<2:16:51, 30.30s/it] 73%|███████▎  | 730/1000 [6:17:04<2:20:11, 31.15s/it]                                                      {'loss': -0.0012, 'grad_norm': 0.00467439042404294, 'learning_rate': 4.3442599869707e-06, 'num_tokens': 117496523.0, 'completions/mean_length': 2453.984375, 'completions/min_length': 1656.0, 'completions/max_length': 3630.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2453.984375, 'completions/min_terminated_length': 1656.0, 'completions/max_terminated_length': 3630.0, 'rewards/rollout_reward_func/mean': 12.809375762939453, 'rewards/rollout_reward_func/std': 5.4595112800598145, 'reward': 12.809375762939453, 'reward_std': 5.198742866516113, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.032245881855487823, 'sampling/sampling_logp_difference/max': 1.8482601642608643, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9006264209747314, 'sampling/importance_sampling_ratio/max': 2.878598213195801, 'kl': 1.2744482681155205, 'entropy': 0.11788758309558034, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.784263523994014, 'epoch': 5.84}
+ 73%|███████▎  | 730/1000 [6:17:04<2:20:11, 31.15s/it] 73%|███████▎  | 731/1000 [6:17:28<2:09:59, 29.00s/it]                                                      {'loss': 0.0011, 'grad_norm': 0.004863417241722345, 'learning_rate': 4.314240825683938e-06, 'num_tokens': 117638857.0, 'completions/mean_length': 1682.59375, 'completions/min_length': 854.0, 'completions/max_length': 2707.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1682.59375, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 2707.0, 'rewards/rollout_reward_func/mean': 11.153124809265137, 'rewards/rollout_reward_func/std': 4.960541725158691, 'reward': 11.153125762939453, 'reward_std': 4.951661109924316, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.027247922495007515, 'sampling/sampling_logp_difference/max': 1.9667832851409912, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.91107577085495, 'sampling/importance_sampling_ratio/max': 2.229123592376709, 'kl': 0.9703129008412361, 'entropy': 0.09405102673918009, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 23.026029548003862, 'epoch': 5.85}
+ 73%|███████▎  | 731/1000 [6:17:28<2:09:59, 29.00s/it] 73%|███████▎  | 732/1000 [6:18:02<2:17:00, 30.68s/it]                                                      {'loss': 0.0004, 'grad_norm': 0.004046650603413582, 'learning_rate': 4.284304094901182e-06, 'num_tokens': 117806962.0, 'completions/mean_length': 2075.265625, 'completions/min_length': 850.0, 'completions/max_length': 3862.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2075.265625, 'completions/min_terminated_length': 850.0, 'completions/max_terminated_length': 3862.0, 'rewards/rollout_reward_func/mean': 12.568750381469727, 'rewards/rollout_reward_func/std': 5.381475448608398, 'reward': 12.56874942779541, 'reward_std': 5.383701324462891, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.029798179864883423, 'sampling/sampling_logp_difference/max': 1.8910460472106934, 'sampling/importance_sampling_ratio/min': 0.1041092574596405, 'sampling/importance_sampling_ratio/mean': 0.8989832401275635, 'sampling/importance_sampling_ratio/max': 2.713109016418457, 'kl': 0.9122110679745674, 'entropy': 0.1084035043604672, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 33.128282673991635, 'epoch': 5.86}
+ 73%|███████▎  | 732/1000 [6:18:02<2:17:00, 30.68s/it] 73%|███████▎  | 733/1000 [6:18:36<2:21:08, 31.72s/it]                                                      {'loss': -0.0016, 'grad_norm': 0.003552797017619014, 'learning_rate': 4.254450096084982e-06, 'num_tokens': 117972285.0, 'completions/mean_length': 2033.421875, 'completions/min_length': 785.0, 'completions/max_length': 3672.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2033.421875, 'completions/min_terminated_length': 785.0, 'completions/max_terminated_length': 3672.0, 'rewards/rollout_reward_func/mean': 11.9296875, 'rewards/rollout_reward_func/std': 5.555625915527344, 'reward': 11.9296875, 'reward_std': 4.894985198974609, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.030639220029115677, 'sampling/sampling_logp_difference/max': 1.3890454769134521, 'sampling/importance_sampling_ratio/min': 0.06903699785470963, 'sampling/importance_sampling_ratio/mean': 0.7414113283157349, 'sampling/importance_sampling_ratio/max': 2.4756319522857666, 'kl': 1.1531710140407085, 'entropy': 0.1143231950700283, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.741062435008644, 'epoch': 5.86}
+ 73%|███████▎  | 733/1000 [6:18:36<2:21:08, 31.72s/it] 73%|███████▎  | 734/1000 [6:19:07<2:19:13, 31.40s/it]                                                      {'loss': -0.0, 'grad_norm': 0.0058483886532485485, 'learning_rate': 4.2246791298647685e-06, 'num_tokens': 118128917.0, 'completions/mean_length': 1899.625, 'completions/min_length': 780.0, 'completions/max_length': 3551.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1899.625, 'completions/min_terminated_length': 780.0, 'completions/max_terminated_length': 3551.0, 'rewards/rollout_reward_func/mean': 10.678125381469727, 'rewards/rollout_reward_func/std': 5.274270534515381, 'reward': 10.67812442779541, 'reward_std': 5.426259994506836, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.0304609015583992, 'sampling/sampling_logp_difference/max': 2.0684149265289307, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8663805723190308, 'sampling/importance_sampling_ratio/max': 2.9238321781158447, 'kl': 1.1179342046380043, 'entropy': 0.10469328192993999, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.510633366990078, 'epoch': 5.87}
+ 73%|███████▎  | 734/1000 [6:19:07<2:19:13, 31.40s/it] 74%|███████▎  | 735/1000 [6:19:45<2:28:08, 33.54s/it]                                                      {'loss': 0.0007, 'grad_norm': 0.004239585716277361, 'learning_rate': 4.194991496033844e-06, 'num_tokens': 118262187.0, 'completions/mean_length': 1545.84375, 'completions/min_length': 779.0, 'completions/max_length': 4502.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1545.84375, 'completions/min_terminated_length': 779.0, 'completions/max_terminated_length': 4502.0, 'rewards/rollout_reward_func/mean': 11.707812309265137, 'rewards/rollout_reward_func/std': 5.566376209259033, 'reward': 11.707813262939453, 'reward_std': 5.736895561218262, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.02555708773434162, 'sampling/sampling_logp_difference/max': 2.067068099975586, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8703470230102539, 'sampling/importance_sampling_ratio/max': 1.9480047225952148, 'kl': 1.0249761249870062, 'entropy': 0.0891980929300189, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 37.119031283997174, 'epoch': 5.88}
+ 74%|███████▎  | 735/1000 [6:19:45<2:28:08, 33.54s/it] 74%|███████▎  | 736/1000 [6:20:29<2:40:26, 36.46s/it]                                                      {'loss': 0.003, 'grad_norm': 0.00660282326862216, 'learning_rate': 4.165387493546356e-06, 'num_tokens': 118404684.0, 'completions/mean_length': 1686.390625, 'completions/min_length': 853.0, 'completions/max_length': 4815.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1686.390625, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 4815.0, 'rewards/rollout_reward_func/mean': 11.728124618530273, 'rewards/rollout_reward_func/std': 5.401424884796143, 'reward': 11.728124618530273, 'reward_std': 5.244098663330078, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.02940382808446884, 'sampling/sampling_logp_difference/max': 2.9766390323638916, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9597651958465576, 'sampling/importance_sampling_ratio/max': 2.439631223678589, 'kl': 0.8131217751652002, 'entropy': 0.09077286068350077, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 41.37646614798723, 'epoch': 5.89}
+ 74%|███████▎  | 736/1000 [6:20:29<2:40:26, 36.46s/it] 74%|███████▎  | 737/1000 [6:20:54<2:25:36, 33.22s/it]                                                      {'loss': -0.0002, 'grad_norm': 0.004549109842628241, 'learning_rate': 4.1358674205142765e-06, 'num_tokens': 118560602.0, 'completions/mean_length': 1889.21875, 'completions/min_length': 1184.0, 'completions/max_length': 2881.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1889.21875, 'completions/min_terminated_length': 1184.0, 'completions/max_terminated_length': 2881.0, 'rewards/rollout_reward_func/mean': 11.573437690734863, 'rewards/rollout_reward_func/std': 5.471665859222412, 'reward': 11.573437690734863, 'reward_std': 5.596123218536377, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.02704552188515663, 'sampling/sampling_logp_difference/max': 1.611672282218933, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9416776895523071, 'sampling/importance_sampling_ratio/max': 2.868649959564209, 'kl': 1.0908841975033283, 'entropy': 0.10564098414033651, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 24.573313531007443, 'epoch': 5.9}
+ 74%|███████▎  | 737/1000 [6:20:54<2:25:36, 33.22s/it] 74%|███████▍  | 738/1000 [6:21:26<2:23:00, 32.75s/it]                                                      {'loss': 0.0012, 'grad_norm': 0.005416947416961193, 'learning_rate': 4.106431574204408e-06, 'num_tokens': 118702592.0, 'completions/mean_length': 1678.46875, 'completions/min_length': 850.0, 'completions/max_length': 3593.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1678.46875, 'completions/min_terminated_length': 850.0, 'completions/max_terminated_length': 3593.0, 'rewards/rollout_reward_func/mean': 11.082812309265137, 'rewards/rollout_reward_func/std': 5.070724010467529, 'reward': 11.082812309265137, 'reward_std': 5.173864841461182, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.029701896011829376, 'sampling/sampling_logp_difference/max': 1.3501806259155273, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9060114026069641, 'sampling/importance_sampling_ratio/max': 2.1902103424072266, 'kl': 0.8957527801394463, 'entropy': 0.10736651252955198, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.310436127991125, 'epoch': 5.9}
+ 74%|███████▍  | 738/1000 [6:21:26<2:23:00, 32.75s/it] 74%|███████▍  | 739/1000 [6:21:58<2:21:02, 32.42s/it]                                                      {'loss': 0.0017, 'grad_norm': 0.004524390213191509, 'learning_rate': 4.077080251035402e-06, 'num_tokens': 118877444.0, 'completions/mean_length': 2176.6875, 'completions/min_length': 782.0, 'completions/max_length': 3489.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2176.6875, 'completions/min_terminated_length': 782.0, 'completions/max_terminated_length': 3489.0, 'rewards/rollout_reward_func/mean': 11.401562690734863, 'rewards/rollout_reward_func/std': 5.450600624084473, 'reward': 11.401562690734863, 'reward_std': 5.285691261291504, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03088705986738205, 'sampling/sampling_logp_difference/max': 1.9748003482818604, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.890526294708252, 'sampling/importance_sampling_ratio/max': 2.887803316116333, 'kl': 0.9243386052548885, 'entropy': 0.11395721696317196, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.509431838007004, 'epoch': 5.91}
+ 74%|███████▍  | 739/1000 [6:21:58<2:21:02, 32.42s/it] 74%|███████▍  | 740/1000 [6:22:31<2:21:42, 32.70s/it]                                                      {'loss': 0.0021, 'grad_norm': 0.005820004269480705, 'learning_rate': 4.04781374657476e-06, 'num_tokens': 119057034.0, 'completions/mean_length': 2248.71875, 'completions/min_length': 854.0, 'completions/max_length': 3684.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2248.71875, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 3684.0, 'rewards/rollout_reward_func/mean': 11.7734375, 'rewards/rollout_reward_func/std': 5.238994598388672, 'reward': 11.7734375, 'reward_std': 5.362776279449463, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.0348629392683506, 'sampling/sampling_logp_difference/max': 1.951834797859192, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8395882844924927, 'sampling/importance_sampling_ratio/max': 2.7562503814697266, 'kl': 1.0635214112699032, 'entropy': 0.12347114877775311, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.92676238198328, 'epoch': 5.92}
+ 74%|███████▍  | 740/1000 [6:22:31<2:21:42, 32.70s/it] 74%|███████▍  | 741/1000 [6:22:58<2:14:18, 31.11s/it]                                                      {'loss': -0.0015, 'grad_norm': 0.00397080322727561, 'learning_rate': 4.01863235553585e-06, 'num_tokens': 119185130.0, 'completions/mean_length': 1467.0, 'completions/min_length': 782.0, 'completions/max_length': 3073.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1467.0, 'completions/min_terminated_length': 782.0, 'completions/max_terminated_length': 3073.0, 'rewards/rollout_reward_func/mean': 9.359375, 'rewards/rollout_reward_func/std': 5.310089588165283, 'reward': 9.359375, 'reward_std': 4.93168306350708, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.02884199284017086, 'sampling/sampling_logp_difference/max': 2.0796709060668945, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8349921703338623, 'sampling/importance_sampling_ratio/max': 2.6691722869873047, 'kl': 0.9791982658207417, 'entropy': 0.0913661983795464, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 25.312973870997666, 'epoch': 5.93}
+ 74%|███████▍  | 741/1000 [6:22:58<2:14:18, 31.11s/it] 74%|███████▍  | 742/1000 [6:23:30<2:14:14, 31.22s/it]                                                      {'loss': -0.0004, 'grad_norm': 0.004186426289379597, 'learning_rate': 3.989536371774958e-06, 'num_tokens': 119349656.0, 'completions/mean_length': 2020.59375, 'completions/min_length': 850.0, 'completions/max_length': 3622.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2020.59375, 'completions/min_terminated_length': 850.0, 'completions/max_terminated_length': 3622.0, 'rewards/rollout_reward_func/mean': 11.107812881469727, 'rewards/rollout_reward_func/std': 5.893776893615723, 'reward': 11.107812881469727, 'reward_std': 5.0195136070251465, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03397945314645767, 'sampling/sampling_logp_difference/max': 2.6931660175323486, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8400311470031738, 'sampling/importance_sampling_ratio/max': 2.2277560234069824, 'kl': 0.9853059202432632, 'entropy': 0.12548570008948445, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.1296817859984, 'epoch': 5.94}
+ 74%|███████▍  | 742/1000 [6:23:30<2:14:14, 31.22s/it] 74%|███████▍  | 743/1000 [6:24:00<2:12:06, 30.84s/it]                                                      {'loss': -0.0009, 'grad_norm': 0.004925826098769903, 'learning_rate': 3.960526088288322e-06, 'num_tokens': 119511391.0, 'completions/mean_length': 1977.734375, 'completions/min_length': 784.0, 'completions/max_length': 3336.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1977.734375, 'completions/min_terminated_length': 784.0, 'completions/max_terminated_length': 3336.0, 'rewards/rollout_reward_func/mean': 11.324999809265137, 'rewards/rollout_reward_func/std': 5.3144612312316895, 'reward': 11.324999809265137, 'reward_std': 5.215934753417969, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03173404186964035, 'sampling/sampling_logp_difference/max': 1.313227653503418, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8653175234794617, 'sampling/importance_sampling_ratio/max': 2.1981141567230225, 'kl': 1.0786219537258148, 'entropy': 0.11659488547593355, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.71357599599287, 'epoch': 5.94}
+ 74%|███████▍  | 743/1000 [6:24:00<2:12:06, 30.84s/it] 74%|███████▍  | 744/1000 [6:24:32<2:13:05, 31.19s/it]                                                      {'loss': 0.001, 'grad_norm': 0.003821181831881404, 'learning_rate': 3.931601797209168e-06, 'num_tokens': 119671669.0, 'completions/mean_length': 1956.21875, 'completions/min_length': 781.0, 'completions/max_length': 3639.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1956.21875, 'completions/min_terminated_length': 781.0, 'completions/max_terminated_length': 3639.0, 'rewards/rollout_reward_func/mean': 10.735937118530273, 'rewards/rollout_reward_func/std': 5.045802116394043, 'reward': 10.735937118530273, 'reward_std': 5.1495208740234375, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.036229707300662994, 'sampling/sampling_logp_difference/max': 1.9088563919067383, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7732290625572205, 'sampling/importance_sampling_ratio/max': 2.2562854290008545, 'kl': 0.9361049421131611, 'entropy': 0.12097556097432971, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.660649854980875, 'epoch': 5.95}
+ 74%|███████▍  | 744/1000 [6:24:32<2:13:05, 31.19s/it] 74%|███████▍  | 745/1000 [6:25:02<2:11:06, 30.85s/it]                                                      {'loss': -0.0013, 'grad_norm': 0.004337279126048088, 'learning_rate': 3.902763789804788e-06, 'num_tokens': 119841031.0, 'completions/mean_length': 2093.28125, 'completions/min_length': 1273.0, 'completions/max_length': 3372.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2093.28125, 'completions/min_terminated_length': 1273.0, 'completions/max_terminated_length': 3372.0, 'rewards/rollout_reward_func/mean': 11.243749618530273, 'rewards/rollout_reward_func/std': 5.005263328552246, 'reward': 11.243749618530273, 'reward_std': 5.063718795776367, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03071308694779873, 'sampling/sampling_logp_difference/max': 1.452949047088623, 'sampling/importance_sampling_ratio/min': 0.07630015909671783, 'sampling/importance_sampling_ratio/mean': 0.760495662689209, 'sampling/importance_sampling_ratio/max': 2.5379796028137207, 'kl': 1.0484542474150658, 'entropy': 0.12275529885664582, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.903945629012014, 'epoch': 5.96}
+ 74%|███████▍  | 745/1000 [6:25:02<2:11:06, 30.85s/it] 75%|███████▍  | 746/1000 [6:25:32<2:09:50, 30.67s/it]                                                      {'loss': 0.0007, 'grad_norm': 0.004775552079081535, 'learning_rate': 3.874012356473602e-06, 'num_tokens': 120002315.0, 'completions/mean_length': 1969.9375, 'completions/min_length': 780.0, 'completions/max_length': 3458.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1969.9375, 'completions/min_terminated_length': 780.0, 'completions/max_terminated_length': 3458.0, 'rewards/rollout_reward_func/mean': 11.7265625, 'rewards/rollout_reward_func/std': 5.339735507965088, 'reward': 11.7265625, 'reward_std': 5.50859260559082, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.033891305327415466, 'sampling/sampling_logp_difference/max': 2.119579553604126, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8251007795333862, 'sampling/importance_sampling_ratio/max': 2.708069324493408, 'kl': 1.7443360537290573, 'entropy': 0.11699301516637206, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.960835344027146, 'epoch': 5.97}
+ 75%|███████▍  | 746/1000 [6:25:32<2:09:50, 30.67s/it] 75%|███████▍  | 747/1000 [6:26:05<2:11:22, 31.16s/it]                                                      {'loss': 0.0012, 'grad_norm': 0.004994252230972052, 'learning_rate': 3.845347786742217e-06, 'num_tokens': 120179625.0, 'completions/mean_length': 2215.09375, 'completions/min_length': 851.0, 'completions/max_length': 3632.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2215.09375, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 3632.0, 'rewards/rollout_reward_func/mean': 12.542187690734863, 'rewards/rollout_reward_func/std': 5.0044050216674805, 'reward': 12.54218864440918, 'reward_std': 4.91651725769043, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04055893421173096, 'sampling/sampling_logp_difference/max': 2.1571311950683594, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8451898097991943, 'sampling/importance_sampling_ratio/max': 2.987675189971924, 'kl': 1.1917674466967583, 'entropy': 0.14049085089936852, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.09859285903076, 'epoch': 5.98}
+ 75%|██��████▍  | 747/1000 [6:26:05<2:11:22, 31.16s/it] 75%|███████▍  | 748/1000 [6:26:38<2:14:13, 31.96s/it]                                                      {'loss': 0.0005, 'grad_norm': 0.010887963697314262, 'learning_rate': 3.816770369262533e-06, 'num_tokens': 120336978.0, 'completions/mean_length': 1910.890625, 'completions/min_length': 849.0, 'completions/max_length': 3877.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1910.890625, 'completions/min_terminated_length': 849.0, 'completions/max_terminated_length': 3877.0, 'rewards/rollout_reward_func/mean': 11.692188262939453, 'rewards/rollout_reward_func/std': 5.33988618850708, 'reward': 11.692187309265137, 'reward_std': 5.1077070236206055, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.030552692711353302, 'sampling/sampling_logp_difference/max': 3.743605613708496, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9386109113693237, 'sampling/importance_sampling_ratio/max': 2.520162582397461, 'kl': 4.069443184882402, 'entropy': 0.11644412018358707, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.48564743602037, 'epoch': 5.98}
+ 75%|███████▍  | 748/1000 [6:26:38<2:14:13, 31.96s/it] 75%|███████▍  | 749/1000 [6:27:10<2:12:41, 31.72s/it]                                                      {'loss': -0.0006, 'grad_norm': 0.0040161446668207645, 'learning_rate': 3.788280391808834e-06, 'num_tokens': 120518406.0, 'completions/mean_length': 2275.4375, 'completions/min_length': 780.0, 'completions/max_length': 3547.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2275.4375, 'completions/min_terminated_length': 780.0, 'completions/max_terminated_length': 3547.0, 'rewards/rollout_reward_func/mean': 13.123437881469727, 'rewards/rollout_reward_func/std': 5.408158302307129, 'reward': 13.123437881469727, 'reward_std': 5.329795837402344, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03734208643436432, 'sampling/sampling_logp_difference/max': 2.186187744140625, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7445958852767944, 'sampling/importance_sampling_ratio/max': 2.9942874908447266, 'kl': 1.4927765540778637, 'entropy': 0.13364679226651788, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.885626236013195, 'epoch': 5.99}
+ 75%|███████▍  | 749/1000 [6:27:10<2:12:41, 31.72s/it] 75%|███████▌  | 750/1000 [6:27:45<2:17:22, 32.97s/it]                                                      {'loss': 0.0014, 'grad_norm': 0.009275740943849087, 'learning_rate': 3.759878141274867e-06, 'num_tokens': 120677496.0, 'completions/mean_length': 1938.03125, 'completions/min_length': 853.0, 'completions/max_length': 4064.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1938.03125, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 4064.0, 'rewards/rollout_reward_func/mean': 12.4921875, 'rewards/rollout_reward_func/std': 5.456212997436523, 'reward': 12.4921875, 'reward_std': 5.276630401611328, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.033574238419532776, 'sampling/sampling_logp_difference/max': 1.779231071472168, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 1.052810788154602, 'sampling/importance_sampling_ratio/max': 2.5866641998291016, 'kl': 1.3548647351562977, 'entropy': 0.1243325334507972, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 34.27448467397335, 'epoch': 6.0}
+ 75%|███████▌  | 750/1000 [6:27:45<2:17:22, 32.97s/it] 75%|███████▌  | 751/1000 [6:28:16<2:14:02, 32.30s/it]                                                      {'loss': 0.002, 'grad_norm': 0.0050857095047831535, 'learning_rate': 3.731563903670983e-06, 'num_tokens': 120838386.0, 'completions/mean_length': 1964.15625, 'completions/min_length': 853.0, 'completions/max_length': 3432.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1964.15625, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3432.0, 'rewards/rollout_reward_func/mean': 12.587499618530273, 'rewards/rollout_reward_func/std': 5.11128568649292, 'reward': 12.587499618530273, 'reward_std': 5.193958759307861, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03929939493536949, 'sampling/sampling_logp_difference/max': 2.214508295059204, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7790001630783081, 'sampling/importance_sampling_ratio/max': 2.245722532272339, 'kl': 1.127532109618187, 'entropy': 0.12608292046934366, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.301523690999602, 'epoch': 6.01}
+ 75%|███████▌  | 751/1000 [6:28:16<2:14:02, 32.30s/it] 75%|███████▌  | 752/1000 [6:28:40<2:02:41, 29.68s/it]                                                      {'loss': 0.0001, 'grad_norm': 0.005794246215373278, 'learning_rate': 3.703337964121245e-06, 'num_tokens': 120968488.0, 'completions/mean_length': 1496.71875, 'completions/min_length': 852.0, 'completions/max_length': 2689.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1496.71875, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 2689.0, 'rewards/rollout_reward_func/mean': 11.262499809265137, 'rewards/rollout_reward_func/std': 4.8206071853637695, 'reward': 11.262499809265137, 'reward_std': 4.802419662475586, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.02660749852657318, 'sampling/sampling_logp_difference/max': 1.8878034353256226, 'sampling/importance_sampling_ratio/min': 0.15017597377300262, 'sampling/importance_sampling_ratio/mean': 0.9641717672348022, 'sampling/importance_sampling_ratio/max': 2.4242022037506104, 'kl': 0.991923239082098, 'entropy': 0.09128142101690173, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 22.55852160100767, 'epoch': 6.02}
+ 75%|███████▌  | 752/1000 [6:28:40<2:02:41, 29.68s/it] 75%|███████▌  | 753/1000 [6:29:05<1:56:30, 28.30s/it]                                                      {'loss': 0.0014, 'grad_norm': 0.004976140800863504, 'learning_rate': 3.6752006068605447e-06, 'num_tokens': 121108320.0, 'completions/mean_length': 1645.125, 'completions/min_length': 854.0, 'completions/max_length': 2797.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1645.125, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 2797.0, 'rewards/rollout_reward_func/mean': 11.857812881469727, 'rewards/rollout_reward_func/std': 5.116075038909912, 'reward': 11.857812881469727, 'reward_std': 4.486891746520996, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.02639971300959587, 'sampling/sampling_logp_difference/max': 1.246243953704834, 'sampling/importance_sampling_ratio/min': 0.22527998685836792, 'sampling/importance_sampling_ratio/mean': 1.0572302341461182, 'sampling/importance_sampling_ratio/max': 2.604311227798462, 'kl': 0.9324256964027882, 'entropy': 0.1106694177724421, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 24.030386107995582, 'epoch': 6.02}
+ 75%|███████▌  | 753/1000 [6:29:05<1:56:30, 28.30s/it] 75%|███████▌  | 754/1000 [6:29:40<2:04:12, 30.29s/it]                                                      {'loss': -0.0008, 'grad_norm': 0.005575262475758791, 'learning_rate': 3.6471521152317627e-06, 'num_tokens': 121284780.0, 'completions/mean_length': 2203.0625, 'completions/min_length': 784.0, 'completions/max_length': 3775.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2203.0625, 'completions/min_terminated_length': 784.0, 'completions/max_terminated_length': 3775.0, 'rewards/rollout_reward_func/mean': 11.274999618530273, 'rewards/rollout_reward_func/std': 5.394588470458984, 'reward': 11.27500057220459, 'reward_std': 5.352971076965332, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.039020515978336334, 'sampling/sampling_logp_difference/max': 2.0376675128936768, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7699939012527466, 'sampling/importance_sampling_ratio/max': 2.7437868118286133, 'kl': 1.0758562423288822, 'entropy': 0.14308586763218045, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 33.5011836569829, 'epoch': 6.03}
+ 75%|███████▌  | 754/1000 [6:29:40<2:04:12, 30.29s/it] 76%|███████▌  | 755/1000 [6:30:21<2:16:39, 33.47s/it]                                                      {'loss': -0.0023, 'grad_norm': 0.005167032591998577, 'learning_rate': 3.6191927716828917e-06, 'num_tokens': 121439583.0, 'completions/mean_length': 1873.046875, 'completions/min_length': 853.0, 'completions/max_length': 4638.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1873.046875, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 4638.0, 'rewards/rollout_reward_func/mean': 11.104686737060547, 'rewards/rollout_reward_func/std': 5.322352886199951, 'reward': 11.104686737060547, 'reward_std': 5.3928327560424805, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.030491309240460396, 'sampling/sampling_logp_difference/max': 1.532596230506897, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9095929861068726, 'sampling/importance_sampling_ratio/max': 2.7574191093444824, 'kl': 1.0645079612731934, 'entropy': 0.11357734352350235, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 39.08638790700934, 'epoch': 6.04}
+ 76%|███████▌  | 755/1000 [6:30:21<2:16:39, 33.47s/it] 76%|███████▌  | 756/1000 [6:30:54<2:15:44, 33.38s/it]                                                      {'loss': 0.0008, 'grad_norm': 0.0035967824514955282, 'learning_rate': 3.5913228577642177e-06, 'num_tokens': 121592231.0, 'completions/mean_length': 1839.375, 'completions/min_length': 785.0, 'completions/max_length': 3652.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1839.375, 'completions/min_terminated_length': 785.0, 'completions/max_terminated_length': 3652.0, 'rewards/rollout_reward_func/mean': 10.370312690734863, 'rewards/rollout_reward_func/std': 5.390134811401367, 'reward': 10.370312690734863, 'reward_std': 4.677300930023193, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.028835859149694443, 'sampling/sampling_logp_difference/max': 2.7793989181518555, 'sampling/importance_sampling_ratio/min': 0.06569148600101471, 'sampling/importance_sampling_ratio/mean': 0.865721583366394, 'sampling/importance_sampling_ratio/max': 2.111649751663208, 'kl': 1.1397297978401184, 'entropy': 0.11731354705989361, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.77134665998892, 'epoch': 6.05}
+ 76%|███████▌  | 756/1000 [6:30:54<2:15:44, 33.38s/it] 76%|███████▌  | 757/1000 [6:31:27<2:14:54, 33.31s/it]                                                      {'loss': 0.0058, 'grad_norm': 0.00991752464324236, 'learning_rate': 3.563542654125457e-06, 'num_tokens': 121758193.0, 'completions/mean_length': 2041.40625, 'completions/min_length': 852.0, 'completions/max_length': 3734.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2041.40625, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3734.0, 'rewards/rollout_reward_func/mean': 11.59375, 'rewards/rollout_reward_func/std': 5.723909378051758, 'reward': 11.59375, 'reward_std': 5.293362140655518, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.033300481736660004, 'sampling/sampling_logp_difference/max': 1.3431806564331055, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9636932611465454, 'sampling/importance_sampling_ratio/max': 2.8873097896575928, 'kl': 0.9169737622141838, 'entropy': 0.12952061626128852, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.802555832000508, 'epoch': 6.06}
+ 76%|███████▌  | 757/1000 [6:31:27<2:14:54, 33.31s/it] 76%|███████▌  | 758/1000 [6:31:52<2:04:20, 30.83s/it]                                                      {'loss': 0.0004, 'grad_norm': 0.0038959109224379063, 'learning_rate': 3.5358524405129574e-06, 'num_tokens': 121925654.0, 'completions/mean_length': 2063.578125, 'completions/min_length': 1233.0, 'completions/max_length': 2765.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2063.578125, 'completions/min_terminated_length': 1233.0, 'completions/max_terminated_length': 2765.0, 'rewards/rollout_reward_func/mean': 11.159375190734863, 'rewards/rollout_reward_func/std': 4.928528308868408, 'reward': 11.159375190734863, 'reward_std': 4.422513008117676, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.032468825578689575, 'sampling/sampling_logp_difference/max': 1.9310543537139893, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8127579689025879, 'sampling/importance_sampling_ratio/max': 2.1851627826690674, 'kl': 1.0278036817908287, 'entropy': 0.12702636793255806, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 23.996215398998174, 'epoch': 6.06}
+ 76%|███████▌  | 758/1000 [6:31:52<2:04:20, 30.83s/it] 76%|███████▌  | 759/1000 [6:32:27<2:08:46, 32.06s/it]                                                      {'loss': 0.0013, 'grad_norm': 0.0056526013650000095, 'learning_rate': 3.508252495766863e-06, 'num_tokens': 122100382.0, 'completions/mean_length': 2175.125, 'completions/min_length': 1180.0, 'completions/max_length': 3901.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2175.125, 'completions/min_terminated_length': 1180.0, 'completions/max_terminated_length': 3901.0, 'rewards/rollout_reward_func/mean': 12.3515625, 'rewards/rollout_reward_func/std': 5.650733947753906, 'reward': 12.3515625, 'reward_std': 5.385323524475098, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.034855712205171585, 'sampling/sampling_logp_difference/max': 1.6337581872940063, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9393295049667358, 'sampling/importance_sampling_ratio/max': 2.236556053161621, 'kl': 0.9899874068796635, 'entropy': 0.12967425864189863, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 33.68196635800996, 'epoch': 6.07}
+ 76%|███████▌  | 759/1000 [6:32:27<2:08:46, 32.06s/it] 76%|███████▌  | 760/1000 [6:32:58<2:07:38, 31.91s/it]                                                      {'loss': -0.0007, 'grad_norm': 0.003632049774751067, 'learning_rate': 3.4807430978183066e-06, 'num_tokens': 122279126.0, 'completions/mean_length': 2235.875, 'completions/min_length': 1121.0, 'completions/max_length': 3526.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2235.875, 'completions/min_terminated_length': 1121.0, 'completions/max_terminated_length': 3526.0, 'rewards/rollout_reward_func/mean': 12.089062690734863, 'rewards/rollout_reward_func/std': 5.050573348999023, 'reward': 12.089062690734863, 'reward_std': 4.937808513641357, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.0375509187579155, 'sampling/sampling_logp_difference/max': 1.6894476413726807, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9125447273254395, 'sampling/importance_sampling_ratio/max': 2.2979650497436523, 'kl': 0.9990647360682487, 'entropy': 0.14145769085735083, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.233794524989207, 'epoch': 6.08}
+ 76%|███████▌  | 760/1000 [6:32:58<2:07:38, 31.91s/it] 76%|███████▌  | 761/1000 [6:33:31<2:07:32, 32.02s/it]                                                      {'loss': -0.0018, 'grad_norm': 0.006079378537833691, 'learning_rate': 3.453324523686623e-06, 'num_tokens': 122443706.0, 'completions/mean_length': 2021.4375, 'completions/min_length': 783.0, 'completions/max_length': 3511.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2021.4375, 'completions/min_terminated_length': 783.0, 'completions/max_terminated_length': 3511.0, 'rewards/rollout_reward_func/mean': 11.971875190734863, 'rewards/rollout_reward_func/std': 5.142708778381348, 'reward': 11.971875190734863, 'reward_std': 4.888356685638428, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03763681650161743, 'sampling/sampling_logp_difference/max': 2.473978042602539, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9936507344245911, 'sampling/importance_sampling_ratio/max': 2.7822558879852295, 'kl': 0.9269448108971119, 'entropy': 0.1293851942755282, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.04394679300458, 'epoch': 6.09}
+ 76%|███████▌  | 761/1000 [6:33:31<2:07:32, 32.02s/it] 76%|███████▌  | 762/1000 [6:34:05<2:09:30, 32.65s/it]                                                      {'loss': -0.0007, 'grad_norm': 0.0041082436218857765, 'learning_rate': 3.4259970494765523e-06, 'num_tokens': 122628084.0, 'completions/mean_length': 2321.53125, 'completions/min_length': 934.0, 'completions/max_length': 3764.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2321.53125, 'completions/min_terminated_length': 934.0, 'completions/max_terminated_length': 3764.0, 'rewards/rollout_reward_func/mean': 13.364062309265137, 'rewards/rollout_reward_func/std': 5.372043609619141, 'reward': 13.364063262939453, 'reward_std': 5.194443225860596, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03752816468477249, 'sampling/sampling_logp_difference/max': 1.6282782554626465, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.873234212398529, 'sampling/importance_sampling_ratio/max': 2.852173089981079, 'kl': 0.9085575677454472, 'entropy': 0.15438230987638235, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.68506388998503, 'epoch': 6.1}
+ 76%|███████▌  | 762/1000 [6:34:05<2:09:30, 32.65s/it] 76%|███████▋  | 763/1000 [6:34:38<2:10:04, 32.93s/it]                                                      {'loss': 0.001, 'grad_norm': 0.006955447606742382, 'learning_rate': 3.3987609503754486e-06, 'num_tokens': 122777276.0, 'completions/mean_length': 1787.0, 'completions/min_length': 854.0, 'completions/max_length': 3847.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1787.0, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 3847.0, 'rewards/rollout_reward_func/mean': 13.176562309265137, 'rewards/rollout_reward_func/std': 5.506208896636963, 'reward': 13.176562309265137, 'reward_std': 5.244880676269531, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.032068099826574326, 'sampling/sampling_logp_difference/max': 2.0008809566497803, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9450645446777344, 'sampling/importance_sampling_ratio/max': 2.334810972213745, 'kl': 0.8840514533221722, 'entropy': 0.13310709688812494, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.23490448299708, 'epoch': 6.1}
+ 76%|███████▋  | 763/1000 [6:34:38<2:10:04, 32.93s/it] 76%|███████▋  | 764/1000 [6:35:10<2:08:17, 32.62s/it]                                                      {'loss': -0.0023, 'grad_norm': 0.006253068335354328, 'learning_rate': 3.3716165006505333e-06, 'num_tokens': 122968135.0, 'completions/mean_length': 2420.421875, 'completions/min_length': 849.0, 'completions/max_length': 3599.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2420.421875, 'completions/min_terminated_length': 849.0, 'completions/max_terminated_length': 3599.0, 'rewards/rollout_reward_func/mean': 11.46875, 'rewards/rollout_reward_func/std': 5.1295247077941895, 'reward': 11.46875, 'reward_std': 4.881170749664307, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.037416569888591766, 'sampling/sampling_logp_difference/max': 1.7028827667236328, 'sampling/importance_sampling_ratio/min': 0.0828806608915329, 'sampling/importance_sampling_ratio/mean': 0.8894721269607544, 'sampling/importance_sampling_ratio/max': 2.7371442317962646, 'kl': 1.0381192453205585, 'entropy': 0.15766494814306498, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.54486333701061, 'epoch': 6.11}
+ 76%|███████▋  | 764/1000 [6:35:10<2:08:17, 32.62s/it] 76%|███████▋  | 765/1000 [6:35:42<2:06:20, 32.26s/it]                                                      {'loss': 0.0007, 'grad_norm': 0.004561926703900099, 'learning_rate': 3.3445639736461157e-06, 'num_tokens': 123147056.0, 'completions/mean_length': 2238.265625, 'completions/min_length': 853.0, 'completions/max_length': 3512.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2238.265625, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3512.0, 'rewards/rollout_reward_func/mean': 12.682812690734863, 'rewards/rollout_reward_func/std': 5.108180999755859, 'reward': 12.682811737060547, 'reward_std': 4.820391654968262, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.036957353353500366, 'sampling/sampling_logp_difference/max': 1.7424561977386475, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7853521108627319, 'sampling/importance_sampling_ratio/max': 1.9433201551437378, 'kl': 0.8982740305364132, 'entropy': 0.14073373470455408, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.10781229400891, 'epoch': 6.12}
+ 76%|███████▋  | 765/1000 [6:35:42<2:06:20, 32.26s/it] 77%|███████▋  | 766/1000 [6:36:03<1:52:39, 28.88s/it]                                                      {'loss': 0.0007, 'grad_norm': 0.0060302191413939, 'learning_rate': 3.317603641780835e-06, 'num_tokens': 123285084.0, 'completions/mean_length': 1617.3125, 'completions/min_length': 783.0, 'completions/max_length': 2372.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1617.3125, 'completions/min_terminated_length': 783.0, 'completions/max_terminated_length': 2372.0, 'rewards/rollout_reward_func/mean': 10.865625381469727, 'rewards/rollout_reward_func/std': 5.36653995513916, 'reward': 10.865625381469727, 'reward_std': 5.145752906799316, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03207758814096451, 'sampling/sampling_logp_difference/max': 1.6053006649017334, 'sampling/importance_sampling_ratio/min': 0.07226201891899109, 'sampling/importance_sampling_ratio/mean': 0.9652554988861084, 'sampling/importance_sampling_ratio/max': 2.9933829307556152, 'kl': 2.3865229673683643, 'entropy': 0.10579897044226527, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 20.118766671999765, 'epoch': 6.13}
+ 77%|███████▋  | 766/1000 [6:36:03<1:52:39, 28.88s/it] 77%|███████▋  | 767/1000 [6:36:35<1:55:42, 29.80s/it]                                                      {'loss': -0.0021, 'grad_norm': 0.004271305166184902, 'learning_rate': 3.2907357765449372e-06, 'num_tokens': 123462372.0, 'completions/mean_length': 2213.125, 'completions/min_length': 1200.0, 'completions/max_length': 3618.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2213.125, 'completions/min_terminated_length': 1200.0, 'completions/max_terminated_length': 3618.0, 'rewards/rollout_reward_func/mean': 13.354686737060547, 'rewards/rollout_reward_func/std': 5.039429664611816, 'reward': 13.354687690734863, 'reward_std': 4.86429500579834, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.033761166036129, 'sampling/sampling_logp_difference/max': 1.8916988372802734, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9364851713180542, 'sampling/importance_sampling_ratio/max': 2.246537923812866, 'kl': 1.382584247738123, 'entropy': 0.1302572013810277, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.579475417995127, 'epoch': 6.14}
+ 77%|███████▋  | 767/1000 [6:36:35<1:55:42, 29.80s/it] 77%|███████▋  | 768/1000 [6:37:11<2:03:09, 31.85s/it]                                                      {'loss': 0.0026, 'grad_norm': 0.005201574880629778, 'learning_rate': 3.2639606484975327e-06, 'num_tokens': 123633884.0, 'completions/mean_length': 2126.5, 'completions/min_length': 787.0, 'completions/max_length': 4106.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2126.5, 'completions/min_terminated_length': 787.0, 'completions/max_terminated_length': 4106.0, 'rewards/rollout_reward_func/mean': 11.359375, 'rewards/rollout_reward_func/std': 5.489896297454834, 'reward': 11.359375, 'reward_std': 5.379840850830078, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.032817717641592026, 'sampling/sampling_logp_difference/max': 1.5147252082824707, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8716378808021545, 'sampling/importance_sampling_ratio/max': 2.503575325012207, 'kl': 0.95260876044631, 'entropy': 0.12681598868221045, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 35.28525455099589, 'epoch': 6.14}
+ 77%|███████▋  | 768/1000 [6:37:11<2:03:09, 31.85s/it] 77%|███████▋  | 769/1000 [6:37:42<2:00:56, 31.41s/it]                                                      {'loss': 0.0001, 'grad_norm': 0.004655319731682539, 'learning_rate': 3.2372785272638538e-06, 'num_tokens': 123800024.0, 'completions/mean_length': 2044.1875, 'completions/min_length': 851.0, 'completions/max_length': 3376.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2044.1875, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 3376.0, 'rewards/rollout_reward_func/mean': 12.524999618530273, 'rewards/rollout_reward_func/std': 5.43924617767334, 'reward': 12.524999618530273, 'reward_std': 5.107220649719238, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03449346125125885, 'sampling/sampling_logp_difference/max': 1.6854972839355469, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9086450338363647, 'sampling/importance_sampling_ratio/max': 2.513322114944458, 'kl': 0.9758589006960392, 'entropy': 0.1258683167397976, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.116300264009624, 'epoch': 6.15}
+ 77%|███████▋  | 769/1000 [6:37:42<2:00:56, 31.41s/it] 77%|███████▋  | 770/1000 [6:38:11<1:58:17, 30.86s/it]                                                      {'loss': -0.0008, 'grad_norm': 0.0035342061892151833, 'learning_rate': 3.210689681532571e-06, 'num_tokens': 123967737.0, 'completions/mean_length': 2067.140625, 'completions/min_length': 856.0, 'completions/max_length': 3329.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2067.140625, 'completions/min_terminated_length': 856.0, 'completions/max_terminated_length': 3329.0, 'rewards/rollout_reward_func/mean': 12.626562118530273, 'rewards/rollout_reward_func/std': 4.906628131866455, 'reward': 12.626562118530273, 'reward_std': 4.972892761230469, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03127998486161232, 'sampling/sampling_logp_difference/max': 1.5129292011260986, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7987537980079651, 'sampling/importance_sampling_ratio/max': 2.1708362102508545, 'kl': 0.9383435323834419, 'entropy': 0.12242506630718708, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.328910314994573, 'epoch': 6.16}
+ 77%|███████▋  | 770/1000 [6:38:11<1:58:17, 30.86s/it] 77%|███████▋  | 771/1000 [6:38:31<1:44:56, 27.50s/it]                                                      {'loss': -0.0004, 'grad_norm': 0.003997016232460737, 'learning_rate': 3.1841943790530666e-06, 'num_tokens': 124089779.0, 'completions/mean_length': 1374.78125, 'completions/min_length': 852.0, 'completions/max_length': 2199.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1374.78125, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 2199.0, 'rewards/rollout_reward_func/mean': 10.662500381469727, 'rewards/rollout_reward_func/std': 5.188769817352295, 'reward': 10.662500381469727, 'reward_std': 5.1687397956848145, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.029033642262220383, 'sampling/sampling_logp_difference/max': 1.398782730102539, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8124661445617676, 'sampling/importance_sampling_ratio/max': 1.8568391799926758, 'kl': 1.3680031709372997, 'entropy': 0.09988851333037019, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 18.88498618300946, 'epoch': 6.17}
+ 77%|███████▋  | 771/1000 [6:38:31<1:44:56, 27.50s/it] 77%|███████▋  | 772/1000 [6:39:04<1:50:29, 29.08s/it]                                                      {'loss': -0.002, 'grad_norm': 0.003973809070885181, 'learning_rate': 3.157792886632742e-06, 'num_tokens': 124238116.0, 'completions/mean_length': 1773.640625, 'completions/min_length': 781.0, 'completions/max_length': 3762.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1773.640625, 'completions/min_terminated_length': 781.0, 'completions/max_terminated_length': 3762.0, 'rewards/rollout_reward_func/mean': 11.821874618530273, 'rewards/rollout_reward_func/std': 5.328166484832764, 'reward': 11.821874618530273, 'reward_std': 5.234838485717773, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03525552898645401, 'sampling/sampling_logp_difference/max': 2.0397000312805176, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.898561954498291, 'sampling/importance_sampling_ratio/max': 2.5434763431549072, 'kl': 0.9244558773934841, 'entropy': 0.11374163581058383, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.413127017993247, 'epoch': 6.18}
+ 77%|███████▋  | 772/1000 [6:39:04<1:50:29, 29.08s/it] 77%|███████▋  | 773/1000 [6:39:37<1:54:50, 30.36s/it]                                                      {'loss': -0.0016, 'grad_norm': 0.0050154863856732845, 'learning_rate': 3.1314854701343267e-06, 'num_tokens': 124410921.0, 'completions/mean_length': 2146.328125, 'completions/min_length': 853.0, 'completions/max_length': 3751.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2146.328125, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3751.0, 'rewards/rollout_reward_func/mean': 11.456249237060547, 'rewards/rollout_reward_func/std': 5.199385643005371, 'reward': 11.456249237060547, 'reward_std': 5.139455795288086, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03323233872652054, 'sampling/sampling_logp_difference/max': 2.5295815467834473, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9350058436393738, 'sampling/importance_sampling_ratio/max': 2.5946760177612305, 'kl': 0.9400551877915859, 'entropy': 0.12887528631836176, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.973717826011125, 'epoch': 6.18}
+ 77%|███████▋  | 773/1000 [6:39:37<1:54:50, 30.36s/it] 77%|███████▋  | 774/1000 [6:40:26<2:14:57, 35.83s/it]                                                      {'loss': -0.0011, 'grad_norm': 0.008920709602534771, 'learning_rate': 3.105272394473217e-06, 'num_tokens': 124576427.0, 'completions/mean_length': 2034.65625, 'completions/min_length': 866.0, 'completions/max_length': 5424.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2034.65625, 'completions/min_terminated_length': 866.0, 'completions/max_terminated_length': 5424.0, 'rewards/rollout_reward_func/mean': 11.178125381469727, 'rewards/rollout_reward_func/std': 5.436369895935059, 'reward': 11.178125381469727, 'reward_std': 5.561267852783203, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.027019266039133072, 'sampling/sampling_logp_difference/max': 1.5084588527679443, 'sampling/importance_sampling_ratio/min': 0.18716084957122803, 'sampling/importance_sampling_ratio/mean': 0.9250634908676147, 'sampling/importance_sampling_ratio/max': 2.96390962600708, 'kl': 1.079947516322136, 'entropy': 0.1179134314879775, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 46.8981282379973, 'epoch': 6.19}
+ 77%|███████▋  | 774/1000 [6:40:26<2:14:57, 35.83s/it] 78%|███████▊  | 775/1000 [6:40:59<2:11:01, 34.94s/it]                                                      {'loss': -0.0011, 'grad_norm': 0.003754297737032175, 'learning_rate': 3.079153923614797e-06, 'num_tokens': 124786082.0, 'completions/mean_length': 2704.859375, 'completions/min_length': 1597.0, 'completions/max_length': 3594.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2704.859375, 'completions/min_terminated_length': 1597.0, 'completions/max_terminated_length': 3594.0, 'rewards/rollout_reward_func/mean': 14.0078125, 'rewards/rollout_reward_func/std': 4.890298366546631, 'reward': 14.0078125, 'reward_std': 4.691695690155029, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04001760482788086, 'sampling/sampling_logp_difference/max': 2.0201594829559326, 'sampling/importance_sampling_ratio/min': 0.060352031141519547, 'sampling/importance_sampling_ratio/mean': 0.7033872008323669, 'sampling/importance_sampling_ratio/max': 2.694338798522949, 'kl': 0.8491626344621181, 'entropy': 0.15712253283709288, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.513255191006465, 'epoch': 6.2}
+ 78%|███████▊  | 775/1000 [6:40:59<2:11:01, 34.94s/it] 78%|███████▊  | 776/1000 [6:41:27<2:02:50, 32.90s/it]                                                      {'loss': 0.0001, 'grad_norm': 0.004311375319957733, 'learning_rate': 3.053130320571773e-06, 'num_tokens': 124937748.0, 'completions/mean_length': 1824.03125, 'completions/min_length': 782.0, 'completions/max_length': 3211.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1824.03125, 'completions/min_terminated_length': 782.0, 'completions/max_terminated_length': 3211.0, 'rewards/rollout_reward_func/mean': 12.071874618530273, 'rewards/rollout_reward_func/std': 5.11746072769165, 'reward': 12.071874618530273, 'reward_std': 5.231256484985352, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03244674950838089, 'sampling/sampling_logp_difference/max': 1.9962542057037354, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8694931268692017, 'sampling/importance_sampling_ratio/max': 2.222893714904785, 'kl': 0.9428738839924335, 'entropy': 0.1128513680305332, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 27.1154347830161, 'epoch': 6.21}
+ 78%|███████▊  | 776/1000 [6:41:27<2:02:50, 32.90s/it] 78%|███████▊  | 777/1000 [6:42:01<2:04:19, 33.45s/it]                                                      {'loss': 0.0015, 'grad_norm': 0.009006226435303688, 'learning_rate': 3.0272018474015394e-06, 'num_tokens': 125106933.0, 'completions/mean_length': 2091.390625, 'completions/min_length': 852.0, 'completions/max_length': 3786.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2091.390625, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3786.0, 'rewards/rollout_reward_func/mean': 12.845312118530273, 'rewards/rollout_reward_func/std': 5.690452575683594, 'reward': 12.845312118530273, 'reward_std': 5.498152732849121, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.030911684036254883, 'sampling/sampling_logp_difference/max': 2.0377748012542725, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9963118433952332, 'sampling/importance_sampling_ratio/max': 2.9743192195892334, 'kl': 0.8707105852663517, 'entropy': 0.12555176205933094, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 33.27278587198816, 'epoch': 6.22}
+ 78%|███████▊  | 777/1000 [6:42:01<2:04:19, 33.45s/it] 78%|███████▊  | 778/1000 [6:42:27<1:54:50, 31.04s/it]                                                      {'loss': -0.0002, 'grad_norm': 0.00509169977158308, 'learning_rate': 3.0013687652035397e-06, 'num_tokens': 125246289.0, 'completions/mean_length': 1637.3125, 'completions/min_length': 851.0, 'completions/max_length': 2783.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1637.3125, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 2783.0, 'rewards/rollout_reward_func/mean': 11.723437309265137, 'rewards/rollout_reward_func/std': 5.256069660186768, 'reward': 11.723438262939453, 'reward_std': 4.708797454833984, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.026619641110301018, 'sampling/sampling_logp_difference/max': 2.1938700675964355, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9316608905792236, 'sampling/importance_sampling_ratio/max': 2.827646255493164, 'kl': 1.0756950788199902, 'entropy': 0.10655995830893517, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 24.347591950019705, 'epoch': 6.22}
+ 78%|███████▊  | 778/1000 [6:42:27<1:54:50, 31.04s/it] 78%|███████▊  | 779/1000 [6:43:01<1:57:54, 32.01s/it]                                                      {'loss': 0.0009, 'grad_norm': 0.006075434852391481, 'learning_rate': 2.975631334116616e-06, 'num_tokens': 125431013.0, 'completions/mean_length': 2327.3125, 'completions/min_length': 1266.0, 'completions/max_length': 3769.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2327.3125, 'completions/min_terminated_length': 1266.0, 'completions/max_terminated_length': 3769.0, 'rewards/rollout_reward_func/mean': 12.920312881469727, 'rewards/rollout_reward_func/std': 5.449688911437988, 'reward': 12.920312881469727, 'reward_std': 5.618727684020996, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03373061493039131, 'sampling/sampling_logp_difference/max': 2.2160701751708984, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9321659803390503, 'sampling/importance_sampling_ratio/max': 2.873115301132202, 'kl': 1.0126723609864712, 'entropy': 0.1332858856767416, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.8556756900216, 'epoch': 6.23}
+ 78%|███████▊  | 779/1000 [6:43:01<1:57:54, 32.01s/it] 78%|███████▊  | 780/1000 [6:43:35<1:59:07, 32.49s/it]                                                      {'loss': -0.0015, 'grad_norm': 0.0057282219640910625, 'learning_rate': 2.949989813316417e-06, 'num_tokens': 125605988.0, 'completions/mean_length': 2178.984375, 'completions/min_length': 1324.0, 'completions/max_length': 3682.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2178.984375, 'completions/min_terminated_length': 1324.0, 'completions/max_terminated_length': 3682.0, 'rewards/rollout_reward_func/mean': 10.942188262939453, 'rewards/rollout_reward_func/std': 5.419623851776123, 'reward': 10.942188262939453, 'reward_std': 5.097074508666992, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03632545843720436, 'sampling/sampling_logp_difference/max': 3.9757931232452393, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8018414974212646, 'sampling/importance_sampling_ratio/max': 2.6238200664520264, 'kl': 1.0080189742147923, 'entropy': 0.12058343878015876, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.42648561501119, 'epoch': 6.24}
+ 78%|███████▊  | 780/1000 [6:43:35<1:59:07, 32.49s/it] 78%|███████▊  | 781/1000 [6:44:08<1:58:59, 32.60s/it]                                                      {'loss': -0.001, 'grad_norm': 0.0032580315601080656, 'learning_rate': 2.9244444610127764e-06, 'num_tokens': 125805591.0, 'completions/mean_length': 2553.796875, 'completions/min_length': 1218.0, 'completions/max_length': 3452.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2553.796875, 'completions/min_terminated_length': 1218.0, 'completions/max_terminated_length': 3452.0, 'rewards/rollout_reward_func/mean': 12.0703125, 'rewards/rollout_reward_func/std': 5.067753314971924, 'reward': 12.0703125, 'reward_std': 5.020235061645508, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03994312882423401, 'sampling/sampling_logp_difference/max': 2.1875476837158203, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.731462299823761, 'sampling/importance_sampling_ratio/max': 2.8392601013183594, 'kl': 0.9963100701570511, 'entropy': 0.1418386995792389, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.53153208400181, 'epoch': 6.25}
+ 78%|███████▊  | 781/1000 [6:44:08<1:58:59, 32.60s/it] 78%|███████▊  | 782/1000 [6:44:43<2:01:58, 33.57s/it]                                                      {'loss': 0.0006, 'grad_norm': 0.0035967424046248198, 'learning_rate': 2.8989955344471006e-06, 'num_tokens': 126001516.0, 'completions/mean_length': 2497.953125, 'completions/min_length': 852.0, 'completions/max_length': 3904.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2497.953125, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3904.0, 'rewards/rollout_reward_func/mean': 12.064062118530273, 'rewards/rollout_reward_func/std': 5.211080074310303, 'reward': 12.064062118530273, 'reward_std': 5.168285369873047, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.038944363594055176, 'sampling/sampling_logp_difference/max': 1.6906037330627441, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7095639109611511, 'sampling/importance_sampling_ratio/max': 2.094613790512085, 'kl': 0.9989744685590267, 'entropy': 0.14344020374119282, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 34.34159141200507, 'epoch': 6.26}
+ 78%|███████▊  | 782/1000 [6:44:43<2:01:58, 33.57s/it] 78%|███████▊  | 783/1000 [6:45:15<1:59:38, 33.08s/it]                                                      {'loss': 0.0023, 'grad_norm': 0.005906966514885426, 'learning_rate': 2.873643289889803e-06, 'num_tokens': 126174202.0, 'completions/mean_length': 2143.21875, 'completions/min_length': 1269.0, 'completions/max_length': 3537.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2143.21875, 'completions/min_terminated_length': 1269.0, 'completions/max_terminated_length': 3537.0, 'rewards/rollout_reward_func/mean': 12.515625, 'rewards/rollout_reward_func/std': 5.27077054977417, 'reward': 12.515625, 'reward_std': 5.089329719543457, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.034324973821640015, 'sampling/sampling_logp_difference/max': 2.5692014694213867, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8342313766479492, 'sampling/importance_sampling_ratio/max': 2.2158050537109375, 'kl': 1.013389516621828, 'entropy': 0.1234248923137784, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.59853767298773, 'epoch': 6.26}
+ 78%|███████▊  | 783/1000 [6:45:15<1:59:38, 33.08s/it] 78%|███████▊  | 784/1000 [6:45:46<1:56:29, 32.36s/it]                                                      {'loss': -0.0015, 'grad_norm': 0.005229029338806868, 'learning_rate': 2.848387982637707e-06, 'num_tokens': 126323416.0, 'completions/mean_length': 1787.71875, 'completions/min_length': 852.0, 'completions/max_length': 3470.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1787.71875, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3470.0, 'rewards/rollout_reward_func/mean': 11.301562309265137, 'rewards/rollout_reward_func/std': 5.203463554382324, 'reward': 11.301562309265137, 'reward_std': 5.187722206115723, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.027169950306415558, 'sampling/sampling_logp_difference/max': 1.7908755540847778, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 1.0225496292114258, 'sampling/importance_sampling_ratio/max': 2.864983081817627, 'kl': 0.9626942202448845, 'entropy': 0.10053884610533714, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.576529997990292, 'epoch': 6.27}
+ 78%|███████▊  | 784/1000 [6:45:46<1:56:29, 32.36s/it] 78%|███████▊  | 785/1000 [6:46:19<1:56:06, 32.40s/it]                                                      {'loss': 0.001, 'grad_norm': 0.00424749031662941, 'learning_rate': 2.823229867011469e-06, 'num_tokens': 126471880.0, 'completions/mean_length': 1776.0, 'completions/min_length': 866.0, 'completions/max_length': 3698.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1776.0, 'completions/min_terminated_length': 866.0, 'completions/max_terminated_length': 3698.0, 'rewards/rollout_reward_func/mean': 12.042187690734863, 'rewards/rollout_reward_func/std': 4.828283309936523, 'reward': 12.042187690734863, 'reward_std': 4.475732803344727, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.030349552631378174, 'sampling/sampling_logp_difference/max': 1.8427269458770752, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8752024173736572, 'sampling/importance_sampling_ratio/max': 2.41440486907959, 'kl': 1.1233205907046795, 'entropy': 0.10125640616752207, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.341914352000458, 'epoch': 6.28}
+ 78%|███████▊  | 785/1000 [6:46:19<1:56:06, 32.40s/it] 79%|███████▊  | 786/1000 [6:46:44<1:47:41, 30.19s/it]                                                      {'loss': -0.0002, 'grad_norm': 0.003274531103670597, 'learning_rate': 2.7981691963530385e-06, 'num_tokens': 126610370.0, 'completions/mean_length': 1624.15625, 'completions/min_length': 780.0, 'completions/max_length': 2799.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1624.15625, 'completions/min_terminated_length': 780.0, 'completions/max_terminated_length': 2799.0, 'rewards/rollout_reward_func/mean': 12.048437118530273, 'rewards/rollout_reward_func/std': 5.2526936531066895, 'reward': 12.048437118530273, 'reward_std': 5.178060054779053, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.028357986360788345, 'sampling/sampling_logp_difference/max': 2.2844502925872803, 'sampling/importance_sampling_ratio/min': 0.015700671821832657, 'sampling/importance_sampling_ratio/mean': 0.8928103446960449, 'sampling/importance_sampling_ratio/max': 2.6055099964141846, 'kl': 1.2460894286632538, 'entropy': 0.09407586278393865, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 24.12937583700841, 'epoch': 6.29}
+ 79%|███████▊  | 786/1000 [6:46:44<1:47:41, 30.19s/it] 79%|███████▊  | 787/1000 [6:47:13<1:46:25, 29.98s/it]                                                      {'loss': -0.0011, 'grad_norm': 0.005443433299660683, 'learning_rate': 2.7732062230230933e-06, 'num_tokens': 126744101.0, 'completions/mean_length': 1552.671875, 'completions/min_length': 850.0, 'completions/max_length': 3445.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1552.671875, 'completions/min_terminated_length': 850.0, 'completions/max_terminated_length': 3445.0, 'rewards/rollout_reward_func/mean': 11.998437881469727, 'rewards/rollout_reward_func/std': 5.100155353546143, 'reward': 11.998437881469727, 'reward_std': 4.971474647521973, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.027490178123116493, 'sampling/sampling_logp_difference/max': 1.4971380233764648, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9543653726577759, 'sampling/importance_sampling_ratio/max': 2.486109972000122, 'kl': 1.5638530664145947, 'entropy': 0.09173118113540113, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.209437239005638, 'epoch': 6.3}
+ 79%|███████▊  | 787/1000 [6:47:13<1:46:25, 29.98s/it] 79%|███████▉  | 788/1000 [6:47:44<1:47:03, 30.30s/it]                                                      {'loss': -0.0013, 'grad_norm': 0.004011601209640503, 'learning_rate': 2.748341198398495e-06, 'num_tokens': 126928948.0, 'completions/mean_length': 2328.859375, 'completions/min_length': 867.0, 'completions/max_length': 3478.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2328.859375, 'completions/min_terminated_length': 867.0, 'completions/max_terminated_length': 3478.0, 'rewards/rollout_reward_func/mean': 11.176562309265137, 'rewards/rollout_reward_func/std': 5.289424896240234, 'reward': 11.176563262939453, 'reward_std': 5.306707382202148, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03932957351207733, 'sampling/sampling_logp_difference/max': 1.919848918914795, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.760177493095398, 'sampling/importance_sampling_ratio/max': 2.91146183013916, 'kl': 1.051685955375433, 'entropy': 0.12005221098661423, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.75301807899814, 'epoch': 6.3}
+ 79%|███████▉  | 788/1000 [6:47:44<1:47:03, 30.30s/it] 79%|███████▉  | 789/1000 [6:48:16<1:48:31, 30.86s/it]                                                      {'loss': 0.0001, 'grad_norm': 0.004458482377231121, 'learning_rate': 2.7235743728697612e-06, 'num_tokens': 127108901.0, 'completions/mean_length': 2254.390625, 'completions/min_length': 783.0, 'completions/max_length': 3592.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2254.390625, 'completions/min_terminated_length': 783.0, 'completions/max_terminated_length': 3592.0, 'rewards/rollout_reward_func/mean': 11.526561737060547, 'rewards/rollout_reward_func/std': 5.296636581420898, 'reward': 11.526562690734863, 'reward_std': 5.256927967071533, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03333790600299835, 'sampling/sampling_logp_difference/max': 1.9365370273590088, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8262240886688232, 'sampling/importance_sampling_ratio/max': 2.554894208908081, 'kl': 0.9530502259731293, 'entropy': 0.12191017623990774, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.0109494099961, 'epoch': 6.31}
+ 79%|███████▉  | 789/1000 [6:48:16<1:48:31, 30.86s/it] 79%|███████▉  | 790/1000 [6:48:48<1:49:02, 31.16s/it]                                                      {'loss': -0.0008, 'grad_norm': 0.0033683038782328367, 'learning_rate': 2.6989059958385537e-06, 'num_tokens': 127285740.0, 'completions/mean_length': 2206.109375, 'completions/min_length': 1190.0, 'completions/max_length': 3612.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2206.109375, 'completions/min_terminated_length': 1190.0, 'completions/max_terminated_length': 3612.0, 'rewards/rollout_reward_func/mean': 13.446874618530273, 'rewards/rollout_reward_func/std': 5.267630100250244, 'reward': 13.44687557220459, 'reward_std': 4.902789115905762, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03280835971236229, 'sampling/sampling_logp_difference/max': 2.5813238620758057, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8978819847106934, 'sampling/importance_sampling_ratio/max': 2.9851224422454834, 'kl': 0.8767603412270546, 'entropy': 0.11221311241388321, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.52237252499617, 'epoch': 6.32}
+ 79%|███████▉  | 790/1000 [6:48:48<1:49:02, 31.16s/it] 79%|███████▉  | 791/1000 [6:49:17<1:46:36, 30.61s/it]                                                      {'loss': 0.0001, 'grad_norm': 0.005810643080621958, 'learning_rate': 2.674336315715159e-06, 'num_tokens': 127431306.0, 'completions/mean_length': 1732.34375, 'completions/min_length': 785.0, 'completions/max_length': 3362.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1732.34375, 'completions/min_terminated_length': 785.0, 'completions/max_terminated_length': 3362.0, 'rewards/rollout_reward_func/mean': 12.657812118530273, 'rewards/rollout_reward_func/std': 5.0077972412109375, 'reward': 12.657812118530273, 'reward_std': 4.764773368835449, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.029781349003314972, 'sampling/sampling_logp_difference/max': 1.896636962890625, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9280428886413574, 'sampling/importance_sampling_ratio/max': 2.022939920425415, 'kl': 1.031141996383667, 'entropy': 0.09974691597744823, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.17552102598711, 'epoch': 6.33}
+ 79%|███████▉  | 791/1000 [6:49:17<1:46:36, 30.61s/it] 79%|███████▉  | 792/1000 [6:49:49<1:47:20, 30.96s/it]                                                      {'loss': -0.0003, 'grad_norm': 0.005279312375932932, 'learning_rate': 2.6498655799159763e-06, 'num_tokens': 127605941.0, 'completions/mean_length': 2173.296875, 'completions/min_length': 878.0, 'completions/max_length': 3560.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2173.296875, 'completions/min_terminated_length': 878.0, 'completions/max_terminated_length': 3560.0, 'rewards/rollout_reward_func/mean': 11.314062118530273, 'rewards/rollout_reward_func/std': 5.39552640914917, 'reward': 11.314062118530273, 'reward_std': 5.490401268005371, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.028973456472158432, 'sampling/sampling_logp_difference/max': 2.738746166229248, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9496883153915405, 'sampling/importance_sampling_ratio/max': 2.808367967605591, 'kl': 0.9700469970703125, 'entropy': 0.10523644974455237, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.46067475900054, 'epoch': 6.34}
+ 79%|███████▉  | 792/1000 [6:49:49<1:47:20, 30.96s/it] 79%|███████▉  | 793/1000 [6:50:19<1:45:43, 30.64s/it]                                                      {'loss': 0.001, 'grad_norm': 0.00429776543751359, 'learning_rate': 2.625494034861048e-06, 'num_tokens': 127758461.0, 'completions/mean_length': 1837.75, 'completions/min_length': 783.0, 'completions/max_length': 3459.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1837.75, 'completions/min_terminated_length': 783.0, 'completions/max_terminated_length': 3459.0, 'rewards/rollout_reward_func/mean': 10.770312309265137, 'rewards/rollout_reward_func/std': 4.859083652496338, 'reward': 10.770313262939453, 'reward_std': 4.641120910644531, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03272417560219765, 'sampling/sampling_logp_difference/max': 1.8984355926513672, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9125673770904541, 'sampling/importance_sampling_ratio/max': 2.7721760272979736, 'kl': 1.0101943872869015, 'entropy': 0.10760242538526654, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.80177462499705, 'epoch': 6.34}
+ 79%|███████▉  | 793/1000 [6:50:19<1:45:43, 30.64s/it] 79%|███████▉  | 794/1000 [6:50:45<1:40:23, 29.24s/it]                                                      {'loss': -0.0003, 'grad_norm': 0.005457461345940828, 'learning_rate': 2.601221925971563e-06, 'num_tokens': 127919047.0, 'completions/mean_length': 1959.78125, 'completions/min_length': 893.0, 'completions/max_length': 2940.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1959.78125, 'completions/min_terminated_length': 893.0, 'completions/max_terminated_length': 2940.0, 'rewards/rollout_reward_func/mean': 11.932812690734863, 'rewards/rollout_reward_func/std': 5.255958557128906, 'reward': 11.932811737060547, 'reward_std': 5.452895164489746, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.031913384795188904, 'sampling/sampling_logp_difference/max': 1.7588698863983154, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9228942394256592, 'sampling/importance_sampling_ratio/max': 2.9094464778900146, 'kl': 1.0309757515788078, 'entropy': 0.10769395367242396, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 24.90654924001865, 'epoch': 6.35}
+ 79%|███████▉  | 794/1000 [6:50:45<1:40:23, 29.24s/it] 80%|███████▉  | 795/1000 [6:51:19<1:45:09, 30.78s/it]                                                      {'loss': 0.0002, 'grad_norm': 0.004318754188716412, 'learning_rate': 2.5770494976673844e-06, 'num_tokens': 128086577.0, 'completions/mean_length': 2065.90625, 'completions/min_length': 784.0, 'completions/max_length': 3781.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2065.90625, 'completions/min_terminated_length': 784.0, 'completions/max_terminated_length': 3781.0, 'rewards/rollout_reward_func/mean': 12.845312118530273, 'rewards/rollout_reward_func/std': 5.5497727394104, 'reward': 12.845312118530273, 'reward_std': 4.923506259918213, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.033382344990968704, 'sampling/sampling_logp_difference/max': 1.8502018451690674, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.873187780380249, 'sampling/importance_sampling_ratio/max': 2.9599273204803467, 'kl': 0.8607929088175297, 'entropy': 0.11226273234933615, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.91450405800424, 'epoch': 6.36}
+ 80%|███████▉  | 795/1000 [6:51:19<1:45:09, 30.78s/it] 80%|███████▉  | 796/1000 [6:51:48<1:42:33, 30.17s/it]                                                      {'loss': -0.0005, 'grad_norm': 0.004520745947957039, 'learning_rate': 2.5529769933645975e-06, 'num_tokens': 128223991.0, 'completions/mean_length': 1607.34375, 'completions/min_length': 851.0, 'completions/max_length': 3273.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1607.34375, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 3273.0, 'rewards/rollout_reward_func/mean': 11.75, 'rewards/rollout_reward_func/std': 5.501601219177246, 'reward': 11.75, 'reward_std': 5.383915424346924, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.024986710399389267, 'sampling/sampling_logp_difference/max': 1.758058786392212, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.904128909111023, 'sampling/importance_sampling_ratio/max': 2.6493966579437256, 'kl': 1.0508726723492146, 'entropy': 0.08765114261768758, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 27.668597707001027, 'epoch': 6.37}
+ 80%|███████▉  | 796/1000 [6:51:48<1:42:33, 30.17s/it] 80%|███████▉  | 797/1000 [6:52:18<1:41:23, 29.97s/it]                                                      {'loss': -0.0012, 'grad_norm': 0.005240756087005138, 'learning_rate': 2.5290046554730593e-06, 'num_tokens': 128409133.0, 'completions/mean_length': 2331.84375, 'completions/min_length': 1200.0, 'completions/max_length': 3259.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2331.84375, 'completions/min_terminated_length': 1200.0, 'completions/max_terminated_length': 3259.0, 'rewards/rollout_reward_func/mean': 13.278125762939453, 'rewards/rollout_reward_func/std': 5.359888553619385, 'reward': 13.278124809265137, 'reward_std': 5.277712821960449, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03964482620358467, 'sampling/sampling_logp_difference/max': 2.214536666870117, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8627645969390869, 'sampling/importance_sampling_ratio/max': 2.891216516494751, 'kl': 1.1698699556291103, 'entropy': 0.1207996872253716, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.294928169016202, 'epoch': 6.38}
+ 80%|███████▉  | 797/1000 [6:52:18<1:41:23, 29.97s/it] 80%|███████▉  | 798/1000 [6:52:49<1:41:55, 30.27s/it]                                                      {'loss': -0.0012, 'grad_norm': 0.005266024265438318, 'learning_rate': 2.5051327253939385e-06, 'num_tokens': 128582711.0, 'completions/mean_length': 2156.78125, 'completions/min_length': 855.0, 'completions/max_length': 3416.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2156.78125, 'completions/min_terminated_length': 855.0, 'completions/max_terminated_length': 3416.0, 'rewards/rollout_reward_func/mean': 12.540624618530273, 'rewards/rollout_reward_func/std': 5.334604740142822, 'reward': 12.540624618530273, 'reward_std': 5.377351760864258, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.027732573449611664, 'sampling/sampling_logp_difference/max': 1.5823044776916504, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9805306196212769, 'sampling/importance_sampling_ratio/max': 2.6897621154785156, 'kl': 1.0331785045564175, 'entropy': 0.09950746083632112, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.696386058007192, 'epoch': 6.38}
+ 80%|███████▉  | 798/1000 [6:52:49<1:41:55, 30.27s/it] 80%|███████▉  | 799/1000 [6:53:21<1:43:06, 30.78s/it]                                                      {'loss': 0.0008, 'grad_norm': 0.0058153532445430756, 'learning_rate': 2.4813614435173077e-06, 'num_tokens': 128748867.0, 'completions/mean_length': 2044.8125, 'completions/min_length': 852.0, 'completions/max_length': 3612.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2044.8125, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3612.0, 'rewards/rollout_reward_func/mean': 11.245312690734863, 'rewards/rollout_reward_func/std': 5.452069282531738, 'reward': 11.24531364440918, 'reward_std': 5.165586471557617, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03217389062047005, 'sampling/sampling_logp_difference/max': 3.7636208534240723, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9481256008148193, 'sampling/importance_sampling_ratio/max': 2.4759981632232666, 'kl': 1.0644307546317577, 'entropy': 0.10644408874213696, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.82097294999403, 'epoch': 6.39}
+ 80%|███████▉  | 799/1000 [6:53:21<1:43:06, 30.78s/it] 80%|████████  | 800/1000 [6:53:54<1:45:41, 31.71s/it]                                                      {'loss': 0.0006, 'grad_norm': 0.003997267223894596, 'learning_rate': 2.457691049219718e-06, 'num_tokens': 128938291.0, 'completions/mean_length': 2398.75, 'completions/min_length': 1278.0, 'completions/max_length': 3713.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2398.75, 'completions/min_terminated_length': 1278.0, 'completions/max_terminated_length': 3713.0, 'rewards/rollout_reward_func/mean': 11.990625381469727, 'rewards/rollout_reward_func/std': 4.935318946838379, 'reward': 11.99062442779541, 'reward_std': 5.09877872467041, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.035617925226688385, 'sampling/sampling_logp_difference/max': 1.4825003147125244, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7792561054229736, 'sampling/importance_sampling_ratio/max': 2.876567840576172, 'kl': 1.1641869992017746, 'entropy': 0.11982213240116835, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.52937203600595, 'epoch': 6.4}
+ 80%|████████  | 800/1000 [6:53:54<1:45:41, 31.71s/it] 80%|████████  | 801/1000 [6:54:27<1:45:31, 31.82s/it]                                                      {'loss': -0.0003, 'grad_norm': 0.003845743602141738, 'learning_rate': 2.4341217808617674e-06, 'num_tokens': 129105603.0, 'completions/mean_length': 2062.5, 'completions/min_length': 850.0, 'completions/max_length': 3496.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2062.5, 'completions/min_terminated_length': 850.0, 'completions/max_terminated_length': 3496.0, 'rewards/rollout_reward_func/mean': 13.5625, 'rewards/rollout_reward_func/std': 4.862539291381836, 'reward': 13.5625, 'reward_std': 4.789418697357178, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03579644113779068, 'sampling/sampling_logp_difference/max': 2.116488218307495, 'sampling/importance_sampling_ratio/min': 0.036381740123033524, 'sampling/importance_sampling_ratio/mean': 0.8663190603256226, 'sampling/importance_sampling_ratio/max': 2.9994282722473145, 'kl': 1.4032665714621544, 'entropy': 0.11211500037461519, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.813192118002917, 'epoch': 6.41}
+ 80%|████████  | 801/1000 [6:54:27<1:45:31, 31.82s/it] 80%|████████  | 802/1000 [6:54:58<1:44:14, 31.59s/it]                                                      {'loss': -0.002, 'grad_norm': 0.004901091568171978, 'learning_rate': 2.4106538757857316e-06, 'num_tokens': 129272288.0, 'completions/mean_length': 2052.703125, 'completions/min_length': 849.0, 'completions/max_length': 3477.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2052.703125, 'completions/min_terminated_length': 849.0, 'completions/max_terminated_length': 3477.0, 'rewards/rollout_reward_func/mean': 11.215624809265137, 'rewards/rollout_reward_func/std': 4.9147725105285645, 'reward': 11.215625762939453, 'reward_std': 4.967909336090088, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03452128916978836, 'sampling/sampling_logp_difference/max': 1.9000164270401, 'sampling/importance_sampling_ratio/min': 0.008137384429574013, 'sampling/importance_sampling_ratio/mean': 0.8578438758850098, 'sampling/importance_sampling_ratio/max': 2.9778521060943604, 'kl': 0.9433570168912411, 'entropy': 0.10901632905006409, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.751011318992823, 'epoch': 6.42}
+ 80%|████████  | 802/1000 [6:54:58<1:44:14, 31.59s/it] 80%|████████  | 803/1000 [6:55:33<1:47:03, 32.61s/it]                                                      {'loss': 0.0003, 'grad_norm': 0.00412222184240818, 'learning_rate': 2.3872875703131583e-06, 'num_tokens': 129463588.0, 'completions/mean_length': 2425.6875, 'completions/min_length': 854.0, 'completions/max_length': 3770.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2425.6875, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 3770.0, 'rewards/rollout_reward_func/mean': 12.842187881469727, 'rewards/rollout_reward_func/std': 5.3702239990234375, 'reward': 12.842187881469727, 'reward_std': 5.326184272766113, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03385272994637489, 'sampling/sampling_logp_difference/max': 2.438102960586548, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7737131118774414, 'sampling/importance_sampling_ratio/max': 2.9906790256500244, 'kl': 1.0242242813110352, 'entropy': 0.11826784769073129, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 33.552671158999146, 'epoch': 6.42}
+ 80%|████████  | 803/1000 [6:55:33<1:47:03, 32.61s/it] 80%|████████  | 804/1000 [6:55:58<1:39:31, 30.47s/it]                                                      {'loss': 0.0011, 'grad_norm': 0.005372143816202879, 'learning_rate': 2.3640230997424754e-06, 'num_tokens': 129618445.0, 'completions/mean_length': 1871.890625, 'completions/min_length': 786.0, 'completions/max_length': 2865.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1871.890625, 'completions/min_terminated_length': 786.0, 'completions/max_terminated_length': 2865.0, 'rewards/rollout_reward_func/mean': 12.939062118530273, 'rewards/rollout_reward_func/std': 4.930875301361084, 'reward': 12.939062118530273, 'reward_std': 4.972416877746582, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.027913089841604233, 'sampling/sampling_logp_difference/max': 2.0401408672332764, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9402674436569214, 'sampling/importance_sampling_ratio/max': 2.3664209842681885, 'kl': 0.9970197826623917, 'entropy': 0.09391740337014198, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 24.40614754299895, 'epoch': 6.43}
+ 80%|████████  | 804/1000 [6:55:58<1:39:31, 30.47s/it] 80%|████████  | 805/1000 [6:56:24<1:34:15, 29.00s/it]                                                      {'loss': 0.0012, 'grad_norm': 0.006194289308041334, 'learning_rate': 2.3408606983466515e-06, 'num_tokens': 129760846.0, 'completions/mean_length': 1683.640625, 'completions/min_length': 853.0, 'completions/max_length': 2845.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1683.640625, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 2845.0, 'rewards/rollout_reward_func/mean': 11.265625, 'rewards/rollout_reward_func/std': 5.035562992095947, 'reward': 11.265625, 'reward_std': 4.967552661895752, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.026859518140554428, 'sampling/sampling_logp_difference/max': 2.394042730331421, 'sampling/importance_sampling_ratio/min': 0.06948190927505493, 'sampling/importance_sampling_ratio/mean': 0.9395464062690735, 'sampling/importance_sampling_ratio/max': 2.6773736476898193, 'kl': 1.1414090432226658, 'entropy': 0.09255177341401577, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 24.51775598200038, 'epoch': 6.44}
+ 80%|████████  | 805/1000 [6:56:24<1:34:15, 29.00s/it] 81%|████████  | 806/1000 [6:56:54<1:34:53, 29.35s/it]                                                      {'loss': -0.0001, 'grad_norm': 0.003953082486987114, 'learning_rate': 2.3178005993708037e-06, 'num_tokens': 129918154.0, 'completions/mean_length': 1910.5625, 'completions/min_length': 869.0, 'completions/max_length': 3459.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1910.5625, 'completions/min_terminated_length': 869.0, 'completions/max_terminated_length': 3459.0, 'rewards/rollout_reward_func/mean': 11.9765625, 'rewards/rollout_reward_func/std': 5.233552932739258, 'reward': 11.9765625, 'reward_std': 5.307790756225586, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.029075898230075836, 'sampling/sampling_logp_difference/max': 1.6624035835266113, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.891225278377533, 'sampling/importance_sampling_ratio/max': 2.254448652267456, 'kl': 1.1038287840783596, 'entropy': 0.10449610324576497, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.864033908990677, 'epoch': 6.45}
+ 81%|████████  | 806/1000 [6:56:54<1:34:53, 29.35s/it] 81%|████████  | 807/1000 [6:57:25<1:36:01, 29.85s/it]                                                      {'loss': 0.0001, 'grad_norm': 0.004775996319949627, 'learning_rate': 2.294843035029881e-06, 'num_tokens': 130081221.0, 'completions/mean_length': 1998.921875, 'completions/min_length': 1198.0, 'completions/max_length': 3486.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1998.921875, 'completions/min_terminated_length': 1198.0, 'completions/max_terminated_length': 3486.0, 'rewards/rollout_reward_func/mean': 10.295312881469727, 'rewards/rollout_reward_func/std': 5.224679946899414, 'reward': 10.29531192779541, 'reward_std': 5.018374919891357, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.029799461364746094, 'sampling/sampling_logp_difference/max': 2.2777953147888184, 'sampling/importance_sampling_ratio/min': 0.020667491480708122, 'sampling/importance_sampling_ratio/mean': 0.9947628974914551, 'sampling/importance_sampling_ratio/max': 2.8408007621765137, 'kl': 1.0440069362521172, 'entropy': 0.09652929124422371, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.714096844996675, 'epoch': 6.46}
+ 81%|████████  | 807/1000 [6:57:25<1:36:01, 29.85s/it] 81%|████████  | 808/1000 [6:57:56<1:36:50, 30.26s/it]                                                      {'loss': -0.0014, 'grad_norm': 0.0032338362652808428, 'learning_rate': 2.2719882365062937e-06, 'num_tokens': 130230576.0, 'completions/mean_length': 1790.296875, 'completions/min_length': 867.0, 'completions/max_length': 3606.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1790.296875, 'completions/min_terminated_length': 867.0, 'completions/max_terminated_length': 3606.0, 'rewards/rollout_reward_func/mean': 11.4140625, 'rewards/rollout_reward_func/std': 5.442655563354492, 'reward': 11.4140625, 'reward_std': 5.423440933227539, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03559085354208946, 'sampling/sampling_logp_difference/max': 2.2730536460876465, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7760636210441589, 'sampling/importance_sampling_ratio/max': 2.268522024154663, 'kl': 1.6266106590628624, 'entropy': 0.09553755633533001, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.099353824007267, 'epoch': 6.46}
+ 81%|████████  | 808/1000 [6:57:56<1:36:50, 30.26s/it] 81%|████████  | 809/1000 [6:58:27<1:36:35, 30.34s/it]                                                      {'loss': -0.0003, 'grad_norm': 0.003675824496895075, 'learning_rate': 2.2492364339476117e-06, 'num_tokens': 130377769.0, 'completions/mean_length': 1757.390625, 'completions/min_length': 784.0, 'completions/max_length': 3493.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1757.390625, 'completions/min_terminated_length': 784.0, 'completions/max_terminated_length': 3493.0, 'rewards/rollout_reward_func/mean': 11.99062442779541, 'rewards/rollout_reward_func/std': 5.380438327789307, 'reward': 11.99062442779541, 'reward_std': 4.5262956619262695, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.027042580768465996, 'sampling/sampling_logp_difference/max': 2.0368142127990723, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8341282606124878, 'sampling/importance_sampling_ratio/max': 1.6992096900939941, 'kl': 0.9503783881664276, 'entropy': 0.10827563144266605, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.22782765798911, 'epoch': 6.47}
+ 81%|████████  | 809/1000 [6:58:27<1:36:35, 30.34s/it] 81%|████████  | 810/1000 [6:58:58<1:37:21, 30.74s/it]                                                      {'loss': -0.0019, 'grad_norm': 0.0038805108051747084, 'learning_rate': 2.226587856464238e-06, 'num_tokens': 130573337.0, 'completions/mean_length': 2492.375, 'completions/min_length': 853.0, 'completions/max_length': 3507.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2492.375, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3507.0, 'rewards/rollout_reward_func/mean': 12.231249809265137, 'rewards/rollout_reward_func/std': 5.20695161819458, 'reward': 12.231249809265137, 'reward_std': 4.319577217102051, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03593287616968155, 'sampling/sampling_logp_difference/max': 2.063058853149414, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9073441624641418, 'sampling/importance_sampling_ratio/max': 2.5713539123535156, 'kl': 1.0301873944699764, 'entropy': 0.12013623025268316, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.370382711014827, 'epoch': 6.48}
+ 81%|████████  | 810/1000 [6:58:58<1:37:21, 30.74s/it] 81%|████████  | 811/1000 [6:59:28<1:36:02, 30.49s/it]                                                      {'loss': -0.0019, 'grad_norm': 0.0032224031165242195, 'learning_rate': 2.2040427321270914e-06, 'num_tokens': 130738398.0, 'completions/mean_length': 2027.328125, 'completions/min_length': 779.0, 'completions/max_length': 3373.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2027.328125, 'completions/min_terminated_length': 779.0, 'completions/max_terminated_length': 3373.0, 'rewards/rollout_reward_func/mean': 13.34375, 'rewards/rollout_reward_func/std': 4.813930988311768, 'reward': 13.34375, 'reward_std': 4.831462860107422, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03161749616265297, 'sampling/sampling_logp_difference/max': 2.2952449321746826, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8762308359146118, 'sampling/importance_sampling_ratio/max': 2.1676080226898193, 'kl': 0.8523937128484249, 'entropy': 0.10177572024986148, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.62791823700536, 'epoch': 6.49}
+ 81%|████████  | 811/1000 [6:59:28<1:36:02, 30.49s/it] 81%|████████  | 812/1000 [6:59:59<1:36:09, 30.69s/it]                                                      {'loss': 0.0002, 'grad_norm': 0.005821864120662212, 'learning_rate': 2.181601287965325e-06, 'num_tokens': 130889231.0, 'completions/mean_length': 1813.015625, 'completions/min_length': 866.0, 'completions/max_length': 3520.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1813.015625, 'completions/min_terminated_length': 866.0, 'completions/max_terminated_length': 3520.0, 'rewards/rollout_reward_func/mean': 12.28125, 'rewards/rollout_reward_func/std': 4.999551773071289, 'reward': 12.28125, 'reward_std': 5.007704734802246, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03366938233375549, 'sampling/sampling_logp_difference/max': 1.5089857578277588, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8696988224983215, 'sampling/importance_sampling_ratio/max': 2.6945135593414307, 'kl': 0.8684288635849953, 'entropy': 0.10005574324168265, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.830896917017526, 'epoch': 6.5}
+ 81%|████████  | 812/1000 [6:59:59<1:36:09, 30.69s/it] 81%|████████▏ | 813/1000 [7:00:30<1:35:22, 30.60s/it]                                                      {'loss': -0.0007, 'grad_norm': 0.02740045264363289, 'learning_rate': 2.159263749964037e-06, 'num_tokens': 131048339.0, 'completions/mean_length': 1937.9375, 'completions/min_length': 852.0, 'completions/max_length': 3418.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1937.9375, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3418.0, 'rewards/rollout_reward_func/mean': 11.915624618530273, 'rewards/rollout_reward_func/std': 5.180832386016846, 'reward': 11.915624618530273, 'reward_std': 5.078241348266602, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03449475020170212, 'sampling/sampling_logp_difference/max': 2.141847610473633, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8740245699882507, 'sampling/importance_sampling_ratio/max': 2.137150287628174, 'kl': 7.465067647397518, 'entropy': 0.10931397858075798, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.119147027995496, 'epoch': 6.5}
+ 81%|████████▏ | 813/1000 [7:00:30<1:35:22, 30.60s/it] 81%|████████▏ | 814/1000 [7:01:05<1:38:47, 31.87s/it]                                                      {'loss': -0.0009, 'grad_norm': 0.005255462136119604, 'learning_rate': 2.1370303430619796e-06, 'num_tokens': 131228526.0, 'completions/mean_length': 2260.046875, 'completions/min_length': 880.0, 'completions/max_length': 3843.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2260.046875, 'completions/min_terminated_length': 880.0, 'completions/max_terminated_length': 3843.0, 'rewards/rollout_reward_func/mean': 11.482812881469727, 'rewards/rollout_reward_func/std': 5.339745044708252, 'reward': 11.482812881469727, 'reward_std': 5.281540393829346, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03860103338956833, 'sampling/sampling_logp_difference/max': 1.7771635055541992, 'sampling/importance_sampling_ratio/min': 0.054924219846725464, 'sampling/importance_sampling_ratio/mean': 0.8958472013473511, 'sampling/importance_sampling_ratio/max': 2.9340357780456543, 'kl': 1.1727199219167233, 'entropy': 0.12007411057129502, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 33.39066190099402, 'epoch': 6.51}
+ 81%|████████▏ | 814/1000 [7:01:05<1:38:47, 31.87s/it] 82%|████████▏ | 815/1000 [7:01:38<1:39:50, 32.38s/it]                                                      {'loss': -0.0006, 'grad_norm': 0.003612416097894311, 'learning_rate': 2.1149012911493167e-06, 'num_tokens': 131405415.0, 'completions/mean_length': 2208.515625, 'completions/min_length': 866.0, 'completions/max_length': 3680.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2208.515625, 'completions/min_terminated_length': 866.0, 'completions/max_terminated_length': 3680.0, 'rewards/rollout_reward_func/mean': 12.895312309265137, 'rewards/rollout_reward_func/std': 5.043632984161377, 'reward': 12.895313262939453, 'reward_std': 5.116044044494629, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03778956085443497, 'sampling/sampling_logp_difference/max': 3.3533694744110107, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7720787525177002, 'sampling/importance_sampling_ratio/max': 2.17459774017334, 'kl': 1.2423492297530174, 'entropy': 0.11472370335832238, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.15418169500481, 'epoch': 6.52}
+ 82%|████████▏ | 815/1000 [7:01:38<1:39:50, 32.38s/it] 82%|████████▏ | 816/1000 [7:02:09<1:37:44, 31.87s/it]                                                      {'loss': 0.0018, 'grad_norm': 0.005290896166115999, 'learning_rate': 2.092876817065359e-06, 'num_tokens': 131568388.0, 'completions/mean_length': 1996.703125, 'completions/min_length': 864.0, 'completions/max_length': 3512.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1996.703125, 'completions/min_terminated_length': 864.0, 'completions/max_terminated_length': 3512.0, 'rewards/rollout_reward_func/mean': 11.434374809265137, 'rewards/rollout_reward_func/std': 5.3592000007629395, 'reward': 11.434375762939453, 'reward_std': 5.181448936462402, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03252687305212021, 'sampling/sampling_logp_difference/max': 1.6607177257537842, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9848924875259399, 'sampling/importance_sampling_ratio/max': 2.4450883865356445, 'kl': 1.2025988884270191, 'entropy': 0.10530320182442665, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.442036506006843, 'epoch': 6.53}
+ 82%|████████▏ | 816/1000 [7:02:09<1:37:44, 31.87s/it] 82%|████████▏ | 817/1000 [7:02:40<1:36:28, 31.63s/it]                                                      {'loss': -0.0008, 'grad_norm': 0.005416568834334612, 'learning_rate': 2.0709571425963094e-06, 'num_tokens': 131724978.0, 'completions/mean_length': 1898.96875, 'completions/min_length': 868.0, 'completions/max_length': 3422.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1898.96875, 'completions/min_terminated_length': 868.0, 'completions/max_terminated_length': 3422.0, 'rewards/rollout_reward_func/mean': 13.440625190734863, 'rewards/rollout_reward_func/std': 5.002213001251221, 'reward': 13.440625190734863, 'reward_std': 4.685083389282227, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03039037063717842, 'sampling/sampling_logp_difference/max': 1.5292034149169922, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9336543083190918, 'sampling/importance_sampling_ratio/max': 2.4221882820129395, 'kl': 5.461944002658129, 'entropy': 0.09771465044468641, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.764629244004027, 'epoch': 6.54}
+ 82%|████████▏ | 817/1000 [7:02:40<1:36:28, 31.63s/it] 82%|████████▏ | 818/1000 [7:03:09<1:34:05, 31.02s/it]                                                      {'loss': 0.0011, 'grad_norm': 0.005144100170582533, 'learning_rate': 2.0491424884730505e-06, 'num_tokens': 131881840.0, 'completions/mean_length': 1903.59375, 'completions/min_length': 935.0, 'completions/max_length': 3331.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1903.59375, 'completions/min_terminated_length': 935.0, 'completions/max_terminated_length': 3331.0, 'rewards/rollout_reward_func/mean': 11.407812118530273, 'rewards/rollout_reward_func/std': 5.497483253479004, 'reward': 11.407812118530273, 'reward_std': 5.381858825683594, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03384535759687424, 'sampling/sampling_logp_difference/max': 2.695545196533203, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8146573305130005, 'sampling/importance_sampling_ratio/max': 2.928284168243408, 'kl': 1.0632275603711605, 'entropy': 0.0989277996122837, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.341712548026408, 'epoch': 6.54}
+ 82%|████████▏ | 818/1000 [7:03:09<1:34:05, 31.02s/it] 82%|████████▏ | 819/1000 [7:03:39<1:32:24, 30.63s/it]                                                      {'loss': -0.0003, 'grad_norm': 0.003939727321267128, 'learning_rate': 2.027433074368909e-06, 'num_tokens': 132033629.0, 'completions/mean_length': 1827.578125, 'completions/min_length': 851.0, 'completions/max_length': 3383.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1827.578125, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 3383.0, 'rewards/rollout_reward_func/mean': 10.896875381469727, 'rewards/rollout_reward_func/std': 5.204057693481445, 'reward': 10.89687442779541, 'reward_std': 5.2066850662231445, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.030281487852334976, 'sampling/sampling_logp_difference/max': 1.6527607440948486, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.859682023525238, 'sampling/importance_sampling_ratio/max': 2.14852237701416, 'kl': 0.9108924679458141, 'entropy': 0.10189002985134721, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.598338173003867, 'epoch': 6.55}
+ 82%|████████▏ | 819/1000 [7:03:39<1:32:24, 30.63s/it] 82%|████████▏ | 820/1000 [7:04:10<1:32:25, 30.81s/it]                                                      {'loss': 0.0021, 'grad_norm': 0.004069767892360687, 'learning_rate': 2.0058291188974385e-06, 'num_tokens': 132199520.0, 'completions/mean_length': 2040.296875, 'completions/min_length': 878.0, 'completions/max_length': 3474.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2040.296875, 'completions/min_terminated_length': 878.0, 'completions/max_terminated_length': 3474.0, 'rewards/rollout_reward_func/mean': 11.65625, 'rewards/rollout_reward_func/std': 5.171836853027344, 'reward': 11.65625, 'reward_std': 4.60681676864624, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.030525214970111847, 'sampling/sampling_logp_difference/max': 1.4881958961486816, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8452191352844238, 'sampling/importance_sampling_ratio/max': 2.4570722579956055, 'kl': 0.9767358563840389, 'entropy': 0.10508672054857016, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.919371109994245, 'epoch': 6.56}
+ 82%|████████▏ | 820/1000 [7:04:10<1:32:25, 30.81s/it] 82%|████████▏ | 821/1000 [7:04:42<1:32:24, 30.97s/it]                                                      {'loss': -0.0012, 'grad_norm': 0.004773844964802265, 'learning_rate': 1.984330839610234e-06, 'num_tokens': 132381817.0, 'completions/mean_length': 2289.390625, 'completions/min_length': 1191.0, 'completions/max_length': 3390.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2289.390625, 'completions/min_terminated_length': 1191.0, 'completions/max_terminated_length': 3390.0, 'rewards/rollout_reward_func/mean': 12.50156307220459, 'rewards/rollout_reward_func/std': 5.8758721351623535, 'reward': 12.501562118530273, 'reward_std': 5.284947872161865, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03676914796233177, 'sampling/sampling_logp_difference/max': 3.6775121688842773, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9347554445266724, 'sampling/importance_sampling_ratio/max': 2.840298652648926, 'kl': 1.160933442413807, 'entropy': 0.11622593645006418, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.097550243990554, 'epoch': 6.57}
+ 82%|████████▏ | 821/1000 [7:04:42<1:32:24, 30.97s/it] 82%|████████▏ | 822/1000 [7:05:12<1:31:29, 30.84s/it]                                                      {'loss': 0.0008, 'grad_norm': 0.005356102716177702, 'learning_rate': 1.962938452994731e-06, 'num_tokens': 132551045.0, 'completions/mean_length': 2091.1875, 'completions/min_length': 1273.0, 'completions/max_length': 3453.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2091.1875, 'completions/min_terminated_length': 1273.0, 'completions/max_terminated_length': 3453.0, 'rewards/rollout_reward_func/mean': 12.067188262939453, 'rewards/rollout_reward_func/std': 5.318881034851074, 'reward': 12.067187309265137, 'reward_std': 5.4595746994018555, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03499048203229904, 'sampling/sampling_logp_difference/max': 2.30588960647583, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9352772235870361, 'sampling/importance_sampling_ratio/max': 2.375582695007324, 'kl': 1.1901206746697426, 'entropy': 0.12012092210352421, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.25867263001419, 'epoch': 6.58}
+ 82%|████████▏ | 822/1000 [7:05:12<1:31:29, 30.84s/it] 82%|████████▏ | 823/1000 [7:05:43<1:30:54, 30.82s/it]                                                      {'loss': -0.0031, 'grad_norm': 0.011620108969509602, 'learning_rate': 1.941652174472024e-06, 'num_tokens': 132687495.0, 'completions/mean_length': 1593.90625, 'completions/min_length': 783.0, 'completions/max_length': 3591.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1593.90625, 'completions/min_terminated_length': 783.0, 'completions/max_terminated_length': 3591.0, 'rewards/rollout_reward_func/mean': 11.03125, 'rewards/rollout_reward_func/std': 5.4105682373046875, 'reward': 11.03125, 'reward_std': 5.53989315032959, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.035024963319301605, 'sampling/sampling_logp_difference/max': 2.264336585998535, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9611362218856812, 'sampling/importance_sampling_ratio/max': 2.8117997646331787, 'kl': 4.078204441815615, 'entropy': 0.09759212518110871, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.42104672899586, 'epoch': 6.58}
+ 82%|████████▏ | 823/1000 [7:05:43<1:30:54, 30.82s/it] 82%|████████▏ | 824/1000 [7:06:15<1:31:41, 31.26s/it]                                                      {'loss': 0.0018, 'grad_norm': 0.004871792625635862, 'learning_rate': 1.9204722183946965e-06, 'num_tokens': 132858680.0, 'completions/mean_length': 2121.015625, 'completions/min_length': 863.0, 'completions/max_length': 3580.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2121.015625, 'completions/min_terminated_length': 863.0, 'completions/max_terminated_length': 3580.0, 'rewards/rollout_reward_func/mean': 12.179688453674316, 'rewards/rollout_reward_func/std': 5.438346862792969, 'reward': 12.1796875, 'reward_std': 5.273726940155029, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03255622088909149, 'sampling/sampling_logp_difference/max': 1.4566035270690918, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8482750654220581, 'sampling/importance_sampling_ratio/max': 2.4603421688079834, 'kl': 1.2476228438317776, 'entropy': 0.11192232044413686, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.09216977399774, 'epoch': 6.59}
+ 82%|████████▏ | 824/1000 [7:06:15<1:31:41, 31.26s/it] 82%|████████▎ | 825/1000 [7:06:46<1:30:33, 31.05s/it]                                                      {'loss': -0.0006, 'grad_norm': 0.0047582290135324, 'learning_rate': 1.8993987980446755e-06, 'num_tokens': 133010169.0, 'completions/mean_length': 1821.640625, 'completions/min_length': 853.0, 'completions/max_length': 3469.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1821.640625, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3469.0, 'rewards/rollout_reward_func/mean': 11.0390625, 'rewards/rollout_reward_func/std': 5.275328159332275, 'reward': 11.0390625, 'reward_std': 5.130825996398926, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03611356019973755, 'sampling/sampling_logp_difference/max': 2.218437671661377, 'sampling/importance_sampling_ratio/min': 0.03630465641617775, 'sampling/importance_sampling_ratio/mean': 0.8549056649208069, 'sampling/importance_sampling_ratio/max': 2.0186192989349365, 'kl': 1.0810614116489887, 'entropy': 0.10737850074656308, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.27403592898918, 'epoch': 6.6}
+ 82%|████████▎ | 825/1000 [7:06:46<1:30:33, 31.05s/it] 83%|████████▎ | 826/1000 [7:07:24<1:36:20, 33.22s/it]                                                      {'loss': 0.001, 'grad_norm': 0.005364194978028536, 'learning_rate': 1.8784321256310716e-06, 'num_tokens': 133182097.0, 'completions/mean_length': 2133.0, 'completions/min_length': 863.0, 'completions/max_length': 4307.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2133.0, 'completions/min_terminated_length': 863.0, 'completions/max_terminated_length': 4307.0, 'rewards/rollout_reward_func/mean': 12.295312881469727, 'rewards/rollout_reward_func/std': 5.18163537979126, 'reward': 12.295312881469727, 'reward_std': 5.0854692459106445, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03216147422790527, 'sampling/sampling_logp_difference/max': 2.099914073944092, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9390106201171875, 'sampling/importance_sampling_ratio/max': 2.5360493659973145, 'kl': 1.1395955942571163, 'entropy': 0.10803832253441215, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 36.89655092400062, 'epoch': 6.61}
+ 83%|████████▎ | 826/1000 [7:07:24<1:36:20, 33.22s/it] 83%|████████▎ | 827/1000 [7:07:55<1:33:35, 32.46s/it]                                                      {'loss': -0.0015, 'grad_norm': 0.00645522540435195, 'learning_rate': 1.857572412288039e-06, 'num_tokens': 133336326.0, 'completions/mean_length': 1864.078125, 'completions/min_length': 856.0, 'completions/max_length': 3393.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1864.078125, 'completions/min_terminated_length': 856.0, 'completions/max_terminated_length': 3393.0, 'rewards/rollout_reward_func/mean': 11.276561737060547, 'rewards/rollout_reward_func/std': 5.036746025085449, 'reward': 11.276561737060547, 'reward_std': 4.827228546142578, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.037694767117500305, 'sampling/sampling_logp_difference/max': 2.439626693725586, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8130191564559937, 'sampling/importance_sampling_ratio/max': 2.4559218883514404, 'kl': 1.1628599725663662, 'entropy': 0.10834573488682508, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.386345908002113, 'epoch': 6.62}
+ 83%|████████▎ | 827/1000 [7:07:55<1:33:35, 32.46s/it] 83%|████████▎ | 828/1000 [7:08:27<1:32:27, 32.26s/it]                                                      {'loss': 0.0012, 'grad_norm': 0.004687069915235043, 'learning_rate': 1.8368198680726617e-06, 'num_tokens': 133529980.0, 'completions/mean_length': 2462.84375, 'completions/min_length': 1207.0, 'completions/max_length': 3542.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2462.84375, 'completions/min_terminated_length': 1207.0, 'completions/max_terminated_length': 3542.0, 'rewards/rollout_reward_func/mean': 13.215624809265137, 'rewards/rollout_reward_func/std': 5.170589447021484, 'reward': 13.215624809265137, 'reward_std': 4.776181221008301, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.0373556911945343, 'sampling/sampling_logp_difference/max': 1.9303021430969238, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8064005374908447, 'sampling/importance_sampling_ratio/max': 2.5922510623931885, 'kl': 1.0403198599815369, 'entropy': 0.12265303311869502, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.505160003995115, 'epoch': 6.62}
+ 83%|████████▎ | 828/1000 [7:08:27<1:32:27, 32.26s/it] 83%|████████▎ | 829/1000 [7:08:55<1:28:42, 31.13s/it]                                                      {'loss': -0.0014, 'grad_norm': 0.004147082567214966, 'learning_rate': 1.816174701962832e-06, 'num_tokens': 133670796.0, 'completions/mean_length': 1658.875, 'completions/min_length': 933.0, 'completions/max_length': 3296.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1658.875, 'completions/min_terminated_length': 933.0, 'completions/max_terminated_length': 3296.0, 'rewards/rollout_reward_func/mean': 11.871875762939453, 'rewards/rollout_reward_func/std': 5.131925582885742, 'reward': 11.871874809265137, 'reward_std': 4.969119071960449, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03555213660001755, 'sampling/sampling_logp_difference/max': 2.261439800262451, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8262931108474731, 'sampling/importance_sampling_ratio/max': 2.690615653991699, 'kl': 1.2629746347665787, 'entropy': 0.09281864459626377, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 27.436035364007694, 'epoch': 6.63}
+ 83%|████████▎ | 829/1000 [7:08:55<1:28:42, 31.13s/it] 83%|████████▎ | 830/1000 [7:09:27<1:28:31, 31.24s/it]                                                      {'loss': 0.0012, 'grad_norm': 0.0045044878497719765, 'learning_rate': 1.7956371218551385e-06, 'num_tokens': 133837660.0, 'completions/mean_length': 2055.5, 'completions/min_length': 850.0, 'completions/max_length': 3526.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2055.5, 'completions/min_terminated_length': 850.0, 'completions/max_terminated_length': 3526.0, 'rewards/rollout_reward_func/mean': 11.48593807220459, 'rewards/rollout_reward_func/std': 5.353796005249023, 'reward': 11.48593807220459, 'reward_std': 5.286489009857178, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.028947800397872925, 'sampling/sampling_logp_difference/max': 1.1941767930984497, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.964375376701355, 'sampling/importance_sampling_ratio/max': 2.976716995239258, 'kl': 1.0402702391147614, 'entropy': 0.10977385705336928, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.39675858899136, 'epoch': 6.64}
+ 83%|████████▎ | 830/1000 [7:09:27<1:28:31, 31.24s/it] 83%|████████▎ | 831/1000 [7:10:01<1:30:40, 32.19s/it]                                                      {'loss': 0.001, 'grad_norm': 0.004405847284942865, 'learning_rate': 1.7752073345627868e-06, 'num_tokens': 133998949.0, 'completions/mean_length': 1971.140625, 'completions/min_length': 1268.0, 'completions/max_length': 3915.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1971.140625, 'completions/min_terminated_length': 1268.0, 'completions/max_terminated_length': 3915.0, 'rewards/rollout_reward_func/mean': 12.125, 'rewards/rollout_reward_func/std': 5.085241794586182, 'reward': 12.125, 'reward_std': 4.521352291107178, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.033198073506355286, 'sampling/sampling_logp_difference/max': 1.873066782951355, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8408902287483215, 'sampling/importance_sampling_ratio/max': 2.1290881633758545, 'kl': 1.1768367812037468, 'entropy': 0.11554013006389141, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 33.19464218800567, 'epoch': 6.65}
+ 83%|████████▎ | 831/1000 [7:10:01<1:30:40, 32.19s/it] 83%|████████▎ | 832/1000 [7:10:35<1:31:49, 32.80s/it]                                                      {'loss': -0.0008, 'grad_norm': 0.004887736868113279, 'learning_rate': 1.7548855458135115e-06, 'num_tokens': 134172028.0, 'completions/mean_length': 2149.359375, 'completions/min_length': 1186.0, 'completions/max_length': 3869.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2149.359375, 'completions/min_terminated_length': 1186.0, 'completions/max_terminated_length': 3869.0, 'rewards/rollout_reward_func/mean': 13.217187881469727, 'rewards/rollout_reward_func/std': 5.147801399230957, 'reward': 13.217187881469727, 'reward_std': 5.030502796173096, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.030103497207164764, 'sampling/sampling_logp_difference/max': 1.8834608793258667, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9167260527610779, 'sampling/importance_sampling_ratio/max': 2.6550896167755127, 'kl': 1.2153447158634663, 'entropy': 0.11041030287742615, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.8743924230148, 'epoch': 6.66}
+ 83%|████████▎ | 832/1000 [7:10:35<1:31:49, 32.80s/it] 83%|████████▎ | 833/1000 [7:11:04<1:27:47, 31.54s/it]                                                      {'loss': 0.0004, 'grad_norm': 0.005062687676399946, 'learning_rate': 1.7346719602474929e-06, 'num_tokens': 134307039.0, 'completions/mean_length': 1571.421875, 'completions/min_length': 854.0, 'completions/max_length': 3264.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1571.421875, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 3264.0, 'rewards/rollout_reward_func/mean': 11.340625762939453, 'rewards/rollout_reward_func/std': 4.932938575744629, 'reward': 11.340624809265137, 'reward_std': 5.078307628631592, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03337634727358818, 'sampling/sampling_logp_difference/max': 2.593975067138672, 'sampling/importance_sampling_ratio/min': 0.06669016182422638, 'sampling/importance_sampling_ratio/mean': 0.9063690304756165, 'sampling/importance_sampling_ratio/max': 2.687352418899536, 'kl': 1.099073886871338, 'entropy': 0.09338016761466861, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 27.55719983702147, 'epoch': 6.66}
+ 83%|████████▎ | 833/1000 [7:11:04<1:27:47, 31.54s/it] 83%|████████▎ | 834/1000 [7:11:29<1:22:15, 29.73s/it]                                                      {'loss': -0.002, 'grad_norm': 0.004360770341008902, 'learning_rate': 1.714566781415318e-06, 'num_tokens': 134437806.0, 'completions/mean_length': 1507.109375, 'completions/min_length': 784.0, 'completions/max_length': 2905.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1507.109375, 'completions/min_terminated_length': 784.0, 'completions/max_terminated_length': 2905.0, 'rewards/rollout_reward_func/mean': 11.846874237060547, 'rewards/rollout_reward_func/std': 5.325767517089844, 'reward': 11.846874237060547, 'reward_std': 5.123305320739746, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.024543143808841705, 'sampling/sampling_logp_difference/max': 2.184701442718506, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9929006099700928, 'sampling/importance_sampling_ratio/max': 2.150200605392456, 'kl': 1.005897894501686, 'entropy': 0.08218408073298633, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 24.424106091013527, 'epoch': 6.67}
+ 83%|████████▎ | 834/1000 [7:11:29<1:22:15, 29.73s/it] 84%|████████▎ | 835/1000 [7:12:01<1:23:27, 30.35s/it]                                                      {'loss': -0.0019, 'grad_norm': 0.004305435810238123, 'learning_rate': 1.6945702117759172e-06, 'num_tokens': 134635134.0, 'completions/mean_length': 2518.25, 'completions/min_length': 1284.0, 'completions/max_length': 3559.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2518.25, 'completions/min_terminated_length': 1284.0, 'completions/max_terminated_length': 3559.0, 'rewards/rollout_reward_func/mean': 12.810937881469727, 'rewards/rollout_reward_func/std': 5.224883079528809, 'reward': 12.81093692779541, 'reward_std': 5.135272026062012, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03382743149995804, 'sampling/sampling_logp_difference/max': 1.4037480354309082, 'sampling/importance_sampling_ratio/min': 0.044445522129535675, 'sampling/importance_sampling_ratio/mean': 0.8988081216812134, 'sampling/importance_sampling_ratio/max': 2.411029577255249, 'kl': 0.978785689920187, 'entropy': 0.1251387558877468, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.514646812000137, 'epoch': 6.68}
+ 84%|████████▎ | 835/1000 [7:12:01<1:23:27, 30.35s/it] 84%|████████▎ | 836/1000 [7:12:32<1:23:21, 30.50s/it]                                                      {'loss': -0.0009, 'grad_norm': 0.002948714653030038, 'learning_rate': 1.6746824526945163e-06, 'num_tokens': 134803095.0, 'completions/mean_length': 2072.640625, 'completions/min_length': 851.0, 'completions/max_length': 3480.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2072.640625, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 3480.0, 'rewards/rollout_reward_func/mean': 11.37656307220459, 'rewards/rollout_reward_func/std': 5.5498247146606445, 'reward': 11.37656307220459, 'reward_std': 5.121529579162598, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03920488804578781, 'sampling/sampling_logp_difference/max': 1.8672784566879272, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7697740793228149, 'sampling/importance_sampling_ratio/max': 2.908942461013794, 'kl': 1.0226839780807495, 'entropy': 0.11216356512159109, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.53483098801371, 'epoch': 6.69}
+ 84%|████████▎ | 836/1000 [7:12:32<1:23:21, 30.50s/it] 84%|████████▎ | 837/1000 [7:13:02<1:22:13, 30.27s/it]                                                      {'loss': -0.0021, 'grad_norm': 0.005809254013001919, 'learning_rate': 1.6549037044406343e-06, 'num_tokens': 134960062.0, 'completions/mean_length': 1905.234375, 'completions/min_length': 854.0, 'completions/max_length': 3286.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1905.234375, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 3286.0, 'rewards/rollout_reward_func/mean': 10.973437309265137, 'rewards/rollout_reward_func/std': 5.438902854919434, 'reward': 10.973438262939453, 'reward_std': 5.423190116882324, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.029093680903315544, 'sampling/sampling_logp_difference/max': 2.307680368423462, 'sampling/importance_sampling_ratio/min': 0.03936924412846565, 'sampling/importance_sampling_ratio/mean': 0.8837931156158447, 'sampling/importance_sampling_ratio/max': 2.3577356338500977, 'kl': 0.9451575167477131, 'entropy': 0.09937175642699003, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.478493978982442, 'epoch': 6.7}
+ 84%|████████▎ | 837/1000 [7:13:02<1:22:13, 30.27s/it] 84%|███��████▍ | 838/1000 [7:13:27<1:17:26, 28.68s/it]                                                      {'loss': -0.0005, 'grad_norm': 0.004688957240432501, 'learning_rate': 1.635234166186049e-06, 'num_tokens': 135107493.0, 'completions/mean_length': 1759.484375, 'completions/min_length': 851.0, 'completions/max_length': 2790.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1759.484375, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 2790.0, 'rewards/rollout_reward_func/mean': 11.506250381469727, 'rewards/rollout_reward_func/std': 5.2546539306640625, 'reward': 11.506250381469727, 'reward_std': 4.93962287902832, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03322068601846695, 'sampling/sampling_logp_difference/max': 1.371213436126709, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7673819065093994, 'sampling/importance_sampling_ratio/max': 2.14463472366333, 'kl': 0.9712935425341129, 'entropy': 0.10322711430490017, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 23.923418007987493, 'epoch': 6.7}
+ 84%|████████▍ | 838/1000 [7:13:27<1:17:26, 28.68s/it] 84%|████████▍ | 839/1000 [7:13:59<1:19:46, 29.73s/it]                                                      {'loss': 0.0031, 'grad_norm': 0.006069533992558718, 'learning_rate': 1.6156740360027873e-06, 'num_tokens': 135279557.0, 'completions/mean_length': 2134.75, 'completions/min_length': 868.0, 'completions/max_length': 3597.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2134.75, 'completions/min_terminated_length': 868.0, 'completions/max_terminated_length': 3597.0, 'rewards/rollout_reward_func/mean': 11.135936737060547, 'rewards/rollout_reward_func/std': 5.652148723602295, 'reward': 11.135936737060547, 'reward_std': 5.331828594207764, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03389779478311539, 'sampling/sampling_logp_difference/max': 1.427018165588379, 'sampling/importance_sampling_ratio/min': 0.025555625557899475, 'sampling/importance_sampling_ratio/mean': 0.8385213613510132, 'sampling/importance_sampling_ratio/max': 2.289205312728882, 'kl': 0.9949422143399715, 'entropy': 0.11238081101328135, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.828889437019825, 'epoch': 6.71}
+ 84%|████████▍ | 839/1000 [7:13:59<1:19:46, 29.73s/it] 84%|████████▍ | 840/1000 [7:14:23<1:14:51, 28.07s/it]                                                      {'loss': 0.0024, 'grad_norm': 0.005123620852828026, 'learning_rate': 1.5962235108611418e-06, 'num_tokens': 135409828.0, 'completions/mean_length': 1499.359375, 'completions/min_length': 851.0, 'completions/max_length': 2711.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1499.359375, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 2711.0, 'rewards/rollout_reward_func/mean': 11.553125381469727, 'rewards/rollout_reward_func/std': 5.04575777053833, 'reward': 11.553125381469727, 'reward_std': 4.977534294128418, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03308333829045296, 'sampling/sampling_logp_difference/max': 1.83933687210083, 'sampling/importance_sampling_ratio/min': 0.0704418420791626, 'sampling/importance_sampling_ratio/mean': 0.952757716178894, 'sampling/importance_sampling_ratio/max': 2.64762544631958, 'kl': 0.9582964554429054, 'entropy': 0.10083540016785264, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 23.173324767005397, 'epoch': 6.72}
+ 84%|████████▍ | 840/1000 [7:14:23<1:14:51, 28.07s/it] 84%|████████▍ | 841/1000 [7:14:50<1:13:26, 27.71s/it]                                                      {'loss': 0.0026, 'grad_norm': 0.006772186607122421, 'learning_rate': 1.5768827866276884e-06, 'num_tokens': 135550250.0, 'completions/mean_length': 1654.71875, 'completions/min_length': 852.0, 'completions/max_length': 2969.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1654.71875, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 2969.0, 'rewards/rollout_reward_func/mean': 10.600000381469727, 'rewards/rollout_reward_func/std': 5.394883155822754, 'reward': 10.600000381469727, 'reward_std': 5.489017009735107, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.032203059643507004, 'sampling/sampling_logp_difference/max': 2.2230496406555176, 'sampling/importance_sampling_ratio/min': 0.056872256100177765, 'sampling/importance_sampling_ratio/mean': 0.933174729347229, 'sampling/importance_sampling_ratio/max': 2.9621808528900146, 'kl': 1.339212890714407, 'entropy': 0.09889482613652945, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 24.822958106000442, 'epoch': 6.73}
+ 84%|████████▍ | 841/1000 [7:14:50<1:13:26, 27.71s/it] 84%|████████▍ | 842/1000 [7:15:24<1:17:49, 29.55s/it]                                                      {'loss': -0.0009, 'grad_norm': 0.0035029558930546045, 'learning_rate': 1.5576520580633067e-06, 'num_tokens': 135723523.0, 'completions/mean_length': 2154.015625, 'completions/min_length': 892.0, 'completions/max_length': 3787.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2154.015625, 'completions/min_terminated_length': 892.0, 'completions/max_terminated_length': 3787.0, 'rewards/rollout_reward_func/mean': 12.590625762939453, 'rewards/rollout_reward_func/std': 5.3310627937316895, 'reward': 12.590625762939453, 'reward_std': 5.014178276062012, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03157995268702507, 'sampling/sampling_logp_difference/max': 1.4522991180419922, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8250244855880737, 'sampling/importance_sampling_ratio/max': 2.1182193756103516, 'kl': 1.1710022576153278, 'entropy': 0.1208286858163774, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.498844462992565, 'epoch': 6.74}
+ 84%|████████▍ | 842/1000 [7:15:24<1:17:49, 29.55s/it] 84%|████████▍ | 843/1000 [7:15:55<1:18:37, 30.05s/it]                                                      {'loss': -0.0001, 'grad_norm': 0.004706083331257105, 'learning_rate': 1.5385315188212138e-06, 'num_tokens': 135889890.0, 'completions/mean_length': 2048.109375, 'completions/min_length': 894.0, 'completions/max_length': 3529.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2048.109375, 'completions/min_terminated_length': 894.0, 'completions/max_terminated_length': 3529.0, 'rewards/rollout_reward_func/mean': 12.870312690734863, 'rewards/rollout_reward_func/std': 4.859410285949707, 'reward': 12.870312690734863, 'reward_std': 4.48268461227417, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03235369175672531, 'sampling/sampling_logp_difference/max': 1.2644826173782349, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9175719022750854, 'sampling/importance_sampling_ratio/max': 2.6413581371307373, 'kl': 1.1740668527781963, 'entropy': 0.11381903174333274, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.907646476007358, 'epoch': 6.74}
+ 84%|████████▍ | 843/1000 [7:15:55<1:18:37, 30.05s/it] 84%|████████▍ | 844/1000 [7:16:28<1:20:37, 31.01s/it]                                                      {'loss': 0.0006, 'grad_norm': 0.006042320281267166, 'learning_rate': 1.5195213614450323e-06, 'num_tokens': 136059687.0, 'completions/mean_length': 2100.078125, 'completions/min_length': 1188.0, 'completions/max_length': 3662.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2100.078125, 'completions/min_terminated_length': 1188.0, 'completions/max_terminated_length': 3662.0, 'rewards/rollout_reward_func/mean': 10.418749809265137, 'rewards/rollout_reward_func/std': 4.9627461433410645, 'reward': 10.418750762939453, 'reward_std': 5.026006698608398, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03610055521130562, 'sampling/sampling_logp_difference/max': 2.835340976715088, 'sampling/importance_sampling_ratio/min': 0.006531859748065472, 'sampling/importance_sampling_ratio/mean': 0.9083927869796753, 'sampling/importance_sampling_ratio/max': 2.858818531036377, 'kl': 1.2395295687019825, 'entropy': 0.10658207442611456, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.830912131998048, 'epoch': 6.75}
+ 84%|████████▍ | 844/1000 [7:16:28<1:20:37, 31.01s/it] 84%|████████▍ | 845/1000 [7:16:58<1:19:19, 30.71s/it]                                                      {'loss': 0.002, 'grad_norm': 0.00433367257937789, 'learning_rate': 1.5006217773668368e-06, 'num_tokens': 136239593.0, 'completions/mean_length': 2253.65625, 'completions/min_length': 781.0, 'completions/max_length': 3326.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2253.65625, 'completions/min_terminated_length': 781.0, 'completions/max_terminated_length': 3326.0, 'rewards/rollout_reward_func/mean': 13.043750762939453, 'rewards/rollout_reward_func/std': 5.540582656860352, 'reward': 13.043750762939453, 'reward_std': 5.055697917938232, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03945452719926834, 'sampling/sampling_logp_difference/max': 2.3200912475585938, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.750051736831665, 'sampling/importance_sampling_ratio/max': 2.5139658451080322, 'kl': 0.9910929799079895, 'entropy': 0.12309575453400612, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.746583785003168, 'epoch': 6.76}
+ 84%|████████▍ | 845/1000 [7:16:58<1:19:19, 30.71s/it] 85%|████████▍ | 846/1000 [7:17:30<1:19:15, 30.88s/it]                                                      {'loss': 0.0001, 'grad_norm': 0.00569144356995821, 'learning_rate': 1.4818329569052257e-06, 'num_tokens': 136379292.0, 'completions/mean_length': 1643.046875, 'completions/min_length': 854.0, 'completions/max_length': 3587.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1643.046875, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 3587.0, 'rewards/rollout_reward_func/mean': 11.623437881469727, 'rewards/rollout_reward_func/std': 5.069540023803711, 'reward': 11.62343692779541, 'reward_std': 4.908871650695801, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.031294435262680054, 'sampling/sampling_logp_difference/max': 1.611857533454895, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9242518544197083, 'sampling/importance_sampling_ratio/max': 2.829516887664795, 'kl': 1.2949039414525032, 'entropy': 0.09288623323664069, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.936617198996828, 'epoch': 6.77}
+ 85%|████████▍ | 846/1000 [7:17:30<1:19:15, 30.88s/it] 85%|████████▍ | 847/1000 [7:18:00<1:18:05, 30.62s/it]                                                      {'loss': 0.0006, 'grad_norm': 0.004981775302439928, 'learning_rate': 1.4631550892634127e-06, 'num_tokens': 136556992.0, 'completions/mean_length': 2219.5625, 'completions/min_length': 1194.0, 'completions/max_length': 3341.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2219.5625, 'completions/min_terminated_length': 1194.0, 'completions/max_terminated_length': 3341.0, 'rewards/rollout_reward_func/mean': 13.481250762939453, 'rewards/rollout_reward_func/std': 5.2832136154174805, 'reward': 13.481249809265137, 'reward_std': 5.151471138000488, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.034602973610162735, 'sampling/sampling_logp_difference/max': 2.051388740539551, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9778740406036377, 'sampling/importance_sampling_ratio/max': 2.728640556335449, 'kl': 1.0193958394229412, 'entropy': 0.1218780786730349, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.772636259993305, 'epoch': 6.78}
+ 85%|████████▍ | 847/1000 [7:18:00<1:18:05, 30.62s/it] 85%|████████▍ | 848/1000 [7:18:31<1:18:19, 30.92s/it]                                                      {'loss': 0.0015, 'grad_norm': 0.006824294570833445, 'learning_rate': 1.4445883625273215e-06, 'num_tokens': 136718739.0, 'completions/mean_length': 1977.546875, 'completions/min_length': 850.0, 'completions/max_length': 3572.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1977.546875, 'completions/min_terminated_length': 850.0, 'completions/max_terminated_length': 3572.0, 'rewards/rollout_reward_func/mean': 11.876562118530273, 'rewards/rollout_reward_func/std': 5.879065036773682, 'reward': 11.876562118530273, 'reward_std': 5.387733459472656, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.033964868634939194, 'sampling/sampling_logp_difference/max': 2.708467483520508, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.877457857131958, 'sampling/importance_sampling_ratio/max': 2.563920497894287, 'kl': 5.882942121475935, 'entropy': 0.1071505299769342, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.2743786669962, 'epoch': 6.78}
+ 85%|████████▍ | 848/1000 [7:18:31<1:18:19, 30.92s/it] 85%|████████▍ | 849/1000 [7:19:04<1:18:53, 31.35s/it]                                                      {'loss': -0.0, 'grad_norm': 0.004682154394686222, 'learning_rate': 1.4261329636636802e-06, 'num_tokens': 136879787.0, 'completions/mean_length': 1966.625, 'completions/min_length': 849.0, 'completions/max_length': 3568.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1966.625, 'completions/min_terminated_length': 849.0, 'completions/max_terminated_length': 3568.0, 'rewards/rollout_reward_func/mean': 11.703125, 'rewards/rollout_reward_func/std': 5.1925458908081055, 'reward': 11.703125, 'reward_std': 5.223423480987549, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.02802100032567978, 'sampling/sampling_logp_difference/max': 2.1306257247924805, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9490022659301758, 'sampling/importance_sampling_ratio/max': 2.7764930725097656, 'kl': 1.012243166565895, 'entropy': 0.10191556811332703, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.024533729010727, 'epoch': 6.79}
+ 85%|████████▍ | 849/1000 [7:19:04<1:18:53, 31.35s/it] 85%|████████▌ | 850/1000 [7:19:34<1:17:42, 31.08s/it]                                                      {'loss': 0.0, 'grad_norm': 0.004035165533423424, 'learning_rate': 1.4077890785181513e-06, 'num_tokens': 137052957.0, 'completions/mean_length': 2150.78125, 'completions/min_length': 1300.0, 'completions/max_length': 3410.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2150.78125, 'completions/min_terminated_length': 1300.0, 'completions/max_terminated_length': 3410.0, 'rewards/rollout_reward_func/mean': 13.231249809265137, 'rewards/rollout_reward_func/std': 5.373623847961426, 'reward': 13.231249809265137, 'reward_std': 5.409142971038818, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.0323944017291069, 'sampling/sampling_logp_difference/max': 3.7475123405456543, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.809977114200592, 'sampling/importance_sampling_ratio/max': 2.822033166885376, 'kl': 1.2713811956346035, 'entropy': 0.10876777395606041, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.203566982003395, 'epoch': 6.8}
+ 85%|████████▌ | 850/1000 [7:19:34<1:17:42, 31.08s/it] 85%|████████▌ | 851/1000 [7:20:08<1:18:59, 31.81s/it]                                                      {'loss': -0.0012, 'grad_norm': 0.004260101821273565, 'learning_rate': 1.389556891813458e-06, 'num_tokens': 137225399.0, 'completions/mean_length': 2141.40625, 'completions/min_length': 1308.0, 'completions/max_length': 3717.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2141.40625, 'completions/min_terminated_length': 1308.0, 'completions/max_terminated_length': 3717.0, 'rewards/rollout_reward_func/mean': 11.506250381469727, 'rewards/rollout_reward_func/std': 4.736011505126953, 'reward': 11.506250381469727, 'reward_std': 4.562969207763672, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03939753398299217, 'sampling/sampling_logp_difference/max': 2.9543051719665527, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9592534303665161, 'sampling/importance_sampling_ratio/max': 2.9382224082946777, 'kl': 1.1532785408198833, 'entropy': 0.1208761096931994, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.28753821101418, 'epoch': 6.81}
+ 85%|████████▌ | 851/1000 [7:20:08<1:18:59, 31.81s/it] 85%|████████▌ | 852/1000 [7:20:36<1:16:12, 30.89s/it]                                                      {'loss': -0.0003, 'grad_norm': 0.0036664949730038643, 'learning_rate': 1.371436587147512e-06, 'num_tokens': 137377906.0, 'completions/mean_length': 1837.171875, 'completions/min_length': 851.0, 'completions/max_length': 3267.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1837.171875, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 3267.0, 'rewards/rollout_reward_func/mean': 11.028124809265137, 'rewards/rollout_reward_func/std': 5.032891273498535, 'reward': 11.028124809265137, 'reward_std': 5.024787902832031, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03202225640416145, 'sampling/sampling_logp_difference/max': 2.439915657043457, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8009710907936096, 'sampling/importance_sampling_ratio/max': 2.2847542762756348, 'kl': 0.9643144086003304, 'entropy': 0.10102066909894347, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 27.636661873017147, 'epoch': 6.82}
+ 85%|████████▌ | 852/1000 [7:20:36<1:16:12, 30.89s/it] 85%|████████▌ | 853/1000 [7:21:07<1:15:48, 30.94s/it]                                                      {'loss': 0.0004, 'grad_norm': 0.004050242714583874, 'learning_rate': 1.3534283469915822e-06, 'num_tokens': 137552864.0, 'completions/mean_length': 2178.71875, 'completions/min_length': 1195.0, 'completions/max_length': 3438.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2178.71875, 'completions/min_terminated_length': 1195.0, 'completions/max_terminated_length': 3438.0, 'rewards/rollout_reward_func/mean': 11.506250381469727, 'rewards/rollout_reward_func/std': 5.08567476272583, 'reward': 11.506250381469727, 'reward_std': 5.03685188293457, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03031427413225174, 'sampling/sampling_logp_difference/max': 1.8108806610107422, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8934159278869629, 'sampling/importance_sampling_ratio/max': 2.4634523391723633, 'kl': 0.9507063068449497, 'entropy': 0.10981816006824374, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.756575557999895, 'epoch': 6.82}
+ 85%|████████▌ | 853/1000 [7:21:07<1:15:48, 30.94s/it] 85%|████████▌ | 854/1000 [7:21:52<1:25:04, 34.96s/it]                                                      {'loss': 0.0037, 'grad_norm': 0.0076273363083601, 'learning_rate': 1.3355323526884525e-06, 'num_tokens': 137708081.0, 'completions/mean_length': 1879.140625, 'completions/min_length': 852.0, 'completions/max_length': 4898.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1879.140625, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 4898.0, 'rewards/rollout_reward_func/mean': 11.264062881469727, 'rewards/rollout_reward_func/std': 5.693337440490723, 'reward': 11.264062881469727, 'reward_std': 5.608546733856201, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03677821531891823, 'sampling/sampling_logp_difference/max': 1.5624346733093262, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9738965630531311, 'sampling/importance_sampling_ratio/max': 2.697859525680542, 'kl': 1.1654651686549187, 'entropy': 0.11240177811123431, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 42.400992701004725, 'epoch': 6.83}
+ 85%|████████▌ | 854/1000 [7:21:52<1:25:04, 34.96s/it] 86%|████████▌ | 855/1000 [7:22:15<1:16:17, 31.57s/it]                                                      {'loss': -0.0003, 'grad_norm': 0.0041290586814284325, 'learning_rate': 1.3177487844505788e-06, 'num_tokens': 137846454.0, 'completions/mean_length': 1622.328125, 'completions/min_length': 782.0, 'completions/max_length': 2692.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1622.328125, 'completions/min_terminated_length': 782.0, 'completions/max_terminated_length': 2692.0, 'rewards/rollout_reward_func/mean': 10.871874809265137, 'rewards/rollout_reward_func/std': 5.341198921203613, 'reward': 10.871874809265137, 'reward_std': 5.414143085479736, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.02913190796971321, 'sampling/sampling_logp_difference/max': 1.8093804121017456, 'sampling/importance_sampling_ratio/min': 0.15454524755477905, 'sampling/importance_sampling_ratio/mean': 0.8951290845870972, 'sampling/importance_sampling_ratio/max': 2.305527448654175, 'kl': 1.0784906521439552, 'entropy': 0.0960335903801024, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 22.719668500038097, 'epoch': 6.84}
+ 86%|████████▌ | 855/1000 [7:22:15<1:16:17, 31.57s/it] 86%|████████▌ | 856/1000 [7:22:48<1:16:47, 32.00s/it]                                                      {'loss': 0.0007, 'grad_norm': 0.004705215338617563, 'learning_rate': 1.3000778213583032e-06, 'num_tokens': 138046526.0, 'completions/mean_length': 2560.75, 'completions/min_length': 782.0, 'completions/max_length': 3619.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2560.75, 'completions/min_terminated_length': 782.0, 'completions/max_terminated_length': 3619.0, 'rewards/rollout_reward_func/mean': 12.678125381469727, 'rewards/rollout_reward_func/std': 5.636938095092773, 'reward': 12.678125381469727, 'reward_std': 5.08607816696167, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.034374505281448364, 'sampling/sampling_logp_difference/max': 1.8841886520385742, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9721252918243408, 'sampling/importance_sampling_ratio/max': 2.941333293914795, 'kl': 0.9512242339551449, 'entropy': 0.1170214363373816, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.642513628001325, 'epoch': 6.85}
+ 86%|████████▌ | 856/1000 [7:22:48<1:16:47, 32.00s/it] 86%|████████▌ | 857/1000 [7:23:19<1:15:31, 31.69s/it]                                                      {'loss': -0.001, 'grad_norm': 0.003590357955545187, 'learning_rate': 1.2825196413580224e-06, 'num_tokens': 138237390.0, 'completions/mean_length': 2419.25, 'completions/min_length': 1269.0, 'completions/max_length': 3389.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2419.25, 'completions/min_terminated_length': 1269.0, 'completions/max_terminated_length': 3389.0, 'rewards/rollout_reward_func/mean': 12.653124809265137, 'rewards/rollout_reward_func/std': 5.493574142456055, 'reward': 12.653125762939453, 'reward_std': 5.259066104888916, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.036169130355119705, 'sampling/sampling_logp_difference/max': 2.92205810546875, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.737694263458252, 'sampling/importance_sampling_ratio/max': 2.9980740547180176, 'kl': 0.9667181223630905, 'entropy': 0.123541294131428, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.708796475984855, 'epoch': 6.86}
+ 86%|████████▌ | 857/1000 [7:23:19<1:15:31, 31.69s/it] 86%|████████▌ | 858/1000 [7:23:50<1:14:08, 31.33s/it]                                                      {'loss': -0.0024, 'grad_norm': 0.005965564399957657, 'learning_rate': 1.2650744212604148e-06, 'num_tokens': 138379624.0, 'completions/mean_length': 1682.28125, 'completions/min_length': 865.0, 'completions/max_length': 3527.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1682.28125, 'completions/min_terminated_length': 865.0, 'completions/max_terminated_length': 3527.0, 'rewards/rollout_reward_func/mean': 10.379688262939453, 'rewards/rollout_reward_func/std': 5.074216842651367, 'reward': 10.379688262939453, 'reward_std': 5.120412826538086, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.036610186100006104, 'sampling/sampling_logp_difference/max': 2.6544580459594727, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9354140758514404, 'sampling/importance_sampling_ratio/max': 2.2788712978363037, 'kl': 1.387617003172636, 'entropy': 0.10164247918874025, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.15452492600889, 'epoch': 6.86}
+ 86%|████████▌ | 858/1000 [7:23:50<1:14:08, 31.33s/it] 86%|████████▌ | 859/1000 [7:24:22<1:14:22, 31.65s/it]                                                      {'loss': 0.0007, 'grad_norm': 0.0039520361460745335, 'learning_rate': 1.2477423367386525e-06, 'num_tokens': 138563285.0, 'completions/mean_length': 2310.703125, 'completions/min_length': 1288.0, 'completions/max_length': 3633.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2310.703125, 'completions/min_terminated_length': 1288.0, 'completions/max_terminated_length': 3633.0, 'rewards/rollout_reward_func/mean': 11.973437309265137, 'rewards/rollout_reward_func/std': 5.274805545806885, 'reward': 11.973438262939453, 'reward_std': 5.162282466888428, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.033847175538539886, 'sampling/sampling_logp_difference/max': 1.8795835971832275, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7850552797317505, 'sampling/importance_sampling_ratio/max': 2.6953463554382324, 'kl': 1.0204015411436558, 'entropy': 0.11765812523663044, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.243165582971415, 'epoch': 6.87}
+ 86%|████████▌ | 859/1000 [7:24:22<1:14:22, 31.65s/it] 86%|████████▌ | 860/1000 [7:24:54<1:14:12, 31.80s/it]                                                      {'loss': -0.0024, 'grad_norm': 0.004376615863293409, 'learning_rate': 1.2305235623266394e-06, 'num_tokens': 138746239.0, 'completions/mean_length': 2300.90625, 'completions/min_length': 851.0, 'completions/max_length': 3569.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2300.90625, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 3569.0, 'rewards/rollout_reward_func/mean': 12.026561737060547, 'rewards/rollout_reward_func/std': 5.7682013511657715, 'reward': 12.026561737060547, 'reward_std': 5.283717155456543, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03646628186106682, 'sampling/sampling_logp_difference/max': 2.0181422233581543, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8913992643356323, 'sampling/importance_sampling_ratio/max': 2.1847686767578125, 'kl': 1.022764876484871, 'entropy': 0.11586726270616055, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.812841648003086, 'epoch': 6.88}
+ 86%|████████▌ | 860/1000 [7:24:54<1:14:12, 31.80s/it] 86%|████████▌ | 861/1000 [7:25:21<1:09:57, 30.20s/it]                                                      {'loss': 0.0013, 'grad_norm': 0.005091310013085604, 'learning_rate': 1.2134182714172368e-06, 'num_tokens': 138884972.0, 'completions/mean_length': 1627.578125, 'completions/min_length': 849.0, 'completions/max_length': 2941.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1627.578125, 'completions/min_terminated_length': 849.0, 'completions/max_terminated_length': 2941.0, 'rewards/rollout_reward_func/mean': 11.932811737060547, 'rewards/rollout_reward_func/std': 5.3184332847595215, 'reward': 11.932812690734863, 'reward_std': 5.008837699890137, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.030333762988448143, 'sampling/sampling_logp_difference/max': 1.8779449462890625, 'sampling/importance_sampling_ratio/min': 0.09972141683101654, 'sampling/importance_sampling_ratio/mean': 1.0186545848846436, 'sampling/importance_sampling_ratio/max': 2.5176727771759033, 'kl': 1.0159575901925564, 'entropy': 0.0979428831487894, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 24.378499579965137, 'epoch': 6.89}
+ 86%|████████▌ | 861/1000 [7:25:21<1:09:57, 30.20s/it] 86%|████████▌ | 862/1000 [7:25:54<1:11:11, 30.96s/it]                                                      {'loss': 0.0001, 'grad_norm': 0.004230553284287453, 'learning_rate': 1.196426636260535e-06, 'num_tokens': 139047085.0, 'completions/mean_length': 1983.265625, 'completions/min_length': 865.0, 'completions/max_length': 3659.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1983.265625, 'completions/min_terminated_length': 865.0, 'completions/max_terminated_length': 3659.0, 'rewards/rollout_reward_func/mean': 11.659375190734863, 'rewards/rollout_reward_func/std': 5.505285263061523, 'reward': 11.659375190734863, 'reward_std': 5.106035232543945, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.031470887362957, 'sampling/sampling_logp_difference/max': 1.3329980373382568, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8899089097976685, 'sampling/importance_sampling_ratio/max': 2.4439733028411865, 'kl': 1.1885167211294174, 'entropy': 0.1134651224128902, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.50476774002891, 'epoch': 6.9}
+ 86%|████████▌ | 862/1000 [7:25:54<1:11:11, 30.96s/it] 86%|████████▋ | 863/1000 [7:26:29<1:13:33, 32.21s/it]                                                      {'loss': -0.0, 'grad_norm': 0.00518330093473196, 'learning_rate': 1.1795488279621139e-06, 'num_tokens': 139214769.0, 'completions/mean_length': 2068.3125, 'completions/min_length': 850.0, 'completions/max_length': 3990.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2068.3125, 'completions/min_terminated_length': 850.0, 'completions/max_terminated_length': 3990.0, 'rewards/rollout_reward_func/mean': 13.15625, 'rewards/rollout_reward_func/std': 5.17683744430542, 'reward': 13.15625, 'reward_std': 5.035938262939453, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.0313837043941021, 'sampling/sampling_logp_difference/max': 1.6103341579437256, 'sampling/importance_sampling_ratio/min': 0.07008851319551468, 'sampling/importance_sampling_ratio/mean': 0.9528200030326843, 'sampling/importance_sampling_ratio/max': 2.4614932537078857, 'kl': 0.9098826050758362, 'entropy': 0.11165508162230253, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 33.639709758004756, 'epoch': 6.9}
+ 86%|████████▋ | 863/1000 [7:26:29<1:13:33, 32.21s/it] 86%|████████▋ | 864/1000 [7:26:57<1:10:33, 31.13s/it]                                                      {'loss': 0.0004, 'grad_norm': 0.0045788222923874855, 'learning_rate': 1.1627850164813173e-06, 'num_tokens': 139352865.0, 'completions/mean_length': 1619.625, 'completions/min_length': 782.0, 'completions/max_length': 3317.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1619.625, 'completions/min_terminated_length': 782.0, 'completions/max_terminated_length': 3317.0, 'rewards/rollout_reward_func/mean': 11.748437881469727, 'rewards/rollout_reward_func/std': 5.270974636077881, 'reward': 11.748437881469727, 'reward_std': 5.219828128814697, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.02884756028652191, 'sampling/sampling_logp_difference/max': 1.7807517051696777, 'sampling/importance_sampling_ratio/min': 0.14610250294208527, 'sampling/importance_sampling_ratio/mean': 0.9579983353614807, 'sampling/importance_sampling_ratio/max': 2.4506821632385254, 'kl': 1.6308647133409977, 'entropy': 0.09082189109176397, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 27.354681521988823, 'epoch': 6.91}
+ 86%|████████▋ | 864/1000 [7:26:57<1:10:33, 31.13s/it] 86%|████████▋ | 865/1000 [7:27:29<1:10:08, 31.18s/it]                                                      {'loss': -0.0012, 'grad_norm': 0.00356870936229825, 'learning_rate': 1.146135370629535e-06, 'num_tokens': 139513536.0, 'completions/mean_length': 1961.109375, 'completions/min_length': 783.0, 'completions/max_length': 3565.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1961.109375, 'completions/min_terminated_length': 783.0, 'completions/max_terminated_length': 3565.0, 'rewards/rollout_reward_func/mean': 11.64687442779541, 'rewards/rollout_reward_func/std': 5.599715709686279, 'reward': 11.64687442779541, 'reward_std': 5.524383544921875, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.030163485556840897, 'sampling/sampling_logp_difference/max': 2.3563733100891113, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.895585298538208, 'sampling/importance_sampling_ratio/max': 2.6097824573516846, 'kl': 0.9083687663078308, 'entropy': 0.10104370908811688, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.13011451397324, 'epoch': 6.92}
+ 86%|████████▋ | 865/1000 [7:27:29<1:10:08, 31.18s/it] 87%|████████▋ | 866/1000 [7:28:02<1:10:59, 31.79s/it]                                                      {'loss': 0.001, 'grad_norm': 0.006378871854394674, 'learning_rate': 1.1296000580685196e-06, 'num_tokens': 139654783.0, 'completions/mean_length': 1666.859375, 'completions/min_length': 783.0, 'completions/max_length': 3698.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1666.859375, 'completions/min_terminated_length': 783.0, 'completions/max_terminated_length': 3698.0, 'rewards/rollout_reward_func/mean': 10.267187118530273, 'rewards/rollout_reward_func/std': 5.129437446594238, 'reward': 10.26718807220459, 'reward_std': 5.117109298706055, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.027263619005680084, 'sampling/sampling_logp_difference/max': 1.6695811748504639, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.998561441898346, 'sampling/importance_sampling_ratio/max': 2.699428081512451, 'kl': 1.044823870062828, 'entropy': 0.09794561797752976, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.786763714961126, 'epoch': 6.93}
+ 87%|████████▋ | 866/1000 [7:28:02<1:10:59, 31.79s/it] 87%|████████▋ | 867/1000 [7:28:32<1:09:27, 31.33s/it]                                                      {'loss': -0.0002, 'grad_norm': 0.005464319605380297, 'learning_rate': 1.113179245308686e-06, 'num_tokens': 139838553.0, 'completions/mean_length': 2312.40625, 'completions/min_length': 1674.0, 'completions/max_length': 3325.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2312.40625, 'completions/min_terminated_length': 1674.0, 'completions/max_terminated_length': 3325.0, 'rewards/rollout_reward_func/mean': 12.073436737060547, 'rewards/rollout_reward_func/std': 5.467574119567871, 'reward': 12.073436737060547, 'reward_std': 5.414211273193359, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03366971015930176, 'sampling/sampling_logp_difference/max': 2.567357063293457, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8718844652175903, 'sampling/importance_sampling_ratio/max': 2.95295786857605, 'kl': 0.9987722784280777, 'entropy': 0.11755021894350648, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.031830317006097, 'epoch': 6.94}
+ 87%|████████▋ | 867/1000 [7:28:32<1:09:27, 31.33s/it] 87%|████████▋ | 868/1000 [7:29:06<1:10:37, 32.10s/it]                                                      {'loss': 0.0011, 'grad_norm': 0.006091391202062368, 'learning_rate': 1.0968730977074334e-06, 'num_tokens': 140031249.0, 'completions/mean_length': 2449.5, 'completions/min_length': 853.0, 'completions/max_length': 3717.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2449.5, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3717.0, 'rewards/rollout_reward_func/mean': 12.574999809265137, 'rewards/rollout_reward_func/std': 5.280031681060791, 'reward': 12.574999809265137, 'reward_std': 5.21890115737915, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03412390500307083, 'sampling/sampling_logp_difference/max': 3.0847668647766113, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9643903970718384, 'sampling/importance_sampling_ratio/max': 2.864971399307251, 'kl': 1.0011379234492779, 'entropy': 0.12853337358683348, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.47054170303454, 'epoch': 6.94}
+ 87%|████████▋ | 868/1000 [7:29:06<1:10:37, 32.10s/it] 87%|████████▋ | 869/1000 [7:29:36<1:08:34, 31.41s/it]                                                      {'loss': -0.0009, 'grad_norm': 0.004555117804557085, 'learning_rate': 1.0806817794674878e-06, 'num_tokens': 140206778.0, 'completions/mean_length': 2187.640625, 'completions/min_length': 1274.0, 'completions/max_length': 3281.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2187.640625, 'completions/min_terminated_length': 1274.0, 'completions/max_terminated_length': 3281.0, 'rewards/rollout_reward_func/mean': 12.9140625, 'rewards/rollout_reward_func/std': 4.8895697593688965, 'reward': 12.9140625, 'reward_std': 4.839825630187988, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.030072638764977455, 'sampling/sampling_logp_difference/max': 1.931126594543457, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9067740440368652, 'sampling/importance_sampling_ratio/max': 2.931792974472046, 'kl': 1.1850173957645893, 'entropy': 0.1129710297100246, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.53322545402625, 'epoch': 6.95}
+ 87%|████████▋ | 869/1000 [7:29:36<1:08:34, 31.41s/it] 87%|████████▋ | 870/1000 [7:29:59<1:02:46, 28.97s/it]                                                      {'loss': 0.0005, 'grad_norm': 0.006062469910830259, 'learning_rate': 1.064605453635248e-06, 'num_tokens': 140336220.0, 'completions/mean_length': 1486.78125, 'completions/min_length': 849.0, 'completions/max_length': 2618.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1486.78125, 'completions/min_terminated_length': 849.0, 'completions/max_terminated_length': 2618.0, 'rewards/rollout_reward_func/mean': 10.690624237060547, 'rewards/rollout_reward_func/std': 5.5655035972595215, 'reward': 10.690625190734863, 'reward_std': 4.366750717163086, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.025392824783921242, 'sampling/sampling_logp_difference/max': 1.7809443473815918, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9417283535003662, 'sampling/importance_sampling_ratio/max': 2.757805109024048, 'kl': 0.9687155894935131, 'entropy': 0.08749778964556754, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 22.282327541994164, 'epoch': 6.96}
+ 87%|████████▋ | 870/1000 [7:29:59<1:02:46, 28.97s/it] 87%|████████▋ | 871/1000 [7:30:30<1:03:51, 29.70s/it]                                                      {'loss': -0.0002, 'grad_norm': 0.0040228404104709625, 'learning_rate': 1.04864428209913e-06, 'num_tokens': 140515987.0, 'completions/mean_length': 2251.859375, 'completions/min_length': 1267.0, 'completions/max_length': 3454.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2251.859375, 'completions/min_terminated_length': 1267.0, 'completions/max_terminated_length': 3454.0, 'rewards/rollout_reward_func/mean': 12.626562118530273, 'rewards/rollout_reward_func/std': 5.812472820281982, 'reward': 12.626562118530273, 'reward_std': 5.322719573974609, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.0354154072701931, 'sampling/sampling_logp_difference/max': 2.123997688293457, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8020657300949097, 'sampling/importance_sampling_ratio/max': 2.2295894622802734, 'kl': 0.9689385965466499, 'entropy': 0.11742525594308972, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.11614161498437, 'epoch': 6.97}
+ 87%|████████▋ | 871/1000 [7:30:30<1:03:51, 29.70s/it] 87%|████████▋ | 872/1000 [7:31:03<1:04:56, 30.44s/it]                                                      {'loss': -0.0, 'grad_norm': 0.005696151405572891, 'learning_rate': 1.0327984255879567e-06, 'num_tokens': 140704026.0, 'completions/mean_length': 2377.109375, 'completions/min_length': 1194.0, 'completions/max_length': 3579.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2377.109375, 'completions/min_terminated_length': 1194.0, 'completions/max_terminated_length': 3579.0, 'rewards/rollout_reward_func/mean': 11.926563262939453, 'rewards/rollout_reward_func/std': 5.312376976013184, 'reward': 11.926563262939453, 'reward_std': 5.32210636138916, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03549700230360031, 'sampling/sampling_logp_difference/max': 1.9821233749389648, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9420322179794312, 'sampling/importance_sampling_ratio/max': 2.6330013275146484, 'kl': 1.7929991334676743, 'entropy': 0.12974037416279316, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.81661646401335, 'epoch': 6.98}
+ 87%|████████▋ | 872/1000 [7:31:03<1:04:56, 30.44s/it] 87%|████████▋ | 873/1000 [7:31:32<1:03:35, 30.05s/it]                                                      {'loss': -0.0012, 'grad_norm': 0.005867518484592438, 'learning_rate': 1.0170680436693337e-06, 'num_tokens': 140849995.0, 'completions/mean_length': 1738.640625, 'completions/min_length': 781.0, 'completions/max_length': 3381.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1738.640625, 'completions/min_terminated_length': 781.0, 'completions/max_terminated_length': 3381.0, 'rewards/rollout_reward_func/mean': 9.409374237060547, 'rewards/rollout_reward_func/std': 4.868320941925049, 'reward': 9.409375190734863, 'reward_std': 4.398387908935547, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04028652608394623, 'sampling/sampling_logp_difference/max': 2.294297933578491, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8599815368652344, 'sampling/importance_sampling_ratio/max': 2.7690608501434326, 'kl': 1.6609910316765308, 'entropy': 0.10466727241873741, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.01955211799941, 'epoch': 6.98}
+ 87%|████████▋ | 873/1000 [7:31:32<1:03:35, 30.05s/it] 87%|████████▋ | 874/1000 [7:32:07<1:06:12, 31.52s/it]                                                      {'loss': -0.0001, 'grad_norm': 0.003638211404904723, 'learning_rate': 1.0014532947480227e-06, 'num_tokens': 141039791.0, 'completions/mean_length': 2404.1875, 'completions/min_length': 852.0, 'completions/max_length': 3876.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2404.1875, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3876.0, 'rewards/rollout_reward_func/mean': 12.8359375, 'rewards/rollout_reward_func/std': 5.270383358001709, 'reward': 12.8359375, 'reward_std': 5.201015472412109, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.036687031388282776, 'sampling/sampling_logp_difference/max': 2.4783034324645996, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8376838564872742, 'sampling/importance_sampling_ratio/max': 2.9838056564331055, 'kl': 1.7894844561815262, 'entropy': 0.11540667340159416, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 33.584170023023034, 'epoch': 6.99}
+ 87%|████████▋ | 874/1000 [7:32:07<1:06:12, 31.52s/it] 88%|████████▊ | 875/1000 [7:32:38<1:05:34, 31.47s/it]                                                      {'loss': 0.0008, 'grad_norm': 0.0038519357331097126, 'learning_rate': 9.85954336064375e-07, 'num_tokens': 141208331.0, 'completions/mean_length': 2081.6875, 'completions/min_length': 854.0, 'completions/max_length': 3579.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2081.6875, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 3579.0, 'rewards/rollout_reward_func/mean': 12.428125381469727, 'rewards/rollout_reward_func/std': 5.380283832550049, 'reward': 12.428125381469727, 'reward_std': 4.858708381652832, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03278122469782829, 'sampling/sampling_logp_difference/max': 2.39300274848938, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7747921943664551, 'sampling/importance_sampling_ratio/max': 2.0693249702453613, 'kl': 1.0153650678694248, 'entropy': 0.11837315978482366, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.125023487998988, 'epoch': 7.0}
+ 88%|████████▊ | 875/1000 [7:32:38<1:05:34, 31.47s/it] 88%|████████▊ | 876/1000 [7:33:05<1:02:10, 30.09s/it]                                                      {'loss': -0.0008, 'grad_norm': 0.0041176872327923775, 'learning_rate': 9.705713236927344e-07, 'num_tokens': 141351832.0, 'completions/mean_length': 1700.453125, 'completions/min_length': 854.0, 'completions/max_length': 3052.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1700.453125, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 3052.0, 'rewards/rollout_reward_func/mean': 11.415624618530273, 'rewards/rollout_reward_func/std': 5.2235798835754395, 'reward': 11.415624618530273, 'reward_std': 4.894830226898193, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.025875195860862732, 'sampling/sampling_logp_difference/max': 1.8720067739486694, 'sampling/importance_sampling_ratio/min': 0.09371013194322586, 'sampling/importance_sampling_ratio/mean': 0.8900190591812134, 'sampling/importance_sampling_ratio/max': 2.3217380046844482, 'kl': 1.0138919427990913, 'entropy': 0.08863836480304599, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 25.689587143977406, 'epoch': 7.01}
+ 88%|████████▊ | 876/1000 [7:33:05<1:02:10, 30.09s/it] 88%|████████▊ | 877/1000 [7:33:35<1:01:24, 29.96s/it]                                                      {'loss': -0.0007, 'grad_norm': 0.0044524515978991985, 'learning_rate': 9.553044125398633e-07, 'num_tokens': 141508625.0, 'completions/mean_length': 1902.140625, 'completions/min_length': 784.0, 'completions/max_length': 3386.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1902.140625, 'completions/min_terminated_length': 784.0, 'completions/max_terminated_length': 3386.0, 'rewards/rollout_reward_func/mean': 12.182812690734863, 'rewards/rollout_reward_func/std': 5.103952884674072, 'reward': 12.182812690734863, 'reward_std': 5.258562088012695, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.036671824753284454, 'sampling/sampling_logp_difference/max': 1.5974841117858887, 'sampling/importance_sampling_ratio/min': 0.04852438345551491, 'sampling/importance_sampling_ratio/mean': 0.7698615789413452, 'sampling/importance_sampling_ratio/max': 2.0047473907470703, 'kl': 0.9957035854458809, 'entropy': 0.12176052201539278, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.52789061900694, 'epoch': 7.02}
+ 88%|████████▊ | 877/1000 [7:33:35<1:01:24, 29.96s/it] 88%|████████▊ | 878/1000 [7:33:58<57:04, 28.07s/it]                                                      {'loss': 0.0002, 'grad_norm': 0.005197389051318169, 'learning_rate': 9.401537563433858e-07, 'num_tokens': 141643485.0, 'completions/mean_length': 1569.0625, 'completions/min_length': 849.0, 'completions/max_length': 2693.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1569.0625, 'completions/min_terminated_length': 849.0, 'completions/max_terminated_length': 2693.0, 'rewards/rollout_reward_func/mean': 11.551562309265137, 'rewards/rollout_reward_func/std': 5.457280158996582, 'reward': 11.551562309265137, 'reward_std': 5.561341285705566, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.030303535982966423, 'sampling/sampling_logp_difference/max': 2.008751153945923, 'sampling/importance_sampling_ratio/min': 0.04028868302702904, 'sampling/importance_sampling_ratio/mean': 0.933106541633606, 'sampling/importance_sampling_ratio/max': 2.6120364665985107, 'kl': 1.1789480708539486, 'entropy': 0.09180801128968596, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 22.74481114500668, 'epoch': 7.02}
+ 88%|████████▊ | 878/1000 [7:33:58<57:04, 28.07s/it] 88%|████████▊ | 879/1000 [7:34:32<59:55, 29.71s/it]                                                    {'loss': 0.0003, 'grad_norm': 0.003914813045412302, 'learning_rate': 9.251195076702468e-07, 'num_tokens': 141814330.0, 'completions/mean_length': 2116.078125, 'completions/min_length': 866.0, 'completions/max_length': 3744.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2116.078125, 'completions/min_terminated_length': 866.0, 'completions/max_terminated_length': 3744.0, 'rewards/rollout_reward_func/mean': 10.998437881469727, 'rewards/rollout_reward_func/std': 5.592441082000732, 'reward': 10.998437881469727, 'reward_std': 5.174795627593994, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.035728439688682556, 'sampling/sampling_logp_difference/max': 1.9528590440750122, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7670645117759705, 'sampling/importance_sampling_ratio/max': 2.9569883346557617, 'kl': 0.9971790947020054, 'entropy': 0.12139861285686493, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.101489172971924, 'epoch': 7.03}
+ 88%|████████▊ | 879/1000 [7:34:32<59:55, 29.71s/it] 88%|████████▊ | 880/1000 [7:35:01<59:21, 29.68s/it]                                                    {'loss': -0.0002, 'grad_norm': 0.003618151880800724, 'learning_rate': 9.102018179151587e-07, 'num_tokens': 141979642.0, 'completions/mean_length': 2031.625, 'completions/min_length': 877.0, 'completions/max_length': 3334.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2031.625, 'completions/min_terminated_length': 877.0, 'completions/max_terminated_length': 3334.0, 'rewards/rollout_reward_func/mean': 12.553125381469727, 'rewards/rollout_reward_func/std': 4.764950752258301, 'reward': 12.553125381469727, 'reward_std': 4.530303001403809, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03490102291107178, 'sampling/sampling_logp_difference/max': 1.9598438739776611, 'sampling/importance_sampling_ratio/min': 0.020408442243933678, 'sampling/importance_sampling_ratio/mean': 0.8758544325828552, 'sampling/importance_sampling_ratio/max': 2.572009563446045, 'kl': 1.1784567721188068, 'entropy': 0.10403546271845698, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.477148392994422, 'epoch': 7.04}
+ 88%|████████▊ | 880/1000 [7:35:01<59:21, 29.68s/it] 88%|████████▊ | 881/1000 [7:35:26<55:54, 28.19s/it]                                                    {'loss': -0.0, 'grad_norm': 0.0044058216735720634, 'learning_rate': 8.95400837299093e-07, 'num_tokens': 142123000.0, 'completions/mean_length': 1698.21875, 'completions/min_length': 779.0, 'completions/max_length': 2681.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1698.21875, 'completions/min_terminated_length': 779.0, 'completions/max_terminated_length': 2681.0, 'rewards/rollout_reward_func/mean': 10.9453125, 'rewards/rollout_reward_func/std': 5.31245756149292, 'reward': 10.9453125, 'reward_std': 5.222923278808594, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.02848680317401886, 'sampling/sampling_logp_difference/max': 1.7887418270111084, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 1.0224180221557617, 'sampling/importance_sampling_ratio/max': 2.8338730335235596, 'kl': 1.6847171373665333, 'entropy': 0.09370399313047528, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 22.802362753034686, 'epoch': 7.05}
+ 88%|████████▊ | 881/1000 [7:35:26<55:54, 28.19s/it] 88%|████████▊ | 882/1000 [7:36:02<1:00:06, 30.56s/it]                                                      {'loss': 0.0023, 'grad_norm': 0.006113323383033276, 'learning_rate': 8.807167148677617e-07, 'num_tokens': 142285903.0, 'completions/mean_length': 1995.984375, 'completions/min_length': 878.0, 'completions/max_length': 4015.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1995.984375, 'completions/min_terminated_length': 878.0, 'completions/max_terminated_length': 4015.0, 'rewards/rollout_reward_func/mean': 12.234375, 'rewards/rollout_reward_func/std': 5.207053184509277, 'reward': 12.234375, 'reward_std': 5.332486152648926, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03565803915262222, 'sampling/sampling_logp_difference/max': 3.1525561809539795, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8044567108154297, 'sampling/importance_sampling_ratio/max': 2.839465856552124, 'kl': 0.9260055162012577, 'entropy': 0.10617543896660209, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 34.57248747300764, 'epoch': 7.06}
+ 88%|████████▊ | 882/1000 [7:36:02<1:00:06, 30.56s/it] 88%|████████▊ | 883/1000 [7:36:33<1:00:02, 30.79s/it]                                                      {'loss': 0.0, 'grad_norm': 0.0036072763614356518, 'learning_rate': 8.661495984901124e-07, 'num_tokens': 142442371.0, 'completions/mean_length': 1897.4375, 'completions/min_length': 867.0, 'completions/max_length': 3600.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1897.4375, 'completions/min_terminated_length': 867.0, 'completions/max_terminated_length': 3600.0, 'rewards/rollout_reward_func/mean': 12.885937690734863, 'rewards/rollout_reward_func/std': 4.958169937133789, 'reward': 12.885937690734863, 'reward_std': 4.735861301422119, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.035633135586977005, 'sampling/sampling_logp_difference/max': 2.3648996353149414, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8611406087875366, 'sampling/importance_sampling_ratio/max': 2.642143726348877, 'kl': 1.02131999284029, 'entropy': 0.10592230362817645, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.972984973996063, 'epoch': 7.06}
+ 88%|████████▊ | 883/1000 [7:36:34<1:00:02, 30.79s/it] 88%|████████▊ | 884/1000 [7:37:02<58:29, 30.25s/it]                                                      {'loss': 0.0017, 'grad_norm': 0.0070320675149559975, 'learning_rate': 8.516996348568465e-07, 'num_tokens': 142594030.0, 'completions/mean_length': 1823.921875, 'completions/min_length': 783.0, 'completions/max_length': 3282.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1823.921875, 'completions/min_terminated_length': 783.0, 'completions/max_terminated_length': 3282.0, 'rewards/rollout_reward_func/mean': 11.040624618530273, 'rewards/rollout_reward_func/std': 5.03866720199585, 'reward': 11.04062557220459, 'reward_std': 5.083131790161133, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.024571523070335388, 'sampling/sampling_logp_difference/max': 2.009791135787964, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9719789028167725, 'sampling/importance_sampling_ratio/max': 2.6500020027160645, 'kl': 0.9846445322036743, 'entropy': 0.09562585409730673, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 27.80232650601829, 'epoch': 7.07}
+ 88%|████████▊ | 884/1000 [7:37:03<58:29, 30.25s/it] 88%|████████▊ | 885/1000 [7:37:44<1:04:09, 33.48s/it]                                                      {'loss': 0.0009, 'grad_norm': 0.005186553578823805, 'learning_rate': 8.373669694789365e-07, 'num_tokens': 142779222.0, 'completions/mean_length': 2334.625, 'completions/min_length': 1264.0, 'completions/max_length': 4634.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2334.625, 'completions/min_terminated_length': 1264.0, 'completions/max_terminated_length': 4634.0, 'rewards/rollout_reward_func/mean': 12.954687118530273, 'rewards/rollout_reward_func/std': 5.1479363441467285, 'reward': 12.954687118530273, 'reward_std': 5.15319299697876, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.032005615532398224, 'sampling/sampling_logp_difference/max': 2.607316493988037, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9240723848342896, 'sampling/importance_sampling_ratio/max': 2.6187784671783447, 'kl': 0.9349695555865765, 'entropy': 0.11136239673942327, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 39.489765479942434, 'epoch': 7.08}
+ 88%|████████▊ | 885/1000 [7:37:44<1:04:09, 33.48s/it] 89%|████████▊ | 886/1000 [7:38:14<1:01:43, 32.49s/it]                                                      {'loss': -0.0006, 'grad_norm': 0.004377484321594238, 'learning_rate': 8.231517466861669e-07, 'num_tokens': 142948778.0, 'completions/mean_length': 2095.9375, 'completions/min_length': 937.0, 'completions/max_length': 3427.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2095.9375, 'completions/min_terminated_length': 937.0, 'completions/max_terminated_length': 3427.0, 'rewards/rollout_reward_func/mean': 13.825000762939453, 'rewards/rollout_reward_func/std': 5.326215744018555, 'reward': 13.825000762939453, 'reward_std': 4.660996437072754, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.0326223224401474, 'sampling/sampling_logp_difference/max': 1.9618229866027832, 'sampling/importance_sampling_ratio/min': 0.03201574087142944, 'sampling/importance_sampling_ratio/mean': 0.9335771799087524, 'sampling/importance_sampling_ratio/max': 2.8023757934570312, 'kl': 1.055789165198803, 'entropy': 0.10702836187556386, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.012144999040174, 'epoch': 7.09}
+ 89%|████████▊ | 886/1000 [7:38:14<1:01:43, 32.49s/it] 89%|████████▊ | 887/1000 [7:38:49<1:02:42, 33.30s/it]                                                      {'loss': -0.0006, 'grad_norm': 0.005109463818371296, 'learning_rate': 8.090541096256676e-07, 'num_tokens': 143151177.0, 'completions/mean_length': 2595.484375, 'completions/min_length': 1661.0, 'completions/max_length': 3816.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2595.484375, 'completions/min_terminated_length': 1661.0, 'completions/max_terminated_length': 3816.0, 'rewards/rollout_reward_func/mean': 12.318750381469727, 'rewards/rollout_reward_func/std': 5.618729591369629, 'reward': 12.318750381469727, 'reward_std': 5.696688652038574, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03621988743543625, 'sampling/sampling_logp_difference/max': 1.6670820713043213, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8678789734840393, 'sampling/importance_sampling_ratio/max': 2.303309202194214, 'kl': 1.265068642795086, 'entropy': 0.13274987507611513, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 33.86148106701148, 'epoch': 7.1}
+ 89%|████████▊ | 887/1000 [7:38:49<1:02:42, 33.30s/it] 89%|████████▉ | 888/1000 [7:39:20<1:01:01, 32.70s/it]                                                      {'loss': -0.0015, 'grad_norm': 0.006597737781703472, 'learning_rate': 7.950742002604927e-07, 'num_tokens': 143317385.0, 'completions/mean_length': 2045.25, 'completions/min_length': 782.0, 'completions/max_length': 3442.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2045.25, 'completions/min_terminated_length': 782.0, 'completions/max_terminated_length': 3442.0, 'rewards/rollout_reward_func/mean': 12.107812881469727, 'rewards/rollout_reward_func/std': 5.380189895629883, 'reward': 12.107812881469727, 'reward_std': 5.06462287902832, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.030297357589006424, 'sampling/sampling_logp_difference/max': 1.5035698413848877, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.991401731967926, 'sampling/importance_sampling_ratio/max': 2.685049057006836, 'kl': 1.187249816954136, 'entropy': 0.10541276028379798, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.99446248600725, 'epoch': 7.1}
+ 89%|████████▉ | 888/1000 [7:39:20<1:01:01, 32.70s/it] 89%|████████▉ | 889/1000 [7:39:54<1:00:56, 32.94s/it]                                                      {'loss': 0.0011, 'grad_norm': 0.005408323835581541, 'learning_rate': 7.812121593681721e-07, 'num_tokens': 143493102.0, 'completions/mean_length': 2188.578125, 'completions/min_length': 1325.0, 'completions/max_length': 3689.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2188.578125, 'completions/min_terminated_length': 1325.0, 'completions/max_terminated_length': 3689.0, 'rewards/rollout_reward_func/mean': 12.184375762939453, 'rewards/rollout_reward_func/std': 5.676916122436523, 'reward': 12.184374809265137, 'reward_std': 5.354668140411377, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.038498058915138245, 'sampling/sampling_logp_difference/max': 1.690567970275879, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8396074771881104, 'sampling/importance_sampling_ratio/max': 2.7721123695373535, 'kl': 1.0089130029082298, 'entropy': 0.11413893289864063, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.09245986901806, 'epoch': 7.11}
+ 89%|████████▉ | 889/1000 [7:39:54<1:00:56, 32.94s/it] 89%|████████▉ | 890/1000 [7:40:25<59:23, 32.39s/it]                                                      {'loss': 0.0005, 'grad_norm': 0.004358583129942417, 'learning_rate': 7.67468126539303e-07, 'num_tokens': 143633477.0, 'completions/mean_length': 1653.234375, 'completions/min_length': 784.0, 'completions/max_length': 3570.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1653.234375, 'completions/min_terminated_length': 784.0, 'completions/max_terminated_length': 3570.0, 'rewards/rollout_reward_func/mean': 11.982812881469727, 'rewards/rollout_reward_func/std': 5.418649673461914, 'reward': 11.982812881469727, 'reward_std': 5.293313026428223, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03098038211464882, 'sampling/sampling_logp_difference/max': 1.7097752094268799, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9082851409912109, 'sampling/importance_sampling_ratio/max': 2.774930238723755, 'kl': 1.0013282261788845, 'entropy': 0.10161889204755425, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.781310606005718, 'epoch': 7.12}
+ 89%|████████▉ | 890/1000 [7:40:25<59:23, 32.39s/it] 89%|████████▉ | 891/1000 [7:40:55<57:45, 31.80s/it]                                                    {'loss': 0.0014, 'grad_norm': 0.005699330475181341, 'learning_rate': 7.538422401761461e-07, 'num_tokens': 143791139.0, 'completions/mean_length': 1915.71875, 'completions/min_length': 783.0, 'completions/max_length': 3441.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1915.71875, 'completions/min_terminated_length': 783.0, 'completions/max_terminated_length': 3441.0, 'rewards/rollout_reward_func/mean': 11.610937118530273, 'rewards/rollout_reward_func/std': 5.483485221862793, 'reward': 11.610937118530273, 'reward_std': 4.90598201751709, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.033022865653038025, 'sampling/sampling_logp_difference/max': 1.9607341289520264, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9456384181976318, 'sampling/importance_sampling_ratio/max': 2.6660170555114746, 'kl': 1.253115925937891, 'entropy': 0.10058068530634046, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.148558185988804, 'epoch': 7.13}
+ 89%|████████▉ | 891/1000 [7:40:55<57:45, 31.80s/it] 89%|████████▉ | 892/1000 [7:41:30<58:52, 32.71s/it]                                                    {'loss': 0.0009, 'grad_norm': 0.0038407996762543917, 'learning_rate': 7.403346374912232e-07, 'num_tokens': 143954002.0, 'completions/mean_length': 1994.984375, 'completions/min_length': 784.0, 'completions/max_length': 3918.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1994.984375, 'completions/min_terminated_length': 784.0, 'completions/max_terminated_length': 3918.0, 'rewards/rollout_reward_func/mean': 12.075000762939453, 'rewards/rollout_reward_func/std': 5.456814765930176, 'reward': 12.075000762939453, 'reward_std': 4.952469348907471, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03484901040792465, 'sampling/sampling_logp_difference/max': 2.2105166912078857, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7655110359191895, 'sampling/importance_sampling_ratio/max': 2.1924965381622314, 'kl': 1.2644327729940414, 'entropy': 0.11305259168148041, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 33.470485712983645, 'epoch': 7.14}
+ 89%|████████▉ | 892/1000 [7:41:30<58:52, 32.71s/it] 89%|████████▉ | 893/1000 [7:42:00<57:06, 32.02s/it]                                                    {'loss': 0.0011, 'grad_norm': 0.009658153168857098, 'learning_rate': 7.269454545059423e-07, 'num_tokens': 144099376.0, 'completions/mean_length': 1729.71875, 'completions/min_length': 865.0, 'completions/max_length': 3478.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1729.71875, 'completions/min_terminated_length': 865.0, 'completions/max_terminated_length': 3478.0, 'rewards/rollout_reward_func/mean': 11.854687690734863, 'rewards/rollout_reward_func/std': 5.442248821258545, 'reward': 11.854687690734863, 'reward_std': 5.315478324890137, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.0323229655623436, 'sampling/sampling_logp_difference/max': 1.9624427556991577, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9471256136894226, 'sampling/importance_sampling_ratio/max': 2.6016745567321777, 'kl': 1.0001649223268032, 'entropy': 0.09926720755174756, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.309204551012954, 'epoch': 7.14}
+ 89%|████████▉ | 893/1000 [7:42:00<57:06, 32.02s/it] 89%|████████▉ | 894/1000 [7:42:32<56:25, 31.94s/it]                                                    {'loss': -0.0012, 'grad_norm': 0.0060347155667841434, 'learning_rate': 7.136748260492293e-07, 'num_tokens': 144286811.0, 'completions/mean_length': 2367.671875, 'completions/min_length': 1280.0, 'completions/max_length': 3497.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2367.671875, 'completions/min_terminated_length': 1280.0, 'completions/max_terminated_length': 3497.0, 'rewards/rollout_reward_func/mean': 12.754687309265137, 'rewards/rollout_reward_func/std': 5.370405197143555, 'reward': 12.754687309265137, 'reward_std': 5.212345600128174, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.038003504276275635, 'sampling/sampling_logp_difference/max': 1.8364918231964111, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9487979412078857, 'sampling/importance_sampling_ratio/max': 2.834665060043335, 'kl': 1.0442087091505527, 'entropy': 0.12137568183243275, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.459911970974645, 'epoch': 7.15}
+ 89%|████████▉ | 894/1000 [7:42:32<56:25, 31.94s/it] 90%|████████▉ | 895/1000 [7:43:04<56:03, 32.04s/it]                                                    {'loss': 0.0005, 'grad_norm': 0.003001726232469082, 'learning_rate': 7.005228857561677e-07, 'num_tokens': 144484229.0, 'completions/mean_length': 2519.65625, 'completions/min_length': 1183.0, 'completions/max_length': 3513.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2519.65625, 'completions/min_terminated_length': 1183.0, 'completions/max_terminated_length': 3513.0, 'rewards/rollout_reward_func/mean': 11.79062557220459, 'rewards/rollout_reward_func/std': 5.0711669921875, 'reward': 11.79062557220459, 'reward_std': 4.776029586791992, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.0347067192196846, 'sampling/sampling_logp_difference/max': 1.6244802474975586, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.850359320640564, 'sampling/importance_sampling_ratio/max': 2.350461721420288, 'kl': 1.2316176667809486, 'entropy': 0.13247503619641066, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.943853864984703, 'epoch': 7.16}
+ 90%|████████▉ | 895/1000 [7:43:04<56:03, 32.04s/it] 90%|████████▉ | 896/1000 [7:43:40<57:23, 33.11s/it]                                                    {'loss': 0.0008, 'grad_norm': 0.003756896359845996, 'learning_rate': 6.874897660666444e-07, 'num_tokens': 144681462.0, 'completions/mean_length': 2516.765625, 'completions/min_length': 1199.0, 'completions/max_length': 3926.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2516.765625, 'completions/min_terminated_length': 1199.0, 'completions/max_terminated_length': 3926.0, 'rewards/rollout_reward_func/mean': 13.329687118530273, 'rewards/rollout_reward_func/std': 4.900783538818359, 'reward': 13.329687118530273, 'reward_std': 4.683413505554199, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03568081930279732, 'sampling/sampling_logp_difference/max': 2.0041136741638184, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7871822118759155, 'sampling/importance_sampling_ratio/max': 2.5949621200561523, 'kl': 1.097207985818386, 'entropy': 0.12605073396116495, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 34.17174176100525, 'epoch': 7.17}
+ 90%|████████▉ | 896/1000 [7:43:40<57:23, 33.11s/it] 90%|████████▉ | 897/1000 [7:44:05<52:26, 30.55s/it]                                                    {'loss': -0.0019, 'grad_norm': 0.005013853777199984, 'learning_rate': 6.745755982240351e-07, 'num_tokens': 144812135.0, 'completions/mean_length': 1505.640625, 'completions/min_length': 853.0, 'completions/max_length': 2801.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1505.640625, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 2801.0, 'rewards/rollout_reward_func/mean': 10.36250114440918, 'rewards/rollout_reward_func/std': 5.2254414558410645, 'reward': 10.362499237060547, 'reward_std': 5.217206001281738, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.02582220733165741, 'sampling/sampling_logp_difference/max': 1.9602528810501099, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.862833559513092, 'sampling/importance_sampling_ratio/max': 1.7325578927993774, 'kl': 0.9639097936451435, 'entropy': 0.08685267297551036, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 23.523810627040803, 'epoch': 7.18}
+ 90%|████████▉ | 897/1000 [7:44:05<52:26, 30.55s/it] 90%|████████▉ | 898/1000 [7:44:30<49:23, 29.05s/it]                                                    {'loss': 0.0006, 'grad_norm': 0.004574096295982599, 'learning_rate': 6.617805122738658e-07, 'num_tokens': 144960946.0, 'completions/mean_length': 1782.171875, 'completions/min_length': 1262.0, 'completions/max_length': 2925.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1782.171875, 'completions/min_terminated_length': 1262.0, 'completions/max_terminated_length': 2925.0, 'rewards/rollout_reward_func/mean': 10.229686737060547, 'rewards/rollout_reward_func/std': 4.905962944030762, 'reward': 10.229686737060547, 'reward_std': 4.8530426025390625, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.028446611016988754, 'sampling/sampling_logp_difference/max': 1.6647957563400269, 'sampling/importance_sampling_ratio/min': 0.09809429943561554, 'sampling/importance_sampling_ratio/mean': 0.8741244673728943, 'sampling/importance_sampling_ratio/max': 2.8224668502807617, 'kl': 1.0147912241518497, 'entropy': 0.10354897659271955, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 24.576159096017363, 'epoch': 7.18}
+ 90%|████████▉ | 898/1000 [7:44:30<49:23, 29.05s/it] 90%|████████▉ | 899/1000 [7:44:59<48:44, 28.96s/it]                                                    {'loss': -0.001, 'grad_norm': 0.004499299917370081, 'learning_rate': 6.491046370625073e-07, 'num_tokens': 145106039.0, 'completions/mean_length': 1723.703125, 'completions/min_length': 852.0, 'completions/max_length': 3254.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1723.703125, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3254.0, 'rewards/rollout_reward_func/mean': 11.501562118530273, 'rewards/rollout_reward_func/std': 5.1297607421875, 'reward': 11.501562118530273, 'reward_std': 5.232746124267578, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.0299048013985157, 'sampling/sampling_logp_difference/max': 1.820407748222351, 'sampling/importance_sampling_ratio/min': 0.0918830931186676, 'sampling/importance_sampling_ratio/mean': 0.8611067533493042, 'sampling/importance_sampling_ratio/max': 1.7505885362625122, 'kl': 1.027298204600811, 'entropy': 0.09240023558959365, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 27.507593194997753, 'epoch': 7.19}
+ 90%|████████▉ | 899/1000 [7:44:59<48:44, 28.96s/it] 90%|█████████ | 900/1000 [7:45:31<49:40, 29.81s/it]                                                    {'loss': 0.0005, 'grad_norm': 0.0043354276567697525, 'learning_rate': 6.365481002358842e-07, 'num_tokens': 145283910.0, 'completions/mean_length': 2223.484375, 'completions/min_length': 869.0, 'completions/max_length': 3462.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2223.484375, 'completions/min_terminated_length': 869.0, 'completions/max_terminated_length': 3462.0, 'rewards/rollout_reward_func/mean': 11.550000190734863, 'rewards/rollout_reward_func/std': 5.474327087402344, 'reward': 11.549999237060547, 'reward_std': 5.036343574523926, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03525225445628166, 'sampling/sampling_logp_difference/max': 1.9623610973358154, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8283083438873291, 'sampling/importance_sampling_ratio/max': 2.6960408687591553, 'kl': 1.2806204296648502, 'entropy': 0.12350312154740095, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.496389623949653, 'epoch': 7.2}
+ 90%|█████████ | 900/1000 [7:45:31<49:40, 29.81s/it] 90%|█████████ | 901/1000 [7:45:57<47:17, 28.66s/it]                                                    {'loss': -0.0007, 'grad_norm': 0.004918146878480911, 'learning_rate': 6.241110282381835e-07, 'num_tokens': 145427000.0, 'completions/mean_length': 1694.78125, 'completions/min_length': 1191.0, 'completions/max_length': 2790.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1694.78125, 'completions/min_terminated_length': 1191.0, 'completions/max_terminated_length': 2790.0, 'rewards/rollout_reward_func/mean': 11.771875381469727, 'rewards/rollout_reward_func/std': 5.3503737449646, 'reward': 11.771875381469727, 'reward_std': 5.416446208953857, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.028823193162679672, 'sampling/sampling_logp_difference/max': 1.6709251403808594, 'sampling/importance_sampling_ratio/min': 0.1389106810092926, 'sampling/importance_sampling_ratio/mean': 0.9100490808486938, 'sampling/importance_sampling_ratio/max': 2.5776355266571045, 'kl': 1.5666419379413128, 'entropy': 0.09891041833907366, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 23.984811065980466, 'epoch': 7.21}
+ 90%|█████████ | 901/1000 [7:45:57<47:17, 28.66s/it] 90%|█████████ | 902/1000 [7:46:28<48:04, 29.43s/it]                                                    {'loss': 0.0005, 'grad_norm': 0.0041332547552883625, 'learning_rate': 6.117935463105809e-07, 'num_tokens': 145615979.0, 'completions/mean_length': 2391.796875, 'completions/min_length': 1264.0, 'completions/max_length': 3507.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2391.796875, 'completions/min_terminated_length': 1264.0, 'completions/max_terminated_length': 3507.0, 'rewards/rollout_reward_func/mean': 11.6796875, 'rewards/rollout_reward_func/std': 5.255025863647461, 'reward': 11.6796875, 'reward_std': 5.206439018249512, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.0359124056994915, 'sampling/sampling_logp_difference/max': 2.2412047386169434, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7916806936264038, 'sampling/importance_sampling_ratio/max': 2.8601269721984863, 'kl': 0.969377625733614, 'entropy': 0.12369831930845976, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.92670706701756, 'epoch': 7.22}
+ 90%|█████████ | 902/1000 [7:46:28<48:04, 29.43s/it] 90%|█████████ | 903/1000 [7:47:01<49:29, 30.61s/it]                                                    {'loss': 0.0003, 'grad_norm': 0.004336237907409668, 'learning_rate': 5.995957784899822e-07, 'num_tokens': 145766257.0, 'completions/mean_length': 1803.96875, 'completions/min_length': 850.0, 'completions/max_length': 3859.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1803.96875, 'completions/min_terminated_length': 850.0, 'completions/max_terminated_length': 3859.0, 'rewards/rollout_reward_func/mean': 12.918750762939453, 'rewards/rollout_reward_func/std': 5.275485992431641, 'reward': 12.91874885559082, 'reward_std': 4.6689348220825195, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.028759947046637535, 'sampling/sampling_logp_difference/max': 1.5536811351776123, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8375617265701294, 'sampling/importance_sampling_ratio/max': 1.8854751586914062, 'kl': 0.8590825162827969, 'entropy': 0.10008157417178154, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.00513360300101, 'epoch': 7.22}
+ 90%|█████████ | 903/1000 [7:47:01<49:29, 30.61s/it] 90%|█████████ | 904/1000 [7:47:31<48:43, 30.45s/it]                                                    {'loss': 0.0007, 'grad_norm': 0.004302662797272205, 'learning_rate': 5.875178476077756e-07, 'num_tokens': 145921492.0, 'completions/mean_length': 1879.421875, 'completions/min_length': 782.0, 'completions/max_length': 3432.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1879.421875, 'completions/min_terminated_length': 782.0, 'completions/max_terminated_length': 3432.0, 'rewards/rollout_reward_func/mean': 12.126562118530273, 'rewards/rollout_reward_func/std': 5.148963451385498, 'reward': 12.12656307220459, 'reward_std': 5.1095476150512695, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.039583124220371246, 'sampling/sampling_logp_difference/max': 1.9526904821395874, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.84745192527771, 'sampling/importance_sampling_ratio/max': 2.3537371158599854, 'kl': 0.9315724708139896, 'entropy': 0.11678180075250566, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.904820493000443, 'epoch': 7.23}
+ 90%|█████████ | 904/1000 [7:47:31<48:43, 30.45s/it] 90%|█████████ | 905/1000 [7:48:06<50:10, 31.69s/it]                                                    {'loss': -0.0006, 'grad_norm': 0.00520923500880599, 'learning_rate': 5.755598752885921e-07, 'num_tokens': 146087440.0, 'completions/mean_length': 2041.1875, 'completions/min_length': 783.0, 'completions/max_length': 3848.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2041.1875, 'completions/min_terminated_length': 783.0, 'completions/max_terminated_length': 3848.0, 'rewards/rollout_reward_func/mean': 12.649999618530273, 'rewards/rollout_reward_func/std': 5.251001834869385, 'reward': 12.65000057220459, 'reward_std': 4.9152984619140625, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.033882610499858856, 'sampling/sampling_logp_difference/max': 1.6231343746185303, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9094756245613098, 'sampling/importance_sampling_ratio/max': 2.9473512172698975, 'kl': 0.9732649512588978, 'entropy': 0.10578804928809404, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 33.11436475899245, 'epoch': 7.24}
+ 90%|█████████ | 905/1000 [7:48:06<50:10, 31.69s/it] 91%|█████████ | 906/1000 [7:48:37<49:09, 31.38s/it]                                                    {'loss': -0.0013, 'grad_norm': 0.008123843930661678, 'learning_rate': 5.637219819490766e-07, 'num_tokens': 146267826.0, 'completions/mean_length': 2261.53125, 'completions/min_length': 1279.0, 'completions/max_length': 3443.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2261.53125, 'completions/min_terminated_length': 1279.0, 'completions/max_terminated_length': 3443.0, 'rewards/rollout_reward_func/mean': 11.6328125, 'rewards/rollout_reward_func/std': 5.253179550170898, 'reward': 11.6328125, 'reward_std': 5.361386299133301, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03922464698553085, 'sampling/sampling_logp_difference/max': 2.473642587661743, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.948927104473114, 'sampling/importance_sampling_ratio/max': 2.9924628734588623, 'kl': 4.272054761648178, 'entropy': 0.11905008647590876, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.367291799993836, 'epoch': 7.25}
+ 91%|█████████ | 906/1000 [7:48:37<49:09, 31.38s/it] 91%|█████████ | 907/1000 [7:49:07<48:01, 30.98s/it]                                                    {'loss': -0.0002, 'grad_norm': 0.005083785392343998, 'learning_rate': 5.52004286796684e-07, 'num_tokens': 146408680.0, 'completions/mean_length': 1660.71875, 'completions/min_length': 851.0, 'completions/max_length': 3473.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1660.71875, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 3473.0, 'rewards/rollout_reward_func/mean': 10.920312881469727, 'rewards/rollout_reward_func/std': 5.540104389190674, 'reward': 10.920312881469727, 'reward_std': 5.171931266784668, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03075295314192772, 'sampling/sampling_logp_difference/max': 2.873603105545044, 'sampling/importance_sampling_ratio/min': 0.055587444454431534, 'sampling/importance_sampling_ratio/mean': 0.9484429955482483, 'sampling/importance_sampling_ratio/max': 2.378710985183716, 'kl': 0.9903979934751987, 'entropy': 0.10050636949017644, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.95290660104365, 'epoch': 7.26}
+ 91%|█████████ | 907/1000 [7:49:07<48:01, 30.98s/it] 91%|█████████ | 908/1000 [7:49:37<47:04, 30.70s/it]                                                    {'loss': 0.0007, 'grad_norm': 0.0046518840827047825, 'learning_rate': 5.404069078284807e-07, 'num_tokens': 146557495.0, 'completions/mean_length': 1780.234375, 'completions/min_length': 1189.0, 'completions/max_length': 3502.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1780.234375, 'completions/min_terminated_length': 1189.0, 'completions/max_terminated_length': 3502.0, 'rewards/rollout_reward_func/mean': 11.912500381469727, 'rewards/rollout_reward_func/std': 5.507613658905029, 'reward': 11.912500381469727, 'reward_std': 5.252275466918945, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03228151053190231, 'sampling/sampling_logp_difference/max': 1.780033826828003, 'sampling/importance_sampling_ratio/min': 0.06627247482538223, 'sampling/importance_sampling_ratio/mean': 0.8987876772880554, 'sampling/importance_sampling_ratio/max': 2.7426528930664062, 'kl': 0.9755188450217247, 'entropy': 0.09471451630815864, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.897408053977415, 'epoch': 7.26}
+ 91%|█████████ | 908/1000 [7:49:37<47:04, 30.70s/it] 91%|█████████ | 909/1000 [7:50:01<43:47, 28.87s/it]                                                    {'loss': 0.0007, 'grad_norm': 0.003952890634536743, 'learning_rate': 5.289299618299354e-07, 'num_tokens': 146714883.0, 'completions/mean_length': 1911.4375, 'completions/min_length': 856.0, 'completions/max_length': 2737.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1911.4375, 'completions/min_terminated_length': 856.0, 'completions/max_terminated_length': 2737.0, 'rewards/rollout_reward_func/mean': 10.731250762939453, 'rewards/rollout_reward_func/std': 5.116666793823242, 'reward': 10.731250762939453, 'reward_std': 5.064754486083984, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03498045727610588, 'sampling/sampling_logp_difference/max': 3.220388650894165, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7289680242538452, 'sampling/importance_sampling_ratio/max': 2.013791084289551, 'kl': 1.2466241233050823, 'entropy': 0.09725454123690724, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 23.65580328096985, 'epoch': 7.27}
+ 91%|█████████ | 909/1000 [7:50:01<43:47, 28.87s/it] 91%|█████████ | 910/1000 [7:50:31<43:38, 29.09s/it]                                                    {'loss': 0.0009, 'grad_norm': 0.004273141268640757, 'learning_rate': 5.175735643737703e-07, 'num_tokens': 146847969.0, 'completions/mean_length': 1542.96875, 'completions/min_length': 852.0, 'completions/max_length': 3300.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1542.96875, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3300.0, 'rewards/rollout_reward_func/mean': 12.28125, 'rewards/rollout_reward_func/std': 4.935838222503662, 'reward': 12.28125, 'reward_std': 4.608711242675781, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.0295262448489666, 'sampling/sampling_logp_difference/max': 1.745352029800415, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9403960704803467, 'sampling/importance_sampling_ratio/max': 2.408473491668701, 'kl': 1.0966374464333057, 'entropy': 0.0881016394123435, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.353473063994898, 'epoch': 7.28}
+ 91%|█████████ | 910/1000 [7:50:31<43:38, 29.09s/it] 91%|█████████ | 911/1000 [7:50:57<41:53, 28.25s/it]                                                    {'loss': 0.001, 'grad_norm': 0.004580316133797169, 'learning_rate': 5.063378298187843e-07, 'num_tokens': 147019247.0, 'completions/mean_length': 2122.84375, 'completions/min_length': 952.0, 'completions/max_length': 2884.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2122.84375, 'completions/min_terminated_length': 952.0, 'completions/max_terminated_length': 2884.0, 'rewards/rollout_reward_func/mean': 13.301562309265137, 'rewards/rollout_reward_func/std': 4.967050075531006, 'reward': 13.301562309265137, 'reward_std': 4.3452043533325195, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03216668963432312, 'sampling/sampling_logp_difference/max': 1.5999646186828613, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7103442549705505, 'sampling/importance_sampling_ratio/max': 2.0538039207458496, 'kl': 1.0653335973620415, 'entropy': 0.10760952299460769, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 25.213734133983962, 'epoch': 7.29}
+ 91%|█████████ | 911/1000 [7:50:57<41:53, 28.25s/it] 91%|█████████ | 912/1000 [7:51:29<42:50, 29.21s/it]                                                    {'loss': 0.0001, 'grad_norm': 0.004787698853760958, 'learning_rate': 4.952228713086953e-07, 'num_tokens': 147203517.0, 'completions/mean_length': 2319.84375, 'completions/min_length': 850.0, 'completions/max_length': 3442.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2319.84375, 'completions/min_terminated_length': 850.0, 'completions/max_terminated_length': 3442.0, 'rewards/rollout_reward_func/mean': 12.359375, 'rewards/rollout_reward_func/std': 5.342483997344971, 'reward': 12.359375, 'reward_std': 5.225358009338379, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.035810500383377075, 'sampling/sampling_logp_difference/max': 2.55460524559021, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8226666450500488, 'sampling/importance_sampling_ratio/max': 2.624521017074585, 'kl': 1.028081964701414, 'entropy': 0.11660468019545078, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.165537789012888, 'epoch': 7.3}
+ 91%|█████████ | 912/1000 [7:51:29<42:50, 29.21s/it] 91%|█████████▏| 913/1000 [7:51:55<40:57, 28.25s/it]                                                    {'loss': -0.0003, 'grad_norm': 0.004587727598845959, 'learning_rate': 4.842288007710139e-07, 'num_tokens': 147366198.0, 'completions/mean_length': 1992.515625, 'completions/min_length': 784.0, 'completions/max_length': 2888.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1992.515625, 'completions/min_terminated_length': 784.0, 'completions/max_terminated_length': 2888.0, 'rewards/rollout_reward_func/mean': 12.071874618530273, 'rewards/rollout_reward_func/std': 5.253856658935547, 'reward': 12.071874618530273, 'reward_std': 5.039941787719727, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.034029945731163025, 'sampling/sampling_logp_difference/max': 3.070291757583618, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8348967432975769, 'sampling/importance_sampling_ratio/max': 2.193699359893799, 'kl': 1.1053196154534817, 'entropy': 0.10601058136671782, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 24.93985668597452, 'epoch': 7.3}
+ 91%|█████████▏| 913/1000 [7:51:55<40:57, 28.25s/it] 91%|█████████▏| 914/1000 [7:52:29<43:02, 30.03s/it]                                                    {'loss': -0.0004, 'grad_norm': 0.004993505775928497, 'learning_rate': 4.733557289159113e-07, 'num_tokens': 147534587.0, 'completions/mean_length': 2079.328125, 'completions/min_length': 869.0, 'completions/max_length': 3778.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2079.328125, 'completions/min_terminated_length': 869.0, 'completions/max_terminated_length': 3778.0, 'rewards/rollout_reward_func/mean': 11.584375381469727, 'rewards/rollout_reward_func/std': 5.384139537811279, 'reward': 11.584375381469727, 'reward_std': 5.530791282653809, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03651585429906845, 'sampling/sampling_logp_difference/max': 1.6629976034164429, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8435503244400024, 'sampling/importance_sampling_ratio/max': 2.830796957015991, 'kl': 1.1261316016316414, 'entropy': 0.12332442868500948, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.960429254031624, 'epoch': 7.31}
+ 91%|█████████▏| 914/1000 [7:52:29<43:02, 30.03s/it] 92%|█████████▏| 915/1000 [7:53:04<44:51, 31.66s/it]                                                    {'loss': -0.0001, 'grad_norm': 0.004269815981388092, 'learning_rate': 4.6260376523509646e-07, 'num_tokens': 147751580.0, 'completions/mean_length': 2817.515625, 'completions/min_length': 1812.0, 'completions/max_length': 3793.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2817.515625, 'completions/min_terminated_length': 1812.0, 'completions/max_terminated_length': 3793.0, 'rewards/rollout_reward_func/mean': 13.464061737060547, 'rewards/rollout_reward_func/std': 5.075380325317383, 'reward': 13.464061737060547, 'reward_std': 5.047551155090332, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04162805154919624, 'sampling/sampling_logp_difference/max': 1.964916467666626, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8589749336242676, 'sampling/importance_sampling_ratio/max': 2.8377785682678223, 'kl': 1.1263885200023651, 'entropy': 0.14299460174515843, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 33.99247833201662, 'epoch': 7.32}
+ 92%|█████████▏| 915/1000 [7:53:04<44:51, 31.66s/it] 92%|█████████▏| 916/1000 [7:53:36<44:22, 31.70s/it]                                                    {'loss': 0.0004, 'grad_norm': 0.004777891561388969, 'learning_rate': 4.519730180007245e-07, 'num_tokens': 147927474.0, 'completions/mean_length': 2192.96875, 'completions/min_length': 854.0, 'completions/max_length': 3574.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2192.96875, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 3574.0, 'rewards/rollout_reward_func/mean': 11.689062118530273, 'rewards/rollout_reward_func/std': 5.352113246917725, 'reward': 11.689062118530273, 'reward_std': 5.220346927642822, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03531806915998459, 'sampling/sampling_logp_difference/max': 1.5590460300445557, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8415857553482056, 'sampling/importance_sampling_ratio/max': 1.8213878870010376, 'kl': 2.1933102272450924, 'entropy': 0.12312882114201784, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.4597856009932, 'epoch': 7.33}
+ 92%|█████████▏| 916/1000 [7:53:36<44:22, 31.70s/it] 92%|█████████▏| 917/1000 [7:54:10<44:43, 32.34s/it]                                                    {'loss': 0.0001, 'grad_norm': 0.004687374457716942, 'learning_rate': 4.414635942643047e-07, 'num_tokens': 148097441.0, 'completions/mean_length': 2103.984375, 'completions/min_length': 864.0, 'completions/max_length': 3738.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2103.984375, 'completions/min_terminated_length': 864.0, 'completions/max_terminated_length': 3738.0, 'rewards/rollout_reward_func/mean': 11.684374809265137, 'rewards/rollout_reward_func/std': 5.443220138549805, 'reward': 11.684374809265137, 'reward_std': 5.335321426391602, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03573879599571228, 'sampling/sampling_logp_difference/max': 1.8465781211853027, 'sampling/importance_sampling_ratio/min': 0.02415095455944538, 'sampling/importance_sampling_ratio/mean': 0.872653067111969, 'sampling/importance_sampling_ratio/max': 2.495640993118286, 'kl': 0.9942788332700729, 'entropy': 0.12700026761740446, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.397471156029496, 'epoch': 7.34}
+ 92%|█████████▏| 917/1000 [7:54:10<44:43, 32.34s/it] 92%|█████████▏| 918/1000 [7:54:29<38:53, 28.45s/it]                                                    {'loss': 0.0011, 'grad_norm': 0.004013527650386095, 'learning_rate': 4.31075599855614e-07, 'num_tokens': 148228163.0, 'completions/mean_length': 1506.40625, 'completions/min_length': 781.0, 'completions/max_length': 2138.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1506.40625, 'completions/min_terminated_length': 781.0, 'completions/max_terminated_length': 2138.0, 'rewards/rollout_reward_func/mean': 11.02968692779541, 'rewards/rollout_reward_func/std': 5.088445663452148, 'reward': 11.029687881469727, 'reward_std': 4.995458602905273, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.031550612300634384, 'sampling/sampling_logp_difference/max': 1.6694504022598267, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8331130146980286, 'sampling/importance_sampling_ratio/max': 1.7419474124908447, 'kl': 1.0574501752853394, 'entropy': 0.09466133313253522, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 18.54684177902527, 'epoch': 7.34}
+ 92%|█████████▏| 918/1000 [7:54:29<38:53, 28.45s/it] 92%|█████████▏| 919/1000 [7:54:54<36:54, 27.34s/it]                                                    {'loss': 0.001, 'grad_norm': 0.0065010590478777885, 'learning_rate': 4.2080913938164353e-07, 'num_tokens': 148355610.0, 'completions/mean_length': 1456.859375, 'completions/min_length': 849.0, 'completions/max_length': 2850.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1456.859375, 'completions/min_terminated_length': 849.0, 'completions/max_terminated_length': 2850.0, 'rewards/rollout_reward_func/mean': 10.739063262939453, 'rewards/rollout_reward_func/std': 5.310924053192139, 'reward': 10.739062309265137, 'reward_std': 4.815742492675781, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.030583247542381287, 'sampling/sampling_logp_difference/max': 1.6648210287094116, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9190629124641418, 'sampling/importance_sampling_ratio/max': 2.7027201652526855, 'kl': 0.9364298023283482, 'entropy': 0.098946254234761, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 23.79483808898658, 'epoch': 7.35}
+ 92%|█████████▏| 919/1000 [7:54:54<36:54, 27.34s/it] 92%|█████████▏| 920/1000 [7:55:24<37:22, 28.04s/it]                                                    {'loss': -0.0001, 'grad_norm': 0.0035750046372413635, 'learning_rate': 4.106643162255369e-07, 'num_tokens': 148507923.0, 'completions/mean_length': 1834.140625, 'completions/min_length': 852.0, 'completions/max_length': 3361.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1834.140625, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3361.0, 'rewards/rollout_reward_func/mean': 11.604687690734863, 'rewards/rollout_reward_func/std': 5.025125503540039, 'reward': 11.604687690734863, 'reward_std': 5.227070331573486, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03230442851781845, 'sampling/sampling_logp_difference/max': 2.9639055728912354, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8620169758796692, 'sampling/importance_sampling_ratio/max': 2.0645694732666016, 'kl': 1.0066458098590374, 'entropy': 0.10478193452581763, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.594720217995928, 'epoch': 7.36}
+ 92%|█████████▏| 920/1000 [7:55:24<37:22, 28.04s/it] 92%|█████████▏| 921/1000 [7:55:59<39:36, 30.08s/it]                                                    {'loss': -0.0012, 'grad_norm': 0.005253763869404793, 'learning_rate': 4.006412325455469e-07, 'num_tokens': 148707267.0, 'completions/mean_length': 2549.75, 'completions/min_length': 1198.0, 'completions/max_length': 3650.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2549.75, 'completions/min_terminated_length': 1198.0, 'completions/max_terminated_length': 3650.0, 'rewards/rollout_reward_func/mean': 13.521875381469727, 'rewards/rollout_reward_func/std': 5.03484582901001, 'reward': 13.521875381469727, 'reward_std': 4.993480682373047, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03632912039756775, 'sampling/sampling_logp_difference/max': 1.7036818265914917, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9080586433410645, 'sampling/importance_sampling_ratio/max': 2.783360004425049, 'kl': 1.151365026831627, 'entropy': 0.13027450675144792, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.46816945000319, 'epoch': 7.37}
+ 92%|█████████▏| 921/1000 [7:55:59<39:36, 30.08s/it] 92%|█████████▏| 922/1000 [7:56:30<39:41, 30.54s/it]                                                    {'loss': 0.0022, 'grad_norm': 0.0038882556837052107, 'learning_rate': 3.9073998927401794e-07, 'num_tokens': 148890714.0, 'completions/mean_length': 2308.984375, 'completions/min_length': 854.0, 'completions/max_length': 3521.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2308.984375, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 3521.0, 'rewards/rollout_reward_func/mean': 12.109375, 'rewards/rollout_reward_func/std': 5.219521522521973, 'reward': 12.109375, 'reward_std': 5.141574382781982, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03307245671749115, 'sampling/sampling_logp_difference/max': 1.5860588550567627, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8043469190597534, 'sampling/importance_sampling_ratio/max': 2.4839603900909424, 'kl': 0.9593633655458689, 'entropy': 0.12102961749769747, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.29642164600955, 'epoch': 7.38}
+ 92%|█████████▏| 922/1000 [7:56:30<39:41, 30.54s/it] 92%|█████████▏| 923/1000 [7:57:05<40:43, 31.73s/it]                                                    {'loss': 0.0012, 'grad_norm': 0.004700049292296171, 'learning_rate': 3.8096068611635924e-07, 'num_tokens': 149057839.0, 'completions/mean_length': 2059.953125, 'completions/min_length': 855.0, 'completions/max_length': 3915.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2059.953125, 'completions/min_terminated_length': 855.0, 'completions/max_terminated_length': 3915.0, 'rewards/rollout_reward_func/mean': 11.212499618530273, 'rewards/rollout_reward_func/std': 5.1881890296936035, 'reward': 11.212499618530273, 'reward_std': 4.980381488800049, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03513248637318611, 'sampling/sampling_logp_difference/max': 3.0681967735290527, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7597956657409668, 'sampling/importance_sampling_ratio/max': 2.724400281906128, 'kl': 1.0192783363163471, 'entropy': 0.10864066006615758, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 33.225368619998335, 'epoch': 7.38}
+ 92%|█████████▏| 923/1000 [7:57:05<40:43, 31.73s/it] 92%|█████████▏| 924/1000 [7:57:35<39:40, 31.33s/it]                                                    {'loss': 0.0012, 'grad_norm': 0.005332161206752062, 'learning_rate': 3.713034215500441e-07, 'num_tokens': 149219972.0, 'completions/mean_length': 1983.953125, 'completions/min_length': 867.0, 'completions/max_length': 3408.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1983.953125, 'completions/min_terminated_length': 867.0, 'completions/max_terminated_length': 3408.0, 'rewards/rollout_reward_func/mean': 11.73281192779541, 'rewards/rollout_reward_func/std': 5.428439617156982, 'reward': 11.73281192779541, 'reward_std': 5.301332950592041, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.030786411836743355, 'sampling/sampling_logp_difference/max': 2.03936767578125, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8886109590530396, 'sampling/importance_sampling_ratio/max': 1.8456381559371948, 'kl': 1.0770434476435184, 'entropy': 0.10667388467118144, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.172357250005007, 'epoch': 7.39}
+ 92%|█████████▏| 924/1000 [7:57:35<39:40, 31.33s/it] 92%|█████████▎| 925/1000 [7:58:05<38:33, 30.84s/it]                                                    {'loss': 0.0002, 'grad_norm': 0.00534388842061162, 'learning_rate': 3.617682928236221e-07, 'num_tokens': 149381398.0, 'completions/mean_length': 1972.53125, 'completions/min_length': 853.0, 'completions/max_length': 3287.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1972.53125, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3287.0, 'rewards/rollout_reward_func/mean': 11.232812881469727, 'rewards/rollout_reward_func/std': 5.430983066558838, 'reward': 11.232812881469727, 'reward_std': 5.2480573654174805, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.030620265752077103, 'sampling/sampling_logp_difference/max': 1.882530689239502, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9097256064414978, 'sampling/importance_sampling_ratio/max': 2.8570637702941895, 'kl': 0.9681764990091324, 'entropy': 0.10371520696207881, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.591798416979145, 'epoch': 7.4}
+ 92%|█████████▎| 925/1000 [7:58:05<38:33, 30.84s/it] 93%|█████████▎| 926/1000 [7:58:39<39:09, 31.75s/it]                                                    {'loss': 0.0017, 'grad_norm': 0.0043485406786203384, 'learning_rate': 3.523553959557294e-07, 'num_tokens': 149511801.0, 'completions/mean_length': 1503.046875, 'completions/min_length': 781.0, 'completions/max_length': 3837.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1503.046875, 'completions/min_terminated_length': 781.0, 'completions/max_terminated_length': 3837.0, 'rewards/rollout_reward_func/mean': 10.879688262939453, 'rewards/rollout_reward_func/std': 5.007809162139893, 'reward': 10.879687309265137, 'reward_std': 5.016597270965576, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.030505094677209854, 'sampling/sampling_logp_difference/max': 1.6707000732421875, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8835928440093994, 'sampling/importance_sampling_ratio/max': 2.3123152256011963, 'kl': 1.0944236405193806, 'entropy': 0.08793301740661263, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.40183991097729, 'epoch': 7.41}
+ 93%|█████████▎| 926/1000 [7:58:39<39:09, 31.75s/it] 93%|█████████▎| 927/1000 [7:59:09<38:15, 31.44s/it]                                                    {'loss': -0.0012, 'grad_norm': 0.004617870319634676, 'learning_rate': 3.430648257341365e-07, 'num_tokens': 149699242.0, 'completions/mean_length': 2367.765625, 'completions/min_length': 1702.0, 'completions/max_length': 3378.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2367.765625, 'completions/min_terminated_length': 1702.0, 'completions/max_terminated_length': 3378.0, 'rewards/rollout_reward_func/mean': 12.3203125, 'rewards/rollout_reward_func/std': 5.455540180206299, 'reward': 12.3203125, 'reward_std': 5.44770622253418, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03149370476603508, 'sampling/sampling_logp_difference/max': 2.2862095832824707, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9722133278846741, 'sampling/importance_sampling_ratio/max': 2.381988525390625, 'kl': 1.2322069182991982, 'entropy': 0.11318689119070768, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.610169217019575, 'epoch': 7.42}
+ 93%|█████████▎| 927/1000 [7:59:09<38:15, 31.44s/it] 93%|█████████▎| 928/1000 [7:59:43<38:26, 32.03s/it]                                                    {'loss': 0.0013, 'grad_norm': 0.0048620677553117275, 'learning_rate': 3.338966757147802e-07, 'num_tokens': 149854986.0, 'completions/mean_length': 1887.75, 'completions/min_length': 863.0, 'completions/max_length': 3794.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1887.75, 'completions/min_terminated_length': 863.0, 'completions/max_terminated_length': 3794.0, 'rewards/rollout_reward_func/mean': 11.371874809265137, 'rewards/rollout_reward_func/std': 5.522406578063965, 'reward': 11.371874809265137, 'reward_std': 5.272906303405762, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03515341505408287, 'sampling/sampling_logp_difference/max': 2.1320271492004395, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9313161373138428, 'sampling/importance_sampling_ratio/max': 2.890211820602417, 'kl': 1.325262364000082, 'entropy': 0.1095009264536202, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.07528731600905, 'epoch': 7.42}
+ 93%|█████████▎| 928/1000 [7:59:43<38:26, 32.03s/it] 93%|█████████▎| 929/1000 [8:00:14<37:44, 31.90s/it]                                                    {'loss': 0.0005, 'grad_norm': 0.003716758918017149, 'learning_rate': 3.2485103822083166e-07, 'num_tokens': 150032573.0, 'completions/mean_length': 2219.046875, 'completions/min_length': 852.0, 'completions/max_length': 3542.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2219.046875, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3542.0, 'rewards/rollout_reward_func/mean': 10.943750381469727, 'rewards/rollout_reward_func/std': 5.371319770812988, 'reward': 10.943750381469727, 'reward_std': 5.08767032623291, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03859325870871544, 'sampling/sampling_logp_difference/max': 2.427830934524536, 'sampling/importance_sampling_ratio/min': 0.033755745738744736, 'sampling/importance_sampling_ratio/mean': 0.7870965600013733, 'sampling/importance_sampling_ratio/max': 2.099651336669922, 'kl': 1.0599668510258198, 'entropy': 0.11607932858169079, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.25665276798827, 'epoch': 7.43}
+ 93%|█████████▎| 929/1000 [8:00:14<37:44, 31.90s/it] 93%|█████████▎| 930/1000 [8:00:49<38:18, 32.84s/it]                                                    {'loss': 0.0007, 'grad_norm': 0.004016695078462362, 'learning_rate': 3.1592800434175896e-07, 'num_tokens': 150243813.0, 'completions/mean_length': 2731.625, 'completions/min_length': 1296.0, 'completions/max_length': 3818.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2731.625, 'completions/min_terminated_length': 1296.0, 'completions/max_terminated_length': 3818.0, 'rewards/rollout_reward_func/mean': 12.96875, 'rewards/rollout_reward_func/std': 5.339725017547607, 'reward': 12.96875, 'reward_std': 5.103837966918945, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04369170218706131, 'sampling/sampling_logp_difference/max': 1.9600516557693481, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7696692943572998, 'sampling/importance_sampling_ratio/max': 2.412994146347046, 'kl': 1.2470108307898045, 'entropy': 0.1445637666620314, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 33.5966719549906, 'epoch': 7.44}
+ 93%|█████████▎| 930/1000 [8:00:49<38:18, 32.84s/it] 93%|█████████▎| 931/1000 [8:01:19<36:48, 32.00s/it]                                                    {'loss': 0.0013, 'grad_norm': 0.004172908142209053, 'learning_rate': 3.0712766393241193e-07, 'num_tokens': 150397525.0, 'completions/mean_length': 1855.625, 'completions/min_length': 854.0, 'completions/max_length': 3354.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1855.625, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 3354.0, 'rewards/rollout_reward_func/mean': 10.378124237060547, 'rewards/rollout_reward_func/std': 5.523843765258789, 'reward': 10.378124237060547, 'reward_std': 5.353936195373535, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.02899814397096634, 'sampling/sampling_logp_difference/max': 1.5526304244995117, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9346262812614441, 'sampling/importance_sampling_ratio/max': 2.6597301959991455, 'kl': 0.9349225200712681, 'entropy': 0.0999260381795466, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.795400993025396, 'epoch': 7.45}
+ 93%|█████████▎| 931/1000 [8:01:19<36:48, 32.00s/it] 93%|█████████▎| 932/1000 [8:01:52<36:34, 32.27s/it]                                                    {'loss': 0.0009, 'grad_norm': 0.004526965785771608, 'learning_rate': 2.984501056121247e-07, 'num_tokens': 150568843.0, 'completions/mean_length': 2123.46875, 'completions/min_length': 856.0, 'completions/max_length': 3621.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2123.46875, 'completions/min_terminated_length': 856.0, 'completions/max_terminated_length': 3621.0, 'rewards/rollout_reward_func/mean': 11.9921875, 'rewards/rollout_reward_func/std': 5.131951332092285, 'reward': 11.9921875, 'reward_std': 4.995325088500977, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.035578180104494095, 'sampling/sampling_logp_difference/max': 2.248476028442383, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7359681725502014, 'sampling/importance_sampling_ratio/max': 2.9181087017059326, 'kl': 1.014631226658821, 'entropy': 0.1139315408654511, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.55321130901575, 'epoch': 7.46}
+ 93%|█████████▎| 932/1000 [8:01:52<36:34, 32.27s/it] 93%|█████████▎| 933/1000 [8:02:27<36:53, 33.04s/it]                                                    {'loss': -0.0011, 'grad_norm': 0.003558661788702011, 'learning_rate': 2.898954167638107e-07, 'num_tokens': 150736968.0, 'completions/mean_length': 2075.203125, 'completions/min_length': 786.0, 'completions/max_length': 3917.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2075.203125, 'completions/min_terminated_length': 786.0, 'completions/max_terminated_length': 3917.0, 'rewards/rollout_reward_func/mean': 10.682812690734863, 'rewards/rollout_reward_func/std': 5.1524248123168945, 'reward': 10.682812690734863, 'reward_std': 5.142807483673096, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04041310027241707, 'sampling/sampling_logp_difference/max': 2.0585007667541504, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7005594968795776, 'sampling/importance_sampling_ratio/max': 2.204801559448242, 'kl': 1.1503462418913841, 'entropy': 0.11507870489731431, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 33.42966080800397, 'epoch': 7.46}
+ 93%|█████████▎| 933/1000 [8:02:27<36:53, 33.04s/it] 93%|█████████▎| 934/1000 [8:03:02<36:54, 33.55s/it]                                                    {'loss': -0.0006, 'grad_norm': 0.003695193910971284, 'learning_rate': 2.8146368353309247e-07, 'num_tokens': 150894999.0, 'completions/mean_length': 1921.484375, 'completions/min_length': 854.0, 'completions/max_length': 3852.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1921.484375, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 3852.0, 'rewards/rollout_reward_func/mean': 11.4140625, 'rewards/rollout_reward_func/std': 4.979126930236816, 'reward': 11.4140625, 'reward_std': 4.967545032501221, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.031800445169210434, 'sampling/sampling_logp_difference/max': 1.579383373260498, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9003100991249084, 'sampling/importance_sampling_ratio/max': 2.684208393096924, 'kl': 1.2031606696546078, 'entropy': 0.10125098004937172, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 33.2814812130091, 'epoch': 7.47}
+ 93%|█████████▎| 934/1000 [8:03:02<36:54, 33.55s/it] 94%|█████████▎| 935/1000 [8:03:37<36:40, 33.85s/it]                                                    {'loss': -0.0017, 'grad_norm': 0.004363104235380888, 'learning_rate': 2.7315499082742893e-07, 'num_tokens': 151071635.0, 'completions/mean_length': 2204.5625, 'completions/min_length': 853.0, 'completions/max_length': 3786.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2204.5625, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3786.0, 'rewards/rollout_reward_func/mean': 12.074999809265137, 'rewards/rollout_reward_func/std': 5.187286376953125, 'reward': 12.075000762939453, 'reward_std': 5.287393093109131, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03258522227406502, 'sampling/sampling_logp_difference/max': 2.073965549468994, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8404430150985718, 'sampling/importance_sampling_ratio/max': 2.229865789413452, 'kl': 0.9268419332802296, 'entropy': 0.1169777037575841, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 33.08933413596242, 'epoch': 7.48}
+ 94%|█████████▎| 935/1000 [8:03:37<36:40, 33.85s/it] 94%|█████████▎| 936/1000 [8:04:08<35:24, 33.19s/it]                                                    {'loss': 0.0007, 'grad_norm': 0.0034612889867275953, 'learning_rate': 2.6496942231526714e-07, 'num_tokens': 151259237.0, 'completions/mean_length': 2370.28125, 'completions/min_length': 1186.0, 'completions/max_length': 3526.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2370.28125, 'completions/min_terminated_length': 1186.0, 'completions/max_terminated_length': 3526.0, 'rewards/rollout_reward_func/mean': 12.692187309265137, 'rewards/rollout_reward_func/std': 5.014813423156738, 'reward': 12.692188262939453, 'reward_std': 4.492281913757324, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.036563724279403687, 'sampling/sampling_logp_difference/max': 2.0453224182128906, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7232211828231812, 'sampling/importance_sampling_ratio/max': 2.335714101791382, 'kl': 0.9191798754036427, 'entropy': 0.12462453031912446, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.360624881024705, 'epoch': 7.49}
+ 94%|█████████▎| 936/1000 [8:04:08<35:24, 33.19s/it] 94%|█████████▎| 937/1000 [8:04:38<33:56, 32.33s/it]                                                    {'loss': 0.0018, 'grad_norm': 0.004770912695676088, 'learning_rate': 2.56907060425185e-07, 'num_tokens': 151419800.0, 'completions/mean_length': 1959.046875, 'completions/min_length': 853.0, 'completions/max_length': 3422.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1959.046875, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3422.0, 'rewards/rollout_reward_func/mean': 13.410937309265137, 'rewards/rollout_reward_func/std': 4.770848274230957, 'reward': 13.410938262939453, 'reward_std': 4.649733543395996, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03585570305585861, 'sampling/sampling_logp_difference/max': 1.8603554964065552, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8745332956314087, 'sampling/importance_sampling_ratio/max': 2.018430471420288, 'kl': 1.1486282758414745, 'entropy': 0.1125993118621409, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.163003946028766, 'epoch': 7.5}
+ 94%|█████████▎| 937/1000 [8:04:38<33:56, 32.33s/it] 94%|█████████▍| 938/1000 [8:05:11<33:27, 32.37s/it]                                                    {'loss': 0.0015, 'grad_norm': 0.0068344599567353725, 'learning_rate': 2.4896798634508195e-07, 'num_tokens': 151564644.0, 'completions/mean_length': 1721.4375, 'completions/min_length': 855.0, 'completions/max_length': 3769.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1721.4375, 'completions/min_terminated_length': 855.0, 'completions/max_terminated_length': 3769.0, 'rewards/rollout_reward_func/mean': 11.78125, 'rewards/rollout_reward_func/std': 5.3686299324035645, 'reward': 11.78125, 'reward_std': 5.190113067626953, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03171951323747635, 'sampling/sampling_logp_difference/max': 1.8341965675354004, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9947894215583801, 'sampling/importance_sampling_ratio/max': 2.9054813385009766, 'kl': 1.0553508959710598, 'entropy': 0.09421930159442127, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.267343879997497, 'epoch': 7.5}
+ 94%|█████████▍| 938/1000 [8:05:11<33:27, 32.37s/it] 94%|█████████▍| 939/1000 [8:05:39<31:43, 31.20s/it]                                                    {'loss': 0.0014, 'grad_norm': 0.004206859972327948, 'learning_rate': 2.4115228002134504e-07, 'num_tokens': 151715557.0, 'completions/mean_length': 1812.640625, 'completions/min_length': 854.0, 'completions/max_length': 3250.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1812.640625, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 3250.0, 'rewards/rollout_reward_func/mean': 11.953125, 'rewards/rollout_reward_func/std': 5.292041778564453, 'reward': 11.953125, 'reward_std': 5.1057538986206055, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03265460208058357, 'sampling/sampling_logp_difference/max': 1.9625898599624634, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.844405472278595, 'sampling/importance_sampling_ratio/max': 2.4125475883483887, 'kl': 1.0353817902505398, 'entropy': 0.10439391806721687, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 27.407733625004767, 'epoch': 7.51}
+ 94%|█████████▍| 939/1000 [8:05:39<31:43, 31.20s/it] 94%|█████████▍| 940/1000 [8:06:04<29:13, 29.22s/it]                                                    {'loss': 0.0006, 'grad_norm': 0.004825904965400696, 'learning_rate': 2.3346002015804946e-07, 'num_tokens': 151853184.0, 'completions/mean_length': 1610.671875, 'completions/min_length': 849.0, 'completions/max_length': 2717.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1610.671875, 'completions/min_terminated_length': 849.0, 'completions/max_terminated_length': 2717.0, 'rewards/rollout_reward_func/mean': 11.634374618530273, 'rewards/rollout_reward_func/std': 5.481837749481201, 'reward': 11.634374618530273, 'reward_std': 5.008185386657715, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.030566759407520294, 'sampling/sampling_logp_difference/max': 1.9984989166259766, 'sampling/importance_sampling_ratio/min': 0.05186090245842934, 'sampling/importance_sampling_ratio/mean': 0.8698264360427856, 'sampling/importance_sampling_ratio/max': 2.022089958190918, 'kl': 0.987219076603651, 'entropy': 0.09128859266638756, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 23.56693101300334, 'epoch': 7.52}
+ 94%|█████████▍| 940/1000 [8:06:04<29:13, 29.22s/it] 94%|█████████▍| 941/1000 [8:06:42<31:13, 31.76s/it]                                                    {'loss': -0.0018, 'grad_norm': 0.005427272990345955, 'learning_rate': 2.258912842161662e-07, 'num_tokens': 152041009.0, 'completions/mean_length': 2375.765625, 'completions/min_length': 1286.0, 'completions/max_length': 4079.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2375.765625, 'completions/min_terminated_length': 1286.0, 'completions/max_terminated_length': 4079.0, 'rewards/rollout_reward_func/mean': 12.071874618530273, 'rewards/rollout_reward_func/std': 5.076446533203125, 'reward': 12.071874618530273, 'reward_std': 4.823691368103027, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.04361702501773834, 'sampling/sampling_logp_difference/max': 2.118156909942627, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7848830223083496, 'sampling/importance_sampling_ratio/max': 2.843425750732422, 'kl': 1.2589365914463997, 'entropy': 0.12895752675831318, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 35.159579320970806, 'epoch': 7.53}
+ 94%|█████████▍| 941/1000 [8:06:42<31:13, 31.76s/it] 94%|█████████▍| 942/1000 [8:07:13<30:36, 31.66s/it]                                                    {'loss': 0.0033, 'grad_norm': 0.006147028878331184, 'learning_rate': 2.1844614841278338e-07, 'num_tokens': 152220673.0, 'completions/mean_length': 2249.5, 'completions/min_length': 784.0, 'completions/max_length': 3519.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2249.5, 'completions/min_terminated_length': 784.0, 'completions/max_terminated_length': 3519.0, 'rewards/rollout_reward_func/mean': 12.459375381469727, 'rewards/rollout_reward_func/std': 5.554255485534668, 'reward': 12.459375381469727, 'reward_std': 5.086348533630371, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.039680927991867065, 'sampling/sampling_logp_difference/max': 2.1242666244506836, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.883438229560852, 'sampling/importance_sampling_ratio/max': 2.930861234664917, 'kl': 1.0129195526242256, 'entropy': 0.12687643384560943, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.18319165504363, 'epoch': 7.54}
+ 94%|█████████▍| 942/1000 [8:07:13<30:36, 31.66s/it] 94%|█████████▍| 943/1000 [8:07:59<34:04, 35.87s/it]                                                    {'loss': -0.001, 'grad_norm': 0.0042565325275063515, 'learning_rate': 2.1112468772033628e-07, 'num_tokens': 152394055.0, 'completions/mean_length': 2155.71875, 'completions/min_length': 852.0, 'completions/max_length': 5001.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2155.71875, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 5001.0, 'rewards/rollout_reward_func/mean': 11.542187690734863, 'rewards/rollout_reward_func/std': 5.341951370239258, 'reward': 11.542186737060547, 'reward_std': 5.461267471313477, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03725476562976837, 'sampling/sampling_logp_difference/max': 2.3044254779815674, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7786898612976074, 'sampling/importance_sampling_ratio/max': 2.651007890701294, 'kl': 1.0611443184316158, 'entropy': 0.11417955392971635, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 43.69928167699254, 'epoch': 7.54}
+ 94%|█████████▍| 943/1000 [8:07:59<34:04, 35.87s/it] 94%|█████████▍| 944/1000 [8:08:29<31:44, 34.02s/it]                                                    {'loss': -0.0015, 'grad_norm': 0.004250750411301851, 'learning_rate': 2.0392697586584935e-07, 'num_tokens': 152559640.0, 'completions/mean_length': 2035.890625, 'completions/min_length': 936.0, 'completions/max_length': 3347.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2035.890625, 'completions/min_terminated_length': 936.0, 'completions/max_terminated_length': 3347.0, 'rewards/rollout_reward_func/mean': 12.5625, 'rewards/rollout_reward_func/std': 5.357697486877441, 'reward': 12.5625, 'reward_std': 4.601452827453613, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.029646649956703186, 'sampling/sampling_logp_difference/max': 1.7420645952224731, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8979811072349548, 'sampling/importance_sampling_ratio/max': 2.822253942489624, 'kl': 1.0130947306752205, 'entropy': 0.09993710462003946, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.43314204600756, 'epoch': 7.55}
+ 94%|█████████▍| 944/1000 [8:08:29<31:44, 34.02s/it] 94%|█████████▍| 945/1000 [8:08:52<28:12, 30.78s/it]                                                    {'loss': -0.0016, 'grad_norm': 0.0039698295295238495, 'learning_rate': 1.9685308533020363e-07, 'num_tokens': 152688582.0, 'completions/mean_length': 1478.96875, 'completions/min_length': 854.0, 'completions/max_length': 2593.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1478.96875, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 2593.0, 'rewards/rollout_reward_func/mean': 11.765625, 'rewards/rollout_reward_func/std': 5.004671573638916, 'reward': 11.765625, 'reward_std': 5.091794013977051, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.025358982384204865, 'sampling/sampling_logp_difference/max': 1.9657809734344482, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9139682054519653, 'sampling/importance_sampling_ratio/max': 2.241368293762207, 'kl': 0.9383285436779261, 'entropy': 0.08463881607167423, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 22.36861506497371, 'epoch': 7.56}
+ 94%|█████████▍| 945/1000 [8:08:52<28:12, 30.78s/it] 95%|█████████▍| 946/1000 [8:09:23<27:52, 30.97s/it]                                                    {'loss': -0.0002, 'grad_norm': 0.0039267772808671, 'learning_rate': 1.8990308734739976e-07, 'num_tokens': 152873191.0, 'completions/mean_length': 2325.515625, 'completions/min_length': 1295.0, 'completions/max_length': 3528.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2325.515625, 'completions/min_terminated_length': 1295.0, 'completions/max_terminated_length': 3528.0, 'rewards/rollout_reward_func/mean': 12.081250190734863, 'rewards/rollout_reward_func/std': 5.517644882202148, 'reward': 12.081249237060547, 'reward_std': 5.392739295959473, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03347296267747879, 'sampling/sampling_logp_difference/max': 1.7420260906219482, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.850655734539032, 'sampling/importance_sampling_ratio/max': 2.8178491592407227, 'kl': 1.328801590949297, 'entropy': 0.12791500054299831, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.124552605004283, 'epoch': 7.57}
+ 95%|█████████▍| 946/1000 [8:09:23<27:52, 30.97s/it] 95%|█████████▍| 947/1000 [8:09:53<26:59, 30.56s/it]                                                    {'loss': -0.0009, 'grad_norm': 0.005163542460650206, 'learning_rate': 1.8307705190383772e-07, 'num_tokens': 153033280.0, 'completions/mean_length': 1952.390625, 'completions/min_length': 1184.0, 'completions/max_length': 3340.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1952.390625, 'completions/min_terminated_length': 1184.0, 'completions/max_terminated_length': 3340.0, 'rewards/rollout_reward_func/mean': 13.2734375, 'rewards/rollout_reward_func/std': 4.84434700012207, 'reward': 13.2734375, 'reward_std': 4.97099494934082, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03453826531767845, 'sampling/sampling_logp_difference/max': 1.8328547477722168, 'sampling/importance_sampling_ratio/min': 0.03900403156876564, 'sampling/importance_sampling_ratio/mean': 0.9117770195007324, 'sampling/importance_sampling_ratio/max': 2.695896625518799, 'kl': 1.0632810480892658, 'entropy': 0.10772504890337586, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.460145046003163, 'epoch': 7.58}
+ 95%|█████████▍| 947/1000 [8:09:53<26:59, 30.56s/it] 95%|█████████▍| 948/1000 [8:10:25<27:02, 31.20s/it]                                                    {'loss': 0.0004, 'grad_norm': 0.004346269182860851, 'learning_rate': 1.7637504773761887e-07, 'num_tokens': 153228877.0, 'completions/mean_length': 2491.203125, 'completions/min_length': 1279.0, 'completions/max_length': 3627.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2491.203125, 'completions/min_terminated_length': 1279.0, 'completions/max_terminated_length': 3627.0, 'rewards/rollout_reward_func/mean': 13.182812690734863, 'rewards/rollout_reward_func/std': 5.035353183746338, 'reward': 13.182812690734863, 'reward_std': 4.861000061035156, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03513836860656738, 'sampling/sampling_logp_difference/max': 1.694401502609253, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8780317902565002, 'sampling/importance_sampling_ratio/max': 2.9867584705352783, 'kl': 1.2939290888607502, 'entropy': 0.11884816270321608, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.337867975991685, 'epoch': 7.58}
+ 95%|█████████▍| 948/1000 [8:10:25<27:02, 31.20s/it] 95%|█████████▍| 949/1000 [8:10:56<26:14, 30.88s/it]                                                    {'loss': -0.0007, 'grad_norm': 0.00465648015961051, 'learning_rate': 1.697971423378533e-07, 'num_tokens': 153380952.0, 'completions/mean_length': 1830.421875, 'completions/min_length': 849.0, 'completions/max_length': 3264.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1830.421875, 'completions/min_terminated_length': 849.0, 'completions/max_terminated_length': 3264.0, 'rewards/rollout_reward_func/mean': 11.082812309265137, 'rewards/rollout_reward_func/std': 5.2242889404296875, 'reward': 11.082813262939453, 'reward_std': 5.170262813568115, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.032326169312000275, 'sampling/sampling_logp_difference/max': 2.211428642272949, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8468806743621826, 'sampling/importance_sampling_ratio/max': 2.54768443107605, 'kl': 1.1566771492362022, 'entropy': 0.10336879221722484, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.880465655005537, 'epoch': 7.59}
+ 95%|█████████▍| 949/1000 [8:10:56<26:14, 30.88s/it] 95%|█████████▌| 950/1000 [8:11:20<24:10, 29.00s/it]                                                    {'loss': -0.0012, 'grad_norm': 0.004026010166853666, 'learning_rate': 1.633434019439717e-07, 'num_tokens': 153530890.0, 'completions/mean_length': 1797.78125, 'completions/min_length': 1201.0, 'completions/max_length': 2700.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1797.78125, 'completions/min_terminated_length': 1201.0, 'completions/max_terminated_length': 2700.0, 'rewards/rollout_reward_func/mean': 10.285938262939453, 'rewards/rollout_reward_func/std': 5.182077407836914, 'reward': 10.285937309265137, 'reward_std': 4.846547603607178, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.026533348485827446, 'sampling/sampling_logp_difference/max': 1.7922419309616089, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8755700588226318, 'sampling/importance_sampling_ratio/max': 2.190607786178589, 'kl': 1.1139063127338886, 'entropy': 0.09479139279574156, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 23.5896613640507, 'epoch': 7.6}
+ 95%|█████████▌| 950/1000 [8:11:20<24:10, 29.00s/it] 95%|█████████▌| 951/1000 [8:11:53<24:41, 30.24s/it]                                                    {'loss': 0.0009, 'grad_norm': 0.004747441969811916, 'learning_rate': 1.570138915450714e-07, 'num_tokens': 153703861.0, 'completions/mean_length': 2149.296875, 'completions/min_length': 853.0, 'completions/max_length': 3702.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2149.296875, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3702.0, 'rewards/rollout_reward_func/mean': 11.151561737060547, 'rewards/rollout_reward_func/std': 5.6215009689331055, 'reward': 11.151562690734863, 'reward_std': 5.558869361877441, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.0349312424659729, 'sampling/sampling_logp_difference/max': 1.907701849937439, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9407573938369751, 'sampling/importance_sampling_ratio/max': 2.2544338703155518, 'kl': 1.0145770832896233, 'entropy': 0.11117405816912651, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.702181503002066, 'epoch': 7.61}
+ 95%|█████████▌| 951/1000 [8:11:53<24:41, 30.24s/it] 95%|█████████▌| 952/1000 [8:12:23<23:56, 29.93s/it]                                                    {'loss': -0.0008, 'grad_norm': 0.0038370320107787848, 'learning_rate': 1.508086748792492e-07, 'num_tokens': 153855308.0, 'completions/mean_length': 1820.984375, 'completions/min_length': 783.0, 'completions/max_length': 3353.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1820.984375, 'completions/min_terminated_length': 783.0, 'completions/max_terminated_length': 3353.0, 'rewards/rollout_reward_func/mean': 10.592187881469727, 'rewards/rollout_reward_func/std': 5.310047626495361, 'reward': 10.59218692779541, 'reward_std': 5.174531936645508, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.028847897425293922, 'sampling/sampling_logp_difference/max': 1.706491470336914, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8877667188644409, 'sampling/importance_sampling_ratio/max': 2.1854140758514404, 'kl': 1.0329079627990723, 'entropy': 0.10041050612926483, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.150697881006636, 'epoch': 7.62}
+ 95%|█████████▌| 952/1000 [8:12:23<23:56, 29.93s/it] 95%|█████████▌| 953/1000 [8:12:51<23:11, 29.61s/it]                                                    {'loss': 0.0001, 'grad_norm': 0.006132942624390125, 'learning_rate': 1.4472781443296974e-07, 'num_tokens': 153987108.0, 'completions/mean_length': 1522.875, 'completions/min_length': 850.0, 'completions/max_length': 3306.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1522.875, 'completions/min_terminated_length': 850.0, 'completions/max_terminated_length': 3306.0, 'rewards/rollout_reward_func/mean': 10.850000381469727, 'rewards/rollout_reward_func/std': 5.20155668258667, 'reward': 10.850000381469727, 'reward_std': 5.046695232391357, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.020666198804974556, 'sampling/sampling_logp_difference/max': 1.1671831607818604, 'sampling/importance_sampling_ratio/min': 0.17515872418880463, 'sampling/importance_sampling_ratio/mean': 0.9974603652954102, 'sampling/importance_sampling_ratio/max': 2.316391944885254, 'kl': 0.8392801489681005, 'entropy': 0.0892523042857647, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 27.593611725023948, 'epoch': 7.62}
+ 95%|█████████▌| 953/1000 [8:12:51<23:11, 29.61s/it] 95%|█████████▌| 954/1000 [8:13:24<23:17, 30.38s/it]                                                    {'loss': 0.0004, 'grad_norm': 0.006111916154623032, 'learning_rate': 1.3877137144042983e-07, 'num_tokens': 154164585.0, 'completions/mean_length': 2217.703125, 'completions/min_length': 780.0, 'completions/max_length': 3540.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2217.703125, 'completions/min_terminated_length': 780.0, 'completions/max_terminated_length': 3540.0, 'rewards/rollout_reward_func/mean': 12.48593807220459, 'rewards/rollout_reward_func/std': 5.394761562347412, 'reward': 12.485937118530273, 'reward_std': 5.362214088439941, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.030900515615940094, 'sampling/sampling_logp_difference/max': 2.273733139038086, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8427318334579468, 'sampling/importance_sampling_ratio/max': 2.139770984649658, 'kl': 1.8123429864645004, 'entropy': 0.11463595042005181, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.865797251055483, 'epoch': 7.63}
+ 95%|█████████▌| 954/1000 [8:13:24<23:17, 30.38s/it] 96%|█████████▌| 955/1000 [8:13:54<22:51, 30.47s/it]                                                    {'loss': -0.0005, 'grad_norm': 0.005077024456113577, 'learning_rate': 1.329394058829439e-07, 'num_tokens': 154320592.0, 'completions/mean_length': 1892.234375, 'completions/min_length': 863.0, 'completions/max_length': 3587.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1892.234375, 'completions/min_terminated_length': 863.0, 'completions/max_terminated_length': 3587.0, 'rewards/rollout_reward_func/mean': 10.896875381469727, 'rewards/rollout_reward_func/std': 5.166988372802734, 'reward': 10.896875381469727, 'reward_std': 5.235565185546875, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03627650439739227, 'sampling/sampling_logp_difference/max': 1.7401552200317383, 'sampling/importance_sampling_ratio/min': 0.00442957878112793, 'sampling/importance_sampling_ratio/mean': 0.8224719166755676, 'sampling/importance_sampling_ratio/max': 2.1131651401519775, 'kl': 1.4140808917582035, 'entropy': 0.10695507563650608, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.493487764018937, 'epoch': 7.64}
+ 96%|█████████▌| 955/1000 [8:13:54<22:51, 30.47s/it] 96%|█████████▌| 956/1000 [8:14:19<21:07, 28.81s/it]                                                    {'loss': 0.0002, 'grad_norm': 0.0055511645041406155, 'learning_rate': 1.2723197648834144e-07, 'num_tokens': 154455951.0, 'completions/mean_length': 1576.859375, 'completions/min_length': 852.0, 'completions/max_length': 2894.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1576.859375, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 2894.0, 'rewards/rollout_reward_func/mean': 10.739063262939453, 'rewards/rollout_reward_func/std': 5.203924655914307, 'reward': 10.739062309265137, 'reward_std': 5.10258674621582, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.031023269519209862, 'sampling/sampling_logp_difference/max': 2.609907865524292, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9737169742584229, 'sampling/importance_sampling_ratio/max': 2.240574598312378, 'kl': 1.1888869982212782, 'entropy': 0.09008159511722624, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 23.896283620983013, 'epoch': 7.65}
+ 96%|█████████▌| 956/1000 [8:14:19<21:07, 28.81s/it] 96%|█████████▌| 957/1000 [8:14:43<19:36, 27.36s/it]                                                    {'loss': -0.0014, 'grad_norm': 0.0053208670578897, 'learning_rate': 1.2164914073037048e-07, 'num_tokens': 154591479.0, 'completions/mean_length': 1579.5, 'completions/min_length': 850.0, 'completions/max_length': 2714.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1579.5, 'completions/min_terminated_length': 850.0, 'completions/max_terminated_length': 2714.0, 'rewards/rollout_reward_func/mean': 11.5234375, 'rewards/rollout_reward_func/std': 4.887552738189697, 'reward': 11.5234375, 'reward_std': 4.983043193817139, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.031744010746479034, 'sampling/sampling_logp_difference/max': 1.517866611480713, 'sampling/importance_sampling_ratio/min': 0.15180765092372894, 'sampling/importance_sampling_ratio/mean': 0.937241792678833, 'sampling/importance_sampling_ratio/max': 2.3221349716186523, 'kl': 0.9891487583518028, 'entropy': 0.09668066399171948, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 22.955317119005485, 'epoch': 7.66}
+ 96%|█████████▌| 957/1000 [8:14:43<19:36, 27.36s/it] 96%|█████████▌| 958/1000 [8:15:20<21:04, 30.11s/it]                                                    {'loss': 0.0002, 'grad_norm': 0.0042565613985061646, 'learning_rate': 1.1619095482812842e-07, 'num_tokens': 154771206.0, 'completions/mean_length': 2251.234375, 'completions/min_length': 1282.0, 'completions/max_length': 3951.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2251.234375, 'completions/min_terminated_length': 1282.0, 'completions/max_terminated_length': 3951.0, 'rewards/rollout_reward_func/mean': 12.485937118530273, 'rewards/rollout_reward_func/std': 5.052168369293213, 'reward': 12.48593807220459, 'reward_std': 5.100605487823486, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.035030752420425415, 'sampling/sampling_logp_difference/max': 1.7068569660186768, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8659021854400635, 'sampling/importance_sampling_ratio/max': 2.6313669681549072, 'kl': 1.110022697597742, 'entropy': 0.11905753938481212, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 35.00597408499743, 'epoch': 7.66}
+ 96%|█████████▌| 958/1000 [8:15:20<21:04, 30.11s/it] 96%|█████████▌| 959/1000 [8:15:53<21:19, 31.21s/it]                                                    {'loss': 0.0003, 'grad_norm': 0.004526403732597828, 'learning_rate': 1.1085747374548622e-07, 'num_tokens': 154969254.0, 'completions/mean_length': 2529.5, 'completions/min_length': 1271.0, 'completions/max_length': 3681.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2529.5, 'completions/min_terminated_length': 1271.0, 'completions/max_terminated_length': 3681.0, 'rewards/rollout_reward_func/mean': 12.353124618530273, 'rewards/rollout_reward_func/std': 5.1656060218811035, 'reward': 12.35312557220459, 'reward_std': 5.277215480804443, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.0374007448554039, 'sampling/sampling_logp_difference/max': 1.6117019653320312, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8691799640655518, 'sampling/importance_sampling_ratio/max': 2.9853429794311523, 'kl': 1.1856340616941452, 'entropy': 0.13179784826934338, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.474067676012055, 'epoch': 7.67}
+ 96%|█████████▌| 959/1000 [8:15:53<21:19, 31.21s/it] 96%|█████████▌| 960/1000 [8:16:23<20:31, 30.79s/it]                                                    {'loss': -0.0016, 'grad_norm': 0.004833793733268976, 'learning_rate': 1.0564875119053602e-07, 'num_tokens': 155114547.0, 'completions/mean_length': 1728.078125, 'completions/min_length': 852.0, 'completions/max_length': 3332.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1728.078125, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3332.0, 'rewards/rollout_reward_func/mean': 10.895312309265137, 'rewards/rollout_reward_func/std': 5.255878925323486, 'reward': 10.895312309265137, 'reward_std': 5.1679158210754395, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.030487094074487686, 'sampling/sampling_logp_difference/max': 2.4042367935180664, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.893775463104248, 'sampling/importance_sampling_ratio/max': 2.2520925998687744, 'kl': 1.3698068223893642, 'entropy': 0.09985173121094704, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.76997519102588, 'epoch': 7.68}
+ 96%|█████████▌| 960/1000 [8:16:23<20:31, 30.79s/it] 96%|█████████▌| 961/1000 [8:17:03<21:42, 33.38s/it]                                                    {'loss': 0.0018, 'grad_norm': 0.004867235664278269, 'learning_rate': 1.0056483961505824e-07, 'num_tokens': 155274463.0, 'completions/mean_length': 1950.5625, 'completions/min_length': 782.0, 'completions/max_length': 4359.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1950.5625, 'completions/min_terminated_length': 782.0, 'completions/max_terminated_length': 4359.0, 'rewards/rollout_reward_func/mean': 11.428125381469727, 'rewards/rollout_reward_func/std': 5.454267978668213, 'reward': 11.428125381469727, 'reward_std': 5.187352657318115, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.032053448259830475, 'sampling/sampling_logp_difference/max': 1.8792896270751953, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8527874946594238, 'sampling/importance_sampling_ratio/max': 2.1778664588928223, 'kl': 1.0777944661676884, 'entropy': 0.11422294192016125, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 37.0177828730084, 'epoch': 7.69}
+ 96%|█████████▌| 961/1000 [8:17:03<21:42, 33.38s/it] 96%|█████████▌| 962/1000 [8:17:37<21:18, 33.66s/it]                                                    {'loss': 0.0012, 'grad_norm': 0.005445139482617378, 'learning_rate': 9.56057902139873e-08, 'num_tokens': 155434098.0, 'completions/mean_length': 1946.546875, 'completions/min_length': 854.0, 'completions/max_length': 3760.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1946.546875, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 3760.0, 'rewards/rollout_reward_func/mean': 11.432812690734863, 'rewards/rollout_reward_func/std': 5.501805305480957, 'reward': 11.432812690734863, 'reward_std': 5.474978446960449, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03392158821225166, 'sampling/sampling_logp_difference/max': 2.4086079597473145, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8635982275009155, 'sampling/importance_sampling_ratio/max': 2.2413628101348877, 'kl': 0.9611680395901203, 'entropy': 0.1166400327347219, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.852561607956886, 'epoch': 7.7}
+ 96%|█████████▌| 962/1000 [8:17:37<21:18, 33.66s/it] 96%|█████████▋| 963/1000 [8:18:08<20:13, 32.81s/it]                                                    {'loss': 0.0018, 'grad_norm': 0.00488618528470397, 'learning_rate': 9.077165292489392e-08, 'num_tokens': 155612412.0, 'completions/mean_length': 2228.78125, 'completions/min_length': 853.0, 'completions/max_length': 3417.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2228.78125, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3417.0, 'rewards/rollout_reward_func/mean': 12.02968692779541, 'rewards/rollout_reward_func/std': 5.300993919372559, 'reward': 12.029687881469727, 'reward_std': 5.249914169311523, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.0330948531627655, 'sampling/sampling_logp_difference/max': 2.151278018951416, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9812362194061279, 'sampling/importance_sampling_ratio/max': 2.707282304763794, 'kl': 1.2635319121181965, 'entropy': 0.10797633836045861, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.540249917001347, 'epoch': 7.7}
+ 96%|█████████▋| 963/1000 [8:18:08<20:13, 32.81s/it] 96%|█████████▋| 964/1000 [8:18:42<19:52, 33.14s/it]                                                    {'loss': 0.0005, 'grad_norm': 0.0054735541343688965, 'learning_rate': 8.606247642748699e-08, 'num_tokens': 155802936.0, 'completions/mean_length': 2415.9375, 'completions/min_length': 1170.0, 'completions/max_length': 3717.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2415.9375, 'completions/min_terminated_length': 1170.0, 'completions/max_terminated_length': 3717.0, 'rewards/rollout_reward_func/mean': 13.703125, 'rewards/rollout_reward_func/std': 5.236622333526611, 'reward': 13.703125, 'reward_std': 5.053627014160156, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03783225268125534, 'sampling/sampling_logp_difference/max': 1.9604517221450806, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9175792932510376, 'sampling/importance_sampling_ratio/max': 2.9584531784057617, 'kl': 1.1663736328482628, 'entropy': 0.1223536217585206, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.52908813901013, 'epoch': 7.71}
+ 96%|█████████▋| 964/1000 [8:18:42<19:52, 33.14s/it] 96%|█████████▋| 965/1000 [8:19:20<20:18, 34.82s/it]                                                    {'loss': 0.0011, 'grad_norm': 0.004135697614401579, 'learning_rate': 8.147830814312223e-08, 'num_tokens': 155983391.0, 'completions/mean_length': 2262.234375, 'completions/min_length': 852.0, 'completions/max_length': 4313.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2262.234375, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 4313.0, 'rewards/rollout_reward_func/mean': 10.7734375, 'rewards/rollout_reward_func/std': 5.2339019775390625, 'reward': 10.7734375, 'reward_std': 5.35723876953125, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.032691024243831635, 'sampling/sampling_logp_difference/max': 2.3996574878692627, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9293551445007324, 'sampling/importance_sampling_ratio/max': 2.6422975063323975, 'kl': 1.0733801499009132, 'entropy': 0.10895857168361545, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 37.28940514104033, 'epoch': 7.72}
+ 96%|█████████▋| 965/1000 [8:19:21<20:18, 34.82s/it] 97%|█████████▋| 966/1000 [8:19:50<18:52, 33.31s/it]                                                    {'loss': 0.0002, 'grad_norm': 0.004970244597643614, 'learning_rate': 7.701919423432347e-08, 'num_tokens': 156124684.0, 'completions/mean_length': 1667.953125, 'completions/min_length': 853.0, 'completions/max_length': 3385.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1667.953125, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3385.0, 'rewards/rollout_reward_func/mean': 11.246874809265137, 'rewards/rollout_reward_func/std': 4.8767008781433105, 'reward': 11.246874809265137, 'reward_std': 5.01982307434082, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.028203323483467102, 'sampling/sampling_logp_difference/max': 2.0102572441101074, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9195061922073364, 'sampling/importance_sampling_ratio/max': 2.020336627960205, 'kl': 0.9315460249781609, 'entropy': 0.09975011856295168, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.537321937968954, 'epoch': 7.73}
+ 97%|█████████▋| 966/1000 [8:19:50<18:52, 33.31s/it] 97%|█████████▋| 967/1000 [8:20:22<18:05, 32.89s/it]                                                    {'loss': -0.0018, 'grad_norm': 0.007613011635839939, 'learning_rate': 7.268517960431765e-08, 'num_tokens': 156316201.0, 'completions/mean_length': 2429.078125, 'completions/min_length': 854.0, 'completions/max_length': 3577.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2429.078125, 'completions/min_terminated_length': 854.0, 'completions/max_terminated_length': 3577.0, 'rewards/rollout_reward_func/mean': 12.1328125, 'rewards/rollout_reward_func/std': 5.481167316436768, 'reward': 12.1328125, 'reward_std': 5.135492324829102, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03692493587732315, 'sampling/sampling_logp_difference/max': 2.092164993286133, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8353909254074097, 'sampling/importance_sampling_ratio/max': 2.7687904834747314, 'kl': 1.0257406048476696, 'entropy': 0.12245358061045408, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.62746693500958, 'epoch': 7.74}
+ 97%|█████████▋| 967/1000 [8:20:22<18:05, 32.89s/it] 97%|█████████▋| 968/1000 [8:20:55<17:30, 32.84s/it]                                                    {'loss': -0.0003, 'grad_norm': 0.004413694143295288, 'learning_rate': 6.847630789658388e-08, 'num_tokens': 156482721.0, 'completions/mean_length': 2050.5, 'completions/min_length': 940.0, 'completions/max_length': 3661.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2050.5, 'completions/min_terminated_length': 940.0, 'completions/max_terminated_length': 3661.0, 'rewards/rollout_reward_func/mean': 12.817187309265137, 'rewards/rollout_reward_func/std': 5.072507858276367, 'reward': 12.817187309265137, 'reward_std': 4.6748247146606445, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.02967172861099243, 'sampling/sampling_logp_difference/max': 2.0754947662353516, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9082827568054199, 'sampling/importance_sampling_ratio/max': 2.4726312160491943, 'kl': 1.7165741622447968, 'entropy': 0.10781283909454942, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.491543355063186, 'epoch': 7.74}
+ 97%|█████████▋| 968/1000 [8:20:55<17:30, 32.84s/it] 97%|█████████▋| 969/1000 [8:21:26<16:42, 32.33s/it]                                                    {'loss': 0.0023, 'grad_norm': 0.007887190207839012, 'learning_rate': 6.439262149441349e-08, 'num_tokens': 156629766.0, 'completions/mean_length': 1755.078125, 'completions/min_length': 853.0, 'completions/max_length': 3556.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1755.078125, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 3556.0, 'rewards/rollout_reward_func/mean': 11.854687690734863, 'rewards/rollout_reward_func/std': 4.969683647155762, 'reward': 11.854687690734863, 'reward_std': 4.242541313171387, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03579676151275635, 'sampling/sampling_logp_difference/max': 2.0095057487487793, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7888277769088745, 'sampling/importance_sampling_ratio/max': 2.5789620876312256, 'kl': 3.2196469344198704, 'entropy': 0.10351698938757181, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.793522873995244, 'epoch': 7.75}
+ 97%|█████████▋| 969/1000 [8:21:26<16:42, 32.33s/it] 97%|█████████▋| 970/1000 [8:22:03<16:52, 33.74s/it]                                                    {'loss': -0.0008, 'grad_norm': 0.0037403921596705914, 'learning_rate': 6.043416152048398e-08, 'num_tokens': 156833358.0, 'completions/mean_length': 2614.125, 'completions/min_length': 1181.0, 'completions/max_length': 4040.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2614.125, 'completions/min_terminated_length': 1181.0, 'completions/max_terminated_length': 4040.0, 'rewards/rollout_reward_func/mean': 13.029687881469727, 'rewards/rollout_reward_func/std': 5.384212493896484, 'reward': 13.029687881469727, 'reward_std': 5.457706928253174, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03849940374493599, 'sampling/sampling_logp_difference/max': 2.5279293060302734, 'sampling/importance_sampling_ratio/min': 0.06920536607503891, 'sampling/importance_sampling_ratio/mean': 0.8061378598213196, 'sampling/importance_sampling_ratio/max': 1.9941551685333252, 'kl': 1.2020983919501305, 'entropy': 0.1288830516859889, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 35.504805364020285, 'epoch': 7.76}
+ 97%|█████████▋| 970/1000 [8:22:03<16:52, 33.74s/it] 97%|█████████▋| 971/1000 [8:22:35<16:00, 33.12s/it]                                                    {'loss': 0.003, 'grad_norm': 0.004990929272025824, 'learning_rate': 5.6600967836442644e-08, 'num_tokens': 157029441.0, 'completions/mean_length': 2498.796875, 'completions/min_length': 1287.0, 'completions/max_length': 3476.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2498.796875, 'completions/min_terminated_length': 1287.0, 'completions/max_terminated_length': 3476.0, 'rewards/rollout_reward_func/mean': 14.168749809265137, 'rewards/rollout_reward_func/std': 4.83140754699707, 'reward': 14.168749809265137, 'reward_std': 4.379410743713379, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.0334320142865181, 'sampling/sampling_logp_difference/max': 1.8731253147125244, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8541364669799805, 'sampling/importance_sampling_ratio/max': 2.4547581672668457, 'kl': 0.9625496007502079, 'entropy': 0.12347896816208959, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.35908721796295, 'epoch': 7.77}
+ 97%|█████████▋| 971/1000 [8:22:35<16:00, 33.12s/it] 97%|█████████▋| 972/1000 [8:22:55<13:40, 29.30s/it]                                                    {'loss': -0.0006, 'grad_norm': 0.005121580325067043, 'learning_rate': 5.289307904250696e-08, 'num_tokens': 157168058.0, 'completions/mean_length': 1626.140625, 'completions/min_length': 850.0, 'completions/max_length': 2200.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1626.140625, 'completions/min_terminated_length': 850.0, 'completions/max_terminated_length': 2200.0, 'rewards/rollout_reward_func/mean': 11.910938262939453, 'rewards/rollout_reward_func/std': 5.012939453125, 'reward': 11.910938262939453, 'reward_std': 5.039524555206299, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.030517127364873886, 'sampling/sampling_logp_difference/max': 1.8571858406066895, 'sampling/importance_sampling_ratio/min': 0.056357886642217636, 'sampling/importance_sampling_ratio/mean': 0.9125929474830627, 'sampling/importance_sampling_ratio/max': 2.974552631378174, 'kl': 0.9624354541301727, 'entropy': 0.09260496217757463, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 19.517711224994855, 'epoch': 7.78}
+ 97%|█████████▋| 972/1000 [8:22:55<13:40, 29.30s/it] 97%|█████████▋| 973/1000 [8:23:28<13:36, 30.23s/it]                                                    {'loss': 0.0009, 'grad_norm': 0.0038188647013157606, 'learning_rate': 4.9310532477077345e-08, 'num_tokens': 157337035.0, 'completions/mean_length': 2088.515625, 'completions/min_length': 782.0, 'completions/max_length': 3622.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2088.515625, 'completions/min_terminated_length': 782.0, 'completions/max_terminated_length': 3622.0, 'rewards/rollout_reward_func/mean': 10.959375381469727, 'rewards/rollout_reward_func/std': 5.427698612213135, 'reward': 10.959375381469727, 'reward_std': 5.534736633300781, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03673688694834709, 'sampling/sampling_logp_difference/max': 1.793426275253296, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8931889533996582, 'sampling/importance_sampling_ratio/max': 2.5335116386413574, 'kl': 0.9956047683954239, 'entropy': 0.12188378954306245, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 31.040843816954293, 'epoch': 7.78}
+ 97%|█████████▋| 973/1000 [8:23:28<13:36, 30.23s/it] 97%|█████████▋| 974/1000 [8:23:58<13:11, 30.43s/it]                                                    {'loss': -0.0005, 'grad_norm': 0.005734524689614773, 'learning_rate': 4.585336421635833e-08, 'num_tokens': 157503498.0, 'completions/mean_length': 2049.609375, 'completions/min_length': 782.0, 'completions/max_length': 3404.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2049.609375, 'completions/min_terminated_length': 782.0, 'completions/max_terminated_length': 3404.0, 'rewards/rollout_reward_func/mean': 11.314062118530273, 'rewards/rollout_reward_func/std': 5.618079662322998, 'reward': 11.314062118530273, 'reward_std': 5.266351699829102, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03755500912666321, 'sampling/sampling_logp_difference/max': 2.0868544578552246, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8050128221511841, 'sampling/importance_sampling_ratio/max': 2.252815008163452, 'kl': 1.9123765602707863, 'entropy': 0.10915941861458123, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.627914014010457, 'epoch': 7.79}
+ 97%|█████████▋| 974/1000 [8:23:58<13:11, 30.43s/it] 98%|█████████▊| 975/1000 [8:24:33<13:12, 31.70s/it]                                                    {'loss': 0.001, 'grad_norm': 0.0061103105545043945, 'learning_rate': 4.2521609073992166e-08, 'num_tokens': 157671093.0, 'completions/mean_length': 2066.921875, 'completions/min_length': 851.0, 'completions/max_length': 3825.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2066.921875, 'completions/min_terminated_length': 851.0, 'completions/max_terminated_length': 3825.0, 'rewards/rollout_reward_func/mean': 11.0859375, 'rewards/rollout_reward_func/std': 5.267536640167236, 'reward': 11.0859375, 'reward_std': 5.107577323913574, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.0297926664352417, 'sampling/sampling_logp_difference/max': 2.3692870140075684, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8764493465423584, 'sampling/importance_sampling_ratio/max': 2.8996684551239014, 'kl': 1.0263553485274315, 'entropy': 0.10618077451363206, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 33.2058304289676, 'epoch': 7.8}
+ 98%|█████████▊| 975/1000 [8:24:33<13:12, 31.70s/it] 98%|█████████▊| 976/1000 [8:25:04<12:34, 31.42s/it]                                                    {'loss': 0.0009, 'grad_norm': 0.004669073037803173, 'learning_rate': 3.9315300600721584e-08, 'num_tokens': 157821915.0, 'completions/mean_length': 1812.46875, 'completions/min_length': 852.0, 'completions/max_length': 3466.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1812.46875, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3466.0, 'rewards/rollout_reward_func/mean': 11.424999237060547, 'rewards/rollout_reward_func/std': 5.107728481292725, 'reward': 11.424999237060547, 'reward_std': 5.207411289215088, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.028720732778310776, 'sampling/sampling_logp_difference/max': 1.7056891918182373, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9816949963569641, 'sampling/importance_sampling_ratio/max': 2.1472482681274414, 'kl': 0.9484836794435978, 'entropy': 0.10225225100293756, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.459086723945802, 'epoch': 7.81}
+ 98%|█████████▊| 976/1000 [8:25:04<12:34, 31.42s/it] 98%|█████████▊| 977/1000 [8:25:35<12:01, 31.37s/it]                                                    {'loss': -0.0004, 'grad_norm': 0.0054066376760602, 'learning_rate': 3.6234471084031776e-08, 'num_tokens': 157994436.0, 'completions/mean_length': 2142.265625, 'completions/min_length': 850.0, 'completions/max_length': 3451.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2142.265625, 'completions/min_terminated_length': 850.0, 'completions/max_terminated_length': 3451.0, 'rewards/rollout_reward_func/mean': 12.540624618530273, 'rewards/rollout_reward_func/std': 5.323524475097656, 'reward': 12.540624618530273, 'reward_std': 4.919069766998291, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.0362267792224884, 'sampling/sampling_logp_difference/max': 2.0606086254119873, 'sampling/importance_sampling_ratio/min': 0.07189252972602844, 'sampling/importance_sampling_ratio/mean': 0.863457441329956, 'sampling/importance_sampling_ratio/max': 2.7569174766540527, 'kl': 1.2949470914900303, 'entropy': 0.11170375254005194, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.95542575592117, 'epoch': 7.82}
+ 98%|█████████▊| 977/1000 [8:25:35<12:01, 31.37s/it] 98%|█████████▊| 978/1000 [8:26:07<11:30, 31.41s/it]                                                    {'loss': 0.0002, 'grad_norm': 0.004621398169547319, 'learning_rate': 3.3279151547846446e-08, 'num_tokens': 158173581.0, 'completions/mean_length': 2242.140625, 'completions/min_length': 1196.0, 'completions/max_length': 3534.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2242.140625, 'completions/min_terminated_length': 1196.0, 'completions/max_terminated_length': 3534.0, 'rewards/rollout_reward_func/mean': 12.368749618530273, 'rewards/rollout_reward_func/std': 5.187680244445801, 'reward': 12.368749618530273, 'reward_std': 5.438587665557861, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.029887758195400238, 'sampling/sampling_logp_difference/max': 1.5329434871673584, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8499263525009155, 'sampling/importance_sampling_ratio/max': 2.500122308731079, 'kl': 0.9812344461679459, 'entropy': 0.11831336747854948, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.313533019041643, 'epoch': 7.82}
+ 98%|█████████▊| 978/1000 [8:26:07<11:30, 31.41s/it] 98%|█████████▊| 979/1000 [8:26:40<11:12, 32.04s/it]                                                    {'loss': 0.0005, 'grad_norm': 0.005697330459952354, 'learning_rate': 3.044937175219753e-08, 'num_tokens': 158331556.0, 'completions/mean_length': 1920.609375, 'completions/min_length': 855.0, 'completions/max_length': 3721.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1920.609375, 'completions/min_terminated_length': 855.0, 'completions/max_terminated_length': 3721.0, 'rewards/rollout_reward_func/mean': 12.446874618530273, 'rewards/rollout_reward_func/std': 4.998189449310303, 'reward': 12.446874618530273, 'reward_std': 4.997007369995117, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.025473035871982574, 'sampling/sampling_logp_difference/max': 1.8386321067810059, 'sampling/importance_sampling_ratio/min': 0.07864856719970703, 'sampling/importance_sampling_ratio/mean': 0.9687772989273071, 'sampling/importance_sampling_ratio/max': 2.635230541229248, 'kl': 0.9694615788757801, 'entropy': 0.10014810552820563, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 32.29963714101177, 'epoch': 7.83}
+ 98%|█████████▊| 979/1000 [8:26:40<11:12, 32.04s/it] 98%|█████████▊| 980/1000 [8:27:12<10:38, 31.92s/it]                                                    {'loss': -0.0015, 'grad_norm': 0.00450771814212203, 'learning_rate': 2.774516019293655e-08, 'num_tokens': 158512358.0, 'completions/mean_length': 2268.03125, 'completions/min_length': 1279.0, 'completions/max_length': 3414.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2268.03125, 'completions/min_terminated_length': 1279.0, 'completions/max_terminated_length': 3414.0, 'rewards/rollout_reward_func/mean': 12.779687881469727, 'rewards/rollout_reward_func/std': 5.028275012969971, 'reward': 12.779687881469727, 'reward_std': 4.9589948654174805, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.036555662751197815, 'sampling/sampling_logp_difference/max': 1.9619983434677124, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7272536158561707, 'sampling/importance_sampling_ratio/max': 2.8816652297973633, 'kl': 1.0819238722324371, 'entropy': 0.12109265709295869, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.56965816898446, 'epoch': 7.84}
+ 98%|█████████▊| 980/1000 [8:27:12<10:38, 31.92s/it] 98%|█████████▊| 981/1000 [8:27:48<10:30, 33.21s/it]                                                    {'loss': 0.0001, 'grad_norm': 0.0074751051142811775, 'learning_rate': 2.516654410144592e-08, 'num_tokens': 158694893.0, 'completions/mean_length': 2294.734375, 'completions/min_length': 853.0, 'completions/max_length': 4035.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2294.734375, 'completions/min_terminated_length': 853.0, 'completions/max_terminated_length': 4035.0, 'rewards/rollout_reward_func/mean': 11.140625, 'rewards/rollout_reward_func/std': 5.695855617523193, 'reward': 11.140625, 'reward_std': 5.791019439697266, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.033596113324165344, 'sampling/sampling_logp_difference/max': 1.7389535903930664, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7460170984268188, 'sampling/importance_sampling_ratio/max': 2.123338460922241, 'kl': 4.5742459036409855, 'entropy': 0.1150362603366375, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 33.82063813896093, 'epoch': 7.85}
+ 98%|█████████▊| 981/1000 [8:27:48<10:30, 33.21s/it] 98%|█████████▊| 982/1000 [8:28:20<09:51, 32.85s/it]                                                    {'loss': -0.0, 'grad_norm': 0.005121050868183374, 'learning_rate': 2.271354944435866e-08, 'num_tokens': 158880363.0, 'completions/mean_length': 2338.59375, 'completions/min_length': 936.0, 'completions/max_length': 3627.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2338.59375, 'completions/min_terminated_length': 936.0, 'completions/max_terminated_length': 3627.0, 'rewards/rollout_reward_func/mean': 10.4921875, 'rewards/rollout_reward_func/std': 4.863250732421875, 'reward': 10.4921875, 'reward_std': 4.532409191131592, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.040171269327402115, 'sampling/sampling_logp_difference/max': 2.212268114089966, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7902728319168091, 'sampling/importance_sampling_ratio/max': 2.936307907104492, 'kl': 0.9116284847259521, 'entropy': 0.12336434773169458, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.651366707956186, 'epoch': 7.86}
+ 98%|█████████▊| 982/1000 [8:28:20<09:51, 32.85s/it] 98%|█████████▊| 983/1000 [8:28:51<09:09, 32.32s/it]                                                    {'loss': -0.0002, 'grad_norm': 0.005967738572508097, 'learning_rate': 2.03862009233044e-08, 'num_tokens': 159022066.0, 'completions/mean_length': 1673.609375, 'completions/min_length': 850.0, 'completions/max_length': 3554.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1673.609375, 'completions/min_terminated_length': 850.0, 'completions/max_terminated_length': 3554.0, 'rewards/rollout_reward_func/mean': 12.309375762939453, 'rewards/rollout_reward_func/std': 5.04933500289917, 'reward': 12.309374809265137, 'reward_std': 4.949278831481934, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03172631561756134, 'sampling/sampling_logp_difference/max': 2.0148653984069824, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9312912821769714, 'sampling/importance_sampling_ratio/max': 2.1186323165893555, 'kl': 0.8079012930393219, 'entropy': 0.10283294669352472, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.744932734014583, 'epoch': 7.86}
+ 98%|█████████▊| 983/1000 [8:28:51<09:09, 32.32s/it] 98%|█████████▊| 984/1000 [8:29:15<07:58, 29.93s/it]                                                    {'loss': 0.0004, 'grad_norm': 0.005418344400823116, 'learning_rate': 1.818452197465681e-08, 'num_tokens': 159140354.0, 'completions/mean_length': 1317.75, 'completions/min_length': 782.0, 'completions/max_length': 2884.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1317.75, 'completions/min_terminated_length': 782.0, 'completions/max_terminated_length': 2884.0, 'rewards/rollout_reward_func/mean': 11.170312881469727, 'rewards/rollout_reward_func/std': 5.246606826782227, 'reward': 11.170312881469727, 'reward_std': 5.479303359985352, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.02475309744477272, 'sampling/sampling_logp_difference/max': 1.9472308158874512, 'sampling/importance_sampling_ratio/min': 0.11831675469875336, 'sampling/importance_sampling_ratio/mean': 1.001744270324707, 'sampling/importance_sampling_ratio/max': 2.4184799194335938, 'kl': 1.0209574177861214, 'entropy': 0.07871924713253975, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 23.444790348017705, 'epoch': 7.87}
+ 98%|█████████▊| 984/1000 [8:29:15<07:58, 29.93s/it] 98%|█████████▊| 985/1000 [8:29:47<07:35, 30.38s/it]                                                    {'loss': -0.0004, 'grad_norm': 0.0036511272192001343, 'learning_rate': 1.6108534769300465e-08, 'num_tokens': 159305790.0, 'completions/mean_length': 2034.8125, 'completions/min_length': 852.0, 'completions/max_length': 3534.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2034.8125, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3534.0, 'rewards/rollout_reward_func/mean': 11.560937881469727, 'rewards/rollout_reward_func/std': 5.095831394195557, 'reward': 11.560937881469727, 'reward_std': 5.07429838180542, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.033142007887363434, 'sampling/sampling_logp_difference/max': 1.9565844535827637, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8609743714332581, 'sampling/importance_sampling_ratio/max': 1.9192014932632446, 'kl': 0.9111599829047918, 'entropy': 0.11552015459164977, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.09876281299512, 'epoch': 7.88}
+ 98%|█████████▊| 985/1000 [8:29:47<07:35, 30.38s/it] 99%|█████████▊| 986/1000 [8:30:19<07:10, 30.76s/it]                                                    {'loss': -0.0004, 'grad_norm': 0.0038114909548312426, 'learning_rate': 1.4158260212400465e-08, 'num_tokens': 159471929.0, 'completions/mean_length': 2044.546875, 'completions/min_length': 852.0, 'completions/max_length': 3627.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2044.546875, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 3627.0, 'rewards/rollout_reward_func/mean': 12.337499618530273, 'rewards/rollout_reward_func/std': 5.292717456817627, 'reward': 12.337499618530273, 'reward_std': 5.1593828201293945, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.030006133019924164, 'sampling/sampling_logp_difference/max': 2.013467788696289, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8540406823158264, 'sampling/importance_sampling_ratio/max': 2.3972742557525635, 'kl': 0.9470484182238579, 'entropy': 0.10671451315283775, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.461186187065323, 'epoch': 7.89}
+ 99%|█████████▊| 986/1000 [8:30:19<07:10, 30.76s/it] 99%|█████████▊| 987/1000 [8:30:44<06:17, 29.04s/it]                                                    {'loss': -0.0015, 'grad_norm': 0.004035070072859526, 'learning_rate': 1.2333717943201206e-08, 'num_tokens': 159621198.0, 'completions/mean_length': 1788.203125, 'completions/min_length': 852.0, 'completions/max_length': 2844.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1788.203125, 'completions/min_terminated_length': 852.0, 'completions/max_terminated_length': 2844.0, 'rewards/rollout_reward_func/mean': 11.334375381469727, 'rewards/rollout_reward_func/std': 5.313511848449707, 'reward': 11.334375381469727, 'reward_std': 5.422977447509766, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.029618460685014725, 'sampling/sampling_logp_difference/max': 1.724926233291626, 'sampling/importance_sampling_ratio/min': 0.07540678977966309, 'sampling/importance_sampling_ratio/mean': 0.8562024831771851, 'sampling/importance_sampling_ratio/max': 2.250169515609741, 'kl': 0.9275598600506783, 'entropy': 0.0977443978190422, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 23.985885430010967, 'epoch': 7.9}
+ 99%|█████████▊| 987/1000 [8:30:44<06:17, 29.04s/it] 99%|█████████▉| 988/1000 [8:31:15<05:56, 29.71s/it]                                                    {'loss': 0.0004, 'grad_norm': 0.0037053360138088465, 'learning_rate': 1.063492633482377e-08, 'num_tokens': 159812090.0, 'completions/mean_length': 2419.6875, 'completions/min_length': 1366.0, 'completions/max_length': 3394.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2419.6875, 'completions/min_terminated_length': 1366.0, 'completions/max_terminated_length': 3394.0, 'rewards/rollout_reward_func/mean': 13.003125190734863, 'rewards/rollout_reward_func/std': 5.559518814086914, 'reward': 13.003125190734863, 'reward_std': 5.154116153717041, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.036899060010910034, 'sampling/sampling_logp_difference/max': 2.4761829376220703, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7391880750656128, 'sampling/importance_sampling_ratio/max': 2.3717687129974365, 'kl': 1.2301556095480919, 'entropy': 0.12758977292105556, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.97819178798818, 'epoch': 7.9}
+ 99%|█████████▉| 988/1000 [8:31:15<05:56, 29.71s/it] 99%|█████████▉| 989/1000 [8:31:45<05:29, 29.96s/it]                                                    {'loss': 0.0003, 'grad_norm': 0.005691173020750284, 'learning_rate': 9.061902494079955e-09, 'num_tokens': 159965963.0, 'completions/mean_length': 1857.265625, 'completions/min_length': 1181.0, 'completions/max_length': 3489.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1857.265625, 'completions/min_terminated_length': 1181.0, 'completions/max_terminated_length': 3489.0, 'rewards/rollout_reward_func/mean': 12.428125381469727, 'rewards/rollout_reward_func/std': 5.458806037902832, 'reward': 12.428125381469727, 'reward_std': 5.337516784667969, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.031493086367845535, 'sampling/sampling_logp_difference/max': 2.115105152130127, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9183969497680664, 'sampling/importance_sampling_ratio/max': 2.5956099033355713, 'kl': 0.9584450498223305, 'entropy': 0.09910644264891744, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.253171896009007, 'epoch': 7.91}
+ 99%|█████████▉| 989/1000 [8:31:45<05:29, 29.96s/it] 99%|█████████▉| 990/1000 [8:32:21<05:17, 31.73s/it]                                                    {'loss': 0.0002, 'grad_norm': 0.005218378268182278, 'learning_rate': 7.614662261302974e-09, 'num_tokens': 160123261.0, 'completions/mean_length': 1910.40625, 'completions/min_length': 865.0, 'completions/max_length': 3984.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1910.40625, 'completions/min_terminated_length': 865.0, 'completions/max_terminated_length': 3984.0, 'rewards/rollout_reward_func/mean': 11.53125, 'rewards/rollout_reward_func/std': 5.30656623840332, 'reward': 11.53125, 'reward_std': 5.335314750671387, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.029455415904521942, 'sampling/sampling_logp_difference/max': 1.5011857748031616, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9208537340164185, 'sampling/importance_sampling_ratio/max': 2.600935459136963, 'kl': 1.5162865296006203, 'entropy': 0.1119548068381846, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 34.34473813700606, 'epoch': 7.92}
+ 99%|█████████▉| 990/1000 [8:32:21<05:17, 31.73s/it] 99%|█████████▉| 991/1000 [8:32:47<04:29, 29.94s/it]                                                    {'loss': -0.0002, 'grad_norm': 0.007297169417142868, 'learning_rate': 6.293220210186468e-09, 'num_tokens': 160258076.0, 'completions/mean_length': 1567.984375, 'completions/min_length': 781.0, 'completions/max_length': 2802.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1567.984375, 'completions/min_terminated_length': 781.0, 'completions/max_terminated_length': 2802.0, 'rewards/rollout_reward_func/mean': 12.214061737060547, 'rewards/rollout_reward_func/std': 5.683835983276367, 'reward': 12.21406364440918, 'reward_std': 5.208380222320557, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.02543671801686287, 'sampling/sampling_logp_difference/max': 1.5711039304733276, 'sampling/importance_sampling_ratio/min': 0.13619646430015564, 'sampling/importance_sampling_ratio/mean': 0.9364887475967407, 'sampling/importance_sampling_ratio/max': 2.6932532787323, 'kl': 1.2134099416434765, 'entropy': 0.08555919583886862, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 24.693269351992058, 'epoch': 7.93}
+ 99%|█████████▉| 991/1000 [8:32:47<04:29, 29.94s/it] 99%|█████████▉| 992/1000 [8:33:17<03:59, 29.91s/it]                                                    {'loss': -0.0015, 'grad_norm': 0.006336522288620472, 'learning_rate': 5.097589647634626e-09, 'num_tokens': 160418407.0, 'completions/mean_length': 1956.171875, 'completions/min_length': 1189.0, 'completions/max_length': 3262.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1956.171875, 'completions/min_terminated_length': 1189.0, 'completions/max_terminated_length': 3262.0, 'rewards/rollout_reward_func/mean': 12.587499618530273, 'rewards/rollout_reward_func/std': 5.256092548370361, 'reward': 12.587499618530273, 'reward_std': 5.219313621520996, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03039238415658474, 'sampling/sampling_logp_difference/max': 1.8906636238098145, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9689342975616455, 'sampling/importance_sampling_ratio/max': 2.777729034423828, 'kl': 0.9878621883690357, 'entropy': 0.11056440370157361, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 28.599161915975856, 'epoch': 7.94}
+ 99%|█████████▉| 992/1000 [8:33:17<03:59, 29.91s/it] 99%|█████████▉| 993/1000 [8:33:47<03:30, 30.08s/it]                                                    {'loss': -0.0002, 'grad_norm': 0.004335971549153328, 'learning_rate': 4.0277826136358994e-09, 'num_tokens': 160591086.0, 'completions/mean_length': 2143.109375, 'completions/min_length': 1194.0, 'completions/max_length': 3411.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2143.109375, 'completions/min_terminated_length': 1194.0, 'completions/max_terminated_length': 3411.0, 'rewards/rollout_reward_func/mean': 11.850000381469727, 'rewards/rollout_reward_func/std': 5.468466758728027, 'reward': 11.850000381469727, 'reward_std': 5.386589050292969, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03146181255578995, 'sampling/sampling_logp_difference/max': 1.3464632034301758, 'sampling/importance_sampling_ratio/min': 0.05602984502911568, 'sampling/importance_sampling_ratio/mean': 0.8401871919631958, 'sampling/importance_sampling_ratio/max': 2.887115478515625, 'kl': 1.1254010163247585, 'entropy': 0.11539720371365547, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.170218756975373, 'epoch': 7.94}
+ 99%|█████████▉| 993/1000 [8:33:47<03:30, 30.08s/it] 99%|█████████▉| 994/1000 [8:34:18<03:00, 30.14s/it]                                                    {'loss': -0.0006, 'grad_norm': 0.004792503081262112, 'learning_rate': 3.0838098811353246e-09, 'num_tokens': 160770212.0, 'completions/mean_length': 2241.84375, 'completions/min_length': 1184.0, 'completions/max_length': 3383.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2241.84375, 'completions/min_terminated_length': 1184.0, 'completions/max_terminated_length': 3383.0, 'rewards/rollout_reward_func/mean': 11.8828125, 'rewards/rollout_reward_func/std': 5.030874729156494, 'reward': 11.8828125, 'reward_std': 5.0801191329956055, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03296229615807533, 'sampling/sampling_logp_difference/max': 1.9364542961120605, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8790525794029236, 'sampling/importance_sampling_ratio/max': 2.8277063369750977, 'kl': 1.1519186832010746, 'entropy': 0.11680918466299772, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.023591720004333, 'epoch': 7.95}
+ 99%|█████████▉| 994/1000 [8:34:18<03:00, 30.14s/it]100%|█████████▉| 995/1000 [8:34:49<02:33, 30.61s/it]                                                    {'loss': -0.0, 'grad_norm': 0.005187422502785921, 'learning_rate': 2.2656809559276626e-09, 'num_tokens': 160930570.0, 'completions/mean_length': 1956.59375, 'completions/min_length': 1264.0, 'completions/max_length': 3536.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1956.59375, 'completions/min_terminated_length': 1264.0, 'completions/max_terminated_length': 3536.0, 'rewards/rollout_reward_func/mean': 12.1875, 'rewards/rollout_reward_func/std': 5.275565147399902, 'reward': 12.1875, 'reward_std': 5.081171989440918, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03184444084763527, 'sampling/sampling_logp_difference/max': 2.182697057723999, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.8764804601669312, 'sampling/importance_sampling_ratio/max': 2.933954954147339, 'kl': 1.102383516728878, 'entropy': 0.11114399088546634, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.37739079503808, 'epoch': 7.96}
+100%|█████████▉| 995/1000 [8:34:49<02:33, 30.61s/it]100%|█████████▉| 996/1000 [8:35:19<02:01, 30.47s/it]                                                    {'loss': -0.0005, 'grad_norm': 0.004939881153404713, 'learning_rate': 1.5734040765616465e-09, 'num_tokens': 161099891.0, 'completions/mean_length': 2092.265625, 'completions/min_length': 783.0, 'completions/max_length': 3386.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2092.265625, 'completions/min_terminated_length': 783.0, 'completions/max_terminated_length': 3386.0, 'rewards/rollout_reward_func/mean': 11.61093807220459, 'rewards/rollout_reward_func/std': 5.166839599609375, 'reward': 11.610937118530273, 'reward_std': 5.188292026519775, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03704958036541939, 'sampling/sampling_logp_difference/max': 2.3590729236602783, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9080788493156433, 'sampling/importance_sampling_ratio/max': 2.71909499168396, 'kl': 1.3736669793725014, 'entropy': 0.11480944231152534, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.07619279100618, 'epoch': 7.97}
+100%|█████████▉| 996/1000 [8:35:19<02:01, 30.47s/it]100%|█████████▉| 997/1000 [8:35:50<01:31, 30.49s/it]                                                    {'loss': 0.0008, 'grad_norm': 0.00556318461894989, 'learning_rate': 1.0069862142580989e-09, 'num_tokens': 161247562.0, 'completions/mean_length': 1764.859375, 'completions/min_length': 864.0, 'completions/max_length': 3530.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 1764.859375, 'completions/min_terminated_length': 864.0, 'completions/max_terminated_length': 3530.0, 'rewards/rollout_reward_func/mean': 11.1796875, 'rewards/rollout_reward_func/std': 5.357213973999023, 'reward': 11.1796875, 'reward_std': 4.732518196105957, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03792545199394226, 'sampling/sampling_logp_difference/max': 2.1235013008117676, 'sampling/importance_sampling_ratio/min': 0.01696711964905262, 'sampling/importance_sampling_ratio/mean': 0.8719496130943298, 'sampling/importance_sampling_ratio/max': 2.3120017051696777, 'kl': 1.2587907873094082, 'entropy': 0.11393395578488708, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 29.213315580040216, 'epoch': 7.98}
+100%|█████████▉| 997/1000 [8:35:50<01:31, 30.49s/it]100%|█████████▉| 998/1000 [8:36:22<01:01, 30.81s/it]                                                    {'loss': 0.0017, 'grad_norm': 0.0044624088332057, 'learning_rate': 5.664330728391565e-10, 'num_tokens': 161432462.0, 'completions/mean_length': 2329.6875, 'completions/min_length': 857.0, 'completions/max_length': 3517.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2329.6875, 'completions/min_terminated_length': 857.0, 'completions/max_terminated_length': 3517.0, 'rewards/rollout_reward_func/mean': 13.550000190734863, 'rewards/rollout_reward_func/std': 5.374809265136719, 'reward': 13.550000190734863, 'reward_std': 4.587048530578613, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.030428100377321243, 'sampling/sampling_logp_difference/max': 1.3042715787887573, 'sampling/importance_sampling_ratio/min': 0.03202413022518158, 'sampling/importance_sampling_ratio/mean': 0.9298012256622314, 'sampling/importance_sampling_ratio/max': 2.586503028869629, 'kl': 1.134982418268919, 'entropy': 0.11758545087650418, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.228404009976657, 'epoch': 7.98}
+100%|█████████▉| 998/1000 [8:36:22<01:01, 30.81s/it]100%|█████████▉| 999/1000 [8:36:49<00:29, 29.72s/it]                                                    {'loss': 0.0012, 'grad_norm': 0.005172100383788347, 'learning_rate': 2.517490886685958e-10, 'num_tokens': 161600135.0, 'completions/mean_length': 2066.890625, 'completions/min_length': 1120.0, 'completions/max_length': 3035.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2066.890625, 'completions/min_terminated_length': 1120.0, 'completions/max_terminated_length': 3035.0, 'rewards/rollout_reward_func/mean': 12.6953125, 'rewards/rollout_reward_func/std': 5.088250637054443, 'reward': 12.6953125, 'reward_std': 4.994716644287109, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.033025842159986496, 'sampling/sampling_logp_difference/max': 1.3687567710876465, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.9547709226608276, 'sampling/importance_sampling_ratio/max': 1.9827088117599487, 'kl': 1.0748611204326153, 'entropy': 0.11370130581781268, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 26.01489857803972, 'epoch': 7.99}
+100%|█████████▉| 999/1000 [8:36:49<00:29, 29.72s/it]100%|██████████| 1000/1000 [8:37:20<00:00, 30.25s/it]                                                     {'loss': -0.0004, 'grad_norm': 0.003272515255957842, 'learning_rate': 6.293743061158708e-11, 'num_tokens': 161765522.0, 'completions/mean_length': 2032.796875, 'completions/min_length': 849.0, 'completions/max_length': 3516.0, 'completions/clipped_ratio': 0.0, 'completions/mean_terminated_length': 2032.796875, 'completions/min_terminated_length': 849.0, 'completions/max_terminated_length': 3516.0, 'rewards/rollout_reward_func/mean': 11.796875, 'rewards/rollout_reward_func/std': 5.532759189605713, 'reward': 11.796875, 'reward_std': 5.495607376098633, 'frac_reward_zero_std': 0.0, 'sampling/sampling_logp_difference/mean': 0.03254123777151108, 'sampling/sampling_logp_difference/max': 2.982666254043579, 'sampling/importance_sampling_ratio/min': 0.0, 'sampling/importance_sampling_ratio/mean': 0.7847191095352173, 'sampling/importance_sampling_ratio/max': 1.8613805770874023, 'kl': 1.389438096433878, 'entropy': 0.10584298940375447, 'entropy_coef': 0.0, 'clip_ratio/low_mean': 0.0, 'clip_ratio/low_min': 0.0, 'clip_ratio/high_mean': 0.0, 'clip_ratio/high_max': 0.0, 'clip_ratio/region_mean': 0.0, 'step_time': 30.097721540994826, 'epoch': 8.0}
+100%|██████████| 1000/1000 [8:37:20<00:00, 30.25s/it]                                                     {'train_runtime': 31045.297, 'train_samples_per_second': 2.062, 'train_steps_per_second': 0.032, 'train_loss': -3.7324227967474146e-05, 'epoch': 8.0}
+100%|██████████| 1000/1000 [8:37:21<00:00, 30.25s/it]100%|██████████| 1000/1000 [8:37:22<00:00, 31.04s/it]
+[2026-01-29 02:11:36,858] [INFO] [axolotl.train.save_trained_model:226] [PID:251] Training completed! Saving trained model to /app/checkpoints/1/game-v1.0.0.
+[2026-01-29 02:11:37,940] [INFO] [axolotl.train.save_trained_model:340] [PID:251] Model successfully saved to /app/checkpoints/1/game-v1.0.0