{
  "args": {
    "actor_freeze": 0,
    "actor_init_on_gpu": false,
    "actor_learning_rate": 1e-05,
    "actor_lr_warmup_ratio": null,
    "actor_num_gpus_per_node": 1,
    "actor_num_nodes": 1,
    "actor_train_period": null,
    "adam_betas": [
      0.9,
      0.95
    ],
    "adam_offload": true,
    "advantage_estimator": "rloo",
    "agent_func_path": null,
    "apply_chat_template": false,
    "async_train": false,
    "aux_loss_coef": 0,
    "bf16": true,
    "bigcodebench_max_samples": 1140,
    "bleu_n_gram": 1,
    "ce_horizon": null,
    "ckpt_path": "./ed_checkpoints/ed_sweep_a_freeze_0_a_lr_1e-05_ctx_2_c_bb_0_c_lr_0.0_c_lr_head_0.0_cpt_qwen15_dm_False_ed_code130k_freezing_actor_steps_-1_gen_2_ce_1.0_pt_qwen15_pd_code130k_qm_False_rt_0.0_str_2_wh_False/ckpt",
    "classifier_sequence_selection": "closest",
    "colocate_actor_ref": false,
    "colocate_all_models": true,
    "colocate_critic_reward": false,
    "colocate_reward_models": false,
    "context_max_len": 2,
    "critic_backbone_freeze": 0,
    "critic_bradley_terry_loss_coef": 0.0,
    "critic_ce_loss_coef": 0.0,
    "critic_class_loss_coef": 0.0,
    "critic_embedding_infonce_loss_coef": 0.0,
    "critic_infonce_loss_coef": 1.0,
    "critic_learning_rate": 0.0,
    "critic_loss_choice": "log",
    "critic_lr_head": 0.0,
    "critic_lr_scheduler": "constant_with_warmup",
    "critic_lr_warmup_ratio": null,
    "critic_mom_loss_coef": 0.0,
    "critic_mom_sequence_level": "last_token",
    "critic_num_gpus_per_node": 1,
    "critic_num_nodes": 1,
    "critic_pretrain": "Qwen/Qwen2.5-1.5B",
    "critic_reward_horizon": null,
    "critic_reward_start": null,
    "critic_reward_target": 0.0,
    "critic_sequence_level": "last_token",
    "critic_train_interval": 1,
    "critic_train_period": null,
    "debug": false,
    "deepcompile": false,
    "deepspeed_enable_sleep": false,
    "disable_ds_ckpt": true,
    "disable_fast_tokenizer": false,
    "document_masking": false,
    "ds_tensor_parallel_size": 1,
    "dual_clip": null,
    "dynamic_filtering": false,
    "dynamic_filtering_reward_range": [
      0,
      1
    ],
    "ema_beta": 0.9,
    "embed_method": "last_token",
    "embedding_infonce_hard_negative_k": 0,
    "embedding_infonce_ignore_sim_threshold": null,
    "embedding_infonce_ignore_top_k": 1,
    "embedding_infonce_min_negatives": 0,
    "embedding_infonce_mismatched_real_k": 0,
    "embedding_infonce_temperature": 0.1,
    "enable_ema": true,
    "enable_prefix_caching": false,
    "enforce_eager": false,
    "entropy_loss_coef": null,
    "eps_clip": 0.2,
    "eps_clip_low_high": [
      0.2,
      0.2
    ],
    "eval_batch_size": 16,
    "eval_bertscore_batch_size": 16,
    "eval_bertscore_model": "roberta-base",
    "eval_dataset": "sjelassi/opencode-instruct_130k",
    "eval_detox_device": "",
    "eval_detox_fl_model": "cointegrated/roberta-large-cola-krishna2020",
    "eval_detox_sim_model": "sentence-transformers/LaBSE",
    "eval_detox_sta_model": "s-nlp/roberta_toxicity_classifier",
    "eval_down_batch_size": 128,
    "eval_down_max_samples": 128,
    "eval_down_steps": 50,
    "eval_factuality_batch_size": 16,
    "eval_factuality_device": "cuda",
    "eval_factuality_entailment_threshold": 0.5,
    "eval_factuality_max_length": 512,
    "eval_factuality_max_sentences": null,
    "eval_factuality_metric": "none",
    "eval_factuality_model": "roberta-large-mnli",
    "eval_factuality_truncation": "only_first",
    "eval_generate_max_len": 512,
    "eval_max_samples": 128,
    "eval_mt_batch_size": 1,
    "eval_mt_max_samples": 8,
    "eval_mt_steps": -1,
    "eval_n_samples_per_prompt": 4,
    "eval_n_samples_per_prompt_down": 4,
    "eval_n_samples_per_prompt_mt": 100,
    "eval_split": "test",
    "eval_steps": -1,
    "eval_style_transfer_log_samples": 0,
    "eval_summarization_log_samples": 0,
    "eval_temperature": 1.0,
    "eval_temperature_down": 1.0,
    "eval_temperature_mt": 1.0,
    "eval_translation_log_samples": 0,
    "flash_attn": false,
    "freezing_actor_steps": -1,
    "full_determinism": false,
    "gamma": 1,
    "generate_max_len": 2,
    "grad_accum_dtype": null,
    "gradient_checkpointing": true,
    "gradient_checkpointing_use_reentrant": false,
    "hidden_state_method": "concat",
    "humaneval_max_samples": 164,
    "init_ce_coef": 1.0,
    "init_kl_coef": 0.0,
    "input_key": "question",
    "input_template": null,
    "keep_critic_on": false,
    "kl_estimator": "k2",
    "kl_horizon": null,
    "kl_target": null,
    "l2": 0.0,
    "label_key": "answer",
    "lambd": 1,
    "load_actor_checkpoint": false,
    "load_critic_checkpoint": false,
    "load_in_4bit": false,
    "local_rank": -1,
    "log_gradients": true,
    "logging_steps": 1,
    "lora_alpha": 16,
    "lora_dropout": 0,
    "lora_rank": 0,
    "lr_scheduler": "constant_with_warmup",
    "lr_warmup_ratio": 0.03,
    "max_ckpt_mem": 100000000.0,
    "max_ckpt_num": 3,
    "max_epochs": 1,
    "max_len": null,
    "max_norm": 1.0,
    "max_samples": -1,
    "mbpp_max_samples": 974,
    "micro_reward_batch_size": 8,
    "micro_rollout_batch_size": 8,
    "micro_train_batch_size": 8,
    "mom_reward_target": 1.0,
    "n_samples_per_prompt": 4,
    "no_advantage_std_norm": false,
    "normalize_reward": false,
    "num_episodes": 1,
    "output_key": "answer",
    "overlap_comm": false,
    "overlong_buffer_len": null,
    "overlong_penalty_factor": 1,
    "packing_samples": false,
    "perf": false,
    "policy_loss_type": "ppo",
    "pos_rew_coef": 1.0,
    "pretrain": "Qwen/Qwen2.5-1.5B",
    "pretrain_mode": true,
    "prompt_data": "sjelassi/opencode-instruct_130k",
    "prompt_data_probs": null,
    "prompt_max_len": 1024,
    "prompt_split": "train",
    "ptx_coef": 0.05,
    "qa_masking": false,
    "ref_num_gpus_per_node": 1,
    "ref_num_nodes": 1,
    "ref_reward_offload": false,
    "reinit_critic": false,
    "remote_rm_url": null,
    "reward_choice": "gan",
    "reward_clip_range": [
      -10,
      10
    ],
    "reward_num_gpus_per_node": 1,
    "reward_num_nodes": 1,
    "reward_pretrain": "sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2",
    "rff_factor": 1.0,
    "rff_features": 1024,
    "ring_attn_size": 1,
    "ring_head_stride": 1,
    "rl_horizon": null,
    "rl_start": null,
    "rl_target": 0.0,
    "rollout_batch_size": 16,
    "rollout_max_tokens_per_gpu": null,
    "save_hf_ckpt": true,
    "save_log_scale_count": -1,
    "save_path": "./ed_checkpoints/ed_sweep_a_freeze_0_a_lr_1e-05_ctx_2_c_bb_0_c_lr_0.0_c_lr_head_0.0_cpt_qwen15_dm_False_ed_code130k_freezing_actor_steps_-1_gen_2_ce_1.0_pt_qwen15_pd_code130k_qm_False_rt_0.0_str_2_wh_False",
    "save_steps": 250,
    "save_value_network": false,
    "seed": 43,
    "slurm_job": "None_0",
    "stride": 2,
    "target_modules": "all-linear",
    "temperature": 1.0,
    "top_p": 1.0,
    "train_batch_size": 64,
    "train_max_tokens_per_gpu": 16192,
    "use_ds_universal_ckpt": false,
    "use_dynamic_batch": false,
    "use_kl_loss": true,
    "use_liger_kernel": false,
    "use_ms": false,
    "use_rff_kernel": true,
    "use_spectral_norm": false,
    "use_tensorboard": null,
    "use_wandb": "629a07f37adb439bb40b4f10d84afe378a0a30ca",
    "use_whitening": false,
    "use_whitening_critic": false,
    "value_clip": 0.5,
    "value_head_prefix": "score",
    "vllm_enable_sleep": false,
    "vllm_generate_batch_size": 16,
    "vllm_gpu_memory_utilization": 0.95,
    "vllm_num_engines": null,
    "vllm_sync_backend": "nccl",
    "vllm_sync_with_ray": false,
    "vllm_tensor_parallel_size": 1,
    "wandb_group": null,
    "wandb_org": null,
    "wandb_project": "openrlhf_carles_runs",
    "wandb_run_name": "ed_sweep_a_freeze_0_a_lr_1e-05_ctx_2_c_bb_0_c_lr_0.0_c_lr_head_0.0_cpt_qwen15_dm_False_ed_code130k_freezing_actor_steps_-1_gen_2_ce_1.0_pt_qwen15_pd_code130k_qm_False_rt_0.0_str_2_wh_False",
    "zero_stage": 2,
    "zpg": 1
  },
  "client_states": {
    "data_loader_state_dict": "<omitted>",
    "episode": 0,
    "global_step": 250
  },
  "cwd": "/data/ebm_openrlhf",
  "hostname": "ebm11-0-worker-0",
  "tag": "global_step250",
  "timestamp": "2026-01-09T10:40:50.833634+00:00"
}