hydra:
  run:
    dir: output/training/${rl_mode}/${env_id}/${algorithm.name}/${seed}
  sweep:
    dir: output/training/${rl_mode}/${env_id}/${algorithm.name}/${seed}
    subdir: ''
  launcher:
    _target_: hydra._internal.core_plugins.basic_launcher.BasicLauncher
  sweeper:
    _target_: hydra._internal.core_plugins.basic_sweeper.BasicSweeper
    max_batch_size: null
    params: null
  help:
    app_name: ${hydra.job.name}
    header: '${hydra.help.app_name} is powered by Hydra.

      '
    footer: 'Powered by Hydra (https://hydra.cc)

      Use --hydra-help to view Hydra specific help

      '
    template: '${hydra.help.header}

      == Configuration groups ==

      Compose your configuration from those groups (group=option)


      $APP_CONFIG_GROUPS


      == Config ==

      Override anything in the config (foo.bar=value)


      $CONFIG


      ${hydra.help.footer}

      '
  hydra_help:
    template: 'Hydra (${hydra.runtime.version})

      See https://hydra.cc for more info.


      == Flags ==

      $FLAGS_HELP


      == Configuration groups ==

      Compose your configuration from those groups (For example, append hydra/job_logging=disabled
      to command line)


      $HYDRA_CONFIG_GROUPS


      Use ''--cfg hydra'' to Show the Hydra config.

      '
    hydra_help: ???
  hydra_logging:
    version: 1
    formatters:
      simple:
        format: '[%(asctime)s][HYDRA] %(message)s'
    handlers:
      console:
        class: logging.StreamHandler
        formatter: simple
        stream: ext://sys.stdout
    root:
      level: INFO
      handlers:
      - console
    loggers:
      logging_example:
        level: DEBUG
    disable_existing_loggers: false
  job_logging:
    version: 1
    formatters:
      simple:
        format: '[%(asctime)s][%(name)s][%(levelname)s] - %(message)s'
    handlers:
      console:
        class: logging.StreamHandler
        formatter: simple
        stream: ext://sys.stdout
      file:
        class: logging.FileHandler
        formatter: simple
        filename: ${hydra.runtime.output_dir}/${hydra.job.name}.log
    root:
      level: INFO
      handlers:
      - console
      - file
    disable_existing_loggers: false
  env: {}
  mode: MULTIRUN
  searchpath: []
  callbacks: {}
  output_subdir: .
  overrides:
    hydra:
    - hydra.mode=MULTIRUN
    task:
    - algorithm=sb3_ppo
    - env_id=RBC2D-medium-v0
    - rl_mode=sarl
    - seed=2
  job:
    name: test_sb3
    chdir: true
    override_dirname: algorithm=sb3_ppo,env_id=RBC2D-medium-v0,rl_mode=sarl,seed=2
    id: ???
    num: ???
    config_name: test_sb3
    env_set: {}
    env_copy: []
    config:
      override_dirname:
        kv_sep: '='
        item_sep: ','
        exclude_keys: []
  runtime:
    version: 1.3.2
    version_base: '1.3'
    cwd: /cephfs/users/becktepe/git_projects/FluidGym
    config_sources:
    - path: hydra.conf
      schema: pkg
      provider: hydra
    - path: /cephfs/users/becktepe/git_projects/FluidGym/runscripts/configs
      schema: file
      provider: main
    - path: ''
      schema: structured
      provider: schema
    output_dir: ???
    choices:
      cluster: local
      algorithm: sb3_ppo
      hydra/env: default
      hydra/callbacks: null
      hydra/job_logging: default
      hydra/hydra_logging: default
      hydra/hydra_help: default
      hydra/help: default
      hydra/sweeper: basic
      hydra/launcher: basic
      hydra/output: default
  verbose: false
env_id: RBC2D-medium-v0
env_kwargs: {}
eval_env_kwargs: {}
seed: 2
rl_mode: sarl
total_timesteps: 50000.0
n_eval_steps: 10
eval_freq: ${eval:${total_timesteps} // ${n_eval_steps}}
n_eval_episodes: 1
continue_training: false
checkpoint_latest: true
rl_device: cpu
eval_callback:
  _target_: fluidgym.integration.sb3.EvalCallback
  eval_freq: ${eval_freq}
  n_eval_episodes: ${n_eval_episodes}
  use_wandb: ${wandb.enable}
  checkpoint_latest: ${checkpoint_latest}
wandb:
  enable: true
  entity: safe-autonomous-systems
  project: jbecktepe-fluidgym
algorithm:
  name: PPO
  obj:
    _target_: stable_baselines3.ppo.ppo.PPO
    policy: MlpPolicy
    learning_rate: 0.0003
    n_steps: 2048
    batch_size: 64
    n_epochs: 10
    gamma: 0.99
    gae_lambda: 0.95
    clip_range: 0.2
    clip_range_vf: null
    normalize_advantage: true
    ent_coef: 0.01
    vf_coef: 0.5
    max_grad_norm: 0.5
    use_sde: false
    sde_sample_freq: -1
    rollout_buffer_class: null
    rollout_buffer_kwargs: null
    target_kl: null
    stats_window_size: 100
    tensorboard_log: null
    verbose: 0
    seed: ${seed}
    device: ${rl_device}
    _init_setup_model: true
cluster: {}
test_env_id: ${env_id}
test_env_kwargs: ${env_kwargs}
test_rl_mode: ${rl_mode}
n_test_episodes: 10
deterministic: true
save_frames: true
render_3d: true