device: "cuda"
experiment_name: Cart-pole
seed: 0

env:
    env_id: cartpole
    task: balance
    discrete: False
    new_obs_size: [64, 64]
    norm_obs: True

tensorboard:
    enable: False
    log_dir: "./runs/"
    log_frequency: 1  # Log every 1000 steps

wandb:
    enable: True
    project: "dreamer"
    entity: "phdminh01"
    log_frequency: 1

video_recording:
    enable: True
    record_frequency: 50  #episodes

main:
    continue_loss: False
    continue_scale_factor: 10
    total_iter: 2000
    save_freq: 20
    collect_iter: 100
    data_interact_ep: 1
    # data_init_ep: 1
    data_init_ep: 5
    horizon: 15
    batch_size: 50
    seq_len: 50
    eval_eps: 3
    eval_freq: 5

    kl_divergence_scale : 1
    free_nats : 3
    discount : 0.99
    lambda_ : 0.95
    
    actor_lr : 8.0e-5
    critic_lr : 8.0e-5
    dyna_model_lr : 6.0e-4
    grad_norm_type : 2
    clip_grad : 100

    hidden_units: 300
    deterministic_size : 200
    stochastic_size : 30
    embedded_obs_size : 1024
    buffer_capacity : 500000

    epsilon_start: 0.4
    epsilon_end: 0.1
    eps_decay_steps: 200000

    mean_noise: 0
    std_noise: 0.3