LunarLander solution using stable baselines' Proximal Policy Optimization

3907932 almost 3 years ago

165 Bytes

{"mean_reward": 242.57235780000002, "std_reward": 47.653545296474604, "is_deterministic": true, "n_eval_episodes": 10, "eval_datetime": "2023-06-24T12:00:54.815537"}