first PPO model, n_steps = 1024, batch_size = 64, n_epochs = 4,gamma = 0.999

88c379e almost 3 years ago

157 Bytes

{"mean_reward": 286.022996, "std_reward": 14.135276790533213, "is_deterministic": true, "n_eval_episodes": 10, "eval_datetime": "2023-06-07T11:51:34.157916"}