thisusernameisnotavailablehee
/

ppo-LunarLander-v3

Reinforcement Learning

deep-reinforcement-learning

Eval Results (legacy)

Model card Files Files and versions

PPO Agent Playing LunarLander-v3

이 모델은 PPO(Proximal Policy Optimization) 알고리즘을 밑바닥부터 직접 구현하여 학습시킨 LunarLander-v3 에이전트입니다.

리플레이 영상

학습 정보

Algorithm: PPO
Environment: LunarLander-v3
Framework: PyTorch

Downloads last month: -; Downloads are not tracked for this model. How to track

Video Preview

Reinforcement Learning

loading

Evaluation results

mean_reward on LunarLander-v3
self-reported

200.0 +/- 50.0