thisusernameisnotavailablehee
/

ppo-LunarLander-v3

Reinforcement Learning

deep-reinforcement-learning

Eval Results (legacy)

Model card Files Files and versions

thisusernameisnotavailablehee commited on Jan 9

Commit

fd2a056

·

verified ·

1 Parent(s): aed5cca

Create README.md

Files changed (1) hide show

README.md +33 -0

README.md ADDED Viewed

	@@ -0,0 +1,33 @@

+---
+library_name: pytorch
+tags:
+- reinforcement-learning
+- deep-reinforcement-learning
+- ppo
+- LunarLander-v3
+model-index:
+- name: PPO
+  results:
+  - task:
+      type: reinforcement-learning
+      name: Reinforcement Learning
+    dataset:
+      name: LunarLander-v3
+      type: LunarLander-v3
+    metrics:
+    - type: mean_reward
+      value: 200.0 +/- 50.0
+      name: mean_reward
+---
+# PPO Agent Playing LunarLander-v3
+이 모델은 PPO(Proximal Policy Optimization) 알고리즘을 밑바닥부터 직접 구현하여 학습시킨 LunarLander-v3 에이전트입니다.
+## 리플레이 영상
+![에이전트 플레이](replay.mp4)
+## 학습 정보
+- **Algorithm**: PPO
+- **Environment**: LunarLander-v3
+- **Framework**: PyTorch