ch-bz
/

ppo-LunarLander-v2

Reinforcement Learning

stable-baselines3

deep-reinforcement-learning

Eval Results (legacy)

Model card Files Files and versions

ch-bz commited on Nov 9, 2024

Commit

066012a

·

verified ·

1 Parent(s): 7c62a56

Update README.md

Files changed (1) hide show

README.md +49 -37

README.md CHANGED Viewed

@@ -1,37 +1,49 @@
----
-library_name: stable-baselines3
-tags:
-- LunarLander-v2
-- deep-reinforcement-learning
-- reinforcement-learning
-- stable-baselines3
-model-index:
-- name: PPO
-  results:
-  - task:
-      type: reinforcement-learning
-      name: reinforcement-learning
-    dataset:
-      name: LunarLander-v2
-      type: LunarLander-v2
-    metrics:
-    - type: mean_reward
-      value: 265.37 +/- 25.58
-      name: mean_reward
-      verified: false
----
-# **PPO** Agent playing **LunarLander-v2**
-This is a trained model of a **PPO** agent playing **LunarLander-v2**
-using the [stable-baselines3 library](https://github.com/DLR-RM/stable-baselines3).
-## Usage (with Stable-baselines3)
-TODO: Add your code
-```python
-from stable_baselines3 import ...
-from huggingface_sb3 import load_from_hub
-...
-```

+---
+library_name: stable-baselines3
+tags:
+- LunarLander-v2
+- deep-reinforcement-learning
+- reinforcement-learning
+- stable-baselines3
+model-index:
+- name: PPO
+  results:
+  - task:
+      type: reinforcement-learning
+      name: reinforcement-learning
+    dataset:
+      name: LunarLander-v2
+      type: LunarLander-v2
+    metrics:
+    - type: mean_reward
+      value: 265.37 +/- 25.58
+      name: mean_reward
+      verified: false
+---
+# **PPO** Agent playing **LunarLander-v2**
+This is a trained model of a **PPO** agent playing **LunarLander-v2**
+using the [stable-baselines3 library](https://github.com/DLR-RM/stable-baselines3).<br>
+Created during the 'Deep RL Course'(https://huggingface.co/learn/deep-rl-course/unit0/introduction). Trained with 2000000 timesteps.
+## Usage (with Stable-baselines3)
+```python
+import gymnasium as gym
+from stable_baselines3 import PPO
+from stable_baselines3.common.env_util import make_vec_env
+from huggingface_sb3 import load_from_hub
+# Load the model
+model_name = "LunarLander-v2"
+model_path = load_from_hub(repo_id="ch-bz/ppo-" + model_name, filename=model_name + ".zip")
+model = PPO.load(model_path)
+# Demonstrate the model with 4 parallel instances
+vec_env = make_vec_env(model_name, n_envs=4)
+obs = vec_env.reset()
+while True:
+    action, _states = model.predict(obs)
+    obs, rewards, dones, info = vec_env.step(action)
+    vec_env.render("human")
+```