JulioSnchezD
/

LunarLander-v2

Reinforcement Learning

stable-baselines3

deep-reinforcement-learning

Eval Results (legacy)

Model card Files Files and versions

JulioSnchezD commited on Jun 11, 2024

Commit

60eca6c

·

verified ·

1 Parent(s): 816b682

Update README.md

Files changed (1) hide show

README.md +86 -37

README.md CHANGED Viewed

@@ -1,37 +1,86 @@
----
-library_name: stable-baselines3
-tags:
-- LunarLander-v2
-- deep-reinforcement-learning
-- reinforcement-learning
-- stable-baselines3
-model-index:
-- name: PPO
-  results:
-  - task:
-      type: reinforcement-learning
-      name: reinforcement-learning
-    dataset:
-      name: LunarLander-v2
-      type: LunarLander-v2
-    metrics:
-    - type: mean_reward
-      value: 242.08 +/- 19.81
-      name: mean_reward
-      verified: false
----
-# **PPO** Agent playing **LunarLander-v2**
-This is a trained model of a **PPO** agent playing **LunarLander-v2**
-using the [stable-baselines3 library](https://github.com/DLR-RM/stable-baselines3).
-## Usage (with Stable-baselines3)
-TODO: Add your code
-```python
-from stable_baselines3 import ...
-from huggingface_sb3 import load_from_hub
-...
-```

+---
+library_name: stable-baselines3
+tags:
+- LunarLander-v2
+- deep-reinforcement-learning
+- reinforcement-learning
+- stable-baselines3
+model-index:
+- name: PPO
+  results:
+  - task:
+      type: reinforcement-learning
+      name: reinforcement-learning
+    dataset:
+      name: LunarLander-v2
+      type: LunarLander-v2
+    metrics:
+    - type: mean_reward
+      value: 242.08 +/- 19.81
+      name: mean_reward
+      verified: false
+---
+# **PPO** Agent playing **LunarLander-v2**
+This is a trained model of a **PPO** agent playing **LunarLander-v2**
+using the [stable-baselines3 library](https://github.com/DLR-RM/stable-baselines3).
+## Usage (with Stable-baselines3)
+```python
+import gymnasium as gym
+from time import sleep
+from huggingface_sb3 import package_to_hub
+from stable_baselines3 import PPO
+from stable_baselines3.common.env_util import make_vec_env
+from stable_baselines3.common.evaluation import evaluate_policy
+from stable_baselines3.common.monitor import Monitor
+from stable_baselines3.common.vec_env import DummyVecEnv
+# Create the environment
+env = make_vec_env("LunarLander-v2", n_envs=16)
+# We added some parameters to accelerate the training
+model = PPO(
+    policy="MlpPolicy",
+    env=env,
+    n_steps=1024,
+    batch_size=64,
+    n_epochs=4,
+    gamma=0.999,
+    gae_lambda=0.98,
+    ent_coef=0.01,
+    verbose=1,
+)
+# Train it for 1,000,000 timesteps
+model.learn(total_timesteps=1000000)
+# Save the model
+model.save(model_name)
+# Test the model
+# model = PPO.load(model_name)
+eval_env = Monitor(gym.make("LunarLander-v2"))
+mean_reward, std_reward = evaluate_policy(model, eval_env, n_eval_episodes=10, deterministic=True)
+print(f"mean_reward={mean_reward:.2f} +/- {std_reward}")
+# Visualize the model
+env = gym.make("LunarLander-v2", render_mode='human')
+state, _ = env.reset()
+stop = False
+while not stop:
+    action, _ = model.predict(state)
+    state, reward, terminated, truncated, info = env.step(action)
+    stop = terminated or truncated
+    env.render()
+    sleep(0.05)
+    if terminated or truncated:
+        observation, info = env.reset()
+env.close()
+...
+```