Dabe
/

LunarLanderPPO2

Reinforcement Learning

stable-baselines3

deep-reinforcement-learning

Eval Results (legacy)

Model card Files Files and versions

Dabe commited on Feb 28, 2023

Commit

71d5140

·

1 Parent(s): 8bf18ae

Update README.md

Files changed (1) hide show

README.md +27 -6

README.md CHANGED Viewed

@@ -22,16 +22,37 @@ model-index:
 ---
 # **PPO** Agent playing **LunarLander-v2**
-This is a trained model of a **PPO** agent playing **LunarLander-v2**
 using the [stable-baselines3 library](https://github.com/DLR-RM/stable-baselines3).
 ## Usage (with Stable-baselines3)
-TODO: Add your code
 ```python
-from stable_baselines3 import ...
-from huggingface_sb3 import load_from_hub
-...
-```

 ---
 # **PPO** Agent playing **LunarLander-v2**
+This is a trained model of a **PPO** agent playing **LunarLander-v2**, trained for 1e6 time steps, obtaining:
+**mean_reward** = 241.85 +/- 48.02
 using the [stable-baselines3 library](https://github.com/DLR-RM/stable-baselines3).
 ## Usage (with Stable-baselines3)
 ```python
+import gym
+from stable_baselines3 import PPO                                # Modelo que vamos a usar
+from stable_baselines3.common.evaluation import evaluate_policy  # Evaluación de los resultados del modelo entrenado
+from stable_baselines3.common.env_util import make_vec_env
+# Creo el env
+env = gym.make('LunarLander-v2')
+# Selecciono el modelo, en este caso el PPO, y lo ponemos a entrenar
+model = PPO('MlpPolicy',env,verbose=1).learn(total_timesteps=1000000,progress_bar=True)
+# Lo guardamos
+model.save('Lunar_Lander')
+# Creamos un nuevo env en el que probamos el modelo (valdría el mismo pero reseteado)
+eval_env = gym.make('LunarLander-v2')
+# Evaluamos el modelo
+mean_reward, std_reward = evaluate_policy(model, eval_env, n_eval_episodes=10, deterministic=True)
+# Print the results
+print(f"mean_reward={mean_reward:.2f} +/- {std_reward}")
+```