Dabe
/

LunarLanderPPO

Reinforcement Learning

stable-baselines3

deep-reinforcement-learning

Eval Results (legacy)

Model card Files Files and versions

Dabe commited on Feb 28, 2023

Commit

cf2b945

·

1 Parent(s): 06a45a6

Update README.md

Files changed (1) hide show

README.md +22 -4

README.md CHANGED Viewed

@@ -30,8 +30,26 @@ TODO: Add your code
 ```python
-from stable_baselines3 import ...
-from huggingface_sb3 import load_from_hub
-...
-```

 ```python
+import gym
+from stable_baselines3 import PPO                                # Modelo que vamos a usar
+from stable_baselines3.common.evaluation import evaluate_policy  # Evaluación de los resultados del modelo entrenado
+from stable_baselines3.common.env_util import make_vec_env
+# Creo el env
+env = gym.make('LunarLander-v2')
+# Selecciono el modelo, en este caso el PPO
+model = PPO('MlpPolicy',env,verbose=1).learn(total_timesteps=200000,progress_bar=True)
+# Y lo guardamos
+model.save('Lunar_Lander')
+# Creamos un nuevo env en el que probamos el modelo (valdría el mismo pero reseteado)
+eval_env = gym.make('LunarLander-v2')
+# Evaluamos el modelo
+mean_reward, std_reward = evaluate_policy(model, eval_env, n_eval_episodes=10, deterministic=True)
+# Print the results
+print(f"mean_reward={mean_reward:.2f} +/- {std_reward}")