kinkpunk
/

Lunar-Landing-Program

Reinforcement Learning

stable-baselines3

deep-reinforcement-learning

Eval Results (legacy)

Model card Files Files and versions

kinkpunk commited on Dec 12, 2022

Commit

51e738b

·

1 Parent(s): c27712b

Update README.md

Add training code

Files changed (1) hide show

README.md +32 -0

README.md CHANGED Viewed

@@ -56,3 +56,35 @@ mean_reward, std_reward = evaluate_policy(model, env,
 # Print the results
 print('mean_reward={:.2f} +/- {:.2f}'.format(mean_reward, std_reward))
 ```

 # Print the results
 print('mean_reward={:.2f} +/- {:.2f}'.format(mean_reward, std_reward))
 ```
+## Training (with Stable-baselines3)
+```python
+from huggingface_sb3 import load_from_hub
+from stable_baselines3 import PPO
+from stable_baselines3.common.evaluation import evaluate_policy
+from stable_baselines3.common.env_util import make_vec_env
+# Create the evaluation envs
+env = make_vec_env('LunarLander-v2', n_envs=16)
+env = gym.make('LunarLander-v2')
+# Instantiate the agent
+model = PPO(
+    policy = 'MlpPolicy',
+    env = env,
+    n_steps = 1024,
+    batch_size = 32,
+    n_epochs = 8,
+    gamma = 0.99,
+    gae_lambda = 0.95,
+    ent_coef = 0.01,
+    verbose=1,
+    seed=2022)
+# Train
+model.learn(total_timesteps=1500000)
+# Save model
+model_name = "Any-Name"
+model.save(model_name)
+```