igorcheb
/

REINFORCE-LunarLanderContinuous-v2

Reinforcement Learning

LunarLanderContinuous-v2

custom-implementation

Model card Files Files and versions

igorcheb commited on Jan 17, 2023

Commit

efb8a0a

·

1 Parent(s): 0a2c366

Update README.md

Files changed (1) hide show

README.md +19 -0

README.md CHANGED Viewed

@@ -29,3 +29,22 @@ Training progress:
 Numbers on X axis are average over 40 episodes, each lasting for about 500 timesteps on average. So in total the agent was trained over about 5e6 timesteps.
 Learning rate decay schedule: <code>torch.optim.lr_scheduler.StepLR(opt, step_size=4000, gamma=0.7)</code>

 Numbers on X axis are average over 40 episodes, each lasting for about 500 timesteps on average. So in total the agent was trained over about 5e6 timesteps.
 Learning rate decay schedule: <code>torch.optim.lr_scheduler.StepLR(opt, step_size=4000, gamma=0.7)</code>
+Minimal code to use the agent:</br>
+<pre><code>
+import gym</br>
+</br>
+env_name = 'LunarLanderContinuous-v2'</br>
+env = gym.make(env_name)</br>
+agent = torch.load('best_models/best_reinforce_lunar_lander_cont_model_269.402.pt')</br>
+render = True</br>
+observation = env.reset()</br>
+while True:</br>
+    if render:</br>
+        env.render()</br>
+    action = agent.act(observation)</br>
+    observation, reward, done, info = env.step(action)</br>
+    </br>
+    if done:</br>
+        break</br>
+env.close()</br>
+</code></pre>