Recovery

Files changed (3) hide show

README.md CHANGED Viewed

@@ -1,11 +1,10 @@
 ---
 tags:
 - LunarLander-v2
-- ppo
 - deep-reinforcement-learning
 - reinforcement-learning
-- custom-implementation
-- deep-rl-course
 model-index:
 - name: PPO
   results:
@@ -17,40 +16,22 @@ model-index:
       type: LunarLander-v2
     metrics:
     - type: mean_reward
-      value: 191.79 +/- 96.38
       name: mean_reward
       verified: false
 ---
-  # PPO Agent Playing LunarLander-v2
-  This is a trained model of a PPO agent playing LunarLander-v2.
-  # Hyperparameters
-  ```python
-  {'path': '/content/drive/MyDrive/Colab Notebooks/HuggingFace/RL/Unit08'
-'name': 'ppo-LunaLander_1.pt'
-'env-id': 'LunarLander-v2'
-'agent_properties': {'num_layers': 2
-'hidden': 128
-'activation': 'Tanh'}
-'seed': ''
-'device': 'cuda'
-'total_timesteps': 100000
-'num_steps': 32768
-'batch_size': 64
-'update_epochs': 2
-'learning_rate': 1e-05
-'lr_schedule': 'Exp'
-'lr_final': 1e-06
-'gamma': 0.995
-'gae_lambda': 0.99
-'norm_adv': 'True'
-'clip_coef': 0.2
-'clip_vloss': 'False'
-'entropy_loss_coef': 0.01
-'value_loss_coef': 0.5
-'max_grad_norm': 0.5
-'n_eval_episodes': 10}
-  ```

 ---
+library_name: stable-baselines3
 tags:
 - LunarLander-v2
 - deep-reinforcement-learning
 - reinforcement-learning
+- stable-baselines3
 model-index:
 - name: PPO
   results:
       type: LunarLander-v2
     metrics:
     - type: mean_reward
+      value: 288.87 +/- 17.85
       name: mean_reward
       verified: false
 ---
+# **PPO** Agent playing **LunarLander-v2**
+This is a trained model of a **PPO** agent playing **LunarLander-v2**
+using the [stable-baselines3 library](https://github.com/DLR-RM/stable-baselines3).
+## Usage (with Stable-baselines3)
+TODO: Add your code
+```python
+from stable_baselines3 import ...
+from huggingface_sb3 import load_from_hub
+...
+```

replay.mp4 CHANGED Viewed

Binary files a/replay.mp4 and b/replay.mp4 differ

results.json CHANGED Viewed

	@@ -1 +1 @@
1	- {"~~env_id~~": ~~"LunarLander-v2"~~, "~~mean_reward~~": ~~191~~.~~7946600494358~~, "~~std_reward~~": ~~96.37600757418993~~, "~~n_evaluation_episodes~~": 10, "eval_datetime": "2023-12-~~30T10~~:53:53.~~358557~~"}


1	+ {"mean_reward": 288.8737752, "std_reward": 17.847514688393968, "is_deterministic": true, "n_eval_episodes": 10, "eval_datetime": "2023-11-08T10:22:42.851796"}