Push agent to the Hub

Files changed (5) hide show

README.md CHANGED Viewed

@@ -1,6 +1,6 @@
 ---
 tags:
-- CartPole-v1
 - ppo
 - deep-reinforcement-learning
 - reinforcement-learning
@@ -13,49 +13,49 @@ model-index:
       type: reinforcement-learning
       name: reinforcement-learning
     dataset:
-      name: CartPole-v1
-      type: CartPole-v1
     metrics:
     - type: mean_reward
-      value: 237.20 +/- 134.92
       name: mean_reward
       verified: false
 ---
-  # PPO Agent Playing CartPole-v1
-  This is a trained model of a PPO agent playing CartPole-v1.
-  # Hyperparameters
-  ```python
-  {'exp_name': 'unit8_part1',
-   'gym_id': 'CartPole-v1',
-   'learning_rate': 0.00025,
-   'seed': 1,
-   'total_timesteps': 50000,
-   'torch_deterministic': True,
-   'cuda': True,
-   'track': False,
-   'wandb_project_name': 'ppo-implementation-details',
-   'wandb_entity': None,
-   'capture_video': False,
-   'num_envs': 4,
-   'num_steps': 128,
-   'anneal_lr': True,
-   'gae': True,
-   'gamma': 0.99,
-   'gae_lambda': 0.95,
-   'num_minibatches': 4,
-   'update_epochs': 4,
-   'norm_adv': True,
-   'clip_coef': 0.2,
-   'clip_vloss': True,
-   'ent_coef': 0.01,
-   'vf_coef': 0.5,
-   'max_grad_norm': 0.5,
-   'target_kl': None,
-   'repo_id': 'tmoroder/ppo-CartPole-v1',
-   'batch_size': 512,
-   'minibatch_size': 128}
-  ```

 ---
 tags:
+- LunarLander-v3
 - ppo
 - deep-reinforcement-learning
 - reinforcement-learning
       type: reinforcement-learning
       name: reinforcement-learning
     dataset:
+      name: LunarLander-v3
+      type: LunarLander-v3
     metrics:
     - type: mean_reward
+      value: -172.97 +/- 102.64
       name: mean_reward
       verified: false
 ---
+    # PPO Agent Playing LunarLander-v3
+    This is a trained model of a PPO agent playing LunarLander-v3.
+    # Hyperparameters
+    ```python
+    {'exp_name': 'unit8_part1',
+'gym_id': 'LunarLander-v3',
+'learning_rate': 0.00025,
+'seed': 1,
+'total_timesteps': 50000,
+'torch_deterministic': True,
+'cuda': True,
+'track': False,
+'wandb_project_name': 'ppo-implementation-details',
+'wandb_entity': None,
+'capture_video': False,
+'num_envs': 4,
+'num_steps': 128,
+'anneal_lr': True,
+'gae': True,
+'gamma': 0.99,
+'gae_lambda': 0.95,
+'num_minibatches': 4,
+'update_epochs': 4,
+'norm_adv': True,
+'clip_coef': 0.2,
+'clip_vloss': True,
+'ent_coef': 0.01,
+'vf_coef': 0.5,
+'max_grad_norm': 0.5,
+'target_kl': None,
+'repo_id': 'tmoroder/ppo-CartPole-v1',
+'batch_size': 512,
+'minibatch_size': 128}
+    ```

logs/events.out.tfevents.1741910642.KASHYYYK.33489.0 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:a55fb653acb1e8bd1f5d3a537d601af1a64e278b6125ab1a4e7a345f26ea34dc
+size 107242

model.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eba65fb0eff6563f5ed1e3c8969741418e63bcb8064e2d8bcbe087beb5663774
-size 40466

 version https://git-lfs.github.com/spec/v1
+oid sha256:8f90a4c3d507d195b23d9f93997d0dd3bc3b193bd7153d577853aa3d4d1c84f2
+size 43026

replay.mp4 CHANGED Viewed

Binary files a/replay.mp4 and b/replay.mp4 differ

results.json CHANGED Viewed

	@@ -1 +1 @@
1	- {"env_id": "~~CartPole~~-v1", "mean_reward": ~~237~~.2, "std_reward": ~~134~~.~~92056922500734~~, "n_evaluation_episodes": 10, "eval_datetime": "2025-03-~~14T00~~:54:39.~~231388~~"}


1	+ {"env_id": "LunarLander-v3", "mean_reward": -172.96513640485938, "std_reward": 102.63833553579478, "n_evaluation_episodes": 10, "eval_datetime": "2025-03-14T01:04:48.782567"}