Push agent to the Hub

Files changed (4) hide show

README.md CHANGED Viewed

@@ -17,14 +17,14 @@ model-index:
       type: LunarLander-v2
     metrics:
     - type: mean_reward
-      value: -148.01 +/- 104.25
       name: mean_reward
       verified: false
 ---
 # PPO Agent Playing LunarLander-v2
       This is a trained model of a PPO agent playing LunarLander-v2.
       ## Evaluation Results
-      - Mean Reward: -148.01 ± 104.25
       - Number of Evaluation Episodes: 10
       ## Hyperparameters
       ```python
@@ -35,7 +35,7 @@ model-index:
 'num_steps': 2048
 'update_epochs': 10
 'num_minibatches': 32
-'clip_coef': 0.3
 'seed': 136
 'repo_id': 'proyrb/ppo-LunarLander-v2'
 'gae': True

       type: LunarLander-v2
     metrics:
     - type: mean_reward
+      value: -125.23 +/- 51.68
       name: mean_reward
       verified: false
 ---
 # PPO Agent Playing LunarLander-v2
       This is a trained model of a PPO agent playing LunarLander-v2.
       ## Evaluation Results
+      - Mean Reward: -125.23 ± 51.68
       - Number of Evaluation Episodes: 10
       ## Hyperparameters
       ```python
 'num_steps': 2048
 'update_epochs': 10
 'num_minibatches': 32
+'clip_coef': 0.1
 'seed': 136
 'repo_id': 'proyrb/ppo-LunarLander-v2'
 'gae': True

logs/events.out.tfevents.1750048047.2f208e49a865 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:e52dd5dca30d29a0554dadd18c98342ef9c0504347835ce7c9b0759445ccc947
+size 433186

model.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b93c96427e4954cbd5a5657d5977b4436a9be477cd0e3a348500bb9def5059a8
 size 42898

 version https://git-lfs.github.com/spec/v1
+oid sha256:4145d07a40fb7a03bfd8c6e015739c1088cf9086ec4b48c27273d664f417871f
 size 42898

results.json CHANGED Viewed

	@@ -1 +1 @@
1	- {"env_id": "LunarLander-v2", "mean_reward": -~~148~~.~~01150317095303~~, "std_reward": ~~104~~.~~24857754898851~~, "n_evaluation_episodes": 10, "eval_datetime": "2025-06-16T04:26:30.~~035119~~"}


1	+ {"env_id": "LunarLander-v2", "mean_reward": -125.23432138475948, "std_reward": 51.68189501077231, "n_evaluation_episodes": 10, "eval_datetime": "2025-06-16T04:28:14.636680"}