joshkaura
/

ppo-CartPole-v1

Reinforcement Learning

custom-implementation

Eval Results (legacy)

Model card Files Files and versions

Metrics Training metrics Community

joshkaura commited on Jan 7

Commit

c956dfa

·

verified ·

1 Parent(s): 8527421

First Push (Colab small run)

Files changed (3) hide show

README.md +3 -3
replay.mp4 +0 -0
results.json +3 -3

README.md CHANGED Viewed

@@ -17,7 +17,7 @@ model-index:
       type: CartPole-v1
     metrics:
     - type: mean_reward
-      value: 71.20 +/- 43.31
       name: mean_reward
       verified: false
 ---
@@ -27,5 +27,5 @@ model-index:
 Trained with a minimal CleanRL-style PPO implementation in Google Colab.
 ## Results
-- Mean reward: **71.20**
-- Std reward: **43.31**

       type: CartPole-v1
     metrics:
     - type: mean_reward
+      value: 83.60 +/- 50.09
       name: mean_reward
       verified: false
 ---
 Trained with a minimal CleanRL-style PPO implementation in Google Colab.
 ## Results
+- Mean reward: **83.60**
+- Std reward: **50.09**

replay.mp4 CHANGED Viewed

Binary files a/replay.mp4 and b/replay.mp4 differ

results.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "env_id": "CartPole-v1",
-  "mean_reward": 71.2,
-  "std_reward": 43.31235389585748,
   "n_evaluation_episodes": 10,
-  "eval_datetime": "2026-01-07T04:34:32.062705"
 }

 {
   "env_id": "CartPole-v1",
+  "mean_reward": 83.6,
+  "std_reward": 50.08632547911655,
   "n_evaluation_episodes": 10,
+  "eval_datetime": "2026-01-07T04:36:19.605208"
 }