Upload folder using huggingface_hub

Files changed (5) hide show

README.md CHANGED Viewed

@@ -16,7 +16,7 @@ model-index:
       type: Pixelcopter-PLE-v0
     metrics:
     - type: mean_reward
-      value: 15.23 +/- 14.93
       name: mean_reward
       verified: false
 ---

       type: Pixelcopter-PLE-v0
     metrics:
     - type: mean_reward
+      value: 13.82 +/- 13.88
       name: mean_reward
       verified: false
 ---

hyperparameters.json CHANGED Viewed

@@ -1,14 +1,23 @@
 {
-  "h_size": 30,
-  "n_training_episodes": 10000,
-  "n_evaluation_episodes": 30,
-  "max_t": 10000,
   "gamma": 0.99,
-  "lr": 0.001,
   "use_ema_baseline": true,
   "baseline_beta": 0.98,
   "normalize_advantages": true,
-  "env_id": "Pixelcopter-PLE-v0",
-  "state_space": 7,
-  "action_space": 2
 }

 {
+  "env_id": "Pixelcopter-PLE-v0",
+  "h_size": 128,
+  "lr": 0.00015,
   "gamma": 0.99,
+  "max_t": 5000,
+  "n_training_episodes": 20000,
+  "print_every": 1000,
+  "use_baseline": true,
+  "obs_scale": 55.0,
+  "clip_obs": 10.0,
+  "use_gap_shaping": true,
+  "gap_shaping_k": 0.1,
+  "use_entropy_bonus": true,
+  "entropy_coef": 0.01,
   "use_ema_baseline": true,
   "baseline_beta": 0.98,
   "normalize_advantages": true,
+  "use_wall_penalty": true,
+  "wall_margin": 12.0,
+  "wall_penalty": 0.05,
+  "n_evaluation_episodes": 50
 }

model.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c327e107ce938a7a561c50cd8199cc9d80976ca8977b5e256a9c0e73c38a3d46
-size 12861

 version https://git-lfs.github.com/spec/v1
+oid sha256:5db9b6e70cefb2108d34408c4a07d1b5e97ec0a05eb7b08f0013459d4822e9ea
+size 8265

replay.mp4 CHANGED Viewed

Binary files a/replay.mp4 and b/replay.mp4 differ

results.json CHANGED Viewed

@@ -1,7 +1,9 @@
 {
   "env_id": "Pixelcopter-PLE-v0",
-  "mean_reward": 15.233333333333333,
-  "std_reward": 14.932477654056237,
-  "n_evaluation_episodes": 30,
-  "eval_datetime": "2026-02-17T02:42:33.068182"
 }

 {
   "env_id": "Pixelcopter-PLE-v0",
+  "mean_reward": 13.82,
+  "std_reward": 13.877593451315684,
+  "mean_episode_length": 118.9,
+  "std_episode_length": 78.96005319147145,
+  "n_evaluation_episodes": 50,
+  "eval_datetime": "2026-02-17T03:00:41.303951"
 }