tarmus
/

hw3-rl-models

+---
+license: mit
+tags:
+  - reinforcement-learning
+  - panda-gym
+  - stable-baselines3
+  - sb3-contrib
+  - hw3
+---
+# HW3 — model checkpoints
+Trained checkpoints for *EN.601.495/695 Introduction to Robot Learning, Spring 2026, HW3*.
+Each subdirectory mirrors `starter-code/logs/<algo>/<env>_N/` from
+[github.com/tarcode2004/hw3-rl](https://github.com/tarcode2004/hw3-rl)
+and contains the `best_model.zip` (saved by SB3's `EvalCallback`),
+the `evaluations.npz` curves, and the run's monitor csv.
+The headline result is **TQC + HER + TimeFeatureWrapper on
+PandaPickAndPlace-v3**: 92–98 % success on 50 deterministic eval
+episodes. See the [standalone repo](https://huggingface.co/tarmus/tqc-PandaPickAndPlace-v3)
+for that model.
+## Layout
+| Path | Algo / wrapper | Env | Notes |
+|------|----------------|-----|-------|
+| `zoo3/sac-PandaReach-v3` | zoo3 | sac-PandaReach-v3 | SAC + HER, sparse, converged 100% by 5k steps |
+| `zoo3/sac-PandaPush-v3` | zoo3 | sac-PandaPush-v3 | SAC + HER, sparse, killed at 639k by reboot, best_model from peak |
+| `zoo3/tqc-PandaPickAndPlace-v3` | zoo3 | tqc-PandaPickAndPlace-v3 | TQC + HER + TimeFeatureWrapper, sparse, 92-98% deterministic eval |
+| `zoo3/ppo-PandaReach-v3` | zoo3 | ppo-PandaReach-v3 | PPO sparse, converged ~100K |
+| `minimal_sac/PandaReachDense-v3` | minimal_sac | PandaReachDense-v3 | vanilla SAC, dense reward, 20K steps |
+| `minimal_sac/PandaPickAndPlaceDense-v3` | minimal_sac | PandaPickAndPlaceDense-v3 | vanilla SAC, dense reward, 300K steps |
+| `minimal_sac/PandaPushDense-v3` | minimal_sac | PandaPushDense-v3 | vanilla SAC, dense reward, 300K steps |
+| `mbrl/PandaReachDense-v3` | mbrl | PandaReachDense-v3 | Basic MBRL (random data + dynamics + SAC on surrogate) |
+| `mbrl/PandaPickAndPlaceDense-v3` | mbrl | PandaPickAndPlaceDense-v3 | Basic MBRL, partial run (stopped ~220K) |