---
tags:
  - mousedroid
  - robotics
  - rssm
  - bdi
  - constitutional-rl
library_name: pytorch
---

# ianshank/mousedroid-weights

Trained weights for MouseDroid autonomous navigation system.

## Components

| Component | File | Description |
|-----------|------|-------------|
| RSSM World Model | `rssm/final.pt` | Recurrent State-Space Model |
| MCTS Policy Init | `mcts/policy_init.npz` | Warm-started PolicyMLP |
| BDI Belief | `bdi/belief.npz` | Belief encoder weights |
| BDI Desire | `bdi/desire.npz` | Desire encoder weights |
| BDI Intention | `bdi/intention.npz` | Intention predictor weights |
| BDI Affect | `bdi/affect.npz` | Affect estimator weights |
| Constitutional RL | `policy.npz`, `value.npz` | PPO policy + value networks |

## Training

Trained on Jetson Orin Nano (8 GB) using synthetic observation sequences.


## Training Metadata

```json
{
  "mcts_tuning": {
    "best_ucb_c": 1.41,
    "ucb_0.5": {
      "mean_reward": -1.6195,
      "p50_ms": 218.0,
      "p95_ms": 266.0
    },
    "ucb_1.0": {
      "mean_reward": -1.5376,
      "p50_ms": 203.0,
      "p95_ms": 265.05
    },
    "ucb_1.41": {
      "mean_reward": -1.6548,
      "p50_ms": 203.0,
      "p95_ms": 250.0
    },
    "ucb_2.0": {
      "mean_reward": -1.6197,
      "p50_ms": 203.0,
      "p95_ms": 250.0
    },
    "ucb_3.0": {
      "mean_reward": -1.4475,
      "p50_ms": 203.0,
      "p95_ms": 250.0
    }
  }
}
```