{
  "schema_version": "0.1",
  "source": {
    "paper": "https://arxiv.org/abs/2303.04137",
    "arxiv": "https://arxiv.org/abs/2303.04137",
    "model_variant": "diffusion",
    "evaluated_by": "OpenRAL:openral benchmark run",
    "reproduced_locally": true,
    "reproduction_planned": null,
    "reproduction_cli": "openral benchmark run --suite pusht --rskill rskill://diffusion-pusht",
    "table": null,
    "status": "reproduced"
  },
  "benchmark": {
    "name": "PushT (gym-pusht)",
    "dataset": null,
    "protocol": "50 episodes per task, success_key=is_success, max_steps=300",
    "robot": "pusht_2d",
    "simulator": "gym-pusht (pymunk 2-D)"
  },
  "eval_config": {
    "n_episodes": 50,
    "seeds": [
      0,
      1,
      2,
      3,
      4,
      5,
      6,
      7,
      8,
      9,
      10,
      11,
      12,
      13,
      14,
      15,
      16,
      17,
      18,
      19,
      20,
      21,
      22,
      23,
      24,
      25,
      26,
      27,
      28,
      29,
      30,
      31,
      32,
      33,
      34,
      35,
      36,
      37,
      38,
      39,
      40,
      41,
      42,
      43,
      44,
      45,
      46,
      47,
      48,
      49
    ],
    "success_key": "is_success",
    "max_steps": 300,
    "vla_id": "diffusion",
    "weights_uri": "rskill://rskills/diffusion-pusht"
  },
  "results": {
    "pusht/0_success_rate": 0.6,
    "avg_success_rate": 0.6,
    "n_tasks": 1,
    "n_episodes_per_task": 50,
    "n_episodes_total": 50,
    "mean_step_latency_ms_avg": 232.5852261891309,
    "mean_coverage_iou": 0.9496237652727986
  },
  "baselines": {}
}