---
language:
- zh
tags:
- robotwin
- embodied-ai
- robotics
- bimanual-manipulation
- imitation-learning
- act
- pytorch
library_name: pytorch
license: other
---

# RoboTwin ACT on beat_block_hammer demo_clean-50

这是一次基于 RoboTwin 官方代码仓库的单任务具身智能闭环实验模型产物。

- 平台版本：RoboTwin `main`
- 上游提交：`958a6d2910a0262f5531fcdeb7fffae4184bb586`
- 任务：`beat_block_hammer`
- 数据配置：`demo_clean`
- 专家轨迹数：`50`
- 策略：`ACT`

## 仓库内容

- `policy_best.ckpt`
- `policy_last.ckpt`
- `dataset_stats.pkl`
- 训练曲线图
- `results.json`

## 实验设置

- 数据来源：RoboTwin 官方 `collect_data.sh` 流程生成的 `demo_clean 50` 专家轨迹
- 预处理：RoboTwin 官方 ACT `process_data.sh`
- 训练脚本：RoboTwin 官方 ACT `train.sh`
- 训练参数：
  - `batch_size=8`
  - `num_epochs=6000`
  - `chunk_size=50`
  - `hidden_dim=512`
  - `dim_feedforward=3200`
  - `seed=0`

## 核心结果

- 同分布评测 `demo_clean -> demo_clean`：`0.64`
- 跨配置评测 `demo_clean -> demo_randomized`：`0.0`

## 工程心得

这次实验最有价值的地方，不是单独得到一个 checkpoint，而是完整跑通了具身智能中的环境、专家、数据、模型、部署、评测闭环：

1. RoboTwin 环境程序化定义任务与成功条件。
2. 官方专家程序自动生成并筛选成功轨迹。
3. 原始多模态数据落盘为 raw HDF5 / video / instruction / trajectory。
4. ACT 预处理把采集格式转换为训练格式。
5. 模型通过离线模仿学习吸收专家行为。
6. 学到的策略重新部署回环境接受正式评测。

从结果上看，ACT 已经学会了 clean 条件下的单任务执行模式，但对 randomized 环境几乎没有泛化能力。这正对应 RoboTwin 2.0 的研究动机：仅在干净分布上成功并不等于策略具有稳健性，强 domain randomization 和更高质量、更大规模的数据生成仍然是核心问题。

## 学术上下文

这个实验对应的是 RoboTwin 研究体系中的下游策略学习部分：

- RoboTwin 1.0 强调数字孪生 benchmark 对双臂操作的价值。
- RoboTwin 2.0 强调可扩展数据生成和强 domain randomization。
- 本仓库展示的是在 `beat_block_hammer` 上完成的单任务闭环复现。

## 引用

如果你使用了这些模型产物，请同时引用 RoboTwin 官方论文与代码仓库。