| language: | |
| - zh | |
| tags: | |
| - robotwin | |
| - embodied-ai | |
| - robotics | |
| - bimanual-manipulation | |
| - imitation-learning | |
| - act | |
| - pytorch | |
| library_name: pytorch | |
| license: other | |
| # RoboTwin ACT on beat_block_hammer demo_clean-50 | |
| 这是一次基于 RoboTwin 官方代码仓库的单任务具身智能闭环实验模型产物。 | |
| - 平台版本:RoboTwin `main` | |
| - 上游提交:`958a6d2910a0262f5531fcdeb7fffae4184bb586` | |
| - 任务:`beat_block_hammer` | |
| - 数据配置:`demo_clean` | |
| - 专家轨迹数:`50` | |
| - 策略:`ACT` | |
| ## 仓库内容 | |
| - `policy_best.ckpt` | |
| - `policy_last.ckpt` | |
| - `dataset_stats.pkl` | |
| - 训练曲线图 | |
| - `results.json` | |
| ## 实验设置 | |
| - 数据来源:RoboTwin 官方 `collect_data.sh` 流程生成的 `demo_clean 50` 专家轨迹 | |
| - 预处理:RoboTwin 官方 ACT `process_data.sh` | |
| - 训练脚本:RoboTwin 官方 ACT `train.sh` | |
| - 训练参数: | |
| - `batch_size=8` | |
| - `num_epochs=6000` | |
| - `chunk_size=50` | |
| - `hidden_dim=512` | |
| - `dim_feedforward=3200` | |
| - `seed=0` | |
| ## 核心结果 | |
| - 同分布评测 `demo_clean -> demo_clean`:`0.64` | |
| - 跨配置评测 `demo_clean -> demo_randomized`:`0.0` | |
| ## 工程心得 | |
| 这次实验最有价值的地方,不是单独得到一个 checkpoint,而是完整跑通了具身智能中的环境、专家、数据、模型、部署、评测闭环: | |
| 1. RoboTwin 环境程序化定义任务与成功条件。 | |
| 2. 官方专家程序自动生成并筛选成功轨迹。 | |
| 3. 原始多模态数据落盘为 raw HDF5 / video / instruction / trajectory。 | |
| 4. ACT 预处理把采集格式转换为训练格式。 | |
| 5. 模型通过离线模仿学习吸收专家行为。 | |
| 6. 学到的策略重新部署回环境接受正式评测。 | |
| 从结果上看,ACT 已经学会了 clean 条件下的单任务执行模式,但对 randomized 环境几乎没有泛化能力。这正对应 RoboTwin 2.0 的研究动机:仅在干净分布上成功并不等于策略具有稳健性,强 domain randomization 和更高质量、更大规模的数据生成仍然是核心问题。 | |
| ## 学术上下文 | |
| 这个实验对应的是 RoboTwin 研究体系中的下游策略学习部分: | |
| - RoboTwin 1.0 强调数字孪生 benchmark 对双臂操作的价值。 | |
| - RoboTwin 2.0 强调可扩展数据生成和强 domain randomization。 | |
| - 本仓库展示的是在 `beat_block_hammer` 上完成的单任务闭环复现。 | |
| ## 引用 | |
| 如果你使用了这些模型产物,请同时引用 RoboTwin 官方论文与代码仓库。 | |