RoboTwin ACT on beat_block_hammer demo_clean-50

这是一次基于 RoboTwin 官方代码仓库的单任务具身智能闭环实验模型产物。

平台版本：RoboTwin main
上游提交：958a6d2910a0262f5531fcdeb7fffae4184bb586
任务：beat_block_hammer
数据配置：demo_clean
专家轨迹数：50
策略：ACT

仓库内容

policy_best.ckpt
policy_last.ckpt
dataset_stats.pkl
训练曲线图
results.json

实验设置

数据来源：RoboTwin 官方 collect_data.sh 流程生成的 demo_clean 50 专家轨迹
预处理：RoboTwin 官方 ACT process_data.sh
训练脚本：RoboTwin 官方 ACT train.sh
训练参数：
- batch_size=8
- num_epochs=6000
- chunk_size=50
- hidden_dim=512
- dim_feedforward=3200
- seed=0

核心结果

同分布评测 demo_clean -> demo_clean：0.64
跨配置评测 demo_clean -> demo_randomized：0.0

工程心得

这次实验最有价值的地方，不是单独得到一个 checkpoint，而是完整跑通了具身智能中的环境、专家、数据、模型、部署、评测闭环：

RoboTwin 环境程序化定义任务与成功条件。
官方专家程序自动生成并筛选成功轨迹。
原始多模态数据落盘为 raw HDF5 / video / instruction / trajectory。
ACT 预处理把采集格式转换为训练格式。
模型通过离线模仿学习吸收专家行为。
学到的策略重新部署回环境接受正式评测。

从结果上看，ACT 已经学会了 clean 条件下的单任务执行模式，但对 randomized 环境几乎没有泛化能力。这正对应 RoboTwin 2.0 的研究动机：仅在干净分布上成功并不等于策略具有稳健性，强 domain randomization 和更高质量、更大规模的数据生成仍然是核心问题。

学术上下文

这个实验对应的是 RoboTwin 研究体系中的下游策略学习部分：

RoboTwin 1.0 强调数字孪生 benchmark 对双臂操作的价值。
RoboTwin 2.0 强调可扩展数据生成和强 domain randomization。
本仓库展示的是在 beat_block_hammer 上完成的单任务闭环复现。

引用

如果你使用了这些模型产物，请同时引用 RoboTwin 官方论文与代码仓库。

Downloads last month: -; Downloads are not tracked for this model. How to track

Video Preview

Robotics