RoboTwin ACT on beat_block_hammer demo_clean-50

这是一次基于 RoboTwin 官方代码仓库的单任务具身智能闭环实验模型产物。

  • 平台版本:RoboTwin main
  • 上游提交:958a6d2910a0262f5531fcdeb7fffae4184bb586
  • 任务:beat_block_hammer
  • 数据配置:demo_clean
  • 专家轨迹数:50
  • 策略:ACT

仓库内容

  • policy_best.ckpt
  • policy_last.ckpt
  • dataset_stats.pkl
  • 训练曲线图
  • results.json

实验设置

  • 数据来源:RoboTwin 官方 collect_data.sh 流程生成的 demo_clean 50 专家轨迹
  • 预处理:RoboTwin 官方 ACT process_data.sh
  • 训练脚本:RoboTwin 官方 ACT train.sh
  • 训练参数:
    • batch_size=8
    • num_epochs=6000
    • chunk_size=50
    • hidden_dim=512
    • dim_feedforward=3200
    • seed=0

核心结果

  • 同分布评测 demo_clean -> demo_clean0.64
  • 跨配置评测 demo_clean -> demo_randomized0.0

工程心得

这次实验最有价值的地方,不是单独得到一个 checkpoint,而是完整跑通了具身智能中的环境、专家、数据、模型、部署、评测闭环:

  1. RoboTwin 环境程序化定义任务与成功条件。
  2. 官方专家程序自动生成并筛选成功轨迹。
  3. 原始多模态数据落盘为 raw HDF5 / video / instruction / trajectory。
  4. ACT 预处理把采集格式转换为训练格式。
  5. 模型通过离线模仿学习吸收专家行为。
  6. 学到的策略重新部署回环境接受正式评测。

从结果上看,ACT 已经学会了 clean 条件下的单任务执行模式,但对 randomized 环境几乎没有泛化能力。这正对应 RoboTwin 2.0 的研究动机:仅在干净分布上成功并不等于策略具有稳健性,强 domain randomization 和更高质量、更大规模的数据生成仍然是核心问题。

学术上下文

这个实验对应的是 RoboTwin 研究体系中的下游策略学习部分:

  • RoboTwin 1.0 强调数字孪生 benchmark 对双臂操作的价值。
  • RoboTwin 2.0 强调可扩展数据生成和强 domain randomization。
  • 本仓库展示的是在 beat_block_hammer 上完成的单任务闭环复现。

引用

如果你使用了这些模型产物,请同时引用 RoboTwin 官方论文与代码仓库。

Downloads last month

-

Downloads are not tracked for this model. How to track
Video Preview
loading