项目状态总结 - Project Status Summary
最后更新:2026-01-20 本文档提供项目当前状态的快照总结,方便快速了解项目进展
🎯 项目目标
训练一个视觉奖励模型(Reward Model),用于:
- 输入:机器人操作视频帧
- 输出:操作阶段、奖励分数、失败检测
- 应用:为 VLA (Vision-Language-Action) 模型的强化学习提供奖励信号
📊 当前状态一览
| 模块 | 进度 | 状态 |
|---|---|---|
| 数据处理流水线 | 100% | ✅ 完成 |
| GPT 标注系统 | 100% | ✅ 完成 |
| 本地模型推理(Qwen-VL) | 100% | ✅ 完成 |
| 数据格式转换 | 100% | ✅ 完成 |
| 小规模模型训练 | 100% | ✅ 完成 |
| 数据集管理工具 | 100% | ✅ 完成 |
| 大规模数据标注 | 5% | ⏳ 进行中 |
| 模型评估系统 | 0% | 📋 待启动 |
| Policy 集成 | 0% | 📋 待启动 |
📈 数据规模
真机数据(DROID)
| 数据类型 | 数量 | 状态 |
|---|---|---|
| 总轨迹数 | 15,157 条 | ✅ 已统计 |
| Failure 轨迹 | ~8,000 条 | ✅ 已统计 |
| 已标注视频 | ~100 条 | ✅ 完成 |
| 目标标注数 | 2,500+ 条 | ⏳ 待完成 |
仿真数据
| 数据源 | 数量 | 状态 |
|---|---|---|
| cokecan-50 本地 | 50 条 | ✅ 已整理 |
| fangyu 仿真 | ~800 条 | 📋 待整合 |
| yangyue Libero | 未知 | 📋 待整合 |
🔬 模型训练
已训练检查点
| 版本 | 类型 | Checkpoint | 训练数据量 |
|---|---|---|---|
| v0 | 标准 SFT | checkpoint-28 | ~100 samples |
| v1 | 标准 SFT | checkpoint-7 | ~100 samples |
| v0-special | Special Token | checkpoint-7 | ~100 samples |
| v1-special | Special Token | checkpoint-70 | ~100 samples |
| v2-special | Special Token (merge) | checkpoint-70 | ~100 samples |
注意:所有当前模型都是基于小规模数据训练,性能有限。
🎨 标注系统
标注方式
| 方式 | 模型 | 状态 | 推荐 |
|---|---|---|---|
| GPT-4o | OpenAI API | ✅ 可用 | ⭐⭐⭐ |
| Claude | 本地部署 | ✅ 可用 | ⭐⭐ |
| Qwen-VL | 本地推理 | ✅ 可用 | ⭐ |
标注质量
| 指标 | 状态 |
|---|---|
| 人工质量评估 | ❌ 未开始 |
| Golden Set | ❌ 未创建 |
| 一致性检查 | ❌ 未开始 |
| 失败案例分析 | ❌ 未开始 |
📁 数据文件统计
标注输出
output/
├── labels_batch.jsonl # 基础版标注(~100 条)
├── labels_batch_improved.jsonl # 改进版标注(~100 条)
├── labels_batch_1111.jsonl # 1111 批次
└── labels_hf_dataset.jsonl # HuggingFace 数据集标注
训练数据
data/
├── sft_frames_dataset.json # SFT 训练数据(中间格式)
├── sft_frames_dataset_sft.json # SFT 训练数据(最终格式)
├── sft_reward_dataset.json # Reward 训练数据
└── sft_reward_dataset_special_tokens.json # Special Token 版本
帧图片
data/frames/
├── 2023-07-07/
│ └── session_xxx/
│ ├── 22008760_frame_0.jpg
│ ├── 22008760_frame_1.jpg
│ └── ...
└── frame_index_map.csv # 索引映射表
🛠️ 技术栈
核心依赖
| 工具 | 版本 | 用途 |
|---|---|---|
| Python | 3.8+ | 主要开发语言 |
| PyTorch | 2.0+ | 深度学习框架 |
| transformers | latest | 模型训练 |
| ms-swift | latest | SFT 训练 |
| decord | latest | 视频解码 |
| OpenAI SDK | latest | GPT API 调用 |
| tensorflow_datasets | latest | DROID 数据加载 |
模型
| 模型 | 用途 | 状态 |
|---|---|---|
| Qwen-VL | 视觉理解 + 标注生成 | ✅ 使用中 |
| GPT-4o | 视频标注(Ground Truth) | ✅ 使用中 |
| Claude 3.7 Sonnet | 视频标注(备选) | ✅ 可用 |
📝 文档完整性
| 文档 | 状态 | 说明 |
|---|---|---|
| PROJECT_OVERVIEW.md | ✅ 完整 | 项目整体概述 |
| CURRENT_PROGRESS.md | ✅ 完整 | 当前进展详情 |
| NEXT_STEPS.md | ✅ 完整 | 下一步工作计划 |
| QUICK_START_FOR_AGENT.md | ✅ 完整 | AI Agent 快速开始 |
| CODE_GUIDE.md | ✅ 完整 | 代码详细说明 |
| PROJECT_STATUS.md | ✅ 完整 | 本文档 |
| README_improved_api.md | ✅ 完整 | 改进版 API 说明 |
| dataset_source.md | ⚠️ 简略 | 数据源列表(待完善) |
🚀 近期里程碑
已完成(2025-11)
- ✅ 完成数据处理流水线
- ✅ 实现 GPT 滑动窗口标注
- ✅ 完成小规模模型训练
- ✅ 建立 HuggingFace 数据集工具
进行中(2026-01)
- ⏳ 扩大标注规模(目标 2500+ 条)
- ⏳ 完善项目文档
待启动(优先级 P0)
- 📋 人工标注 Golden Set(100-200 条)
- 📋 标注质量评估
- 📋 大规模模型训练(2000+ 条数据)
- 📋 建立评估体系
💰 成本估算
已产生成本
| 项目 | 数量 | 成本估算 |
|---|---|---|
| GPT-4o 标注 | ~100 视频 | ~$5-10 |
| GPU 训练时间 | ~20 小时 | ~$20-40 |
| 总计 | - | ~$25-50 |
预计成本(扩大规模)
| 项目 | 数量 | 成本估算 |
|---|---|---|
| GPT-4o 标注 | 2500 视频 × 10 帧 | $50-100 |
| GPU 训练 | 50 小时 | $50-100 |
| 人工标注 | 200 条 × 15 分钟 | 50 人时 |
| 总计 | - | $100-200 + 50 人时 |
⚠️ 当前问题
阻塞问题(需立即解决)
标注规模不足
- 当前:~100 条
- 需要:2500+ 条
- 影响:模型性能有限,无法有效泛化
缺乏质量评估
- 无人工 Golden Set
- 不知道 GPT 标注准确率
- 影响:不确定数据质量
技术债务
模型评估
- 缺少评估指标
- 缺少 held-out test set
- 无法对比不同版本
数据管理
- 仿真数据未整合
- 数据分布不均衡(failure >> success)
🎯 下一步行动
优先级 P0(紧急且重要)
扩大标注规模
# 目标:标注 2500 条视频 python api_batch_improved.py # MAX_VIDEOS=2500人工质量评估
- 抽样 100 条视频
- 人工标注作为 Golden Set
- 计算 GPT 标注准确率
大规模训练
- 使用完整标注数据
- 训练新的模型版本
- 保存检查点
优先级 P1(重要但不紧急)
建立评估体系
- Stage 分类准确率
- Reward 预测误差(MAE, RMSE)
- Failure 检测能力(precision, recall)
整合仿真数据
- 整合 fangyu 数据(~800 条)
- 整合 yangyue Libero 数据
- 对齐格式
📞 联系方式
如有问题,请查阅:
📅 更新历史
| 日期 | 更新内容 |
|---|---|
| 2026-01-20 | 创建项目状态文档 |
| 2025-11-11 | Special Token v2 训练完成 |
| 2025-11-10 | 改进版 SFT 训练完成 |
| 2025-11-05 | 基础版 SFT 训练完成 |