errm / docs /PROJECT_STATUS.md
yuffish's picture
Add files using upload-large-folder tool
a741a7c verified

项目状态总结 - Project Status Summary

最后更新:2026-01-20 本文档提供项目当前状态的快照总结,方便快速了解项目进展


🎯 项目目标

训练一个视觉奖励模型(Reward Model),用于:

  • 输入:机器人操作视频帧
  • 输出:操作阶段、奖励分数、失败检测
  • 应用:为 VLA (Vision-Language-Action) 模型的强化学习提供奖励信号

📊 当前状态一览

模块 进度 状态
数据处理流水线 100% ✅ 完成
GPT 标注系统 100% ✅ 完成
本地模型推理(Qwen-VL) 100% ✅ 完成
数据格式转换 100% ✅ 完成
小规模模型训练 100% ✅ 完成
数据集管理工具 100% ✅ 完成
大规模数据标注 5% ⏳ 进行中
模型评估系统 0% 📋 待启动
Policy 集成 0% 📋 待启动

📈 数据规模

真机数据(DROID)

数据类型 数量 状态
总轨迹数 15,157 条 ✅ 已统计
Failure 轨迹 ~8,000 条 ✅ 已统计
已标注视频 ~100 条 ✅ 完成
目标标注数 2,500+ 条 ⏳ 待完成

仿真数据

数据源 数量 状态
cokecan-50 本地 50 条 ✅ 已整理
fangyu 仿真 ~800 条 📋 待整合
yangyue Libero 未知 📋 待整合

🔬 模型训练

已训练检查点

版本 类型 Checkpoint 训练数据量
v0 标准 SFT checkpoint-28 ~100 samples
v1 标准 SFT checkpoint-7 ~100 samples
v0-special Special Token checkpoint-7 ~100 samples
v1-special Special Token checkpoint-70 ~100 samples
v2-special Special Token (merge) checkpoint-70 ~100 samples

注意:所有当前模型都是基于小规模数据训练,性能有限。


🎨 标注系统

标注方式

方式 模型 状态 推荐
GPT-4o OpenAI API ✅ 可用 ⭐⭐⭐
Claude 本地部署 ✅ 可用 ⭐⭐
Qwen-VL 本地推理 ✅ 可用

标注质量

指标 状态
人工质量评估 ❌ 未开始
Golden Set ❌ 未创建
一致性检查 ❌ 未开始
失败案例分析 ❌ 未开始

📁 数据文件统计

标注输出

output/
├── labels_batch.jsonl              # 基础版标注(~100 条)
├── labels_batch_improved.jsonl     # 改进版标注(~100 条)
├── labels_batch_1111.jsonl         # 1111 批次
└── labels_hf_dataset.jsonl         # HuggingFace 数据集标注

训练数据

data/
├── sft_frames_dataset.json                 # SFT 训练数据(中间格式)
├── sft_frames_dataset_sft.json            # SFT 训练数据(最终格式)
├── sft_reward_dataset.json                # Reward 训练数据
└── sft_reward_dataset_special_tokens.json # Special Token 版本

帧图片

data/frames/
├── 2023-07-07/
│   └── session_xxx/
│       ├── 22008760_frame_0.jpg
│       ├── 22008760_frame_1.jpg
│       └── ...
└── frame_index_map.csv  # 索引映射表

🛠️ 技术栈

核心依赖

工具 版本 用途
Python 3.8+ 主要开发语言
PyTorch 2.0+ 深度学习框架
transformers latest 模型训练
ms-swift latest SFT 训练
decord latest 视频解码
OpenAI SDK latest GPT API 调用
tensorflow_datasets latest DROID 数据加载

模型

模型 用途 状态
Qwen-VL 视觉理解 + 标注生成 ✅ 使用中
GPT-4o 视频标注(Ground Truth) ✅ 使用中
Claude 3.7 Sonnet 视频标注(备选) ✅ 可用

📝 文档完整性

文档 状态 说明
PROJECT_OVERVIEW.md ✅ 完整 项目整体概述
CURRENT_PROGRESS.md ✅ 完整 当前进展详情
NEXT_STEPS.md ✅ 完整 下一步工作计划
QUICK_START_FOR_AGENT.md ✅ 完整 AI Agent 快速开始
CODE_GUIDE.md ✅ 完整 代码详细说明
PROJECT_STATUS.md ✅ 完整 本文档
README_improved_api.md ✅ 完整 改进版 API 说明
dataset_source.md ⚠️ 简略 数据源列表(待完善)

🚀 近期里程碑

已完成(2025-11)

  • ✅ 完成数据处理流水线
  • ✅ 实现 GPT 滑动窗口标注
  • ✅ 完成小规模模型训练
  • ✅ 建立 HuggingFace 数据集工具

进行中(2026-01)

  • ⏳ 扩大标注规模(目标 2500+ 条)
  • ⏳ 完善项目文档

待启动(优先级 P0)

  • 📋 人工标注 Golden Set(100-200 条)
  • 📋 标注质量评估
  • 📋 大规模模型训练(2000+ 条数据)
  • 📋 建立评估体系

💰 成本估算

已产生成本

项目 数量 成本估算
GPT-4o 标注 ~100 视频 ~$5-10
GPU 训练时间 ~20 小时 ~$20-40
总计 - ~$25-50

预计成本(扩大规模)

项目 数量 成本估算
GPT-4o 标注 2500 视频 × 10 帧 $50-100
GPU 训练 50 小时 $50-100
人工标注 200 条 × 15 分钟 50 人时
总计 - $100-200 + 50 人时

⚠️ 当前问题

阻塞问题(需立即解决)

  1. 标注规模不足

    • 当前:~100 条
    • 需要:2500+ 条
    • 影响:模型性能有限,无法有效泛化
  2. 缺乏质量评估

    • 无人工 Golden Set
    • 不知道 GPT 标注准确率
    • 影响:不确定数据质量

技术债务

  1. 模型评估

    • 缺少评估指标
    • 缺少 held-out test set
    • 无法对比不同版本
  2. 数据管理

    • 仿真数据未整合
    • 数据分布不均衡(failure >> success)

🎯 下一步行动

优先级 P0(紧急且重要)

  1. 扩大标注规模

    # 目标:标注 2500 条视频
    python api_batch_improved.py  # MAX_VIDEOS=2500
    
  2. 人工质量评估

    • 抽样 100 条视频
    • 人工标注作为 Golden Set
    • 计算 GPT 标注准确率
  3. 大规模训练

    • 使用完整标注数据
    • 训练新的模型版本
    • 保存检查点

优先级 P1(重要但不紧急)

  1. 建立评估体系

    • Stage 分类准确率
    • Reward 预测误差(MAE, RMSE)
    • Failure 检测能力(precision, recall)
  2. 整合仿真数据

    • 整合 fangyu 数据(~800 条)
    • 整合 yangyue Libero 数据
    • 对齐格式

📞 联系方式

如有问题,请查阅:


📅 更新历史

日期 更新内容
2026-01-20 创建项目状态文档
2025-11-11 Special Token v2 训练完成
2025-11-10 改进版 SFT 训练完成
2025-11-05 基础版 SFT 训练完成