errm / docs /PROJECT_STATUS.md
yuffish's picture
Add files using upload-large-folder tool
a741a7c verified
# 项目状态总结 - Project Status Summary
> 最后更新:2026-01-20
> 本文档提供项目当前状态的快照总结,方便快速了解项目进展
---
## 🎯 项目目标
**训练一个视觉奖励模型(Reward Model)**,用于:
- 输入:机器人操作视频帧
- 输出:操作阶段、奖励分数、失败检测
- 应用:为 VLA (Vision-Language-Action) 模型的强化学习提供奖励信号
---
## 📊 当前状态一览
| 模块 | 进度 | 状态 |
|------|------|------|
| 数据处理流水线 | 100% | ✅ 完成 |
| GPT 标注系统 | 100% | ✅ 完成 |
| 本地模型推理(Qwen-VL) | 100% | ✅ 完成 |
| 数据格式转换 | 100% | ✅ 完成 |
| 小规模模型训练 | 100% | ✅ 完成 |
| 数据集管理工具 | 100% | ✅ 完成 |
| **大规模数据标注** | 5% | ⏳ 进行中 |
| **模型评估系统** | 0% | 📋 待启动 |
| **Policy 集成** | 0% | 📋 待启动 |
---
## 📈 数据规模
### 真机数据(DROID)
| 数据类型 | 数量 | 状态 |
|---------|------|------|
| 总轨迹数 | 15,157 条 | ✅ 已统计 |
| Failure 轨迹 | ~8,000 条 | ✅ 已统计 |
| 已标注视频 | ~100 条 | ✅ 完成 |
| **目标标注数** | **2,500+ 条** | ⏳ 待完成 |
### 仿真数据
| 数据源 | 数量 | 状态 |
|--------|------|------|
| cokecan-50 本地 | 50 条 | ✅ 已整理 |
| fangyu 仿真 | ~800 条 | 📋 待整合 |
| yangyue Libero | 未知 | 📋 待整合 |
---
## 🔬 模型训练
### 已训练检查点
| 版本 | 类型 | Checkpoint | 训练数据量 |
|------|------|------------|-----------|
| v0 | 标准 SFT | checkpoint-28 | ~100 samples |
| v1 | 标准 SFT | checkpoint-7 | ~100 samples |
| v0-special | Special Token | checkpoint-7 | ~100 samples |
| v1-special | Special Token | checkpoint-70 | ~100 samples |
| v2-special | Special Token (merge) | checkpoint-70 | ~100 samples |
**注意**:所有当前模型都是基于小规模数据训练,性能有限。
---
## 🎨 标注系统
### 标注方式
| 方式 | 模型 | 状态 | 推荐 |
|------|------|------|------|
| GPT-4o | OpenAI API | ✅ 可用 | ⭐⭐⭐ |
| Claude | 本地部署 | ✅ 可用 | ⭐⭐ |
| Qwen-VL | 本地推理 | ✅ 可用 | ⭐ |
### 标注质量
| 指标 | 状态 |
|------|------|
| 人工质量评估 | ❌ 未开始 |
| Golden Set | ❌ 未创建 |
| 一致性检查 | ❌ 未开始 |
| 失败案例分析 | ❌ 未开始 |
---
## 📁 数据文件统计
### 标注输出
```
output/
├── labels_batch.jsonl # 基础版标注(~100 条)
├── labels_batch_improved.jsonl # 改进版标注(~100 条)
├── labels_batch_1111.jsonl # 1111 批次
└── labels_hf_dataset.jsonl # HuggingFace 数据集标注
```
### 训练数据
```
data/
├── sft_frames_dataset.json # SFT 训练数据(中间格式)
├── sft_frames_dataset_sft.json # SFT 训练数据(最终格式)
├── sft_reward_dataset.json # Reward 训练数据
└── sft_reward_dataset_special_tokens.json # Special Token 版本
```
### 帧图片
```
data/frames/
├── 2023-07-07/
│ └── session_xxx/
│ ├── 22008760_frame_0.jpg
│ ├── 22008760_frame_1.jpg
│ └── ...
└── frame_index_map.csv # 索引映射表
```
---
## 🛠️ 技术栈
### 核心依赖
| 工具 | 版本 | 用途 |
|------|------|------|
| Python | 3.8+ | 主要开发语言 |
| PyTorch | 2.0+ | 深度学习框架 |
| transformers | latest | 模型训练 |
| ms-swift | latest | SFT 训练 |
| decord | latest | 视频解码 |
| OpenAI SDK | latest | GPT API 调用 |
| tensorflow_datasets | latest | DROID 数据加载 |
### 模型
| 模型 | 用途 | 状态 |
|------|------|------|
| Qwen-VL | 视觉理解 + 标注生成 | ✅ 使用中 |
| GPT-4o | 视频标注(Ground Truth) | ✅ 使用中 |
| Claude 3.7 Sonnet | 视频标注(备选) | ✅ 可用 |
---
## 📝 文档完整性
| 文档 | 状态 | 说明 |
|------|------|------|
| PROJECT_OVERVIEW.md | ✅ 完整 | 项目整体概述 |
| CURRENT_PROGRESS.md | ✅ 完整 | 当前进展详情 |
| NEXT_STEPS.md | ✅ 完整 | 下一步工作计划 |
| QUICK_START_FOR_AGENT.md | ✅ 完整 | AI Agent 快速开始 |
| CODE_GUIDE.md | ✅ 完整 | 代码详细说明 |
| PROJECT_STATUS.md | ✅ 完整 | 本文档 |
| README_improved_api.md | ✅ 完整 | 改进版 API 说明 |
| dataset_source.md | ⚠️ 简略 | 数据源列表(待完善)|
---
## 🚀 近期里程碑
### 已完成(2025-11)
- ✅ 完成数据处理流水线
- ✅ 实现 GPT 滑动窗口标注
- ✅ 完成小规模模型训练
- ✅ 建立 HuggingFace 数据集工具
### 进行中(2026-01)
- ⏳ 扩大标注规模(目标 2500+ 条)
- ⏳ 完善项目文档
### 待启动(优先级 P0)
- 📋 人工标注 Golden Set(100-200 条)
- 📋 标注质量评估
- 📋 大规模模型训练(2000+ 条数据)
- 📋 建立评估体系
---
## 💰 成本估算
### 已产生成本
| 项目 | 数量 | 成本估算 |
|------|------|---------|
| GPT-4o 标注 | ~100 视频 | ~$5-10 |
| GPU 训练时间 | ~20 小时 | ~$20-40 |
| **总计** | - | **~$25-50** |
### 预计成本(扩大规模)
| 项目 | 数量 | 成本估算 |
|------|------|---------|
| GPT-4o 标注 | 2500 视频 × 10 帧 | $50-100 |
| GPU 训练 | 50 小时 | $50-100 |
| 人工标注 | 200 条 × 15 分钟 | 50 人时 |
| **总计** | - | **$100-200 + 50 人时** |
---
## ⚠️ 当前问题
### 阻塞问题(需立即解决)
1. **标注规模不足**
- 当前:~100 条
- 需要:2500+ 条
- 影响:模型性能有限,无法有效泛化
2. **缺乏质量评估**
- 无人工 Golden Set
- 不知道 GPT 标注准确率
- 影响:不确定数据质量
### 技术债务
1. **模型评估**
- 缺少评估指标
- 缺少 held-out test set
- 无法对比不同版本
2. **数据管理**
- 仿真数据未整合
- 数据分布不均衡(failure >> success)
---
## 🎯 下一步行动
### 优先级 P0(紧急且重要)
1. **扩大标注规模**
```bash
# 目标:标注 2500 条视频
python api_batch_improved.py # MAX_VIDEOS=2500
```
2. **人工质量评估**
- 抽样 100 条视频
- 人工标注作为 Golden Set
- 计算 GPT 标注准确率
3. **大规模训练**
- 使用完整标注数据
- 训练新的模型版本
- 保存检查点
### 优先级 P1(重要但不紧急)
4. **建立评估体系**
- Stage 分类准确率
- Reward 预测误差(MAE, RMSE)
- Failure 检测能力(precision, recall)
5. **整合仿真数据**
- 整合 fangyu 数据(~800 条)
- 整合 yangyue Libero 数据
- 对齐格式
---
## 📞 联系方式
如有问题,请查阅:
- [代码指南](./CODE_GUIDE.md) - 详细脚本说明
- [快速开始](./QUICK_START_FOR_AGENT.md) - 快速上手指南
- [下一步计划](./NEXT_STEPS.md) - 详细工作计划
---
## 📅 更新历史
| 日期 | 更新内容 |
|------|---------|
| 2026-01-20 | 创建项目状态文档 |
| 2025-11-11 | Special Token v2 训练完成 |
| 2025-11-10 | 改进版 SFT 训练完成 |
| 2025-11-05 | 基础版 SFT 训练完成 |