File size: 7,315 Bytes

a741a7c

# 项目状态总结 - Project Status Summary

> 最后更新：2026-01-20
> 本文档提供项目当前状态的快照总结，方便快速了解项目进展

---

## 🎯 项目目标

**训练一个视觉奖励模型（Reward Model）**，用于：
- 输入：机器人操作视频帧
- 输出：操作阶段、奖励分数、失败检测
- 应用：为 VLA (Vision-Language-Action) 模型的强化学习提供奖励信号

---

## 📊 当前状态一览

| 模块 | 进度 | 状态 |
|------|------|------|
| 数据处理流水线 | 100% | ✅ 完成 |
| GPT 标注系统 | 100% | ✅ 完成 |
| 本地模型推理（Qwen-VL） | 100% | ✅ 完成 |
| 数据格式转换 | 100% | ✅ 完成 |
| 小规模模型训练 | 100% | ✅ 完成 |
| 数据集管理工具 | 100% | ✅ 完成 |
| **大规模数据标注** | 5% | ⏳ 进行中 |
| **模型评估系统** | 0% | 📋 待启动 |
| **Policy 集成** | 0% | 📋 待启动 |

---

## 📈 数据规模

### 真机数据（DROID）

| 数据类型 | 数量 | 状态 |
|---------|------|------|
| 总轨迹数 | 15,157 条 | ✅ 已统计 |
| Failure 轨迹 | ~8,000 条 | ✅ 已统计 |
| 已标注视频 | ~100 条 | ✅ 完成 |
| **目标标注数** | **2,500+ 条** | ⏳ 待完成 |

### 仿真数据

| 数据源 | 数量 | 状态 |
|--------|------|------|
| cokecan-50 本地 | 50 条 | ✅ 已整理 |
| fangyu 仿真 | ~800 条 | 📋 待整合 |
| yangyue Libero | 未知 | 📋 待整合 |

---

## 🔬 模型训练

### 已训练检查点

| 版本 | 类型 | Checkpoint | 训练数据量 |
|------|------|------------|-----------|
| v0 | 标准 SFT | checkpoint-28 | ~100 samples |
| v1 | 标准 SFT | checkpoint-7 | ~100 samples |
| v0-special | Special Token | checkpoint-7 | ~100 samples |
| v1-special | Special Token | checkpoint-70 | ~100 samples |
| v2-special | Special Token (merge) | checkpoint-70 | ~100 samples |

**注意**：所有当前模型都是基于小规模数据训练，性能有限。

---

## 🎨 标注系统

### 标注方式

| 方式 | 模型 | 状态 | 推荐 |
|------|------|------|------|
| GPT-4o | OpenAI API | ✅ 可用 | ⭐⭐⭐ |
| Claude | 本地部署 | ✅ 可用 | ⭐⭐ |
| Qwen-VL | 本地推理 | ✅ 可用 | ⭐ |

### 标注质量

| 指标 | 状态 |
|------|------|
| 人工质量评估 | ❌ 未开始 |
| Golden Set | ❌ 未创建 |
| 一致性检查 | ❌ 未开始 |
| 失败案例分析 | ❌ 未开始 |

---

## 📁 数据文件统计

### 标注输出

```
output/
├── labels_batch.jsonl              # 基础版标注（~100 条）
├── labels_batch_improved.jsonl     # 改进版标注（~100 条）
├── labels_batch_1111.jsonl         # 1111 批次
└── labels_hf_dataset.jsonl         # HuggingFace 数据集标注
```

### 训练数据

```
data/
├── sft_frames_dataset.json                 # SFT 训练数据（中间格式）
├── sft_frames_dataset_sft.json            # SFT 训练数据（最终格式）
├── sft_reward_dataset.json                # Reward 训练数据
└── sft_reward_dataset_special_tokens.json # Special Token 版本
```

### 帧图片

```
data/frames/
├── 2023-07-07/
│   └── session_xxx/
│       ├── 22008760_frame_0.jpg
│       ├── 22008760_frame_1.jpg
│       └── ...
└── frame_index_map.csv  # 索引映射表
```

---

## 🛠️ 技术栈

### 核心依赖

| 工具 | 版本 | 用途 |
|------|------|------|
| Python | 3.8+ | 主要开发语言 |
| PyTorch | 2.0+ | 深度学习框架 |
| transformers | latest | 模型训练 |
| ms-swift | latest | SFT 训练 |
| decord | latest | 视频解码 |
| OpenAI SDK | latest | GPT API 调用 |
| tensorflow_datasets | latest | DROID 数据加载 |

### 模型

| 模型 | 用途 | 状态 |
|------|------|------|
| Qwen-VL | 视觉理解 + 标注生成 | ✅ 使用中 |
| GPT-4o | 视频标注（Ground Truth） | ✅ 使用中 |
| Claude 3.7 Sonnet | 视频标注（备选） | ✅ 可用 |

---

## 📝 文档完整性

| 文档 | 状态 | 说明 |
|------|------|------|
| PROJECT_OVERVIEW.md | ✅ 完整 | 项目整体概述 |
| CURRENT_PROGRESS.md | ✅ 完整 | 当前进展详情 |
| NEXT_STEPS.md | ✅ 完整 | 下一步工作计划 |
| QUICK_START_FOR_AGENT.md | ✅ 完整 | AI Agent 快速开始 |
| CODE_GUIDE.md | ✅ 完整 | 代码详细说明 |
| PROJECT_STATUS.md | ✅ 完整 | 本文档 |
| README_improved_api.md | ✅ 完整 | 改进版 API 说明 |
| dataset_source.md | ⚠️ 简略 | 数据源列表（待完善）|

---

## 🚀 近期里程碑

### 已完成（2025-11）

- ✅ 完成数据处理流水线
- ✅ 实现 GPT 滑动窗口标注
- ✅ 完成小规模模型训练
- ✅ 建立 HuggingFace 数据集工具

### 进行中（2026-01）

- ⏳ 扩大标注规模（目标 2500+ 条）
- ⏳ 完善项目文档

### 待启动（优先级 P0）

- 📋 人工标注 Golden Set（100-200 条）
- 📋 标注质量评估
- 📋 大规模模型训练（2000+ 条数据）
- 📋 建立评估体系

---

## 💰 成本估算

### 已产生成本

| 项目 | 数量 | 成本估算 |
|------|------|---------|
| GPT-4o 标注 | ~100 视频 | ~$5-10 |
| GPU 训练时间 | ~20 小时 | ~$20-40 |
| **总计** | - | **~$25-50** |

### 预计成本（扩大规模）

| 项目 | 数量 | 成本估算 |
|------|------|---------|
| GPT-4o 标注 | 2500 视频 × 10 帧 | $50-100 |
| GPU 训练 | 50 小时 | $50-100 |
| 人工标注 | 200 条 × 15 分钟 | 50 人时 |
| **总计** | - | **$100-200 + 50 人时** |

---

## ⚠️ 当前问题

### 阻塞问题（需立即解决）

1. **标注规模不足**
   - 当前：~100 条
   - 需要：2500+ 条
   - 影响：模型性能有限，无法有效泛化

2. **缺乏质量评估**
   - 无人工 Golden Set
   - 不知道 GPT 标注准确率
   - 影响：不确定数据质量

### 技术债务

1. **模型评估**
   - 缺少评估指标
   - 缺少 held-out test set
   - 无法对比不同版本

2. **数据管理**
   - 仿真数据未整合
   - 数据分布不均衡（failure >> success）

---

## 🎯 下一步行动

### 优先级 P0（紧急且重要）

1. **扩大标注规模**
   ```bash
   # 目标：标注 2500 条视频
   python api_batch_improved.py  # MAX_VIDEOS=2500
   ```

2. **人工质量评估**
   - 抽样 100 条视频
   - 人工标注作为 Golden Set
   - 计算 GPT 标注准确率

3. **大规模训练**
   - 使用完整标注数据
   - 训练新的模型版本
   - 保存检查点

### 优先级 P1（重要但不紧急）

4. **建立评估体系**
   - Stage 分类准确率
   - Reward 预测误差（MAE, RMSE）
   - Failure 检测能力（precision, recall）

5. **整合仿真数据**
   - 整合 fangyu 数据（~800 条）
   - 整合 yangyue Libero 数据
   - 对齐格式

---

## 📞 联系方式

如有问题，请查阅：
- [代码指南](./CODE_GUIDE.md) - 详细脚本说明
- [快速开始](./QUICK_START_FOR_AGENT.md) - 快速上手指南
- [下一步计划](./NEXT_STEPS.md) - 详细工作计划

---

## 📅 更新历史

| 日期 | 更新内容 |
|------|---------|
| 2026-01-20 | 创建项目状态文档 |
| 2025-11-11 | Special Token v2 训练完成 |
| 2025-11-10 | 改进版 SFT 训练完成 |
| 2025-11-05 | 基础版 SFT 训练完成 |