errm / docs /PROJECT_STATUS.md

Add files using upload-large-folder tool

a741a7c verified 8 days ago

7.32 kB

	# 项目状态总结 - Project Status Summary

	> 最后更新：2026-01-20
	> 本文档提供项目当前状态的快照总结，方便快速了解项目进展

	---

	## 🎯 项目目标

	训练一个视觉奖励模型（Reward Model），用于：
	- 输入：机器人操作视频帧
	- 输出：操作阶段、奖励分数、失败检测
	- 应用：为 VLA (Vision-Language-Action) 模型的强化学习提供奖励信号

	---

	## 📊 当前状态一览

	\| 模块 \| 进度 \| 状态 \|
	\|------\|------\|------\|
	\| 数据处理流水线 \| 100% \| ✅ 完成 \|
	\| GPT 标注系统 \| 100% \| ✅ 完成 \|
	\| 本地模型推理（Qwen-VL） \| 100% \| ✅ 完成 \|
	\| 数据格式转换 \| 100% \| ✅ 完成 \|
	\| 小规模模型训练 \| 100% \| ✅ 完成 \|
	\| 数据集管理工具 \| 100% \| ✅ 完成 \|
	\| 大规模数据标注 \| 5% \| ⏳ 进行中 \|
	\| 模型评估系统 \| 0% \| 📋 待启动 \|
	\| Policy 集成 \| 0% \| 📋 待启动 \|

	---

	## 📈 数据规模

	### 真机数据（DROID）

	\| 数据类型 \| 数量 \| 状态 \|
	\|---------\|------\|------\|
	\| 总轨迹数 \| 15,157 条 \| ✅ 已统计 \|
	\| Failure 轨迹 \| ~8,000 条 \| ✅ 已统计 \|
	\| 已标注视频 \| ~100 条 \| ✅ 完成 \|
	\| 目标标注数 \| 2,500+ 条 \| ⏳ 待完成 \|

	### 仿真数据

	\| 数据源 \| 数量 \| 状态 \|
	\|--------\|------\|------\|
	\| cokecan-50 本地 \| 50 条 \| ✅ 已整理 \|
	\| fangyu 仿真 \| ~800 条 \| 📋 待整合 \|
	\| yangyue Libero \| 未知 \| 📋 待整合 \|

	---

	## 🔬 模型训练

	### 已训练检查点

	\| 版本 \| 类型 \| Checkpoint \| 训练数据量 \|
	\|------\|------\|------------\|-----------\|
	\| v0 \| 标准 SFT \| checkpoint-28 \| ~100 samples \|
	\| v1 \| 标准 SFT \| checkpoint-7 \| ~100 samples \|
	\| v0-special \| Special Token \| checkpoint-7 \| ~100 samples \|
	\| v1-special \| Special Token \| checkpoint-70 \| ~100 samples \|
	\| v2-special \| Special Token (merge) \| checkpoint-70 \| ~100 samples \|

	注意：所有当前模型都是基于小规模数据训练，性能有限。

	---

	## 🎨 标注系统

	### 标注方式

	\| 方式 \| 模型 \| 状态 \| 推荐 \|
	\|------\|------\|------\|------\|
	\| GPT-4o \| OpenAI API \| ✅ 可用 \| ⭐⭐⭐ \|
	\| Claude \| 本地部署 \| ✅ 可用 \| ⭐⭐ \|
	\| Qwen-VL \| 本地推理 \| ✅ 可用 \| ⭐ \|

	### 标注质量

	\| 指标 \| 状态 \|
	\|------\|------\|
	\| 人工质量评估 \| ❌ 未开始 \|
	\| Golden Set \| ❌ 未创建 \|
	\| 一致性检查 \| ❌ 未开始 \|
	\| 失败案例分析 \| ❌ 未开始 \|

	---

	## 📁 数据文件统计

	### 标注输出

	```
	output/
	├── labels_batch.jsonl # 基础版标注（~100 条）
	├── labels_batch_improved.jsonl # 改进版标注（~100 条）
	├── labels_batch_1111.jsonl # 1111 批次
	└── labels_hf_dataset.jsonl # HuggingFace 数据集标注
	```

	### 训练数据

	```
	data/
	├── sft_frames_dataset.json # SFT 训练数据（中间格式）
	├── sft_frames_dataset_sft.json # SFT 训练数据（最终格式）
	├── sft_reward_dataset.json # Reward 训练数据
	└── sft_reward_dataset_special_tokens.json # Special Token 版本
	```

	### 帧图片

	```
	data/frames/
	├── 2023-07-07/
	│ └── session_xxx/
	│ ├── 22008760_frame_0.jpg
	│ ├── 22008760_frame_1.jpg
	│ └── ...
	└── frame_index_map.csv # 索引映射表
	```

	---

	## 🛠️ 技术栈

	### 核心依赖

	\| 工具 \| 版本 \| 用途 \|
	\|------\|------\|------\|
	\| Python \| 3.8+ \| 主要开发语言 \|
	\| PyTorch \| 2.0+ \| 深度学习框架 \|
	\| transformers \| latest \| 模型训练 \|
	\| ms-swift \| latest \| SFT 训练 \|
	\| decord \| latest \| 视频解码 \|
	\| OpenAI SDK \| latest \| GPT API 调用 \|
	\| tensorflow_datasets \| latest \| DROID 数据加载 \|

	### 模型

	\| 模型 \| 用途 \| 状态 \|
	\|------\|------\|------\|
	\| Qwen-VL \| 视觉理解 + 标注生成 \| ✅ 使用中 \|
	\| GPT-4o \| 视频标注（Ground Truth） \| ✅ 使用中 \|
	\| Claude 3.7 Sonnet \| 视频标注（备选） \| ✅ 可用 \|

	---

	## 📝 文档完整性

	\| 文档 \| 状态 \| 说明 \|
	\|------\|------\|------\|
	\| PROJECT_OVERVIEW.md \| ✅ 完整 \| 项目整体概述 \|
	\| CURRENT_PROGRESS.md \| ✅ 完整 \| 当前进展详情 \|
	\| NEXT_STEPS.md \| ✅ 完整 \| 下一步工作计划 \|
	\| QUICK_START_FOR_AGENT.md \| ✅ 完整 \| AI Agent 快速开始 \|
	\| CODE_GUIDE.md \| ✅ 完整 \| 代码详细说明 \|
	\| PROJECT_STATUS.md \| ✅ 完整 \| 本文档 \|
	\| README_improved_api.md \| ✅ 完整 \| 改进版 API 说明 \|
	\| dataset_source.md \| ⚠️ 简略 \| 数据源列表（待完善）\|

	---

	## 🚀 近期里程碑

	### 已完成（2025-11）

	- ✅ 完成数据处理流水线
	- ✅ 实现 GPT 滑动窗口标注
	- ✅ 完成小规模模型训练
	- ✅ 建立 HuggingFace 数据集工具

	### 进行中（2026-01）

	- ⏳ 扩大标注规模（目标 2500+ 条）
	- ⏳ 完善项目文档

	### 待启动（优先级 P0）

	- 📋 人工标注 Golden Set（100-200 条）
	- 📋 标注质量评估
	- 📋 大规模模型训练（2000+ 条数据）
	- 📋 建立评估体系

	---

	## 💰 成本估算

	### 已产生成本

	\| 项目 \| 数量 \| 成本估算 \|
	\|------\|------\|---------\|
	\| GPT-4o 标注 \| ~100 视频 \| ~$5-10 \|
	\| GPU 训练时间 \| ~20 小时 \| ~$20-40 \|
	\| 总计 \| - \| ~$25-50 \|

	### 预计成本（扩大规模）

	\| 项目 \| 数量 \| 成本估算 \|
	\|------\|------\|---------\|
	\| GPT-4o 标注 \| 2500 视频 × 10 帧 \| $50-100 \|
	\| GPU 训练 \| 50 小时 \| $50-100 \|
	\| 人工标注 \| 200 条 × 15 分钟 \| 50 人时 \|
	\| 总计 \| - \| $100-200 + 50 人时 \|

	---

	## ⚠️ 当前问题

	### 阻塞问题（需立即解决）

	1. 标注规模不足
	- 当前：~100 条
	- 需要：2500+ 条
	- 影响：模型性能有限，无法有效泛化

	2. 缺乏质量评估
	- 无人工 Golden Set
	- 不知道 GPT 标注准确率
	- 影响：不确定数据质量

	### 技术债务

	1. 模型评估
	- 缺少评估指标
	- 缺少 held-out test set
	- 无法对比不同版本

	2. 数据管理
	- 仿真数据未整合
	- 数据分布不均衡（failure >> success）

	---

	## 🎯 下一步行动

	### 优先级 P0（紧急且重要）

	1. 扩大标注规模
	```bash
	# 目标：标注 2500 条视频
	python api_batch_improved.py # MAX_VIDEOS=2500
	```

	2. 人工质量评估
	- 抽样 100 条视频
	- 人工标注作为 Golden Set
	- 计算 GPT 标注准确率

	3. 大规模训练
	- 使用完整标注数据
	- 训练新的模型版本
	- 保存检查点

	### 优先级 P1（重要但不紧急）

	4. 建立评估体系
	- Stage 分类准确率
	- Reward 预测误差（MAE, RMSE）
	- Failure 检测能力（precision, recall）

	5. 整合仿真数据
	- 整合 fangyu 数据（~800 条）
	- 整合 yangyue Libero 数据
	- 对齐格式

	---

	## 📞 联系方式

	如有问题，请查阅：
	- [代码指南](./CODE_GUIDE.md) - 详细脚本说明
	- [快速开始](./QUICK_START_FOR_AGENT.md) - 快速上手指南
	- [下一步计划](./NEXT_STEPS.md) - 详细工作计划

	---

	## 📅 更新历史

	\| 日期 \| 更新内容 \|
	\|------\|---------\|
	\| 2026-01-20 \| 创建项目状态文档 \|
	\| 2025-11-11 \| Special Token v2 训练完成 \|
	\| 2025-11-10 \| 改进版 SFT 训练完成 \|
	\| 2025-11-05 \| 基础版 SFT 训练完成 \|