errm / docs /PROJECT_STATUS.md

yuffish

Add files using upload-large-folder tool

a741a7c verified 8 days ago

preview code

raw

history blame contribute delete

7.32 kB

项目状态总结 - Project Status Summary

最后更新：2026-01-20 本文档提供项目当前状态的快照总结，方便快速了解项目进展

🎯 项目目标

训练一个视觉奖励模型（Reward Model），用于：

输入：机器人操作视频帧
输出：操作阶段、奖励分数、失败检测
应用：为 VLA (Vision-Language-Action) 模型的强化学习提供奖励信号

📊 当前状态一览

模块	进度	状态
数据处理流水线	100%	✅ 完成
GPT 标注系统	100%	✅ 完成
本地模型推理（Qwen-VL）	100%	✅ 完成
数据格式转换	100%	✅ 完成
小规模模型训练	100%	✅ 完成
数据集管理工具	100%	✅ 完成
大规模数据标注	5%	⏳ 进行中
模型评估系统	0%	📋 待启动
Policy 集成	0%	📋 待启动

📈 数据规模

真机数据（DROID）

数据类型	数量	状态
总轨迹数	15,157 条	✅ 已统计
Failure 轨迹	~8,000 条	✅ 已统计
已标注视频	~100 条	✅ 完成
目标标注数	2,500+ 条	⏳ 待完成

仿真数据

数据源	数量	状态
cokecan-50 本地	50 条	✅ 已整理
fangyu 仿真	~800 条	📋 待整合
yangyue Libero	未知	📋 待整合

🔬 模型训练

已训练检查点

版本	类型	Checkpoint	训练数据量
v0	标准 SFT	checkpoint-28	~100 samples
v1	标准 SFT	checkpoint-7	~100 samples
v0-special	Special Token	checkpoint-7	~100 samples
v1-special	Special Token	checkpoint-70	~100 samples
v2-special	Special Token (merge)	checkpoint-70	~100 samples

注意：所有当前模型都是基于小规模数据训练，性能有限。

🎨 标注系统

标注方式

方式	模型	状态	推荐
GPT-4o	OpenAI API	✅ 可用	⭐⭐⭐
Claude	本地部署	✅ 可用	⭐⭐
Qwen-VL	本地推理	✅ 可用	⭐

标注质量

指标	状态
人工质量评估	❌ 未开始
Golden Set	❌ 未创建
一致性检查	❌ 未开始
失败案例分析	❌ 未开始

📁 数据文件统计

标注输出

output/
├── labels_batch.jsonl              # 基础版标注（~100 条）
├── labels_batch_improved.jsonl     # 改进版标注（~100 条）
├── labels_batch_1111.jsonl         # 1111 批次
└── labels_hf_dataset.jsonl         # HuggingFace 数据集标注

训练数据

data/
├── sft_frames_dataset.json                 # SFT 训练数据（中间格式）
├── sft_frames_dataset_sft.json            # SFT 训练数据（最终格式）
├── sft_reward_dataset.json                # Reward 训练数据
└── sft_reward_dataset_special_tokens.json # Special Token 版本

帧图片

data/frames/
├── 2023-07-07/
│   └── session_xxx/
│       ├── 22008760_frame_0.jpg
│       ├── 22008760_frame_1.jpg
│       └── ...
└── frame_index_map.csv  # 索引映射表

🛠️ 技术栈

核心依赖

工具	版本	用途
Python	3.8+	主要开发语言
PyTorch	2.0+	深度学习框架
transformers	latest	模型训练
ms-swift	latest	SFT 训练
decord	latest	视频解码
OpenAI SDK	latest	GPT API 调用
tensorflow_datasets	latest	DROID 数据加载

模型

模型	用途	状态
Qwen-VL	视觉理解 + 标注生成	✅ 使用中
GPT-4o	视频标注（Ground Truth）	✅ 使用中
Claude 3.7 Sonnet	视频标注（备选）	✅ 可用

📝 文档完整性

文档	状态	说明
PROJECT_OVERVIEW.md	✅ 完整	项目整体概述
CURRENT_PROGRESS.md	✅ 完整	当前进展详情
NEXT_STEPS.md	✅ 完整	下一步工作计划
QUICK_START_FOR_AGENT.md	✅ 完整	AI Agent 快速开始
CODE_GUIDE.md	✅ 完整	代码详细说明
PROJECT_STATUS.md	✅ 完整	本文档
README_improved_api.md	✅ 完整	改进版 API 说明
dataset_source.md	⚠️ 简略	数据源列表（待完善）

🚀 近期里程碑

已完成（2025-11）

✅ 完成数据处理流水线
✅ 实现 GPT 滑动窗口标注
✅ 完成小规模模型训练
✅ 建立 HuggingFace 数据集工具

进行中（2026-01）

⏳ 扩大标注规模（目标 2500+ 条）
⏳ 完善项目文档

待启动（优先级 P0）

📋 人工标注 Golden Set（100-200 条）
📋 标注质量评估
📋 大规模模型训练（2000+ 条数据）
📋 建立评估体系

💰 成本估算

已产生成本

项目	数量	成本估算
GPT-4o 标注	~100 视频	~$5-10
GPU 训练时间	~20 小时	~$20-40
总计	-	~$25-50

预计成本（扩大规模）

项目	数量	成本估算
GPT-4o 标注	2500 视频 × 10 帧	$50-100
GPU 训练	50 小时	$50-100
人工标注	200 条 × 15 分钟	50 人时
总计	-	$100-200 + 50 人时

⚠️ 当前问题

阻塞问题（需立即解决）

标注规模不足
- 当前：~100 条
- 需要：2500+ 条
- 影响：模型性能有限，无法有效泛化
缺乏质量评估
- 无人工 Golden Set
- 不知道 GPT 标注准确率
- 影响：不确定数据质量

技术债务

模型评估
- 缺少评估指标
- 缺少 held-out test set
- 无法对比不同版本
数据管理
- 仿真数据未整合
- 数据分布不均衡（failure >> success）

🎯 下一步行动

优先级 P0（紧急且重要）

扩大标注规模

# 目标：标注 2500 条视频
python api_batch_improved.py  # MAX_VIDEOS=2500

人工质量评估
- 抽样 100 条视频
- 人工标注作为 Golden Set
- 计算 GPT 标注准确率
大规模训练
- 使用完整标注数据
- 训练新的模型版本
- 保存检查点

优先级 P1（重要但不紧急）

建立评估体系
- Stage 分类准确率
- Reward 预测误差（MAE, RMSE）
- Failure 检测能力（precision, recall）
整合仿真数据
- 整合 fangyu 数据（~800 条）
- 整合 yangyue Libero 数据
- 对齐格式

📞 联系方式

如有问题，请查阅：

代码指南 - 详细脚本说明
快速开始 - 快速上手指南
下一步计划 - 详细工作计划

📅 更新历史

日期	更新内容
2026-01-20	创建项目状态文档
2025-11-11	Special Token v2 训练完成
2025-11-10	改进版 SFT 训练完成
2025-11-05	基础版 SFT 训练完成