# 项目状态总结 - Project Status Summary > 最后更新:2026-01-20 > 本文档提供项目当前状态的快照总结,方便快速了解项目进展 --- ## 🎯 项目目标 **训练一个视觉奖励模型(Reward Model)**,用于: - 输入:机器人操作视频帧 - 输出:操作阶段、奖励分数、失败检测 - 应用:为 VLA (Vision-Language-Action) 模型的强化学习提供奖励信号 --- ## 📊 当前状态一览 | 模块 | 进度 | 状态 | |------|------|------| | 数据处理流水线 | 100% | ✅ 完成 | | GPT 标注系统 | 100% | ✅ 完成 | | 本地模型推理(Qwen-VL) | 100% | ✅ 完成 | | 数据格式转换 | 100% | ✅ 完成 | | 小规模模型训练 | 100% | ✅ 完成 | | 数据集管理工具 | 100% | ✅ 完成 | | **大规模数据标注** | 5% | ⏳ 进行中 | | **模型评估系统** | 0% | 📋 待启动 | | **Policy 集成** | 0% | 📋 待启动 | --- ## 📈 数据规模 ### 真机数据(DROID) | 数据类型 | 数量 | 状态 | |---------|------|------| | 总轨迹数 | 15,157 条 | ✅ 已统计 | | Failure 轨迹 | ~8,000 条 | ✅ 已统计 | | 已标注视频 | ~100 条 | ✅ 完成 | | **目标标注数** | **2,500+ 条** | ⏳ 待完成 | ### 仿真数据 | 数据源 | 数量 | 状态 | |--------|------|------| | cokecan-50 本地 | 50 条 | ✅ 已整理 | | fangyu 仿真 | ~800 条 | 📋 待整合 | | yangyue Libero | 未知 | 📋 待整合 | --- ## 🔬 模型训练 ### 已训练检查点 | 版本 | 类型 | Checkpoint | 训练数据量 | |------|------|------------|-----------| | v0 | 标准 SFT | checkpoint-28 | ~100 samples | | v1 | 标准 SFT | checkpoint-7 | ~100 samples | | v0-special | Special Token | checkpoint-7 | ~100 samples | | v1-special | Special Token | checkpoint-70 | ~100 samples | | v2-special | Special Token (merge) | checkpoint-70 | ~100 samples | **注意**:所有当前模型都是基于小规模数据训练,性能有限。 --- ## 🎨 标注系统 ### 标注方式 | 方式 | 模型 | 状态 | 推荐 | |------|------|------|------| | GPT-4o | OpenAI API | ✅ 可用 | ⭐⭐⭐ | | Claude | 本地部署 | ✅ 可用 | ⭐⭐ | | Qwen-VL | 本地推理 | ✅ 可用 | ⭐ | ### 标注质量 | 指标 | 状态 | |------|------| | 人工质量评估 | ❌ 未开始 | | Golden Set | ❌ 未创建 | | 一致性检查 | ❌ 未开始 | | 失败案例分析 | ❌ 未开始 | --- ## 📁 数据文件统计 ### 标注输出 ``` output/ ├── labels_batch.jsonl # 基础版标注(~100 条) ├── labels_batch_improved.jsonl # 改进版标注(~100 条) ├── labels_batch_1111.jsonl # 1111 批次 └── labels_hf_dataset.jsonl # HuggingFace 数据集标注 ``` ### 训练数据 ``` data/ ├── sft_frames_dataset.json # SFT 训练数据(中间格式) ├── sft_frames_dataset_sft.json # SFT 训练数据(最终格式) ├── sft_reward_dataset.json # Reward 训练数据 └── sft_reward_dataset_special_tokens.json # Special Token 版本 ``` ### 帧图片 ``` data/frames/ ├── 2023-07-07/ │ └── session_xxx/ │ ├── 22008760_frame_0.jpg │ ├── 22008760_frame_1.jpg │ └── ... └── frame_index_map.csv # 索引映射表 ``` --- ## 🛠️ 技术栈 ### 核心依赖 | 工具 | 版本 | 用途 | |------|------|------| | Python | 3.8+ | 主要开发语言 | | PyTorch | 2.0+ | 深度学习框架 | | transformers | latest | 模型训练 | | ms-swift | latest | SFT 训练 | | decord | latest | 视频解码 | | OpenAI SDK | latest | GPT API 调用 | | tensorflow_datasets | latest | DROID 数据加载 | ### 模型 | 模型 | 用途 | 状态 | |------|------|------| | Qwen-VL | 视觉理解 + 标注生成 | ✅ 使用中 | | GPT-4o | 视频标注(Ground Truth) | ✅ 使用中 | | Claude 3.7 Sonnet | 视频标注(备选) | ✅ 可用 | --- ## 📝 文档完整性 | 文档 | 状态 | 说明 | |------|------|------| | PROJECT_OVERVIEW.md | ✅ 完整 | 项目整体概述 | | CURRENT_PROGRESS.md | ✅ 完整 | 当前进展详情 | | NEXT_STEPS.md | ✅ 完整 | 下一步工作计划 | | QUICK_START_FOR_AGENT.md | ✅ 完整 | AI Agent 快速开始 | | CODE_GUIDE.md | ✅ 完整 | 代码详细说明 | | PROJECT_STATUS.md | ✅ 完整 | 本文档 | | README_improved_api.md | ✅ 完整 | 改进版 API 说明 | | dataset_source.md | ⚠️ 简略 | 数据源列表(待完善)| --- ## 🚀 近期里程碑 ### 已完成(2025-11) - ✅ 完成数据处理流水线 - ✅ 实现 GPT 滑动窗口标注 - ✅ 完成小规模模型训练 - ✅ 建立 HuggingFace 数据集工具 ### 进行中(2026-01) - ⏳ 扩大标注规模(目标 2500+ 条) - ⏳ 完善项目文档 ### 待启动(优先级 P0) - 📋 人工标注 Golden Set(100-200 条) - 📋 标注质量评估 - 📋 大规模模型训练(2000+ 条数据) - 📋 建立评估体系 --- ## 💰 成本估算 ### 已产生成本 | 项目 | 数量 | 成本估算 | |------|------|---------| | GPT-4o 标注 | ~100 视频 | ~$5-10 | | GPU 训练时间 | ~20 小时 | ~$20-40 | | **总计** | - | **~$25-50** | ### 预计成本(扩大规模) | 项目 | 数量 | 成本估算 | |------|------|---------| | GPT-4o 标注 | 2500 视频 × 10 帧 | $50-100 | | GPU 训练 | 50 小时 | $50-100 | | 人工标注 | 200 条 × 15 分钟 | 50 人时 | | **总计** | - | **$100-200 + 50 人时** | --- ## ⚠️ 当前问题 ### 阻塞问题(需立即解决) 1. **标注规模不足** - 当前:~100 条 - 需要:2500+ 条 - 影响:模型性能有限,无法有效泛化 2. **缺乏质量评估** - 无人工 Golden Set - 不知道 GPT 标注准确率 - 影响:不确定数据质量 ### 技术债务 1. **模型评估** - 缺少评估指标 - 缺少 held-out test set - 无法对比不同版本 2. **数据管理** - 仿真数据未整合 - 数据分布不均衡(failure >> success) --- ## 🎯 下一步行动 ### 优先级 P0(紧急且重要) 1. **扩大标注规模** ```bash # 目标:标注 2500 条视频 python api_batch_improved.py # MAX_VIDEOS=2500 ``` 2. **人工质量评估** - 抽样 100 条视频 - 人工标注作为 Golden Set - 计算 GPT 标注准确率 3. **大规模训练** - 使用完整标注数据 - 训练新的模型版本 - 保存检查点 ### 优先级 P1(重要但不紧急) 4. **建立评估体系** - Stage 分类准确率 - Reward 预测误差(MAE, RMSE) - Failure 检测能力(precision, recall) 5. **整合仿真数据** - 整合 fangyu 数据(~800 条) - 整合 yangyue Libero 数据 - 对齐格式 --- ## 📞 联系方式 如有问题,请查阅: - [代码指南](./CODE_GUIDE.md) - 详细脚本说明 - [快速开始](./QUICK_START_FOR_AGENT.md) - 快速上手指南 - [下一步计划](./NEXT_STEPS.md) - 详细工作计划 --- ## 📅 更新历史 | 日期 | 更新内容 | |------|---------| | 2026-01-20 | 创建项目状态文档 | | 2025-11-11 | Special Token v2 训练完成 | | 2025-11-10 | 改进版 SFT 训练完成 | | 2025-11-05 | 基础版 SFT 训练完成 |