| # 虚拟角色项目总览 | |
| ## 当前结论 | |
| 这个项目的主线是 **现有角色驱动的多模态虚拟人格系统**。 | |
| 用户第一眼看到的应该是可选角色,而不是角色创建器。用户选中角色后,系统进入对话、语音、视觉理解和角色舞台联动体验。角色创建、生图、资料提取、prompt 组装和 skill 配置都是后台能力。 | |
| 核心体验: | |
| ```text | |
| 选择角色 -> 文本/语音/图片/摄像头输入 -> 模型流式输出回复、情绪、动作和语音参数 -> TTS/角色舞台同步响应 | |
| ``` | |
| ## 文档结构 | |
| - [RESEARCH_NOTES.md](RESEARCH_NOTES.md):调研信息、参考项目、产品判断、风险分析。 | |
| - [DEVELOPMENT_GUIDE.md](DEVELOPMENT_GUIDE.md):后续开发必须遵循的架构、文件结构、流式协议、Gradio 事件设计和 MVP 范围。 | |
| - [MODAL_DEPLOYMENT.md](MODAL_DEPLOYMENT.md):Modal 上的模型部署、调用方式、模型候选和省额度策略。 | |
| ## 关键产品原则 | |
| 1. 现有角色优先 | |
| MVP 第一屏是角色选择。自定义角色和角色生成放在高级入口。 | |
| 2. 情绪由模型输出 | |
| 不靠用户按钮硬切情绪。模型每轮回复要输出表情、动作、语气、skill 等控制信息。 | |
| 3. 不等完整 JSON 才开始动 | |
| 对话输出使用事件流协议。模型可以先输出 `stage` / `emotion` / `voice` 事件,让 Live2D 或 2.5D 舞台先变化,再流式输出文本和音频。 | |
| 4. 生图是资产生成模块 | |
| 生图用于内置角色头像、半身像、背景图、自定义角色重绘,不在每轮聊天里触发。 | |
| 5. 视觉模型要绑定角色人格 | |
| 摄像头或上传图片不是普通看图问答,而是“当前角色如何看见并回应这件事”。 | |
| 6. 公开 demo 要原创化 | |
| 本地探索可以参考 Amadeus、流萤等目标体验。公开 HF Space 建议使用原创化角色,避免直接使用商业角色名、图像、台词、声音或完整官方设定。 | |
| ## MVP 目标 | |
| 第一版要证明“角色存在感”,不是证明所有模型都最强。 | |
| 必做: | |
| - 至少 3 个内置角色。 | |
| - 文字聊天。 | |
| - 模型流式输出:回复文本、情绪、动作、voice 参数、skill。 | |
| - TTS 播放。 | |
| - 角色舞台根据模型事件实时变化。 | |
| - 上传图片后,角色以自身人格评论。 | |
| - 调试面板展示事件流和模型结构化输出。 | |
| 可选: | |
| - 摄像头拍照分析。 | |
| - 生图重绘角色头像。 | |
| - Live2D Web 模型加载。 | |
| 暂缓: | |
| - 全实时视频对话。 | |
| - 复杂长期记忆。 | |
| - 声音克隆。 | |
| - 商业角色原样复刻。 | |
| - 单图自动 rig 成 Live2D。 | |