Spaces:

Clare-AI
/

ClareVoiceV1

Sleeping

App Files Files Community

ClareVoiceV1 / ARCHITECTURE.md

claudqunwang

Add structured AI courseware APIs

2a4f012 3 months ago

preview code

raw

history blame contribute delete

14.1 kB

	# Clare AI + Weaviate 技术架构文档

	## 📋 目录
	1. [系统概述](#系统概述)
	2. [架构图](#架构图)
	3. [技术栈](#技术栈)
	4. [核心组件](#核心组件)
	5. [数据流](#数据流)
	6. [部署架构](#部署架构)
	7. [关键技术决策](#关键技术决策)

	---

	## 🎯 系统概述

	Clare AI 是一个基于 RAG (Retrieval-Augmented Generation) 的智能教学助手，通过 Weaviate Cloud 向量数据库提供课程知识检索能力。

	### 核心功能
	- 多模式教学：概念解释、苏格拉底式辅导、考试准备、作业助手、快速总结
	- 知识检索：从 151+ 个课程文档（PDF、DOCX、代码等）中检索相关内容
	- 会话记忆：跟踪学生弱项、认知状态、学习进度
	- 多语言支持：中英文双语对话

	---

	## 🏗️ 架构图

	```
	┌─────────────────────────────────────────────────────────────┐
	│ Hugging Face Space │
	│ ┌──────────────────────────────────────────────────────┐ │
	│ │ ClareVoice (Gradio App) │ │
	│ │ ┌──────────────────────────────────────────────┐ │ │
	│ │ │ Frontend: Gradio UI │ │ │
	│ │ │ - Chat Interface │ │ │
	│ │ │ - File Upload │ │ │
	│ │ │ - Session Management │ │ │
	│ │ └──────────────────────────────────────────────┘ │ │
	│ │ │ │
	│ │ ┌──────────────────────────────────────────────┐ │ │
	│ │ │ Core Logic (clare_core.py) │ │ │
	│ │ │ - LLM: GPT-4.1-mini (OpenAI) │ │ │
	│ │ │ - Prompt Engineering │ │ │
	│ │ │ - Session Memory │ │ │
	│ │ └──────────────────────────────────────────────┘ │ │
	│ │ │ │
	│ │ ┌──────────────────────────────────────────────┐ │ │
	│ │ │ RAG Engine (rag_engine.py) │ │ │
	│ │ │ - Local FAISS (上传文件) │ │ │
	│ │ │ - PDF/DOCX Parsing │ │ │
	│ │ └──────────────────────────────────────────────┘ │ │
	│ └──────────────────────────────────────────────────────┘ │
	│ │ │
	│ │ HTTPS + API Key │
	│ ▼ │
	└─────────────────────────────────────────────────────────────┘
	│
	│
	┌─────────────────────────────────────────────────────────────┐
	│ Weaviate Cloud (GCP) │
	│ ┌──────────────────────────────────────────────────────┐ │
	│ │ Collection: GenAICourses │ │
	│ │ - 151+ 文档块 (chunks) │ │
	│ │ - Vector Embeddings (384-dim) │ │
	│ │ - Metadata (source_file, section) │ │
	│ └──────────────────────────────────────────────────────┘ │
	└─────────────────────────────────────────────────────────────┘
	▲
	│
	┌─────────────────────────────────────────────────────────────┐
	│ Index Builder (本地/CI) │
	│ ┌──────────────────────────────────────────────────────┐ │
	│ │ build_weaviate_index.py │ │
	│ │ - 读取 GENAI COURSES/ 目录 │ │
	│ │ - Embedding: sentence-transformers/all-MiniLM-L6-v2 │ │
	│ │ - 上传到 Weaviate Cloud │ │
	│ └──────────────────────────────────────────────────────┘ │
	└─────────────────────────────────────────────────────────────┘
	```

	---

	## 🛠️ 技术栈

	### 前端层
	- Gradio 6.0+: Web UI 框架，支持实时对话、文件上传
	- Python 3.11: 运行环境

	### 后端层
	- OpenAI GPT-4.1-mini: 主要 LLM，用于生成回答
	- LangChain: LLM 编排框架
	- LlamaIndex: 向量检索框架

	### 向量数据库
	- Weaviate Cloud: 托管向量数据库（GCP）
	- Collection: `GenAICourses`
	- Embedding Model: `sentence-transformers/all-MiniLM-L6-v2` (384维)
	- 文档类型: PDF, DOCX, TXT, PY, IPYNB

	### Embedding 模型
	- 建索引: `sentence-transformers/all-MiniLM-L6-v2` (免费，本地运行)
	- 查询: 与建索引使用相同模型（保证向量空间一致）

	### 文档解析
	- unstructured.io: PDF 解析（优先）
	- pypdf: PDF 解析（降级方案）
	- python-docx: DOCX 解析

	---

	## 🔧 核心组件

	### 1. ClareVoice App (`app.py`)

	职责: 主应用入口，处理用户交互

	关键功能:
	- Gradio UI 渲染
	- 用户会话管理
	- 调用 RAG 检索和 LLM 生成
	- Weaviate 直连检索

	关键代码:
	```python
	# Weaviate 检索（优先）
	if USE_WEAVIATE_DIRECT:
	course_chunks = _retrieve_from_weaviate(message)

	# 本地 FAISS（上传文件）
	rag_context_text = retrieve_relevant_chunks(message, rag_chunks)
	```

	### 2. RAG Engine (`rag_engine.py`)

	职责: 本地文件向量化和检索

	功能:
	- 解析上传的 PDF/DOCX
	- 构建 FAISS 索引（内存）
	- 向量相似度检索

	### 3. Clare Core (`clare_core.py`)

	职责: LLM 调用和 Prompt 构建

	功能:
	- 构建多轮对话上下文
	- 整合 RAG 检索结果
	- 管理会话记忆（弱项、认知状态）
	- 生成教学回答

	### 4. Weaviate 检索 (`app.py` → `_retrieve_from_weaviate`)

	职责: 从 Weaviate Cloud 检索课程知识

	流程:
	1. 加载 embedding 模型（缓存）
	2. 连接 Weaviate Cloud
	3. 将用户问题编码为向量
	4. 向量相似度搜索（top_k=5）
	5. 返回相关文档块

	关键特性:
	- 超时保护: 45秒超时，避免阻塞
	- 模型预热: 启动时后台加载，避免首次查询慢
	- 错误降级: 失败时静默返回空，不影响主流程

	---

	## 📊 数据流

	### 用户提问流程

	```
	1. 用户输入问题
	│
	▼
	2. 检测是否为学术查询 (is_academic_query)
	│
	├─ 是 → 触发 RAG 检索
	│ │
	│ ├─ Weaviate 检索 (优先)
	│ │ └─ 返回课程文档块
	│ │
	│ └─ 本地 FAISS 检索 (上传文件)
	│ └─ 返回文档块
	│
	└─ 否 → 跳过 RAG
	│
	▼
	3. 构建 Prompt
	├─ System Prompt (Clare 身份)
	├─ Session Memory (弱项、认知状态)
	├─ RAG Context (检索到的文档)
	└─ User Message
	│
	▼
	4. 调用 OpenAI API (GPT-4.1-mini)
	│
	▼
	5. 返回回答 + 更新会话历史
	```

	### 索引构建流程

	```
	1. 本地运行 build_weaviate_index.py
	│
	▼
	2. 读取 GENAI COURSES/ 目录
	├─ 支持格式: .md, .pdf, .txt, .py, .ipynb, .docx
	└─ 递归扫描所有子目录
	│
	▼
	3. 文档分块 (LlamaIndex SimpleDirectoryReader)
	└─ 自动分块，保留元数据
	│
	▼
	4. Embedding 编码
	└─ sentence-transformers/all-MiniLM-L6-v2
	│
	▼
	5. 上传到 Weaviate Cloud
	├─ Collection: GenAICourses
	├─ 向量 + 元数据 (source_file, section)
	└─ 验证 object count
	```

	---

	## 🚀 部署架构

	### Hugging Face Space (ClareVoice)

	部署方式: Docker Space

	Dockerfile 关键配置:
	```dockerfile
	FROM python:3.11-slim
	# 安装系统依赖 (libxcb for unstructured)
	RUN apt-get update && apt-get install -y libxcb1 libxcb-xinerama0
	# 强制升级 huggingface_hub>=1.3.0
	RUN pip install --upgrade "huggingface_hub>=1.3.0,<2.0"
	# 安装依赖
	RUN pip install -r requirements.txt
	```

	环境变量 (Secrets):
	- `OPENAI_API_KEY`: OpenAI API 密钥
	- `WEAVIATE_URL`: Weaviate Cloud REST 地址
	- `WEAVIATE_API_KEY`: Weaviate API Key
	- `WEAVIATE_COLLECTION`: 集合名（默认 `GenAICourses`）

	启动流程:
	1. 加载环境变量
	2. 后台预热 Weaviate embedding 模型
	3. 启动 Gradio 服务（端口 7860）

	### Weaviate Cloud

	托管: Google Cloud Platform (GCP)

	配置:
	- Cluster URL: `https://riiqvgc7tuum6cgwhik9ra.c0.us-west3.gcp.weaviate.cloud`
	- Authentication: API Key
	- Collection Schema: 自动创建（LlamaIndex 管理）

	数据规模:
	- 文档数量: 151+ 文件
	- 文档块数: ~917 objects
	- 向量维度: 384 (all-MiniLM-L6-v2)

	---

	## 💡 关键技术决策

	### 1. 为什么选择 Weaviate Cloud？

	优势:
	- ✅ 托管服务: 无需自建数据库，降低运维成本
	- ✅ 高性能: 向量检索延迟 <100ms
	- ✅ 可扩展: 支持大规模文档库
	- ✅ API 简单: RESTful API，易于集成

	对比其他方案:
	- ❌ 本地 FAISS: 内存限制，无法持久化
	- ❌ Pinecone: 成本较高
	- ❌ 自建 Weaviate: 需要服务器和运维

	### 2. 为什么使用 sentence-transformers 而非 OpenAI Embeddings？

	原因:
	- ✅ 成本: 免费，无 API 调用费用
	- ✅ 一致性: 建索引和查询使用同一模型，保证向量空间一致
	- ✅ 离线能力: 本地运行，不依赖外部 API

	权衡:
	- ⚠️ 性能: OpenAI `text-embedding-3-small` (1536维) 可能更准确
	- ⚠️ 延迟: 首次加载模型需要 10-30 秒（已通过预热解决）

	### 3. 为什么采用 Docker Space 而非 Gradio SDK？

	原因:
	- ✅ 依赖控制: 可以强制升级特定包（如 `huggingface_hub`）
	- ✅ 系统库: 可以安装 `libxcb` 等系统依赖
	- ✅ 灵活性: 完全控制构建过程

	### 4. 双检索策略（Weaviate + FAISS）

	设计:
	- Weaviate: 课程知识库（151+ 文档，持久化）
	- FAISS: 用户上传文件（临时，内存）

	优势:
	- ✅ 课程知识稳定可用
	- ✅ 用户文件灵活处理
	- ✅ 降级方案：Weaviate 失败时仍有 FAISS

	---

	## 📈 性能指标

	### 检索性能
	- Weaviate 检索: ~500-1000ms（含网络延迟）
	- FAISS 检索: ~10-50ms（内存检索）
	- Embedding 编码: ~100-300ms（首次需加载模型）

	### LLM 响应
	- GPT-4.1-mini: ~2-5秒（取决于回答长度）

	### 系统资源
	- 内存: ~2-4GB（含 embedding 模型）
	- CPU: 中等负载（embedding 计算）

	---

	## 🔒 安全与隐私

	### API 密钥管理
	- ✅ 使用 Hugging Face Secrets（加密存储）
	- ✅ 不在代码中硬编码密钥

	### 数据隐私
	- ✅ 用户会话数据不持久化（仅内存）
	- ✅ Weaviate 仅存储课程文档（公开内容）
	- ✅ 用户上传文件仅用于当前会话

	---

	## 🐛 已知问题与解决方案

	### 1. huggingface_hub 版本冲突
	问题: HF Space 预装旧版 (0.36.2)，`transformers` 需要 >=1.3.0

	解决:
	- Dockerfile 中强制升级
	- App 启动时 monkey-patch `is_offline_mode`

	### 2. Gradio 6.0 API 变更
	问题: `Chatbot` 不再支持 `type="tuples"`，改为 `messages` 格式

	解决: 添加格式转换函数 `_tuples_to_messages` / `_messages_to_tuples`

	### 3. Embedding 模型首次加载慢
	问题: 首次检索需要 10-30 秒加载模型

	解决: 启动时后台预热（`_warmup_weaviate_embed`）

	---

	## 📝 总结

	Clare AI 采用 RAG + LLM 架构，通过 Weaviate Cloud 提供稳定的课程知识检索能力。系统设计注重：

	1. 可靠性: 多重降级方案，确保服务可用
	2. 性能: 模型预热、超时保护、缓存机制
	3. 可扩展: 托管服务，易于扩展文档库
	4. 成本: 使用免费 embedding 模型，降低运营成本

	---

	文档版本: v1.0
	最后更新: 2026-02-11
	维护者: Clare AI Team