Spaces:

ahaahaaha
/

adaptive_rag

Paused

App Files Files Community

lanny xu commited on Oct 28

Commit

dbd527a

1 Parent(s): 0d85198

modify reranker

Browse files

Files changed (2) hide show

vectorization_implementation_steps.py +555 -0
vectorization_process_explained.py +528 -0

vectorization_implementation_steps.py ADDED Viewed

	@@ -0,0 +1,555 @@

+"""
+文字转向量的具体实现步骤（代码层面）
+展示 HuggingFace Embeddings 内部的实际操作
+"""
+print("=" * 80)
+print("文字 → 向量的具体实现步骤")
+print("=" * 80)
+# ============================================================================
+# 准备工作：模拟完整的向量化过程
+# ============================================================================
+print("\n" + "=" * 80)
+print("🔧 准备：安装和导入需要的库")
+print("=" * 80)
+print("""
+需要的库：
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+pip install transformers torch sentence-transformers
+导入：
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+from transformers import AutoTokenizer, AutoModel
+import torch
+import numpy as np
+""")
+# ============================================================================
+# Step 1: 加载模型和分词器
+# ============================================================================
+print("\n" + "=" * 80)
+print("Step 1: 加载预训练模型和分词器")
+print("=" * 80)
+print("""
+代码：
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+from transformers import AutoTokenizer, AutoModel
+model_name = "sentence-transformers/all-MiniLM-L6-v2"
+# 1. 加载分词器（负责文字 → ID）
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+# 2. 加载模型（负责 ID → 向量）
+model = AutoModel.from_pretrained(model_name)
+model.eval()  # 设置为评估模式（不训练）
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+这两个东西做什么？
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+Tokenizer（分词器）：
+├─ 词汇表（vocabulary）：30,000+ 个词
+│  例如：{"hello": 1, "world": 2, "machine": 3456, ...}
+└─ 分词规则：如何切分文字
+Model（模型）：
+├─ Embedding 层：词汇表 → 初始向量
+│  30,000 × 384 的矩阵（每个词对应一个 384 维向量）
+├─ Transformer 层：6 层 BERT encoder
+│  每层都有 Self-Attention + Feed Forward
+└─ 参数量：22M（2200万个数字）
+""")
+# ============================================================================
+# Step 2: 分词（Tokenization）
+# ============================================================================
+print("\n" + "=" * 80)
+print("Step 2: 分词 - 文字转为 Token IDs")
+print("=" * 80)
+print("""
+输入文本：
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+text = "Machine learning is a subset of artificial intelligence"
+代码：
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+# 分词并转换为模型输入格式
+encoded_input = tokenizer(
+    text,
+    padding=True,      # 填充到相同长度
+    truncation=True,   # 超长截断
+    max_length=512,    # 最大长度
+    return_tensors='pt' # 返回 PyTorch tensor
+)
+print(encoded_input)
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+输出（encoded_input 包含）：
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+{
+  'input_ids': tensor([[
+      101,     # [CLS] 特殊标记
+      3698,    # "machine"
+      4083,    # "learning"
+      2003,    # "is"
+      1037,    # "a"
+      2042,    # "subset"
+      1997,    # "of"
+      7976,    # "artificial"
+      4454,    # "intelligence"
+      102      # [SEP] 特殊标记
+  ]]),
+  'attention_mask': tensor([[
+      1, 1, 1, 1, 1, 1, 1, 1, 1, 1  # 所有位置都有效（1表示关注，0表示忽略）
+  ]])
+}
+详细解释：
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+input_ids:
+  每个数字对应一个词
+  101 = [CLS]（句子开始标记）
+  3698 = "machine"
+  102 = [SEP]（句子结束标记）
+attention_mask:
+  告诉模型哪些位置是真实内容（1），哪些是填充（0）
+  例如：[1, 1, 1, 0, 0] 表示前3个是真实词，后2个是填充
+""")
+# ============================================================================
+# Step 3: 通过 Embedding 层获取初始向量
+# ============================================================================
+print("\n" + "=" * 80)
+print("Step 3: Token IDs → 初始向量（Embedding 层）")
+print("=" * 80)
+print("""
+这一步发生在模型内部：
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+input_ids = [101, 3698, 4083, 2003, ...]
+                ↓
+        Embedding 表查询
+                ↓
+Embedding 表（简化）：
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+这是一个巨大的矩阵：30,522 × 384
+（30,522 是词汇表大小，384 是向量维度）
+  ID    |  第1维  第2维  第3维  ...  第384维
+  ─────────────────────────────────────────
+  101   |  0.12  -0.34   0.56  ...   0.78   ← [CLS]
+  3698  |  0.23   0.45  -0.67  ...   0.89   ← "machine"
+  4083  |  0.34  -0.56   0.78  ...  -0.90   ← "learning"
+  2003  |  0.45   0.67  -0.89  ...   0.12   ← "is"
+  ...
+查询过程（类似字典查询）：
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+ID 101  → 查表 → [0.12, -0.34, 0.56, ..., 0.78]
+ID 3698 → 查表 → [0.23, 0.45, -0.67, ..., 0.89]
+ID 4083 → 查表 → [0.34, -0.56, 0.78, ..., -0.90]
+...
+结果：
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+token_embeddings = [
+    [0.12, -0.34, 0.56, ..., 0.78],  # [CLS]
+    [0.23,  0.45, -0.67, ..., 0.89],  # "machine"
+    [0.34, -0.56, 0.78, ..., -0.90],  # "learning"
+    [0.45,  0.67, -0.89, ..., 0.12],  # "is"
+    ...
+]
+形状：(10, 384)  # 10 个 tokens，每个 384 维
+⚠️ 注意：这些还不是最终向量！需要通过 Transformer 处理！
+""")
+# ============================================================================
+# Step 4: Transformer 处理（核心！）
+# ============================================================================
+print("\n" + "=" * 80)
+print("Step 4: Transformer 处理 - Self-Attention（核心步骤）")
+print("=" * 80)
+print("""
+代码：
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+with torch.no_grad():  # 不计算梯度（不训练）
+    outputs = model(**encoded_input)
+# outputs.last_hidden_state 就是 Transformer 的输出
+token_embeddings = outputs.last_hidden_state
+print(token_embeddings.shape)  # torch.Size([1, 10, 384])
+                               #   批次  tokens  维度
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+Transformer 内部做了什么？（6 层处理）
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+输入：初始 embeddings
+  [CLS]:     [0.12, -0.34, 0.56, ...]
+  machine:   [0.23,  0.45, -0.67, ...]
+  learning:  [0.34, -0.56, 0.78, ...]
+  is:        [0.45,  0.67, -0.89, ...]
+  ...
+        ↓
+┌──────────────────────────────────────────────────────────┐
+│ Layer 1: Self-Attention                                  │
+│ ──────────────────────────────────────────────────────── │
+│                                                          │
+│ 每个词"看"其他所有词，更新自己的向量：                    │
+│                                                          │
+│ "machine" 看到 "learning" → 理解这是一个词组              │
+│ "learning" 看到 "artificial" → 理解与AI相关              │
+│ "is" 看到前后词 → 理解是连接词                           │
+│                                                          │
+│ 更新后的向量包含了上下文信息                              │
+└──────────────────────────────────────────────────────────┘
+        ↓
+┌──────────────────────────────────────────────────────────┐
+│ Layer 2: Self-Attention                                  │
+│ ──────────────────────────────────────────────────────── │
+│ 继续深化理解...                                          │
+│ "machine learning" 作为整体理解                          │
+└──────────────────────────────────────────────────────────┘
+        ↓
+        ... (Layer 3, 4, 5) ...
+        ↓
+┌──────────────────────────────────────────────────────────┐
+│ Layer 6: Self-Attention (最后一层)                       │
+│ ──────────────────────────────────────────────────────── │
+│ 每个词的向量现在包含了：                                  │
+│ - 自己的语义                                             │
+│ - 上下文信息                                             │
+│ - 整个句子的含义                                         │
+└──────────────────────────────────────────────────────────┘
+        ↓
+最终输出：
+  [CLS]:     [0.234,  0.567, -0.890, ...]  # 更新后，包含全句信息
+  machine:   [0.345, -0.678,  0.123, ...]  # 包含 "learning" 的信息
+  learning:  [0.456,  0.789, -0.234, ...]  # 包含 "machine" 的信息
+  ...
+形状：(1, 10, 384)
+      批次 tokens 维度
+""")
+# ============================================================================
+# Step 5: Mean Pooling - 合并成一个句子向量
+# ============================================================================
+print("\n" + "=" * 80)
+print("Step 5: Mean Pooling - 把多个词向量合并成一个句子向量")
+print("=" * 80)
+print("""
+问题：现在有 10 个词，每个词一个向量
+     如何变成 1 个句子向量？
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+代码：
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+def mean_pooling(token_embeddings, attention_mask):
+    \"\"\"
+    对所有词向量求平均（考虑 attention_mask）
+    \"\"\"
+    # token_embeddings: (1, 10, 384)
+    # attention_mask:   (1, 10)
+    # 扩展 mask 的维度以匹配 embeddings
+    # (1, 10) → (1, 10, 1) → (1, 10, 384)
+    input_mask_expanded = attention_mask.unsqueeze(-1).expand(
+        token_embeddings.size()
+    ).float()
+    # 将 embeddings 与 mask 相乘（忽略填充部分）
+    # 然后对所有词求和
+    sum_embeddings = torch.sum(
+        token_embeddings * input_mask_expanded,
+        dim=1  # 在 token 维度求和
+    )
+    # 计算有效 token 的数量
+    sum_mask = torch.clamp(
+        input_mask_expanded.sum(dim=1),
+        min=1e-9  # 避免除零
+    )
+    # 求平均
+    mean_embeddings = sum_embeddings / sum_mask
+    return mean_embeddings
+# 使用
+sentence_embedding = mean_pooling(
+    token_embeddings,
+    encoded_input['attention_mask']
+)
+print(sentence_embedding.shape)  # torch.Size([1, 384])
+                                 #   批次  维度
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+具体计算（简化示例）：
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+10 个词向量，每个 384 维：
+  Token 1: [0.234,  0.567, -0.890, ..., 0.123]
+  Token 2: [0.345, -0.678,  0.123, ..., 0.234]
+  Token 3: [0.456,  0.789, -0.234, ..., 0.345]
+  ...
+  Token 10: [0.567, 0.890,  0.345, ..., 0.456]
+求平均（对每一维分别平均）：
+  第1维: (0.234 + 0.345 + 0.456 + ... + 0.567) / 10 = 0.412
+  第2维: (0.567 - 0.678 + 0.789 + ... + 0.890) / 10 = 0.523
+  第3维: (-0.890 + 0.123 - 0.234 + ... + 0.345) / 10 = -0.089
+  ...
+  第384维: (0.123 + 0.234 + 0.345 + ... + 0.456) / 10 = 0.289
+句子向量 = [0.412, 0.523, -0.089, ..., 0.289]  (384维)
+""")
+# ============================================================================
+# Step 6: 归一化（Normalization）
+# ============================================================================
+print("\n" + "=" * 80)
+print("Step 6: L2 归一化 - 将向量长度缩放到 1")
+print("=" * 80)
+print("""
+代码：
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━���━━━━━━━━━━━━━━━━━━━━━━━
+import torch.nn.functional as F
+# L2 归一化
+sentence_embedding = F.normalize(
+    sentence_embedding,
+    p=2,    # L2 范数
+    dim=1   # 在特征维度归一化
+)
+print(sentence_embedding.shape)  # torch.Size([1, 384])
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+归一化的作用：
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+归一化前的向量：
+  v = [0.412, 0.523, -0.089, ..., 0.289]
+  长度 ||v|| = √(0.412² + 0.523² + ... + 0.289²) = 2.37
+归一化后的向量：
+  v_norm = v / ||v||
+  v_norm = [0.412/2.37, 0.523/2.37, ..., 0.289/2.37]
+         = [0.174, 0.221, -0.038, ..., 0.122]
+  长度 ||v_norm|| = 1  ✓
+好处：
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+✅ 所有向量长度相同（都是1），方便比较
+✅ 余弦相似度 = 点积（计算更快）
+   cos_sim(a, b) = a·b / (||a|| × ||b||)
+   如果归一化: cos_sim(a, b) = a·b  ← 简化了！
+✅ 消除向量长度的影响，只关注方向
+""")
+# ============================================================================
+# Step 7: 最终输出
+# ============================================================================
+print("\n" + "=" * 80)
+print("Step 7: 得到最终的句子向量")
+print("=" * 80)
+print("""
+最终结果：
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+# 转换为 numpy 数组（方便使用）
+final_vector = sentence_embedding.cpu().numpy()[0]
+print(final_vector.shape)  # (384,)
+print(final_vector[:5])    # 前5个数字
+# [0.174, 0.221, -0.038, 0.095, 0.312]
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+这就是最终的句子向量！
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+输入: "Machine learning is a subset of artificial intelligence"
+输出: [0.174, 0.221, -0.038, ..., 0.122]  (384 个数字)
+这个向量包含了：
+✅ 每个词的语义
+✅ 词与词之间的关系
+✅ 整个句子的含义
+可以用来：
+✅ 计算与其他句子的相似度
+✅ 存入向量数据库
+✅ 进行语义搜索
+""")
+# ============================================================================
+# 完整代码汇总
+# ============================================================================
+print("\n" + "=" * 80)
+print("📝 完整代码汇总（实际可运行）")
+print("=" * 80)
+print("""
+from transformers import AutoTokenizer, AutoModel
+import torch
+import torch.nn.functional as F
+def text_to_vector(text):
+    \"\"\"
+    完整的文字转向量流程
+    \"\"\"
+    # Step 1: 加载模型
+    model_name = "sentence-transformers/all-MiniLM-L6-v2"
+    tokenizer = AutoTokenizer.from_pretrained(model_name)
+    model = AutoModel.from_pretrained(model_name)
+    model.eval()
+    # Step 2: 分词
+    encoded_input = tokenizer(
+        text,
+        padding=True,
+        truncation=True,
+        max_length=512,
+        return_tensors='pt'
+    )
+    # Step 3 & 4: 通过模型（Embedding + Transformer）
+    with torch.no_grad():
+        outputs = model(**encoded_input)
+        token_embeddings = outputs.last_hidden_state
+    # Step 5: Mean Pooling
+    attention_mask = encoded_input['attention_mask']
+    input_mask_expanded = attention_mask.unsqueeze(-1).expand(
+        token_embeddings.size()
+    ).float()
+    sum_embeddings = torch.sum(token_embeddings * input_mask_expanded, dim=1)
+    sum_mask = torch.clamp(input_mask_expanded.sum(dim=1), min=1e-9)
+    sentence_embedding = sum_embeddings / sum_mask
+    # Step 6: 归一化
+    sentence_embedding = F.normalize(sentence_embedding, p=2, dim=1)
+    # Step 7: 转为 numpy
+    return sentence_embedding.cpu().numpy()[0]
+# 使用示例：
+text = "Machine learning is a subset of artificial intelligence"
+vector = text_to_vector(text)
+print(f"输入: {text}")
+print(f"向量维度: {vector.shape}")  # (384,)
+print(f"前10个数字: {vector[:10]}")
+print(f"向量长度: {np.linalg.norm(vector)}")  # 应该是 1.0
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+你的项目中的简化调用：
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━��━━━━━━━━━━━━━━━━━
+from langchain_community.embeddings import HuggingFaceEmbeddings
+embeddings = HuggingFaceEmbeddings(
+    model_name="sentence-transformers/all-MiniLM-L6-v2"
+)
+vector = embeddings.embed_query(text)
+# ↑ 这一行内部执行了上面所有 7 个步骤！
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+""")
+# ============================================================================
+# 关键步骤时间分析
+# ============================================================================
+print("\n" + "=" * 80)
+print("⏱️  各步骤耗时分析")
+print("=" * 80)
+print("""
+假设处理一个句子（10个词）：
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+Step 1: 加载模型           0.5-2秒   (只需一次，可复用)
+Step 2: 分词               <1毫秒    (非常快)
+Step 3: Embedding 查表     <1毫秒    (矩阵索引)
+Step 4: Transformer 处理   10-50毫秒 (6层计算，最慢)
+Step 5: Mean Pooling       <1毫秒    (简单平均)
+Step 6: 归一化             <1毫秒    (简单除法)
+Step 7: 转换格式           <1毫秒
+总耗时: 10-50毫秒 (GPU) 或 50-200毫秒 (CPU)
+批量处理（20个句子）:
+  单个处理: 20 × 50ms = 1000ms
+  批量处理: 100ms ← 快10倍！(GPU并行)
+这就是为什么要批量向量化！
+""")
+print("\n" + "=" * 80)
+print("✅ 文字转向量的实现步骤讲解完毕！")
+print("=" * 80)
+print("""
+核心步骤回顾：
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+文字
+  ↓ Step 1: 加载模型
+Tokenizer + Model
+  ↓ Step 2: 分词
+Token IDs: [101, 3698, 4083, ...]
+  ↓ Step 3: Embedding 查表
+初始向量: [(10, 384)]
+  ↓ Step 4: Transformer 处理
+更新向量: [(10, 384)]  包含上下文信息
+  ↓ Step 5: Mean Pooling
+句子向量: [(1, 384)]
+  ↓ Step 6: 归一化
+归一化向量: [(1, 384)]  长度=1
+  ↓ Step 7: 输出
+最终向量: [0.174, 0.221, ..., 0.122]
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+现在你知道了每一步的具体操作！
+""")
+print()

vectorization_process_explained.py ADDED Viewed

	@@ -0,0 +1,528 @@

+"""
+向量化和 Chroma 存储过程详解
+从切割后的文档到向量数据库的完整流程
+"""
+print("=" * 80)
+print("向量化和 Chroma 存储过程详解")
+print("=" * 80)
+# ============================================================================
+# Part 1: 完整流程概览
+# ============================================================================
+print("\n" + "=" * 80)
+print("📊 Part 1: 完整流程概览")
+print("=" * 80)
+print("""
+从文档切割到向量数据库的完整流程：
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+Step 1: 文档切割
+原始文档 → RecursiveCharacterTextSplitter → 20 个 chunks
+        (5000 tokens)                         (每个 250 tokens)
+Step 2: 向量化 (Embedding)
+每个 chunk → HuggingFace 模型 → 向量 (384维)
+   "人工智能是..."  →  [0.12, -0.34, 0.56, ...]
+Step 3: 存入 Chroma
+向量 + 原文 + 元数据 → Chroma 数据库
+                      └─ 持久化存储
+Step 4: 构建索引
+Chroma → HNSW 索引 → 快速近似检索
+        (层次化图结构)
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+""")
+# ============================================================================
+# Part 2: Embedding 模型详解
+# ============================================================================
+print("\n" + "=" * 80)
+print("🤖 Part 2: Embedding 模型 - HuggingFaceEmbeddings")
+print("=" * 80)
+print("""
+你的项目配置：
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+self.embeddings = HuggingFaceEmbeddings(
+    model_name="sentence-transformers/all-MiniLM-L6-v2",
+    model_kwargs={'device': device},  # CPU 或 GPU
+    encode_kwargs={'normalize_embeddings': True}  # 归一化
+)
+模型说明：
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+模型名称: all-MiniLM-L6-v2
+├─ 类型: Sentence-BERT (双编码器)
+├─ 参数量: 22M (轻量级)
+├─ 输出维度: 384 维向量
+├─ 训练数据: 10亿+ 句子对
+└─ 特点: 快速、准确、适合语义检索
+工作原理：
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+输入文本: "人工智能是计算机科学的一个分支"
+    ↓
+Tokenization (分词)
+    ↓
+Token IDs: [101, 782, 1435, 1819, 2510, 3221, ...]
+    ↓
+BERT Encoder (6 层 Transformer)
+    ↓
+[CLS] Token 的向量表示
+    ↓
+384 维向量: [0.123, -0.456, 0.789, ...]
+    ↓
+L2 归一化 (normalize_embeddings=True)
+    ↓
+最终向量: ||v|| = 1 (单位向量)
+""")
+# ============================================================================
+# Part 3: 向量化过程分步解析
+# ============================================================================
+print("\n" + "=" * 80)
+print("🔍 Part 3: 向量化过程 - 逐步解析")
+print("=" * 80)
+print("""
+假设我们有 3 个 chunks：
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+Chunk 1: "人工智能是计算机科学的一个分支。它致力于..."
+Chunk 2: "机器学习是人工智能的子领域。它使计算机..."
+Chunk 3: "深度学习使用多层神经网络来处理复杂的..."
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+向量化过程（批量处理）：
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+embeddings.embed_documents([chunk1, chunk2, chunk3])
+                    ↓
+┌──────────────────────────────────────────────────────────┐
+│         HuggingFace Embedding 模型                        │
+│         (sentence-transformers/all-MiniLM-L6-v2)         │
+└──────────────────────────────────────────────────────────┘
+                    ↓
+        内部处理（每个 chunk）：
+                    ↓
+    ┌───────────────────────────────────────┐
+    │ Step 1: Tokenization                  │
+    │ "人工智能..." → [101, 782, 1435, ...] │
+    └───────────────────────────────────────┘
+                    ↓
+    ┌───────────────────────────────────────┐
+    │ Step 2: 转换为 Token Embeddings       │
+    │ Token IDs → 初始向量表示               │
+    └───────────────────────────────────────┘
+                    ↓
+    ┌───────────────────────────────────────┐
+    │ Step 3: BERT Encoder (6 层)          │
+    │ Self-Attention + Feed Forward         │
+    │ 每层提取更深层的语义                  │
+    └───────────────────────────────────────┘
+                    ↓
+    ┌───────────────────────────────────────┐
+    │ Step 4: Mean Pooling                  │
+    │ 所有 token 向量的平均 → 句子向量      │
+    └───────────────────────────────────────┘
+                    ↓
+    ┌───────────────────────────────────────┐
+    │ Step 5: L2 Normalization              │
+    │ 向量归一化到单位长度                  │
+    └───────────────────────────────────────┘
+                    ↓
+        输出：3 个向量
+                    ↓
+┌─────────────────────────────────────────────────────────┐
+│ Vector 1: [0.123, -0.456, 0.789, ..., 0.321]  (384维)  │
+│ Vector 2: [0.234, 0.567, -0.890, ..., 0.432]  (384维)  │
+│ Vector 3: [-0.345, 0.678, 0.901, ..., -0.543] (384维)  │
+└─────────────────────────────────────────────────────────┘
+关键点：
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+✅ 每个 chunk → 1 个固定维度的向量 (384维)
+✅ 语义相似的文本 → 向量距离近
+✅ 归一化后可用余弦相似度快速比较
+""")
+# ============================================================================
+# Part 4: Chroma 数据库存储结构
+# ============================================================================
+print("\n" + "=" * 80)
+print("💾 Part 4: Chroma 数据库存储结构")
+print("=" * 80)
+print("""
+Chroma.from_documents() 执行的操作：
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+Chroma.from_documents(
+    documents=doc_splits,          # 20 个 chunks
+    collection_name="rag-chroma",  # 集合名称
+    embedding=self.embeddings      # Embedding 函数
+)
+内部流程：
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+Step 1: 创建/打开集合
+┌──────────────────────────────────────┐
+│ Collection: "rag-chroma"             │
+│ 元数据: embedding_dimension=384     │
+└──────────────────────────────────────┘
+Step 2: 批量向量化
+for chunk in doc_splits:
+    vector = embeddings.embed_documents([chunk.page_content])
+    ↓
+Step 3: 存储数据（每个 chunk）
+┌─────────────────────────────────────────────────────────┐
+│ ID: "chunk_1"                                           │
+│ ├─ Vector: [0.123, -0.456, ..., 0.321]  (384维)        │
+│ ├─ Document: "人工智能是计算机科学的一个分支..."       │
+│ └─ Metadata: {                                          │
+│      "source": "https://...",                           │
+│      "chunk_index": 0,                                  │
+│      "total_chunks": 20                                 │
+│    }                                                    │
+├─────────────────────────────────────────────────────────┤
+│ ID: "chunk_2"                                           │
+│ ├─ Vector: [0.234, 0.567, ..., 0.432]                  │
+│ ├─ Document: "机器学习是人工智能的子领域..."           │
+│ └─ Metadata: {...}                                      │
+├─────────────────────────────────────────────────────────┤
+│ ID: "chunk_3"                                           │
+│ ├─ Vector: [-0.345, 0.678, ..., -0.543]                │
+│ ├─ Document: "深度学习使用多层神经网络..."             │
+│ └─ Metadata: {...}                                      │
+└─────────────────────────────────────────────────────────┘
+Step 4: 构建 HNSW 索引
+向量 → HNSW 图结构 → 快速检索
+      (层次化导航小世界图)
+存储位置：
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+默认路径: ./chroma/  (本地目录)
+├─ collections/
+│  └─ rag-chroma/
+│     ├─ data.parquet      # 向量数据
+│     ├─ metadata.json     # 元数据
+│     └─ index.bin         # HNSW 索引
+└─ chroma.sqlite3          # SQLite 数据库
+""")
+# ============================================================================
+# Part 5: HNSW 索引工作原理
+# ============================================================================
+print("\n" + "=" * 80)
+print("🔗 Part 5: HNSW 索引 - 快速检索的秘密")
+print("=" * 80)
+print("""
+HNSW = Hierarchical Navigable Small World
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+为什么需要索引？
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+暴力搜索: O(n) - 计算查询向量与所有向量的距离
+  └─ 10000 个向量 → 需要计算 10000 次距离
+  └─ 太慢！
+HNSW 索引: O(log n) - 层次化图结构导航
+  └─ 10000 个向量 → 只需检查约 20-30 个节点
+  └─ 快 100+ 倍！
+HNSW 结构（简化示例）：
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+Layer 2 (最稀疏)
+  V₁ ←──────→ V₅ ←──────→ V₁₂
+   ↓           ↓           ↓
+Layer 1
+  V₁ ←→ V₃ ←→ V₅ ←→ V₈ ←→ V₁₂
+   ↓     ↓     ↓     ↓     ↓
+Layer 0 (最密集)
+  V₁ ← V₂ ← V₃ ← V₄ ← V₅ ← V₆ ← ... ← V₁₂
+  所有向量都在这一层
+检索过程：
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+查询向量: Q = [0.2, -0.3, 0.5, ...]
+Step 1: 从 Layer 2 开始（粗略搜索）
+  入口点: V₁
+  → 计算 dist(Q, V₁), dist(Q, V₅), dist(Q, V₁₂)
+  → V₅ 最近 → 跳到 V₅
+Step 2: 下降到 Layer 1（中等精度）
+  从 V₅ 开始
+  → 检查邻居 V₃, V₈
+  → V₈ 最近 → 跳到 V₈
+Step 3: 下降到 Layer 0（高精度）
+  从 V₈ 开始
+  → 检查所有邻居
+  → 找到最近的 K 个向量
+返回结果: Top K 最相似的 chunks
+速度对比：
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+暴力搜索: 10000 次距离计算 → 100ms
+HNSW 索引: 20-30 次距离计算 → 1ms  ← 快 100 倍！
+""")
+# ============================================================================
+# Part 6: 检索过程详解
+# ============================================================================
+print("\n" + "=" * 80)
+print("🔍 Part 6: 检索过程 - 从查询到结果")
+print("=" * 80)
+print("""
+用户查询: "什么是机器学习？"
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+Step 1: 查询向量化
+─────────────────────────────────────────────────────────
+"什么是机器学习？"
+    ↓
+embeddings.embed_query("什么是机器学习？")
+    ↓
+Query Vector: [0.345, -0.678, 0.234, ...]  (384维)
+Step 2: HNSW 近似搜索
+─────────────────────────────────────────────────────────
+vectorstore.similarity_search(
+    query="什么是机器学习？",
+    k=20  # 返回 Top 20
+)
+    ↓
+Chroma 内部:
+1. 查询向量化
+2. HNSW 图导航
+3. 计算余弦相似度
+    ↓
+返回 Top 20 chunks:
+┌──────────┬─────────┬────────────────────────────┐
+│ Chunk ID │  Score  │        Content             │
+├──────────┼─────────┼────────────────────────────┤
+│ chunk_5  │  0.92   │ "机器学习是人工智能的..." │
+│ chunk_2  │  0.88   │ "人工智能包括机器学习..." │
+│ chunk_11 │  0.85   │ "监督学习是机器学习..."   │
+│ ...      │  ...    │ ...                        │
+└──────────┴─────────┴────────────────────────────┘
+Step 3: CrossEncoder 重排（你的项目特色）
+─────────────────────────────────────────────────────────
+reranker.rerank(query, top_20_chunks, top_k=5)
+    ↓
+每个 chunk 重新打分（深度交互）
+    ↓
+最终 Top 5:
+┌──────────┬─────────┬────────────────────────────┐
+│ Chunk ID │  Score  │        Content             │
+├──────────┼─────────┼────────────────────────────┤
+│ chunk_5  │  8.45   │ "机器学习是人工智能的..." │
+│ chunk_11 │  7.89   │ "监督学习是机器学习..."   │
+│ chunk_2  │  7.23   │ "人工智能包括机器学习..." │
+│ chunk_14 │  6.78   │ "深度学习是机器学习..."   │
+│ chunk_8  │  6.12   │ "强化学习允许..."         │
+└──────────┴─────────┴────────────────────────────┘
+Step 4: 返回给 LLM
+─────────────────────────────────────────────────────────
+context = "\\n\\n".join([chunk.page_content for chunk in top_5])
+    ↓
+LLM 生成答案
+""")
+# ============================================================================
+# Part 7: 关键技术细节
+# ============================================================================
+print("\n" + "=" * 80)
+print("⚙️  Part 7: 关键技术细节")
+print("=" * 80)
+print("""
+1. 为什么要归一化向量？
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+encode_kwargs={'normalize_embeddings': True}
+原始向量: [1.23, -4.56, 7.89, ...]  # 长度不一
+归一化后: [0.12, -0.45, 0.78, ...]  # 长度 = 1
+好处:
+✅ 余弦相似度 = 点积（计算更快）
+✅ 所有向量在同一尺度上
+✅ 避免长度影响相似度计算
+2. 余弦相似度 vs 欧氏距离
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+余弦相似度（你的项目使用）⭐:
+  similarity = v₁ · v₂ / (||v₁|| × ||v₂||)
+  范围: [-1, 1]，1 表示完全相同
+  特点: 关注方向，忽略长度
+欧氏距离:
+  distance = √Σ(v₁ᵢ - v₂ᵢ)²
+  范围: [0, ∞]，0 表示完全相同
+  特点: 关注绝对位置差异
+归一化后，两者等价！
+3. 批量处理优化
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+不推荐（慢）:
+for chunk in chunks:
+    vector = embed_documents([chunk])  # 单独处理
+推荐（快 10 倍）⭐:
+vectors = embed_documents(chunks)  # 批量处理
+  └─ GPU 并行计算
+  └─ 减少模型加载开销
+4. 内存优化
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+向量维度选择:
+  384 维 (all-MiniLM-L6-v2)   ← 你的项目 ⭐
+  └─ 平衡：准确率 vs 存储
+  768 维 (BERT-base)
+  └─ 更准确但存储翻倍
+  1024 维 (large models)
+  └─ 最准确但存储 3 倍
+存储计算:
+20 个 chunks × 384 维 × 4 bytes = 30KB
+1000 个 chunks × 384 维 × 4 bytes = 1.5MB
+  └─ 非常高效！
+""")
+# ============================================================================
+# Part 8: 完整代码流程
+# ============================================================================
+print("\n" + "=" * 80)
+print("💻 Part 8: 完整代码流程总结")
+print("=" * 80)
+print("""
+你的项目完整流程：
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+# 1. 初始化 Embedding 模型
+embeddings = HuggingFaceEmbeddings(
+    model_name="sentence-transformers/all-MiniLM-L6-v2",
+    model_kwargs={'device': 'cpu'},
+    encode_kwargs={'normalize_embeddings': True}
+)
+# 2. 文档切割
+text_splitter = RecursiveCharacterTextSplitter.from_tiktoken_encoder(
+    chunk_size=250,
+    chunk_overlap=50  # ← 你刚修改的
+)
+doc_splits = text_splitter.split_documents(docs)
+# 3. 向量化 + 存储到 Chroma
+vectorstore = Chroma.from_documents(
+    documents=doc_splits,      # 输入: 20 个 chunks
+    collection_name="rag-chroma",
+    embedding=embeddings       # 向量化函数
+)
+# ↓ 内部自动完成:
+#   - 批量向量化: chunks → 384维向量
+#   - 存储: 向量 + 原文 + 元数据
+#   - 构建 HNSW 索引
+# 4. 创建检索器
+retriever = vectorstore.as_retriever()
+# 5. 检索
+docs = retriever.get_relevant_documents("什么是机器学习？")
+# ↓ 内部流程:
+#   - 查询向量化
+#   - HNSW 快速检索
+#   - 返回 Top K chunks
+# 6. CrossEncoder 重排（可选，你的项目有）
+reranked = crossencoder.rerank(query, docs, top_k=5)
+# 7. 喂给 LLM 生成答案
+answer = llm.generate(context=docs, question=query)
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+""")
+# ============================================================================
+# Part 9: 性能优化建议
+# ============================================================================
+print("\n" + "=" * 80)
+print("🚀 Part 9: 性能优化建议")
+print("=" * 80)
+print("""
+当前配置评分：
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+✅ Embedding 模型: all-MiniLM-L6-v2  (轻量高效) ⭐⭐⭐⭐⭐
+✅ 向量归一化: True                 (余弦相似度优化) ⭐⭐⭐⭐⭐
+✅ 索引类型: HNSW                   (快速检索) ⭐⭐⭐⭐⭐
+✅ Chunk overlap: 50                (保持上下文) ⭐⭐⭐⭐⭐
+✅ CrossEncoder 重排                (精准排序) ⭐⭐⭐⭐⭐
+总评: 🏆 生产级配置！
+可选优化（如需进一步提升）：
+━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
+1. GPU 加速
+   model_kwargs={'device': 'cuda'}  # 向量化速度 10x ↑
+2. 更大的 Embedding 模型（如需更高准确率）
+   "BAAI/bge-large-en-v1.5"  # 1024维，准确率 +5%
+3. 批量大小调整
+   batch_size=32  # 加快向量化
+4. Chroma 持久化配置
+   persist_directory="./chroma_db"  # 避免重复向量化
+""")
+print("\n" + "=" * 80)
+print("✅ 解析完成！你现在理解了从切割到向量数据库的完整流程")
+print("=" * 80)
+print()