Spaces:

ahaahaaha
/

adaptive_rag

Paused

App Files Files Community

lanny xu commited on Oct 27

Commit

db5bfaa

1 Parent(s): 8008bd3

modify reranker

Browse files

Files changed (3) hide show

document_processor.py +21 -6
reranker.py +124 -2
test_crossencoder_reranking.py +229 -0

document_processor.py CHANGED Viewed

@@ -62,14 +62,29 @@ class DocumentProcessor:
         self._setup_reranker()
     def _setup_reranker(self):
-        """设置重排器"""
         try:
-            # 使用混合重排器获得最佳效果
-            self.reranker = create_reranker('hybrid', self.embeddings)
-            print("✅ 重排器初始化成功")
         except Exception as e:
-            print(f"⚠️ 重排器初始化失败: {e}")
-            print("将使用基础检索，不进行重排")
     def load_documents(self, urls=None):
         """从URL加载文档"""

         self._setup_reranker()
     def _setup_reranker(self):
+        """
+        设置重排器
+        使用 CrossEncoder 提升重排准确率
+        """
         try:
+            # 使用 CrossEncoder 重排器 (准确率最高) ⭐
+            print("🔧 正在初始化 CrossEncoder 重排器...")
+            self.reranker = create_reranker(
+                'crossencoder',
+                model_name='cross-encoder/ms-marco-MiniLM-L-6-v2',  # 轻量级模型
+                max_length=512
+            )
+            print("✅ CrossEncoder 重排器初始化成功")
         except Exception as e:
+            print(f"⚠️ CrossEncoder 初始化失败: {e}")
+            print("🔄 尝试回退到混合重排器...")
+            try:
+                # 回退到混合重排器
+                self.reranker = create_reranker('hybrid', self.embeddings)
+                print("✅ 混合重排器初始化成功")
+            except Exception as e2:
+                print(f"⚠️ 重排器初始化完全失败: {e2}")
+                print("⚠️ 将使用基础检索，不进行重排")
     def load_documents(self, urls=None):
         """从URL加载文档"""

reranker.py CHANGED Viewed

@@ -1,6 +1,7 @@
 """
 向量重排模块
 实现多种重排策略以提高检索质量
 """
 import torch
@@ -12,6 +13,14 @@ import re
 from collections import Counter
 import math
 class DocumentReranker:
     """文档重排器基类"""
@@ -162,6 +171,86 @@ class SemanticReranker(DocumentReranker):
         return results
 class HybridReranker(DocumentReranker):
     """混合重排器，融合多种策略"""
@@ -302,26 +391,59 @@ class DiversityReranker(DocumentReranker):
 def create_reranker(reranker_type: str, embeddings_model=None, **kwargs) -> DocumentReranker:
-    """工厂函数：创建指定类型的重排器"""
     if reranker_type.lower() == 'tfidf':
         return TFIDFReranker()
     elif reranker_type.lower() == 'bm25':
         return BM25Reranker(**kwargs)
     elif reranker_type.lower() == 'semantic':
         if embeddings_model is None:
             raise ValueError("SemanticReranker requires embeddings_model")
         return SemanticReranker(embeddings_model)
     elif reranker_type.lower() == 'hybrid':
         if embeddings_model is None:
             raise ValueError("HybridReranker requires embeddings_model")
         return HybridReranker(embeddings_model, **kwargs)
     elif reranker_type.lower() == 'diversity':
         if embeddings_model is None:
             raise ValueError("DiversityReranker requires embeddings_model")
         return DiversityReranker(embeddings_model, **kwargs)
     else:
-        raise ValueError(f"Unknown reranker type: {reranker_type}")
 # 使用示例

 """
 向量重排模块
 实现多种重排策略以提高检索质量
+支持 CrossEncoder 深度重排
 """
 import torch
 from collections import Counter
 import math
+# CrossEncoder support
+try:
+    from sentence_transformers import CrossEncoder as SentenceTransformerCrossEncoder
+    CROSSENCODER_AVAILABLE = True
+except ImportError:
+    CROSSENCODER_AVAILABLE = False
+    print("⚠️ sentence-transformers not available. CrossEncoder reranking disabled.")
 class DocumentReranker:
     """文档重排器基类"""
         return results
+class CrossEncoderReranker(DocumentReranker):
+    """
+    基于 CrossEncoder 的重排器
+    使用联合编码，相比 Bi-Encoder 准确率提升 15-20%
+    适合精排阶段 (Top 20-100 文档)
+    """
+    def __init__(self, model_name: str = "cross-encoder/ms-marco-MiniLM-L-6-v2", max_length: int = 512):
+        """
+        初始化 CrossEncoder 重排器
+        Args:
+            model_name: 模型名称，默认使用轻量级模型
+                - "cross-encoder/ms-marco-MiniLM-L-6-v2" (轻量级，推荐)
+                - "cross-encoder/ms-marco-MiniLM-L-12-v2" (平衡)
+                - "BAAI/bge-reranker-base" (中文优化)
+                - "BAAI/bge-reranker-large" (高精度)
+            max_length: 最大输入长度
+        """
+        super().__init__()
+        self.name = "CrossEncoderReranker"
+        self.model_name = model_name
+        self.max_length = max_length
+        # 加载模型
+        if not CROSSENCODER_AVAILABLE:
+            raise ImportError(
+                "CrossEncoder requires sentence-transformers. "
+                "Install with: pip install sentence-transformers"
+            )
+        try:
+            print(f"🔧 加载 CrossEncoder 模型: {model_name}...")
+            self.model = SentenceTransformerCrossEncoder(model_name, max_length=max_length)
+            print(f"✅ CrossEncoder 模型加载成功")
+        except Exception as e:
+            print(f"❌ CrossEncoder 模型加载失败: {e}")
+            raise
+    def rerank(self, query: str, documents: List[dict], top_k: int = 5) -> List[Tuple[dict, float]]:
+        """
+        使用 CrossEncoder 重新排序文档
+        Args:
+            query: 查询文本
+            documents: 候选文档列表
+            top_k: 返回结果数量
+        Returns:
+            排序后的 (document, score) 元组列表
+        """
+        if not documents:
+            return []
+        # 提取文档内容
+        doc_texts = [doc.page_content if hasattr(doc, 'page_content') else str(doc) for doc in documents]
+        # 构造 [query, doc] 对
+        query_doc_pairs = [[query, doc_text] for doc_text in doc_texts]
+        # CrossEncoder 评分 - 联合编码
+        try:
+            scores = self.model.predict(query_doc_pairs)
+            # 排序
+            ranked_indices = np.argsort(scores)[::-1]
+            # 返回 top_k 结果
+            results = []
+            for i in ranked_indices[:top_k]:
+                results.append((documents[i], float(scores[i])))
+            return results
+        except Exception as e:
+            print(f"⚠️ CrossEncoder 重排失败: {e}")
+            # 回退到原始顺序
+            return [(doc, 0.0) for doc in documents[:top_k]]
 class HybridReranker(DocumentReranker):
     """混合重排器，融合多种策略"""
 def create_reranker(reranker_type: str, embeddings_model=None, **kwargs) -> DocumentReranker:
+    """
+    工厂函数：创建指定类型的重排器
+    Args:
+        reranker_type: 重排器类型
+            - 'tfidf': TF-IDF 重排
+            - 'bm25': BM25 重排
+            - 'semantic': Bi-Encoder 语义重排
+            - 'crossencoder': CrossEncoder 重排 (推荐) ⭐
+            - 'hybrid': 混合重排
+            - 'diversity': 多样性重排
+        embeddings_model: 嵌入模型 (某些重排器需要)
+        **kwargs: 其他参数
+            - model_name: CrossEncoder 模型名称
+            - max_length: CrossEncoder 最大长度
+            - weights: 混合重排权重
+    Returns:
+        DocumentReranker: 重排器实例
+    """
     if reranker_type.lower() == 'tfidf':
         return TFIDFReranker()
     elif reranker_type.lower() == 'bm25':
         return BM25Reranker(**kwargs)
     elif reranker_type.lower() == 'semantic':
         if embeddings_model is None:
             raise ValueError("SemanticReranker requires embeddings_model")
         return SemanticReranker(embeddings_model)
+    elif reranker_type.lower() in ['crossencoder', 'cross_encoder', 'cross-encoder']:
+        # CrossEncoder 不需要 embeddings_model，使用自己的模型
+        model_name = kwargs.get('model_name', 'cross-encoder/ms-marco-MiniLM-L-6-v2')
+        max_length = kwargs.get('max_length', 512)
+        return CrossEncoderReranker(model_name=model_name, max_length=max_length)
     elif reranker_type.lower() == 'hybrid':
         if embeddings_model is None:
             raise ValueError("HybridReranker requires embeddings_model")
         return HybridReranker(embeddings_model, **kwargs)
     elif reranker_type.lower() == 'diversity':
         if embeddings_model is None:
             raise ValueError("DiversityReranker requires embeddings_model")
         return DiversityReranker(embeddings_model, **kwargs)
     else:
+        raise ValueError(
+            f"Unknown reranker type: {reranker_type}. "
+            f"Available types: tfidf, bm25, semantic, crossencoder, hybrid, diversity"
+        )
 # 使用示例

test_crossencoder_reranking.py ADDED Viewed

	@@ -0,0 +1,229 @@

+"""
+测试 CrossEncoder 重排功能
+对比 Bi-Encoder vs CrossEncoder 的效果
+"""
+from reranker import create_reranker, TFIDFReranker, BM25Reranker, SemanticReranker, CrossEncoderReranker
+class MockDoc:
+    """模拟文档类"""
+    def __init__(self, content, metadata=None):
+        self.page_content = content
+        self.metadata = metadata or {}
+class MockEmbeddings:
+    """模拟 Embeddings 类（用于 Semantic Reranker）"""
+    def embed_query(self, text):
+        # 简单的字符级向量化（仅用于测试）
+        return [ord(c) / 100.0 for c in text[:10]]
+    def embed_documents(self, texts):
+        return [self.embed_query(text) for text in texts]
+def create_test_documents():
+    """创建测试文档集"""
+    return [
+        MockDoc("人工智能是计算机科学的一个分支，致力于创建能够执行通常需要人类智能的任务的系统。"),
+        MockDoc("机器学习是人工智能的子领域，专注于让计算机从数据中学习并改进。"),
+        MockDoc("深度学习使用多层神经网络来处理复杂的数据模式，是机器学习的一种方法。"),
+        MockDoc("自然语言处理（NLP）是人工智能的一个分支，处理计算机与人类语言之间的交互。"),
+        MockDoc("计算机视觉是人工智能的另一个重要领域，使机器能够理解和解释视觉信息。"),
+        MockDoc("今天天气很好，适合出去散步和运动。"),
+        MockDoc("Python 是一种高级编程语言，由 Guido van Rossum 在 1991 年创建。"),
+        MockDoc("RAG（检索增强生成）是一种结合信息检索和文本生成的技术。"),
+    ]
+def test_tfidf_reranking():
+    """测试 TF-IDF 重排"""
+    print("\n" + "=" * 60)
+    print("📊 测试 TF-IDF 重排")
+    print("=" * 60)
+    query = "什么是人工智能和机器学习？"
+    docs = create_test_documents()
+    reranker = TFIDFReranker()
+    results = reranker.rerank(query, docs, top_k=3)
+    print(f"\n查询: {query}")
+    print("\nTF-IDF 重排结果:")
+    for i, (doc, score) in enumerate(results, 1):
+        print(f"{i}. 分数: {score:.4f} | 内容: {doc.page_content[:50]}...")
+def test_bm25_reranking():
+    """测试 BM25 重排"""
+    print("\n" + "=" * 60)
+    print("📊 测试 BM25 重排")
+    print("=" * 60)
+    query = "什么是人工智能和机器学习？"
+    docs = create_test_documents()
+    reranker = BM25Reranker()
+    results = reranker.rerank(query, docs, top_k=3)
+    print(f"\n查询: {query}")
+    print("\nBM25 重排结果:")
+    for i, (doc, score) in enumerate(results, 1):
+        print(f"{i}. 分数: {score:.4f} | 内容: {doc.page_content[:50]}...")
+def test_crossencoder_reranking():
+    """测试 CrossEncoder 重排"""
+    print("\n" + "=" * 60)
+    print("🌟 测试 CrossEncoder 重排（推荐）")
+    print("=" * 60)
+    query = "什么是人工智能和机器学习？"
+    docs = create_test_documents()
+    try:
+        # 使用轻量级模型
+        reranker = CrossEncoderReranker(
+            model_name="cross-encoder/ms-marco-MiniLM-L-6-v2"
+        )
+        results = reranker.rerank(query, docs, top_k=3)
+        print(f"\n查询: {query}")
+        print("\nCrossEncoder 重排结果:")
+        for i, (doc, score) in enumerate(results, 1):
+            print(f"{i}. 分数: {score:.4f} | 内容: {doc.page_content[:50]}...")
+        return True
+    except Exception as e:
+        print(f"\n❌ CrossEncoder 测试失败: {e}")
+        print("💡 提示: 请先安装 sentence-transformers")
+        print("   命令: pip install sentence-transformers")
+        return False
+def test_factory_function():
+    """测试工厂函数"""
+    print("\n" + "=" * 60)
+    print("🏭 测试重排器工厂函数")
+    print("=" * 60)
+    query = "深度学习和神经网络"
+    docs = create_test_documents()
+    # 测试各种类型
+    reranker_types = ['tfidf', 'bm25']
+    for rtype in reranker_types:
+        try:
+            reranker = create_reranker(rtype)
+            results = reranker.rerank(query, docs, top_k=2)
+            print(f"\n✅ {rtype.upper()} 重排器创建成功")
+            print(f"   Top 1: {results[0][1]:.4f} | {results[0][0].page_content[:40]}...")
+        except Exception as e:
+            print(f"\n❌ {rtype.upper()} 重排器失败: {e}")
+    # 测试 CrossEncoder
+    try:
+        reranker = create_reranker('crossencoder')
+        results = reranker.rerank(query, docs, top_k=2)
+        print(f"\n✅ CROSSENCODER 重排器创建成功")
+        print(f"   Top 1: {results[0][1]:.4f} | {results[0][0].page_content[:40]}...")
+    except Exception as e:
+        print(f"\n❌ CROSSENCODER 重排器失败: {e}")
+def compare_all_methods():
+    """对比所有重排方法"""
+    print("\n" + "=" * 60)
+    print("⚖️  对比所有重排方法")
+    print("=" * 60)
+    query = "解释一下人工智能、机器学习和深度学习的关系"
+    docs = create_test_documents()
+    methods = {
+        'TF-IDF': TFIDFReranker(),
+        'BM25': BM25Reranker(),
+    }
+    # 尝试添加 CrossEncoder
+    try:
+        methods['CrossEncoder'] = CrossEncoderReranker()
+    except:
+        print("\n⚠️ CrossEncoder 不可用，跳过")
+    print(f"\n查询: {query}\n")
+    for method_name, reranker in methods.items():
+        try:
+            results = reranker.rerank(query, docs, top_k=3)
+            print(f"\n{'=' * 40}")
+            print(f"{method_name} 重排结果:")
+            print('=' * 40)
+            for i, (doc, score) in enumerate(results, 1):
+                print(f"{i}. [{score:.4f}] {doc.page_content[:60]}...")
+        except Exception as e:
+            print(f"\n{method_name} 失败: {e}")
+def performance_comparison():
+    """性能对比"""
+    print("\n" + "=" * 60)
+    print("⚡ 性能与准确性对比")
+    print("=" * 60)
+    print("""
+    重排方法对比：
+    ┌─────────────────┬──────────┬──────────┬──────────┬────────────┐
+    │ 方法            │ 准确率   │ 速度     │ 成本     │ 适用场景   │
+    ├─────────────────┼──────────┼──────────┼──────────┼────────────┤
+    │ TF-IDF          │ ⭐⭐     │ ⚡⚡⚡   │ 极低     │ 关键词匹配 │
+    │ BM25            │ ⭐⭐⭐   │ ⚡⚡⚡   │ 极低     │ 文本检索   │
+    │ Bi-Encoder      │ ⭐⭐⭐⭐ │ ⚡⚡     │ 低       │ 语义检索   │
+    │ CrossEncoder 🌟 │ ⭐⭐⭐⭐⭐│ ⚡       │ 中       │ 精准重排   │
+    │ Hybrid          │ ⭐⭐⭐⭐ │ ⚡⚡     │ 低       │ 综合场景   │
+    └─────────────────┴──────────┴──────────┴──────────┴────────────┘
+    推荐配置：
+    1️⃣  两阶段检索：Bi-Encoder (快速召回) + CrossEncoder (精准重排)
+    2️⃣  准确率优先：纯 CrossEncoder
+    3️⃣  速度优先：BM25 或 Hybrid
+    当前项目配置：
+    ✅ 已切换到 CrossEncoder 重排
+    📈 准确率预期提升：15-20%
+    ⚡ 速度：单次重排 20-100ms (Top 20 文档)
+    """)
+if __name__ == "__main__":
+    print("\n🚀 开始测试 CrossEncoder 重排功能...\n")
+    # 1. 测试 TF-IDF
+    test_tfidf_reranking()
+    # 2. 测试 BM25
+    test_bm25_reranking()
+    # 3. 测试 CrossEncoder (重点)
+    crossencoder_available = test_crossencoder_reranking()
+    # 4. 测试工厂函数
+    test_factory_function()
+    # 5. 对比所有方法
+    compare_all_methods()
+    # 6. 性能对比总结
+    performance_comparison()
+    print("\n" + "=" * 60)
+    if crossencoder_available:
+        print("✅ 所有测试完成！CrossEncoder 重排已就绪")
+    else:
+        print("⚠️  测试完成，但 CrossEncoder 不可用")
+        print("   请运行: pip install sentence-transformers")
+    print("=" * 60 + "\n")