Spaces:

MrSimple01
/

RAG_AIEXP_01

Sleeping

App Files Files Community

MrSimple07 commited on Sep 30, 2025

Commit

edc2f6f

1 Parent(s): 8befcd1

bm = 50, semantic = 50. hybrid = 50

Browse files

Files changed (2) hide show

index_retriever.py +2 -2
utils.py +4 -40

index_retriever.py CHANGED Viewed

@@ -16,7 +16,7 @@ def create_query_engine(vector_index):
     try:
         bm25_retriever = BM25Retriever.from_defaults(
             docstore=vector_index.docstore,
-            similarity_top_k=40
         )
         vector_retriever = VectorIndexRetriever(
@@ -27,7 +27,7 @@ def create_query_engine(vector_index):
         hybrid_retriever = QueryFusionRetriever(
             [vector_retriever, bm25_retriever],
-            similarity_top_k=40,
             num_queries=1
         )

     try:
         bm25_retriever = BM25Retriever.from_defaults(
             docstore=vector_index.docstore,
+            similarity_top_k=50
         )
         vector_retriever = VectorIndexRetriever(
         hybrid_retriever = QueryFusionRetriever(
             [vector_retriever, bm25_retriever],
+            similarity_top_k=50,
             num_queries=1
         )

utils.py CHANGED Viewed

@@ -225,32 +225,6 @@ def generate_sources_html(nodes, chunks_df=None):
     html += "</div>"
     return html
-def expand_query(question, llm_model):
-    """
-    Generate multiple query variations for better retrieval
-    """
-    expansion_prompt = f"""Дан вопрос: "{question}"
-Сгенерируй 2 альтернативные формулировки этого вопроса для поиска в базе данных.
-Используй синонимы и разные формулировки, сохраняя смысл.
-Формат ответа (только вопросы, по одному на строку):
-1. [первая формулировка]
-2. [вторая формулировка]"""
-    try:
-        response = llm_model.complete(expansion_prompt)
-        expanded = [q.strip() for q in response.text.split('\n') if q.strip() and not q.strip().startswith('1.') and not q.strip().startswith('2.')]
-        # Clean up
-        expanded = [q.lstrip('12. ').strip() for q in expanded if len(q) > 10][:2]
-        log_message(f"Query expansion: {len(expanded)} вариантов")
-        return [question] + expanded
-    except Exception as e:
-        log_message(f"Ошибка расширения запроса: {str(e)}")
-        return [question]
 def answer_question(question, query_engine, reranker, current_model, chunks_df=None):
     if query_engine is None:
         return "<div style='background-color: #e53e3e; color: white; padding: 20px; border-radius: 10px;'>Система не инициализирована</div>", "", ""
@@ -260,24 +234,14 @@ def answer_question(question, query_engine, reranker, current_model, chunks_df=N
         llm = get_llm_model(current_model)
-        query_variations = expand_query(question, llm)
-        all_nodes = []
-        seen_node_ids = set()
-        for query_var in query_variations:
-            retrieved = query_engine.retriever.retrieve(query_var)
-            for node in retrieved:
-                node_id = f"{node.node_id if hasattr(node, 'node_id') else hash(node.text)}"
-                if node_id not in seen_node_ids:
-                    all_nodes.append(node)
-                    seen_node_ids.add(node_id)
-        log_message(f"Получено {len(all_nodes)} уникальных узлов из {len(query_variations)} запросов")
         reranked_nodes = rerank_nodes(
             question,
-            all_nodes,
             reranker,
             top_k=20,
             min_score_threshold=0.5,

     html += "</div>"
     return html
 def answer_question(question, query_engine, reranker, current_model, chunks_df=None):
     if query_engine is None:
         return "<div style='background-color: #e53e3e; color: white; padding: 20px; border-radius: 10px;'>Система не инициализирована</div>", "", ""
         llm = get_llm_model(current_model)
+        # Direct retrieval without query expansion
+        retrieved_nodes = query_engine.retriever.retrieve(question)
+        log_message(f"Получено {len(retrieved_nodes)} узлов")
         reranked_nodes = rerank_nodes(
             question,
+            retrieved_nodes,
             reranker,
             top_k=20,
             min_score_threshold=0.5,