Spaces:

toropets
/

RAG2

Sleeping

antimoda1 commited on Mar 9

Commit

8109cc7

1 Parent(s): 3d115be

more refactor

Files changed (3) hide show

app.py CHANGED Viewed

@@ -3,7 +3,7 @@ import numpy as np
 from llm import get_llm_answer
 from retrieval import Retrieval
-from _2_splitting import _parse_single_year
 from vocabulary.parse_vocabulary import VOCABULARY_MANAGER

 from llm import get_llm_answer
 from retrieval import Retrieval
+from parse_documents import _parse_single_year
 from vocabulary.parse_vocabulary import VOCABULARY_MANAGER

calculate_params.py CHANGED Viewed

@@ -96,7 +96,7 @@ test_cases = (
 )
-def test_cross_encoder_vs_bm25():
     """Тестирует кросс-энкодер vs BM25 на всех документах."""
     # Создаем объект Retrieval (загружает корпус автоматически)
     retrieval = Retrieval()
@@ -137,7 +137,5 @@ def test_cross_encoder_vs_bm25():
     print(f"Оптимальный вес для BM25: {params.x[0]:.4f}")
 if __name__ == "__main__":
-    test_cross_encoder_vs_bm25()

 )
+def test_retrieval():
     """Тестирует кросс-энкодер vs BM25 на всех документах."""
     # Создаем объект Retrieval (загружает корпус автоматически)
     retrieval = Retrieval()
     print(f"Оптимальный вес для BM25: {params.x[0]:.4f}")
 if __name__ == "__main__":
+    test_retrieval()

retrieval.py CHANGED Viewed

@@ -9,8 +9,8 @@ from sentence_transformers import SentenceTransformer
 import warnings
 warnings.filterwarnings('ignore')
-from _1_get_documents import load_and_process_data
-from _2_splitting import process_documents
 from lemmatizer import RussianLemmatizer
@@ -86,7 +86,7 @@ class Retrieval:
         self.embedder = SentenceTransformer('cointegrated/rubert-tiny2', cache_folder="/tmp")
         self.embeddings_of_summary = self.embedder.encode(self.paragraphs_df['summary'], convert_to_tensor=True)
-        print("✅ RAG система готова к использованию")
     # ============ Методы кэширования лемматизации ============

 import warnings
 warnings.filterwarnings('ignore')
+from get_documents import load_and_process_data
+from parse_documents import process_documents
 from lemmatizer import RussianLemmatizer
         self.embedder = SentenceTransformer('cointegrated/rubert-tiny2', cache_folder="/tmp")
         self.embeddings_of_summary = self.embedder.encode(self.paragraphs_df['summary'], convert_to_tensor=True)
+        print("RAG система готова к использованию")
     # ============ Методы кэширования лемматизации ============