antimoda1 commited on
Commit
8109cc7
·
1 Parent(s): 3d115be

more refactor

Browse files
Files changed (3) hide show
  1. app.py +1 -1
  2. calculate_params.py +2 -4
  3. retrieval.py +3 -3
app.py CHANGED
@@ -3,7 +3,7 @@ import numpy as np
3
 
4
  from llm import get_llm_answer
5
  from retrieval import Retrieval
6
- from _2_splitting import _parse_single_year
7
  from vocabulary.parse_vocabulary import VOCABULARY_MANAGER
8
 
9
 
 
3
 
4
  from llm import get_llm_answer
5
  from retrieval import Retrieval
6
+ from parse_documents import _parse_single_year
7
  from vocabulary.parse_vocabulary import VOCABULARY_MANAGER
8
 
9
 
calculate_params.py CHANGED
@@ -96,7 +96,7 @@ test_cases = (
96
  )
97
 
98
 
99
- def test_cross_encoder_vs_bm25():
100
  """Тестирует кросс-энкодер vs BM25 на всех документах."""
101
  # Создаем объект Retrieval (загружает корпус автоматически)
102
  retrieval = Retrieval()
@@ -137,7 +137,5 @@ def test_cross_encoder_vs_bm25():
137
  print(f"Оптимальный вес для BM25: {params.x[0]:.4f}")
138
 
139
 
140
-
141
  if __name__ == "__main__":
142
- test_cross_encoder_vs_bm25()
143
-
 
96
  )
97
 
98
 
99
+ def test_retrieval():
100
  """Тестирует кросс-энкодер vs BM25 на всех документах."""
101
  # Создаем объект Retrieval (загружает корпус автоматически)
102
  retrieval = Retrieval()
 
137
  print(f"Оптимальный вес для BM25: {params.x[0]:.4f}")
138
 
139
 
 
140
  if __name__ == "__main__":
141
+ test_retrieval()
 
retrieval.py CHANGED
@@ -9,8 +9,8 @@ from sentence_transformers import SentenceTransformer
9
  import warnings
10
  warnings.filterwarnings('ignore')
11
 
12
- from _1_get_documents import load_and_process_data
13
- from _2_splitting import process_documents
14
  from lemmatizer import RussianLemmatizer
15
 
16
 
@@ -86,7 +86,7 @@ class Retrieval:
86
  self.embedder = SentenceTransformer('cointegrated/rubert-tiny2', cache_folder="/tmp")
87
  self.embeddings_of_summary = self.embedder.encode(self.paragraphs_df['summary'], convert_to_tensor=True)
88
 
89
- print("RAG система готова к использованию")
90
 
91
 
92
  # ============ Методы кэширования лемматизации ============
 
9
  import warnings
10
  warnings.filterwarnings('ignore')
11
 
12
+ from get_documents import load_and_process_data
13
+ from parse_documents import process_documents
14
  from lemmatizer import RussianLemmatizer
15
 
16
 
 
86
  self.embedder = SentenceTransformer('cointegrated/rubert-tiny2', cache_folder="/tmp")
87
  self.embeddings_of_summary = self.embedder.encode(self.paragraphs_df['summary'], convert_to_tensor=True)
88
 
89
+ print("RAG система готова к использованию")
90
 
91
 
92
  # ============ Методы кэширования лемматизации ============