Spaces:

toropets
/

RAG2

Sleeping

App Files Files Community

antimoda1 commited on Mar 9

Commit

3d115be

1 Parent(s): c1c2970

complete refactor

Browse files

Files changed (4) hide show

calculate_params.py +0 -9
_1_get_documents.py → get_documents.py +4 -11
_2_splitting.py → parse_documents.py +0 -0
tests/test_lemmatization.py +8 -18

calculate_params.py CHANGED Viewed

@@ -96,15 +96,6 @@ test_cases = (
 )
-def get_ranks(scores, good_paragraphs):
-    scores = np.array(scores)
-    ranks = np.argsort(scores, axis=1) # важно: сортировка по возрастанию от нерелевантных к релевантным
-    mask = np.array([np.isin(rank_for_case, good_paragraphs_for_case)
-            for rank_for_case, good_paragraphs_for_case in zip(ranks, good_paragraphs, strict=True)])
-    relevant_ranks = [ranks_case[mask_case] for mask_case, ranks_case in zip(mask, ranks, strict=True)]
-    breakpoint()
-    return relevant_ranks
 def test_cross_encoder_vs_bm25():
     """Тестирует кросс-энкодер vs BM25 на всех документах."""
     # Создаем объект Retrieval (загружает корпус автоматически)

 )
 def test_cross_encoder_vs_bm25():
     """Тестирует кросс-энкодер vs BM25 на всех документах."""
     # Создаем объект Retrieval (загружает корпус автоматически)

_1_get_documents.py → get_documents.py RENAMED Viewed

@@ -1,20 +1,12 @@
 import os
-def get_text(inst):
-    if isinstance(inst, str):
-        return inst
-    if isinstance(inst, list):
-        return ' '.join([get_text(inst_) for inst_ in inst])
-    if isinstance(inst, dict):
-        return get_text(inst['text'])
 def process_file(file_path):
     with open(file_path, 'r', encoding='utf-8-sig') as f:
         text = f.read()
         assert text
     return text, str(file_path).split('.')[0]
 def process_folder_recursive(folder_path):
     all_messages = []
     for file in os.listdir(folder_path):
@@ -24,8 +16,9 @@ def process_folder_recursive(folder_path):
         else:
             all_messages += process_folder_recursive(file_path)
     return all_messages
 def load_and_process_data() -> list[dict]:
     """Загрузка и предобработка данных из JSON файлов"""
     all_messages = process_folder_recursive('texts')
-    return [x[0] for x in all_messages], [x[1][:-3] for x in all_messages]  # возвращаем расширения и тексты документов

 import os
 def process_file(file_path):
     with open(file_path, 'r', encoding='utf-8-sig') as f:
         text = f.read()
         assert text
     return text, str(file_path).split('.')[0]
 def process_folder_recursive(folder_path):
     all_messages = []
     for file in os.listdir(folder_path):
         else:
             all_messages += process_folder_recursive(file_path)
     return all_messages
 def load_and_process_data() -> list[dict]:
     """Загрузка и предобработка данных из JSON файлов"""
     all_messages = process_folder_recursive('texts')
+    return [x[0] for x in all_messages], [x[1][:-3] for x in all_messages]  # возвращаем расширения и тексты документов

_2_splitting.py → parse_documents.py RENAMED Viewed

File without changes

tests/test_lemmatization.py CHANGED Viewed

@@ -69,14 +69,12 @@ def lemmas_in_sentence(query: str, sentence: str) -> bool:
 def run_test_suite(test_set_name: str, test_set: list[TestSearch]) -> tuple[int, int]:
     """Запускает набор тестов и возвращает (пройдено, провалено)"""
-    print("\n" + "-"*70)
     print(f"НАБОР ТЕСТОВ: {test_set_name}")
-    print("-"*70)
     passed = 0
     failed = 0
-    for i, test in enumerate(test_set, 1):
         word = test.word
         sentence = test.sentence
@@ -108,30 +106,22 @@ def run_test_suite(test_set_name: str, test_set: list[TestSearch]) -> tuple[int,
 def test_lemmatization():
     """Запускает все наборы тестов"""
-    print("\n" + "="*70)
-    print("ТЕСТ ЛЕММАТИЗАЦИИ для русского языка")
-    print("="*70)
     total_passed = 0
     total_failed = 0
     # Запускаем все наборы тестов
-    for test_name, test_set in [
         ("ТОПОНИМЫ (падежи и словоформы)", TESTS_TOPONIMS),
         ("ЛЕММАТИЗАЦИЯ (беглые гласные)", TESTS_LEMMATIZATION),
         ("ОБРАБОТКА Е/Ё", TESTS_LETTER_E),
-    ]:
-        if test_set:  # Только если есть тесты
-            passed, failed = run_test_suite(test_name, test_set)
-            total_passed += passed
-            total_failed += failed
     # Финальный результат
-    print("\n" + "="*70)
-    print(f"ИТОГО: {total_passed} пройдено, {total_failed} провалено из {total_passed + total_failed}")
-    print("="*70 + "\n")
     return total_failed == 0

 def run_test_suite(test_set_name: str, test_set: list[TestSearch]) -> tuple[int, int]:
     """Запускает набор тестов и возвращает (пройдено, провалено)"""
     print(f"НАБОР ТЕСТОВ: {test_set_name}")
     passed = 0
     failed = 0
+    for test in test_set:
         word = test.word
         sentence = test.sentence
 def test_lemmatization():
     """Запускает все наборы тестов"""
     total_passed = 0
     total_failed = 0
     # Запускаем все наборы тестов
+    for test_name, test_set in (
         ("ТОПОНИМЫ (падежи и словоформы)", TESTS_TOPONIMS),
         ("ЛЕММАТИЗАЦИЯ (беглые гласные)", TESTS_LEMMATIZATION),
         ("ОБРАБОТКА Е/Ё", TESTS_LETTER_E),
+    ):
+        passed, failed = run_test_suite(test_name, test_set)
+        total_passed += passed
+        total_failed += failed
     # Финальный результат
+    print(f"ИТОГО: {total_passed} пройдено, {total_failed} провалено из {total_passed + total_failed}")
     return total_failed == 0