Spaces:

toropets
/

RAG2

Sleeping

App Files Files Community

antimoda1 commited on Mar 10

Commit

0aa6d2c

1 Parent(s): f7f823c

add TODO

Browse files

Files changed (4) hide show

app.py +3 -3
retrieval.py +1 -0
tests/test_lemmatization.py +12 -46
tests/test_vocabular.py +2 -0

app.py CHANGED Viewed

@@ -105,7 +105,7 @@ with gr.Blocks(title="RAG Application", theme=gr.themes.Soft()) as iface:
     with gr.Row():
         search_query_input = gr.Textbox(
             label="Запрос для поиска",
-            placeholder="Введите запрос для поиска - как в поисковиках, чтобы запросить информацию для дальнейшей работы",
             lines=1,
             scale=3
         )
@@ -155,7 +155,7 @@ with gr.Blocks(title="RAG Application", theme=gr.themes.Soft()) as iface:
         with gr.Column(scale=2):
             # Большое текстовое поле для результатов retrieval
             retrieval_results = gr.Textbox(
-                label="Результаты retrieval",
                 placeholder="Результаты поиска появятся здесь",
                 lines=15,
                 max_lines=30,
@@ -166,7 +166,7 @@ with gr.Blocks(title="RAG Application", theme=gr.themes.Soft()) as iface:
         with gr.Column(scale=1):
             # Ввод вопроса для LLM
             llm_query_input = gr.Textbox(
-                label="Ваш вопрос",
                 placeholder="Введите вопрос по историческим документам...",
                 lines=2
             )

     with gr.Row():
         search_query_input = gr.Textbox(
             label="Запрос для поиска",
+            placeholder="Введите запрос для поиска",
             lines=1,
             scale=3
         )
         with gr.Column(scale=2):
             # Большое текстовое поле для результатов retrieval
             retrieval_results = gr.Textbox(
+                label="Результаты поиска",
                 placeholder="Результаты поиска появятся здесь",
                 lines=15,
                 max_lines=30,
         with gr.Column(scale=1):
             # Ввод вопроса для LLM
             llm_query_input = gr.Textbox(
+                label="Ваш вопрос по результатам поиска",
                 placeholder="Введите вопрос по историческим документам...",
                 lines=2
             )

retrieval.py CHANGED Viewed

@@ -84,6 +84,7 @@ class Retrieval:
         # Инициализируем CrossEncoder
         # self.cross_encoder = CrossEncoder('DiTy/cross-encoder-russian-msmarco')
         self.embedder = SentenceTransformer('cointegrated/rubert-tiny2', cache_folder="/tmp")
         self.embeddings_of_summary = self.embedder.encode(self.paragraphs_df['summary'], convert_to_tensor=True)
         print("RAG система готова к использованию")

         # Инициализируем CrossEncoder
         # self.cross_encoder = CrossEncoder('DiTy/cross-encoder-russian-msmarco')
         self.embedder = SentenceTransformer('cointegrated/rubert-tiny2', cache_folder="/tmp")
+        # TODO: кэшировать эмбеддинги!
         self.embeddings_of_summary = self.embedder.encode(self.paragraphs_df['summary'], convert_to_tensor=True)
         print("RAG система готова к использованию")

tests/test_lemmatization.py CHANGED Viewed

@@ -7,7 +7,6 @@ import sys
 from pathlib import Path
 from dataclasses import dataclass
-# Добавляем родительскую директорию в path
 sys.path.insert(0, str(Path(__file__).parent.parent))
 from lemmatizer import RussianLemmatizer
@@ -49,16 +48,6 @@ TESTS_LETTER_E = [
 def lemmas_in_sentence(query: str, sentence: str) -> bool:
-    """
-    Проверяет, есть ли леммы из query в sentence после лемматизации.
-    Args:
-        query: поисковое слово
-        sentence: предложение для проверки
-    Returns:
-        True если есть пересечение лемм
-    """
     query_lemmas = set(lemmatizer.tokenize_text(query))
     sentence_lemmas = set(lemmatizer.tokenize_text(sentence))
@@ -66,64 +55,41 @@ def lemmas_in_sentence(query: str, sentence: str) -> bool:
     return len(query_lemmas & sentence_lemmas) > 0
-def run_test_suite(test_set_name: str, test_set: list[TestSearch]) -> tuple[int, int]:
-    """Запускает набор тестов и возвращает (пройдено, провалено)"""
-    print(f"НАБОР ТЕСТОВ: {test_set_name}")
     passed = 0
     failed = 0
-    for test in test_set:
-        word = test.word
-        sentence = test.sentence
         # Проверяем, есть ли леммы слова в предложении
-        success = lemmas_in_sentence(word, sentence, lemmatizer)
-        status = "✓ PASS" if success else "✗ FAIL"
         passed += 1 if success else 0
         failed += 0 if success else 1
-        print(f"\nТест {i}: {status}")
-        print(f"  Поиск:     '{word}'")
-        print(f"  Предложение: '{sentence[:70]}...'")
-        # Анализ для неудачных тестов
-        if not success:
-            query_lemmas = lemmatizer.tokenize_text(word)
-            sent_lemmas = lemmatizer.tokenize_text(sentence)
-            print(f"  Леммы запроса:  {query_lemmas}")
-            print(f"  Леммы предложения: {sent_lemmas}")
-    # Итоговый результат
-    print("\n" + "-"*70)
     print(f"РЕЗУЛЬТАТ: {passed} пройдено, {failed} провалено из {len(test_set)}")
     return passed, failed
 def test_lemmatization():
-    """Запускает все наборы тестов"""
     total_passed = 0
     total_failed = 0
-    # Запускаем все наборы тестов
     for test_name, test_set in (
         ("ТОПОНИМЫ (падежи и словоформы)", TESTS_TOPONIMS),
         ("ЛЕММАТИЗАЦИЯ (беглые гласные)", TESTS_LEMMATIZATION),
         ("ОБРАБОТКА Е/Ё", TESTS_LETTER_E),
     ):
-        passed, failed = run_test_suite(test_name, test_set)
         total_passed += passed
         total_failed += failed
-    # Финальный результат
     print(f"ИТОГО: {total_passed} пройдено, {total_failed} провалено из {total_passed + total_failed}")
     return total_failed == 0
-if __name__ == "__main__":
-   test_lemmatization()

 from pathlib import Path
 from dataclasses import dataclass
 sys.path.insert(0, str(Path(__file__).parent.parent))
 from lemmatizer import RussianLemmatizer
 def lemmas_in_sentence(query: str, sentence: str) -> bool:
     query_lemmas = set(lemmatizer.tokenize_text(query))
     sentence_lemmas = set(lemmatizer.tokenize_text(sentence))
     return len(query_lemmas & sentence_lemmas) > 0
+def run_test_suite(test_set: list[TestSearch]) -> tuple[int, int]:
+    """Запускает ОДИН набор тестов и возвращает (пройдено, провалено)"""
     passed = 0
     failed = 0
+    for test in test_set:
         # Проверяем, есть ли леммы слова в предложении
+        success = lemmas_in_sentence( test.word, test.sentence, lemmatizer)
+        status = "PASS" if success else "FAIL"
         passed += 1 if success else 0
         failed += 0 if success else 1
+        print(status)
     print(f"РЕЗУЛЬТАТ: {passed} пройдено, {failed} провалено из {len(test_set)}")
     return passed, failed
 def test_lemmatization():
+    """Запускает ВСЕ наборы тестов"""
     total_passed = 0
     total_failed = 0
     for test_name, test_set in (
         ("ТОПОНИМЫ (падежи и словоформы)", TESTS_TOPONIMS),
         ("ЛЕММАТИЗАЦИЯ (беглые гласные)", TESTS_LEMMATIZATION),
         ("ОБРАБОТКА Е/Ё", TESTS_LETTER_E),
     ):
+        print(f"НАБОР ТЕСТОВ: {test_name}")
+        passed, failed = run_test_suite(test_set)
         total_passed += passed
         total_failed += failed
     print(f"ИТОГО: {total_passed} пройдено, {total_failed} провалено из {total_passed + total_failed}")
     return total_failed == 0
+test_lemmatization()

tests/test_vocabular.py CHANGED Viewed

@@ -2,7 +2,9 @@
 import sys
 from pathlib import Path
 sys.path.insert(0, str(Path(__file__).parent.parent))
 from vocabulary.parse_vocabulary import VOCABULARY_MANAGER
 TESTS_CASES = {

 import sys
 from pathlib import Path
 sys.path.insert(0, str(Path(__file__).parent.parent))
 from vocabulary.parse_vocabulary import VOCABULARY_MANAGER
 TESTS_CASES = {