Spaces:

toropets
/

RAG2

Sleeping

antimoda1 commited on Mar 10

Commit

6b31738

1 Parent(s): 0aa6d2c

save nlp model to disk

Files changed (1) hide show

lemmatizer.py CHANGED Viewed

@@ -7,12 +7,13 @@ class RussianLemmatizer:
     def __init__(self):
         print("   Загрузка русской модели spaCy...")
         try:
-            self.nlp = spacy.load("ru_core_news_sm")
         except OSError:
             print("   ⚠️  Модель ru_core_news_sm не найдена, скачиваю...")
             import subprocess
             subprocess.check_call(["python", "-m", "spacy", "download", "ru_core_news_sm"])
             self.nlp = spacy.load("ru_core_news_sm")
         self.terms = {}
         self.stems = {}
@@ -23,7 +24,7 @@ class RussianLemmatizer:
         print(f"   Загружено {len(self.terms)} терминов из vocabulary.md")
-        # Добавляем custom component для обработки терминов после лемматизации
         @self.nlp.component("fix_terms")
         def fix_terms(doc):
             """Компонент для исправления лемм терминов и их форм"""
@@ -39,7 +40,7 @@ class RussianLemmatizer:
             self.nlp.add_pipe("fix_terms", after="lemmatizer")
     def tokenize_text(self, text: str) -> list[str]:
-        """Лемматизация текста для русского языка (spaCy).
         Args:
             text: текст для лемматизации

     def __init__(self):
         print("   Загрузка русской модели spaCy...")
         try:
+            self.nlp = spacy.load("./ru_model")
         except OSError:
             print("   ⚠️  Модель ru_core_news_sm не найдена, скачиваю...")
             import subprocess
             subprocess.check_call(["python", "-m", "spacy", "download", "ru_core_news_sm"])
             self.nlp = spacy.load("ru_core_news_sm")
+            self.nlp.to_disk("./ru_model")
         self.terms = {}
         self.stems = {}
         print(f"   Загружено {len(self.terms)} терминов из vocabulary.md")
+        # custom component для обработки терминов после лемматизации
         @self.nlp.component("fix_terms")
         def fix_terms(doc):
             """Компонент для исправления лемм терминов и их форм"""
             self.nlp.add_pipe("fix_terms", after="lemmatizer")
     def tokenize_text(self, text: str) -> list[str]:
+        """Лемматизация текста.
         Args:
             text: текст для лемматизации