Spaces:

Zalimannard
/

NLP_Homework_1

Sleeping

App Files Files Community

Kolesnikov Dmitry commited on Nov 15, 2025

Commit

753b589

1 Parent(s): 4c753f6

fix: Добавлено скачивание через nltk

Browse files

Files changed (1) hide show

src/tokenizers_cmp.py +81 -9

src/tokenizers_cmp.py CHANGED Viewed

@@ -73,8 +73,36 @@ class TokenizationComparator:
         """Инициализация компаратора."""
         self.methods = {}
         self.results = {}
         self._initialize_methods()
     def _initialize_methods(self):
         """Инициализирует доступные методы токенизации."""
         # Наивная токенизация
@@ -128,16 +156,24 @@ class TokenizationComparator:
     def _tokenize_nltk(self, text: str) -> List[str]:
         """Токенизация с помощью NLTK."""
         try:
             return word_tokenize(text, language='russian')
-        except LookupError:
-            # Автоматическая загрузка необходимых данных NLTK (punkt)
-            import nltk  # local import to avoid hard dependency if NLTK not used
             try:
-                nltk.download('punkt', quiet=True)
             except Exception:
-                pass
-            return word_tokenize(text, language='russian')
     def _tokenize_spacy(self, text: str) -> List[str]:
         """Токенизация с помощью SpaCy."""
@@ -146,13 +182,37 @@ class TokenizationComparator:
     def _tokenize_with_stemming(self, text: str) -> List[str]:
         """Токенизация с применением стемминга Porter."""
-        tokens = word_tokenize(text, language='russian')
         stemmer = PorterStemmer()
         return [stemmer.stem(token) for token in tokens if token.isalpha()]
     def _tokenize_with_snowball(self, text: str) -> List[str]:
         """Токенизация с применением стемминга Snowball."""
-        tokens = word_tokenize(text, language='russian')
         stemmer = SnowballStemmer('russian')
         return [stemmer.stem(token) for token in tokens if token.isalpha()]
@@ -163,7 +223,19 @@ class TokenizationComparator:
     def _tokenize_with_pymorphy(self, text: str) -> List[str]:
         """Токенизация с применением лемматизации PyMorphy2."""
-        tokens = word_tokenize(text, language='russian')
         lemmas = []
         for token in tokens:
             if token.isalpha():

         """Инициализация компаратора."""
         self.methods = {}
         self.results = {}
+        self._ensure_nltk_resources()
         self._initialize_methods()
+    def _ensure_nltk_resources(self):
+        """Обеспечивает наличие необходимых ресурсов NLTK."""
+        if not NLTK_AVAILABLE:
+            return
+        import nltk
+        try:
+            # Пробуем использовать punkt_tab для русского языка
+            try:
+                nltk.data.find('tokenizers/punkt_tab/russian')
+            except LookupError:
+                try:
+                    nltk.download('punkt_tab', quiet=True)
+                except Exception:
+                    pass
+        except Exception:
+            pass
+        # Также загружаем обычный punkt как fallback
+        try:
+            nltk.data.find('tokenizers/punkt')
+        except LookupError:
+            try:
+                nltk.download('punkt', quiet=True)
+            except Exception:
+                pass
     def _initialize_methods(self):
         """Инициализирует доступные методы токенизации."""
         # Наивная токенизация
     def _tokenize_nltk(self, text: str) -> List[str]:
         """Токенизация с помощью NLTK."""
+        import nltk
         try:
             return word_tokenize(text, language='russian')
+        except LookupError as e:
+            # Автоматическая загрузка необходимых данных NLTK
             try:
+                # Пробуем загрузить punkt_tab для русского языка
+                nltk.download('punkt_tab', quiet=True)
+                return word_tokenize(text, language='russian')
             except Exception:
+                try:
+                    # Если не получилось, пробуем загрузить обычный punkt
+                    nltk.download('punkt', quiet=True)
+                    # Используем английский язык как fallback
+                    return word_tokenize(text, language='english')
+                except Exception:
+                    # Если и это не сработало, используем простую токенизацию
+                    return text.split()
     def _tokenize_spacy(self, text: str) -> List[str]:
         """Токенизация с помощью SpaCy."""
     def _tokenize_with_stemming(self, text: str) -> List[str]:
         """Токенизация с применением стемминга Porter."""
+        import nltk
+        try:
+            tokens = word_tokenize(text, language='russian')
+        except LookupError:
+            try:
+                nltk.download('punkt_tab', quiet=True)
+                tokens = word_tokenize(text, language='russian')
+            except Exception:
+                try:
+                    nltk.download('punkt', quiet=True)
+                    tokens = word_tokenize(text, language='english')
+                except Exception:
+                    tokens = text.split()
         stemmer = PorterStemmer()
         return [stemmer.stem(token) for token in tokens if token.isalpha()]
     def _tokenize_with_snowball(self, text: str) -> List[str]:
         """Токенизация с применением стемминга Snowball."""
+        import nltk
+        try:
+            tokens = word_tokenize(text, language='russian')
+        except LookupError:
+            try:
+                nltk.download('punkt_tab', quiet=True)
+                tokens = word_tokenize(text, language='russian')
+            except Exception:
+                try:
+                    nltk.download('punkt', quiet=True)
+                    tokens = word_tokenize(text, language='english')
+                except Exception:
+                    tokens = text.split()
         stemmer = SnowballStemmer('russian')
         return [stemmer.stem(token) for token in tokens if token.isalpha()]
     def _tokenize_with_pymorphy(self, text: str) -> List[str]:
         """Токенизация с применением лемматизации PyMorphy2."""
+        import nltk
+        try:
+            tokens = word_tokenize(text, language='russian')
+        except LookupError:
+            try:
+                nltk.download('punkt_tab', quiet=True)
+                tokens = word_tokenize(text, language='russian')
+            except Exception:
+                try:
+                    nltk.download('punkt', quiet=True)
+                    tokens = word_tokenize(text, language='english')
+                except Exception:
+                    tokens = text.split()
         lemmas = []
         for token in tokens:
             if token.isalpha():