Spaces:

Zalimannard
/

NLP_Homework_1

Sleeping

Kolesnikov Dmitry commited on Nov 15, 2025

Commit

4c753f6

1 Parent(s): 68545bc

fix: Неверный replace_urls

Files changed (1) hide show

src/streamlit_app.py CHANGED Viewed

@@ -30,7 +30,7 @@ if project_root not in sys.path:
 # Импорты наших модулей
 from src.text_cleaner import clean_text, clean_corpus_jsonl
-from src.universal_preprocessor import UniversalPreprocessor, PreprocessingConfig
 from src.tokenizers_cmp import TokenizationComparator, load_corpus_from_jsonl
 from src.train_subword import SubwordModelTrainer, SubwordModelConfig
 from src.classical_vectorizers import (
@@ -312,7 +312,7 @@ def main():
     # Применяем предобработку и очистку, параллельно сохраняя обе версии
     processed_texts = list(raw_texts)
     if use_preprocessing:
-        config = PreprocessingConfig(**preprocessing_options)
         preprocessor = UniversalPreprocessor(config)
         tmp = []
         for text in raw_texts:

 # Импорты наших модулей
 from src.text_cleaner import clean_text, clean_corpus_jsonl
+from src.universal_preprocessor import UniversalPreprocessor, PreprocessingConfig as UniversalPreprocessingConfig
 from src.tokenizers_cmp import TokenizationComparator, load_corpus_from_jsonl
 from src.train_subword import SubwordModelTrainer, SubwordModelConfig
 from src.classical_vectorizers import (
     # Применяем предобработку и очистку, параллельно сохраняя обе версии
     processed_texts = list(raw_texts)
     if use_preprocessing:
+        config = UniversalPreprocessingConfig(**preprocessing_options)
         preprocessor = UniversalPreprocessor(config)
         tmp = []
         for text in raw_texts: