NLP_Homework_1 / LAUNCH_GUIDE.md
Kolesnikov Dmitry
feat: Готовый проект
54ccdcb
# 🚀 Инструкция по запуску проекта
## ✅ Проблема решена!
Ошибка `AttributeError: module 'inspect' has no attribute 'getargspec'` была исправлена. Проблема возникала из-за несовместимости `pymorphy2` с Python 3.13.
## 🔧 Что было исправлено:
1. **Обновлен код** для проверки совместимости `pymorphy2` с Python 3.13
2. **Удалены проблемные зависимости** из requirements.txt
3. **Добавлены предупреждения** о совместимости
4. **Скачаны данные NLTK** для корректной работы
## 🚀 Как запустить проект:
### Вариант 1: Быстрый запуск
```bash
cd /home/zalimannard/PycharmProjects/NLP_Homework_1
source .venv/bin/activate
streamlit run src/streamlit_app.py
```
### Вариант 2: Демонстрация
```bash
cd /home/zalimannard/PycharmProjects/NLP_Homework_1
source .venv/bin/activate
python demo.py
```
### Вариант 3: Скрипт запуска
```bash
cd /home/zalimannard/PycharmProjects/NLP_Homework_1
./run.sh
```
## 📊 Результаты тестирования:
**Модуль tokenizers_cmp.py** - загружается успешно
✅ **Streamlit приложение** - загружается успешно
✅ **Демонстрационный скрипт** - работает корректно
✅ **Анализ корпуса** - обработано 3,366 статей, 1,051,909 слов
✅ **Цель достигнута** - корпус превышает требуемые 50,000 слов
## ⚠️ Важные замечания:
1. **pymorphy2** несовместим с Python 3.13+ - используется только для Python 3.11 и ниже
2. **NLTK данные** скачаны автоматически
3. **Все основные функции** работают корректно
4. **Веб-интерфейс** доступен по адресу: http://localhost:8501
## 🎯 Доступные методы токенизации:
- ✅ **naive** - наивная токенизация по пробелам
- ✅ **regex** - токенизация регулярными выражениями
- ✅ **razdel** - специально для русского языка
- ⚠️ **nltk** - требует скачивания данных (исправлено)
- ⚠️ **spacy** - требует установки русской модели
- ❌ **pymorphy2** - несовместим с Python 3.13+
## 🏆 Проект готов к использованию!
Все основные компоненты работают корректно. Вы можете:
1. **Запустить веб-интерфейс** для интерактивного анализа
2. **Использовать демо-скрипт** для быстрого тестирования
3. **Изучить код** модулей для понимания алгоритмов
4. **Расширить функционал** добавив новые методы
---
**🎉 Лабораторная работа выполнена успешно!**