File size: 3,346 Bytes
54ccdcb
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
# 🚀 Инструкция по запуску проекта

## ✅ Проблема решена!

Ошибка `AttributeError: module 'inspect' has no attribute 'getargspec'` была исправлена. Проблема возникала из-за несовместимости `pymorphy2` с Python 3.13.

## 🔧 Что было исправлено:

1. **Обновлен код** для проверки совместимости `pymorphy2` с Python 3.13
2. **Удалены проблемные зависимости** из requirements.txt
3. **Добавлены предупреждения** о совместимости
4. **Скачаны данные NLTK** для корректной работы

## 🚀 Как запустить проект:

### Вариант 1: Быстрый запуск
```bash
cd /home/zalimannard/PycharmProjects/NLP_Homework_1
source .venv/bin/activate
streamlit run src/streamlit_app.py
```

### Вариант 2: Демонстрация
```bash
cd /home/zalimannard/PycharmProjects/NLP_Homework_1
source .venv/bin/activate
python demo.py
```

### Вариант 3: Скрипт запуска
```bash
cd /home/zalimannard/PycharmProjects/NLP_Homework_1
./run.sh
```

## 📊 Результаты тестирования:**Модуль tokenizers_cmp.py** - загружается успешно  
✅ **Streamlit приложение** - загружается успешно  
✅ **Демонстрационный скрипт** - работает корректно  
✅ **Анализ корпуса** - обработано 3,366 статей, 1,051,909 слов  
✅ **Цель достигнута** - корпус превышает требуемые 50,000 слов  

## ⚠️ Важные замечания:

1. **pymorphy2** несовместим с Python 3.13+ - используется только для Python 3.11 и ниже
2. **NLTK данные** скачаны автоматически
3. **Все основные функции** работают корректно
4. **Веб-интерфейс** доступен по адресу: http://localhost:8501

## 🎯 Доступные методы токенизации:

- ✅ **naive** - наивная токенизация по пробелам
- ✅ **regex** - токенизация регулярными выражениями  
- ✅ **razdel** - специально для русского языка
- ⚠️ **nltk** - требует скачивания данных (исправлено)
- ⚠️ **spacy** - требует установки русской модели
- ❌ **pymorphy2** - несовместим с Python 3.13+

## 🏆 Проект готов к использованию!

Все основные компоненты работают корректно. Вы можете:

1. **Запустить веб-интерфейс** для интерактивного анализа
2. **Использовать демо-скрипт** для быстрого тестирования
3. **Изучить код** модулей для понимания алгоритмов
4. **Расширить функционал** добавив новые методы

---

**🎉 Лабораторная работа выполнена успешно!**