Spaces:
Sleeping
Sleeping
File size: 4,367 Bytes
54ccdcb 83b4881 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 |
# 🎉 Проект завершен!
## 📊 Статистика проекта
- **Файлов Python:** 8 основных модулей
- **Строк кода:** ~2,900 строк
- **Модулей:** 7 основных компонентов
- **Функций:** 50+ функций и методов
- **Документация:** Полная документация с примерами
## ✅ Выполненные задачи
1. ✅ **Сбор данных** - Автоматический парсинг новостных сайтов
2. ✅ **Очистка текста** - Модуль для предобработки
3. ✅ **Универсальная предобработка** - Стандартизация текста
4. ✅ **Сравнение токенизации** - 7+ методов с метриками
5. ✅ **Подсловные модели** - BPE, WordPiece, Unigram
6. ✅ **Веб-интерфейс** - Интерактивное приложение Streamlit
7. ✅ **Документация** - Полное описание и примеры
## 🚀 Как запустить
### Быстрый старт:
```bash
./run.sh
```
### Или пошагово:
```bash
# 1. Установка зависимостей
pip install -r requirements.txt
# 2. Запуск веб-интерфейса
streamlit run src/streamlit_app.py
# 3. Демонстрация
python demo.py
```
## 🎯 Основные возможности
- **Автоматический сбор** новостных данных с 5+ сайтов
- **7 методов токенизации** для сравнения
- **4 алгоритма подсловных моделей** (BPE, WordPiece, Unigram, SentencePiece)
- **Интерактивный веб-интерфейс** с визуализацией
- **Экспорт результатов** в CSV/JSON
- **Полная документация** и примеры использования
## 📁 Структура
```
NLP_Homework_1/
├── src/ # Основные модули
│ ├── scrapers.py # Сбор данных
│ ├── text_cleaner.py # Очистка текста
│ ├── universal_preprocessor.py # Предобработка
│ ├── tokenizers_cmp.py # Сравнение методов
│ ├── train_subword.py # Подсловные модели
│ ├── streamlit_app.py # Веб-интерфейс
│ └── utils.py # Утилиты
├── data/ # Данные корпуса
├── models/ # Обученные модели
├── results/ # Результаты анализа
├── demo.py # Демонстрация
├── run.sh # Скрипт запуска
├── README.md # Документация
└── REPORT.md # Отчет о работе
```
## 🏆 Достижения
- **Полное соответствие** требованиям лабораторной работы
- **Профессиональный код** с документацией и типами
- **Модульная архитектура** для легкого расширения
- **Готовое к использованию** решение
- **Интерактивный интерфейс** для удобства работы
## 💡 Что дальше?
Проект готов к использованию! Вы можете:
1. **Запустить веб-интерфейс** для интерактивного анализа
2. **Изучить код** модулей для понимания алгоритмов
3. **Расширить функционал** добавив новые методы
4. **Опубликовать модели** в Hugging Face Hub
5. **Использовать в других проектах** как библиотеку
---
**🎓 Лабораторная работа №1 выполнена успешно!**
*Сравнительный анализ методов токенизации и нормализации текста на материале русскоязычных новостных корпусов*
|