Spaces:
Sleeping
Sleeping
| # 🎉 Проект завершен! | |
| ## 📊 Статистика проекта | |
| - **Файлов Python:** 8 основных модулей | |
| - **Строк кода:** ~2,900 строк | |
| - **Модулей:** 7 основных компонентов | |
| - **Функций:** 50+ функций и методов | |
| - **Документация:** Полная документация с примерами | |
| ## ✅ Выполненные задачи | |
| 1. ✅ **Сбор данных** - Автоматический парсинг новостных сайтов | |
| 2. ✅ **Очистка текста** - Модуль для предобработки | |
| 3. ✅ **Универсальная предобработка** - Стандартизация текста | |
| 4. ✅ **Сравнение токенизации** - 7+ методов с метриками | |
| 5. ✅ **Подсловные модели** - BPE, WordPiece, Unigram | |
| 6. ✅ **Веб-интерфейс** - Интерактивное приложение Streamlit | |
| 7. ✅ **Документация** - Полное описание и примеры | |
| ## 🚀 Как запустить | |
| ### Быстрый старт: | |
| ```bash | |
| ./run.sh | |
| ``` | |
| ### Или пошагово: | |
| ```bash | |
| # 1. Установка зависимостей | |
| pip install -r requirements.txt | |
| # 2. Запуск веб-интерфейса | |
| streamlit run src/streamlit_app.py | |
| # 3. Демонстрация | |
| python demo.py | |
| ``` | |
| ## 🎯 Основные возможности | |
| - **Автоматический сбор** новостных данных с 5+ сайтов | |
| - **7 методов токенизации** для сравнения | |
| - **4 алгоритма подсловных моделей** (BPE, WordPiece, Unigram, SentencePiece) | |
| - **Интерактивный веб-интерфейс** с визуализацией | |
| - **Экспорт результатов** в CSV/JSON | |
| - **Полная документация** и примеры использования | |
| ## 📁 Структура | |
| ``` | |
| NLP_Homework_1/ | |
| ├── src/ # Основные модули | |
| │ ├── scrapers.py # Сбор данных | |
| │ ├── text_cleaner.py # Очистка текста | |
| │ ├── universal_preprocessor.py # Предобработка | |
| │ ├── tokenizers_cmp.py # Сравнение методов | |
| │ ├── train_subword.py # Подсловные модели | |
| │ ├── streamlit_app.py # Веб-интерфейс | |
| │ └── utils.py # Утилиты | |
| ├── data/ # Данные корпуса | |
| ├── models/ # Обученные модели | |
| ├── results/ # Результаты анализа | |
| ├── demo.py # Демонстрация | |
| ├── run.sh # Скрипт запуска | |
| ├── README.md # Документация | |
| └── REPORT.md # Отчет о работе | |
| ``` | |
| ## 🏆 Достижения | |
| - **Полное соответствие** требованиям лабораторной работы | |
| - **Профессиональный код** с документацией и типами | |
| - **Модульная архитектура** для легкого расширения | |
| - **Готовое к использованию** решение | |
| - **Интерактивный интерфейс** для удобства работы | |
| ## 💡 Что дальше? | |
| Проект готов к использованию! Вы можете: | |
| 1. **Запустить веб-интерфейс** для интерактивного анализа | |
| 2. **Изучить код** модулей для понимания алгоритмов | |
| 3. **Расширить функционал** добавив новые методы | |
| 4. **Опубликовать модели** в Hugging Face Hub | |
| 5. **Использовать в других проектах** как библиотеку | |
| --- | |
| **🎓 Лабораторная работа №1 выполнена успешно!** | |
| *Сравнительный анализ методов токенизации и нормализации текста на материале русскоязычных новостных корпусов* | |