Spaces:
Sleeping
Sleeping
🎉 Проект завершен!
📊 Статистика проекта
- Файлов Python: 8 основных модулей
- Строк кода: ~2,900 строк
- Модулей: 7 основных компонентов
- Функций: 50+ функций и методов
- Документация: Полная документация с примерами
✅ Выполненные задачи
- ✅ Сбор данных - Автоматический парсинг новостных сайтов
- ✅ Очистка текста - Модуль для предобработки
- ✅ Универсальная предобработка - Стандартизация текста
- ✅ Сравнение токенизации - 7+ методов с метриками
- ✅ Подсловные модели - BPE, WordPiece, Unigram
- ✅ Веб-интерфейс - Интерактивное приложение Streamlit
- ✅ Документация - Полное описание и примеры
🚀 Как запустить
Быстрый старт:
./run.sh
Или пошагово:
# 1. Установка зависимостей
pip install -r requirements.txt
# 2. Запуск веб-интерфейса
streamlit run src/streamlit_app.py
# 3. Демонстрация
python demo.py
🎯 Основные возможности
- Автоматический сбор новостных данных с 5+ сайтов
- 7 методов токенизации для сравнения
- 4 алгоритма подсловных моделей (BPE, WordPiece, Unigram, SentencePiece)
- Интерактивный веб-интерфейс с визуализацией
- Экспорт результатов в CSV/JSON
- Полная документация и примеры использования
📁 Структура
NLP_Homework_1/
├── src/ # Основные модули
│ ├── scrapers.py # Сбор данных
│ ├── text_cleaner.py # Очистка текста
│ ├── universal_preprocessor.py # Предобработка
│ ├── tokenizers_cmp.py # Сравнение методов
│ ├── train_subword.py # Подсловные модели
│ ├── streamlit_app.py # Веб-интерфейс
│ └── utils.py # Утилиты
├── data/ # Данные корпуса
├── models/ # Обученные модели
├── results/ # Результаты анализа
├── demo.py # Демонстрация
├── run.sh # Скрипт запуска
├── README.md # Документация
└── REPORT.md # Отчет о работе
🏆 Достижения
- Полное соответствие требованиям лабораторной работы
- Профессиональный код с документацией и типами
- Модульная архитектура для легкого расширения
- Готовое к использованию решение
- Интерактивный интерфейс для удобства работы
💡 Что дальше?
Проект готов к использованию! Вы можете:
- Запустить веб-интерфейс для интерактивного анализа
- Изучить код модулей для понимания алгоритмов
- Расширить функционал добавив новые методы
- Опубликовать модели в Hugging Face Hub
- Использовать в других проектах как библиотеку
🎓 Лабораторная работа №1 выполнена успешно!
Сравнительный анализ методов токенизации и нормализации текста на материале русскоязычных новостных корпусов