Spaces:

Zalimannard
/

NLP_Homework_1

Sleeping

File size: 4,367 Bytes

# 🎉 Проект завершен!

## 📊 Статистика проекта

- **Файлов Python:** 8 основных модулей
- **Строк кода:** ~2,900 строк
- **Модулей:** 7 основных компонентов
- **Функций:** 50+ функций и методов
- **Документация:** Полная документация с примерами

## ✅ Выполненные задачи

1. ✅ **Сбор данных** - Автоматический парсинг новостных сайтов
2. ✅ **Очистка текста** - Модуль для предобработки
3. ✅ **Универсальная предобработка** - Стандартизация текста
4. ✅ **Сравнение токенизации** - 7+ методов с метриками
5. ✅ **Подсловные модели** - BPE, WordPiece, Unigram
6. ✅ **Веб-интерфейс** - Интерактивное приложение Streamlit
7. ✅ **Документация** - Полное описание и примеры

## 🚀 Как запустить

### Быстрый старт:
```bash
./run.sh
```

### Или пошагово:
```bash
# 1. Установка зависимостей
pip install -r requirements.txt

# 2. Запуск веб-интерфейса
streamlit run src/streamlit_app.py

# 3. Демонстрация
python demo.py
```

## 🎯 Основные возможности

- **Автоматический сбор** новостных данных с 5+ сайтов
- **7 методов токенизации** для сравнения
- **4 алгоритма подсловных моделей** (BPE, WordPiece, Unigram, SentencePiece)
- **Интерактивный веб-интерфейс** с визуализацией
- **Экспорт результатов** в CSV/JSON
- **Полная документация** и примеры использования

## 📁 Структура

```
NLP_Homework_1/
├── src/                     # Основные модули
│   ├── scrapers.py          # Сбор данных
│   ├── text_cleaner.py      # Очистка текста
│   ├── universal_preprocessor.py  # Предобработка
│   ├── tokenizers_cmp.py    # Сравнение методов
│   ├── train_subword.py     # Подсловные модели
│   ├── streamlit_app.py     # Веб-интерфейс
│   └── utils.py             # Утилиты
├── data/                    # Данные корпуса
├── models/                  # Обученные модели
├── results/                 # Результаты анализа
├── demo.py                  # Демонстрация
├── run.sh                   # Скрипт запуска
├── README.md                # Документация
└── REPORT.md                # Отчет о работе
```

## 🏆 Достижения

- **Полное соответствие** требованиям лабораторной работы
- **Профессиональный код** с документацией и типами
- **Модульная архитектура** для легкого расширения
- **Готовое к использованию** решение
- **Интерактивный интерфейс** для удобства работы

## 💡 Что дальше?

Проект готов к использованию! Вы можете:

1. **Запустить веб-интерфейс** для интерактивного анализа
2. **Изучить код** модулей для понимания алгоритмов
3. **Расширить функционал** добавив новые методы
4. **Опубликовать модели** в Hugging Face Hub
5. **Использовать в других проектах** как библиотеку

---

**🎓 Лабораторная работа №1 выполнена успешно!**

*Сравнительный анализ методов токенизации и нормализации текста на материале русскоязычных новостных корпусов*