bert_sst2_learn / README.md
AlsuGibadullina's picture
Create README.md
e26df87 verified
---
license: mit
datasets:
- stanfordnlp/sst2
language:
- en
---
# BERT for SST-2 Sentiment Classification
Этот репозиторий содержит дообученный модельный чекпоинт `bert-base-uncased` для задачи бинарной классификации тональности на датасете SST-2 из набора GLUE. [file:1]
## Модель
- Базовая архитектура: `bert-base-uncased` (12 слоёв, скрытый размер 768, 12 голов внимания).
- Задача: бинарная классификация тональности (положительная / отрицательная).
- Заголовок классификации: полносвязный слой поверх [CLS]-эмбеддинга.
## Датасет
Модель обучена на подмножестве GLUE SST-2:
- Train: 67 349 примеров.
- Validation: 872 примера.
- Test: 1 821 пример.
Входные данные — отдельные предложения на английском языке, размеченные как положительные или отрицательные по тональности.
## Обучение
Основные параметры обучения:
- Epochs: 3
- Learning rate: 2e-5
- Batch size (per device): 16
- Weight decay: 0.01
- Evaluation strategy: `epoch`
- Метрика для выбора лучшей модели: `accuracy` на валидации.
Запуск тренировки выполнялся через `Trainer` из `transformers`:
## Результаты
По итогам обучения (3 эпохи) модель достигла следующей точности на валидационной выборке SST-2:
- Validation accuracy ≈ 0.86
- Validation loss ≈ 0.34–0.53 (по эпохам).
## Использование
Пример использования через `pipeline`:
from transformers import pipeline
classifier = pipeline(
"text-classification",
model="AlsuGibadullina/bertsst2learn",
)
classifier("The weather is not good today.")
Выход — метка `POSITIVE` или `NEGATIVE` с вероятностью. [file:1]
## Лицензия и ограничения
- Базовая модель: `bert-base-uncased` (лицензия от Hugging Face/Google; см. страницу модели).
- Датасет: GLUE SST-2, используемый для исследовательских и образовательных целей. [file:1]
- Модель предназначена для учебных и исследовательских задач по анализу тональности на английском языке; не рекомендуется применять её в проде без дополнительной валидации.