|
|
|
|
|
|
|
|
--- |
|
|
license: mit |
|
|
datasets: |
|
|
- stanfordnlp/sst2 |
|
|
language: |
|
|
- en |
|
|
--- |
|
|
# BERT for SST-2 Sentiment Classification |
|
|
|
|
|
Этот репозиторий содержит дообученный модельный чекпоинт `bert-base-uncased` для задачи бинарной классификации тональности на датасете SST-2 из набора GLUE. [file:1] |
|
|
|
|
|
## Модель |
|
|
|
|
|
- Базовая архитектура: `bert-base-uncased` (12 слоёв, скрытый размер 768, 12 голов внимания). |
|
|
- Задача: бинарная классификация тональности (положительная / отрицательная). |
|
|
- Заголовок классификации: полносвязный слой поверх [CLS]-эмбеддинга. |
|
|
|
|
|
## Датасет |
|
|
|
|
|
Модель обучена на подмножестве GLUE SST-2: |
|
|
|
|
|
- Train: 67 349 примеров. |
|
|
- Validation: 872 примера. |
|
|
- Test: 1 821 пример. |
|
|
|
|
|
Входные данные — отдельные предложения на английском языке, размеченные как положительные или отрицательные по тональности. |
|
|
|
|
|
## Обучение |
|
|
|
|
|
Основные параметры обучения: |
|
|
|
|
|
- Epochs: 3 |
|
|
- Learning rate: 2e-5 |
|
|
- Batch size (per device): 16 |
|
|
- Weight decay: 0.01 |
|
|
- Evaluation strategy: `epoch` |
|
|
- Метрика для выбора лучшей модели: `accuracy` на валидации. |
|
|
|
|
|
Запуск тренировки выполнялся через `Trainer` из `transformers`: |
|
|
|
|
|
## Результаты |
|
|
|
|
|
По итогам обучения (3 эпохи) модель достигла следующей точности на валидационной выборке SST-2: |
|
|
|
|
|
- Validation accuracy ≈ 0.86 |
|
|
- Validation loss ≈ 0.34–0.53 (по эпохам). |
|
|
|
|
|
## Использование |
|
|
|
|
|
Пример использования через `pipeline`: |
|
|
|
|
|
from transformers import pipeline |
|
|
|
|
|
classifier = pipeline( |
|
|
"text-classification", |
|
|
model="AlsuGibadullina/bertsst2learn", |
|
|
) |
|
|
|
|
|
classifier("The weather is not good today.") |
|
|
|
|
|
|
|
|
Выход — метка `POSITIVE` или `NEGATIVE` с вероятностью. [file:1] |
|
|
|
|
|
## Лицензия и ограничения |
|
|
|
|
|
- Базовая модель: `bert-base-uncased` (лицензия от Hugging Face/Google; см. страницу модели). |
|
|
- Датасет: GLUE SST-2, используемый для исследовательских и образовательных целей. [file:1] |
|
|
- Модель предназначена для учебных и исследовательских задач по анализу тональности на английском языке; не рекомендуется применять её в проде без дополнительной валидации. |