File size: 2,948 Bytes
e26df87
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70


---
license: mit
datasets:
- stanfordnlp/sst2
language:
- en
---
# BERT for SST-2 Sentiment Classification

Этот репозиторий содержит дообученный модельный чекпоинт `bert-base-uncased` для задачи бинарной классификации тональности на датасете SST-2 из набора GLUE. [file:1]

## Модель

- Базовая архитектура: `bert-base-uncased` (12 слоёв, скрытый размер 768, 12 голов внимания). 
- Задача: бинарная классификация тональности (положительная / отрицательная).
- Заголовок классификации: полносвязный слой поверх [CLS]-эмбеддинга.

## Датасет

Модель обучена на подмножестве GLUE SST-2: 

- Train: 67 349 примеров. 
- Validation: 872 примера.
- Test: 1 821 пример.   

Входные данные — отдельные предложения на английском языке, размеченные как положительные или отрицательные по тональности. 

## Обучение

Основные параметры обучения: 

- Epochs: 3  
- Learning rate: 2e-5  
- Batch size (per device): 16  
- Weight decay: 0.01  
- Evaluation strategy: `epoch`  
- Метрика для выбора лучшей модели: `accuracy` на валидации.  

Запуск тренировки выполнялся через `Trainer` из `transformers`:

## Результаты

По итогам обучения (3 эпохи) модель достигла следующей точности на валидационной выборке SST-2:

- Validation accuracy ≈ 0.86  
- Validation loss ≈ 0.34–0.53 (по эпохам).  

## Использование

Пример использования через `pipeline`:

from transformers import pipeline

classifier = pipeline(
"text-classification",
model="AlsuGibadullina/bertsst2learn",
)

classifier("The weather is not good today.")


Выход — метка `POSITIVE` или `NEGATIVE` с вероятностью. [file:1]

## Лицензия и ограничения

- Базовая модель: `bert-base-uncased` (лицензия от Hugging Face/Google; см. страницу модели).  
- Датасет: GLUE SST-2, используемый для исследовательских и образовательных целей. [file:1]  
- Модель предназначена для учебных и исследовательских задач по анализу тональности на английском языке; не рекомендуется применять её в проде без дополнительной валидации.