AlsuGibadullina
/

bert_sst2_learn

Model card Files Files and versions

bert_sst2_learn / README.md

AlsuGibadullina's picture

AlsuGibadullina

Create README.md

e26df87 verified 2 months ago

|

history blame contribute delete

2.95 kB



	---
	license: mit
	datasets:
	- stanfordnlp/sst2
	language:
	- en
	---
	# BERT for SST-2 Sentiment Classification

	Этот репозиторий содержит дообученный модельный чекпоинт `bert-base-uncased` для задачи бинарной классификации тональности на датасете SST-2 из набора GLUE. [file:1]

	## Модель

	- Базовая архитектура: `bert-base-uncased` (12 слоёв, скрытый размер 768, 12 голов внимания).
	- Задача: бинарная классификация тональности (положительная / отрицательная).
	- Заголовок классификации: полносвязный слой поверх [CLS]-эмбеддинга.

	## Датасет

	Модель обучена на подмножестве GLUE SST-2:

	- Train: 67 349 примеров.
	- Validation: 872 примера.
	- Test: 1 821 пример.

	Входные данные — отдельные предложения на английском языке, размеченные как положительные или отрицательные по тональности.

	## Обучение

	Основные параметры обучения:

	- Epochs: 3
	- Learning rate: 2e-5
	- Batch size (per device): 16
	- Weight decay: 0.01
	- Evaluation strategy: `epoch`
	- Метрика для выбора лучшей модели: `accuracy` на валидации.

	Запуск тренировки выполнялся через `Trainer` из `transformers`:

	## Результаты

	По итогам обучения (3 эпохи) модель достигла следующей точности на валидационной выборке SST-2:

	- Validation accuracy ≈ 0.86
	- Validation loss ≈ 0.34–0.53 (по эпохам).

	## Использование

	Пример использования через `pipeline`:

	from transformers import pipeline

	classifier = pipeline(
	"text-classification",
	model="AlsuGibadullina/bertsst2learn",
	)

	classifier("The weather is not good today.")


	Выход — метка `POSITIVE` или `NEGATIVE` с вероятностью. [file:1]

	## Лицензия и ограничения

	- Базовая модель: `bert-base-uncased` (лицензия от Hugging Face/Google; см. страницу модели).
	- Датасет: GLUE SST-2, используемый для исследовательских и образовательных целей. [file:1]
	- Модель предназначена для учебных и исследовательских задач по анализу тональности на английском языке; не рекомендуется применять её в проде без дополнительной валидации.