|
|
--- |
|
|
language: |
|
|
- ru |
|
|
license: apache-2.0 |
|
|
base_model: cointegrated/rubert-tiny2 |
|
|
tags: |
|
|
- finance |
|
|
- sentiment-analysis |
|
|
- russian |
|
|
datasets: |
|
|
- apkonsta/FinancialPhraseBank-v1.0-ru |
|
|
metrics: |
|
|
- accuracy |
|
|
- f1 |
|
|
--- |
|
|
|
|
|
# FinRuBERT |
|
|
|
|
|
Fine-tuned модель для анализа тональности финансовых текстов на русском языке. |
|
|
|
|
|
## Описание |
|
|
Модель была дообучена на датасете FinancialPhraseBank (русская версия) и предсказывает сентимент: |
|
|
- **Негативный** (`negative`) |
|
|
- **Нейтральный** (`neutral`) |
|
|
- **Позитивный** (`positive`) |
|
|
|
|
|
## Данные обучения |
|
|
Использовалась версия датасета с согласием аннотаторов ≥50% (4,840 примеров): |
|
|
- Sentences_50Agree.csv из [FinancialPhraseBank-v1.0-ru](https://huggingface.co/datasets/apkonsta/FinancialPhraseBank-v1.0-ru) |
|
|
|
|
|
## Использование |
|
|
|
|
|
```python |
|
|
from transformers import AutoModelForSequenceClassification, AutoTokenizer, pipeline |
|
|
|
|
|
model_name = "apkonsta/finrubert" |
|
|
tokenizer = AutoTokenizer.from_pretrained(model_name) |
|
|
model = AutoModelForSequenceClassification.from_pretrained(model_name) |
|
|
|
|
|
classifier = pipeline("text-classification", model=model, tokenizer=tokenizer) |
|
|
result = classifier("""Чистая прибыль "ЛУКОЙЛа" (MOEX: LKOH) в 2023 году по МСФО составила 1,155 трлн руб., сообщила компания.В первом полугодии чистая прибыль нефтекомпании составила 564,1 млрд рублей. Таким образом, чистая прибыль по итогам второго полугодия - 590,6 млрд рублей, что выше консенсус-прогноза "Интерфакса" (589 млрд рублей). |
|
|
""") |
|
|
|
|
|
print(result) # [{'label': 'positive', 'score': 0.7818681001663208}] |