fin-bert-tr
Türkçe Finansal BERT — Türk finans metinleri üzerinde sıfırdan ön-eğitilmiş BERT modeli.
Model Detayları
| Parametre | Değer |
|---|---|
| Mimari | BERT (mini varyantı) |
| Vocab Boyutu | 32,000 |
| Tokenizer | Zemberek morfoloji + BPE |
| Ön-Eğitim Görevi | Masked Language Modeling (MLM, %15) |
| Eğitim Tarihi | 2026-03-12 |
Eğitim Verisi
Toplam ~0 MB Türkçe finans metni:
| Kaynak | Açıklama |
|---|---|
| Bloomberg HT | bloomberg.com.tr ekonomi ve piyasa haberleri |
| Investing TR | tr.investing.com finans haberleri |
| Bigpara | bigpara.hurriyet.com.tr BIST ve döviz haberleri |
| Dünya Gazetesi | dunya.com iş dünyası ve ekonomi |
| MASSIVE TR | Amazon/massive Türkçe utterance veri seti |
| WikiANN TR | Türkçe Wikipedia NER cümleleri |
| TCMB/BDDK | Merkez bankası ve düzenleyici kurum duyuruları |
| Sentetik | Şablon tabanlı Türkçe finans metinleri |
Kullanım
from transformers import BertForMaskedLM, PreTrainedTokenizerFast
import torch
tokenizer = PreTrainedTokenizerFast.from_pretrained("Toxotes/fin-bert-tr")
model = BertForMaskedLM.from_pretrained("Toxotes/fin-bert-tr")
text = "Merkez Bankası [MASK] oranını artırdı."
inputs = tokenizer(text, return_tensors="pt")
with torch.no_grad():
outputs = model(**inputs)
logits = outputs.logits
# En yüksek olasılıklı token
mask_idx = (inputs["input_ids"] == tokenizer.mask_token_id).nonzero()[0, 1]
top_token = tokenizer.decode(logits[0, mask_idx].argmax().item())
print(top_token) # → faiz
İnce-Ayar
Bu model aşağıdaki görevler için ince-ayarlanabilir:
- Finansal metin sınıflandırma
- NER (named entity recognition) — banka, şirket, oran isimleri
- RAG query routing (bkz.
fin-bert-tr-router) - Türk finans duygu analizi
Proje
MOSAIC — Federated Financial RAG System GitHub
- Downloads last month
- 13