fin-bert-tr

Türkçe Finansal BERT — Türk finans metinleri üzerinde sıfırdan ön-eğitilmiş BERT modeli.

Model Detayları

Parametre	Değer
Mimari	BERT (mini varyantı)
Vocab Boyutu	32,000
Tokenizer	Zemberek morfoloji + BPE
Ön-Eğitim Görevi	Masked Language Modeling (MLM, %15)
Eğitim Tarihi	2026-03-12

Eğitim Verisi

Toplam ~0 MB Türkçe finans metni:

Kaynak	Açıklama
Bloomberg HT	bloomberg.com.tr ekonomi ve piyasa haberleri
Investing TR	tr.investing.com finans haberleri
Bigpara	bigpara.hurriyet.com.tr BIST ve döviz haberleri
Dünya Gazetesi	dunya.com iş dünyası ve ekonomi
MASSIVE TR	Amazon/massive Türkçe utterance veri seti
WikiANN TR	Türkçe Wikipedia NER cümleleri
TCMB/BDDK	Merkez bankası ve düzenleyici kurum duyuruları
Sentetik	Şablon tabanlı Türkçe finans metinleri

Kullanım

from transformers import BertForMaskedLM, PreTrainedTokenizerFast
import torch

tokenizer = PreTrainedTokenizerFast.from_pretrained("Toxotes/fin-bert-tr")
model = BertForMaskedLM.from_pretrained("Toxotes/fin-bert-tr")

text = "Merkez Bankası [MASK] oranını artırdı."
inputs = tokenizer(text, return_tensors="pt")
with torch.no_grad():
    outputs = model(**inputs)
    logits = outputs.logits

# En yüksek olasılıklı token
mask_idx = (inputs["input_ids"] == tokenizer.mask_token_id).nonzero()[0, 1]
top_token = tokenizer.decode(logits[0, mask_idx].argmax().item())
print(top_token)  # → faiz

İnce-Ayar

Bu model aşağıdaki görevler için ince-ayarlanabilir:

Finansal metin sınıflandırma
NER (named entity recognition) — banka, şirket, oran isimleri
RAG query routing (bkz. fin-bert-tr-router)
Türk finans duygu analizi

Proje

MOSAIC — Federated Financial RAG System GitHub

Downloads last month: 7

Safetensors

Model size

23.3M params

Tensor type

F32

Model tree for Toxotes/fin-bert-tr

Finetunes

1 model