fin-bert-tr

Türkçe Finansal BERT — Türk finans metinleri üzerinde sıfırdan ön-eğitilmiş BERT modeli.

Model Detayları

Parametre Değer
Mimari BERT (mini varyantı)
Vocab Boyutu 32,000
Tokenizer Zemberek morfoloji + BPE
Ön-Eğitim Görevi Masked Language Modeling (MLM, %15)
Eğitim Tarihi 2026-03-12

Eğitim Verisi

Toplam ~0 MB Türkçe finans metni:

Kaynak Açıklama
Bloomberg HT bloomberg.com.tr ekonomi ve piyasa haberleri
Investing TR tr.investing.com finans haberleri
Bigpara bigpara.hurriyet.com.tr BIST ve döviz haberleri
Dünya Gazetesi dunya.com iş dünyası ve ekonomi
MASSIVE TR Amazon/massive Türkçe utterance veri seti
WikiANN TR Türkçe Wikipedia NER cümleleri
TCMB/BDDK Merkez bankası ve düzenleyici kurum duyuruları
Sentetik Şablon tabanlı Türkçe finans metinleri

Kullanım

from transformers import BertForMaskedLM, PreTrainedTokenizerFast
import torch

tokenizer = PreTrainedTokenizerFast.from_pretrained("Toxotes/fin-bert-tr")
model = BertForMaskedLM.from_pretrained("Toxotes/fin-bert-tr")

text = "Merkez Bankası [MASK] oranını artırdı."
inputs = tokenizer(text, return_tensors="pt")
with torch.no_grad():
    outputs = model(**inputs)
    logits = outputs.logits

# En yüksek olasılıklı token
mask_idx = (inputs["input_ids"] == tokenizer.mask_token_id).nonzero()[0, 1]
top_token = tokenizer.decode(logits[0, mask_idx].argmax().item())
print(top_token)  # → faiz

İnce-Ayar

Bu model aşağıdaki görevler için ince-ayarlanabilir:

  • Finansal metin sınıflandırma
  • NER (named entity recognition) — banka, şirket, oran isimleri
  • RAG query routing (bkz. fin-bert-tr-router)
  • Türk finans duygu analizi

Proje

MOSAIC — Federated Financial RAG System GitHub

Downloads last month
13
Safetensors
Model size
23.3M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for Toxotes/fin-bert-tr

Finetunes
1 model