fin-bert-tr / README.md
Toxotes's picture
feat: Turkish Financial BERT (fin-bert-tr mini)
f39ac71 verified
metadata
language:
  - tr
license: apache-2.0
tags:
  - bert
  - turkish
  - finance
  - masked-language-modeling
  - custom-trained
library_name: transformers
datasets:
  - custom

fin-bert-tr

Türkçe Finansal BERT — Türk finans metinleri üzerinde sıfırdan ön-eğitilmiş BERT modeli.

Model Detayları

Parametre Değer
Mimari BERT (mini varyantı)
Vocab Boyutu 32,000
Tokenizer Zemberek morfoloji + BPE
Ön-Eğitim Görevi Masked Language Modeling (MLM, %15)
Eğitim Tarihi 2026-03-12

Eğitim Verisi

Toplam ~0 MB Türkçe finans metni:

Kaynak Açıklama
Bloomberg HT bloomberg.com.tr ekonomi ve piyasa haberleri
Investing TR tr.investing.com finans haberleri
Bigpara bigpara.hurriyet.com.tr BIST ve döviz haberleri
Dünya Gazetesi dunya.com iş dünyası ve ekonomi
MASSIVE TR Amazon/massive Türkçe utterance veri seti
WikiANN TR Türkçe Wikipedia NER cümleleri
TCMB/BDDK Merkez bankası ve düzenleyici kurum duyuruları
Sentetik Şablon tabanlı Türkçe finans metinleri

Kullanım

from transformers import BertForMaskedLM, PreTrainedTokenizerFast
import torch

tokenizer = PreTrainedTokenizerFast.from_pretrained("Toxotes/fin-bert-tr")
model = BertForMaskedLM.from_pretrained("Toxotes/fin-bert-tr")

text = "Merkez Bankası [MASK] oranını artırdı."
inputs = tokenizer(text, return_tensors="pt")
with torch.no_grad():
    outputs = model(**inputs)
    logits = outputs.logits

# En yüksek olasılıklı token
mask_idx = (inputs["input_ids"] == tokenizer.mask_token_id).nonzero()[0, 1]
top_token = tokenizer.decode(logits[0, mask_idx].argmax().item())
print(top_token)  # → faiz

İnce-Ayar

Bu model aşağıdaki görevler için ince-ayarlanabilir:

  • Finansal metin sınıflandırma
  • NER (named entity recognition) — banka, şirket, oran isimleri
  • RAG query routing (bkz. fin-bert-tr-router)
  • Türk finans duygu analizi

Proje

MOSAIC — Federated Financial RAG System GitHub