--- language: - tr license: apache-2.0 tags: - bert - turkish - finance - masked-language-modeling - custom-trained library_name: transformers datasets: - custom --- # fin-bert-tr **Türkçe Finansal BERT** — Türk finans metinleri üzerinde sıfırdan ön-eğitilmiş BERT modeli. ## Model Detayları | Parametre | Değer | |-----------|-------| | Mimari | BERT (mini varyantı) | | Vocab Boyutu | 32,000 | | Tokenizer | Zemberek morfoloji + BPE | | Ön-Eğitim Görevi | Masked Language Modeling (MLM, %15) | | Eğitim Tarihi | 2026-03-12 | ## Eğitim Verisi Toplam ~0 MB Türkçe finans metni: | Kaynak | Açıklama | |--------|----------| | Bloomberg HT | bloomberg.com.tr ekonomi ve piyasa haberleri | | Investing TR | tr.investing.com finans haberleri | | Bigpara | bigpara.hurriyet.com.tr BIST ve döviz haberleri | | Dünya Gazetesi | dunya.com iş dünyası ve ekonomi | | MASSIVE TR | Amazon/massive Türkçe utterance veri seti | | WikiANN TR | Türkçe Wikipedia NER cümleleri | | TCMB/BDDK | Merkez bankası ve düzenleyici kurum duyuruları | | Sentetik | Şablon tabanlı Türkçe finans metinleri | ## Kullanım ```python from transformers import BertForMaskedLM, PreTrainedTokenizerFast import torch tokenizer = PreTrainedTokenizerFast.from_pretrained("Toxotes/fin-bert-tr") model = BertForMaskedLM.from_pretrained("Toxotes/fin-bert-tr") text = "Merkez Bankası [MASK] oranını artırdı." inputs = tokenizer(text, return_tensors="pt") with torch.no_grad(): outputs = model(**inputs) logits = outputs.logits # En yüksek olasılıklı token mask_idx = (inputs["input_ids"] == tokenizer.mask_token_id).nonzero()[0, 1] top_token = tokenizer.decode(logits[0, mask_idx].argmax().item()) print(top_token) # → faiz ``` ## İnce-Ayar Bu model aşağıdaki görevler için ince-ayarlanabilir: - Finansal metin sınıflandırma - NER (named entity recognition) — banka, şirket, oran isimleri - RAG query routing (bkz. `fin-bert-tr-router`) - Türk finans duygu analizi ## Proje MOSAIC — Federated Financial RAG System [GitHub](https://github.com/tahatoy/MOSAIC)