File size: 2,184 Bytes
f39ac71
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
---

language:
- tr
license: apache-2.0
tags:
- bert
- turkish
- finance
- masked-language-modeling
- custom-trained
library_name: transformers
datasets:
- custom
---


# fin-bert-tr

**Türkçe Finansal BERT** — Türk finans metinleri üzerinde sıfırdan ön-eğitilmiş
BERT modeli.

## Model Detayları

| Parametre | Değer |
|-----------|-------|
| Mimari | BERT (mini varyantı) |
| Vocab Boyutu | 32,000 |
| Tokenizer | Zemberek morfoloji + BPE |
| Ön-Eğitim Görevi | Masked Language Modeling (MLM, %15) |
| Eğitim Tarihi | 2026-03-12 |

## Eğitim Verisi

Toplam ~0 MB Türkçe finans metni:

| Kaynak | Açıklama |
|--------|----------|
| Bloomberg HT | bloomberg.com.tr ekonomi ve piyasa haberleri |
| Investing TR | tr.investing.com finans haberleri |
| Bigpara | bigpara.hurriyet.com.tr BIST ve döviz haberleri |
| Dünya Gazetesi | dunya.com iş dünyası ve ekonomi |
| MASSIVE TR | Amazon/massive Türkçe utterance veri seti |
| WikiANN TR | Türkçe Wikipedia NER cümleleri |
| TCMB/BDDK | Merkez bankası ve düzenleyici kurum duyuruları |
| Sentetik | Şablon tabanlı Türkçe finans metinleri |

## Kullanım

```python

from transformers import BertForMaskedLM, PreTrainedTokenizerFast

import torch



tokenizer = PreTrainedTokenizerFast.from_pretrained("Toxotes/fin-bert-tr")

model = BertForMaskedLM.from_pretrained("Toxotes/fin-bert-tr")



text = "Merkez Bankası [MASK] oranını artırdı."

inputs = tokenizer(text, return_tensors="pt")

with torch.no_grad():

    outputs = model(**inputs)

    logits = outputs.logits



# En yüksek olasılıklı token

mask_idx = (inputs["input_ids"] == tokenizer.mask_token_id).nonzero()[0, 1]

top_token = tokenizer.decode(logits[0, mask_idx].argmax().item())

print(top_token)  # → faiz

```

## İnce-Ayar

Bu model aşağıdaki görevler için ince-ayarlanabilir:
- Finansal metin sınıflandırma
- NER (named entity recognition) — banka, şirket, oran isimleri
- RAG query routing (bkz. `fin-bert-tr-router`)
- Türk finans duygu analizi

## Proje

MOSAIC — Federated Financial RAG System
[GitHub](https://github.com/tahatoy/MOSAIC)