🇹🇷 Papağan 1.3B — Sıfırdan Eğitilmiş Türkçe Dil Modeli
Model Bilgileri
| Özellik | Değer |
|---|---|
| Parametre | 1.28B |
| Mimari | Decoder-only Transformer (Llama-style) |
| Eğitim Verisi | 1B token, %100 Türkçe |
| Tokenizer | SentencePiece BPE, 32K vocab |
| Tokenizer Verimliliği | 4.5 chr/tok (Llama-2'den 1.7× verimli) |
| Pre-training | A100 80GB, ~75 saat |
| SFT | LoRA r=16, ~4K instruction örneği |
Benchmark Sonuçları
| Metrik | Skor |
|---|---|
| Bilgi Testi (36 soru) | 22.2% |
| Tekrar Skoru (0=iyi) | 0.204 |
| Tutarlılık | 90.6% |
| Perplexity | 37.7 |
Mimari Detaylar
- 24 Transformer katmanı, 2048 hidden, 16 head
- SwiGLU MLP (5504 intermediate)
- RoPE, RMSNorm, Weight tying
- Pre-train val_loss: 4.80, SFT val_loss: 3.65
Kullanım
import torch
import sentencepiece as spm
# Tokenizer
sp = spm.SentencePieceProcessor()
sp.Load("tokenizer.model")
# Model yükle (custom TurkishGPT class gerekir)
# Detaylar için repo'daki model koduna bakın.
# Soru sor
prompt = "Türkiye'nin başkenti neresidir?"
ids = [sp.bos_id(), 17] + sp.Encode(prompt) + [18]
Eğitim Süreci
- Veri: mC4 + FineWeb-2 + Wikipedia TR = 56 GB → 54 GB clean
- Tokenizer: 32K BPE, Türkçe optimize (12,470 TR token)
- Pre-training: 1B token, 15K step, Colab A100
- SFT: LoRA r=16, 4K instruction örneği, Mac M2 Pro
Sınırlılıklar
- 1B token ile eğitildi (büyük modeller 1T+ kullanır)
- 4K SFT örneği (ideal: 50K+)
- Factual doğruluk düşük, halüsinasyon üretebilir
- Sadece Türkçe
Lisans
Apache 2.0
- Downloads last month
- 574
Hardware compatibility
Log In to add your hardware
16-bit