🇹🇷 Papağan 1.3B — Sıfırdan Eğitilmiş Türkçe Dil Modeli

Model Bilgileri

Özellik	Değer
Parametre	1.28B
Mimari	Decoder-only Transformer (Llama-style)
Eğitim Verisi	1B token, %100 Türkçe
Tokenizer	SentencePiece BPE, 32K vocab
Tokenizer Verimliliği	4.5 chr/tok (Llama-2'den 1.7× verimli)
Pre-training	A100 80GB, ~75 saat
SFT	LoRA r=16, ~4K instruction örneği

Benchmark Sonuçları

Metrik	Skor
Bilgi Testi (36 soru)	22.2%
Tekrar Skoru (0=iyi)	0.204
Tutarlılık	90.6%
Perplexity	37.7

Mimari Detaylar

24 Transformer katmanı, 2048 hidden, 16 head
SwiGLU MLP (5504 intermediate)
RoPE, RMSNorm, Weight tying
Pre-train val_loss: 4.80, SFT val_loss: 3.65

Kullanım

import torch
import sentencepiece as spm

# Tokenizer
sp = spm.SentencePieceProcessor()
sp.Load("tokenizer.model")

# Model yükle (custom TurkishGPT class gerekir)
# Detaylar için repo'daki model koduna bakın.

# Soru sor
prompt = "Türkiye'nin başkenti neresidir?"
ids = [sp.bos_id(), 17] + sp.Encode(prompt) + [18]

Eğitim Süreci

Veri: mC4 + FineWeb-2 + Wikipedia TR = 56 GB → 54 GB clean
Tokenizer: 32K BPE, Türkçe optimize (12,470 TR token)
Pre-training: 1B token, 15K step, Colab A100
SFT: LoRA r=16, 4K instruction örneği, Mac M2 Pro

Sınırlılıklar

1B token ile eğitildi (büyük modeller 1T+ kullanır)
4K SFT örneği (ideal: 50K+)
Factual doğruluk düşük, halüsinasyon üretebilir
Sadece Türkçe

Lisans

Apache 2.0

Downloads last month: 574

GGUF

Model size

1B params

Architecture

llama

Hardware compatibility

16-bit