🇹🇷 Papağan 1.3B — Sıfırdan Eğitilmiş Türkçe Dil Modeli

Model Bilgileri

Özellik Değer
Parametre 1.28B
Mimari Decoder-only Transformer (Llama-style)
Eğitim Verisi 1B token, %100 Türkçe
Tokenizer SentencePiece BPE, 32K vocab
Tokenizer Verimliliği 4.5 chr/tok (Llama-2'den 1.7× verimli)
Pre-training A100 80GB, ~75 saat
SFT LoRA r=16, ~4K instruction örneği

Benchmark Sonuçları

Metrik Skor
Bilgi Testi (36 soru) 22.2%
Tekrar Skoru (0=iyi) 0.204
Tutarlılık 90.6%
Perplexity 37.7

Mimari Detaylar

  • 24 Transformer katmanı, 2048 hidden, 16 head
  • SwiGLU MLP (5504 intermediate)
  • RoPE, RMSNorm, Weight tying
  • Pre-train val_loss: 4.80, SFT val_loss: 3.65

Kullanım

import torch
import sentencepiece as spm

# Tokenizer
sp = spm.SentencePieceProcessor()
sp.Load("tokenizer.model")

# Model yükle (custom TurkishGPT class gerekir)
# Detaylar için repo'daki model koduna bakın.

# Soru sor
prompt = "Türkiye'nin başkenti neresidir?"
ids = [sp.bos_id(), 17] + sp.Encode(prompt) + [18]

Eğitim Süreci

  1. Veri: mC4 + FineWeb-2 + Wikipedia TR = 56 GB → 54 GB clean
  2. Tokenizer: 32K BPE, Türkçe optimize (12,470 TR token)
  3. Pre-training: 1B token, 15K step, Colab A100
  4. SFT: LoRA r=16, 4K instruction örneği, Mac M2 Pro

Sınırlılıklar

  • 1B token ile eğitildi (büyük modeller 1T+ kullanır)
  • 4K SFT örneği (ideal: 50K+)
  • Factual doğruluk düşük, halüsinasyon üretebilir
  • Sadece Türkçe

Lisans

Apache 2.0

Downloads last month
574
GGUF
Model size
1B params
Architecture
llama
Hardware compatibility
Log In to add your hardware

16-bit

Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support