Tiny Turkish SLM (29M Parameters) - Experimental

Bu model, büyük dil modellerinin (LLM) çalışma mantığını, eğitim süreçlerini ve veri yanlılığının sonuçlarını analiz etmek amacıyla sıfırdan eğitilmiş deneysel bir küçük dil modelidir (SLM).

Model, PyTorch kullanılarak özel bir Transformer mimarisiyle (RoPE, Multi-Head Attention) kodlanmış ve Türkçe Wikipedia verisiyle eğitilmiştir.

Model, diyalog kurmak üzere fine-tune edilmemiştir. Metin tamamlama görevi üzerinde eğitilmiştir.

🎯 Modelin Amacı

Bu proje, Google veya OpenAI'a rakip olmak için değil; bir Product Owner / İş Analisti perspektifiyle şu sorulara yanıt aramak için geliştirilmiştir:

  1. Devasa kaynaklar harcamadan bir dilin gramer yapısı öğretilebilir mi?
  2. Veri setindeki dengesizlikler (Bias) modele nasıl yansır?
  3. "Halüsinasyon" tam olarak nasıl oluşur?

⚠️ Kritik Uyarı: "Ankara Paradoksu" (Limitations)

Bu model olgusal gerçekleri bilmez, sadece kelime olasılıklarını bilir.

Eğitim verisi olan Wikipedia'da, köyler ve belediyeler hakkında binlerce standart şablon ("...ilinde bulunan bir belediyedir") bulunduğu için, model yerleşim yeri ile ilgili sorularda bu şablona aşırı uyum (Overfitting) sağlamıştır.

Örnek:

Soru: Türkiye'nin başkenti Model Cevabı: "İstanbul'da bulunan bir şehir ve belediyedir..."

Bu bir hata değil, veri yanlılığının somut bir kanıtıdır. Modeli kullanırken bu durumu göz önünde bulundurunuz.

⚙️ Teknik Özellikler

  • Parametre Sayısı: ~29 Milyon
  • Mimari: Decoder-only Transformer
  • Context Window: 256 Token
  • Tokenizer: BPE (Byte Pair Encoding) - 32.000 Vocab Size (HuggingFace Tokenizers Kütüphanesi Kullanılmıştır)
  • Eğitim Süresi: ~5 Saat (Google Colab / NVIDIA T4)

💻 Nasıl Kullanılır?

Model özel bir mimariye sahip olduğu için AutoModel ile doğrudan yüklenemez. Kullanmak için modelin mimari kodlarını içeren app.py veya model.py dosyasına ihtiyacınız vardır.

En kolay deneyim için Hugging Face Spaces üzerindeki demoyu kullanabilirsiniz (LİNK).

Model, Türkçe'nin sondan eklemeli yapısını (agglutination) ve cümle dizilimini başarıyla öğrenmiştir. Ancak anlamsal bütünlük ve bilgi doğruluğu kısıtlıdır.

⚖️ Lisans ve Sorumluluk Reddi

Bu model Apache 2.0 lisansı ile sunulmuştur.

Feragatname (Disclaimer):

Bu model deneyseldir. Ürettiği bilgilerin doğruluğu garanti edilmez. Özellikle tarih, coğrafya ve tıbbi konularda hatalı (halüsinatif) sonuçlar üretebilir. Yazar, modelin kullanımından doğacak zararlardan sorumlu değildir.

Geliştirici:

Ersin Görün

Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Dataset used to train LastCPUWarrior/zaferv029-tiny-turkish-slm