Açıklama:

Model Özeti

Bu model, sıfırdan (from scratch) eğitilmek üzere tasarlanmış ~500 milyon parametreli yoğun (dense) bir dil modelidir. Qwen2.5 mimarisi temel alınarak oluşturulmuş olup, Qwen3.5 tokenizer'ını kullanmaktadır.

Hazır ağırlıklar (pre-trained weights) kullanarak ince ayar (fine-tuning) yapmak yerine tamamen sıfırdan başlama sebebim; 1- Tamamıyla kendim eğittiğim ağırlıklarla çalışma isteğim. 2- Ayrıca gelecekte yapmak istediğim bi proje için birazcık hazırlık yapmak-belge/kaynak oluşturmak.

Mimari Detaylar

Model konfigürasyonu bi tık deneysel, MoE mimarisine yönelik tasarlandı:

  • Parametre Boyutu: ~870M (500m yazma sebebi tamamen hata.)
  • Katman Sayısı (Layers): 24 Toplam Katman (20 Full Attention + 4 Sliding Window Attention)
  • Dikkat Mekanizması (Attention): Grouped Query Attention (GQA) - 16 Attention Head, 4 Key-Value Head.
  • Bağlam Uzunluğu (Context Length): YaRN RoPE ölçeklendirmesi (scaling) ile 65.536 token.
  • Kelime Dağarcığı (Vocab Size): 248.044
  • Aktivasyon Fonksiyonu: SiLU
  • Hassasiyet (Dtype): bfloat16

Eğitim Hedefleri ve Yol Haritası

Bu model, daha büyük ve karmaşık mimarilere geçiş için bir temel laboratuvar ortamı olarak kurgulanmıştır. Projenin yol haritası şu şekildedir:

  1. Aşama 1: Yoğun (Dense) Model Eğitimi (Mevcut Aşama)

    • Modelin mevcut yapısıyla 50 milyar (50B) token üzerinden pre-training (ön eğitim) sürecinin tamamlanması.
    • Sonrasında yoğun türkçe - ingilizce reasoninge maruz bırakılacak. (Kapasitesine göre yoğun)
  2. Aşama 2: MoE (Mixture of Experts) Mimarisine Geçiş

    • Dense eğitim başarıyla tamamlandıktan ve hedeflenen başarıma ulaşıldıktan sonra, eğitim süreci bir MoE mimarisine evrilecektir.
    • Hedeflenen MoE Yapısı: Toplamda ~3 Milyar (3B) parametreye sahip, ancak çıkarım (inference) ve eğitim verimliliği açısından token başına 500M veya 1B aktif parametre (active parameters) kullanan bir model tasarlamak.

Nasıl Kullanılır?

(Not: Model ağırlıkları yüklendiğinde bu alan güncellenecektir.)

Downloads last month
303
Safetensors
Model size
0.6B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support