Açıklama:
Model Özeti
Bu model, sıfırdan (from scratch) eğitilmek üzere tasarlanmış ~500 milyon parametreli yoğun (dense) bir dil modelidir. Qwen2.5 mimarisi temel alınarak oluşturulmuş olup, Qwen3.5 tokenizer'ını kullanmaktadır.
Hazır ağırlıklar (pre-trained weights) kullanarak ince ayar (fine-tuning) yapmak yerine tamamen sıfırdan başlama sebebim; 1- Tamamıyla kendim eğittiğim ağırlıklarla çalışma isteğim. 2- Ayrıca gelecekte yapmak istediğim bi proje için birazcık hazırlık yapmak-belge/kaynak oluşturmak.
Mimari Detaylar
Model konfigürasyonu bi tık deneysel, MoE mimarisine yönelik tasarlandı:
- Parametre Boyutu: ~870M (500m yazma sebebi tamamen hata.)
- Katman Sayısı (Layers): 24 Toplam Katman (20 Full Attention + 4 Sliding Window Attention)
- Dikkat Mekanizması (Attention): Grouped Query Attention (GQA) - 16 Attention Head, 4 Key-Value Head.
- Bağlam Uzunluğu (Context Length): YaRN RoPE ölçeklendirmesi (scaling) ile 65.536 token.
- Kelime Dağarcığı (Vocab Size): 248.044
- Aktivasyon Fonksiyonu: SiLU
- Hassasiyet (Dtype): bfloat16
Eğitim Hedefleri ve Yol Haritası
Bu model, daha büyük ve karmaşık mimarilere geçiş için bir temel laboratuvar ortamı olarak kurgulanmıştır. Projenin yol haritası şu şekildedir:
Aşama 1: Yoğun (Dense) Model Eğitimi (Mevcut Aşama)
- Modelin mevcut yapısıyla 50 milyar (50B) token üzerinden pre-training (ön eğitim) sürecinin tamamlanması.
- Sonrasında yoğun türkçe - ingilizce reasoninge maruz bırakılacak. (Kapasitesine göre yoğun)
Aşama 2: MoE (Mixture of Experts) Mimarisine Geçiş
- Dense eğitim başarıyla tamamlandıktan ve hedeflenen başarıma ulaşıldıktan sonra, eğitim süreci bir MoE mimarisine evrilecektir.
- Hedeflenen MoE Yapısı: Toplamda ~3 Milyar (3B) parametreye sahip, ancak çıkarım (inference) ve eğitim verimliliği açısından token başına 500M veya 1B aktif parametre (active parameters) kullanan bir model tasarlamak.
Nasıl Kullanılır?
(Not: Model ağırlıkları yüklendiğinde bu alan güncellenecektir.)
- Downloads last month
- 303