Açıklama:

Model Özeti

Bu model, sıfırdan (from scratch) eğitilmek üzere tasarlanmış ~500 milyon parametreli yoğun (dense) bir dil modelidir. Qwen2.5 mimarisi temel alınarak oluşturulmuş olup, Qwen3.5 tokenizer'ını kullanmaktadır.

Hazır ağırlıklar (pre-trained weights) kullanarak ince ayar (fine-tuning) yapmak yerine tamamen sıfırdan başlama sebebim; 1- Tamamıyla kendim eğittiğim ağırlıklarla çalışma isteğim. 2- Ayrıca gelecekte yapmak istediğim bi proje için birazcık hazırlık yapmak-belge/kaynak oluşturmak.

Mimari Detaylar

Model konfigürasyonu bi tık deneysel, MoE mimarisine yönelik tasarlandı:

Parametre Boyutu: ~870M (500m yazma sebebi tamamen hata.)
Katman Sayısı (Layers): 24 Toplam Katman (20 Full Attention + 4 Sliding Window Attention)
Dikkat Mekanizması (Attention): Grouped Query Attention (GQA) - 16 Attention Head, 4 Key-Value Head.
Bağlam Uzunluğu (Context Length): YaRN RoPE ölçeklendirmesi (scaling) ile 65.536 token.
Kelime Dağarcığı (Vocab Size): 248.044
Aktivasyon Fonksiyonu: SiLU
Hassasiyet (Dtype): bfloat16

Eğitim Hedefleri ve Yol Haritası

Bu model, daha büyük ve karmaşık mimarilere geçiş için bir temel laboratuvar ortamı olarak kurgulanmıştır. Projenin yol haritası şu şekildedir:

Aşama 1: Yoğun (Dense) Model Eğitimi (Mevcut Aşama)
- Modelin mevcut yapısıyla 50 milyar (50B) token üzerinden pre-training (ön eğitim) sürecinin tamamlanması.
- Sonrasında yoğun türkçe - ingilizce reasoninge maruz bırakılacak. (Kapasitesine göre yoğun)
Aşama 2: MoE (Mixture of Experts) Mimarisine Geçiş
- Dense eğitim başarıyla tamamlandıktan ve hedeflenen başarıma ulaşıldıktan sonra, eğitim süreci bir MoE mimarisine evrilecektir.
- Hedeflenen MoE Yapısı: Toplamda ~3 Milyar (3B) parametreye sahip, ancak çıkarım (inference) ve eğitim verimliliği açısından token başına 500M veya 1B aktif parametre (active parameters) kullanan bir model tasarlamak.

Nasıl Kullanılır?

(Not: Model ağırlıkları yüklendiğinde bu alan güncellenecektir.)

Downloads last month: 3

Safetensors

Model size

0.6B params

Tensor type

BF16

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support