Efe2898 commited on
Commit
f950d12
·
verified ·
1 Parent(s): d18b8b7

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +1 -1
README.md CHANGED
@@ -23,7 +23,7 @@ Hazır ağırlıklar (pre-trained weights) kullanarak ince ayar (fine-tuning) ya
23
 
24
  ## Mimari Detaylar
25
  Model konfigürasyonu bi tık deneysel, MoE mimarisine yönelik tasarlandı:
26
- - **Parametre Boyutu:** ~520M
27
  - **Katman Sayısı (Layers):** 24 Toplam Katman (20 Full Attention + 4 Sliding Window Attention)
28
  - **Dikkat Mekanizması (Attention):** Grouped Query Attention (GQA) - 16 Attention Head, 4 Key-Value Head.
29
  - **Bağlam Uzunluğu (Context Length):** YaRN RoPE ölçeklendirmesi (scaling) ile 65.536 token.
 
23
 
24
  ## Mimari Detaylar
25
  Model konfigürasyonu bi tık deneysel, MoE mimarisine yönelik tasarlandı:
26
+ - **Parametre Boyutu:** ~870M (500m yazma sebebi tamamen hata.)
27
  - **Katman Sayısı (Layers):** 24 Toplam Katman (20 Full Attention + 4 Sliding Window Attention)
28
  - **Dikkat Mekanizması (Attention):** Grouped Query Attention (GQA) - 16 Attention Head, 4 Key-Value Head.
29
  - **Bağlam Uzunluğu (Context Length):** YaRN RoPE ölçeklendirmesi (scaling) ile 65.536 token.