Update README.md
Browse files
README.md
CHANGED
|
@@ -23,7 +23,7 @@ Hazır ağırlıklar (pre-trained weights) kullanarak ince ayar (fine-tuning) ya
|
|
| 23 |
|
| 24 |
## Mimari Detaylar
|
| 25 |
Model konfigürasyonu bi tık deneysel, MoE mimarisine yönelik tasarlandı:
|
| 26 |
-
- **Parametre Boyutu:** ~
|
| 27 |
- **Katman Sayısı (Layers):** 24 Toplam Katman (20 Full Attention + 4 Sliding Window Attention)
|
| 28 |
- **Dikkat Mekanizması (Attention):** Grouped Query Attention (GQA) - 16 Attention Head, 4 Key-Value Head.
|
| 29 |
- **Bağlam Uzunluğu (Context Length):** YaRN RoPE ölçeklendirmesi (scaling) ile 65.536 token.
|
|
|
|
| 23 |
|
| 24 |
## Mimari Detaylar
|
| 25 |
Model konfigürasyonu bi tık deneysel, MoE mimarisine yönelik tasarlandı:
|
| 26 |
+
- **Parametre Boyutu:** ~870M (500m yazma sebebi tamamen hata.)
|
| 27 |
- **Katman Sayısı (Layers):** 24 Toplam Katman (20 Full Attention + 4 Sliding Window Attention)
|
| 28 |
- **Dikkat Mekanizması (Attention):** Grouped Query Attention (GQA) - 16 Attention Head, 4 Key-Value Head.
|
| 29 |
- **Bağlam Uzunluğu (Context Length):** YaRN RoPE ölçeklendirmesi (scaling) ile 65.536 token.
|