burak commited on
Update README.md
Browse files
README.md
CHANGED
|
@@ -32,7 +32,7 @@ Bu proje, "Büyük modeller her zaman daha iyidir" algısına karşı, verimli v
|
|
| 32 |
|
| 33 |
- **Tamamen Yerli Tokenizer:** 50.000 kelimelik (vocab size) özel tokenizer eğitildi. Türkçe'nin eklemeli yapısına (agglutinative) tam uyumlu olması için tasarlandı. Bu sayede model, diğer çok dilli modellere göre daha az token ile daha fazla Türkçe içerik ifade edebilir.
|
| 34 |
- **Sıfırdan Eğitim (Pre-training):** Model, T4 GPU'lar üzerinde Wikipedia verileri ile dilin temel yapısını (morfoloji ve sentaks) öğrenmek için yüksek öğrenme oranı (High Learning Rate) ile "agresif" bir başlangıç eğitimi aldı.
|
| 35 |
-
- **Instruct Tuning:** Temel eğitimin ardından, A100 GPU üzerinde
|
| 36 |
- **Donanım & Optimizasyon:** Eğitim sürecinde `Flash Attention 2`, `bfloat16` ve `torch.compile` teknolojileri kullanılarak A100 GPU'nun sınırları zorlandı.
|
| 37 |
|
| 38 |
## ⚙️ Teknik Detaylar
|
|
|
|
| 32 |
|
| 33 |
- **Tamamen Yerli Tokenizer:** 50.000 kelimelik (vocab size) özel tokenizer eğitildi. Türkçe'nin eklemeli yapısına (agglutinative) tam uyumlu olması için tasarlandı. Bu sayede model, diğer çok dilli modellere göre daha az token ile daha fazla Türkçe içerik ifade edebilir.
|
| 34 |
- **Sıfırdan Eğitim (Pre-training):** Model, T4 GPU'lar üzerinde Wikipedia verileri ile dilin temel yapısını (morfoloji ve sentaks) öğrenmek için yüksek öğrenme oranı (High Learning Rate) ile "agresif" bir başlangıç eğitimi aldı.
|
| 35 |
+
- **Instruct Tuning:** Temel eğitimin ardından, A100 GPU üzerinde 100.000+ satırlık Instruct (Talimat) verisi ile sohbet yeteneği kazandırıldı.
|
| 36 |
- **Donanım & Optimizasyon:** Eğitim sürecinde `Flash Attention 2`, `bfloat16` ve `torch.compile` teknolojileri kullanılarak A100 GPU'nun sınırları zorlandı.
|
| 37 |
|
| 38 |
## ⚙️ Teknik Detaylar
|