burak commited on
Update README.md
Browse files
README.md
CHANGED
|
@@ -23,16 +23,16 @@ datasets:
|
|
| 23 |
- turkish-nlp-suite/InstrucTurca
|
| 24 |
---
|
| 25 |
|
| 26 |
-
#
|
| 27 |
|
| 28 |
> **⚠️ Uyarı / Disclaimer:** Bu model şu anda aktif bir **test ve araştırma aşamasındadır**. Temel amacı, yeni nesil **Phi-3** mimarisinin yeteneklerini sıfırdan eğitilmiş (trained from scratch) bir yapıyla küçük ölçekte test etmektir. Üretime (production) hazır bir model değildir; halüsinasyon görebilir, mantıksal hatalar yapabilir veya beklenmedik yanıtlar verebilir.
|
| 29 |
|
| 30 |
-
##
|
| 31 |
Bu model, Microsoft'un **Phi-3** mimarisi temel alınarak sıfırdan eğitilmiş **233 Milyon** parametreli, deneysel bir dil modelidir. Hem **İngilizce** hem de **Türkçe** dillerinde genel bilgi, kodlama yeteneği ve mantıksal yürütme kapasitesini ölçmek amacıyla çeşitli yüksek kaliteli veri setleri harmanlanarak eğitilmiştir.
|
| 32 |
|
| 33 |
Ayrıca model için `BPE` (Byte-Pair Encoding) tabanlı **özel bir tokenizer** sıfırdan eğitilip kullanılmıştır.
|
| 34 |
|
| 35 |
-
##
|
| 36 |
Model, daha kompakt bir konfigürasyonda tasarlanmış olup standart bir Phi-3 yapısına dayanır:
|
| 37 |
* **Mimari Türü:** `Phi3ForCausalLM`
|
| 38 |
* **Parametre Sayısı:** ~233M
|
|
@@ -43,7 +43,7 @@ Model, daha kompakt bir konfigürasyonda tasarlanmış olup standart bir Phi-3 y
|
|
| 43 |
* **Bağlam Penceresi (Context Size):** 1024 Token
|
| 44 |
* **Sözlük Boyutu (Vocab Size):** 32,000
|
| 45 |
|
| 46 |
-
##
|
| 47 |
Eğitim verisi, modelin çok yönlü olabilmesi için özenle seçilmiş, yapay zeka kalıntıları (AI-robots) temizlenmiş ve filtrelenmiş şu veri setlerinden oluşmaktadır:
|
| 48 |
|
| 49 |
**1. Genel Bilgi ve Mantık (İngilizce):**
|
|
@@ -60,14 +60,14 @@ Eğitim verisi, modelin çok yönlü olabilmesi için özenle seçilmiş, yapay
|
|
| 60 |
* `uonlp/CulturaX` (Türkçe alt kümesi, CJK ve gürültü temizlenmiş)
|
| 61 |
* `turkish-nlp-suite/InstrucTurca`
|
| 62 |
|
| 63 |
-
##
|
| 64 |
* **Optimizasyon:** 8-bit AdamW (`adamw_bnb_8bit`)
|
| 65 |
* **Öğrenme Oranı (Learning Rate):** 3e-4 (Cosine Scheduler ile)
|
| 66 |
* **Hassasiyet (Precision):** FP16
|
| 67 |
* **Max Adım Sayısı (Steps):** 6000
|
| 68 |
* **Ağırlık Azalması (Weight Decay):** 0.05
|
| 69 |
|
| 70 |
-
##
|
| 71 |
Modeli test etmek için aşağıdaki Python kodunu kullanabilirsiniz. `trust_remote_code=True` parametresinin ekli olduğundan emin olun.
|
| 72 |
|
| 73 |
```python
|
|
|
|
| 23 |
- turkish-nlp-suite/InstrucTurca
|
| 24 |
---
|
| 25 |
|
| 26 |
+
# SykoLLM Phi-3 Mini (233M) - Experimental
|
| 27 |
|
| 28 |
> **⚠️ Uyarı / Disclaimer:** Bu model şu anda aktif bir **test ve araştırma aşamasındadır**. Temel amacı, yeni nesil **Phi-3** mimarisinin yeteneklerini sıfırdan eğitilmiş (trained from scratch) bir yapıyla küçük ölçekte test etmektir. Üretime (production) hazır bir model değildir; halüsinasyon görebilir, mantıksal hatalar yapabilir veya beklenmedik yanıtlar verebilir.
|
| 29 |
|
| 30 |
+
## Model Özeti (Model Description)
|
| 31 |
Bu model, Microsoft'un **Phi-3** mimarisi temel alınarak sıfırdan eğitilmiş **233 Milyon** parametreli, deneysel bir dil modelidir. Hem **İngilizce** hem de **Türkçe** dillerinde genel bilgi, kodlama yeteneği ve mantıksal yürütme kapasitesini ölçmek amacıyla çeşitli yüksek kaliteli veri setleri harmanlanarak eğitilmiştir.
|
| 32 |
|
| 33 |
Ayrıca model için `BPE` (Byte-Pair Encoding) tabanlı **özel bir tokenizer** sıfırdan eğitilip kullanılmıştır.
|
| 34 |
|
| 35 |
+
## Model Mimarisi (Architecture Details)
|
| 36 |
Model, daha kompakt bir konfigürasyonda tasarlanmış olup standart bir Phi-3 yapısına dayanır:
|
| 37 |
* **Mimari Türü:** `Phi3ForCausalLM`
|
| 38 |
* **Parametre Sayısı:** ~233M
|
|
|
|
| 43 |
* **Bağlam Penceresi (Context Size):** 1024 Token
|
| 44 |
* **Sözlük Boyutu (Vocab Size):** 32,000
|
| 45 |
|
| 46 |
+
## Eğitim Verisi (Training Data)
|
| 47 |
Eğitim verisi, modelin çok yönlü olabilmesi için özenle seçilmiş, yapay zeka kalıntıları (AI-robots) temizlenmiş ve filtrelenmiş şu veri setlerinden oluşmaktadır:
|
| 48 |
|
| 49 |
**1. Genel Bilgi ve Mantık (İngilizce):**
|
|
|
|
| 60 |
* `uonlp/CulturaX` (Türkçe alt kümesi, CJK ve gürültü temizlenmiş)
|
| 61 |
* `turkish-nlp-suite/InstrucTurca`
|
| 62 |
|
| 63 |
+
## Eğitim Konfigürasyonu (Training Procedure)
|
| 64 |
* **Optimizasyon:** 8-bit AdamW (`adamw_bnb_8bit`)
|
| 65 |
* **Öğrenme Oranı (Learning Rate):** 3e-4 (Cosine Scheduler ile)
|
| 66 |
* **Hassasiyet (Precision):** FP16
|
| 67 |
* **Max Adım Sayısı (Steps):** 6000
|
| 68 |
* **Ağırlık Azalması (Weight Decay):** 0.05
|
| 69 |
|
| 70 |
+
## Örnek Kullanım (How to Use)
|
| 71 |
Modeli test etmek için aşağıdaki Python kodunu kullanabilirsiniz. `trust_remote_code=True` parametresinin ekli olduğundan emin olun.
|
| 72 |
|
| 73 |
```python
|