burak commited on
Commit
b3a2891
·
verified ·
1 Parent(s): 8cc3fb7

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +6 -6
README.md CHANGED
@@ -23,16 +23,16 @@ datasets:
23
  - turkish-nlp-suite/InstrucTurca
24
  ---
25
 
26
- # 🚀 SykoLLM Phi-3 Mini (233M) - Experimental
27
 
28
  > **⚠️ Uyarı / Disclaimer:** Bu model şu anda aktif bir **test ve araştırma aşamasındadır**. Temel amacı, yeni nesil **Phi-3** mimarisinin yeteneklerini sıfırdan eğitilmiş (trained from scratch) bir yapıyla küçük ölçekte test etmektir. Üretime (production) hazır bir model değildir; halüsinasyon görebilir, mantıksal hatalar yapabilir veya beklenmedik yanıtlar verebilir.
29
 
30
- ## 📌 Model Özeti (Model Description)
31
  Bu model, Microsoft'un **Phi-3** mimarisi temel alınarak sıfırdan eğitilmiş **233 Milyon** parametreli, deneysel bir dil modelidir. Hem **İngilizce** hem de **Türkçe** dillerinde genel bilgi, kodlama yeteneği ve mantıksal yürütme kapasitesini ölçmek amacıyla çeşitli yüksek kaliteli veri setleri harmanlanarak eğitilmiştir.
32
 
33
  Ayrıca model için `BPE` (Byte-Pair Encoding) tabanlı **özel bir tokenizer** sıfırdan eğitilip kullanılmıştır.
34
 
35
- ## 🏗️ Model Mimarisi (Architecture Details)
36
  Model, daha kompakt bir konfigürasyonda tasarlanmış olup standart bir Phi-3 yapısına dayanır:
37
  * **Mimari Türü:** `Phi3ForCausalLM`
38
  * **Parametre Sayısı:** ~233M
@@ -43,7 +43,7 @@ Model, daha kompakt bir konfigürasyonda tasarlanmış olup standart bir Phi-3 y
43
  * **Bağlam Penceresi (Context Size):** 1024 Token
44
  * **Sözlük Boyutu (Vocab Size):** 32,000
45
 
46
- ## 📚 Eğitim Verisi (Training Data)
47
  Eğitim verisi, modelin çok yönlü olabilmesi için özenle seçilmiş, yapay zeka kalıntıları (AI-robots) temizlenmiş ve filtrelenmiş şu veri setlerinden oluşmaktadır:
48
 
49
  **1. Genel Bilgi ve Mantık (İngilizce):**
@@ -60,14 +60,14 @@ Eğitim verisi, modelin çok yönlü olabilmesi için özenle seçilmiş, yapay
60
  * `uonlp/CulturaX` (Türkçe alt kümesi, CJK ve gürültü temizlenmiş)
61
  * `turkish-nlp-suite/InstrucTurca`
62
 
63
- ## ⚙️ Eğitim Konfigürasyonu (Training Procedure)
64
  * **Optimizasyon:** 8-bit AdamW (`adamw_bnb_8bit`)
65
  * **Öğrenme Oranı (Learning Rate):** 3e-4 (Cosine Scheduler ile)
66
  * **Hassasiyet (Precision):** FP16
67
  * **Max Adım Sayısı (Steps):** 6000
68
  * **Ağırlık Azalması (Weight Decay):** 0.05
69
 
70
- ## 💻 Örnek Kullanım (How to Use)
71
  Modeli test etmek için aşağıdaki Python kodunu kullanabilirsiniz. `trust_remote_code=True` parametresinin ekli olduğundan emin olun.
72
 
73
  ```python
 
23
  - turkish-nlp-suite/InstrucTurca
24
  ---
25
 
26
+ # SykoLLM Phi-3 Mini (233M) - Experimental
27
 
28
  > **⚠️ Uyarı / Disclaimer:** Bu model şu anda aktif bir **test ve araştırma aşamasındadır**. Temel amacı, yeni nesil **Phi-3** mimarisinin yeteneklerini sıfırdan eğitilmiş (trained from scratch) bir yapıyla küçük ölçekte test etmektir. Üretime (production) hazır bir model değildir; halüsinasyon görebilir, mantıksal hatalar yapabilir veya beklenmedik yanıtlar verebilir.
29
 
30
+ ## Model Özeti (Model Description)
31
  Bu model, Microsoft'un **Phi-3** mimarisi temel alınarak sıfırdan eğitilmiş **233 Milyon** parametreli, deneysel bir dil modelidir. Hem **İngilizce** hem de **Türkçe** dillerinde genel bilgi, kodlama yeteneği ve mantıksal yürütme kapasitesini ölçmek amacıyla çeşitli yüksek kaliteli veri setleri harmanlanarak eğitilmiştir.
32
 
33
  Ayrıca model için `BPE` (Byte-Pair Encoding) tabanlı **özel bir tokenizer** sıfırdan eğitilip kullanılmıştır.
34
 
35
+ ## Model Mimarisi (Architecture Details)
36
  Model, daha kompakt bir konfigürasyonda tasarlanmış olup standart bir Phi-3 yapısına dayanır:
37
  * **Mimari Türü:** `Phi3ForCausalLM`
38
  * **Parametre Sayısı:** ~233M
 
43
  * **Bağlam Penceresi (Context Size):** 1024 Token
44
  * **Sözlük Boyutu (Vocab Size):** 32,000
45
 
46
+ ## Eğitim Verisi (Training Data)
47
  Eğitim verisi, modelin çok yönlü olabilmesi için özenle seçilmiş, yapay zeka kalıntıları (AI-robots) temizlenmiş ve filtrelenmiş şu veri setlerinden oluşmaktadır:
48
 
49
  **1. Genel Bilgi ve Mantık (İngilizce):**
 
60
  * `uonlp/CulturaX` (Türkçe alt kümesi, CJK ve gürültü temizlenmiş)
61
  * `turkish-nlp-suite/InstrucTurca`
62
 
63
+ ## Eğitim Konfigürasyonu (Training Procedure)
64
  * **Optimizasyon:** 8-bit AdamW (`adamw_bnb_8bit`)
65
  * **Öğrenme Oranı (Learning Rate):** 3e-4 (Cosine Scheduler ile)
66
  * **Hassasiyet (Precision):** FP16
67
  * **Max Adım Sayısı (Steps):** 6000
68
  * **Ağırlık Azalması (Weight Decay):** 0.05
69
 
70
+ ## Örnek Kullanım (How to Use)
71
  Modeli test etmek için aşağıdaki Python kodunu kullanabilirsiniz. `trust_remote_code=True` parametresinin ekli olduğundan emin olun.
72
 
73
  ```python