File size: 5,783 Bytes
f28251e c593c35 f28251e c593c35 f28251e c593c35 f28251e c593c35 f28251e c593c35 f28251e c593c35 f28251e c593c35 f28251e c593c35 f28251e c593c35 f28251e c593c35 f28251e c593c35 f28251e c593c35 f28251e c593c35 f28251e c593c35 aa95974 c593c35 aa95974 c593c35 f28251e c593c35 f28251e c593c35 f28251e c593c35 f28251e c593c35 f28251e c593c35 f28251e c593c35 f28251e c593c35 f28251e c593c35 f28251e c593c35 f28251e c593c35 f28251e c593c35 f28251e c593c35 f28251e c593c35 f28251e c593c35 f28251e c593c35 f28251e c593c35 f28251e c593c35 f28251e c593c35 f28251e c593c35 f28251e c593c35 f28251e c593c35 f28251e c593c35 f28251e c593c35 f28251e c593c35 f28251e c593c35 f28251e c593c35 f28251e c593c35 | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 | ---
language:
- tr
- en
license: apache-2.0
library_name: transformers
tags:
- causal-lm
- turkish
- phi3
- llm
- text-generation
- pre-training
- beta
- syko
pipeline_tag: text-generation
base_model: SykoSLM/SykoLLM-V5.5-Beta
model_type: phi3
inference: true
datasets:
- uonlp/CulturaX
- HuggingFaceTB/cosmopedia
- roneneldan/TinyStories
- nampdn-ai/tiny-textbooks
- nampdn-ai/tiny-codes
- ise-uiuc/Magicoder-Evol-Instruct-110K
- theblackcat102/evol-codealpaca-v1
- turkish-nlp-suite/InstrucTurca
metrics:
- perplexity
---
# 🧠 SykoLLM V5.5-Beta
> ⚠️ **Bu model hâlâ beta aşamasındadır.** Üretim ortamında kullanmadan önce kapsamlı test yapmanız önerilir.
**SykoLLM V5.5-Beta**, SykoLLM ailesinin şu ana kadar eğitilmiş **en büyük dil modelidir.** Phi-3 mimarisi üzerine inşa edilmiş olup Türkçe ve İngilizce metinler, kodlama veri setleri ve eğitici içerikler üzerinde ön-eğitimden (pre-training) geçirilmiştir.
---
## 📐 Model Mimarisi
| Özellik | Değer |
|---|---|
| **Mimari** | Phi-3 (Causal LM) |
| **Toplam Parametre** | ~447 Milyon |
| **Gizli Katman Boyutu** (`hidden_size`) | 1024 |
| **Ara Katman Boyutu** (`intermediate_size`) | 3072 |
| **Dikkat Başlığı Sayısı** (`num_attention_heads`) | 8 |
| **Katman Sayısı** (`num_hidden_layers`) | 28 |
| **Kelime Hazinesi** (`vocab_size`) | 32.000 |
| **Bağlam Penceresi** (`context_length`) | 1024 token |
---
## 📚 Eğitim Veri Setleri
Model aşağıdaki 8 farklı veri seti üzerinde harmanlanarak (interleave) eğitilmiştir:
| Veri Seti | İçerik Türü | Dil |
|---|---|---|
| [uonlp/CulturaX](https://huggingface.co/datasets/uonlp/CulturaX) | Genel web metinleri (tr bölümü) | 🇹🇷 Türkçe |
| [HuggingFaceTB/cosmopedia](https://huggingface.co/datasets/HuggingFaceTB/cosmopedia) | Sentetik eğitici içerik | 🇬🇧 İngilizce |
| [roneneldan/TinyStories](https://huggingface.co/datasets/roneneldan/TinyStories) | Kısa, sade hikayeler | 🇬🇧 İngilizce |
| [nampdn-ai/tiny-textbooks](https://huggingface.co/datasets/nampdn-ai/tiny-textbooks) | Ders kitabı tarzı içerik | 🇬🇧 İngilizce |
| [nampdn-ai/tiny-codes](https://huggingface.co/datasets/nampdn-ai/tiny-codes) | Kod örnekleri ve açıklamalar | 💻 Çokdil |
| [ise-uiuc/Magicoder-Evol-Instruct-110K](https://huggingface.co/datasets/ise-uiuc/Magicoder-Evol-Instruct-110K) | Gelişmiş kodlama talimatları | 💻 Çokdil |
| [theblackcat102/evol-codealpaca-v1](https://huggingface.co/datasets/theblackcat102/evol-codealpaca-v1) | Kodlama talimatları | 💻 Çokdil |
| [turkish-nlp-suite/InstrucTurca](https://huggingface.co/datasets/turkish-nlp-suite/InstrucTurca) | Türkçe instruction/yanıt çiftleri | 🇹🇷 Türkçe |
> Toplamda yaklaşık **~300.000 örnek** ile eğitilmiştir.
---
## ⚙️ Eğitim Detayları
| Parametre | Değer |
|---|---|
| **Kullanılan Donanım** | 2× NVIDIA Tesla T4 |
| **Eğitim Adımı** | 2300 steps |
| **Batch Boyutu (cihaz başına)** | 4 |
| **Gradyan Birikimi** | 16 (efektif batch: 64) |
| **Öğrenme Hızı** | 3e-4 |
| **LR Zamanlayıcı** | Cosine |
| **Isınma Adımı** | 200 |
| **Ağırlık Bozunması** | 0.05 |
| **Optimizatör** | AdamW (Fused) |
| **Gradyan Kırpma** | 1.0 |
| **Çerçeve** | HuggingFace Transformers + Trainer |
---
## 🚀 Kullanım
```python
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
model_id = "SykoSLM/SykoLLM-V5.5-Beta"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto"
)
# Sohbet formatı
prompt = "<|user|>\nMerhaba! Nasılsın?<|end|>\n<|assistant|>\n"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
with torch.no_grad():
outputs = model.generate(
**inputs,
max_new_tokens=256,
do_sample=True,
temperature=0.7,
top_p=0.9,
repetition_penalty=1.1
)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)
```
### Sohbet Şablonu
Model aşağıdaki özel token formatıyla eğitilmiştir:
```
<|user|>
Kullanıcı mesajı burada<|end|>
<|assistant|>
Modelin yanıtı burada<|end|>
```
---
## 🗺️ SykoLLM Ailesi Yol Haritası
| Versiyon | Durum | Veri Miktarı | Donanım |
|---|---|---|---|
| SykoLLM V5.5-Beta | ✅ Yayında (Beta) | ~300K örnek | 2× T4 |
| **SykoLLM V5.6** | 🔜 Geliştiriliyor | **~1.7M örnek** | **NVIDIA A100** |
> **V5.6 ile ne değişecek?**
> - Eğitim verisi **~5.6x büyüyecek** (300K → 1.7M örnek)
> - A100'ün bellek ve hesaplama gücü sayesinde daha uzun bağlam ve daha derin öğrenme
> - Türkçe dil yetkinliği önemli ölçüde artacak
> - Beta etiketinin kaldırılması planlanmaktadır
---
## ⚠️ Sınırlamalar ve Önemli Notlar
- Bu model **beta aşamasındadır**; tutarsız veya hatalı yanıtlar üretebilir.
- Bağlam penceresi **1024 token** ile sınırlıdır.
- Model yalnızca **ön-eğitim (pre-training)** görmüştür; RLHF veya DPO gibi hizalama süreçleri uygulanmamıştır.
- Kritik, tıbbi, hukuki veya güvenlik gerektiren uygulamalarda kullanımı önerilmez.
- Model zaman zaman Türkçe yerine İngilizce yanıt verebilir.
---
## 📄 Lisans
Bu model **Apache 2.0** lisansı altında yayınlanmıştır. Ticari kullanım serbesttir, ancak modelin kaynağının belirtilmesi beklenir.
---
## 🙏 Teşekkürler
Bu modelin eğitiminde kullanılan veri setlerini açık kaynak olarak sunan tüm araştırmacılara ve topluluklara teşekkürler: HuggingFace, Turkish NLP Suite, Cosmopedia ekibi ve diğerleri.
---
*SykoSLM tarafından geliştirilmiştir. Sorularınız için bir Issue açabilirsiniz.* |