File size: 5,783 Bytes
f28251e
c593c35
 
 
 
f28251e
c593c35
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
f28251e
 
c593c35
f28251e
c593c35
f28251e
c593c35
f28251e
c593c35
f28251e
c593c35
 
 
 
 
 
 
 
 
 
 
 
f28251e
c593c35
f28251e
c593c35
f28251e
c593c35
f28251e
c593c35
 
 
 
 
 
 
 
 
 
f28251e
c593c35
f28251e
c593c35
f28251e
c593c35
 
 
 
 
aa95974
 
 
 
c593c35
aa95974
c593c35
 
 
 
f28251e
c593c35
f28251e
c593c35
f28251e
c593c35
 
 
f28251e
c593c35
f28251e
c593c35
 
 
 
 
 
f28251e
c593c35
 
f28251e
c593c35
f28251e
c593c35
 
 
 
 
 
 
 
 
f28251e
c593c35
 
 
f28251e
c593c35
f28251e
c593c35
f28251e
c593c35
 
 
 
 
 
f28251e
c593c35
f28251e
c593c35
f28251e
c593c35
 
 
 
f28251e
c593c35
 
 
 
 
f28251e
c593c35
f28251e
c593c35
f28251e
c593c35
 
 
 
 
f28251e
c593c35
f28251e
c593c35
f28251e
c593c35
f28251e
c593c35
f28251e
c593c35
f28251e
c593c35
f28251e
c593c35
f28251e
c593c35
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
---
language:
  - tr
  - en
license: apache-2.0
library_name: transformers
tags:
  - causal-lm
  - turkish
  - phi3
  - llm
  - text-generation
  - pre-training
  - beta
  - syko
pipeline_tag: text-generation
base_model: SykoSLM/SykoLLM-V5.5-Beta
model_type: phi3
inference: true
datasets:
  - uonlp/CulturaX
  - HuggingFaceTB/cosmopedia
  - roneneldan/TinyStories
  - nampdn-ai/tiny-textbooks
  - nampdn-ai/tiny-codes
  - ise-uiuc/Magicoder-Evol-Instruct-110K
  - theblackcat102/evol-codealpaca-v1
  - turkish-nlp-suite/InstrucTurca
metrics:
  - perplexity
---

# 🧠 SykoLLM V5.5-Beta

> ⚠️ **Bu model hâlâ beta aşamasındadır.** Üretim ortamında kullanmadan önce kapsamlı test yapmanız önerilir.

**SykoLLM V5.5-Beta**, SykoLLM ailesinin şu ana kadar eğitilmiş **en büyük dil modelidir.** Phi-3 mimarisi üzerine inşa edilmiş olup Türkçe ve İngilizce metinler, kodlama veri setleri ve eğitici içerikler üzerinde ön-eğitimden (pre-training) geçirilmiştir.

---

## 📐 Model Mimarisi

| Özellik | Değer |
|---|---|
| **Mimari** | Phi-3 (Causal LM) |
| **Toplam Parametre** | ~447 Milyon |
| **Gizli Katman Boyutu** (`hidden_size`) | 1024 |
| **Ara Katman Boyutu** (`intermediate_size`) | 3072 |
| **Dikkat Başlığı Sayısı** (`num_attention_heads`) | 8 |
| **Katman Sayısı** (`num_hidden_layers`) | 28 |
| **Kelime Hazinesi** (`vocab_size`) | 32.000 |
| **Bağlam Penceresi** (`context_length`) | 1024 token |

---

## 📚 Eğitim Veri Setleri

Model aşağıdaki 8 farklı veri seti üzerinde harmanlanarak (interleave) eğitilmiştir:

| Veri Seti | İçerik Türü | Dil |
|---|---|---|
| [uonlp/CulturaX](https://huggingface.co/datasets/uonlp/CulturaX) | Genel web metinleri (tr bölümü) | 🇹🇷 Türkçe |
| [HuggingFaceTB/cosmopedia](https://huggingface.co/datasets/HuggingFaceTB/cosmopedia) | Sentetik eğitici içerik | 🇬🇧 İngilizce |
| [roneneldan/TinyStories](https://huggingface.co/datasets/roneneldan/TinyStories) | Kısa, sade hikayeler | 🇬🇧 İngilizce |
| [nampdn-ai/tiny-textbooks](https://huggingface.co/datasets/nampdn-ai/tiny-textbooks) | Ders kitabı tarzı içerik | 🇬🇧 İngilizce |
| [nampdn-ai/tiny-codes](https://huggingface.co/datasets/nampdn-ai/tiny-codes) | Kod örnekleri ve açıklamalar | 💻 Çokdil |
| [ise-uiuc/Magicoder-Evol-Instruct-110K](https://huggingface.co/datasets/ise-uiuc/Magicoder-Evol-Instruct-110K) | Gelişmiş kodlama talimatları | 💻 Çokdil |
| [theblackcat102/evol-codealpaca-v1](https://huggingface.co/datasets/theblackcat102/evol-codealpaca-v1) | Kodlama talimatları | 💻 Çokdil |
| [turkish-nlp-suite/InstrucTurca](https://huggingface.co/datasets/turkish-nlp-suite/InstrucTurca) | Türkçe instruction/yanıt çiftleri | 🇹🇷 Türkçe |

> Toplamda yaklaşık **~300.000 örnek** ile eğitilmiştir.

---

## ⚙️ Eğitim Detayları

| Parametre | Değer |
|---|---|
| **Kullanılan Donanım** | 2× NVIDIA Tesla T4 |
| **Eğitim Adımı** | 2300 steps |
| **Batch Boyutu (cihaz başına)** | 4 |
| **Gradyan Birikimi** | 16 (efektif batch: 64) |
| **Öğrenme Hızı** | 3e-4 |
| **LR Zamanlayıcı** | Cosine |
| **Isınma Adımı** | 200 |
| **Ağırlık Bozunması** | 0.05 |
| **Optimizatör** | AdamW (Fused) |
| **Gradyan Kırpma** | 1.0 |
| **Çerçeve** | HuggingFace Transformers + Trainer |

---

## 🚀 Kullanım

```python
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model_id = "SykoSLM/SykoLLM-V5.5-Beta"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

# Sohbet formatı
prompt = "<|user|>\nMerhaba! Nasılsın?<|end|>\n<|assistant|>\n"

inputs = tokenizer(prompt, return_tensors="pt").to(model.device)

with torch.no_grad():
    outputs = model.generate(
        **inputs,
        max_new_tokens=256,
        do_sample=True,
        temperature=0.7,
        top_p=0.9,
        repetition_penalty=1.1
    )

response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)
```

### Sohbet Şablonu

Model aşağıdaki özel token formatıyla eğitilmiştir:

```
<|user|>
Kullanıcı mesajı burada<|end|>
<|assistant|>
Modelin yanıtı burada<|end|>
```

---

## 🗺️ SykoLLM Ailesi Yol Haritası

| Versiyon | Durum | Veri Miktarı | Donanım |
|---|---|---|---|
| SykoLLM V5.5-Beta | ✅ Yayında (Beta) | ~300K örnek | 2× T4 |
| **SykoLLM V5.6** | 🔜 Geliştiriliyor | **~1.7M örnek** | **NVIDIA A100** |

> **V5.6 ile ne değişecek?**
> - Eğitim verisi **~5.6x büyüyecek** (300K → 1.7M örnek)
> - A100'ün bellek ve hesaplama gücü sayesinde daha uzun bağlam ve daha derin öğrenme
> - Türkçe dil yetkinliği önemli ölçüde artacak
> - Beta etiketinin kaldırılması planlanmaktadır

---

## ⚠️ Sınırlamalar ve Önemli Notlar

- Bu model **beta aşamasındadır**; tutarsız veya hatalı yanıtlar üretebilir.
- Bağlam penceresi **1024 token** ile sınırlıdır.
- Model yalnızca **ön-eğitim (pre-training)** görmüştür; RLHF veya DPO gibi hizalama süreçleri uygulanmamıştır.
- Kritik, tıbbi, hukuki veya güvenlik gerektiren uygulamalarda kullanımı önerilmez.
- Model zaman zaman Türkçe yerine İngilizce yanıt verebilir.

---

## 📄 Lisans

Bu model **Apache 2.0** lisansı altında yayınlanmıştır. Ticari kullanım serbesttir, ancak modelin kaynağının belirtilmesi beklenir.

---

## 🙏 Teşekkürler

Bu modelin eğitiminde kullanılan veri setlerini açık kaynak olarak sunan tüm araştırmacılara ve topluluklara teşekkürler: HuggingFace, Turkish NLP Suite, Cosmopedia ekibi ve diğerleri.

---

*SykoSLM tarafından geliştirilmiştir. Sorularınız için bir Issue açabilirsiniz.*