File size: 2,877 Bytes
97c441f
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
37170da
 
 
 
f589b17
37170da
97c441f
 
 
37170da
97c441f
 
 
 
 
 
 
 
37170da
97c441f
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
---
language:
- tr
- en
license: apache-2.0
tags:
- causal-lm
- custom-architecture
- turkish
- english
- syko
base-model: null
pipeline-tag: text-generation
---

# SykoLLM — Untrained Architecture

> ⚠️ Bu model henüz eğitilmemiştir. Mimari oluşturulmuş ve ağırlıklar rastgele initialize edilmiştir.

---

## Nedir?

SykoLLM, sıfırdan tasarlanmış özgün bir Türkçe/İngilizce dil modeli mimarisidir.  
Phi-3 veya Llama gibi mevcut mimariler temel alınmamış, tüm bileşenler baştan yazılmıştır.  
Bu repo mimarinin başlangıç noktasıdır — eğitim süreci bu temel üzerinden devam edecektir.

---

## Mimari

| Parametre | Değer |
|---|---|
| Vocab Size | 32,000 |
| Hidden Size | 768 |
| Num Hidden Layers | 24 |
| Num Attention Heads | 6 |
| Intermediate Size | 3,072 |
| Max Position Embeddings | 2,048 |
| Attention | Scaled Dot-Product (SDPA) |
| Positional Encoding | RoPE |
| Normalization | RMSNorm |
| Activation | SwiGLU |

---

## Tokenizer

Özel eğitilmiş BPE tokenizer. CulturaX Türkçe + İngilizce corpus'u kullanılarak eğitilmiştir.  
Byte-level fallback sayesinde OOV (out of vocabulary) sorunu yoktur.  
Türkçe karakterler (`ğ ü ş ı ö ç İ Ğ Ü Ş Ö Ç`) tam desteklenmektedir.

### Special Tokens

| Token | ID | Açıklama |
|---|---|---|
| `<pad>` | 0 | Padding |
| `<bos>` | 1 | Sequence başlangıcı |
| `<eos>` | 2 | Sequence sonu |
| `<unk>` | 3 | Bilinmeyen token |
| `<sep>` | 4 | Segment ayırıcı |
| `<cls>` | 5 | Classification token |
| `<mask>` | 6 | Mask token |
| `<sys>` / `</sys>` | 7 / 8 | Sistem promptu |
| `<user>` / `</user>` | 9 / 10 | Kullanıcı mesajı |
| `<assistant>` / `</assistant>` | 11 / 12 | Asistan cevabı |
| `<tr>` / `<en>` | 13 / 14 | Dil etiketleri |
| `<think>` / `</think>` | 15 / 16 | Düşünce zinciri |
| `<code>` / `</code>` | 17 / 18 | Kod bloğu |

---

## Kurulum Öncesi Hazırlık

Syko mimarisi Transformers'a kayıtlı olmadığı için, modeli çalıştırmak kendi özel kütüphanemi indirmeniz gerekmektedir. Kütüphane şu:

`!pip install syko-llm`

## Kullanım

```python
!pip install syko-llm
import sys
sys.path.insert(0, ".")
from transformers import AutoTokenizer

# Tokenizer
tokenizer = AutoTokenizer.from_pretrained("SykoSLM/SykoLLM-UnTrained")

# Model (syko_model.py gereklidir)
from syko import SykoConfig, SykoCausalLM
config = SykoConfig.from_pretrained("SykoSLM/SykoLLM-UnTrained")
model = SykoCausalLM(config)
```

---

## Yol Haritası

- [x] Mimari tasarımı (RoPE, RMSNorm, SwiGLU, SDPA)
- [x] HuggingFace uyumlu altyapı (save/load, generate, Trainer)
- [x] Özel BPE tokenizer eğitimi (TR + EN)
- [ ] Ön eğitim (pre-training)
- [ ] İnce ayar (fine-tuning)
- [ ] Değerlendirme (evaluation)

---

## Geliştirici

**Burak** — [@SykoAI](https://huggingface.co/SykoSLM)  
Bağımsız geliştirici, Türkiye 🇹🇷