File size: 3,132 Bytes
179e6b7
d646937
1aa1593
d646937
 
 
 
 
179e6b7
 
d646937
 
4d2e215
1aa1593
d646937
 
1aa1593
d646937
 
 
 
 
 
 
 
 
 
 
1aa1593
d646937
 
 
 
 
 
 
 
1aa1593
d646937
 
 
 
 
1aa1593
d646937
 
 
 
 
052ada0
d646937
052ada0
d646937
 
052ada0
d646937
052ada0
 
 
 
 
d646937
052ada0
fc1d2fd
d646937
052ada0
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
4d2e215
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
---
language:
- tr
tags:
- code
- llama
- coding
- text-generation
datasets:
- theblackcat102/evol-codealpaca-v1
- ise-uiuc/Magicoder-Evol-Instruct-110K
- nampdn-ai/tiny-codes
- turkish-nlp-suite/InstrucTurca
license: apache-2.0
---

# SykoLLM-V4.7-CodeX-Beta 

**SykoLLM-V4.7-CodeX-Beta**, kodlama ve yazılım geliştirme görevleri için eğitilmiş, Llama mimarisini temel alan kompakt bir dil modelidir. Bu model, çeşitli kodlama veri setleri üzerinde ince ayar (fine-tuning) yapılarak geliştirilmiştir.

**Hugging Face Repo ID:** `syko818121/SykoLLM-V4.7-CodeX-Beta`

## ⚠️ Önemli Uyarı (Beta Sürümü)
Bu model şu anda **BETA** aşamasındadır. 
* Henüz resmi benchmark (kıyaslama) testlerinden geçirilmemiştir. 
* Şu anki performansı yalnızca manuel testlere dayanmaktadır.
* Geliştirme aşamasında olduğu için kod üretirken hatalar yapabilir, halüsinasyon görebilir veya beklenmedik çıktılar verebilir. Lütfen kritik sistemlerde kullanmadan önce çıktıları her zaman kontrol edin!

## Model Detayları
Modelin temel yapılandırma (config) özellikleri şunlardır:
* **Mimari:** LlamaForCausalLM
* **Gizli Boyut (Hidden Size):** 1024
* **Katman Sayısı (Hidden Layers):** 20
* **Dikkat Başlıkları (Attention Heads):** 8
* **Maksimum Bağlam (Context Window):** 1024 token
* **Sözlük Boyutu (Vocab Size):** 32,000

##  Eğitim Veri Setleri
Bu modelin kodlama yeteneklerini geliştirmek için aşağıdaki popüler açık kaynaklı veri setleri kullanılmıştır:
1. [`theblackcat102/evol-codealpaca-v1`](https://huggingface.co/datasets/theblackcat102/evol-codealpaca-v1)
2. [`ise-uiuc/Magicoder-Evol-Instruct-110K`](https://huggingface.co/datasets/ise-uiuc/Magicoder-Evol-Instruct-110K)
3. [`nampdn-ai/tiny-codes`](https://huggingface.co/datasets/nampdn-ai/tiny-codes)

##  Nasıl Kullanılır?

Modeli `transformers` kütüphanesi ile kolayca projenize dahil edebilirsiniz:

```python
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

# Modelin repo adı
model_id = "syko818121/SykoLLM-V4.7-CodeX-Beta"

# Tokenizer ve Modeli yükleme
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id, 
    torch_dtype=torch.bfloat16, 
    device_map="auto"
)

# Test metni
user_message = "Python'da bir liste oluştur."

# Llama 3 orijinal chat template'inin manuel olarak eklenmesi
# user ve assistant rolleri ile special token'lar korundu
prompt = (
    f"<|begin_of_text|><|start_header_id|>user<|end_header_id|>\n\n"
    f"{user_message}<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n"
)

inputs = tokenizer(prompt, return_tensors="pt").to(model.device)

# Metin üretimi
outputs = model.generate(
    **inputs, 
    max_new_tokens=100, 
    temperature=0.15, 
    top_p=0.9,
    early_stopping=True,
    repetition_penalty=1.16,
    do_sample=False
)

# Çıktıyı decode etme
response = tokenizer.decode(outputs[0], skip_special_tokens=True)

# Sadece asistanın verdiği cevabı temiz bir şekilde alma
final_response = response.split("assistant\n\n")[-1].strip()

print(final_response)