Update README.md

891fafa verified 11 days ago

5.78 kB

	---
	language:
	- tr
	- en
	license: apache-2.0
	library_name: transformers
	tags:
	- causal-lm
	- turkish
	- phi3
	- llm
	- text-generation
	- pre-training
	- beta
	- syko
	pipeline_tag: text-generation
	base_model: SykoSLM/SykoLLM-V5.5-Beta
	model_type: phi3
	inference: true
	datasets:
	- uonlp/CulturaX
	- HuggingFaceTB/cosmopedia
	- roneneldan/TinyStories
	- nampdn-ai/tiny-textbooks
	- nampdn-ai/tiny-codes
	- ise-uiuc/Magicoder-Evol-Instruct-110K
	- theblackcat102/evol-codealpaca-v1
	- turkish-nlp-suite/InstrucTurca
	metrics:
	- perplexity
	---

	# 🧠 SykoLLM V5.5-Beta

	> ⚠️ Bu model hâlâ beta aşamasındadır. Üretim ortamında kullanmadan önce kapsamlı test yapmanız önerilir.

	SykoLLM V5.5-Beta, SykoLLM ailesinin şu ana kadar eğitilmiş en büyük dil modelidir. Phi-3 mimarisi üzerine inşa edilmiş olup Türkçe ve İngilizce metinler, kodlama veri setleri ve eğitici içerikler üzerinde ön-eğitimden (pre-training) geçirilmiştir.

	---

	## 📐 Model Mimarisi

	\| Özellik \| Değer \|
	\|---\|---\|
	\| Mimari \| Phi-3 (Causal LM) \|
	\| Toplam Parametre \| ~447 Milyon \|
	\| Gizli Katman Boyutu (`hidden_size`) \| 1024 \|
	\| Ara Katman Boyutu (`intermediate_size`) \| 3072 \|
	\| Dikkat Başlığı Sayısı (`num_attention_heads`) \| 8 \|
	\| Katman Sayısı (`num_hidden_layers`) \| 28 \|
	\| Kelime Hazinesi (`vocab_size`) \| 32.000 \|
	\| Bağlam Penceresi (`context_length`) \| 1024 token \|

	---

	## 📚 Eğitim Veri Setleri

	Model aşağıdaki 8 farklı veri seti üzerinde harmanlanarak (interleave) eğitilmiştir:

	\| Veri Seti \| İçerik Türü \| Dil \|
	\|---\|---\|---\|
	\| [uonlp/CulturaX](https://huggingface.co/datasets/uonlp/CulturaX) \| Genel web metinleri (tr bölümü) \| 🇹🇷 Türkçe \|
	\| [HuggingFaceTB/cosmopedia](https://huggingface.co/datasets/HuggingFaceTB/cosmopedia) \| Sentetik eğitici içerik \| 🇬🇧 İngilizce \|
	\| [roneneldan/TinyStories](https://huggingface.co/datasets/roneneldan/TinyStories) \| Kısa, sade hikayeler \| 🇬🇧 İngilizce \|
	\| [nampdn-ai/tiny-textbooks](https://huggingface.co/datasets/nampdn-ai/tiny-textbooks) \| Ders kitabı tarzı içerik \| 🇬🇧 İngilizce \|
	\| [nampdn-ai/tiny-codes](https://huggingface.co/datasets/nampdn-ai/tiny-codes) \| Kod örnekleri ve açıklamalar \| 💻 Çokdil \|
	\| [ise-uiuc/Magicoder-Evol-Instruct-110K](https://huggingface.co/datasets/ise-uiuc/Magicoder-Evol-Instruct-110K) \| Gelişmiş kodlama talimatları \| 💻 Çokdil \|
	\| [theblackcat102/evol-codealpaca-v1](https://huggingface.co/datasets/theblackcat102/evol-codealpaca-v1) \| Kodlama talimatları \| 💻 Çokdil \|
	\| [turkish-nlp-suite/InstrucTurca](https://huggingface.co/datasets/turkish-nlp-suite/InstrucTurca) \| Türkçe instruction/yanıt çiftleri \| 🇹🇷 Türkçe \|

	> Toplamda yaklaşık ~300.000 örnek ile eğitilmiştir.

	---

	## ⚙️ Eğitim Detayları

	\| Parametre \| Değer \|
	\|---\|---\|
	\| Kullanılan Donanım \| 2× NVIDIA Tesla T4 \|
	\| Eğitim Adımı \| 2300 steps \|
	\| Batch Boyutu (cihaz başına) \| 4 \|
	\| Gradyan Birikimi \| 16 (efektif batch: 64) \|
	\| Öğrenme Hızı \| 3e-4 \|
	\| LR Zamanlayıcı \| Cosine \|
	\| Isınma Adımı \| 200 \|
	\| Ağırlık Bozunması \| 0.05 \|
	\| Optimizatör \| AdamW (Fused) \|
	\| Gradyan Kırpma \| 1.0 \|
	\| Çerçeve \| HuggingFace Transformers + Trainer \|

	---

	## 🚀 Kullanım

	```python
	from transformers import AutoModelForCausalLM, AutoTokenizer
	import torch

	model_id = "SykoSLM/SykoLLM-V5.5-Beta"

	tokenizer = AutoTokenizer.from_pretrained(model_id)
	model = AutoModelForCausalLM.from_pretrained(
	model_id,
	torch_dtype=torch.bfloat16,
	device_map="auto"
	)

	# Sohbet formatı
	prompt = "<\|user\|>\nMerhaba! Nasılsın?<\|end\|>\n<\|assistant\|>\n"

	inputs = tokenizer(prompt, return_tensors="pt").to(model.device)

	with torch.no_grad():
	outputs = model.generate(
	**inputs,
	max_new_tokens=256,
	do_sample=True,
	temperature=0.7,
	top_p=0.9,
	repetition_penalty=1.1
	)

	response = tokenizer.decode(outputs[0], skip_special_tokens=True)
	print(response)
	```

	### Sohbet Şablonu

	Model aşağıdaki özel token formatıyla eğitilmiştir:

	```
	<\|user\|>
	Kullanıcı mesajı burada<\|end\|>
	<\|assistant\|>
	Modelin yanıtı burada<\|end\|>
	```

	---

	## 🗺️ SykoLLM Ailesi Yol Haritası

	\| Versiyon \| Durum \| Veri Miktarı \| Donanım \|
	\|---\|---\|---\|---\|
	\| SykoLLM V5.5-Beta \| ✅ Yayında (Beta) \| ~300K örnek \| 2× T4 \|
	\| SykoLLM V5.6 \| 🔜 Geliştiriliyor \| ~1.7M örnek \| NVIDIA A100 \|

	> V5.6 ile ne değişecek?
	> - Eğitim verisi ~5.6x büyüyecek (300K → 1.7M örnek)
	> - A100'ün bellek ve hesaplama gücü sayesinde daha uzun bağlam ve daha derin öğrenme
	> - Türkçe dil yetkinliği önemli ölçüde artacak
	> - Beta etiketinin kaldırılması planlanmaktadır

	---

	## ⚠️ Sınırlamalar ve Önemli Notlar

	- Bu model beta aşamasındadır; tutarsız veya hatalı yanıtlar üretebilir.
	- Bağlam penceresi 1024 token ile sınırlıdır.
	- Model yalnızca ön-eğitim (pre-training) görmüştür; RLHF veya DPO gibi hizalama süreçleri uygulanmamıştır.
	- Kritik, tıbbi, hukuki veya güvenlik gerektiren uygulamalarda kullanımı önerilmez.
	- Model zaman zaman Türkçe yerine İngilizce yanıt verebilir.

	---

	## 📄 Lisans

	Bu model Apache 2.0 lisansı altında yayınlanmıştır. Ticari kullanım serbesttir, ancak modelin kaynağının belirtilmesi beklenir.

	---

	## 🙏 Teşekkürler

	Bu modelin eğitiminde kullanılan veri setlerini açık kaynak olarak sunan tüm araştırmacılara ve topluluklara teşekkürler: HuggingFace, Turkish NLP Suite, Cosmopedia ekibi ve diğerleri.

	---

	SykoSLM tarafından geliştirilmiştir. Sorularınız için bir Issue açabilirsiniz.