| --- |
| language: |
| - tr |
| - en |
| license: apache-2.0 |
| library_name: transformers |
| tags: |
| - causal-lm |
| - turkish |
| - phi3 |
| - llm |
| - text-generation |
| - pre-training |
| - beta |
| - syko |
| pipeline_tag: text-generation |
| base_model: SykoSLM/SykoLLM-V5.5-Beta |
| model_type: phi3 |
| inference: true |
| datasets: |
| - uonlp/CulturaX |
| - HuggingFaceTB/cosmopedia |
| - roneneldan/TinyStories |
| - nampdn-ai/tiny-textbooks |
| - nampdn-ai/tiny-codes |
| - ise-uiuc/Magicoder-Evol-Instruct-110K |
| - theblackcat102/evol-codealpaca-v1 |
| - turkish-nlp-suite/InstrucTurca |
| metrics: |
| - perplexity |
| --- |
| |
| # 🧠 SykoLLM V5.5-Beta |
|
|
| > ⚠️ **Bu model hâlâ beta aşamasındadır.** Üretim ortamında kullanmadan önce kapsamlı test yapmanız önerilir. |
|
|
| **SykoLLM V5.5-Beta**, SykoLLM ailesinin şu ana kadar eğitilmiş **en büyük dil modelidir.** Phi-3 mimarisi üzerine inşa edilmiş olup Türkçe ve İngilizce metinler, kodlama veri setleri ve eğitici içerikler üzerinde ön-eğitimden (pre-training) geçirilmiştir. |
|
|
| --- |
|
|
| ## 📐 Model Mimarisi |
|
|
| | Özellik | Değer | |
| |---|---| |
| | **Mimari** | Phi-3 (Causal LM) | |
| | **Toplam Parametre** | ~447 Milyon | |
| | **Gizli Katman Boyutu** (`hidden_size`) | 1024 | |
| | **Ara Katman Boyutu** (`intermediate_size`) | 3072 | |
| | **Dikkat Başlığı Sayısı** (`num_attention_heads`) | 8 | |
| | **Katman Sayısı** (`num_hidden_layers`) | 28 | |
| | **Kelime Hazinesi** (`vocab_size`) | 32.000 | |
| | **Bağlam Penceresi** (`context_length`) | 1024 token | |
|
|
| --- |
|
|
| ## 📚 Eğitim Veri Setleri |
|
|
| Model aşağıdaki 8 farklı veri seti üzerinde harmanlanarak (interleave) eğitilmiştir: |
|
|
| | Veri Seti | İçerik Türü | Dil | |
| |---|---|---| |
| | [uonlp/CulturaX](https://huggingface.co/datasets/uonlp/CulturaX) | Genel web metinleri (tr bölümü) | 🇹🇷 Türkçe | |
| | [HuggingFaceTB/cosmopedia](https://huggingface.co/datasets/HuggingFaceTB/cosmopedia) | Sentetik eğitici içerik | 🇬🇧 İngilizce | |
| | [roneneldan/TinyStories](https://huggingface.co/datasets/roneneldan/TinyStories) | Kısa, sade hikayeler | 🇬🇧 İngilizce | |
| | [nampdn-ai/tiny-textbooks](https://huggingface.co/datasets/nampdn-ai/tiny-textbooks) | Ders kitabı tarzı içerik | 🇬🇧 İngilizce | |
| | [nampdn-ai/tiny-codes](https://huggingface.co/datasets/nampdn-ai/tiny-codes) | Kod örnekleri ve açıklamalar | 💻 Çokdil | |
| | [ise-uiuc/Magicoder-Evol-Instruct-110K](https://huggingface.co/datasets/ise-uiuc/Magicoder-Evol-Instruct-110K) | Gelişmiş kodlama talimatları | 💻 Çokdil | |
| | [theblackcat102/evol-codealpaca-v1](https://huggingface.co/datasets/theblackcat102/evol-codealpaca-v1) | Kodlama talimatları | 💻 Çokdil | |
| | [turkish-nlp-suite/InstrucTurca](https://huggingface.co/datasets/turkish-nlp-suite/InstrucTurca) | Türkçe instruction/yanıt çiftleri | 🇹🇷 Türkçe | |
|
|
| > Toplamda yaklaşık **~300.000 örnek** ile eğitilmiştir. |
|
|
| --- |
|
|
| ## ⚙️ Eğitim Detayları |
|
|
| | Parametre | Değer | |
| |---|---| |
| | **Kullanılan Donanım** | 2× NVIDIA Tesla T4 | |
| | **Eğitim Adımı** | 2300 steps | |
| | **Batch Boyutu (cihaz başına)** | 4 | |
| | **Gradyan Birikimi** | 16 (efektif batch: 64) | |
| | **Öğrenme Hızı** | 3e-4 | |
| | **LR Zamanlayıcı** | Cosine | |
| | **Isınma Adımı** | 200 | |
| | **Ağırlık Bozunması** | 0.05 | |
| | **Optimizatör** | AdamW (Fused) | |
| | **Gradyan Kırpma** | 1.0 | |
| | **Çerçeve** | HuggingFace Transformers + Trainer | |
|
|
| --- |
|
|
| ## 🚀 Kullanım |
|
|
| ```python |
| from transformers import AutoModelForCausalLM, AutoTokenizer |
| import torch |
| |
| model_id = "SykoSLM/SykoLLM-V5.5-Beta" |
| |
| tokenizer = AutoTokenizer.from_pretrained(model_id) |
| model = AutoModelForCausalLM.from_pretrained( |
| model_id, |
| torch_dtype=torch.bfloat16, |
| device_map="auto" |
| ) |
| |
| # Sohbet formatı |
| prompt = "<|user|>\nMerhaba! Nasılsın?<|end|>\n<|assistant|>\n" |
| |
| inputs = tokenizer(prompt, return_tensors="pt").to(model.device) |
| |
| with torch.no_grad(): |
| outputs = model.generate( |
| **inputs, |
| max_new_tokens=256, |
| do_sample=True, |
| temperature=0.7, |
| top_p=0.9, |
| repetition_penalty=1.1 |
| ) |
| |
| response = tokenizer.decode(outputs[0], skip_special_tokens=True) |
| print(response) |
| ``` |
|
|
| ### Sohbet Şablonu |
|
|
| Model aşağıdaki özel token formatıyla eğitilmiştir: |
|
|
| ``` |
| <|user|> |
| Kullanıcı mesajı burada<|end|> |
| <|assistant|> |
| Modelin yanıtı burada<|end|> |
| ``` |
|
|
| --- |
|
|
| ## 🗺️ SykoLLM Ailesi Yol Haritası |
|
|
| | Versiyon | Durum | Veri Miktarı | Donanım | |
| |---|---|---|---| |
| | SykoLLM V5.5-Beta | ✅ Yayında (Beta) | ~300K örnek | 2× T4 | |
| | **SykoLLM V5.6** | 🔜 Geliştiriliyor | **~1.7M örnek** | **NVIDIA A100** | |
|
|
| > **V5.6 ile ne değişecek?** |
| > - Eğitim verisi **~5.6x büyüyecek** (300K → 1.7M örnek) |
| > - A100'ün bellek ve hesaplama gücü sayesinde daha uzun bağlam ve daha derin öğrenme |
| > - Türkçe dil yetkinliği önemli ölçüde artacak |
| > - Beta etiketinin kaldırılması planlanmaktadır |
|
|
| --- |
|
|
| ## ⚠️ Sınırlamalar ve Önemli Notlar |
|
|
| - Bu model **beta aşamasındadır**; tutarsız veya hatalı yanıtlar üretebilir. |
| - Bağlam penceresi **1024 token** ile sınırlıdır. |
| - Model yalnızca **ön-eğitim (pre-training)** görmüştür; RLHF veya DPO gibi hizalama süreçleri uygulanmamıştır. |
| - Kritik, tıbbi, hukuki veya güvenlik gerektiren uygulamalarda kullanımı önerilmez. |
| - Model zaman zaman Türkçe yerine İngilizce yanıt verebilir. |
|
|
| --- |
|
|
| ## 📄 Lisans |
|
|
| Bu model **Apache 2.0** lisansı altında yayınlanmıştır. Ticari kullanım serbesttir, ancak modelin kaynağının belirtilmesi beklenir. |
|
|
| --- |
|
|
| ## 🙏 Teşekkürler |
|
|
| Bu modelin eğitiminde kullanılan veri setlerini açık kaynak olarak sunan tüm araştırmacılara ve topluluklara teşekkürler: HuggingFace, Turkish NLP Suite, Cosmopedia ekibi ve diğerleri. |
|
|
| --- |
|
|
| *SykoSLM tarafından geliştirilmiştir. Sorularınız için bir Issue açabilirsiniz.* |