SykoSLM commited on
Commit
6681399
·
verified ·
1 Parent(s): a73ae90

Create README.md

Browse files
Files changed (1) hide show
  1. README.md +94 -0
README.md ADDED
@@ -0,0 +1,94 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: apache-2.0
3
+ language:
4
+ - tr
5
+ - en
6
+ pipeline_tag: text-generation
7
+ library_name: transformers
8
+ tags:
9
+ - text-generation
10
+ - causal-lm
11
+ - custom-tokenizer
12
+ - experimental
13
+ - from-scratch
14
+ datasets:
15
+ - uonlp/CulturaX
16
+ - HuggingFaceTB/cosmopedia
17
+ - roneneldan/TinyStories
18
+ - nampdn-ai/tiny-textbooks
19
+ - nampdn-ai/tiny-codes
20
+ - ise-uiuc/Magicoder-Evol-Instruct-110K
21
+ - theblackcat102/evol-codealpaca-v1
22
+ - turkish-nlp-suite/InstrucTurca
23
+ ---
24
+
25
+ # SykoLLM Phi-3 Mini (233M) - Experimental
26
+
27
+ > **⚠️ Uyarı / Disclaimer:** Bu model şu anda aktif bir **test ve araştırma aşamasındadır**. Temel amacı, yeni nesil **Phi-3** mimarisinin yeteneklerini sıfırdan eğitilmiş (trained from scratch) bir yapıyla küçük ölçekte test etmektir. Üretime (production) hazır bir model değildir; halüsinasyon görebilir, mantıksal hatalar yapabilir veya beklenmedik yanıtlar verebilir.
28
+
29
+ ## Model Özeti (Model Description)
30
+ Bu model, Microsoft'un **Phi-3** mimarisi temel alınarak sıfırdan eğitilmiş **233 Milyon** parametreli, deneysel bir dil modelidir. Hem **İngilizce** hem de **Türkçe** dillerinde genel bilgi, kodlama yeteneği ve mantıksal yürütme kapasitesini ölçmek amacıyla çeşitli yüksek kaliteli veri setleri harmanlanarak eğitilmiştir.
31
+
32
+ Ayrıca model için `BPE` (Byte-Pair Encoding) tabanlı **özel bir tokenizer** sıfırdan eğitilip kullanılmıştır.
33
+
34
+ ## Model Mimarisi (Architecture Details)
35
+ Model, daha kompakt bir konfigürasyonda tasarlanmış olup standart bir Phi-3 yapısına dayanır:
36
+ * **Mimari Türü:** `Phi3ForCausalLM`
37
+ * **Parametre Sayısı:** ~233M
38
+ * **Gömme Boyutu (Hidden Size):** 768
39
+ * **Ara Katman Boyutu (Intermediate Size):** 2304
40
+ * **Katman Sayısı (Hidden Layers):** 26
41
+ * **Dikkat Başlıkları (Attention Heads):** 12
42
+ * **Bağlam Penceresi (Context Size):** 1024 Token
43
+ * **Sözlük Boyutu (Vocab Size):** 32,000
44
+
45
+ ## Eğitim Verisi (Training Data)
46
+ Eğitim verisi, modelin çok yönlü olabilmesi için özenle seçilmiş, yapay zeka kalıntıları (AI-robots) temizlenmiş ve filtrelenmiş şu veri setlerinden oluşmaktadır:
47
+
48
+ **1. Genel Bilgi ve Mantık (İngilizce):**
49
+ * `HuggingFaceTB/cosmopedia` (Math, KhanAcademy, OpenStax, Stanford vb.)
50
+ * `roneneldan/TinyStories`
51
+ * `nampdn-ai/tiny-textbooks`
52
+
53
+ **2. Kodlama ve Talimat (Coding & Instruct):**
54
+ * `nampdn-ai/tiny-codes`
55
+ * `ise-uiuc/Magicoder-Evol-Instruct-110K`
56
+ * `theblackcat102/evol-codealpaca-v1`
57
+
58
+ **3. Türkçe Veriler (Turkish NLP):**
59
+ * `uonlp/CulturaX` (Türkçe alt kümesi, CJK ve gürültü temizlenmiş)
60
+ * `turkish-nlp-suite/InstrucTurca`
61
+
62
+ ## Eğitim Konfigürasyonu (Training Procedure)
63
+ * **Optimizasyon:** 8-bit AdamW (`adamw_bnb_8bit`)
64
+ * **Öğrenme Oranı (Learning Rate):** 3e-4 (Cosine Scheduler ile)
65
+ * **Hassasiyet (Precision):** FP16
66
+ * **Max Adım Sayısı (Steps):** 6000
67
+ * **Ağırlık Azalması (Weight Decay):** 0.05
68
+
69
+ ## Örnek Kullanım (How to Use)
70
+ Modeli test etmek için aşağıdaki Python kodunu kullanabilirsiniz. `trust_remote_code=True` parametresinin ekli olduğundan emin olun.
71
+
72
+ ```python
73
+ from transformers import AutoModelForCausalLM, AutoTokenizer
74
+ import torch
75
+
76
+ model_id = "SykoSLM/SykoLLM-V4.9-Beta"
77
+
78
+ # Modeli ve Tokenizer'ı yükle
79
+ tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)
80
+ model = AutoModelForCausalLM.from_pretrained(model_id, trust_remote_code=True, device_map="auto")
81
+
82
+ prompt = "<|user|>\nPython ile bir 'Hello World' yaz.\n<|end|>\n<|assistant|>\n"
83
+ inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
84
+
85
+ outputs = model.generate(
86
+ **inputs,
87
+ max_new_tokens=100,
88
+ temperature=0.7,
89
+ do_sample=True,
90
+ eos_token_id=tokenizer.eos_token_id,
91
+ pad_token_id=tokenizer.pad_token_id
92
+ )
93
+
94
+ print(tokenizer.decode(outputs[0], skip_special_tokens=True))