SykoSLM
/

SykoLLM-V3.3-Beta-NonTrained

Text Generation

text-generation-inference

Model card Files Files and versions

SykoLLM-V3.3-Beta-NonTrained / README.md

burak

Update README.md

58f717c verified 2 months ago

|

history blame contribute delete

1.79 kB

	---
	language:
	- tr
	library_name: transformers
	tags:
	- llama-3
	- turkish
	- NonTrained
	- 1.5b
	license: apache-2.0
	---

	# SykoLLM-V3.3-Beta (Non-Trained) 🇹🇷

	Bu repo, SykoLLM V3.3 sürümünün eğitim öncesi (randomly initialized) iskelet modelini içerir. Model Llama 3 mimarisi üzerine inşa edilmiştir ve özellikle Türkçe dil yetenekleri için optimize edilecek şekilde tasarlanmıştır.

	🚨 DİKKAT: Bu model henüz EĞİTİLMEMİŞTİR (Untrained). Ağırlıkları rastgeledir. Şu haliyle anlamlı cevaplar veremez. Pre-training (CulturaX veri seti ile) süreci yakında başlayacaktır.

	## Model Mimarisi ve Özellikler

	Bu model, standart Llama 3 mimarisini takip eder ancak 1.5 Milyar parametre sınıfına uyarlanmıştır.

	\| Özellik \| Değer \| Açıklama \|
	\| :--- \| :--- \| :--- \|
	\| Parametre Sayısı \| ~1.61 Milyar \| Giriş seviyesi LLM için ideal denge \|
	\| Context Size \| 8K (8192) \| Uzun metinleri anlama kapasitesi \|
	\| Vocab Size \| 128k \| Llama 3 Tokenizer (Zengin Türkçe desteği) \|
	\| Hidden Size \| 2048 \| Model genişliği \|
	\| Layers \| 24 \| Katman sayısı \|
	\| GQA \| Var \| Grouped Query Attention (Daha hızlı inference) \|

	## Yol Haritası 🗺️

	- [x] Model mimarisinin belirlenmesi (Llama 3 tabanlı 1.5B)
	- [x] Hugging Face reposunun oluşturulması
	- [ ] Pre-training: uonlp/CulturaX veri seti ile A100 GPU üzerinde eğitim
	- [ ] Fine-tuning: Türkçe talimat (instruct) veri setleri ile ince ayar

	## Geliştirici Notu
	Ben Burak (15), bu model üzerinde sıfırdan model eğitimi deneyimleri yapıyorum. Önceki V3.2 (320M) modelimden elde ettiğim tecrübeleri, şimdi A100 donanımı ve modern Llama 3 mimarisi ile birleştirerek 1.5B seviyesine taşıyorum.

	---
	Geliştirici: syko818121