syko818121
/

SykoLLM-V4.7-CodeX-Beta

Text Generation

Model card Files Files and versions

SykoLLM-V4.7-CodeX-Beta / README.md

syko818121's picture

Update README.md

4d2e215 verified 6 days ago

|

history blame contribute delete

3.13 kB

	---
	language:
	- tr
	tags:
	- code
	- llama
	- coding
	- text-generation
	datasets:
	- theblackcat102/evol-codealpaca-v1
	- ise-uiuc/Magicoder-Evol-Instruct-110K
	- nampdn-ai/tiny-codes
	- turkish-nlp-suite/InstrucTurca
	license: apache-2.0
	---

	# SykoLLM-V4.7-CodeX-Beta

	SykoLLM-V4.7-CodeX-Beta, kodlama ve yazılım geliştirme görevleri için eğitilmiş, Llama mimarisini temel alan kompakt bir dil modelidir. Bu model, çeşitli kodlama veri setleri üzerinde ince ayar (fine-tuning) yapılarak geliştirilmiştir.

	Hugging Face Repo ID: `syko818121/SykoLLM-V4.7-CodeX-Beta`

	## ⚠️ Önemli Uyarı (Beta Sürümü)
	Bu model şu anda BETA aşamasındadır.
	* Henüz resmi benchmark (kıyaslama) testlerinden geçirilmemiştir.
	* Şu anki performansı yalnızca manuel testlere dayanmaktadır.
	* Geliştirme aşamasında olduğu için kod üretirken hatalar yapabilir, halüsinasyon görebilir veya beklenmedik çıktılar verebilir. Lütfen kritik sistemlerde kullanmadan önce çıktıları her zaman kontrol edin!

	## Model Detayları
	Modelin temel yapılandırma (config) özellikleri şunlardır:
	* Mimari: LlamaForCausalLM
	* Gizli Boyut (Hidden Size): 1024
	* Katman Sayısı (Hidden Layers): 20
	* Dikkat Başlıkları (Attention Heads): 8
	* Maksimum Bağlam (Context Window): 1024 token
	* Sözlük Boyutu (Vocab Size): 32,000

	## Eğitim Veri Setleri
	Bu modelin kodlama yeteneklerini geliştirmek için aşağıdaki popüler açık kaynaklı veri setleri kullanılmıştır:
	1. [`theblackcat102/evol-codealpaca-v1`](https://huggingface.co/datasets/theblackcat102/evol-codealpaca-v1)
	2. [`ise-uiuc/Magicoder-Evol-Instruct-110K`](https://huggingface.co/datasets/ise-uiuc/Magicoder-Evol-Instruct-110K)
	3. [`nampdn-ai/tiny-codes`](https://huggingface.co/datasets/nampdn-ai/tiny-codes)

	## Nasıl Kullanılır?

	Modeli `transformers` kütüphanesi ile kolayca projenize dahil edebilirsiniz:

	```python
	from transformers import AutoModelForCausalLM, AutoTokenizer
	import torch

	# Modelin repo adı
	model_id = "syko818121/SykoLLM-V4.7-CodeX-Beta"

	# Tokenizer ve Modeli yükleme
	tokenizer = AutoTokenizer.from_pretrained(model_id)
	model = AutoModelForCausalLM.from_pretrained(
	model_id,
	torch_dtype=torch.bfloat16,
	device_map="auto"
	)

	# Test metni
	user_message = "Python'da bir liste oluştur."

	# Llama 3 orijinal chat template'inin manuel olarak eklenmesi
	# user ve assistant rolleri ile special token'lar korundu
	prompt = (
	f"<\|begin_of_text\|><\|start_header_id\|>user<\|end_header_id\|>\n\n"
	f"{user_message}<\|eot_id\|><\|start_header_id\|>assistant<\|end_header_id\|>\n\n"
	)

	inputs = tokenizer(prompt, return_tensors="pt").to(model.device)

	# Metin üretimi
	outputs = model.generate(
	**inputs,
	max_new_tokens=100,
	temperature=0.15,
	top_p=0.9,
	early_stopping=True,
	repetition_penalty=1.16,
	do_sample=False
	)

	# Çıktıyı decode etme
	response = tokenizer.decode(outputs[0], skip_special_tokens=True)

	# Sadece asistanın verdiği cevabı temiz bir şekilde alma
	final_response = response.split("assistant\n\n")[-1].strip()

	print(final_response)