berhaan commited on
Commit
992d00e
·
verified ·
1 Parent(s): 2ad10e9

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +48 -18
README.md CHANGED
@@ -1,8 +1,26 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
  # 🦜 Kumru-2B-CodeAlpaca (Turkish Code Generation Model)
2
 
3
  ## Model Summary
4
- **Kumru-2B-CodeAlpaca**, Türkçe kod üretimi görevleri için fine-tune edilmiş bir dil modelidir.
5
- Model, **vngrs-ai/Kumru-2B-Base** tabanlı olup **Turkish-CodeAlpaca-20k** veri kümesiyle
6
  **QLoRA** yöntemi (4-bit LoRA adaptasyonu) kullanılarak eğitilmiştir.
7
 
8
  Model, Türkçe komutlardan Python, SQL, HTML, PHP ve C gibi dillere kod üretebilir.
@@ -40,7 +58,7 @@ Model, Türkçe komutlardan Python, SQL, HTML, PHP ve C gibi dillere kod üreteb
40
  ## 📊 Evaluation Results
41
  (expected +30–50%)
42
 
43
- > Fine-tuned model, Türkçe kodlama görevlerinde taban modele göre belirgin gelişme göstermiştir.
44
  > Özellikle Python ve SQL örneklerinde daha kısa ve doğru fonksiyonlar üretmektedir.
45
 
46
  ---
@@ -59,34 +77,47 @@ model = AutoModelForCausalLM.from_pretrained(
59
  device_map="auto"
60
  )
61
 
 
62
  prompt = "Girilen sayının asal olup olmadığını kontrol eden bir Python fonksiyonu yaz. Yalnızca kodu döndür."
63
 
64
  inputs = tokenizer(prompt, return_tensors="pt", return_token_type_ids=False).to(model.device)
65
 
66
- # Modeldan token üret
67
  outputs = model.generate(
68
  **inputs,
69
- max_new_tokens=256,
70
- temperature=0.35,
71
- repetition_penalty=1.15, #
72
  no_repeat_ngram_size=5,
73
- do_sample=True,
74
- eos_token_id=tokenizer.eos_token_id
 
75
  )
 
76
  # Yalnızca üretilen yeni metni (prompt olmadan) decode et
77
  output_text = tokenizer.decode(outputs[0][inputs.input_ids.shape[1]:], skip_special_tokens=True)
78
  print("--- ÜRETİLEN KOD ---")
79
  print(output_text.strip())
80
- ```
81
- ---
82
 
 
 
 
 
 
 
 
 
 
 
 
 
 
83
  ## ⚖️ Limitations & Biases
84
  Kumru-2B-CodeAlpaca, Türkçe kod üretiminde oldukça başarılı olsa da aşağıdaki sınırlamalara dikkat edilmelidir:
85
 
86
- - **Dil Uyumu:** Model, yalnızca Türkçe açıklama ve talimatlar üzerinde eğitildiği için İngilizce promptlarda performansı düşebilir.
87
- - **Kod Tutarlılığı:** Uzun veya çok adımlı algoritmalarda bazen gereksiz tekrarlar veya fazladan çıktılar üretebilir.
88
- - **Çıktı Güvenliği:** Üretilen kodlar doğrudan çalıştırılmadan önce mutlaka gözden geçirilmelidir; çünkü mantıksal veya sözdizimsel hatalar oluşabilir.
89
- - **Yaratıcılık – Doğruluk Dengesi:** `temperature` parametresi yükseltildiğinde yaratıcı ama hatalı kodlar üretebilir.
90
 
91
  Model, profesyonel geliştiriciler için yardımcı araç olarak kullanılmalı, doğrudan üretim ortamlarında denetimsiz kullanılmamalıdır.
92
 
@@ -113,6 +144,5 @@ Eğitim süreci sırasında enerji verimliliği için karma hassasiyet (bfloat16
113
  author = {Berhan, A.},
114
  title = {Kumru-2B-CodeAlpaca: A Turkish Instruction-Tuned Code Generation Model},
115
  year = {2025},
116
- howpublished = {\url{https://huggingface.co/berhaan/kumru-2b-codealpaca}},
117
- }
118
-
 
1
+ ---
2
+ license: cc-by-4.0
3
+ language:
4
+ - tr
5
+ - en
6
+ datasets:
7
+ - berhaan/Turkish-CodeAlpaca-20k
8
+ base_model: vngrs-ai/Kumru-2B-Base
9
+ pipeline_tag: text-generation
10
+ tags:
11
+ - kumru
12
+ - mistral
13
+ - code-generation
14
+ - turkish
15
+ - qlora
16
+ library_name: transformers
17
+ ---
18
+
19
  # 🦜 Kumru-2B-CodeAlpaca (Turkish Code Generation Model)
20
 
21
  ## Model Summary
22
+ **Kumru-2B-CodeAlpaca**, Türkçe kod üretimi görevleri için fine-tune edilmiş bir dil modelidir.
23
+ Model, **vngrs-ai/Kumru-2B-Base** tabanlı olup **Turkish-CodeAlpaca-20k** veri kümesiyle
24
  **QLoRA** yöntemi (4-bit LoRA adaptasyonu) kullanılarak eğitilmiştir.
25
 
26
  Model, Türkçe komutlardan Python, SQL, HTML, PHP ve C gibi dillere kod üretebilir.
 
58
  ## 📊 Evaluation Results
59
  (expected +30–50%)
60
 
61
+ > Fine-tuned model, Türkçe kodlama görevlerinde taban modele göre belirgin gelişme göstermiştir.
62
  > Özellikle Python ve SQL örneklerinde daha kısa ve doğru fonksiyonlar üretmektedir.
63
 
64
  ---
 
77
  device_map="auto"
78
  )
79
 
80
+ # Testlerde başarılı olan "Asal Sayı Kontrolü" örneği
81
  prompt = "Girilen sayının asal olup olmadığını kontrol eden bir Python fonksiyonu yaz. Yalnızca kodu döndür."
82
 
83
  inputs = tokenizer(prompt, return_tensors="pt", return_token_type_ids=False).to(model.device)
84
 
85
+ # Modeldan token üret (Deterministik çıktı için do_sample=False)
86
  outputs = model.generate(
87
  **inputs,
88
+ max_new_tokens=128,
89
+ repetition_penalty=1.15,
 
90
  no_repeat_ngram_size=5,
91
+ do_sample=False, # Tutarlı (asal sayı) çıktısı almak için
92
+ eos_token_id=tokenizer.eos_token_id,
93
+ pad_token_id=tokenizer.pad_token_id
94
  )
95
+
96
  # Yalnızca üretilen yeni metni (prompt olmadan) decode et
97
  output_text = tokenizer.decode(outputs[0][inputs.input_ids.shape[1]:], skip_special_tokens=True)
98
  print("--- ÜRETİLEN KOD ---")
99
  print(output_text.strip())
 
 
100
 
101
+ """
102
+ ÖRNEK ÇIKTI (Deterministik mod):
103
+
104
+ --- ÜRETİLEN KOD ---
105
+ # Asal sayı kontrolü
106
+ def is_prime(num):
107
+ if num < 2:
108
+ return False
109
+ for i in range(2, int(num**0.5) + 1):
110
+ if num % i == 0:
111
+ return False
112
+ return True
113
+ """
114
  ## ⚖️ Limitations & Biases
115
  Kumru-2B-CodeAlpaca, Türkçe kod üretiminde oldukça başarılı olsa da aşağıdaki sınırlamalara dikkat edilmelidir:
116
 
117
+ - **Dil Uyumu:** Model, yalnızca Türkçe açıklama ve talimatlar üzerinde eğitildiği için İngilizce promptlarda performansı düşebilir.
118
+ - **Kod Tutarlılığı:** Uzun veya çok adımlı algoritmalarda bazen gereksiz tekrarlar veya fazladan çıktılar üretebilir.
119
+ - **Çıktı Güvenliği:** Üretilen kodlar doğrudan çalıştırılmadan önce mutlaka gözden geçirilmelidir; çünkü mantıksal veya sözdizimsel hatalar oluşabilir.
120
+ - **Yaratıcılık – Doğruluk Dengesi:** `temperature` parametresi yükseltildiğinde yaratıcı ama hatalı kodlar üretebilir.
121
 
122
  Model, profesyonel geliştiriciler için yardımcı araç olarak kullanılmalı, doğrudan üretim ortamlarında denetimsiz kullanılmamalıdır.
123
 
 
144
  author = {Berhan, A.},
145
  title = {Kumru-2B-CodeAlpaca: A Turkish Instruction-Tuned Code Generation Model},
146
  year = {2025},
147
+ howpublished = {\url{[https://huggingface.co/berhaan/kumru-2b-codealpaca](https://huggingface.co/berhaan/kumru-2b-codealpaca)}},
148
+ }