Jazari-4B-SFT-TR

Qwen3.5-4B tabanlı, Türkçe'ye adapte edilmiş 4B parametreli dil modeli.

Türkçe | English


Türkçe

Nedir?

Jazari, Qwen3.5-4B modelinin Türkçe'ye adapte edilmiş hâlidir:

  1. Devam Eden Ön-Eğitim (CPT): 674 MB Türkçe metin, 11.939 adım
  2. Denetimli İnce-Ayar (SFT): 73.182 örnek, 13 kategori, 9.600 adım

Tek bir RTX 5090 GPU'da (vast.ai), toplam ~75$ maliyetle, ~1 haftada eğitildi.

Gerçek Dünyada Kullanım: ailm Sistem İzleme

Jazari, ailm projesinde canlı olarak kullanılmaktadır — Linux sistem loglarını sınıflandırma, kök neden analizi ve aksiyon önerisi için.

ailm Entegrasyon Sonuçları (canlı sistem, 7/24):

Metrik Sonuç
JSON çıktı başarısı 70/70 (%100) — 20 farklı log + 50 tekrar testi
Determinizm %100 — aynı giriş = aynı çıktı (temperature=0)
Hız 1.2 saniye/event (gpt-oss:20b'den 11x hızlı)
VRAM 2.7 GB (gpt-oss:20b'nin 13 GB'sine karşı)
Kapsam Severity, action (restart/investigate/ignore), root cause

Not: Model kartı daha önce "JSON formatında patlıyor" diyordu. Yapılandırılmış prompt + temperature=0 ile bu sorun tamamen ortadan kalkmıştır. 70/70 başarısız JSON çıktısı yoktur.

Örnek ailm çıktıları:

Giriş: kernel: BUG: soft lockup - CPU#3 stuck for 22s!
Çıktı: {"severity": "critical", "action": "reboot",
        "summary": "init.scope: BUG: soft lockup - CPU#3 stuck for 22s!",
        "root_cause": "CPU soft lockup likely due to driver or hardware issue"}

Giriş: plasmashell[1234]: segfault at 0x0
Çıktı: {"severity": "critical", "action": "restart_service",
        "summary": "user@1000.service: segfault at 0x0 in libc.so.6",
        "root_cause": "Likely a memory corruption or library incompatibility"}

Giriş: Accepted publickey for mahsum from 100.64.0.1
Çıktı: {"severity": "info", "action": "ignore",
        "summary": "sshd.service: Accepted publickey for mahsum",
        "root_cause": "This is a normal authentication event"}

Benchmark Sonuçları

Türkçe Benchmark (360 soru)

Benchmark Açıklama Soru jazari qwen3.5:4b
TR-MMLU Türkçe bilgi (12 konu) 120 85.0% 80.0%
TR-ARC Türkçe bilim 50 98.0% 84.0%
TR-GSM8K Türkçe matematik 50 52.0% 66.0%
TR-TruthfulQA Yanlış bilgi tespiti 40 95.0% 52.5%
TR-HellaSwag Cümle tamamlama 40 97.5% 47.5%
TR-Winogrande Referans çözümleme 30 66.7% 43.3%
TR-Cultural Türk kültürü 30 76.7% 33.3%
Toplam 360 82.5% 65.0%

ailm JSON Sınıflandırma Benchmark (70 test)

Test Sonuç
20 farklı sistem logu 20/20 geçerli JSON
50 tekrar (determinizm) 50/50 aynı çıktı
Severity doğruluğu CRITICAL/WARNING/INFO doğru
Action doğruluğu restart_service/investigate/ignore doğru
Root cause Her event için açıklama
Karşılaştırma: gemma3:12b 0/4 JSON başarısı
Karşılaştırma: qwen3.5:4b 1/4 JSON başarısı
Karşılaştırma: gpt-oss:20b 4/4 ama 11x yavaş

Türkçe E-posta Sınıflandırma (50 gerçek iş e-postası, 11 kategori)

5.548 gerçek iş e-postasından rastgele seçilen 50 örnek üzerinde zero-shot test:

Sonuç Değer
Genel doğruluk %56 (28/50)
JSON formatı %100 (50/50 geçerli JSON)
Hız 0.6 saniye/mail

Kategori bazlı:

Kategori Tipi Doğruluk Not
Belirgin kalıplar (hukuki bildirimler, resmi yazışmalar) %100 Konu satırı yeterli ipucu veriyor
Orta karmaşıklık (finans, planlama) %60 İçerik analizi gerekiyor
Domain-spesifik (teknik terimler, sektörel jargon) %0-40 Fine-tune olmadan tanıyamıyor

Yorum: Model, genel e-posta kategorilerini iyi tanıyor ancak domain-spesifik sınıflandırma için ek eğitim (SFT) gerekir. JSON formatı her durumda başarılı — sorun sınıf bilgisinde, format disiplininde değil.

Bilinen Sınırlamalar

  1. Aşırı güven: "Bilmiyorum" demez, yanlış cevap uydurabilir
  2. Genel JSON: Serbest formda JSON üretimi tutarsız olabilir (yapılandırılmış prompt + temperature=0 ile sorun yok)
  3. Çeviri: Türkçe→İngilizce çeviride başarısız olabilir
  4. Matematik: TR-GSM8K'da base modelden zayıf (%52 vs %66)
  5. Domain-spesifik sınıflandırma: Eğitim verisinde olmayan sektörel kategorileri tanıyamıyor (zero-shot %56, fine-tune ile iyileştirilebilir)

Güçlü Yönleri

  • Türkçe akıcılık: Base Qwen3.5-4B'ye kıyasla daha doğal Türkçe
  • Kültürel bilgi: Türk deyimleri, atasözleri ve kültürel referanslar
  • Yapılandırılmış çıktı: Doğru prompt ile %100 JSON uyumluluğu (e-posta ve log sınıflandırmada kanıtlanmış)
  • Hız: 0.6-1.2 saniye/istek — gerçek zamanlı uygulamalara uygun
  • Verimlilik: 2.7 GB VRAM — tüketici GPU'larında çalışır
  • Üretimde kanıtlanmış: ailm'de 18 izleme kaynağı ile 7/24 çalışıyor

Kullanım

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("mahsum/jazari-4b-sft-tr")
tokenizer = AutoTokenizer.from_pretrained("mahsum/jazari-4b-sft-tr")

messages = [{"role": "user", "content": "Türkiye'nin başkenti neresidir?"}]
inputs = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt")
output = model.generate(inputs, max_new_tokens=256, temperature=0.7)
print(tokenizer.decode(output[0], skip_special_tokens=True))

Ollama ile

ollama run jazari-4b-sft

ailm ile (sistem izleme)

# ~/.config/ailm/config.toml
[llm]
model = "jazari-4b-sft"
timeout = 30

Gelecek Adımlar (v2 Yol Haritası)

  • 26 GB temizlenmiş Türkçe metin ile tam CPT (şu an sadece 674 MB)
  • Hizalama eğitimi (SimPO/GRPO)
  • Geliştirilmiş format disiplini ve talimat takibi
  • Belirsizlik kalibrasyonu ("Bilmiyorum" eğitimi)
  • Resmi Cetvel benchmark değerlendirmesi
  • Uç cihaz dağıtımı için GGUF nicelenmiş sürümler

English

What is this?

Jazari-4B-SFT-TR is a Qwen3.5-4B model adapted for Turkish through:

  1. Continued Pre-Training (CPT): 674 MB of Turkish text, 11,939 steps
  2. Supervised Fine-Tuning (SFT): 73,182 examples across 13 categories, 9,600 steps

Trained on a single RTX 5090 GPU (vast.ai) for ~$75 total cost in ~1 week.

Real-World Deployment: ailm System Monitor

Jazari is deployed in production as the classification engine for ailm, an AI-powered Linux system companion with 18 monitoring sources.

Live System Results (24/7 operation):

Metric Result
JSON output reliability 70/70 (100%) — 20 diverse logs + 50 determinism tests
Determinism 100% — same input = same output (temperature=0)
Speed 1.2s/event (11x faster than gpt-oss:20b)
VRAM 2.7 GB (vs 13 GB for gpt-oss:20b)
Coverage Severity, action (restart/investigate/ignore), root cause analysis

Note: The model card previously stated "Struggles with strict output formats." With a structured system prompt + temperature=0, JSON compliance is 100% across 70 tests. The key is prompt engineering, not model limitation.

Comparison with other models on ailm classification task:

Model Size Speed JSON Success Quality
jazari-4b-sft 4.5 GB 1.2s 100% Excellent
gpt-oss:20b 13 GB 13.2s 100% Excellent
gemma3:12b 8.1 GB 7.9s 0% Cannot produce JSON
qwen3.5:4b 3.4 GB 67.6s 25% Unreliable

Training Details

Parameter Value
Base Model Qwen/Qwen3.5-4B
CPT Data 674 MB Turkish text
SFT Data 73,182 examples (13 categories)
LoRA Rank CPT: r=128, SFT: r=64 (rsLoRA)
Framework Unsloth 2026.3.x + TRL 0.29.1
GPU NVIDIA RTX 5090 (32 GB VRAM)
Total Cost ~$75 (vast.ai)

Turkish Benchmark (360 questions)

Benchmark jazari qwen3.5:4b
TR-MMLU (knowledge) 85.0% 80.0%
TR-ARC (science) 98.0% 84.0%
TR-TruthfulQA 95.0% 52.5%
TR-HellaSwag 97.5% 47.5%
TR-Cultural 76.7% 33.3%
Overall (360q) 82.5% 65.0%

Turkish Email Classification (50 real business emails, 11 categories)

Zero-shot test on 50 randomly sampled emails from a 5,548-email business corpus:

Result Value
Overall accuracy 56% (28/50)
JSON format 100% (50/50 valid JSON)
Speed 0.6s/email
Category Type Accuracy Note
Clear patterns (legal notices, official correspondence) 100% Subject line provides sufficient signal
Medium complexity (finance, scheduling) 60% Requires content analysis
Domain-specific (technical jargon, industry terms) 0-40% Needs fine-tuning

JSON format is always correct — the issue is category knowledge, not format discipline. Domain-specific SFT would likely raise accuracy to 85%+.

Known Limitations

  1. Overconfidence: Rarely says "I don't know"
  2. Free-form JSON: Inconsistent without structured prompts (works perfectly with structured prompts + temperature=0)
  3. Translation: Cannot reliably translate Turkish to English
  4. Math: Weaker than base on TR-GSM8K (52% vs 66%)
  5. Domain-specific classification: Cannot recognize industry categories not in training data (zero-shot 56%, improvable with fine-tuning)

Strengths

  • Turkish fluency: Natural Turkish responses
  • Cultural knowledge: Turkish idioms, proverbs, cultural references
  • Structured output: 100% JSON compliance with proper prompting (proven in both email and log classification)
  • Speed: 0.6-1.2s/request — suitable for real-time applications
  • Efficiency: 2.7 GB VRAM — runs on consumer GPUs
  • Production-proven: Running 24/7 in ailm with 18 monitoring sources

Citation

@misc{aktas2026jazari,
  title={Jazari-4B-SFT-TR: Low-Budget Turkish Adaptation of Qwen3.5-4B},
  author={Aktas, Mahsum},
  year={2026},
  url={https://huggingface.co/mahsum/jazari-4b-sft-tr}
}

Acknowledgments


Jazari, robotik biliminin babası olarak kabul edilen Türk-Müslüman bilim insanı ve mühendis El-Cezerî'den (1136-1206) adını almıştır.

Jazari is named after Al-Jazari (1136-1206), the Turkish-Muslim polymath and engineer, often regarded as the father of robotics.

Downloads last month
618
Safetensors
Model size
5B params
Tensor type
F32
·
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for mahsum/jazari-4b-sft-tr

Finetuned
Qwen/Qwen3.5-4B
Finetuned
(90)
this model