alibayram/magibu-11b-v8-mlx

This model was converted to MLX format from alibayram/magibu-11b-v8-mlx using mlx-vlm version 0.3.11. Refer to the original model card for more details on the model.

Use with mlx

pip install -U mlx-vlm

python -m mlx_vlm.generate --model alibayram/magibu-11b-v8-mlx --max-tokens 100 --temperature 0.0 --prompt "Describe this image." --image <path_to_image>

🧿 Magibu-11b-v0.8

Türkçe İçin Geliştirilmiş, Çok Modlu (Multimodal) Model

Cetvel Türkçe Benchmark'ta 34 model arasında 3. sıra 🥉 · QA'da 1. sıra 🥇 · 27B+ modellerle rekabet eder · Multimodal (Görsel + Metin)

---

📋 Model Hakkında

Magibu-11b-v0.8, Magibu AI Research tarafından geliştirilen, Türkçe odaklı, çok dilli, Çok Modlu (Multimodal) bir modeldir.

Önemli Not: Bu model, mevcut bir modelin üzerine yapılan basit bir "fine-tune" işlemi değildir. Magibu-11b, kendi geliştirdiğimiz özgün eğitim yöntemleri ve veri setleri ile üretilmiştir. Google Gemma-3 modeli güncel kütüphanelerle (Transformers, VLLM, Ollama vb.) tam uyumlu çalışabilmesi için hem bilgi hem de altyapı standardı olarak kullanılmıştır.

Türkçe'ye özel optimize edilmiş tokenizer'ı sayesinde, dünyadaki en token-verimli Türkçe modellerden biridir.

Neden Magibu?

Standart tokenizer'lar Türkçe kelimeleri anlamsız, çok sayıda küçük parçaya böler. Bu durum şunlara yol açar:

Yüksek Maliyet: Aynı cümle için daha fazla token üretilir.
Yavaş Çalışma: Daha fazla token = daha yavaş yanıt üretimi.
Ziyan Olan Kapasite: Context penceresi (hafıza) gereksiz yere dolar.

Magibu, Türkçe'ye özel eğitim süreci sayesinde bu sorunu çözer ve diğer tüm modellerden %30 - %127 daha verimli çalışır.

Özellik	Değer
Mimari	google/gemma-3-12b-it uyumlu
Parametre Sayısı	~11.3 Milyar
Context Penceresi	32,768 token
Yetenekler	Çok Modlu / Multimodal (Görsel + Metin) → Metin, Çok Dilli Chat
Ana Dil	Türkçe 🇹🇷 (Native seviyesinde optimizasyon)
Diğer Diller	40+ (EN, DE, FR, ES, RU, AR, JP, ZH...)
Geliştirici	Magibu AI Research
Versiyon	v0.8 (Deneysel sürüm)

🏆 Türkçe MMLU Benchmark Sonuçları

Magibu-11b-v0.8, Türkçe MMLU benchmark testinde %74.40 başarı oranı ile 44 açık kaynak model arasında 6. sırada yer almaktadır. Kendisinden 2 ila 6 kat daha büyük modelleri geride bırakmayı başarmıştır.

🔑 Öne Çıkan Karşılaştırmalar

🔥 Magibu-11b (11B) vs. Llama-3.1 (70B): Magibu, 70 Milyar parametreli Llama-3.1 modelini +4 puan farkla geçmiştir (%74.40 vs %70.42). Bunu yaparken 6 kat daha az işlem gücü ve %54 daha az token kullanır.

🏛️ Magibu-11b vs. Turkish-Gemma-9b-T1 (YTU COSMOS): Yıldız Teknik Üniversitesi COSMOS Lab tarafından geliştirilen Turkish-Gemma-9b-T1 modeli %70.34 skor almıştır. Magibu, benzer parametre sayısında +4.06 puan fark atarak ve çok daha verimli çalışarak öne çıkmaktadır.

📊 Sıralama Tablosu (İlk 25)

#	Model	Param	MMLU	Token	MMLU Farkı	Token Farkı
1	Llama-3.3	70B	79.42%	221,411	+6.75%	+53.85%
2	DeepSeek-V3.2	685B MoE	77.69%	326,246	+4.42%	+126.69%
3	Kimi-K2	1T MoE	77.44%	312,609	+4.09%	+117.22%
4	Qwen3-32B	32B	75.98%	260,407	+2.12%	+80.95%
5	Gemma-3 27B	27B	75.06%	211,024	+0.89%	+46.63%
6	🧿 Magibu-11b	11B	74.40%	143,915	—	—
7	Qwen3-30B (A3B MoE)	30B	74.26%	260,407	-0.19%	+80.95%
8	MedGemma-27B	27B	74.18%	211,024	-0.30%	+46.63%
9	Emre-Gemma3-27B	27B	73.21%	211,024	-1.60%	+46.63%
10	Gemma-2 27B	27B	72.10%	223,174	-3.09%	+55.07%
11	Qwen3-14B	14B	71.65%	260,407	-3.70%	+80.95%
12	Doktor-Gemma3 12B	12B	71.08%	211,024	-4.46%	+46.63%
13	Gemma-3 12B	12B	70.74%	211,024	-4.92%	+46.63%
14	Aya-Expanse 32B	32B	70.66%	187,742	-5.03%	+30.45%
15	Ministral-3 14B	14B	70.55%	244,878	-5.17%	+70.15%
⚔️16	Llama-3.1 70B	70B	70.42%	221,411	-5.35%	+53.85%
🏛️17	Turkish-Gemma-9b-T1	9B	70.34%	223,174	-5.46%	+55.07%
18	Gemma-2 9B	9B	69.26%	223,174	-6.91%	+55.07%
19	Metin-Gemma2 DPO	9B	69.16%	223,174	-7.04%	+55.07%
20	GPT-OSS-20B (OpenAI)	20B	68.47%	224,052	-7.97%	+55.68%
21	Mistral-Small 24B	24B	68.37%	244,937	-8.10%	+70.20%
22	Qwen3-7B	7B	67.56%	260,407	-9.19%	+80.95%
23	Ministral-3B (latest)	3B	67.44%	244,878	-9.35%	+70.15%
24	Mistral-Small (old)	24B	66.97%	244,937	-9.99%	+70.20%
25	Phi-4 14B	14B	65.52%	316,029	-11.94%	+119.59%

Token Farkı: Magibu-11b'ye kıyasla diğer modellerin aynı metni ifade etmek için yüzde kaç daha fazla token kullandığını gösterir. Pozitif değerler, modelin Türkçe için daha az verimli olduğunu (daha çok token harcadığını) belirtir.

🎯 Cetvel Türkçe Benchmark Sonuçları

Magibu-11b-v0.8, Cetvel — Türkçe için en kapsamlı birleşik LLM benchmark'ında — 34 model arasında 3. sırada yer almaktadır (ortalama: 32.5).

7 farklı NLP kategorisinde (GEC, MCQA, MT, NLI, QA, SUM, TC) toplam 26 görevde değerlendirilen model, 14B altındaki en yüksek puanlı model olarak öne çıkmaktadır. Kendisinden 3-6 kat büyük modelleri (aya-23-35B, aya-expanse-32b vs.) geride bırakmayı başarmıştır.

🥇 Soru Cevaplama (QA) kategorisinde tüm modeller arasında 1. sıra — 45.0 puanla en yakın rakibini (Qwen2.5-14B, 26.7) büyük farkla geçmiştir.

🥈 Özetleme (SUM) kategorisinde 2. sıra — 24.9 puanla aya-expanse-32b'yi (22.4) geride bırakmıştır.

📊 Cetvel Sıralama Tablosu

#	Model	Boyut	Ort.	GEC	MCQA	MT	NLI	QA	SUM	TC
1	Llama-3.3-70B-Instruct	70B	35.9	44.1	60.1	24.0	32.4	16.1	16.2	58.1
2	aya-expanse-32b	32B	33.6	4.5	55.6	27.6	43.3	26.2	22.4	55.3
3	🧿 Magibu-11b-v0.8	11B	32.5	19.6	49.3	11.4	32.1	45.0	24.9	44.9
4	aya-23-35B	35B	31.7	30.8	48.8	25.1	37.6	23.7	17.6	38.0
5	cere-llama-3-8b-tr	8B	30.4	46.0	44.8	8.2	34.0	24.2	12.2	43.7
6	Meta-Llama-3.1-8B	8B	30.3	35.3	45.8	21.2	32.2	19.3	13.5	44.8
7	Meta-Llama-3.1-8B-Instruct	8B	29.3	31.5	50.1	15.9	36.0	18.0	13.5	40.1
8	Meta-Llama-3-8B	8B	29.1	34.1	43.0	19.1	33.9	20.9	12.3	40.6
9	Qwen2.5-7B	7B	29.1	22.3	50.6	11.9	34.0	20.5	12.8	51.6
10	Ministral-8B-Instruct	8B	28.1	39.1	42.8	15.8	34.0	14.2	12.8	38.0
…	(24 model daha)
34	TURNA	—	16.3	0.0	35.9	0.2	34.1	0.0	7.1	36.6

Kategori Kısaltmaları: GEC = Gramer Düzeltme, MCQA = Çoktan Seçmeli, MT = Makine Çevirisi, NLI = Doğal Dil Çıkarımı, QA = Soru Cevaplama, SUM = Özetleme, TC = Metin Sınıflandırma

🔍 Kategori Detayları

🥇 Soru Cevaplama (QA) — 45.0 puan — Tüm Modeller Arasında 1. Sıra

Görev	F1	EM	Açıklama
tquad	66.5	44.6	Türkçe SQuAD
xquad_tr	57.7	41.0	Çapraz Dil QA (Türkçe)
mkqa_tr	10.8	5.8	Çok Dilli Açık Alan QA

🥈 Özetleme (SUM) — 24.9 puan — Tüm Modeller Arasında 2. Sıra

Görev	ROUGE-1	ROUGE-2	ROUGE-L	Açıklama
mlsum_tr	33.8	18.3	27.0	Haber özetleme
xlsum_tr	26.1	11.5	19.6	Çapraz dil özetleme
wiki_lingua_tr	20.6	6.4	15.6	WikiHow makale özetleme
tr-wikihow-summ	19.2	5.8	14.1	WikiHow özetleme

📝 Çoktan Seçmeli (MCQA) — 49.3 puan

Görev	Skor	Açıklama
belebele_tr	81.2	Okuduğunu anlama
xcopa_tr	63.6	Nedensel muhakeme
turkish_plu_step_ordering	59.2	Prosedürel adım sıralama
turkish_plu_next_event	43.0	Sonraki olay tahmini
exams_tr	37.2	Türkçe sınav soruları
turkish_plu_goal_inference	31.0	Hedef çıkarımı
turkish_plu_step_inference	30.0	Adım çıkarımı

🏷️ Metin Sınıflandırma (TC) — 44.9 puan

Görev	Skor	Açıklama
ironytr	68.2	İroni algılama
offenseval_tr	52.8	Saldırgan dil tespiti
news_cat	49.2	Haber kategorilendirme
relevance_judgment	45.0	İddia ilişkisi
check_worthiness	43.0	Doğrulanabilirlik tespiti
xfact_tr	33.1	Doğruluk kontrolü
sts_tr	23.0	Anlamsal metin benzerliği

🔗 Doğal Dil Çıkarımı (NLI) — 32.1 puan

Görev	Skor	Açıklama
xnli_tr	34.2	Çapraz dil NLI
snli_tr	32.2	Stanford NLI (Türkçe)
mnli_tr	29.8	Multi-genre NLI (Türkçe)

✏️ Gramer Düzeltme (GEC) — 19.6 puan

Görev	Skor	Açıklama
gecturk_generation	19.6	Birebir gramer düzeltme

🌐 Makine Çevirisi (MT) — 11.4 puan

Görev	BLEU	WER	Açıklama
wmt-tr-en-prompt	11.4	93.4	İngilizce → Türkçe çeviri

🧠 Ek: TurkishMMLU Sonuçları (Cetvel ile) — 56.6 ortalama

Cetvel değerlendirmesi kapsamında ayrıca çalıştırılan TurkishMMLU alt görevleri (standart sıralamaya dahil değildir):

Konu	Skor
Felsefe	83.0
Din Kültürü ve Ahlak	79.0
Coğrafya	71.0
Tarih	66.0
Türk Dili ve Edebiyatı	48.0
Biyoloji	45.0
Fizik	43.0
Kimya	42.0
Matematik	32.0

🏗️ Ek: Türk Kültürü ve Dil Görevleri — 58.2 ortalama

Görev	Skor	Açıklama
circumflex_tr	64.3	Türkçe şapka işareti ayrımı
turkce_atasozleri	60.6	Türkçe atasözü tamamlama
bilmecebench	49.8	Türkçe bilmece benchmark'ı

💡 Güçlü ve Zayıf Yönler (Cetvel)

Güçlü Yönler:

QA'da Sınıfının Lideri: 45.0 puanla tüm sıralamada 1. sıra. En yakın rakip (Qwen2.5-14B) 26.7 puan almıştır.
Özetleme Gücü: 24.9 puanla 32B'lik aya-expanse modelini geride bırakmıştır.
Boyut Verimliliği: 11B parametre ile 35B'ye kadar tüm modelleri geçmiştir (aya-23-35B: 31.7).
Türk Kültürü Bilgisi: TurkishMMLU'da Felsefe %83, Din Kültürü %79, Coğrafya %71 ile güçlü Türk kültürel bilgi birikimi.

Geliştirmeye Açık Alanlar:

Makine Çevirisi (11.4): Model paralel çeviri için özel olarak eğitilmemiştir.
NLI (32.1): Sıralama ortalamasının biraz altında.
GEC (19.6): Birebir eşleşme metriği, parafraz yapabilen chat modeli için sert bir ölçüttür.

📋 Değerlendirme Detayları

Parametre	Değer
Benchmark	Cetvel v1.0
Framework	lm-evaluation-harness v0.4.11
Precision	bfloat16 (~22 GB VRAM)
Max Length	4096 token
Few-shot	0-shot
Sample Limit	500 / görev
Chat Template	Gemma-2 formatı
System Instruction	`"Sadece istenen çıktıyı üret."`
Toplam Görev	38 (26 standart + 9 TurkishMMLU + 3 ekstra)
GPU	NVIDIA A100-SXM4-80GB
Çalışma Süresi	~90 dakika

Not: Değerlendirme görev başına 500 örnek limiti ile yapılmıştır. Tam veri seti ile yapılan değerlendirmelerde ±%2-3 sapma beklenebilir. Detaylı rapor ve replikasyon rehberi için: cetvel_results_magibu_11b_v0.8.md

📊 Görsel Analizler

📈 MMLU Sıralaması

44 modelin Türkçe performans sıralaması. Magibu-11b (turuncu ◆), kendisinden çok daha büyük modelleri (Llama-3.1 70B, Gemma-2 27B vb.) geride bırakmıştır.

🎯 Token Verimliliği vs. Performans

Bu grafik, modellerin doğruluğu (Y ekseni) ile token harcamasını (X ekseni) karşılaştırır. İdeal konum sol üst köşedir (az token, çok başarı). Magibu-11b bu bölgede tek başınadır.

📊 Tokenizer Verimlilik Karşılaştırması

Modellerin aynı Türkçe veri setini (MMLU) kaç token ile ifade ettiğinin karşılaştırması. Magibu en düşük token sayısına sahiptir.

🏷️ Model Aileleri Karşılaştırması

Farklı model ailelerinin (Gemma, Llama, Qwen, vb.) verimlilik gruplandırması. Magibu (turuncu ●) diğer tüm ailelerden ayrı bir verimlilik sınıfındadır.

🧪 Token Verimliliği Nedir? Neden Önemli?

Türkçe'nin Yapısal Sorunu

Türkçe gibi sondan eklemeli dillerde kelimeler ek alarak uzar. Standart Batı dilleri için eğitilmiş tokenizer'lar bu kelimeleri verimsiz böler.

Örnek:

Türkçe İfade	Standart Tokenizer	Magibu Tokenizer
`evlerimizden`	`ev`, `ler`, `im`, `iz`, `den` (5 token)	`evlerimizden` (1-2 token)
`güzelleştiremediklerimizden`	8-12 token	3-4 token
`Türkiye'nin`	`Tür`, `kiye`, `'`, `nin` (4 token)	`Türkiye'nin` (1-2 token)

Sonuç: alibayram/turkish_mmlu veri setinin tamamı tokenize edildiğinde ortaya çıkan farklar:

Sıra	Tokenizer	Toplam Token	Fark (vs Magibu)	Not
🥇	Magibu-11b	143,915	—	🇹🇷 En İyi Türkçe Model
🥈	Aya-Expanse	187,742	+30.5% daha fazla	Çok dilli model
🥉	Gemma-3	211,024	+46.6% daha fazla	Google Official
4	Llama-3	221,411	+53.9% daha fazla	Meta Official
5	Turkish-Gemma-9b (COSMOS)	223,174	+55.1% daha fazla	YTU (Fine-tune)
6	Qwen2/3	260,407	+80.9% daha fazla	Alibaba
7	DeepSeek-V3.2	326,246	+126.7% daha fazla	DeepSeek

Pratik Etkisi: Magibu ile 1000 token tutan bir işlem, diğer modellerde 1300-2200 token tutar. Magibu kullanmak daha hızlıdır, daha ucuzdur ve daha uzun metinleri hafızada tutabilir.

🚀 Hızlı Başlangıç (Quick Start)

🤗 Transformers

from transformers import pipeline

soru = "Zaman makineniz olsaydı ve sadece bir kez geçmişe ya da geleceğe gidebilseydiniz, hangisini seçerdiniz ve neden?"

generator = pipeline("text-generation", model="magibu/magibu-11b-v0.8", device="cuda")
cevap = generator(
    [{"role": "user", "content": soru}],
    max_new_tokens=512,
    return_full_text=False
)[0]
print(cevap["generated_text"])

🖼️ Görsel Kullanımı (Multimodal)

Magibu-11b, görselleri anlayabilir ve soruları yanıtlayabilir (VLM):

from transformers import AutoProcessor, AutoModelForImageTextToText
from PIL import Image

model = AutoModelForImageTextToText.from_pretrained("magibu/magibu-11b-v0.8", device_map="auto")
processor = AutoProcessor.from_pretrained("magibu/magibu-11b-v0.8")

image = Image.open("foto.jpg")
messages = [
    {"role": "user", "content": [
        {"type": "image", "image": image},
        {"type": "text", "text": "Bu fotoğrafta ne görüyorsun? Detaylı açıkla."}
    ]}
]

inputs = processor.apply_chat_template(messages, return_tensors="pt").to(model.device)
output = model.generate(**inputs, max_new_tokens=512)
print(processor.decode(output[0], skip_special_tokens=True))

🦙 Ollama (Kolay Kurulum)

# Tek komutla kur ve çalıştır
ollama run alibayram/magibu-11b-v8

🍎 MLX (Apple Silicon - M1/M2/M3/M4)

pip install mlx-vlm

# OpenAI uyumlu sunucu başlat
mlx_vlm.server --model alibayram/magibu-11b-v8-mlx --port 8080

# Veya Python içinde kullan
mlx_vlm.generate --model alibayram/magibu-11b-v8-mlx --prompt "Merhaba, nasılsın?"

📦 İndirme Seçenekleri (Model Formats)

Format	Link	Boyut	Kullanım Alanı
🤗 Transformers (bfloat16)	magibu/magibu-11b-v0.8	~22 GB	Fine-tuning, Araştırma, GPU
🦙 Ollama (GGUF)	ollama.com/alibayram/magibu-11b-v8	~6 GB	PC, Mac, CPU+GPU
🍎 MLX (4-bit)	alibayram/magibu-11b-v8-mlx	~6 GB	Apple Silicon Mac (M Serisi)

⚠️ Sınırlamalar ve Uyarılar

Deneysel Sürüm (v0.8): Bu model halen aktif geliştirme aşamasındadır.
Halüsinasyon: Tüm dil modelleri gibi, Magibu da zaman zaman yanlış bilgi üretebilir. Kritik konularda (sağlık, hukuk) doğruluğu teyit edilmelidir.
Bilgi Kesimi: Eğitim verisinin kapsadığı tarih aralığı sınırlıdır, en güncel olayları bilmeyebilir.
Yanlılık: Eğitim verisinden kaynaklı toplumsal önyargılar barındırabilir.

🔗 Kaynaklar

Kaynak	Link
🤗 Model Sayfası	magibu/magibu-11b-v0.8
🌐 Resmi Site	magibu-chat.web.app
💬 Canlı Demo	magibu-chat.web.app
📚 MMLU Benchmark Verisi	alibayram/turkish_mmlu
📏 Cetvel Benchmark	KUIS-AI/cetvel
📄 Cetvel Detaylı Rapor	cetvel_results_magibu_11b_v0.8.md

📜 Atıf (Citation)

Modeli çalışmalarınızda kullanırsanız lütfen aşağıdaki şekilde atıf yapınız:

@misc{bayram2025magibu,
    title        = {{Magibu-11b: A Turkish-Native Multilingual Vision-Language Model with Optimized Tokenization}},
    author       = {Ali Bayram},
    year         = 2025,
    howpublished = {\url{https://huggingface.co/magibu/magibu-11b-v0.8}},
    note         = {Developed by Magibu AI Research}
}

Magibu AI Research tarafından ❤️ ile geliştirildi 🧿

Geri bildirimleriniz bizim için değerlidir — demo üzerindeki butonu kullanarak iletebilirsiniz.

Downloads last month: 39

Safetensors

Model size

2B params

Tensor type

BF16

U32

MLX

Hardware compatibility

4-bit

Model tree for alibayram/magibu-11b-v8-mlx

Unable to build the model tree, the base model loops to the model itself. Learn more.