alibayram/magibu-11b-v8-mlx

This model was converted to MLX format from alibayram/magibu-11b-v8-mlx using mlx-vlm version 0.3.11. Refer to the original model card for more details on the model.

Use with mlx

pip install -U mlx-vlm
python -m mlx_vlm.generate --model alibayram/magibu-11b-v8-mlx --max-tokens 100 --temperature 0.0 --prompt "Describe this image." --image <path_to_image>
Magibu AI Logo

🧿 Magibu-11b-v0.8

Türkçe İçin Geliştirilmiş, Çok Modlu (Multimodal) Model

Cetvel Türkçe Benchmark'ta 34 model arasında 3. sıra 🥉 · QA'da 1. sıra 🥇 · 27B+ modellerle rekabet eder · Multimodal (Görsel + Metin)

Transformers Ollama MLX Demo

---

📋 Model Hakkında

Magibu-11b-v0.8, Magibu AI Research tarafından geliştirilen, Türkçe odaklı, çok dilli, Çok Modlu (Multimodal) bir modeldir.

Önemli Not: Bu model, mevcut bir modelin üzerine yapılan basit bir "fine-tune" işlemi değildir. Magibu-11b, kendi geliştirdiğimiz özgün eğitim yöntemleri ve veri setleri ile üretilmiştir. Google Gemma-3 modeli güncel kütüphanelerle (Transformers, VLLM, Ollama vb.) tam uyumlu çalışabilmesi için hem bilgi hem de altyapı standardı olarak kullanılmıştır.

Türkçe'ye özel optimize edilmiş tokenizer'ı sayesinde, dünyadaki en token-verimli Türkçe modellerden biridir.

Neden Magibu?

Standart tokenizer'lar Türkçe kelimeleri anlamsız, çok sayıda küçük parçaya böler. Bu durum şunlara yol açar:

  • Yüksek Maliyet: Aynı cümle için daha fazla token üretilir.
  • Yavaş Çalışma: Daha fazla token = daha yavaş yanıt üretimi.
  • Ziyan Olan Kapasite: Context penceresi (hafıza) gereksiz yere dolar.

Magibu, Türkçe'ye özel eğitim süreci sayesinde bu sorunu çözer ve diğer tüm modellerden %30 - %127 daha verimli çalışır.

Özellik Değer
Mimari google/gemma-3-12b-it uyumlu
Parametre Sayısı ~11.3 Milyar
Context Penceresi 32,768 token
Yetenekler Çok Modlu / Multimodal (Görsel + Metin) → Metin, Çok Dilli Chat
Ana Dil Türkçe 🇹🇷 (Native seviyesinde optimizasyon)
Diğer Diller 40+ (EN, DE, FR, ES, RU, AR, JP, ZH...)
Geliştirici Magibu AI Research
Versiyon v0.8 (Deneysel sürüm)

🏆 Türkçe MMLU Benchmark Sonuçları

Magibu-11b-v0.8, Türkçe MMLU benchmark testinde %74.40 başarı oranı ile 44 açık kaynak model arasında 6. sırada yer almaktadır. Kendisinden 2 ila 6 kat daha büyük modelleri geride bırakmayı başarmıştır.

🔑 Öne Çıkan Karşılaştırmalar

🔥 Magibu-11b (11B) vs. Llama-3.1 (70B): Magibu, 70 Milyar parametreli Llama-3.1 modelini +4 puan farkla geçmiştir (%74.40 vs %70.42). Bunu yaparken 6 kat daha az işlem gücü ve %54 daha az token kullanır.

🏛️ Magibu-11b vs. Turkish-Gemma-9b-T1 (YTU COSMOS): Yıldız Teknik Üniversitesi COSMOS Lab tarafından geliştirilen Turkish-Gemma-9b-T1 modeli %70.34 skor almıştır. Magibu, benzer parametre sayısında +4.06 puan fark atarak ve çok daha verimli çalışarak öne çıkmaktadır.

📊 Sıralama Tablosu (İlk 25)

# Model Param MMLU Token MMLU Farkı Token Farkı
1 Llama-3.3 70B 79.42% 221,411 +6.75% +53.85%
2 DeepSeek-V3.2 685B MoE 77.69% 326,246 +4.42% +126.69%
3 Kimi-K2 1T MoE 77.44% 312,609 +4.09% +117.22%
4 Qwen3-32B 32B 75.98% 260,407 +2.12% +80.95%
5 Gemma-3 27B 27B 75.06% 211,024 +0.89% +46.63%
6 🧿 Magibu-11b 11B 74.40% 143,915
7 Qwen3-30B (A3B MoE) 30B 74.26% 260,407 -0.19% +80.95%
8 MedGemma-27B 27B 74.18% 211,024 -0.30% +46.63%
9 Emre-Gemma3-27B 27B 73.21% 211,024 -1.60% +46.63%
10 Gemma-2 27B 27B 72.10% 223,174 -3.09% +55.07%
11 Qwen3-14B 14B 71.65% 260,407 -3.70% +80.95%
12 Doktor-Gemma3 12B 12B 71.08% 211,024 -4.46% +46.63%
13 Gemma-3 12B 12B 70.74% 211,024 -4.92% +46.63%
14 Aya-Expanse 32B 32B 70.66% 187,742 -5.03% +30.45%
15 Ministral-3 14B 14B 70.55% 244,878 -5.17% +70.15%
⚔️16 Llama-3.1 70B 70B 70.42% 221,411 -5.35% +53.85%
🏛️17 Turkish-Gemma-9b-T1 9B 70.34% 223,174 -5.46% +55.07%
18 Gemma-2 9B 9B 69.26% 223,174 -6.91% +55.07%
19 Metin-Gemma2 DPO 9B 69.16% 223,174 -7.04% +55.07%
20 GPT-OSS-20B (OpenAI) 20B 68.47% 224,052 -7.97% +55.68%
21 Mistral-Small 24B 24B 68.37% 244,937 -8.10% +70.20%
22 Qwen3-7B 7B 67.56% 260,407 -9.19% +80.95%
23 Ministral-3B (latest) 3B 67.44% 244,878 -9.35% +70.15%
24 Mistral-Small (old) 24B 66.97% 244,937 -9.99% +70.20%
25 Phi-4 14B 14B 65.52% 316,029 -11.94% +119.59%

Token Farkı: Magibu-11b'ye kıyasla diğer modellerin aynı metni ifade etmek için yüzde kaç daha fazla token kullandığını gösterir. Pozitif değerler, modelin Türkçe için daha az verimli olduğunu (daha çok token harcadığını) belirtir.


🎯 Cetvel Türkçe Benchmark Sonuçları

Magibu-11b-v0.8, Cetvel — Türkçe için en kapsamlı birleşik LLM benchmark'ında — 34 model arasında 3. sırada yer almaktadır (ortalama: 32.5).

7 farklı NLP kategorisinde (GEC, MCQA, MT, NLI, QA, SUM, TC) toplam 26 görevde değerlendirilen model, 14B altındaki en yüksek puanlı model olarak öne çıkmaktadır. Kendisinden 3-6 kat büyük modelleri (aya-23-35B, aya-expanse-32b vs.) geride bırakmayı başarmıştır.

🥇 Soru Cevaplama (QA) kategorisinde tüm modeller arasında 1. sıra — 45.0 puanla en yakın rakibini (Qwen2.5-14B, 26.7) büyük farkla geçmiştir.

🥈 Özetleme (SUM) kategorisinde 2. sıra — 24.9 puanla aya-expanse-32b'yi (22.4) geride bırakmıştır.

📊 Cetvel Sıralama Tablosu

# Model Boyut Ort. GEC MCQA MT NLI QA SUM TC
1 Llama-3.3-70B-Instruct 70B 35.9 44.1 60.1 24.0 32.4 16.1 16.2 58.1
2 aya-expanse-32b 32B 33.6 4.5 55.6 27.6 43.3 26.2 22.4 55.3
3 🧿 Magibu-11b-v0.8 11B 32.5 19.6 49.3 11.4 32.1 45.0 24.9 44.9
4 aya-23-35B 35B 31.7 30.8 48.8 25.1 37.6 23.7 17.6 38.0
5 cere-llama-3-8b-tr 8B 30.4 46.0 44.8 8.2 34.0 24.2 12.2 43.7
6 Meta-Llama-3.1-8B 8B 30.3 35.3 45.8 21.2 32.2 19.3 13.5 44.8
7 Meta-Llama-3.1-8B-Instruct 8B 29.3 31.5 50.1 15.9 36.0 18.0 13.5 40.1
8 Meta-Llama-3-8B 8B 29.1 34.1 43.0 19.1 33.9 20.9 12.3 40.6
9 Qwen2.5-7B 7B 29.1 22.3 50.6 11.9 34.0 20.5 12.8 51.6
10 Ministral-8B-Instruct 8B 28.1 39.1 42.8 15.8 34.0 14.2 12.8 38.0
(24 model daha)
34 TURNA 16.3 0.0 35.9 0.2 34.1 0.0 7.1 36.6

Kategori Kısaltmaları: GEC = Gramer Düzeltme, MCQA = Çoktan Seçmeli, MT = Makine Çevirisi, NLI = Doğal Dil Çıkarımı, QA = Soru Cevaplama, SUM = Özetleme, TC = Metin Sınıflandırma

🔍 Kategori Detayları

🥇 Soru Cevaplama (QA) — 45.0 puan — Tüm Modeller Arasında 1. Sıra

Görev F1 EM Açıklama
tquad 66.5 44.6 Türkçe SQuAD
xquad_tr 57.7 41.0 Çapraz Dil QA (Türkçe)
mkqa_tr 10.8 5.8 Çok Dilli Açık Alan QA

🥈 Özetleme (SUM) — 24.9 puan — Tüm Modeller Arasında 2. Sıra

Görev ROUGE-1 ROUGE-2 ROUGE-L Açıklama
mlsum_tr 33.8 18.3 27.0 Haber özetleme
xlsum_tr 26.1 11.5 19.6 Çapraz dil özetleme
wiki_lingua_tr 20.6 6.4 15.6 WikiHow makale özetleme
tr-wikihow-summ 19.2 5.8 14.1 WikiHow özetleme

📝 Çoktan Seçmeli (MCQA) — 49.3 puan

Görev Skor Açıklama
belebele_tr 81.2 Okuduğunu anlama
xcopa_tr 63.6 Nedensel muhakeme
turkish_plu_step_ordering 59.2 Prosedürel adım sıralama
turkish_plu_next_event 43.0 Sonraki olay tahmini
exams_tr 37.2 Türkçe sınav soruları
turkish_plu_goal_inference 31.0 Hedef çıkarımı
turkish_plu_step_inference 30.0 Adım çıkarımı

🏷️ Metin Sınıflandırma (TC) — 44.9 puan

Görev Skor Açıklama
ironytr 68.2 İroni algılama
offenseval_tr 52.8 Saldırgan dil tespiti
news_cat 49.2 Haber kategorilendirme
relevance_judgment 45.0 İddia ilişkisi
check_worthiness 43.0 Doğrulanabilirlik tespiti
xfact_tr 33.1 Doğruluk kontrolü
sts_tr 23.0 Anlamsal metin benzerliği

🔗 Doğal Dil Çıkarımı (NLI) — 32.1 puan

Görev Skor Açıklama
xnli_tr 34.2 Çapraz dil NLI
snli_tr 32.2 Stanford NLI (Türkçe)
mnli_tr 29.8 Multi-genre NLI (Türkçe)

✏️ Gramer Düzeltme (GEC) — 19.6 puan

Görev Skor Açıklama
gecturk_generation 19.6 Birebir gramer düzeltme

🌐 Makine Çevirisi (MT) — 11.4 puan

Görev BLEU WER Açıklama
wmt-tr-en-prompt 11.4 93.4 İngilizce → Türkçe çeviri

🧠 Ek: TurkishMMLU Sonuçları (Cetvel ile) — 56.6 ortalama

Cetvel değerlendirmesi kapsamında ayrıca çalıştırılan TurkishMMLU alt görevleri (standart sıralamaya dahil değildir):

Konu Skor
Felsefe 83.0
Din Kültürü ve Ahlak 79.0
Coğrafya 71.0
Tarih 66.0
Türk Dili ve Edebiyatı 48.0
Biyoloji 45.0
Fizik 43.0
Kimya 42.0
Matematik 32.0

🏗️ Ek: Türk Kültürü ve Dil Görevleri — 58.2 ortalama

Görev Skor Açıklama
circumflex_tr 64.3 Türkçe şapka işareti ayrımı
turkce_atasozleri 60.6 Türkçe atasözü tamamlama
bilmecebench 49.8 Türkçe bilmece benchmark'ı

💡 Güçlü ve Zayıf Yönler (Cetvel)

Güçlü Yönler:

  • QA'da Sınıfının Lideri: 45.0 puanla tüm sıralamada 1. sıra. En yakın rakip (Qwen2.5-14B) 26.7 puan almıştır.
  • Özetleme Gücü: 24.9 puanla 32B'lik aya-expanse modelini geride bırakmıştır.
  • Boyut Verimliliği: 11B parametre ile 35B'ye kadar tüm modelleri geçmiştir (aya-23-35B: 31.7).
  • Türk Kültürü Bilgisi: TurkishMMLU'da Felsefe %83, Din Kültürü %79, Coğrafya %71 ile güçlü Türk kültürel bilgi birikimi.

Geliştirmeye Açık Alanlar:

  • Makine Çevirisi (11.4): Model paralel çeviri için özel olarak eğitilmemiştir.
  • NLI (32.1): Sıralama ortalamasının biraz altında.
  • GEC (19.6): Birebir eşleşme metriği, parafraz yapabilen chat modeli için sert bir ölçüttür.

📋 Değerlendirme Detayları

Parametre Değer
Benchmark Cetvel v1.0
Framework lm-evaluation-harness v0.4.11
Precision bfloat16 (~22 GB VRAM)
Max Length 4096 token
Few-shot 0-shot
Sample Limit 500 / görev
Chat Template Gemma-2 formatı
System Instruction "Sadece istenen çıktıyı üret."
Toplam Görev 38 (26 standart + 9 TurkishMMLU + 3 ekstra)
GPU NVIDIA A100-SXM4-80GB
Çalışma Süresi ~90 dakika

Not: Değerlendirme görev başına 500 örnek limiti ile yapılmıştır. Tam veri seti ile yapılan değerlendirmelerde ±%2-3 sapma beklenebilir. Detaylı rapor ve replikasyon rehberi için: cetvel_results_magibu_11b_v0.8.md


📊 Görsel Analizler

📈 MMLU Sıralaması

44 modelin Türkçe performans sıralaması. Magibu-11b (turuncu ◆), kendisinden çok daha büyük modelleri (Llama-3.1 70B, Gemma-2 27B vb.) geride bırakmıştır.

MMLU Rankings — Magibu-11b vs 44 Open Models

🎯 Token Verimliliği vs. Performans

Bu grafik, modellerin doğruluğu (Y ekseni) ile token harcamasını (X ekseni) karşılaştırır. İdeal konum sol üst köşedir (az token, çok başarı). Magibu-11b bu bölgede tek başınadır.

Token Efficiency vs MMLU Performance — Magibu dominates the top-left quadrant

📊 Tokenizer Verimlilik Karşılaştırması

Modellerin aynı Türkçe veri setini (MMLU) kaç token ile ifade ettiğinin karşılaştırması. Magibu en düşük token sayısına sahiptir.

Tokenization Efficiency — Magibu uses the fewest tokens for Turkish text

🏷️ Model Aileleri Karşılaştırması

Farklı model ailelerinin (Gemma, Llama, Qwen, vb.) verimlilik gruplandırması. Magibu (turuncu ●) diğer tüm ailelerden ayrı bir verimlilik sınıfındadır.

Model Families — Score vs Tokenization Efficiency


🧪 Token Verimliliği Nedir? Neden Önemli?

Türkçe'nin Yapısal Sorunu

Türkçe gibi sondan eklemeli dillerde kelimeler ek alarak uzar. Standart Batı dilleri için eğitilmiş tokenizer'lar bu kelimeleri verimsiz böler.

Örnek:

Türkçe İfade Standart Tokenizer Magibu Tokenizer
evlerimizden ev, ler, im, iz, den (5 token) evlerimizden (1-2 token)
güzelleştiremediklerimizden 8-12 token 3-4 token
Türkiye'nin Tür, kiye, ', nin (4 token) Türkiye'nin (1-2 token)

Sonuç: alibayram/turkish_mmlu veri setinin tamamı tokenize edildiğinde ortaya çıkan farklar:

Sıra Tokenizer Toplam Token Fark (vs Magibu) Not
🥇 Magibu-11b 143,915 🇹🇷 En İyi Türkçe Model
🥈 Aya-Expanse 187,742 +30.5% daha fazla Çok dilli model
🥉 Gemma-3 211,024 +46.6% daha fazla Google Official
4 Llama-3 221,411 +53.9% daha fazla Meta Official
5 Turkish-Gemma-9b (COSMOS) 223,174 +55.1% daha fazla YTU (Fine-tune)
6 Qwen2/3 260,407 +80.9% daha fazla Alibaba
7 DeepSeek-V3.2 326,246 +126.7% daha fazla DeepSeek

Pratik Etkisi: Magibu ile 1000 token tutan bir işlem, diğer modellerde 1300-2200 token tutar. Magibu kullanmak daha hızlıdır, daha ucuzdur ve daha uzun metinleri hafızada tutabilir.


🚀 Hızlı Başlangıç (Quick Start)

🤗 Transformers

from transformers import pipeline

soru = "Zaman makineniz olsaydı ve sadece bir kez geçmişe ya da geleceğe gidebilseydiniz, hangisini seçerdiniz ve neden?"

generator = pipeline("text-generation", model="magibu/magibu-11b-v0.8", device="cuda")
cevap = generator(
    [{"role": "user", "content": soru}],
    max_new_tokens=512,
    return_full_text=False
)[0]
print(cevap["generated_text"])

🖼️ Görsel Kullanımı (Multimodal)

Magibu-11b, görselleri anlayabilir ve soruları yanıtlayabilir (VLM):

from transformers import AutoProcessor, AutoModelForImageTextToText
from PIL import Image

model = AutoModelForImageTextToText.from_pretrained("magibu/magibu-11b-v0.8", device_map="auto")
processor = AutoProcessor.from_pretrained("magibu/magibu-11b-v0.8")

image = Image.open("foto.jpg")
messages = [
    {"role": "user", "content": [
        {"type": "image", "image": image},
        {"type": "text", "text": "Bu fotoğrafta ne görüyorsun? Detaylı açıkla."}
    ]}
]

inputs = processor.apply_chat_template(messages, return_tensors="pt").to(model.device)
output = model.generate(**inputs, max_new_tokens=512)
print(processor.decode(output[0], skip_special_tokens=True))

🦙 Ollama (Kolay Kurulum)

# Tek komutla kur ve çalıştır
ollama run alibayram/magibu-11b-v8

🍎 MLX (Apple Silicon - M1/M2/M3/M4)

pip install mlx-vlm

# OpenAI uyumlu sunucu başlat
mlx_vlm.server --model alibayram/magibu-11b-v8-mlx --port 8080

# Veya Python içinde kullan
mlx_vlm.generate --model alibayram/magibu-11b-v8-mlx --prompt "Merhaba, nasılsın?"

📦 İndirme Seçenekleri (Model Formats)

Format Link Boyut Kullanım Alanı
🤗 Transformers (bfloat16) magibu/magibu-11b-v0.8 ~22 GB Fine-tuning, Araştırma, GPU
🦙 Ollama (GGUF) ollama.com/alibayram/magibu-11b-v8 ~6 GB PC, Mac, CPU+GPU
🍎 MLX (4-bit) alibayram/magibu-11b-v8-mlx ~6 GB Apple Silicon Mac (M Serisi)

⚠️ Sınırlamalar ve Uyarılar

  • Deneysel Sürüm (v0.8): Bu model halen aktif geliştirme aşamasındadır.
  • Halüsinasyon: Tüm dil modelleri gibi, Magibu da zaman zaman yanlış bilgi üretebilir. Kritik konularda (sağlık, hukuk) doğruluğu teyit edilmelidir.
  • Bilgi Kesimi: Eğitim verisinin kapsadığı tarih aralığı sınırlıdır, en güncel olayları bilmeyebilir.
  • Yanlılık: Eğitim verisinden kaynaklı toplumsal önyargılar barındırabilir.

🔗 Kaynaklar

Kaynak Link
🤗 Model Sayfası magibu/magibu-11b-v0.8
🌐 Resmi Site magibu-chat.web.app
💬 Canlı Demo magibu-chat.web.app
📚 MMLU Benchmark Verisi alibayram/turkish_mmlu
📏 Cetvel Benchmark KUIS-AI/cetvel
📄 Cetvel Detaylı Rapor cetvel_results_magibu_11b_v0.8.md

📜 Atıf (Citation)

Modeli çalışmalarınızda kullanırsanız lütfen aşağıdaki şekilde atıf yapınız:

@misc{bayram2025magibu,
    title        = {{Magibu-11b: A Turkish-Native Multilingual Vision-Language Model with Optimized Tokenization}},
    author       = {Ali Bayram},
    year         = 2025,
    howpublished = {\url{https://huggingface.co/magibu/magibu-11b-v0.8}},
    note         = {Developed by Magibu AI Research}
}

Magibu AI Research tarafından ❤️ ile geliştirildi 🧿

Geri bildirimleriniz bizim için değerlidir — demo üzerindeki butonu kullanarak iletebilirsiniz.

Downloads last month
39
Safetensors
Model size
2B params
Tensor type
BF16
·
U32
·
MLX
Hardware compatibility
Log In to add your hardware

4-bit

Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for alibayram/magibu-11b-v8-mlx

Unable to build the model tree, the base model loops to the model itself. Learn more.

Datasets used to train alibayram/magibu-11b-v8-mlx