alibayram/magibu-11b-v8-mlx
This model was converted to MLX format from alibayram/magibu-11b-v8-mlx using mlx-vlm version 0.3.11.
Refer to the original model card for more details on the model.
Use with mlx
pip install -U mlx-vlm
python -m mlx_vlm.generate --model alibayram/magibu-11b-v8-mlx --max-tokens 100 --temperature 0.0 --prompt "Describe this image." --image <path_to_image>
🧿 Magibu-11b-v0.8
Türkçe İçin Geliştirilmiş, Çok Modlu (Multimodal) Model
Cetvel Türkçe Benchmark'ta 34 model arasında 3. sıra 🥉 · QA'da 1. sıra 🥇 · 27B+ modellerle rekabet eder · Multimodal (Görsel + Metin)
📋 Model Hakkında
Magibu-11b-v0.8, Magibu AI Research tarafından geliştirilen, Türkçe odaklı, çok dilli, Çok Modlu (Multimodal) bir modeldir.
Önemli Not: Bu model, mevcut bir modelin üzerine yapılan basit bir "fine-tune" işlemi değildir. Magibu-11b, kendi geliştirdiğimiz özgün eğitim yöntemleri ve veri setleri ile üretilmiştir. Google Gemma-3 modeli güncel kütüphanelerle (Transformers, VLLM, Ollama vb.) tam uyumlu çalışabilmesi için hem bilgi hem de altyapı standardı olarak kullanılmıştır.
Türkçe'ye özel optimize edilmiş tokenizer'ı sayesinde, dünyadaki en token-verimli Türkçe modellerden biridir.
Neden Magibu?
Standart tokenizer'lar Türkçe kelimeleri anlamsız, çok sayıda küçük parçaya böler. Bu durum şunlara yol açar:
- Yüksek Maliyet: Aynı cümle için daha fazla token üretilir.
- Yavaş Çalışma: Daha fazla token = daha yavaş yanıt üretimi.
- Ziyan Olan Kapasite: Context penceresi (hafıza) gereksiz yere dolar.
Magibu, Türkçe'ye özel eğitim süreci sayesinde bu sorunu çözer ve diğer tüm modellerden %30 - %127 daha verimli çalışır.
| Özellik | Değer |
|---|---|
| Mimari | google/gemma-3-12b-it uyumlu |
| Parametre Sayısı | ~11.3 Milyar |
| Context Penceresi | 32,768 token |
| Yetenekler | Çok Modlu / Multimodal (Görsel + Metin) → Metin, Çok Dilli Chat |
| Ana Dil | Türkçe 🇹🇷 (Native seviyesinde optimizasyon) |
| Diğer Diller | 40+ (EN, DE, FR, ES, RU, AR, JP, ZH...) |
| Geliştirici | Magibu AI Research |
| Versiyon | v0.8 (Deneysel sürüm) |
🏆 Türkçe MMLU Benchmark Sonuçları
Magibu-11b-v0.8, Türkçe MMLU benchmark testinde %74.40 başarı oranı ile 44 açık kaynak model arasında 6. sırada yer almaktadır. Kendisinden 2 ila 6 kat daha büyük modelleri geride bırakmayı başarmıştır.
🔑 Öne Çıkan Karşılaştırmalar
🔥 Magibu-11b (11B) vs. Llama-3.1 (70B): Magibu, 70 Milyar parametreli Llama-3.1 modelini +4 puan farkla geçmiştir (%74.40 vs %70.42). Bunu yaparken 6 kat daha az işlem gücü ve %54 daha az token kullanır.
🏛️ Magibu-11b vs. Turkish-Gemma-9b-T1 (YTU COSMOS): Yıldız Teknik Üniversitesi COSMOS Lab tarafından geliştirilen Turkish-Gemma-9b-T1 modeli %70.34 skor almıştır. Magibu, benzer parametre sayısında +4.06 puan fark atarak ve çok daha verimli çalışarak öne çıkmaktadır.
📊 Sıralama Tablosu (İlk 25)
| # | Model | Param | MMLU | Token | MMLU Farkı | Token Farkı |
|---|---|---|---|---|---|---|
| 1 | Llama-3.3 | 70B | 79.42% | 221,411 | +6.75% | +53.85% |
| 2 | DeepSeek-V3.2 | 685B MoE | 77.69% | 326,246 | +4.42% | +126.69% |
| 3 | Kimi-K2 | 1T MoE | 77.44% | 312,609 | +4.09% | +117.22% |
| 4 | Qwen3-32B | 32B | 75.98% | 260,407 | +2.12% | +80.95% |
| 5 | Gemma-3 27B | 27B | 75.06% | 211,024 | +0.89% | +46.63% |
| 6 | 🧿 Magibu-11b | 11B | 74.40% | 143,915 | — | — |
| 7 | Qwen3-30B (A3B MoE) | 30B | 74.26% | 260,407 | -0.19% | +80.95% |
| 8 | MedGemma-27B | 27B | 74.18% | 211,024 | -0.30% | +46.63% |
| 9 | Emre-Gemma3-27B | 27B | 73.21% | 211,024 | -1.60% | +46.63% |
| 10 | Gemma-2 27B | 27B | 72.10% | 223,174 | -3.09% | +55.07% |
| 11 | Qwen3-14B | 14B | 71.65% | 260,407 | -3.70% | +80.95% |
| 12 | Doktor-Gemma3 12B | 12B | 71.08% | 211,024 | -4.46% | +46.63% |
| 13 | Gemma-3 12B | 12B | 70.74% | 211,024 | -4.92% | +46.63% |
| 14 | Aya-Expanse 32B | 32B | 70.66% | 187,742 | -5.03% | +30.45% |
| 15 | Ministral-3 14B | 14B | 70.55% | 244,878 | -5.17% | +70.15% |
| ⚔️16 | Llama-3.1 70B | 70B | 70.42% | 221,411 | -5.35% | +53.85% |
| 🏛️17 | Turkish-Gemma-9b-T1 | 9B | 70.34% | 223,174 | -5.46% | +55.07% |
| 18 | Gemma-2 9B | 9B | 69.26% | 223,174 | -6.91% | +55.07% |
| 19 | Metin-Gemma2 DPO | 9B | 69.16% | 223,174 | -7.04% | +55.07% |
| 20 | GPT-OSS-20B (OpenAI) | 20B | 68.47% | 224,052 | -7.97% | +55.68% |
| 21 | Mistral-Small 24B | 24B | 68.37% | 244,937 | -8.10% | +70.20% |
| 22 | Qwen3-7B | 7B | 67.56% | 260,407 | -9.19% | +80.95% |
| 23 | Ministral-3B (latest) | 3B | 67.44% | 244,878 | -9.35% | +70.15% |
| 24 | Mistral-Small (old) | 24B | 66.97% | 244,937 | -9.99% | +70.20% |
| 25 | Phi-4 14B | 14B | 65.52% | 316,029 | -11.94% | +119.59% |
Token Farkı: Magibu-11b'ye kıyasla diğer modellerin aynı metni ifade etmek için yüzde kaç daha fazla token kullandığını gösterir. Pozitif değerler, modelin Türkçe için daha az verimli olduğunu (daha çok token harcadığını) belirtir.
🎯 Cetvel Türkçe Benchmark Sonuçları
Magibu-11b-v0.8, Cetvel — Türkçe için en kapsamlı birleşik LLM benchmark'ında — 34 model arasında 3. sırada yer almaktadır (ortalama: 32.5).
7 farklı NLP kategorisinde (GEC, MCQA, MT, NLI, QA, SUM, TC) toplam 26 görevde değerlendirilen model, 14B altındaki en yüksek puanlı model olarak öne çıkmaktadır. Kendisinden 3-6 kat büyük modelleri (aya-23-35B, aya-expanse-32b vs.) geride bırakmayı başarmıştır.
🥇 Soru Cevaplama (QA) kategorisinde tüm modeller arasında 1. sıra — 45.0 puanla en yakın rakibini (Qwen2.5-14B, 26.7) büyük farkla geçmiştir.
🥈 Özetleme (SUM) kategorisinde 2. sıra — 24.9 puanla aya-expanse-32b'yi (22.4) geride bırakmıştır.
📊 Cetvel Sıralama Tablosu
| # | Model | Boyut | Ort. | GEC | MCQA | MT | NLI | QA | SUM | TC |
|---|---|---|---|---|---|---|---|---|---|---|
| 1 | Llama-3.3-70B-Instruct | 70B | 35.9 | 44.1 | 60.1 | 24.0 | 32.4 | 16.1 | 16.2 | 58.1 |
| 2 | aya-expanse-32b | 32B | 33.6 | 4.5 | 55.6 | 27.6 | 43.3 | 26.2 | 22.4 | 55.3 |
| 3 | 🧿 Magibu-11b-v0.8 | 11B | 32.5 | 19.6 | 49.3 | 11.4 | 32.1 | 45.0 | 24.9 | 44.9 |
| 4 | aya-23-35B | 35B | 31.7 | 30.8 | 48.8 | 25.1 | 37.6 | 23.7 | 17.6 | 38.0 |
| 5 | cere-llama-3-8b-tr | 8B | 30.4 | 46.0 | 44.8 | 8.2 | 34.0 | 24.2 | 12.2 | 43.7 |
| 6 | Meta-Llama-3.1-8B | 8B | 30.3 | 35.3 | 45.8 | 21.2 | 32.2 | 19.3 | 13.5 | 44.8 |
| 7 | Meta-Llama-3.1-8B-Instruct | 8B | 29.3 | 31.5 | 50.1 | 15.9 | 36.0 | 18.0 | 13.5 | 40.1 |
| 8 | Meta-Llama-3-8B | 8B | 29.1 | 34.1 | 43.0 | 19.1 | 33.9 | 20.9 | 12.3 | 40.6 |
| 9 | Qwen2.5-7B | 7B | 29.1 | 22.3 | 50.6 | 11.9 | 34.0 | 20.5 | 12.8 | 51.6 |
| 10 | Ministral-8B-Instruct | 8B | 28.1 | 39.1 | 42.8 | 15.8 | 34.0 | 14.2 | 12.8 | 38.0 |
| … | (24 model daha) | |||||||||
| 34 | TURNA | — | 16.3 | 0.0 | 35.9 | 0.2 | 34.1 | 0.0 | 7.1 | 36.6 |
Kategori Kısaltmaları: GEC = Gramer Düzeltme, MCQA = Çoktan Seçmeli, MT = Makine Çevirisi, NLI = Doğal Dil Çıkarımı, QA = Soru Cevaplama, SUM = Özetleme, TC = Metin Sınıflandırma
🔍 Kategori Detayları
🥇 Soru Cevaplama (QA) — 45.0 puan — Tüm Modeller Arasında 1. Sıra
| Görev | F1 | EM | Açıklama |
|---|---|---|---|
| tquad | 66.5 | 44.6 | Türkçe SQuAD |
| xquad_tr | 57.7 | 41.0 | Çapraz Dil QA (Türkçe) |
| mkqa_tr | 10.8 | 5.8 | Çok Dilli Açık Alan QA |
🥈 Özetleme (SUM) — 24.9 puan — Tüm Modeller Arasında 2. Sıra
| Görev | ROUGE-1 | ROUGE-2 | ROUGE-L | Açıklama |
|---|---|---|---|---|
| mlsum_tr | 33.8 | 18.3 | 27.0 | Haber özetleme |
| xlsum_tr | 26.1 | 11.5 | 19.6 | Çapraz dil özetleme |
| wiki_lingua_tr | 20.6 | 6.4 | 15.6 | WikiHow makale özetleme |
| tr-wikihow-summ | 19.2 | 5.8 | 14.1 | WikiHow özetleme |
📝 Çoktan Seçmeli (MCQA) — 49.3 puan
| Görev | Skor | Açıklama |
|---|---|---|
| belebele_tr | 81.2 | Okuduğunu anlama |
| xcopa_tr | 63.6 | Nedensel muhakeme |
| turkish_plu_step_ordering | 59.2 | Prosedürel adım sıralama |
| turkish_plu_next_event | 43.0 | Sonraki olay tahmini |
| exams_tr | 37.2 | Türkçe sınav soruları |
| turkish_plu_goal_inference | 31.0 | Hedef çıkarımı |
| turkish_plu_step_inference | 30.0 | Adım çıkarımı |
🏷️ Metin Sınıflandırma (TC) — 44.9 puan
| Görev | Skor | Açıklama |
|---|---|---|
| ironytr | 68.2 | İroni algılama |
| offenseval_tr | 52.8 | Saldırgan dil tespiti |
| news_cat | 49.2 | Haber kategorilendirme |
| relevance_judgment | 45.0 | İddia ilişkisi |
| check_worthiness | 43.0 | Doğrulanabilirlik tespiti |
| xfact_tr | 33.1 | Doğruluk kontrolü |
| sts_tr | 23.0 | Anlamsal metin benzerliği |
🔗 Doğal Dil Çıkarımı (NLI) — 32.1 puan
| Görev | Skor | Açıklama |
|---|---|---|
| xnli_tr | 34.2 | Çapraz dil NLI |
| snli_tr | 32.2 | Stanford NLI (Türkçe) |
| mnli_tr | 29.8 | Multi-genre NLI (Türkçe) |
✏️ Gramer Düzeltme (GEC) — 19.6 puan
| Görev | Skor | Açıklama |
|---|---|---|
| gecturk_generation | 19.6 | Birebir gramer düzeltme |
🌐 Makine Çevirisi (MT) — 11.4 puan
| Görev | BLEU | WER | Açıklama |
|---|---|---|---|
| wmt-tr-en-prompt | 11.4 | 93.4 | İngilizce → Türkçe çeviri |
🧠 Ek: TurkishMMLU Sonuçları (Cetvel ile) — 56.6 ortalama
Cetvel değerlendirmesi kapsamında ayrıca çalıştırılan TurkishMMLU alt görevleri (standart sıralamaya dahil değildir):
| Konu | Skor |
|---|---|
| Felsefe | 83.0 |
| Din Kültürü ve Ahlak | 79.0 |
| Coğrafya | 71.0 |
| Tarih | 66.0 |
| Türk Dili ve Edebiyatı | 48.0 |
| Biyoloji | 45.0 |
| Fizik | 43.0 |
| Kimya | 42.0 |
| Matematik | 32.0 |
🏗️ Ek: Türk Kültürü ve Dil Görevleri — 58.2 ortalama
| Görev | Skor | Açıklama |
|---|---|---|
| circumflex_tr | 64.3 | Türkçe şapka işareti ayrımı |
| turkce_atasozleri | 60.6 | Türkçe atasözü tamamlama |
| bilmecebench | 49.8 | Türkçe bilmece benchmark'ı |
💡 Güçlü ve Zayıf Yönler (Cetvel)
Güçlü Yönler:
- QA'da Sınıfının Lideri: 45.0 puanla tüm sıralamada 1. sıra. En yakın rakip (Qwen2.5-14B) 26.7 puan almıştır.
- Özetleme Gücü: 24.9 puanla 32B'lik aya-expanse modelini geride bırakmıştır.
- Boyut Verimliliği: 11B parametre ile 35B'ye kadar tüm modelleri geçmiştir (aya-23-35B: 31.7).
- Türk Kültürü Bilgisi: TurkishMMLU'da Felsefe %83, Din Kültürü %79, Coğrafya %71 ile güçlü Türk kültürel bilgi birikimi.
Geliştirmeye Açık Alanlar:
- Makine Çevirisi (11.4): Model paralel çeviri için özel olarak eğitilmemiştir.
- NLI (32.1): Sıralama ortalamasının biraz altında.
- GEC (19.6): Birebir eşleşme metriği, parafraz yapabilen chat modeli için sert bir ölçüttür.
📋 Değerlendirme Detayları
| Parametre | Değer |
|---|---|
| Benchmark | Cetvel v1.0 |
| Framework | lm-evaluation-harness v0.4.11 |
| Precision | bfloat16 (~22 GB VRAM) |
| Max Length | 4096 token |
| Few-shot | 0-shot |
| Sample Limit | 500 / görev |
| Chat Template | Gemma-2 formatı |
| System Instruction | "Sadece istenen çıktıyı üret." |
| Toplam Görev | 38 (26 standart + 9 TurkishMMLU + 3 ekstra) |
| GPU | NVIDIA A100-SXM4-80GB |
| Çalışma Süresi | ~90 dakika |
Not: Değerlendirme görev başına 500 örnek limiti ile yapılmıştır. Tam veri seti ile yapılan değerlendirmelerde ±%2-3 sapma beklenebilir. Detaylı rapor ve replikasyon rehberi için: cetvel_results_magibu_11b_v0.8.md
📊 Görsel Analizler
📈 MMLU Sıralaması
44 modelin Türkçe performans sıralaması. Magibu-11b (turuncu ◆), kendisinden çok daha büyük modelleri (Llama-3.1 70B, Gemma-2 27B vb.) geride bırakmıştır.
🎯 Token Verimliliği vs. Performans
Bu grafik, modellerin doğruluğu (Y ekseni) ile token harcamasını (X ekseni) karşılaştırır. İdeal konum sol üst köşedir (az token, çok başarı). Magibu-11b bu bölgede tek başınadır.
📊 Tokenizer Verimlilik Karşılaştırması
Modellerin aynı Türkçe veri setini (MMLU) kaç token ile ifade ettiğinin karşılaştırması. Magibu en düşük token sayısına sahiptir.
🏷️ Model Aileleri Karşılaştırması
Farklı model ailelerinin (Gemma, Llama, Qwen, vb.) verimlilik gruplandırması. Magibu (turuncu ●) diğer tüm ailelerden ayrı bir verimlilik sınıfındadır.
🧪 Token Verimliliği Nedir? Neden Önemli?
Türkçe'nin Yapısal Sorunu
Türkçe gibi sondan eklemeli dillerde kelimeler ek alarak uzar. Standart Batı dilleri için eğitilmiş tokenizer'lar bu kelimeleri verimsiz böler.
Örnek:
| Türkçe İfade | Standart Tokenizer | Magibu Tokenizer |
|---|---|---|
evlerimizden |
ev, ler, im, iz, den (5 token) |
evlerimizden (1-2 token) |
güzelleştiremediklerimizden |
8-12 token | 3-4 token |
Türkiye'nin |
Tür, kiye, ', nin (4 token) |
Türkiye'nin (1-2 token) |
Sonuç: alibayram/turkish_mmlu veri setinin tamamı tokenize edildiğinde ortaya çıkan farklar:
| Sıra | Tokenizer | Toplam Token | Fark (vs Magibu) | Not |
|---|---|---|---|---|
| 🥇 | Magibu-11b | 143,915 | — | 🇹🇷 En İyi Türkçe Model |
| 🥈 | Aya-Expanse | 187,742 | +30.5% daha fazla | Çok dilli model |
| 🥉 | Gemma-3 | 211,024 | +46.6% daha fazla | Google Official |
| 4 | Llama-3 | 221,411 | +53.9% daha fazla | Meta Official |
| 5 | Turkish-Gemma-9b (COSMOS) | 223,174 | +55.1% daha fazla | YTU (Fine-tune) |
| 6 | Qwen2/3 | 260,407 | +80.9% daha fazla | Alibaba |
| 7 | DeepSeek-V3.2 | 326,246 | +126.7% daha fazla | DeepSeek |
Pratik Etkisi: Magibu ile 1000 token tutan bir işlem, diğer modellerde 1300-2200 token tutar. Magibu kullanmak daha hızlıdır, daha ucuzdur ve daha uzun metinleri hafızada tutabilir.
🚀 Hızlı Başlangıç (Quick Start)
🤗 Transformers
from transformers import pipeline
soru = "Zaman makineniz olsaydı ve sadece bir kez geçmişe ya da geleceğe gidebilseydiniz, hangisini seçerdiniz ve neden?"
generator = pipeline("text-generation", model="magibu/magibu-11b-v0.8", device="cuda")
cevap = generator(
[{"role": "user", "content": soru}],
max_new_tokens=512,
return_full_text=False
)[0]
print(cevap["generated_text"])
🖼️ Görsel Kullanımı (Multimodal)
Magibu-11b, görselleri anlayabilir ve soruları yanıtlayabilir (VLM):
from transformers import AutoProcessor, AutoModelForImageTextToText
from PIL import Image
model = AutoModelForImageTextToText.from_pretrained("magibu/magibu-11b-v0.8", device_map="auto")
processor = AutoProcessor.from_pretrained("magibu/magibu-11b-v0.8")
image = Image.open("foto.jpg")
messages = [
{"role": "user", "content": [
{"type": "image", "image": image},
{"type": "text", "text": "Bu fotoğrafta ne görüyorsun? Detaylı açıkla."}
]}
]
inputs = processor.apply_chat_template(messages, return_tensors="pt").to(model.device)
output = model.generate(**inputs, max_new_tokens=512)
print(processor.decode(output[0], skip_special_tokens=True))
🦙 Ollama (Kolay Kurulum)
# Tek komutla kur ve çalıştır
ollama run alibayram/magibu-11b-v8
🍎 MLX (Apple Silicon - M1/M2/M3/M4)
pip install mlx-vlm
# OpenAI uyumlu sunucu başlat
mlx_vlm.server --model alibayram/magibu-11b-v8-mlx --port 8080
# Veya Python içinde kullan
mlx_vlm.generate --model alibayram/magibu-11b-v8-mlx --prompt "Merhaba, nasılsın?"
📦 İndirme Seçenekleri (Model Formats)
| Format | Link | Boyut | Kullanım Alanı |
|---|---|---|---|
| 🤗 Transformers (bfloat16) | magibu/magibu-11b-v0.8 | ~22 GB | Fine-tuning, Araştırma, GPU |
| 🦙 Ollama (GGUF) | ollama.com/alibayram/magibu-11b-v8 | ~6 GB | PC, Mac, CPU+GPU |
| 🍎 MLX (4-bit) | alibayram/magibu-11b-v8-mlx | ~6 GB | Apple Silicon Mac (M Serisi) |
⚠️ Sınırlamalar ve Uyarılar
- Deneysel Sürüm (v0.8): Bu model halen aktif geliştirme aşamasındadır.
- Halüsinasyon: Tüm dil modelleri gibi, Magibu da zaman zaman yanlış bilgi üretebilir. Kritik konularda (sağlık, hukuk) doğruluğu teyit edilmelidir.
- Bilgi Kesimi: Eğitim verisinin kapsadığı tarih aralığı sınırlıdır, en güncel olayları bilmeyebilir.
- Yanlılık: Eğitim verisinden kaynaklı toplumsal önyargılar barındırabilir.
🔗 Kaynaklar
| Kaynak | Link |
|---|---|
| 🤗 Model Sayfası | magibu/magibu-11b-v0.8 |
| 🌐 Resmi Site | magibu-chat.web.app |
| 💬 Canlı Demo | magibu-chat.web.app |
| 📚 MMLU Benchmark Verisi | alibayram/turkish_mmlu |
| 📏 Cetvel Benchmark | KUIS-AI/cetvel |
| 📄 Cetvel Detaylı Rapor | cetvel_results_magibu_11b_v0.8.md |
📜 Atıf (Citation)
Modeli çalışmalarınızda kullanırsanız lütfen aşağıdaki şekilde atıf yapınız:
@misc{bayram2025magibu,
title = {{Magibu-11b: A Turkish-Native Multilingual Vision-Language Model with Optimized Tokenization}},
author = {Ali Bayram},
year = 2025,
howpublished = {\url{https://huggingface.co/magibu/magibu-11b-v0.8}},
note = {Developed by Magibu AI Research}
}
Magibu AI Research tarafından ❤️ ile geliştirildi 🧿
Geri bildirimleriniz bizim için değerlidir — demo üzerindeki butonu kullanarak iletebilirsiniz.
- Downloads last month
- 39
4-bit
Model tree for alibayram/magibu-11b-v8-mlx
Unable to build the model tree, the base model loops to the model itself. Learn more.



