embeddingmagibu-200m
Bu model, Türkçe odaklı ancak 40+ dili destekleyen (Multilingual) ve çok uzun bağlam (8192 token) sentence embedding üretmek için eğitilmiş bir SentenceTransformer modelidir. 768 boyutlu normalize vektör uzayına projeksiyon yapar. 152M versiyonunun başarısı üzerine kurgulanmış olup, 200M parametre boyutu ve artırılmış bağlam uzunluğu ile daha derinlemesine metin temsili sağlar.
Özellikle şu görevler için uygundur:
- Uzun Doküman Temsili (Long Context Retrieval)
- Semantik benzerlik (STS)
- Semantik arama / retrieval
- Kümeleme
- Sınıflandırma (embedding tabanlı)
Model Performansı
1) Detaylı MTEB Sonuçları (19 Görev)
Modelin TR-MTEB kapsamında değerlendirildiği 19 görevin detaylı sonuçları aşağıdadır:
| Kategori | Görev (Task) | Skor |
|---|---|---|
| STS | STSbTR | 77.5 |
| NLI | SnliTr | 60.8 |
| XNLI | 76.0 | |
| Retrieval | SquadTRRetrieval | 62.3 |
| MSMarcoTRRetrieval | 57.4 | |
| TQuadRetrieval | 79.5 | |
| Sınıflandırma | THYSentimentClassification | 59.5 |
| TSTimelineNewsCategoryClassification | 58.7 | |
| Turkish75NewsClassification | 90.7 | |
| TurkishIronyClassification | 52.6 | |
| TurkishMovieSentimentClassification | 71.9 | |
| TurkishNewsCategoryClassification | 88.8 | |
| TurkishOffensiveLanguageClassification | 63.9 | |
| TurkishProductSentimentClassification | 60.9 | |
| Kümeleme | TurkishAbstractCorpusClustering | 58.9 |
| TurkishColumnWritingClustering | 63.6 | |
| İki-Dilli | WMT16BitextMining | 97.1 |
| Diğer | ArguAnaTR | 45.3 |
| NFCorpusTR | 10.7 | |
| GENEL | Ortalama | 69.5 |
2) Versiyon Karşılaştırması (200m vs 152m)
Önceki versiyon olan embeddingmagibu-152m ile ortak 15 görevdeki karşılaştırma sonuçları:
| Görev | embeddingmagibu-200m | embeddingmagibu-152m | Fark |
|---|---|---|---|
| ORTALAMA | 69.5 | 67.0 | +2.5 🚀 |
| STSbTR | 77.5 | 75.1 | +2.4 |
| SnliTr | 60.8 | 55.4 | +5.4 |
| SquadTRRetrieval | 62.3 | 68.7 | -6.4 |
| THYSentimentClassification | 59.5 | 51.0 | +8.5 |
| TSTimelineNewsCategoryClassification | 58.7 | 60.8 | -2.1 |
| Turkish75NewsClassification | 90.7 | 92.7 | -2.0 |
| TurkishAbstractCorpusClustering | 58.9 | 61.8 | -2.9 |
| TurkishColumnWritingClustering | 63.6 | 61.8 | +1.8 |
| TurkishIronyClassification | 52.6 | 48.4 | +4.2 |
| TurkishMovieSentimentClassification | 71.9 | 67.3 | +4.6 |
| TurkishNewsCategoryClassification | 88.8 | 90.8 | -2.0 |
| TurkishOffensiveLanguageClassification | 63.9 | 59.6 | +4.3 |
| TurkishProductSentimentClassification | 60.9 | 59.1 | +1.8 |
| WMT16BitextMining | 97.1 | 91.9 | +5.2 |
| XNLI | 76.0 | 60.8 | +15.2 |
Model, sıfırdan rastgele başlatılmak yerine iki aşamalı özel bir yaklaşımla geliştirilmiştir:
- Tokenizer yeniden eğitimi (Türkçe için 128K vocab BPE)
- Transformer klonlama (teacher model ağırlıklarını kopyala + yeni vocab için embedding tablosunu hesapla)
- Embedding distillation (teacher embedding’lerini önceden hesapla, student’ı yaklaştır)
Bu sayede, büyük modellerle yarışan kaliteyi hedeflerken parametre sayısı yaklaşık 200M seviyesinde tutulmuştur.
Model Mimarisi
Bu model SentenceTransformers formatında aşağıdaki boru hattını kullanır. max_seq_length değeri 8192'ye çıkarılmıştır:
SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: Gemma3TextModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Dense({'in_features': 768, 'out_features': 3072, 'bias': False, 'activation_function': 'torch.nn.modules.linear.Identity'})
(3): Dense({'in_features': 3072, 'out_features': 768, 'bias': False, 'activation_function': 'torch.nn.modules.linear.Identity'})
(4): Normalize()
)
Eğitim Süreci ve Oluşturulma Detayları
Bu bölüm, modelin “nasıl üretildiğini” teknik detaylarıyla anlatır.
1) Tokenizer: 128K vocab BPE (SentencePiece)
- Tokenizer türü: BPE
- Vocab: 128K => 131072 token
- Eğitim kütüphanesi: SentencePiece
- Tokenizer eğitim verisi: ytu-ce-cosmos/Cosmos-Turkish-Corpus-v1.0
- Dataset kartına göre: Türkçe pretrain korpusu, ~15B token.
Amaç: Türkçe metinler için daha uygun alt-parça dağılımı elde ederek vocab’ı küçültmek ve embedding tablosu parametrelerini optimize etmektir.
2) Model Klonlama: transformer-cloner
Sıfırdan model başlatmak yerine, teacher modelin (EmbeddingGemma) ağırlıklarını koruyarak yeni tokenizer’a adapte edebilmek için transformer-cloner kütüphanesi kullanılmıştır.
- Yöntem: Teacher modeldeki transformer katmanları korunur. Yeni tokenizer’daki her token için teacher tarafında bir token-id eşlemesi oluşturulur ve embeddingler hesaplanarak (MEAN stratejisi ile) aktarılır.
3) Distillation (Bilgi Damıtma)
Student model, teacher’ın embedding uzayına yaklaşacak şekilde eğitilmiştir.
Teacher embedding'leri önceden hesaplanmış ve distil-trainer kullanılarak student model optimize edilmiştir.
Evaluation (Değerlendirme)
Modelin performansı STSbTR (Semantic Textual Similarity Benchmark - Turkish) üzerinde ölçülmüştür. TR-MTEB (Massive Text Embedding Benchmark) testleri devam etmektedir ve tamamlandığında eklenecektir.
1) STSbTR (figenfikri/stsb_tr) Sonuçları
Aşağıdaki tablo, modelin test setindeki performansını ve diğer modellerle karşılaştırmasını göstermektedir.
Test Metriği:
- Samples: 5749
- Inference Time: 37.05s
| Model | Pearson | Spearman |
|---|---|---|
| intfloat/multilingual-e5-large-instruct | 0.8275 | 0.8129 |
| trmteb/turkish-embedding-model-fine-tuned | 0.8215 | 0.8061 |
| embeddingmagibu-200m (Bu Model) | 0.8199 | 0.7980 |
| ytu-ce-cosmos/turkish-e5-large | 0.8090 | 0.7906 |
| sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2 | 0.7884 | 0.7659 |
| google/embeddinggemma-300m (Teacher) | 0.7391 | 0.7194 |
Not: Bu sonuçlar modelin özellikle semantik benzerlik konusunda teacher modelini (EmbeddingGemma-300m) belirgin şekilde geçtiğini ve lider tablosundaki (SOTA) modellere çok yaklaştığını göstermektedir.
2) TR-MTEB Sonuçları
TR-MTEB (Türkçe Gömme Kıyaslaması) sonuçlarına göre modelimiz, 768 boyutlu modeller arasında genel ortalamada 69.5 puan ile üst sıralarda yer almaktadır. Özellikle STS (77.5) ve Retrieval (76.0) görevlerinde güçlü performans sergilediği görülmektedir.
Aşağıdaki tablo, MTEB lider tablosundaki ilgili modellerin genel ve kategori bazlı skorlarını göstermektedir:
| Rank | Model | Avg | STS | NLI | Erişim (Ret.) | Sınıflandırma | Kümeleme | İki-Dilli | Diğer |
|---|---|---|---|---|---|---|---|---|---|
| 1 | intfloat/multilingual-e5-large-instruct | 72.8 | 81.2 | 52.5 | 72.7 | 73.0 | 51.3 | 56.8 | 84.7 |
| 2 | intfloat/multilingual-e5-large | 72.3 | 81.2 | 55.8 | 72.6 | 80.1 | 61.1 | 58.1 | 88.6 |
| 3 | ytu-ce-cosmos/turkish-e5-large | 72.2 | 80.0 | 54.8 | 70.9 | 76.4 | 50.8 | 58.7 | 84.1 |
| 4 | newmindai/TurkEmbed4STS | 71.4 | 85.5 | 63.7 | 81.0 | 69.9 | 53.7 | 56.0 | 84.6 |
| 5 | google/embeddinggemma-300m | 71.0 | 72.9 | 54.7 | 67.6 | 73.3 | - | - | - |
| 6 | selmanbaysan/turkish embedding model fine tuned | 70.5 | 78.4 | 63.2 | 80.0 | 58.1 | 51.7 | 57.2 | 80.4 |
| 7 | sentence-transformers/paraphrase-multilingual-mpnet-base-v2 | 69.8 | 82.2 | 60.7 | 82.8 | 58.0 | 46.2 | 51.5 | 65.9 |
| 8 | alibaba-NLP/gte-multilingual-base | 69.8 | 80.7 | 60.3 | 75.7 | 68.6 | 56.3 | 56.8 | 81.9 |
| 9 | alibayram/embeddingmagibu-200m | 69.5 | 77.5 | 60.8 | 76.0 | 62.3 | - | 57.4 | 79.5 |
| 10 | intfloat/multilingual-e5-base | 69.5 | 78.4 | 54.0 | 68.8 | 76.9 | 56.0 | 57.1 | 86.9 |
Analiz: Modelimiz, teacher modeli olan
google/embeddinggemma-300m(Rank 5, Avg 71.0) ile karşılaştırıldığında, boyutu 200M'a düşürülmüş olmasına rağmen özellikle STS (77.5 vs 72.9) ve Retrieval (76.0 vs 67.6) görevlerinde öğretmenini geçmeyi başarmıştır. NLI skorunda da (60.8 vs 54.7) belirgin bir iyileşme görülmektedir. Sınıflandırma ve diğer bazı görevlerde ise bir miktar performans farkı oluşmuştur.
Usage (Kullanım)
Sentence Transformers
Kurulum:
pip install -U sentence-transformers
Basit kullanım:
from sentence_transformers import SentenceTransformer
# Modeli yükle (remote code trust gerekli olabilir)
model = SentenceTransformer("alibayram/embeddingmagibu-200m", trust_remote_code=True)
# 8192 token uzunluğuna kadar metinleri işleyebilir
sentences = [
"Bugün hava çok güzel.",
"Dışarısı güneşli.",
"Uzun bağlam gerektiren çok detaylı bir hukuki veya teknik metin..."
]
embeddings = model.encode(sentences, normalize_embeddings=True)
print(embeddings.shape) # (3, 768)
Benzerlik hesaplama:
import numpy as np
sim = embeddings @ embeddings.T # normalize edilmişse cosine == dot
print(sim)
Query/Document Modu
Model include_prompt=True ayarı ile eğitildiği için sorgu (query) ve doküman (document) ayrımı yapabilir:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("alibayram/embeddingmagibu-200m", trust_remote_code=True)
query = "Yapay zeka modellerinde distillation nedir?"
docs = [
"Distillation, büyük bir öğretmen modelin bilgisinin daha küçük bir öğrenci modele aktarılmasıdır.",
"Yapay zeka günümüzde çok popüler.",
]
q = model.encode_query(query)
d = model.encode_document(docs)
scores = model.similarity(q, d)
print(scores)
Sınırlamalar ve Uyarılar
- Context Length: Model 8192 token'a kadar destek verse de, çok uzun metinlerde (chunking olmadan) tek parça embedding almak bellek kullanımını artırabilir.
- Precision:
float16yerine mümkünsebfloat16veyafloat32kullanımı önerilir.
Citation
Eğer bu modeli akademik çalışmanızda kullanırsanız:
@misc{embeddingmagibu_200m_2026,
title={embeddingmagibu-200m: Long-Context Turkish Sentence Embeddings},
author={Bayram, M. Ali},
year={2026},
url={[https://huggingface.co/alibayram/embeddingmagibu-200m](https://huggingface.co/alibayram/embeddingmagibu-200m)}
}
Model Card Authors / Contact
- Ali Bayram (alibayram)
- Downloads last month
- 98
