embeddingmagibu-200m.png

embeddingmagibu-200m

Bu model, Türkçe odaklı ancak 40+ dili destekleyen (Multilingual) ve çok uzun bağlam (8192 token) sentence embedding üretmek için eğitilmiş bir SentenceTransformer modelidir. 768 boyutlu normalize vektör uzayına projeksiyon yapar. 152M versiyonunun başarısı üzerine kurgulanmış olup, 200M parametre boyutu ve artırılmış bağlam uzunluğu ile daha derinlemesine metin temsili sağlar.

Özellikle şu görevler için uygundur:

  • Uzun Doküman Temsili (Long Context Retrieval)
  • Semantik benzerlik (STS)
  • Semantik arama / retrieval
  • Kümeleme
  • Sınıflandırma (embedding tabanlı)

Model Performansı

1) Detaylı MTEB Sonuçları (19 Görev)

Modelin TR-MTEB kapsamında değerlendirildiği 19 görevin detaylı sonuçları aşağıdadır:

Kategori Görev (Task) Skor
STS STSbTR 77.5
NLI SnliTr 60.8
XNLI 76.0
Retrieval SquadTRRetrieval 62.3
MSMarcoTRRetrieval 57.4
TQuadRetrieval 79.5
Sınıflandırma THYSentimentClassification 59.5
TSTimelineNewsCategoryClassification 58.7
Turkish75NewsClassification 90.7
TurkishIronyClassification 52.6
TurkishMovieSentimentClassification 71.9
TurkishNewsCategoryClassification 88.8
TurkishOffensiveLanguageClassification 63.9
TurkishProductSentimentClassification 60.9
Kümeleme TurkishAbstractCorpusClustering 58.9
TurkishColumnWritingClustering 63.6
İki-Dilli WMT16BitextMining 97.1
Diğer ArguAnaTR 45.3
NFCorpusTR 10.7
GENEL Ortalama 69.5

2) Versiyon Karşılaştırması (200m vs 152m)

Önceki versiyon olan embeddingmagibu-152m ile ortak 15 görevdeki karşılaştırma sonuçları:

Görev embeddingmagibu-200m embeddingmagibu-152m Fark
ORTALAMA 69.5 67.0 +2.5 🚀
STSbTR 77.5 75.1 +2.4
SnliTr 60.8 55.4 +5.4
SquadTRRetrieval 62.3 68.7 -6.4
THYSentimentClassification 59.5 51.0 +8.5
TSTimelineNewsCategoryClassification 58.7 60.8 -2.1
Turkish75NewsClassification 90.7 92.7 -2.0
TurkishAbstractCorpusClustering 58.9 61.8 -2.9
TurkishColumnWritingClustering 63.6 61.8 +1.8
TurkishIronyClassification 52.6 48.4 +4.2
TurkishMovieSentimentClassification 71.9 67.3 +4.6
TurkishNewsCategoryClassification 88.8 90.8 -2.0
TurkishOffensiveLanguageClassification 63.9 59.6 +4.3
TurkishProductSentimentClassification 60.9 59.1 +1.8
WMT16BitextMining 97.1 91.9 +5.2
XNLI 76.0 60.8 +15.2

Model, sıfırdan rastgele başlatılmak yerine iki aşamalı özel bir yaklaşımla geliştirilmiştir:

  1. Tokenizer yeniden eğitimi (Türkçe için 128K vocab BPE)
  2. Transformer klonlama (teacher model ağırlıklarını kopyala + yeni vocab için embedding tablosunu hesapla)
  3. Embedding distillation (teacher embedding’lerini önceden hesapla, student’ı yaklaştır)

Bu sayede, büyük modellerle yarışan kaliteyi hedeflerken parametre sayısı yaklaşık 200M seviyesinde tutulmuştur.


Model Mimarisi

Bu model SentenceTransformers formatında aşağıdaki boru hattını kullanır. max_seq_length değeri 8192'ye çıkarılmıştır:

SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: Gemma3TextModel
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Dense({'in_features': 768, 'out_features': 3072, 'bias': False, 'activation_function': 'torch.nn.modules.linear.Identity'})
  (3): Dense({'in_features': 3072, 'out_features': 768, 'bias': False, 'activation_function': 'torch.nn.modules.linear.Identity'})
  (4): Normalize()
)

Eğitim Süreci ve Oluşturulma Detayları

Bu bölüm, modelin “nasıl üretildiğini” teknik detaylarıyla anlatır.

1) Tokenizer: 128K vocab BPE (SentencePiece)

  • Tokenizer türü: BPE
  • Vocab: 128K => 131072 token
  • Eğitim kütüphanesi: SentencePiece
  • Tokenizer eğitim verisi: ytu-ce-cosmos/Cosmos-Turkish-Corpus-v1.0
    • Dataset kartına göre: Türkçe pretrain korpusu, ~15B token.

Amaç: Türkçe metinler için daha uygun alt-parça dağılımı elde ederek vocab’ı küçültmek ve embedding tablosu parametrelerini optimize etmektir.

2) Model Klonlama: transformer-cloner

Sıfırdan model başlatmak yerine, teacher modelin (EmbeddingGemma) ağırlıklarını koruyarak yeni tokenizer’a adapte edebilmek için transformer-cloner kütüphanesi kullanılmıştır.

  • Yöntem: Teacher modeldeki transformer katmanları korunur. Yeni tokenizer’daki her token için teacher tarafında bir token-id eşlemesi oluşturulur ve embeddingler hesaplanarak (MEAN stratejisi ile) aktarılır.

3) Distillation (Bilgi Damıtma)

Student model, teacher’ın embedding uzayına yaklaşacak şekilde eğitilmiştir. Teacher embedding'leri önceden hesaplanmış ve distil-trainer kullanılarak student model optimize edilmiştir.


Evaluation (Değerlendirme)

Modelin performansı STSbTR (Semantic Textual Similarity Benchmark - Turkish) üzerinde ölçülmüştür. TR-MTEB (Massive Text Embedding Benchmark) testleri devam etmektedir ve tamamlandığında eklenecektir.

1) STSbTR (figenfikri/stsb_tr) Sonuçları

Aşağıdaki tablo, modelin test setindeki performansını ve diğer modellerle karşılaştırmasını göstermektedir.

Test Metriği:

  • Samples: 5749
  • Inference Time: 37.05s
Model Pearson Spearman
intfloat/multilingual-e5-large-instruct 0.8275 0.8129
trmteb/turkish-embedding-model-fine-tuned 0.8215 0.8061
embeddingmagibu-200m (Bu Model) 0.8199 0.7980
ytu-ce-cosmos/turkish-e5-large 0.8090 0.7906
sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2 0.7884 0.7659
google/embeddinggemma-300m (Teacher) 0.7391 0.7194

Not: Bu sonuçlar modelin özellikle semantik benzerlik konusunda teacher modelini (EmbeddingGemma-300m) belirgin şekilde geçtiğini ve lider tablosundaki (SOTA) modellere çok yaklaştığını göstermektedir.

2) TR-MTEB Sonuçları

TR-MTEB (Türkçe Gömme Kıyaslaması) sonuçlarına göre modelimiz, 768 boyutlu modeller arasında genel ortalamada 69.5 puan ile üst sıralarda yer almaktadır. Özellikle STS (77.5) ve Retrieval (76.0) görevlerinde güçlü performans sergilediği görülmektedir.

Aşağıdaki tablo, MTEB lider tablosundaki ilgili modellerin genel ve kategori bazlı skorlarını göstermektedir:

Rank Model Avg STS NLI Erişim (Ret.) Sınıflandırma Kümeleme İki-Dilli Diğer
1 intfloat/multilingual-e5-large-instruct 72.8 81.2 52.5 72.7 73.0 51.3 56.8 84.7
2 intfloat/multilingual-e5-large 72.3 81.2 55.8 72.6 80.1 61.1 58.1 88.6
3 ytu-ce-cosmos/turkish-e5-large 72.2 80.0 54.8 70.9 76.4 50.8 58.7 84.1
4 newmindai/TurkEmbed4STS 71.4 85.5 63.7 81.0 69.9 53.7 56.0 84.6
5 google/embeddinggemma-300m 71.0 72.9 54.7 67.6 73.3 - - -
6 selmanbaysan/turkish embedding model fine tuned 70.5 78.4 63.2 80.0 58.1 51.7 57.2 80.4
7 sentence-transformers/paraphrase-multilingual-mpnet-base-v2 69.8 82.2 60.7 82.8 58.0 46.2 51.5 65.9
8 alibaba-NLP/gte-multilingual-base 69.8 80.7 60.3 75.7 68.6 56.3 56.8 81.9
9 alibayram/embeddingmagibu-200m 69.5 77.5 60.8 76.0 62.3 - 57.4 79.5
10 intfloat/multilingual-e5-base 69.5 78.4 54.0 68.8 76.9 56.0 57.1 86.9

Analiz: Modelimiz, teacher modeli olan google/embeddinggemma-300m (Rank 5, Avg 71.0) ile karşılaştırıldığında, boyutu 200M'a düşürülmüş olmasına rağmen özellikle STS (77.5 vs 72.9) ve Retrieval (76.0 vs 67.6) görevlerinde öğretmenini geçmeyi başarmıştır. NLI skorunda da (60.8 vs 54.7) belirgin bir iyileşme görülmektedir. Sınıflandırma ve diğer bazı görevlerde ise bir miktar performans farkı oluşmuştur.


Usage (Kullanım)

Sentence Transformers

Kurulum:

pip install -U sentence-transformers

Basit kullanım:

from sentence_transformers import SentenceTransformer

# Modeli yükle (remote code trust gerekli olabilir)
model = SentenceTransformer("alibayram/embeddingmagibu-200m", trust_remote_code=True)

# 8192 token uzunluğuna kadar metinleri işleyebilir
sentences = [
    "Bugün hava çok güzel.",
    "Dışarısı güneşli.",
    "Uzun bağlam gerektiren çok detaylı bir hukuki veya teknik metin..."
]

embeddings = model.encode(sentences, normalize_embeddings=True)
print(embeddings.shape)  # (3, 768)

Benzerlik hesaplama:

import numpy as np

sim = embeddings @ embeddings.T  # normalize edilmişse cosine == dot
print(sim)

Query/Document Modu

Model include_prompt=True ayarı ile eğitildiği için sorgu (query) ve doküman (document) ayrımı yapabilir:

from sentence_transformers import SentenceTransformer

model = SentenceTransformer("alibayram/embeddingmagibu-200m", trust_remote_code=True)

query = "Yapay zeka modellerinde distillation nedir?"
docs = [
    "Distillation, büyük bir öğretmen modelin bilgisinin daha küçük bir öğrenci modele aktarılmasıdır.",
    "Yapay zeka günümüzde çok popüler.",
]

q = model.encode_query(query)
d = model.encode_document(docs)

scores = model.similarity(q, d)
print(scores)

Sınırlamalar ve Uyarılar

  • Context Length: Model 8192 token'a kadar destek verse de, çok uzun metinlerde (chunking olmadan) tek parça embedding almak bellek kullanımını artırabilir.
  • Precision: float16 yerine mümkünse bfloat16 veya float32 kullanımı önerilir.

Citation

Eğer bu modeli akademik çalışmanızda kullanırsanız:

@misc{embeddingmagibu_200m_2026,
  title={embeddingmagibu-200m: Long-Context Turkish Sentence Embeddings},
  author={Bayram, M. Ali},
  year={2026},
  url={[https://huggingface.co/alibayram/embeddingmagibu-200m](https://huggingface.co/alibayram/embeddingmagibu-200m)}
}

Model Card Authors / Contact

  • Ali Bayram (alibayram)
Downloads last month
98
Safetensors
Model size
0.2B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support