xlm_roberta_ner_musa

Bu model, AskMyDocs projesi kapsamında döküman analizi ve varlık isimlendirme (NER) görevleri için xlm-roberta-base modeli üzerine ince ayar (fine-tuning) yapılmış profesyonel bir sürümdür.

Özellikle Türkçe metinlerde kişi (PER), kurum (ORG) ve yer (LOC) gibi temel varlıkları yüksek doğrulukla tespit etmek üzere optimize edilmiştir.

📝 Model Açıklaması

  • Geliştiren: Musa Ok (Istanbul Arel University)
  • Model Tipi: Token Classification (Varlık İsimlendirme)
  • Temel Model: xlm-roberta-base
  • Dil: Türkçe ve Çok Dilli
  • Proje: AskMyDocs - RAG Tabanlı Akıllı Döküman Asistanı

🛠️ Kullanım Amacı ve Sınırlamalar

Bu model, dökümanlardaki yapılandırılmamış metinleri analiz etmek ve önemli bilgileri etiketlemek için tasarlanmıştır. Özellikle RAG (Retrieval-Augmented Generation) sistemlerinde, LLM'lere (Gemma 2 vb.) daha temiz ve analiz edilmiş bağlamlar sunmak için idealdir.

Örnek Kullanım (Python)

from transformers import pipeline

# Modeli yükle
ner_pipeline = pipeline("ner", model="Musa-ok/xlm_roberta_ner_musa")

# Test metni
text = "Birleşmiş Milletler, dünya barışını korumak amacıyla New York merkezinde bir toplantı gerçekleştirdi."

# Tahmin al
results = ner_pipeline(text)
for entity in results:
    print(entity)

📊 Eğitim ve Değerlendirme Sonuçları

Model, 3 epoch sonunda aşağıdaki başarı metriklerine ulaşmıştır:

  • F1 Skoru: 0.9186
  • Doğrulama Kaybı (Validation Loss): 0.1600
Training Loss Epoch Step Validation Loss F1
0.4022 1.0 2500 0.1440 0.8834
0.2774 2.0 5000 0.1405 0.9128
0.2259 3.0 7500 0.1600 0.9186

⚙️ Eğitim Prosedürü

Hiperparametreler

Eğitim sırasında aşağıdaki konfigürasyonlar kullanılmıştır:

  • Öğrenme Oranı (Learning Rate): 2e-05
  • Eğitim Partisi Boyutu (Train Batch Size): 4
  • Değerlendirme Partisi Boyutu (Eval Batch Size): 8
  • Tohum (Seed): 42
  • Gradyan Biriktirme Adımları (Gradient Accumulation Steps): 2
  • Optimizer: AdamW (Fused)

Çerçeve Versiyonları

  • Transformers: 5.0.0
  • PyTorch: 2.9.0+cu128
  • Datasets: 4.0.0
  • Tokenizers: 0.22.2
Downloads last month
30
Safetensors
Model size
0.3B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 1 Ask for provider support

Model tree for Musa-ok/xlm_roberta_ner_musa

Finetuned
(3772)
this model

Evaluation results