xlm_roberta_ner_musa
Bu model, AskMyDocs projesi kapsamında döküman analizi ve varlık isimlendirme (NER) görevleri için xlm-roberta-base modeli üzerine ince ayar (fine-tuning) yapılmış profesyonel bir sürümdür.
Özellikle Türkçe metinlerde kişi (PER), kurum (ORG) ve yer (LOC) gibi temel varlıkları yüksek doğrulukla tespit etmek üzere optimize edilmiştir.
📝 Model Açıklaması
- Geliştiren: Musa Ok (Istanbul Arel University)
- Model Tipi: Token Classification (Varlık İsimlendirme)
- Temel Model: xlm-roberta-base
- Dil: Türkçe ve Çok Dilli
- Proje: AskMyDocs - RAG Tabanlı Akıllı Döküman Asistanı
🛠️ Kullanım Amacı ve Sınırlamalar
Bu model, dökümanlardaki yapılandırılmamış metinleri analiz etmek ve önemli bilgileri etiketlemek için tasarlanmıştır. Özellikle RAG (Retrieval-Augmented Generation) sistemlerinde, LLM'lere (Gemma 2 vb.) daha temiz ve analiz edilmiş bağlamlar sunmak için idealdir.
Örnek Kullanım (Python)
from transformers import pipeline
# Modeli yükle
ner_pipeline = pipeline("ner", model="Musa-ok/xlm_roberta_ner_musa")
# Test metni
text = "Birleşmiş Milletler, dünya barışını korumak amacıyla New York merkezinde bir toplantı gerçekleştirdi."
# Tahmin al
results = ner_pipeline(text)
for entity in results:
print(entity)
📊 Eğitim ve Değerlendirme Sonuçları
Model, 3 epoch sonunda aşağıdaki başarı metriklerine ulaşmıştır:
- F1 Skoru: 0.9186
- Doğrulama Kaybı (Validation Loss): 0.1600
| Training Loss | Epoch | Step | Validation Loss | F1 |
|---|---|---|---|---|
| 0.4022 | 1.0 | 2500 | 0.1440 | 0.8834 |
| 0.2774 | 2.0 | 5000 | 0.1405 | 0.9128 |
| 0.2259 | 3.0 | 7500 | 0.1600 | 0.9186 |
⚙️ Eğitim Prosedürü
Hiperparametreler
Eğitim sırasında aşağıdaki konfigürasyonlar kullanılmıştır:
- Öğrenme Oranı (Learning Rate): 2e-05
- Eğitim Partisi Boyutu (Train Batch Size): 4
- Değerlendirme Partisi Boyutu (Eval Batch Size): 8
- Tohum (Seed): 42
- Gradyan Biriktirme Adımları (Gradient Accumulation Steps): 2
- Optimizer: AdamW (Fused)
Çerçeve Versiyonları
- Transformers: 5.0.0
- PyTorch: 2.9.0+cu128
- Datasets: 4.0.0
- Tokenizers: 0.22.2
- Downloads last month
- 30
Model tree for Musa-ok/xlm_roberta_ner_musa
Base model
FacebookAI/xlm-roberta-baseEvaluation results
- F1self-reported0.919