Musa-ok's picture
Update README.md
ffdc5ae verified
metadata
library_name: transformers
license: mit
base_model: xlm-roberta-base
tags:
  - generated_from_trainer
  - ner
  - token-classification
  - turkish
  - askmydocs
metrics:
  - f1
model-index:
  - name: xlm_roberta_ner_musa
    results:
      - task:
          type: token-classification
          name: Named Entity Recognition
        metrics:
          - type: f1
            value: 0.9186
            name: F1

xlm_roberta_ner_musa

Bu model, AskMyDocs projesi kapsamında döküman analizi ve varlık isimlendirme (NER) görevleri için xlm-roberta-base modeli üzerine ince ayar (fine-tuning) yapılmış profesyonel bir sürümdür.

Özellikle Türkçe metinlerde kişi (PER), kurum (ORG) ve yer (LOC) gibi temel varlıkları yüksek doğrulukla tespit etmek üzere optimize edilmiştir.

📝 Model Açıklaması

  • Geliştiren: Musa Ok (Istanbul Arel University)
  • Model Tipi: Token Classification (Varlık İsimlendirme)
  • Temel Model: xlm-roberta-base
  • Dil: Türkçe ve Çok Dilli
  • Proje: AskMyDocs - RAG Tabanlı Akıllı Döküman Asistanı

🛠️ Kullanım Amacı ve Sınırlamalar

Bu model, dökümanlardaki yapılandırılmamış metinleri analiz etmek ve önemli bilgileri etiketlemek için tasarlanmıştır. Özellikle RAG (Retrieval-Augmented Generation) sistemlerinde, LLM'lere (Gemma 2 vb.) daha temiz ve analiz edilmiş bağlamlar sunmak için idealdir.

Örnek Kullanım (Python)

from transformers import pipeline

# Modeli yükle
ner_pipeline = pipeline("ner", model="Musa-ok/xlm_roberta_ner_musa")

# Test metni
text = "Birleşmiş Milletler, dünya barışını korumak amacıyla New York merkezinde bir toplantı gerçekleştirdi."

# Tahmin al
results = ner_pipeline(text)
for entity in results:
    print(entity)

📊 Eğitim ve Değerlendirme Sonuçları

Model, 3 epoch sonunda aşağıdaki başarı metriklerine ulaşmıştır:

  • F1 Skoru: 0.9186
  • Doğrulama Kaybı (Validation Loss): 0.1600
Training Loss Epoch Step Validation Loss F1
0.4022 1.0 2500 0.1440 0.8834
0.2774 2.0 5000 0.1405 0.9128
0.2259 3.0 7500 0.1600 0.9186

⚙️ Eğitim Prosedürü

Hiperparametreler

Eğitim sırasında aşağıdaki konfigürasyonlar kullanılmıştır:

  • Öğrenme Oranı (Learning Rate): 2e-05
  • Eğitim Partisi Boyutu (Train Batch Size): 4
  • Değerlendirme Partisi Boyutu (Eval Batch Size): 8
  • Tohum (Seed): 42
  • Gradyan Biriktirme Adımları (Gradient Accumulation Steps): 2
  • Optimizer: AdamW (Fused)

Çerçeve Versiyonları

  • Transformers: 5.0.0
  • PyTorch: 2.9.0+cu128
  • Datasets: 4.0.0
  • Tokenizers: 0.22.2