Update README.md

ffdc5ae verified 2 months ago

2.78 kB

library_name: transformers
license: mit
base_model: xlm-roberta-base
tags:
  - generated_from_trainer
  - ner
  - token-classification
  - turkish
  - askmydocs
metrics:
  - f1
model-index:
  - name: xlm_roberta_ner_musa
    results:
      - task:
          type: token-classification
          name: Named Entity Recognition
        metrics:
          - type: f1
            value: 0.9186
            name: F1

xlm_roberta_ner_musa

Bu model, AskMyDocs projesi kapsamında döküman analizi ve varlık isimlendirme (NER) görevleri için xlm-roberta-base modeli üzerine ince ayar (fine-tuning) yapılmış profesyonel bir sürümdür.

Özellikle Türkçe metinlerde kişi (PER), kurum (ORG) ve yer (LOC) gibi temel varlıkları yüksek doğrulukla tespit etmek üzere optimize edilmiştir.

📝 Model Açıklaması

Geliştiren: Musa Ok (Istanbul Arel University)
Model Tipi: Token Classification (Varlık İsimlendirme)
Temel Model: xlm-roberta-base
Dil: Türkçe ve Çok Dilli
Proje: AskMyDocs - RAG Tabanlı Akıllı Döküman Asistanı

🛠️ Kullanım Amacı ve Sınırlamalar

Bu model, dökümanlardaki yapılandırılmamış metinleri analiz etmek ve önemli bilgileri etiketlemek için tasarlanmıştır. Özellikle RAG (Retrieval-Augmented Generation) sistemlerinde, LLM'lere (Gemma 2 vb.) daha temiz ve analiz edilmiş bağlamlar sunmak için idealdir.

Örnek Kullanım (Python)

from transformers import pipeline

# Modeli yükle
ner_pipeline = pipeline("ner", model="Musa-ok/xlm_roberta_ner_musa")

# Test metni
text = "Birleşmiş Milletler, dünya barışını korumak amacıyla New York merkezinde bir toplantı gerçekleştirdi."

# Tahmin al
results = ner_pipeline(text)
for entity in results:
    print(entity)

📊 Eğitim ve Değerlendirme Sonuçları

Model, 3 epoch sonunda aşağıdaki başarı metriklerine ulaşmıştır:

F1 Skoru: 0.9186
Doğrulama Kaybı (Validation Loss): 0.1600

Training Loss	Epoch	Step	Validation Loss	F1
0.4022	1.0	2500	0.1440	0.8834
0.2774	2.0	5000	0.1405	0.9128
0.2259	3.0	7500	0.1600	0.9186

⚙️ Eğitim Prosedürü

Hiperparametreler

Eğitim sırasında aşağıdaki konfigürasyonlar kullanılmıştır:

Öğrenme Oranı (Learning Rate): 2e-05
Eğitim Partisi Boyutu (Train Batch Size): 4
Değerlendirme Partisi Boyutu (Eval Batch Size): 8
Tohum (Seed): 42
Gradyan Biriktirme Adımları (Gradient Accumulation Steps): 2
Optimizer: AdamW (Fused)

Çerçeve Versiyonları

Transformers: 5.0.0
PyTorch: 2.9.0+cu128
Datasets: 4.0.0
Tokenizers: 0.22.2