ocaklisemih's picture
Update README.md
d0618d6 verified
metadata
license: apache-2.0
language:
  - tr
library_name: transformers

Turkish Law Tokenizer

Model Açıklaması

Bu repoda, Türkçe hukuk metinleri için özel olarak eğitilmiş bir T5TokenizerFast (BPE tabanlı) modeli bulunmaktadır. Model, Türkiye'deki mahkeme kararlarından oluşan geniş bir külliyattan eğitilmiştir. Özellikle hukuk alanındaki doğal dil işleme görevleri için tasarlanmıştır.

  • Model tipi: BPE (Byte-Pair Encoding)
  • Dil: Türkçe (tr)
  • Kütüphane: Transformers
  • Kelime Dağarcığı Boyutu (Vocab Size): 20,000
  • Özel Tokenlar: [PAD], [UNK], [BOS], [EOS]

Modelin Kullanımı

Modeli transformers kütüphanesi ile kolayca yükleyip kullanabilirsiniz. Tokenizer, fast versiyonuyla birlikte gelir.

from transformers import AutoTokenizer

# Modeli Hugging Face Hub'dan yükle
tokenizer = AutoTokenizer.from_pretrained("ocaklisemih/turkish-law-tokenizer", use_fast=True)

# Örnek bir cümle
metin = "Taraflar arasında görülen dava sonucunda verilen hükmün Yargıtay'ca incelenmesi istenilmekle; temyiz isteğinin süresinde olduğu anlaşıldı."

# Metni tokenize et
tokenler = tokenizer.tokenize(metin)
print("Tokenler:", tokenler)

# Metni encode et (ID'lere çevir)
kodlanmis_metin = tokenizer(metin)
print("Kodlanmış Metin:", kodlanmis_metin)

# ID'leri tekrar metne çevir
cozulmus_metin = tokenizer.decode(kodlanmis_metin["input_ids"])
print("Çözülmüş Metin:", cozulmus_metin)

Eğitim Süreci

Eğitimde kullanılan temel parametreler:

  • model_type: bpe
  • vocab_size: 20000
  • character_coverage: 1.0
  • user_defined_symbols: [PAD], [UNK], [BOS], [EOS]

Bu model kartı @ocaklisemih tarafından oluşturulmuştur.