Update README.md

d0618d6 verified 9 months ago

1.8 kB

license: apache-2.0
language:
  - tr
library_name: transformers

Turkish Law Tokenizer

Model Açıklaması

Bu repoda, Türkçe hukuk metinleri için özel olarak eğitilmiş bir T5TokenizerFast (BPE tabanlı) modeli bulunmaktadır. Model, Türkiye'deki mahkeme kararlarından oluşan geniş bir külliyattan eğitilmiştir. Özellikle hukuk alanındaki doğal dil işleme görevleri için tasarlanmıştır.

Model tipi: BPE (Byte-Pair Encoding)
Dil: Türkçe (tr)
Kütüphane: Transformers
Kelime Dağarcığı Boyutu (Vocab Size): 20,000
Özel Tokenlar: [PAD], [UNK], [BOS], [EOS]

Modelin Kullanımı

Modeli transformers kütüphanesi ile kolayca yükleyip kullanabilirsiniz. Tokenizer, fast versiyonuyla birlikte gelir.

from transformers import AutoTokenizer

# Modeli Hugging Face Hub'dan yükle
tokenizer = AutoTokenizer.from_pretrained("ocaklisemih/turkish-law-tokenizer", use_fast=True)

# Örnek bir cümle
metin = "Taraflar arasında görülen dava sonucunda verilen hükmün Yargıtay'ca incelenmesi istenilmekle; temyiz isteğinin süresinde olduğu anlaşıldı."

# Metni tokenize et
tokenler = tokenizer.tokenize(metin)
print("Tokenler:", tokenler)

# Metni encode et (ID'lere çevir)
kodlanmis_metin = tokenizer(metin)
print("Kodlanmış Metin:", kodlanmis_metin)

# ID'leri tekrar metne çevir
cozulmus_metin = tokenizer.decode(kodlanmis_metin["input_ids"])
print("Çözülmüş Metin:", cozulmus_metin)

Eğitim Süreci

Eğitimde kullanılan temel parametreler:

model_type: bpe
vocab_size: 20000
character_coverage: 1.0
user_defined_symbols: [PAD], [UNK], [BOS], [EOS]

Bu model kartı @ocaklisemih tarafından oluşturulmuştur.