Turkish Law Tokenizer

Model Açıklaması

Bu repoda, Türkçe hukuk metinleri için özel olarak eğitilmiş bir T5TokenizerFast (BPE tabanlı) modeli bulunmaktadır. Model, Türkiye'deki mahkeme kararlarından oluşan geniş bir külliyattan eğitilmiştir. Özellikle hukuk alanındaki doğal dil işleme görevleri için tasarlanmıştır.

Model tipi: BPE (Byte-Pair Encoding)
Dil: Türkçe (tr)
Kütüphane: Transformers
Kelime Dağarcığı Boyutu (Vocab Size): 20,000
Özel Tokenlar: [PAD], [UNK], [BOS], [EOS]

Modelin Kullanımı

Modeli transformers kütüphanesi ile kolayca yükleyip kullanabilirsiniz. Tokenizer, fast versiyonuyla birlikte gelir.

from transformers import AutoTokenizer

# Modeli Hugging Face Hub'dan yükle
tokenizer = AutoTokenizer.from_pretrained("ocaklisemih/turkish-law-tokenizer", use_fast=True)

# Örnek bir cümle
metin = "Taraflar arasında görülen dava sonucunda verilen hükmün Yargıtay'ca incelenmesi istenilmekle; temyiz isteğinin süresinde olduğu anlaşıldı."

# Metni tokenize et
tokenler = tokenizer.tokenize(metin)
print("Tokenler:", tokenler)

# Metni encode et (ID'lere çevir)
kodlanmis_metin = tokenizer(metin)
print("Kodlanmış Metin:", kodlanmis_metin)

# ID'leri tekrar metne çevir
cozulmus_metin = tokenizer.decode(kodlanmis_metin["input_ids"])
print("Çözülmüş Metin:", cozulmus_metin)

Eğitim Süreci

Eğitimde kullanılan temel parametreler:

model_type: bpe
vocab_size: 20000
character_coverage: 1.0
user_defined_symbols: [PAD], [UNK], [BOS], [EOS]

Bu model kartı @ocaklisemih tarafından oluşturulmuştur.

Downloads last month: -; Downloads are not tracked for this model. How to track

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support