Turkish Law Tokenizer
Model Açıklaması
Bu repoda, Türkçe hukuk metinleri için özel olarak eğitilmiş bir T5TokenizerFast (BPE tabanlı) modeli bulunmaktadır. Model, Türkiye'deki mahkeme kararlarından oluşan geniş bir külliyattan eğitilmiştir. Özellikle hukuk alanındaki doğal dil işleme görevleri için tasarlanmıştır.
- Model tipi: BPE (Byte-Pair Encoding)
- Dil: Türkçe (tr)
- Kütüphane: Transformers
- Kelime Dağarcığı Boyutu (Vocab Size): 20,000
- Özel Tokenlar:
[PAD],[UNK],[BOS],[EOS]
Modelin Kullanımı
Modeli transformers kütüphanesi ile kolayca yükleyip kullanabilirsiniz. Tokenizer, fast versiyonuyla birlikte gelir.
from transformers import AutoTokenizer
# Modeli Hugging Face Hub'dan yükle
tokenizer = AutoTokenizer.from_pretrained("ocaklisemih/turkish-law-tokenizer", use_fast=True)
# Örnek bir cümle
metin = "Taraflar arasında görülen dava sonucunda verilen hükmün Yargıtay'ca incelenmesi istenilmekle; temyiz isteğinin süresinde olduğu anlaşıldı."
# Metni tokenize et
tokenler = tokenizer.tokenize(metin)
print("Tokenler:", tokenler)
# Metni encode et (ID'lere çevir)
kodlanmis_metin = tokenizer(metin)
print("Kodlanmış Metin:", kodlanmis_metin)
# ID'leri tekrar metne çevir
cozulmus_metin = tokenizer.decode(kodlanmis_metin["input_ids"])
print("Çözülmüş Metin:", cozulmus_metin)
Eğitim Süreci
Eğitimde kullanılan temel parametreler:
model_type:bpevocab_size:20000character_coverage:1.0user_defined_symbols:[PAD],[UNK],[BOS],[EOS]
Bu model kartı @ocaklisemih tarafından oluşturulmuştur.
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support