Update README.md

f6eeb77 verified 2 months ago

9.9 kB

	---
	license: gpl-2.0
	datasets:
	- uonlp/CulturaX
	language:
	- tr
	pipeline_tag: token-classification
	tags:
	- token
	- tokenization
	- turkish
	- nlp
	- llm
	- mini
	---
	# Mini Turkish Tokenizer 🔤

	Türkçe dil modelleri için optimize edilmiş, kompakt BPE tokenizer

	---

	## 📌 Özet

	Mini Turkish Tokenizer, Türkçe NLP görevleri için özel olarak tasarlanmış bir BPE (Byte Pair Encoding) tokenizer'dır. CulturaX Turkish dataset'inin 735,991 dokümanından eğitilerek, Türkçe metinleri verimli bir şekilde tokenlere dönüştürür.

	### Temel Özellikler

	- Vocab Size: 5,610 tokens (kompakt ve verimli)
	- Dil: Türkçe (🇹🇷)
	- Algoritma: BPE (Byte Pair Encoding)
	- Eğitim Verisi: CulturaX Turkish (735,991 dokümandan)
	- Format: HuggingFace PreTrainedTokenizerFast
	- Lisans: GNU General Public License v2.0 (açık kaynak)

	---

	## 🚀 Hızlı Başlangıç

	### Kurulum

	```bash
	pip install transformers
	```

	### Temel Kullanım

	```python
	from transformers import AutoTokenizer

	# Tokenizer'ı yükle
	tokenizer = AutoTokenizer.from_pretrained(
	"kaanilker/mini-turkish-tokenizer"
	)

	# Metni tokenize et
	text = "Merhaba, ben yapay zekayım!"
	tokens = tokenizer.encode(text)

	print(tokens)
	# Output: [59, 83, 96, 86, 79, 80, ...]
	```

	### Decode Etme

	```python
	# Token'ları metne geri çevir
	decoded = tokenizer.decode(tokens)
	print(decoded)
	# Output: "Merhaba, ben yapay zekayım!"
	```

	### Batch Processing

	```python
	texts = [
	"Merhaba dünya",
	"Türkçe NLP",
	"Yapay zeka harika"
	]

	# Batch tokenize
	encoded = tokenizer(
	texts,
	padding=True,
	truncation=True,
	max_length=100,
	return_tensors="pt"
	)

	print(encoded['input_ids'].shape)
	# Output: torch.Size([3, 100])
	```

	---

	## 📊 Teknik Detaylar

	### Special Tokens

	\| Token \| ID \| Açıklama \|
	\|---\|---\|---\|
	\| `<pad>` \| 0 \| Padding (doldurma) \|
	\| `<unk>` \| 1 \| Unknown (bilinmeyen) \|
	\| `<bos>` \| 2 \| Beginning of Sequence (başlangıç) \|
	\| `<eos>` \| 3 \| End of Sequence (bitiş) \|

	### Eğitim Konfigürasyonu

	```python
	vocab_size = 5610
	min_frequency = 2
	algorithm = "BPE"
	pre_tokenizer = "Whitespace + Punctuation"
	training_data = "CulturaX Turkish (735,991 documents)"
	train_test_split = "90/10"
	```

	### Tokenizasyon Özellikleri

	- Ortalama Token Sayısı: 8-12 token per sentence
	- Coverage (CulturaX): ~98.5%
	- Encoding Hızı: ~10,000 token/sec
	- Bellek Footprint: 5-10 MB

	---

	## 💻 İleri Kullanım

	### Attention Mask İle

	```python
	from transformers import AutoTokenizer
	import torch

	tokenizer = AutoTokenizer.from_pretrained(
	"kaanilker/mini-turkish-tokenizer"
	)

	text = "Kısa"
	encoded = tokenizer(
	text,
	padding="max_length",
	max_length=10,
	return_tensors="pt"
	)

	print(encoded['input_ids'])
	# [1234, 0, 0, 0, 0, 0, 0, 0, 0, 0]

	print(encoded['attention_mask'])
	# [1, 0, 0, 0, 0, 0, 0, 0, 0, 0]
	```

	### Model Eğitmede Kullanım

	```python
	from transformers import TrainingArguments, Trainer
	from transformers import LlamaForCausalLM, AutoTokenizer

	model = LlamaForCausalLM.from_pretrained("your-model")
	tokenizer = AutoTokenizer.from_pretrained(
	"kaanilker/mini-turkish-tokenizer"
	)

	training_args = TrainingArguments(
	output_dir="./results",
	num_train_epochs=3,
	per_device_train_batch_size=32,
	learning_rate=5e-4,
	)

	trainer = Trainer(
	model=model,
	args=training_args,
	train_dataset=train_data,
	tokenizer=tokenizer,
	)

	trainer.train()
	```

	### Fine-tuning İçin

	```python
	from transformers import AutoTokenizer, AutoModelForSequenceClassification

	tokenizer = AutoTokenizer.from_pretrained(
	"kaanilker/mini-turkish-tokenizer"
	)

	model = AutoModelForSequenceClassification.from_pretrained(
	"dbmdz/bert-base-turkish-cased"
	)

	# Türkçe metinleri tokenize et
	inputs = tokenizer(
	["Bu çok güzel!", "Berbat!"],
	truncation=True,
	max_length=512,
	return_tensors="pt"
	)

	outputs = model(**inputs)
	```

	---

	## 🎯 Kullanım Senaryoları

	### 1. Türkçe Metin Sınıflandırması
	```python
	from transformers import pipeline

	classifier = pipeline(
	"text-classification",
	model="dbmdz/bert-base-turkish-cased",
	tokenizer=tokenizer
	)

	result = classifier("Bu ürün harika!")
	print(result)
	```

	### 2. Türkçe Metin Üretimi
	```python
	from transformers import pipeline

	generator = pipeline(
	"text-generation",
	model="your-turkish-llm",
	tokenizer=tokenizer
	)

	generated = generator("Türkiye'nin başkenti", max_length=50)
	print(generated)
	```

	### 3. Türkçe Soru-Cevap
	```python
	from transformers import pipeline

	qa = pipeline(
	"question-answering",
	model="your-qa-model",
	tokenizer=tokenizer
	)

	result = qa(
	question="Türkiye'nin başkenti neresidir?",
	context="Türkiye'nin başkenti Ankara'dır."
	)
	print(result)
	```

	### 4. Türkçe Sentiment Analizi
	```python
	tokenizer = AutoTokenizer.from_pretrained(
	"kaanilker/mini-turkish-tokenizer"
	)

	texts = [
	"Çok güzel bir ürün!",
	"Berbat kalite",
	"Fena değil"
	]

	for text in texts:
	tokens = tokenizer.encode(text)
	print(f"{text} → {len(tokens)} tokens")
	```

	---

	## 📋 Teknik Özellikler

	### Vocab Dağılımı

	```
	Toplam Tokens: 5,610

	Kategori Dağılımı:
	├── Türkçe Kelimeler: ~3,366 (60%)
	├── Subword Pieces: ~2,200 (39%)
	├── Special Tokens: 4 (1%)
	└── Diğer: ~40 (1%)
	```

	### Eğitim Verileri

	- Dataset: CulturaX Turkish
	- Toplam Dokümandan: 735,991
	- Toplam Token: 500M
	- Train/Val Split: 90/10
	- Min Frequency: 2 (en az 2 kez görülmüş kelimeler)

	---

	## 🔧 Kurulum & Bağımlılıklar

	### Gerekli Paketler

	```bash
	# Temel
	pip install transformers>=4.30.0
	pip install datasets>=2.0.0

	# İsteğe bağlı (örnek kodlar için)
	pip install torch>=1.9.0
	pip install pytorch-lightning>=1.5.0
	```

	### Versiyonlar

	```
	Python: 3.8+
	Transformers: 4.30+
	Datasets: 2.0+
	Torch: 1.9+
	```

	---

	## 📚 Örnekler

	### Örnek 1: Temel Tokenizasyon

	```python
	from transformers import AutoTokenizer

	tokenizer = AutoTokenizer.from_pretrained(
	"kaanilker/mini-turkish-tokenizer"
	)

	# Basit cümle
	text = "Günaydın, nasılsın?"
	tokens = tokenizer.encode(text)
	print(f"Tokens: {tokens}")
	print(f"Token Sayısı: {len(tokens)}")

	# Decode
	decoded = tokenizer.decode(tokens)
	print(f"Decoded: {decoded}")
	```

	Output:
	```
	Tokens: [59, 83, 96, ...]
	Token Sayısı: 5
	Decoded: Günaydın, nasılsın?
	```

	### Örnek 2: Batch Tokenizasyon

	```python
	texts = [
	"Merhaba dünya",
	"Türkçe NLP harika",
	"Açık kaynak yazılım"
	]

	batch = tokenizer(
	texts,
	padding=True,
	truncation=True,
	max_length=20,
	return_tensors="pt"
	)

	print(batch['input_ids'].shape)
	# torch.Size([3, 20])
	```

	### Örnek 3: Dilbilimsel Analiz

	```python
	# Kelime parçalanması
	text = "Üniversitelerimizde"
	tokens = tokenizer.tokenize(text)
	print(f"Parçalar: {tokens}")
	# Parçalar: ['Üniversite', 'leri', 'mizde']

	# Token ID'leri
	ids = tokenizer.convert_tokens_to_ids(tokens)
	print(f"IDs: {ids}")
	```

	---

	## ⚠️ Sınırlamalar

	### Bilinçli Kısıtlamalar

	1. Vocab Size: 5,610 (küçük ama verimli)
	- ✅ Hızlı tokenizasyon
	- ❌ Nadir kelimeleri parçalayabilir

	2. Türkçeye Özel: Sadece Türkçe için optimize
	- ✅ Türkçe için en iyi
	- ❌ İngilizce vb. dillerle sorun olabilir

	3. CulturaX Bias: Belirli alanlara biased olabilir
	- ✅ Haber, sosyal medya vb. iyi
	- ❌ Teknik jargon eksik olabilir

	### Çözümler

	```python
	# Eğer UNK token çok görürsen:
	# 1. Vocab'i büyüt
	# 2. Farklı dataset kullan
	# 3. Subword parçalamayı artır
	```

	---

	## 🔄 Güncelleme


	### Güncelleme Nasıl Yapılır?

	```bash
	# En son sürümü kur
	pip install --upgrade transformers

	# Tokenizer'ı güncelle
	tokenizer = AutoTokenizer.from_pretrained(
	"kaanilker/mini-turkish-tokenizer",
	revision="main"
	)
	```

	---

	## 📖 Kaynaklar

	### Teorik Kaynaklar

	- [Byte Pair Encoding](https://en.wikipedia.org/wiki/Byte_pair_encoding)
	- [HuggingFace Tokenizers](https://huggingface.co/docs/tokenizers/)
	- [Transformers Documentation](https://huggingface.co/docs/transformers/)

	### Benzer Projeler

	- [Turkish BERT](https://github.com/dbmdz/bert-models)
	- [Turkish GPT-2](https://huggingface.co/gpt2-turkish)
	- [CulturaX Dataset](https://huggingface.co/datasets/uonlp/CulturaX)

	---

	## 🤝 Katkı ve İletişim

	### Katkı Yapmak

	```bash
	git clone https://huggingface.co/kaanilker/mini-turkish-tokenizer
	cd mini-turkish-tokenizer

	# Değişiklik yap
	git add .
	git commit -m "Improvement: [açıklama]"
	git push
	```

	### Sorun Bildirmek

	Email'e posta at:
	- Email: kaanilkernacar2010@gmail.com

	---

	## 📝 Sitasyon

	Bu tokenizer'ı bilimsel çalışmalarda kullanıyorsan, lütfen şunu alıntı yap:

	```bibtex
	@software{mini_turkish_tokenizer,
	title = {Mini Turkish Tokenizer},
	author = {[Kaan İlker Nacar]},
	year = {2025},
	url = {https://huggingface.co/your-username/mini-turkish-tokenizer},
	license = {GPL-2.0}
	}
	```

	### APA Format

	[Kaan İlker Nacar]. (2025). Mini Turkish Tokenizer. HuggingFace Hub. Retrieved from https://huggingface.co/kaanilker/mini-turkish-tokenizer

	---

	## 📜 Lisans

	GNU General Public License v2.0

	Bu tokenizer açık kaynak yazılımdır. Özgürce:
	- ✅ Kullanabilir
	- ✅ Değiştirebilir
	- ✅ Dağıtabilir
	- ❌ AMA: Türev eserler de GPL v2.0 olmalı

	---

	---

	## ✨ Teşekkürler

	- CulturaX Dataset - Türkçe veri sağlayan uonlp
	- HuggingFace - Tokenizer kütüphanesi
	- Transformers - NLP framework
	- Açık Kaynak Topluluğu - Destekler ve geri bildirim

	---

	## 📞 İletişim

	- 📧 Email: kaanilkernacar2010@gmail.com
	- 🔗 GitHub: https://github.com/kaanilker
	- 🤗 HuggingFace: https://huggingface.co/kaanilker
	---

	Made with ❤️ for Turkish NLP Community

	Son güncelleme: Aralık 2025