MEHMET TUĞRUL KAYA
Initial commit: Advanced Dataset Tutorial
2e6a47d

A newer version of the Gradio SDK is available: 6.5.1

Upgrade

Büyük Ölçekli Datasets Örnekleri

Bu klasör, büyük ölçekli dataset işleme teknikleri için örnek kodlar içerir.

Teknikler

1. Streaming

  • 750GB+ veri işleme
  • RAM kullanımı minimal
  • Generator pattern

2. Batch Processing

  • 2.3x hızlandırma
  • Vectorized operations
  • Optimal batch size: 32-1000

3. Multi-Processing

  • 64x hızlandırma
  • CPU parallelization
  • num_proc optimization

4. Cache Yönetimi

  • 12.1x hızlandırma
  • Disk caching
  • Arrow format

Kullanım

# Streaming örneği
from datasets import load_dataset

dataset = load_dataset(
    "c4", 
    "en", 
    split="train",
    streaming=True
)

for example in dataset.take(1000):
    process(example)

Performans Metrikleri

  • Batch processing: 2.3x daha hızlı
  • Cache: 12.1x daha hızlı
  • Multi-processing: 64x daha hızlı

Best Practices

✅ Her zaman batched=True kullan
✅ Optimal batch_size seç (32-1000)
num_proc ile paralelize et
✅ Cache stratejisi belirle
✅ Streaming ile büyük veri işle