Spaces:

tugrulkaya
/

advanced-dataset-tutorial

Running

App Files Files Community

advanced-dataset-tutorial / datasets /large_scale_example /README.md

MEHMET TUĞRUL KAYA

Initial commit: Advanced Dataset Tutorial

2e6a47d 3 months ago

preview code

raw

history blame contribute delete

1.07 kB

A newer version of the Gradio SDK is available: 6.5.1

Upgrade

Büyük Ölçekli Datasets Örnekleri

Bu klasör, büyük ölçekli dataset işleme teknikleri için örnek kodlar içerir.

Teknikler

1. Streaming

750GB+ veri işleme
RAM kullanımı minimal
Generator pattern

2. Batch Processing

2.3x hızlandırma
Vectorized operations
Optimal batch size: 32-1000

3. Multi-Processing

64x hızlandırma
CPU parallelization
num_proc optimization

4. Cache Yönetimi

12.1x hızlandırma
Disk caching
Arrow format

Kullanım

# Streaming örneği
from datasets import load_dataset

dataset = load_dataset(
    "c4", 
    "en", 
    split="train",
    streaming=True
)

for example in dataset.take(1000):
    process(example)

Performans Metrikleri

Batch processing: 2.3x daha hızlı
Cache: 12.1x daha hızlı
Multi-processing: 64x daha hızlı

Best Practices

✅ Her zaman batched=True kullan
✅ Optimal batch_size seç (32-1000)
✅ num_proc ile paralelize et
✅ Cache stratejisi belirle
✅ Streaming ile büyük veri işle