A newer version of the Gradio SDK is available:
6.5.1
Büyük Ölçekli Datasets Örnekleri
Bu klasör, büyük ölçekli dataset işleme teknikleri için örnek kodlar içerir.
Teknikler
1. Streaming
- 750GB+ veri işleme
- RAM kullanımı minimal
- Generator pattern
2. Batch Processing
- 2.3x hızlandırma
- Vectorized operations
- Optimal batch size: 32-1000
3. Multi-Processing
- 64x hızlandırma
- CPU parallelization
- num_proc optimization
4. Cache Yönetimi
- 12.1x hızlandırma
- Disk caching
- Arrow format
Kullanım
# Streaming örneği
from datasets import load_dataset
dataset = load_dataset(
"c4",
"en",
split="train",
streaming=True
)
for example in dataset.take(1000):
process(example)
Performans Metrikleri
- Batch processing: 2.3x daha hızlı
- Cache: 12.1x daha hızlı
- Multi-processing: 64x daha hızlı
Best Practices
✅ Her zaman batched=True kullan
✅ Optimal batch_size seç (32-1000)
✅ num_proc ile paralelize et
✅ Cache stratejisi belirle
✅ Streaming ile büyük veri işle