MEHMET TUĞRUL KAYA
Initial commit: Advanced Dataset Tutorial
2e6a47d
# Büyük Ölçekli Datasets Örnekleri
Bu klasör, büyük ölçekli dataset işleme teknikleri için örnek kodlar içerir.
## Teknikler
### 1. Streaming
- 750GB+ veri işleme
- RAM kullanımı minimal
- Generator pattern
### 2. Batch Processing
- 2.3x hızlandırma
- Vectorized operations
- Optimal batch size: 32-1000
### 3. Multi-Processing
- 64x hızlandırma
- CPU parallelization
- num_proc optimization
### 4. Cache Yönetimi
- 12.1x hızlandırma
- Disk caching
- Arrow format
## Kullanım
```python
# Streaming örneği
from datasets import load_dataset
dataset = load_dataset(
"c4",
"en",
split="train",
streaming=True
)
for example in dataset.take(1000):
process(example)
```
## Performans Metrikleri
- Batch processing: **2.3x** daha hızlı
- Cache: **12.1x** daha hızlı
- Multi-processing: **64x** daha hızlı
## Best Practices
✅ Her zaman `batched=True` kullan
✅ Optimal batch_size seç (32-1000)
`num_proc` ile paralelize et
✅ Cache stratejisi belirle
✅ Streaming ile büyük veri işle