File size: 1,067 Bytes
2e6a47d |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 |
# Büyük Ölçekli Datasets Örnekleri
Bu klasör, büyük ölçekli dataset işleme teknikleri için örnek kodlar içerir.
## Teknikler
### 1. Streaming
- 750GB+ veri işleme
- RAM kullanımı minimal
- Generator pattern
### 2. Batch Processing
- 2.3x hızlandırma
- Vectorized operations
- Optimal batch size: 32-1000
### 3. Multi-Processing
- 64x hızlandırma
- CPU parallelization
- num_proc optimization
### 4. Cache Yönetimi
- 12.1x hızlandırma
- Disk caching
- Arrow format
## Kullanım
```python
# Streaming örneği
from datasets import load_dataset
dataset = load_dataset(
"c4",
"en",
split="train",
streaming=True
)
for example in dataset.take(1000):
process(example)
```
## Performans Metrikleri
- Batch processing: **2.3x** daha hızlı
- Cache: **12.1x** daha hızlı
- Multi-processing: **64x** daha hızlı
## Best Practices
✅ Her zaman `batched=True` kullan
✅ Optimal batch_size seç (32-1000)
✅ `num_proc` ile paralelize et
✅ Cache stratejisi belirle
✅ Streaming ile büyük veri işle
|