# Büyük Ölçekli Datasets Örnekleri

Bu klasör, büyük ölçekli dataset işleme teknikleri için örnek kodlar içerir.

## Teknikler

### 1. Streaming
- 750GB+ veri işleme
- RAM kullanımı minimal
- Generator pattern

### 2. Batch Processing
- 2.3x hızlandırma
- Vectorized operations
- Optimal batch size: 32-1000

### 3. Multi-Processing
- 64x hızlandırma
- CPU parallelization
- num_proc optimization

### 4. Cache Yönetimi
- 12.1x hızlandırma
- Disk caching
- Arrow format

## Kullanım

```python
# Streaming örneği
from datasets import load_dataset

dataset = load_dataset(
    "c4", 
    "en", 
    split="train",
    streaming=True
)

for example in dataset.take(1000):
    process(example)
```

## Performans Metrikleri

- Batch processing: **2.3x** daha hızlı
- Cache: **12.1x** daha hızlı
- Multi-processing: **64x** daha hızlı

## Best Practices

✅ Her zaman `batched=True` kullan  
✅ Optimal batch_size seç (32-1000)  
✅ `num_proc` ile paralelize et  
✅ Cache stratejisi belirle  
✅ Streaming ile büyük veri işle