File size: 1,067 Bytes
2e6a47d
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
# Büyük Ölçekli Datasets Örnekleri

Bu klasör, büyük ölçekli dataset işleme teknikleri için örnek kodlar içerir.

## Teknikler

### 1. Streaming
- 750GB+ veri işleme
- RAM kullanımı minimal
- Generator pattern

### 2. Batch Processing
- 2.3x hızlandırma
- Vectorized operations
- Optimal batch size: 32-1000

### 3. Multi-Processing
- 64x hızlandırma
- CPU parallelization
- num_proc optimization

### 4. Cache Yönetimi
- 12.1x hızlandırma
- Disk caching
- Arrow format

## Kullanım

```python
# Streaming örneği
from datasets import load_dataset

dataset = load_dataset(
    "c4", 
    "en", 
    split="train",
    streaming=True
)

for example in dataset.take(1000):
    process(example)
```

## Performans Metrikleri

- Batch processing: **2.3x** daha hızlı
- Cache: **12.1x** daha hızlı
- Multi-processing: **64x** daha hızlı

## Best Practices

✅ Her zaman `batched=True` kullan  
✅ Optimal batch_size seç (32-1000)  
✅ `num_proc` ile paralelize et  
✅ Cache stratejisi belirle  
✅ Streaming ile büyük veri işle