| # Büyük Ölçekli Datasets Örnekleri | |
| Bu klasör, büyük ölçekli dataset işleme teknikleri için örnek kodlar içerir. | |
| ## Teknikler | |
| ### 1. Streaming | |
| - 750GB+ veri işleme | |
| - RAM kullanımı minimal | |
| - Generator pattern | |
| ### 2. Batch Processing | |
| - 2.3x hızlandırma | |
| - Vectorized operations | |
| - Optimal batch size: 32-1000 | |
| ### 3. Multi-Processing | |
| - 64x hızlandırma | |
| - CPU parallelization | |
| - num_proc optimization | |
| ### 4. Cache Yönetimi | |
| - 12.1x hızlandırma | |
| - Disk caching | |
| - Arrow format | |
| ## Kullanım | |
| ```python | |
| # Streaming örneği | |
| from datasets import load_dataset | |
| dataset = load_dataset( | |
| "c4", | |
| "en", | |
| split="train", | |
| streaming=True | |
| ) | |
| for example in dataset.take(1000): | |
| process(example) | |
| ``` | |
| ## Performans Metrikleri | |
| - Batch processing: **2.3x** daha hızlı | |
| - Cache: **12.1x** daha hızlı | |
| - Multi-processing: **64x** daha hızlı | |
| ## Best Practices | |
| ✅ Her zaman `batched=True` kullan | |
| ✅ Optimal batch_size seç (32-1000) | |
| ✅ `num_proc` ile paralelize et | |
| ✅ Cache stratejisi belirle | |
| ✅ Streaming ile büyük veri işle | |