# Büyük Ölçekli Datasets Örnekleri Bu klasör, büyük ölçekli dataset işleme teknikleri için örnek kodlar içerir. ## Teknikler ### 1. Streaming - 750GB+ veri işleme - RAM kullanımı minimal - Generator pattern ### 2. Batch Processing - 2.3x hızlandırma - Vectorized operations - Optimal batch size: 32-1000 ### 3. Multi-Processing - 64x hızlandırma - CPU parallelization - num_proc optimization ### 4. Cache Yönetimi - 12.1x hızlandırma - Disk caching - Arrow format ## Kullanım ```python # Streaming örneği from datasets import load_dataset dataset = load_dataset( "c4", "en", split="train", streaming=True ) for example in dataset.take(1000): process(example) ``` ## Performans Metrikleri - Batch processing: **2.3x** daha hızlı - Cache: **12.1x** daha hızlı - Multi-processing: **64x** daha hızlı ## Best Practices ✅ Her zaman `batched=True` kullan ✅ Optimal batch_size seç (32-1000) ✅ `num_proc` ile paralelize et ✅ Cache stratejisi belirle ✅ Streaming ile büyük veri işle