Spaces:

tugrulkaya
/

advanced-dataset-tutorial

Sleeping

MEHMET TUĞRUL KAYA

Initial commit: Advanced Dataset Tutorial

2e6a47d 3 months ago

1.07 kB

	# Büyük Ölçekli Datasets Örnekleri

	Bu klasör, büyük ölçekli dataset işleme teknikleri için örnek kodlar içerir.

	## Teknikler

	### 1. Streaming
	- 750GB+ veri işleme
	- RAM kullanımı minimal
	- Generator pattern

	### 2. Batch Processing
	- 2.3x hızlandırma
	- Vectorized operations
	- Optimal batch size: 32-1000

	### 3. Multi-Processing
	- 64x hızlandırma
	- CPU parallelization
	- num_proc optimization

	### 4. Cache Yönetimi
	- 12.1x hızlandırma
	- Disk caching
	- Arrow format

	## Kullanım

	```python
	# Streaming örneği
	from datasets import load_dataset

	dataset = load_dataset(
	"c4",
	"en",
	split="train",
	streaming=True
	)

	for example in dataset.take(1000):
	process(example)
	```

	## Performans Metrikleri

	- Batch processing: 2.3x daha hızlı
	- Cache: 12.1x daha hızlı
	- Multi-processing: 64x daha hızlı

	## Best Practices

	✅ Her zaman `batched=True` kullan
	✅ Optimal batch_size seç (32-1000)
	✅ `num_proc` ile paralelize et
	✅ Cache stratejisi belirle
	✅ Streaming ile büyük veri işle