Batik-Classification-Transformer-model / data_loader.py

Upload folder using huggingface_hub

a6eed2b verified 4 months ago

10.1 kB

	import sys
	from pathlib import Path
	# tambahkan parent project ke sys.path sehingga 'src' dapat diimport saat menjalankan skrip langsung
	sys.path.append(str(Path(__file__).resolve().parents[1]))

	import torch
	import numpy as np
	from torch.utils.data import DataLoader, Dataset, random_split, WeightedRandomSampler
	from torchvision import datasets, transforms
	from src import config # Mengimpor dari file config.py Anda
	import matplotlib.pyplot as plt
	import warnings
	from pathlib import Path

	# --- 1. Mendefinisikan Transformasi (Augmentasi) ---

	# Statistik ImageNet untuk normalisasi (penting untuk model pre-trained)
	MEAN = [0.485, 0.456, 0.406]
	STD = [0.229, 0.224, 0.225]

	# Transformasi untuk data TRAINING
	# Tujuannya: "menyiksa" data agar model bisa generalisasi dengan teknik terbaru
	train_transform = transforms.Compose([
	transforms.Resize((config.IMAGE_SIZE + 32, config.IMAGE_SIZE + 32)), # Resize lebih besar dulu
	transforms.RandomCrop((config.IMAGE_SIZE, config.IMAGE_SIZE), padding=4), # Random crop dengan padding
	transforms.RandomHorizontalFlip(p=0.5),
	transforms.RandomVerticalFlip(p=0.2), # Tambah vertical flip
	transforms.RandomRotation(degrees=15), # Moderate rotation
	transforms.ColorJitter(brightness=0.2, contrast=0.2, saturation=0.2, hue=0.05), # Moderate color augmentation
	transforms.RandomAffine(degrees=0, translate=(0.1, 0.1), scale=(0.9, 1.1), shear=5), # Enhanced geometric augmentation

	# Advanced augmentations
	transforms.RandomPerspective(distortion_scale=0.2, p=0.3), # Perspective distortion
	transforms.RandomErasing(p=0.2, scale=(0.02, 0.33), ratio=(0.3, 3.3)), # Random erasing

	# --- TAMBAHKAN INI ---
	# Ini akan menerapkan augmentasi acak yang kuat
	transforms.TrivialAugmentWide(num_magnitude_bins=31),
	# ---------------------

	transforms.ToTensor(), # ToTensor() HARUS setelah augmentasi
	transforms.Normalize(mean=MEAN, std=STD)
	])
	# Transformasi untuk data VALIDASI
	# Tujuannya: Hanya membersihkan data untuk evaluasi, TANPA augmentasi acak
	val_transform = transforms.Compose([
	transforms.Resize((config.IMAGE_SIZE, config.IMAGE_SIZE)), # Ukuran seragam
	transforms.ToTensor(), # Konversi ke tensor PyTorch
	transforms.Normalize(mean=MEAN, std=STD) # Normalisasi
	])


	# --- 2. Helper Class untuk Menerapkan Transformasi Berbeda ---
	# INI PENTING:
	# Kita perlu membagi dataset (split) SEBELUM menerapkan augmentasi.
	# Helper class ini memungkinkan kita menerapkan transform yang berbeda (train/val)
	# pada dataset subset yang sudah dibagi.

	class TransformedDataset(Dataset):
	"""Wrapper Dataset untuk menerapkan transformasi ke Subset."""
	def __init__(self, subset, transform=None):
	self.subset = subset
	self.transform = transform

	def __getitem__(self, index):
	# Ambil data asli (gambar, label) dari subset
	try:
	x, y = self.subset[index]

	# Terapkan transformasi jika ada
	if self.transform:
	x = self.transform(x)

	return x, y
	except Exception as e:
	# Jika ada error (file rusak), coba index berikutnya
	print(f"[Warning] Error pada index {index}: {e}")
	# Coba index berikutnya (dengan wraparound)
	next_index = (index + 1) % len(self.subset)
	return self.__getitem__(next_index)

	def __len__(self):
	return len(self.subset)

	# --- 3. Fungsi Utama Pembuat DataLoader ---

	def create_dataloaders():
	"""
	Fungsi utama untuk membuat dan mengembalikan data loader
	untuk training dan validasi.
	"""
	# --- VALIDASI: Pastikan config.DATA_PATH ada, coba beberapa alternatif jika tidak ---
	data_path = Path(config.DATA_PATH)
	if not data_path.exists():
	project_root = Path(__file__).resolve().parents[1]
	alt_names = ["Batik_Indonesia_JPG", "Batik-Indonesia", "Batik_Indonesia", "data", "dataset"]
	found = None
	for name in alt_names:
	candidate = project_root / name
	if candidate.exists() and candidate.is_dir():
	found = candidate
	break
	if found:
	print(f"[Data] config.DATA_PATH '{config.DATA_PATH}' tidak ditemukan. Menggunakan alternatif: {found}")
	# update atribut di module config agar konsisten
	try:
	config.DATA_PATH = str(found)
	except Exception:
	pass
	data_path = found
	else:
	raise FileNotFoundError(
	f"config.DATA_PATH='{config.DATA_PATH}' tidak ditemukan. "
	f"Pastikan folder dataset ada atau set config.DATA_PATH ke path yang benar."
	)

	# --- LANGKAH A: Muat Dataset Induk ---
	print(f"[Data] Memuat dataset induk dari: {data_path}")
	full_dataset = datasets.ImageFolder(str(data_path))

	# Simpan nama kelas
	class_names = full_dataset.classes
	num_classes = len(class_names)
	print(f"[Data] Ditemukan {num_classes} kelas: {class_names}")

	# --- LANGKAH B: Bagi Dataset 80:20 (Secara Hati-hati) ---
	print(f"[Data] Membagi dataset 80:20 (seed: {config.RANDOM_SEED})...")
	total_size = len(full_dataset)
	val_size = int(total_size * config.TEST_SPLIT_SIZE)
	train_size = total_size - val_size

	# Bagi dataset menggunakan random_split dengan SEED yang tetap
	# Ini memastikan pembagian data SELALU SAMA setiap kali skrip dijalankan
	train_dataset_raw, val_dataset_raw = random_split(
	full_dataset,
	[train_size, val_size],
	generator=torch.Generator().manual_seed(config.RANDOM_SEED)
	)

	print(f"[Data] Ukuran Train: {len(train_dataset_raw)} \| Ukuran Validasi: {len(val_dataset_raw)}")

	# --- LANGKAH C: Terapkan Transformasi yang Berbeda ---
	train_dataset = TransformedDataset(train_dataset_raw, transform=train_transform)
	val_dataset = TransformedDataset(val_dataset_raw, transform=val_transform)

	# --- LANGKAH D: Mengatasi Ketidakseimbangan Kelas (Wajib!) ---
	print("[Data] Menghitung bobot untuk mengatasi ketidakseimbangan kelas...")

	# 1. Ambil semua label (target) HANYA dari set training
	train_targets = [full_dataset.targets[i] for i in train_dataset_raw.indices]

	# 2. Hitung jumlah gambar per kelas
	# Kita gunakan bincount untuk efisiensi
	class_counts = np.bincount(train_targets)

	# 3. Hitung bobot kebalikan (inverse weight) untuk setiap kelas
	# Kelas langka -> bobot tinggi
	# Kelas umum -> bobot rendah
	class_weights = 1.0 / torch.tensor(class_counts, dtype=torch.float)

	# 4. Buat daftar bobot untuk SETIAP sampel di set training
	# Setiap sampel akan memiliki bobot sesuai kelasnya
	sample_weights = class_weights[train_targets]

	# 5. Buat Sampler
	# WeightedRandomSampler akan mengambil data berdasarkan bobot ini
	train_sampler = WeightedRandomSampler(
	weights=sample_weights,
	num_samples=len(sample_weights),
	replacement=True # Izinkan pengambilan sampel berulang (oversampling)
	)

	print("[Data] WeightedRandomSampler berhasil dibuat.")

	# --- LANGKAH E: Buat DataLoaders ---

	# DataLoader untuk Training
	# PENTING: Jika menggunakan 'sampler', 'shuffle' HARUS False.
	train_loader = DataLoader(
	train_dataset,
	batch_size=config.BATCH_SIZE,
	sampler=train_sampler,
	num_workers=2, # Disable multiprocessing untuk Windows
	pin_memory=False, # Disable untuk CPU training
	shuffle=False
	)

	# DataLoader untuk Validasi
	# Tidak perlu sampler, tidak perlu shuffle (evaluasi harus konsisten)
	val_loader = DataLoader(
	val_dataset,
	batch_size=config.BATCH_SIZE,
	num_workers=2, # Disable multiprocessing untuk Windows
	pin_memory=False, # Disable untuk CPU training
	shuffle=False
	)

	print("[Data] Data loader untuk Train dan Validasi siap.")

	return train_loader, val_loader, class_names


	# --- 5. Blok Pengujian (Opsional tapi Sangat Direkomendasikan) ---
	# Kode ini HANYA akan berjalan jika Anda menjalankan file ini secara langsung
	# (misal: `python src/data_loader.py`)
	# Ini sangat berguna untuk memverifikasi bahwa loader Anda berfungsi.

	if __name__ == "__main__":
	print("Menjalankan pengujian data_loader.py...")

	# Coba buat data loader
	train_loader, val_loader, class_names = create_dataloaders()

	print(f"\nTotal kelas: {len(class_names)}")

	# Ambil satu batch dari train_loader
	print("\nMengambil 1 batch dari train_loader (untuk tes)...")
	with warnings.catch_warnings():
	warnings.simplefilter("ignore") # Abaikan peringatan UserWarning dari matplotlib

	try:
	images, labels = next(iter(train_loader))

	print(f" > Ukuran batch gambar: {images.shape}") # [Batch, Channel, H, W]
	print(f" > Ukuran batch label: {labels.shape}")
	print(f" > Contoh 5 label di batch ini: {labels[:5]}")

	# Coba visualisasikan 1 gambar (untuk cek normalisasi)
	img_to_show = images[0].permute(1, 2, 0).numpy() # Ubah (C, H, W) -> (H, W, C)
	# Denormalisasi (penting untuk visualisasi)
	img_to_show = STD * img_to_show + MEAN
	img_to_show = np.clip(img_to_show, 0, 1) # Pastikan nilai antara 0 dan 1

	plt.imshow(img_to_show)
	plt.title(f"Contoh Gambar (Label: {class_names[labels[0]]})")
	plt.axis('off')
	plt.show()

	print("\n[Sukses] data_loader.py berfungsi dengan baik!")

	except Exception as e:
	print(f"\n[Error] Gagal menguji data loader: {e}")