Spaces:

hamoudaGue
/

chest-xray-classification

Sleeping

Guechmed

Initial commit with app files

326da12 4 months ago

11 kB

	from torchvision import datasets, transforms
	from torch.utils.data import DataLoader , Dataset
	import torch
	import os
	from PIL import Image
	import pandas as pd
	import copy
	import numpy as np

	# NEW: for reports/plots
	from sklearn.metrics import classification_report, confusion_matrix
	import matplotlib.pyplot as plt


	# The dataset Class
	device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
	data_folder = './data'


	class ChestData (Dataset) :
	def __init__ (self, dataframe, img_dir , transform=None) :
	self.df = dataframe.reset_index(drop=True)
	self.img_dir = img_dir
	self.transform = transform

	def __len__ (self) :
	return len(self.df)

	def __getitem__(self, idx):
	row = self.df.iloc[idx]
	img_name = row['X_ray_image_name']
	label = int(row['target']) # ensure int
	img_path = os.path.join(self.img_dir, img_name)

	image = Image.open(img_path)

	if self.transform:
	image = self.transform(image)

	return image, label


	# ---------- dataframes ----------
	def get_df () :
	df = pd.read_csv(os.path.join(data_folder, 'Chest_xray_Corona_Metadata.csv'))

	# Encode labels: Normal=0, Pneumonia=1
	df['target'] = df['Label'].map({'Normal': 0, 'Pnemonia': 1})

	# Split into train/test
	train_df_chest = df[df['Dataset_type'] == 'TRAIN'].copy()
	test_df_chest = df[df['Dataset_type'] == 'TEST'].copy()
	return train_df_chest , test_df_chest


	# ---------- dataloaders ----------
	def get_dataloaders ( data_dir = data_folder , batch_size = 32, num_workers=0 ) :
	train_df_chest , test_df_chest = get_df()


	# TRAIN transform: strong augmentation
	train_transform = transforms.Compose([
	transforms.Grayscale(num_output_channels=3),
	transforms.RandomHorizontalFlip(),
	transforms.RandomRotation(20),
	transforms.RandomResizedCrop(224, scale=(0.8, 1.0)),
	transforms.ColorJitter(brightness=0.3, contrast=0.3),
	transforms.ToTensor(),
	transforms.Normalize([0.485,0.456,0.406], [0.229,0.224,0.225])
	])

	# TEST transform: no augmentation
	test_transform = transforms.Compose([
	transforms.Grayscale(num_output_channels=3),
	transforms.Resize((224,224)),
	transforms.ToTensor(),
	transforms.Normalize([0.485,0.456,0.406], [0.229,0.224,0.225])
	])
	# Datasets and Loaders (KEEPING YOUR RELATIVE PATHS)
	train_dataset_chest = ChestData(
	train_df_chest,
	os.path.join(data_dir,'Coronahack-Chest-XRay-Dataset','train'),
	train_transform
	)
	test_dataset_chest = ChestData(
	test_df_chest,
	os.path.join(data_dir,'Coronahack-Chest-XRay-Dataset','test'),
	test_transform
	)



	train_loader_chest = DataLoader(train_dataset_chest, batch_size=batch_size, shuffle=True, num_workers=num_workers)
	test_loader_chest = DataLoader(test_dataset_chest, batch_size=batch_size, shuffle=False, num_workers=num_workers)

	return train_loader_chest, test_loader_chest


	def save_best_model(model, path):
	os.makedirs(os.path.dirname(path), exist_ok=True)
	torch.save(model.state_dict(), path)




	# ---------- NEW: evaluation & saving helpers ----------
	def evaluate_full(model, loader):
	"""Return arrays: y_true, y_pred, y_prob on a given loader."""
	model.eval()
	y_true, y_pred, y_prob = [], [], []
	with torch.no_grad():
	for X, y in loader:
	X = X.to(device)
	y = y.to(device).float().unsqueeze(1)

	out = model(X)
	p = torch.sigmoid(out) # prob for class=1
	pred = (p > 0.5).float()

	y_true.extend(y.squeeze(1).cpu().numpy().tolist())
	y_pred.extend(pred.squeeze(1).cpu().numpy().tolist())
	y_prob.extend(p.squeeze(1).cpu().numpy().tolist())
	return np.array(y_true, dtype=int), np.array(y_pred, dtype=int), np.array(y_prob, dtype=float)


	def save_curves(trainLoss, testLoss, trainAcc, testAcc, out_dir):
	"""Save history.csv + loss_curve.png + acc_curve.png"""
	os.makedirs(out_dir, exist_ok=True)

	# CSV
	hist_df = pd.DataFrame({
	"epoch": np.arange(1, len(trainLoss)+1),
	"train_loss": trainLoss.numpy(),
	"test_loss": testLoss.numpy(),
	"train_acc": trainAcc.numpy(),
	"test_acc": testAcc.numpy(),
	})
	hist_df.to_csv(os.path.join(out_dir, "history.csv"), index=False)

	# Loss curve
	plt.figure()
	plt.plot(hist_df["epoch"], hist_df["train_loss"], label="Train Loss")
	plt.plot(hist_df["epoch"], hist_df["test_loss"], label="Test Loss")
	plt.xlabel("Epoch"); plt.ylabel("Loss"); plt.title("Loss per Epoch"); plt.legend(); plt.tight_layout()
	plt.savefig(os.path.join(out_dir, "loss_curve.png")); plt.close()

	# Accuracy curve
	plt.figure()
	plt.plot(hist_df["epoch"], hist_df["train_acc"], label="Train Acc")
	plt.plot(hist_df["epoch"], hist_df["test_acc"], label="Test Acc")
	plt.xlabel("Epoch"); plt.ylabel("Accuracy (%)"); plt.title("Accuracy per Epoch"); plt.legend(); plt.tight_layout()
	plt.savefig(os.path.join(out_dir, "acc_curve.png")); plt.close()


	def save_report_and_cm(y_true, y_pred, out_dir, target_names=("Normal","Pnemonia")):
	"""Save classification_report.txt + confusion_matrix.png"""
	os.makedirs(out_dir, exist_ok=True)


	# text report
	report = classification_report(y_true, y_pred, target_names=list(target_names), digits=4)
	with open(os.path.join(out_dir, "classification_report.txt"), "w", encoding="utf-8") as f:
	f.write(report)



	# confusion matrix
	cm = confusion_matrix(y_true, y_pred, labels=[0,1])

	plt.figure()
	plt.imshow(cm, interpolation='nearest')
	plt.title("Confusion Matrix")
	plt.colorbar()
	ticks = np.arange(len(target_names))
	plt.xticks(ticks, target_names, rotation=45)
	plt.yticks(ticks, target_names)
	thresh = cm.max() / 2. if cm.max() > 0 else 0.5
	for i in range(cm.shape[0]):
	for j in range(cm.shape[1]):
	plt.text(j, i, cm[i, j], ha="center", va="center",
	color="white" if cm[i, j] > thresh else "black")
	plt.ylabel("True label"); plt.xlabel("Predicted label"); plt.tight_layout()
	plt.savefig(os.path.join(out_dir, "confusion_matrix.png")); plt.close()


	class EarlyStopping:
	def __init__(self, patience=5, min_delta=0):
	self.patience = patience
	self.min_delta = min_delta
	self.counter = 0
	self.best_loss = None
	self.early_stop = False

	def __call__(self, val_loss):
	if self.best_loss is None:
	self.best_loss = val_loss
	elif val_loss > self.best_loss - self.min_delta:
	self.counter += 1
	if self.counter >= self.patience:
	self.early_stop = True
	else:
	self.best_loss = val_loss
	self.counter = 0

	# ---------- training ----------
	def trainTheModel(numepochs, optimizer, lossfun, model, train_loader, test_loader, scheduler=None,
	save_dir=None, model_name=None):

	early_stopper = EarlyStopping(patience=5)

	# initialize losses and accuracies
	trainLoss = torch.zeros(numepochs)
	testLoss = torch.zeros(numepochs)
	trainAcc = torch.zeros(numepochs)
	testAcc = torch.zeros(numepochs)
	model = model.to(device)

	best_acc = 0.0
	best_model_wts = copy.deepcopy(model.state_dict())

	print(f"\n🚀 Starting training for {model.__class__.__name__} for {numepochs} epochs \n")

	for epochi in range(numepochs):
	# ----- TRAINING -----
	model.train()
	batchLoss = []
	batchAcc = []

	for X, y in train_loader:
	X = X.to(device)
	y = y.to(device).float().unsqueeze(1)

	yHat = model(X)
	loss = lossfun(yHat, y)

	optimizer.zero_grad()
	loss.backward()
	optimizer.step()

	probs = torch.sigmoid(yHat)
	preds = (probs > 0.5).float()
	batchLoss.append(loss.item())
	batchAcc.append((preds == y).float().mean().item())

	trainLoss[epochi] = np.mean(batchLoss)
	trainAcc[epochi] = 100*np.mean(batchAcc)

	# ----- VALIDATION -----
	model.eval()
	batchLoss = []
	batchAcc = []

	with torch.no_grad():
	for X, y in test_loader:
	X = X.to(device)
	y = y.to(device).float().unsqueeze(1)

	yHat = model(X)
	loss = lossfun(yHat, y)

	probs = torch.sigmoid(yHat)
	preds = (probs > 0.5).float()
	batchLoss.append(loss.item())
	batchAcc.append((preds == y).float().mean().item())

	testLoss[epochi] = np.mean(batchLoss)
	testAcc[epochi] = 100*np.mean(batchAcc)

	# ----- TRACK BEST MODEL -----
	if testAcc[epochi] > best_acc:
	best_acc = testAcc[epochi].item()
	best_model_wts = copy.deepcopy(model.state_dict())
	save_best_model(model, os.path.join('models', f"best_{model.__class__.__name__}_model.pth"))

	# ----- SCHEDULER STEP -----
	if scheduler:
	if isinstance(scheduler, torch.optim.lr_scheduler.ReduceLROnPlateau):
	scheduler.step(testLoss[epochi].item())
	else:
	scheduler.step()


	current_lr = optimizer.param_groups[0]['lr']
	print(f"Epoch {epochi+1}/{numepochs} \| "
	f"Train Acc: {trainAcc[epochi]:.2f}% \| Test Acc: {testAcc[epochi]:.2f}% \| "
	f"Train Loss: {trainLoss[epochi]:.4f} \| Test Loss: {testLoss[epochi]:.4f} \| "
	f"LR: {current_lr:.6f}")

	if early_stopper(testLoss[epochi]):
	print(f"Early stopping at epoch {epochi+1}")
	break



	# Load best weights before returning
	model.load_state_dict(best_model_wts)

	# ----- OPTIONAL: save curves + report/CM -----
	if save_dir is not None:
	# curves
	curves_dir = os.path.join(save_dir, "curves",f'{model.__class__.__name__}' )
	save_curves(trainLoss, testLoss, trainAcc, testAcc, curves_dir)

	# eval on test set
	y_true, y_pred, _ = evaluate_full(model, test_loader)
	reports_dir = os.path.join(save_dir, "reports", f'{model.__class__.__name__}')
	save_report_and_cm(y_true, y_pred, reports_dir)

	print(f"\n📈 Curves saved to: {curves_dir}")
	print(f"📝 Report & Confusion Matrix saved to: {reports_dir}\n")

	return trainLoss, testLoss, trainAcc, testAcc, model