OxO_Image-Repair / loss.py

Upload 13 files

fd5c0a6 verified 9 months ago

6.34 kB

	import torch
	import torch.nn as nn
	import torch.nn.functional as F
	from torchvision.models import vgg19, VGG19_Weights
	from torchvision import transforms

	class PerceptualLoss(nn.Module):
	"""
	Calculates the VGG perceptual loss.

	Uses features from the VGG19 network pretrained on ImageNet.
	Compares features from specific layers for the generated and target images.
	"""
	def __init__(self, feature_layers=None, use_l1=True, device='cpu'):
	"""
	Args:
	feature_layers (list of int, optional): Indices of VGG19 feature layers to use.
	Defaults correspond to layers before pool1, pool2, pool3, pool4.
	Specifically: relu1_1, relu2_1, relu3_1, relu4_1 in many implementations.
	VGG19 structure: layer indices relate to `features` module.
	use_l1 (bool): If True, use L1 loss between features. If False, use L2 (MSE) loss.
	device (str): 'cuda' or 'cpu'.
	"""
	super(PerceptualLoss, self).__init__()

	# Load pre-trained VGG19 model
	# Ensure you have torchvision installed: pip install torchvision
	try:
	# Recommended way with modern torchvision
	weights = VGG19_Weights.IMAGENET1K_V1
	self.vgg = vgg19(weights=weights).features
	self.preprocess = weights.transforms() # Get the preprocessing expected by the model
	except AttributeError:
	# Fallback for older torchvision versions (might require manual weight download if not cached)
	print("Warning: Using older torchvision VGG19 loading method. Consider upgrading torchvision.")
	self.vgg = vgg19(pretrained=True).features
	# Define standard ImageNet normalization manually if transform isn't available
	self.preprocess = transforms.Compose([
	transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),
	])

	self.vgg.eval() # Set VGG to evaluation mode
	for param in self.vgg.parameters():
	param.requires_grad = False # Freeze VGG parameters

	self.vgg = self.vgg.to(device)
	self.device = device

	# Define the layers to extract features from
	# Common choices are layers before max pooling
	# VGG19 features structure indices:
	# ReLU1_1: 1, ReLU2_1: 6, ReLU3_1: 11, ReLU4_1: 20, ReLU5_1: 29 (Sometimes ReLU5 used too)
	if feature_layers is None:
	# These indices correspond to the output of Conv layers before MaxPool
	# Specifically: conv1_1(0), conv2_1(5), conv3_1(10), conv4_1(19), conv5_1(28)
	# Often the ReLU output right after is used: 1, 6, 11, 20, 29
	self.feature_layers = {1, 6, 11, 20} # Using ReLU outputs before pooling layers 1-4
	# Alternative common set often cited as relu5_4 (index 35 or 36 depending on source):
	# self.feature_layers = {35} # Or use a specific high-level layer
	else:
	self.feature_layers = set(feature_layers)

	self.loss_fn = nn.L1Loss() if use_l1 else nn.MSELoss()

	print(f"PerceptualLoss: Using VGG19 features from layers: {sorted(list(self.feature_layers))}")
	print(f"PerceptualLoss: Using {'L1' if use_l1 else 'L2'} distance.")


	def forward(self, generated, target):
	"""
	Compute the perceptual loss.

	Args:
	generated (torch.Tensor): The generated image tensor (B, C, H, W). Values [0, 1].
	target (torch.Tensor): The target (ground truth) image tensor (B, C, H, W). Values [0, 1].

	Returns:
	torch.Tensor: The calculated perceptual loss.
	"""
	# Ensure inputs are on the correct device
	generated = generated.to(self.device)
	target = target.to(self.device)

	# Preprocess images for VGG
	# VGG expects inputs normalized based on ImageNet stats
	# The transform might handle dtype and range, but let's be explicit
	generated_norm = self.preprocess(generated)
	target_norm = self.preprocess(target)

	# Extract features
	loss = 0.0
	current_layer_idx = 0
	max_needed_layer = max(self.feature_layers) if self.feature_layers else 0

	# Iterate through VGG layers, extracting features only from specified layers
	for layer in self.vgg:
	# Compute features for both images up to the current layer
	generated_norm = layer(generated_norm)
	target_norm = layer(target_norm)

	# If the current layer index is one we want to use for loss calculation
	if current_layer_idx in self.feature_layers:
	loss += self.loss_fn(generated_norm, target_norm)

	# Stop iterating if we've passed the last needed layer
	if current_layer_idx >= max_needed_layer:
	break

	current_layer_idx += 1

	return loss


	# --- Example Usage (for testing the definition) ---
	if __name__ == '__main__':
	device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
	print(f"Using device: {device}")

	# Create dummy images (Batch Size, Channels, Height, Width)
	# Note: Images should be in the range [0, 1] for standard transforms
	dummy_generated = torch.rand(2, 3, 96, 96).to(device) # Example size (must match target)
	dummy_target = torch.rand(2, 3, 96, 96).to(device)

	# Instantiate the loss function
	# Default layers: {1, 6, 11, 20} (Relu1_1, Relu2_1, Relu3_1, Relu4_1 outputs)
	perceptual_loss_l1 = PerceptualLoss(device=device, use_l1=True)
	# Example with different layers and L2 loss
	# perceptual_loss_l2 = PerceptualLoss(feature_layers={35}, device=device, use_l1=False)

	# Calculate loss
	loss_val_l1 = perceptual_loss_l1(dummy_generated, dummy_target)
	# loss_val_l2 = perceptual_loss_l2(dummy_generated, dummy_target)

	print(f"\nCalculated Perceptual Loss (L1, default layers): {loss_val_l1.item()}")
	# print(f"Calculated Perceptual Loss (L2, layer 35): {loss_val_l2.item()}")

	assert loss_val_l1.item() >= 0, "Loss should be non-negative"
	print("\nPerceptualLoss definition test successful!")