first commit

d1e6a4c verified 7 months ago

5.03 kB

	import torch
	import torch.nn as nn
	from torchvision.models import resnet50, ResNet50_Weights
	from torchvision import transforms
	from PIL import Image

	import os

	# ===========
	# Vocabulary
	# ===========

	class Vocabulary:
	def __init__(self):
	self.itos = {}
	self.stoi = {}

	def load(self, stoi, itos):
	self.stoi = stoi
	self.itos = itos

	# ===========
	# Encoder
	# ===========

	class EncoderCNN(nn.Module):
	def __init__(self, embed_size):
	super(EncoderCNN, self).__init__()
	resnet = resnet50(weights=ResNet50_Weights.DEFAULT)
	modules = list(resnet.children())[:-1]
	self.resnet = nn.Sequential(*modules)
	self.linear = nn.Linear(resnet.fc.in_features, embed_size)
	self.bn = nn.BatchNorm1d(embed_size, momentum=0.01)

	def forward(self, images):
	with torch.no_grad():
	features = self.resnet(images) # [B, 2048, 1, 1]
	features = features.view(features.size(0), -1) # [B, 2048]
	features = self.linear(features) # [B, embed_size]
	features = self.bn(features) # [B, embed_size]
	return features

	def __init__(self, embed_size):
	super(EncoderCNN, self).__init__()
	resnet = resnet50(weights=ResNet50_Weights.DEFAULT)
	modules = list(resnet.children())[:-1]
	self.resnet = nn.Sequential(*modules)
	self.linear = nn.Linear(resnet.fc.in_features, embed_size)
	self.bn = nn.BatchNorm1d(embed_size, momentum=0.01)

	def forward(self, images):
	with torch.no_grad():
	features = self.resnet(images).squeeze()
	features = self.linear(features)
	features = self.bn(features)
	return features

	# ===========
	# Decoder
	# ===========

	class DecoderRNN(nn.Module):
	def __init__(self, embed_size, hidden_size, vocab_size, num_layers=1):
	super(DecoderRNN, self).__init__()
	self.embed = nn.Embedding(vocab_size, embed_size)
	self.lstm = nn.LSTM(embed_size, hidden_size, num_layers, batch_first=True)
	self.linear = nn.Linear(hidden_size, vocab_size)

	def forward(self, features, captions):
	embeddings = self.embed(captions)
	inputs = torch.cat((features.unsqueeze(1), embeddings), 1)
	hiddens, _ = self.lstm(inputs)
	outputs = self.linear(hiddens)
	return outputs

	def sample(self, features, vocab, max_len=30):
	"""
	Generates a caption for given image features using greedy search.
	"""
	output_ids = []
	states = None

	inputs = features.unsqueeze(1) # [B, 1, embed_size]

	for _ in range(max_len):
	hiddens, states = self.lstm(inputs, states) # [B, 1, hidden]
	outputs = self.linear(hiddens.squeeze(1)) # [B, vocab_size]
	predicted = outputs.argmax(1) # [B]
	output_ids.append(predicted.item())

	if vocab.itos[predicted.item()] == "<end>":
	break

	inputs = self.embed(predicted).unsqueeze(1)

	return output_ids

	# ===========
	# Predict block
	# ===========

	def predict(image_path, checkpoint_path):
	device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

	embed_size = 256
	hidden_size = 512
	num_layers = 1

	# === Load checkpoint ===
	checkpoint = torch.load(checkpoint_path, map_location=device)

	# === Load vocab ===
	vocab = Vocabulary()
	vocab.load(checkpoint['vocab_stoi'], checkpoint['vocab_itos'])
	vocab_size = len(vocab.stoi)

	# === Load models ===
	encoder = EncoderCNN(embed_size).to(device)
	decoder = DecoderRNN(embed_size, hidden_size, vocab_size, num_layers).to(device)

	encoder.load_state_dict(checkpoint['encoder_state_dict'])
	decoder.load_state_dict(checkpoint['decoder_state_dict'])

	encoder.eval()
	decoder.eval()

	# === Image transform ===
	transform = transforms.Compose([
	transforms.Resize((224, 224)),
	transforms.ToTensor()
	])

	image = Image.open(image_path).convert("RGB")
	image = transform(image).unsqueeze(0).to(device) # [1, 3, 224, 224]

	# === Encode ===
	features = encoder(image)

	# === Decode ===
	output_ids = decoder.sample(features, vocab)

	# === Convert IDs to words ===
	caption = []
	for idx in output_ids:
	word = vocab.itos[idx]
	if word == "<end>":
	break
	caption.append(word)

	final_caption = ' '.join(caption)
	print(f"\n📝 Predicted caption: {final_caption}\n")

	if __name__ == "__main__":
	# ✅ Change these!
	image_path = r"C:\Users\Jayasimma D\Documents\Skin_Disease_Captioning\Dataset\images\train\Albinism\Albinism2.jpg" # 🔍 your test image path
	checkpoint_path = "./checkpoints/caption_model_epoch5.pth"

	predict(image_path, checkpoint_path)