Spaces:

Mandour-101
/

AVE

Paused

AVE / models.py

Mandour

update token

9bb64ca 7 months ago

12.6 kB

	from transformers import (AutoProcessor,
	RobertaConfig,
	BertTokenizerFast,
	RobertaTokenizerFast,
	RobertaModel,
	BlipForQuestionAnswering)
	from huggingface_hub import hf_hub_download
	import torch
	import torch.nn as nn
	import torch.nn.functional as F
	import numpy as np
	import os

	# Load environment variables (optional for local dev; Spaces use web UI for env vars)
	if os.path.exists('.env'):
	from dotenv import load_dotenv
	load_dotenv()

	ATTRIBUTES_LIST = ['sleeve', 'type', 'pattern', 'material',
	'neck', 'color', 'style', 'brand', 'gender']

	HF_CACHE_DIR = "./hf_cache"


	def get_device():
	return "cuda" if torch.cuda.is_available() else "cpu"


	def get_tokenizers():
	bert_tokenizer = BertTokenizerFast.from_pretrained(
	"google-bert/bert-base-uncased", cache_dir=HF_CACHE_DIR)
	roberta_tokenizer = RobertaTokenizerFast.from_pretrained(
	"FacebookAI/roberta-base", cache_dir=HF_CACHE_DIR)
	bert_tokenizer.add_special_tokens({'bos_token': '[DEC]'})
	return bert_tokenizer, roberta_tokenizer


	def get_image_processor():
	return AutoProcessor.from_pretrained("Salesforce/blip-image-captioning-base", cache_dir=HF_CACHE_DIR)


	class AttentionModalityMerger(nn.Module):
	def __init__(self, text_dim, image_dim):
	super().__init__()
	self.text_layer_norm = nn.LayerNorm(text_dim)
	self.image_layer_norm = nn.LayerNorm(image_dim)
	self.linear = nn.Linear(
	in_features=image_dim + text_dim, out_features=1)
	self.sigmoid = nn.Sigmoid()

	def forward(self, text_embedds, image_features, attention_mask):
	input_mask_expanded = attention_mask.unsqueeze(
	-1).expand(text_embedds.size()).float()
	text_embedds = input_mask_expanded * text_embedds
	text_embedds = text_embedds.sum(dim=1)
	text_embedds_norm = self.text_layer_norm(text_embedds)
	image_features = image_features.sum(dim=1)
	image_features_norm = self.image_layer_norm(image_features)
	text_image_embedds = torch.cat(
	[text_embedds_norm, image_features_norm], axis=-1)
	gate_output = self.linear(text_image_embedds)
	p_txt = self.sigmoid(gate_output)
	p_img = 1 - p_txt
	scaled_text = p_txt * text_embedds_norm
	scaled_image = p_img * image_features_norm
	final_output = torch.cat([scaled_text, scaled_image], dim=-1)
	return final_output, p_txt, p_img


	class RobertaTokenClassificationWithCRF(nn.Module):
	def __init__(self, vocab_size, device, roberta_token=None):
	if roberta_token is None:
	roberta_token = os.getenv("ROBERTA_TOKEN")
	super().__init__()
	self.vocab_size = vocab_size
	self.config = RobertaConfig()
	self.roberta = RobertaModel.from_pretrained(
	"FacebookAI/roberta-base", output_hidden_states=True, cache_dir=HF_CACHE_DIR)
	self.freeze_layers()
	self._loadTextWeights(device, roberta_token)

	def _loadTextWeights(self, device, roberta_token):
	repo_id = "LomaaZakaria/Roberta_Attribute_Value_Extraction_Model"
	weights_file_name = "RobertaCRFWithNOAnswerClassifier_OnFashionGenData_2epochs.pth"
	weights_file_path = hf_hub_download(
	repo_id=repo_id, filename=weights_file_name, token=roberta_token, cache_dir=HF_CACHE_DIR)
	state_dict = torch.load(
	weights_file_path, weights_only=True, map_location=device)
	text_model_state_dict = self.roberta.state_dict()
	filtered_state_dict = {
	k: v for k, v in state_dict.items()
	if k in text_model_state_dict and v.shape == text_model_state_dict[k].shape
	}
	self.roberta.load_state_dict(filtered_state_dict, strict=False)

	def freeze_layers(self):
	self.roberta.embeddings.requires_grad_(False)
	for layers in self.roberta.encoder.layer[:8]:
	for p in layers.parameters():
	p.requires_grad = False

	def forward(self, token_ids, attention_mask):
	outputs = self.roberta(input_ids=token_ids,
	attention_mask=attention_mask)
	last_hidden_state = outputs.hidden_states[-1]
	return last_hidden_state


	class ImageModel(nn.Module):
	def __init__(self):
	super(ImageModel, self).__init__()
	self.vision_model = BlipForQuestionAnswering.from_pretrained(
	"Salesforce/blip-vqa-base", cache_dir=HF_CACHE_DIR).vision_model
	self._freezeLayers()

	def _freezeLayers(self):
	self.vision_model.embeddings.requires_grad_(False)
	for layer in self.vision_model.encoder.layers[:8]:
	for p in layer.parameters():
	p.requires_grad = False

	def forward(self, x):
	return self.vision_model(x).last_hidden_state


	class MergerModel(nn.Module):
	def __init__(self, vocab_size, device, roberta_token=None):
	if roberta_token is None:
	roberta_token = os.getenv("ROBERTA_TOKEN")
	super().__init__()
	self.text_decoder = BlipForQuestionAnswering.from_pretrained(
	"Salesforce/blip-vqa-base", cache_dir=HF_CACHE_DIR).text_decoder
	self.text_encoder = RobertaTokenClassificationWithCRF(
	vocab_size, device, roberta_token)
	self.vision_model = ImageModel()
	text_dim, image_dim = self.text_encoder.config.hidden_size, 768
	self.attention_merger = AttentionModalityMerger(text_dim, image_dim)
	self.linear = nn.Linear(in_features=text_dim +
	image_dim, out_features=text_dim)

	def forward(self, **inputs):
	text_encoder = self.text_encoder(
	token_ids=inputs['encoder_token_ids'], attention_mask=inputs['encoder_attention_mask'])
	vision_encoder = self.vision_model(x=inputs['image'])
	merger_output, p_txt, p_img = self.attention_merger(
	text_encoder, vision_encoder, attention_mask=inputs['encoder_attention_mask'])
	merger_output = merger_output.unsqueeze(1)
	batch_size = vision_encoder.shape[0]
	merger_output_mask = torch.ones(
	(batch_size, 1), dtype=torch.long, device=vision_encoder.device)
	merger_output_linear = self.linear(merger_output)
	decoder_output = self.text_decoder(
	input_ids=inputs['decoder_input_token_ids'],
	attention_mask=inputs['decoder_input_attention_mask'],
	encoder_hidden_states=merger_output_linear,
	encoder_attention_mask=merger_output_mask,
	return_dict=True,
	return_logits=True
	)
	logits = decoder_output
	return logits, p_txt, p_img


	def load_merger_model(bert_tokenizer, device, model_token=None):
	if model_token is None:
	model_token = os.getenv("MERGER_MODEL_TOKEN")
	print("MERGER_MODEL_TOKEN is set:", model_token is not None)
	vocab_size = len(bert_tokenizer)
	model = MergerModel(vocab_size, device)
	repo_id = "MohamedMosilhy/AttentionMergerModality"
	weights_file_name = "Freezing_More_NewViTBlipAttentionMergerModality_4epochs_2e_5_withwarmup.pth"
	weights_file_path = hf_hub_download(
	repo_id=repo_id, filename=weights_file_name, token=model_token, cache_dir=HF_CACHE_DIR)
	model.load_state_dict(torch.load(
	weights_file_path, weights_only=True, map_location=device))
	model.to(device)
	model.eval()
	return model


	def model_generate(model, data, text_tokenizer, device, labels=None, max_generated_length=50, testing=False, return_confidence=False):
	if labels is None:
	labels = '[DEC]'
	token_labels = text_tokenizer.convert_tokens_to_ids([labels])
	else:
	token_labels = text_tokenizer.convert_tokens_to_ids([labels])
	model.eval()
	confidences = []
	for index in range(max_generated_length):
	decoder_inputs = text_tokenizer(
	text=labels, max_length=65, padding='max_length', add_special_tokens=False, return_tensors="pt")
	decoder_data = {
	"decoder_input_token_ids": decoder_inputs['input_ids'],
	"decoder_input_attention_mask": decoder_inputs['attention_mask']
	}
	inputs = {
	"image": data['image'].unsqueeze(0).to(device),
	"encoder_token_ids": data['encoder_token_ids'].unsqueeze(0).to(device),
	"encoder_attention_mask": data['encoder_attention_mask'].unsqueeze(0).to(device),
	"decoder_input_token_ids": decoder_data['decoder_input_token_ids'].to(device),
	"decoder_input_attention_mask": decoder_data['decoder_input_attention_mask'].to(device)
	}
	with torch.no_grad():
	logits, _, _ = model(**inputs)
	probs = F.softmax(logits, dim=-1)
	predicated_label = torch.argmax(
	probs[:, index, :], dim=-1).cpu().numpy()
	# Get confidence for this token
	confidence = float(
	probs[0, index, predicated_label[0]].cpu().item())
	confidences.append(confidence)
	token_labels.append(predicated_label[0])
	predicted_tokens = text_tokenizer.convert_ids_to_tokens(
	predicated_label)
	labels = text_tokenizer.decode(token_labels)
	if predicted_tokens[0] == text_tokenizer.sep_token:
	break
	predicated_attribute_value = text_tokenizer.decode(token_labels)
	if testing:
	token_labels = np.array(token_labels)
	dec_token_id = text_tokenizer.bos_token_id
	token_labels = token_labels[token_labels != dec_token_id]
	return token_labels
	if return_confidence:
	# Use the minimum confidence across the generated tokens as the attribute confidence
	return predicated_attribute_value, min(confidences) if confidences else 0.0
	return predicated_attribute_value


	# Define which attributes are relevant for each category
	CATEGORY_ATTRIBUTES = {
	"clothing": ['sleeve', 'type', 'pattern', 'material', 'neck', 'color', 'style', 'brand', 'gender'],
	"bags": ['type', 'pattern', 'material', 'color', 'style', 'brand', 'gender'],
	"shoes": ['type', 'pattern', 'material', 'color', 'style', 'brand', 'gender'],
	"accessories": ['type', 'pattern', 'material', 'color', 'style', 'brand', 'gender'],
	}

	def get_predicated_values(
	model, category, img, desc, image_processor, bert_tokenizer, roberta_tokenizer, device, max_seq_length=256
	):
	results = []

	def _combined_with_CategoriesAttributes(desc, category, attribute):
	return category + ' ' + attribute

	def imageProcesser(img):
	return image_processor(img)

	def _tokenizeText(image, desc, category, attribute):
	combined_desc = _combined_with_CategoriesAttributes(
	desc, category, attribute)
	image_inputs = imageProcesser(image)
	text_encoder_inputs = roberta_tokenizer(
	combined_desc,
	desc,
	max_length=max_seq_length,
	padding='max_length',
	return_tensors='np'
	)
	return image_inputs, text_encoder_inputs

	# Normalize category to lower-case and pick attributes
	category_key = str(category).strip().lower()
	attributes = CATEGORY_ATTRIBUTES.get(category_key, CATEGORY_ATTRIBUTES["clothing"])

	image = img
	for attribute in attributes:
	image_inputs, text_encoder_inputs = _tokenizeText(
	image, desc, category, attribute)
	image_data = torch.from_numpy(np.array(image_inputs['pixel_values']))
	encoder_token_ids = torch.from_numpy(
	np.array(text_encoder_inputs['input_ids']))
	encoder_attn_mask = torch.from_numpy(
	np.array(text_encoder_inputs['attention_mask']))
	inputs = {
	"image": image_data.squeeze(0),
	"encoder_token_ids": encoder_token_ids.squeeze(0),
	"encoder_attention_mask": encoder_attn_mask.squeeze(0),
	}

	predicated_value, confidence = model_generate(
	model, inputs, text_tokenizer=bert_tokenizer, device=device, return_confidence=True
	)
	# Remove [DEC] and [SEP] tokens and strip whitespace
	clean_value = predicated_value.replace('[DEC]', '').replace('[SEP]', '').strip()
	if clean_value != 'not specified':
	results.append(
	{"name": attribute, "value": clean_value,
	"confidence": float(confidence)}
	)
	return results