Upload model

2666e68 verified about 1 month ago

6.72 kB

	from typing import Tuple, Union
	from torch import nn
	import torch
	from .model_utils import VisualTransformer
	from .configuration_bert import BertConfig
	from .modeling_bert import BertModel
	import numpy as np
	from utils import _tokenizer

	class CLIP(nn.Module):
	def __init__(self,
	embed_dim: int,
	# vision
	image_resolution: int,
	vision_layers: Union[Tuple[int, int, int, int], int],
	vision_width: int,
	vision_patch_size: int,
	# text
	vocab_size: int,
	text_attention_probs_dropout_prob: float,
	text_hidden_act: str,
	text_hidden_dropout_prob: float,
	text_hidden_size: int,
	text_initializer_range: float,
	text_intermediate_size: int,
	text_max_position_embeddings: int,
	text_num_attention_heads: int,
	text_num_hidden_layers: int,
	text_type_vocab_size: int,
	tokenizer=_tokenizer,
	):
	super().__init__()

	vision_heads = vision_width // 64
	self.visual = VisualTransformer(
	input_resolution=image_resolution,
	patch_size=vision_patch_size,
	width=vision_width,
	layers=vision_layers,
	heads=vision_heads,
	output_dim=embed_dim
	)

	self.bert_config = BertConfig(
	vocab_size_or_config_json_file=vocab_size,
	hidden_size=text_hidden_size,
	num_hidden_layers=text_num_hidden_layers,
	num_attention_heads=text_num_attention_heads,
	intermediate_size=text_intermediate_size,
	hidden_act=text_hidden_act,
	hidden_dropout_prob=text_hidden_dropout_prob,
	attention_probs_dropout_prob=text_attention_probs_dropout_prob,
	max_position_embeddings=text_max_position_embeddings,
	type_vocab_size=text_type_vocab_size,
	initializer_range=text_initializer_range,
	layer_norm_eps=1e-12,
	)
	self.bert = BertModel(self.bert_config)

	self.text_projection = nn.Parameter(
	torch.empty(text_hidden_size, embed_dim))
	self.logit_scale = nn.Parameter(torch.ones([]) * np.log(1 / 0.07))

	self.tokenizer = tokenizer

	# loss
	# self.cl_head = CLIPLoss_withMask_withmultimodal()

	self.initialize_parameters()

	def initialize_parameters(self):
	self.logit_scale = nn.Parameter(torch.ones([]) * np.log(1 / 0.07))

	if self.text_projection is not None:
	nn.init.normal_(self.text_projection,
	std=self.bert_config.hidden_size ** -0.5)

	@property
	def dtype(self):
	return self.visual.conv1.weight.dtype

	def encode_image(self, image):
	return self.visual(image.type(self.dtype))

	def encode_text(self, text):
	pad_index = self.tokenizer.vocab['[PAD]']
	attn_mask = text.ne(pad_index).type(self.dtype)
	x = self.bert(text, attention_mask=attn_mask)[0].type(
	self.dtype) # [batch_size, seq_length, hidden_size]
	x = x @ self.text_projection
	return x[:, 0, :], x

	def forward(self, image, text):
	assert image is not None or text is not None, "text and image cannot both be None!"

	if image is None:
	return self.encode_text(text)
	elif text is None:
	return self.encode_image(image)
	image_features = self.encode_image(image)
	text_features = self.encode_text(text)

	features = {'image_embed': image_features,
	'text_embed': text_features,
	'logit_scale': self.logit_scale.exp()}

	ret = self.cl_head(features)

	return ret



	class MergeLayer(nn.Module):
	def __init__(self, d_model, nhead):
	super().__init__()
	self.cross_attn = nn.MultiheadAttention(embed_dim=d_model, num_heads=nhead, batch_first=True)
	self.norm1 = nn.LayerNorm(d_model)
	self.ffn = nn.Sequential(nn.Linear(d_model, d_model * 4), nn.GELU(), nn.Linear(d_model * 4, d_model))
	self.norm2 = nn.LayerNorm(d_model)

	def forward(self, query, visual_feats, text_feats, key_padding_mask=None):
	visual_cls = visual_feats[:, 0]
	text_cls = text_feats[:, 0]
	query = query + visual_cls.unsqueeze(1) + text_cls.unsqueeze(1)
	kv = torch.cat([visual_feats, text_feats], dim=1)

	# 交叉注意力
	attn_output, _ = self.cross_attn(query=query, key=kv, value=kv, key_padding_mask=key_padding_mask)
	# 残差连接+层归一化
	query = self.norm1(query + attn_output)
	# 前馈网络
	ffn_output = self.ffn(query)
	query = self.norm2(query + ffn_output)
	return query


	class Modality_Mergerv3(nn.Module):
	def __init__(self, d_model: int = 512, d_output: int = 256, nhead: int = 8, layer_num: int = 3):
	super().__init__()
	self.q = nn.Parameter(torch.randn(1, 1, d_model))
	self.layers = nn.ModuleList([
	MergeLayer(d_model, nhead) for _ in range(layer_num)
	])
	self.proj_d512 = nn.Linear(d_model, 512)
	self.proj_d256 = nn.Linear(d_model, 256)
	self.proj_d128 = nn.Linear(d_model, 128)
	self.proj_d64 = nn.Linear(d_model, 64)
	self.proj_d32 = nn.Linear(d_model, 32)

	def forward(self, visual_feats,
	text_feats, text_mask,
	cate_feats, cate_mask,
	c2c_feats,
	):
	bs = visual_feats.size(0)

	# 创建视觉特征的全1 mask（假设视觉特征无pad）
	visual_mask = torch.ones(visual_feats.size()[:2], dtype=text_mask.dtype, device=text_mask.device)
	c2c_mask = torch.ones(c2c_feats.size()[:2], dtype=text_mask.dtype, device=text_mask.device)
	key_padding_mask = torch.cat([visual_mask, text_mask, cate_mask, c2c_mask], dim=1)
	key_padding_mask = key_padding_mask == 0

	text_feats = torch.cat([text_feats, cate_feats, c2c_feats], dim=1)

	query = self.q.expand(bs, -1, -1)
	for layer in self.layers:
	query = layer(query, visual_feats, text_feats, key_padding_mask)

	query = query.squeeze(1)

	mm_features_d512 = self.proj_d512(query)
	mm_features_d256 = self.proj_d256(query)
	mm_features_d128 = self.proj_d128(query)
	mm_features_d64 = self.proj_d64(query)
	mm_features_d32 = self.proj_d32(query)
	return mm_features_d512, mm_features_d256, mm_features_d128, mm_features_d64, mm_features_d32