MultiModal / model.py

Update model.py

d16a3f0 verified about 1 month ago

18.8 kB

	import torch
	import torch.nn as nn
	import torch.nn.functional as F
	from typing import List, Dict, Optional, Tuple
	import math
	from components import RMSNorm
	from transformer import OptimizedTransformerBlock
	from multimodel_fusion import MultiModalFusionModule
	from encoders import (
	ImprovedVisionTransformer,
	ImprovedAudioEncoder,
	ImprovedVideoEncoder
	)

	class MultiModalDenseTransformer(nn.Module):
	def __init__(
	self,
	model_dim: int = 2048,
	vocab_size: int = 30000,
	n_layers: int = 48,
	n_heads: int = 32,
	n_kv_heads: Optional[int] = None,
	head_dim: Optional[int] = None,
	max_seq_len: int = 8192,
	dropout: float = 0.0,
	attn_dropout: float = 0.0,

	# MoE配置
	use_moe: bool = False,
	num_experts: int = 8,
	moe_top_k: int = 2,
	moe_layers: Optional[List[int]] = None,

	# PEFT配置
	use_adapter: bool = False,
	adapter_dim: int = 64,
	use_lora: bool = False,
	lora_rank: int = 8,

	# 训练配置
	use_gradient_checkpointing: bool = False,
	use_parallel_residual: bool = False,

	# 位置编码
	rope_scaling_factor: float = 1.0,
	rope_scaling_type: str = "yarn",
	sliding_window: Optional[int] = None,

	# 规范化
	norm_eps: float = 1e-6,
	initializer_range: float = 0.02,
	ffn_dim_multiplier: Optional[float] = None,
	tie_word_embeddings: bool = True,

	# 多模态配置
	use_multimodal_fusion: bool = True,
	fusion_layers: int = 4,
	use_contrastive: bool = True,
	vision_depth: int = 24,
	audio_depth: int = 12,
	video_spatial_depth: int = 12,
	video_temporal_depth: int = 4
	):
	super().__init__()

	self.model_dim = model_dim
	self.vocab_size = vocab_size
	self.n_layers = n_layers
	self.max_seq_len = max_seq_len
	self.use_gradient_checkpointing = use_gradient_checkpointing
	self.tie_word_embeddings = tie_word_embeddings
	self.use_multimodal_fusion = use_multimodal_fusion

	# Token embedding
	self.token_embedding = nn.Embedding(vocab_size, model_dim)
	self.modality_embedding = nn.Embedding(4, model_dim)
	self.embed_dropout = nn.Dropout(dropout) if dropout > 0 else nn.Identity()

	self.vision_encoder = ImprovedVisionTransformer(
	embed_dim=model_dim,
	depth=vision_depth,
	n_heads=n_heads,
	dropout=dropout,
	use_adapter=use_adapter,
	adapter_dim=adapter_dim
	)

	self.audio_encoder = ImprovedAudioEncoder(
	embed_dim=model_dim,
	depth=audio_depth,
	n_heads=n_heads,
	dropout=dropout,
	use_adapter=use_adapter,
	adapter_dim=adapter_dim
	)

	self.video_encoder = ImprovedVideoEncoder(
	embed_dim=model_dim,
	spatial_depth=video_spatial_depth,
	temporal_depth=video_temporal_depth,
	n_heads=n_heads,
	dropout=dropout,
	use_adapter=use_adapter,
	adapter_dim=adapter_dim
	)

	# 多模态融合模块
	if use_multimodal_fusion:
	self.fusion_module = MultiModalFusionModule(
	dim=model_dim,
	num_fusion_layers=fusion_layers,
	n_heads=n_heads,
	dropout=dropout,
	use_contrastive=use_contrastive
	)

	if moe_layers is None and use_moe:
	moe_layers = list(range(n_layers // 2, n_layers))
	elif moe_layers is None:
	moe_layers = []

	self.layers = nn.ModuleList([
	OptimizedTransformerBlock(
	dim=model_dim,
	n_heads=n_heads,
	n_kv_heads=n_kv_heads,
	head_dim=head_dim,
	dropout=dropout,
	attn_dropout=attn_dropout,
	use_moe=(use_moe and i in moe_layers),
	num_experts=num_experts,
	moe_top_k=moe_top_k,
	use_adapter=use_adapter,
	adapter_dim=adapter_dim,
	use_lora=use_lora,
	lora_rank=lora_rank,
	use_parallel_residual=use_parallel_residual,
	norm_eps=norm_eps,
	sliding_window=sliding_window,
	ffn_dim_multiplier=ffn_dim_multiplier,
	layer_idx=i
	)
	for i in range(n_layers)
	])

	self.norm = RMSNorm(model_dim, eps=norm_eps)
	self.lm_head = nn.Linear(model_dim, vocab_size, bias=False)

	if tie_word_embeddings:
	self.lm_head.weight = self.token_embedding.weight

	self.initializer_range = initializer_range
	self.apply(self._init_weights)

	if not tie_word_embeddings:
	self._init_lm_head()

	self.n_params = sum(p.numel() for p in self.parameters())
	trainable_params = sum(p.numel() for p in self.parameters() if p.requires_grad)

	print(f"\n{'='*80}")
	print(f"Improved Model Configuration:")
	print(f" Model Dimension: {model_dim}")
	print(f" Vocab Size: {vocab_size}")
	print(f" Layers: {n_layers}")
	print(f" Attention Heads: {n_heads}")
	print(f" KV Heads: {n_kv_heads if n_kv_heads else n_heads}")
	print(f" Max Sequence Length: {max_seq_len}")
	print(f" Multimodal Fusion: {use_multimodal_fusion}")
	print(f" Contrastive Learning: {use_contrastive}")
	print(f" MoE: {use_moe} (Experts: {num_experts}, Top-K: {moe_top_k})")
	print(f" Total Parameters: {self.n_params / 1e9:.2f}B")
	print(f" Trainable Parameters: {trainable_params / 1e9:.2f}B")
	print(f"{'='*80}\n")

	def _init_weights(self, module):
	"""权重初始化"""
	if isinstance(module, nn.Linear):
	torch.nn.init.normal_(module.weight, mean=0.0, std=self.initializer_range)
	if module.bias is not None:
	torch.nn.init.zeros_(module.bias)
	elif isinstance(module, nn.Embedding):
	torch.nn.init.normal_(module.weight, mean=0.0, std=self.initializer_range)
	if hasattr(module, 'padding_idx') and module.padding_idx is not None:
	module.weight.data[module.padding_idx].zero_()

	def _init_lm_head(self):
	"""初始化LM head"""
	std = self.initializer_range / math.sqrt(2 * self.n_layers)
	torch.nn.init.normal_(self.lm_head.weight, mean=0.0, std=std)

	def _encode_modality(self, segment: Dict) -> torch.Tensor:
	"""编码单个模态"""
	seg_type = segment['type']
	seg_data = segment['data']

	if seg_type == 'image':
	return self.vision_encoder(seg_data)
	elif seg_type == 'audio':
	return self.audio_encoder(seg_data)
	elif seg_type == 'video':
	return self.video_encoder(seg_data)
	elif seg_type == 'text':
	return self.token_embedding(seg_data)
	else:
	return seg_data

	def forward(
	self,
	input_data: Dict,
	attention_mask: Optional[torch.Tensor] = None,
	position_ids: Optional[torch.Tensor] = None,
	return_hidden: bool = False,
	use_cache: bool = False,
	past_key_values: Optional[List[Tuple[torch.Tensor, torch.Tensor]]] = None,
	output_attentions: bool = False,
	output_hidden_states: bool = False,
	compute_contrastive: bool = False
	) -> Dict:
	"""前向传播"""
	device = self.token_embedding.weight.device

	# 编码每个模态
	encoded_segments = []
	for segment in input_data.get('segments', []):
	encoded = self._encode_modality(segment)

	# 添加模态嵌入
	modality_id = segment.get('modality_id', 0)
	modality_embeds = self.modality_embedding(
	torch.tensor([modality_id], device=device)
	).expand(encoded.shape[0], encoded.shape[1], -1)

	encoded_segments.append({
	'type': segment['type'],
	'data': encoded + modality_embeds,
	'modality_id': modality_id
	})

	# 多模态融合
	contrastive_losses = {}
	if self.use_multimodal_fusion and len(encoded_segments) > 1:
	fusion_output = self.fusion_module(
	encoded_segments,
	compute_contrastive=compute_contrastive
	)
	x = fusion_output['fused_features']
	contrastive_losses = fusion_output.get('contrastive_losses', {})
	else:
	# 简单拼接
	all_embeddings = [seg['data'] for seg in encoded_segments]
	x = torch.cat(all_embeddings, dim=1) if all_embeddings else torch.zeros(
	1, 1, self.model_dim, device=device
	)

	x = self.embed_dropout(x)
	if position_ids is None:
	if past_key_values is not None:
	# 缓存的长度 (KV cache 的 shape 是 [B, H, SeqLen, D])
	past_length = past_key_values[0][0].size(2)
	# 当前输入的长度
	seq_length = x.shape[1]
	# 生成正确的位置索引: [past_length, past_length + 1, ...]
	position_ids = torch.arange(
	past_length, past_length + seq_length, dtype=torch.long, device=device
	).unsqueeze(0).expand(x.shape[0], -1)
	else:
	# 如果没有缓存，从 0 开始
	seq_length = x.shape[1]
	position_ids = torch.arange(
	0, seq_length, dtype=torch.long, device=device
	).unsqueeze(0).expand(x.shape[0], -1)
	# Transformer层
	present_key_values = [] if use_cache else None
	all_hidden_states = [] if output_hidden_states else None
	all_attentions = [] if output_attentions else None
	moe_aux_loss = torch.tensor(0.0, device=device)

	for idx, layer in enumerate(self.layers):
	if output_hidden_states:
	all_hidden_states.append(x)

	past_kv = past_key_values[idx] if past_key_values is not None else None

	if self.use_gradient_checkpointing and self.training:
	def create_custom_forward(module):
	def custom_forward(*inputs):
	return module(
	inputs[0],
	attention_mask=inputs[1],
	position_ids=inputs[2],
	use_cache=False,
	past_kv=None,
	output_attentions=False
	)
	return custom_forward

	import torch.utils.checkpoint as checkpoint
	layer_outputs = checkpoint.checkpoint(
	create_custom_forward(layer),
	x,
	attention_mask,
	position_ids,
	use_reentrant=False
	)
	x = layer_outputs[0]
	present_kv = None
	attn_weights = None
	else:
	layer_outputs = layer(
	x,
	attention_mask=attention_mask,
	position_ids=position_ids,
	use_cache=use_cache,
	past_kv=past_kv,
	output_attentions=output_attentions
	)
	x, present_kv, attn_weights = layer_outputs

	if use_cache:
	present_key_values.append(present_kv)

	if output_attentions:
	all_attentions.append(attn_weights)

	if hasattr(layer, 'moe_aux_loss'):
	moe_aux_loss += layer.moe_aux_loss

	hidden_states = self.norm(x)
	logits = self.lm_head(hidden_states)

	if output_hidden_states:
	all_hidden_states.append(hidden_states)

	# 组装输出
	outputs = {
	'logits': logits,
	'moe_aux_loss': moe_aux_loss,
	'contrastive_losses': contrastive_losses
	}

	if use_cache:
	outputs['past_key_values'] = present_key_values

	if output_hidden_states:
	outputs['hidden_states'] = all_hidden_states

	if output_attentions:
	outputs['attentions'] = all_attentions

	if return_hidden:
	outputs['last_hidden_state'] = hidden_states

	return outputs

	@torch.no_grad()
	def generate(
	self,
	input_data: Dict,
	max_new_tokens: int = 100,
	temperature: float = 1.0,
	top_k: int = 50,
	top_p: float = 0.9,
	eos_token_id: int = 2,
	pad_token_id: Optional[int] = None,
	use_cache: bool = True,
	repetition_penalty: float = 1.0,
	length_penalty: float = 1.0,
	min_length: int = 0,
	do_sample: bool = True,
	num_beams: int = 1
	) -> torch.Tensor:
	"""改进的生成方法"""
	self.eval()
	device = next(self.parameters()).device

	if pad_token_id is None:
	pad_token_id = eos_token_id

	initial_text_tokens = input_data['segments'][0]['data'].to(device)
	batch_size = initial_text_tokens.shape[0]

	if 'attention_mask' in input_data:
	attention_mask = input_data['attention_mask'].to(device)
	else:
	attention_mask = torch.ones_like(initial_text_tokens)
	initial_seq_len = initial_text_tokens.shape[1]
	position_ids = torch.zeros((batch_size,initial_seq_len),dtype=torch.long,device=device)

	for i in range(batch_size):
	non_pad_mask = attention_mask[i].bool()
	if non_pad_mask.any():
	positions = torch.cumsum(non_pad_mask.long(),dim=0) -1
	position_ids[i]=positions * non_pad_mask.long()



	generated_tokens = []
	past_key_values = None
	current_tokens = initial_text_tokens
	unfinished_sequences = torch.ones(batch_size, dtype=torch.long, device=device)

	for step in range(max_new_tokens):
	current_input_data = {
	'segments': [{'type': 'text', 'data': current_tokens, 'modality_id': 0}]
	}

	if step > 0 and use_cache:
	# 添加当前 token 的 mask (1)
	new_mask = torch.ones(batch_size,1,dtype=torch.long,device=device)
	attention_mask = torch.cat([attention_mask, new_mask], dim=1)
	current_positions = (attention_mask.sum(dim=1 , keepdim=True) -1).clamp(min=0)
	current_positions_ids=current_positions
	else:
	current_positions_ids=position_ids
	outputs = self.forward(
	current_input_data,
	attention_mask=attention_mask, # <--- 传入 Mask
	position_ids=current_positions_ids,
	use_cache=use_cache,
	past_key_values=past_key_values
	)

	logits = outputs['logits']
	if use_cache:
	past_key_values = outputs['past_key_values']

	next_token_logits = logits[:, -1, :] / max(temperature, 1e-5)

	# Repetition penalty
	if repetition_penalty != 1.0 and len(generated_tokens) > 0:
	prev_generated = torch.cat(generated_tokens, dim=1)
	score = torch.gather(next_token_logits, 1, prev_generated)
	score = torch.where(
	score < 0,
	score * repetition_penalty,
	score / repetition_penalty
	)
	next_token_logits.scatter_(1, prev_generated, score)

	# Min length constraint
	if step < min_length:
	next_token_logits[:, eos_token_id] = float('-inf')

	# Sampling
	if do_sample:
	if top_k > 0:
	top_k_vals, _ = torch.topk(next_token_logits, top_k)
	min_val_to_keep = top_k_vals[:, -1].unsqueeze(-1)
	next_token_logits[next_token_logits < min_val_to_keep] = float('-inf')

	if top_p < 1.0:
	sorted_logits, sorted_indices = torch.sort(next_token_logits, descending=True)
	cumulative_probs = torch.cumsum(F.softmax(sorted_logits, dim=-1), dim=-1)
	sorted_indices_to_remove = cumulative_probs > top_p
	sorted_indices_to_remove[..., 1:] = sorted_indices_to_remove[..., :-1].clone()
	sorted_indices_to_remove[..., 0] = 0
	indices_to_remove = torch.zeros_like(next_token_logits, dtype=torch.bool)
	indices_to_remove.scatter_(1, sorted_indices, sorted_indices_to_remove)
	next_token_logits[indices_to_remove] = float('-inf')

	probs = F.softmax(next_token_logits, dim=-1)
	next_token = torch.multinomial(probs, num_samples=1)
	else:
	next_token = torch.argmax(next_token_logits, dim=-1, keepdim=True)

	# Apply unfinished mask
	next_token = next_token * unfinished_sequences[:, None] + pad_token_id * (1 - unfinished_sequences[:, None])

	generated_tokens.append(next_token)

	if not use_cache:
	initial_text_tokens = torch.cat([initial_text_tokens, next_token], dim=1)
	current_tokens = initial_text_tokens
	else:
	current_tokens = next_token

	# Update unfinished sequences
	unfinished_sequences = unfinished_sequences.mul(
	(next_token.squeeze(-1) != eos_token_id).long()
	)

	if unfinished_sequences.max() == 0:
	break

	if not generated_tokens:
	return torch.empty(batch_size, 0, dtype=torch.long, device=device)

	return torch.cat(generated_tokens, dim=1)