saute / saute_model.py

Update saute_model.py

f31997e verified 7 months ago

7.87 kB

	import torch
	import torch.nn as nn
	from transformers import PreTrainedModel, BertModel, BertTokenizerFast
	from transformers.modeling_outputs import MaskedLMOutput
	from .saute_config import SAUTEConfig

	activation_to_class = {
	"gelu" : nn.GELU,
	"relu" : nn.ReLU,
	"sigmoid" : nn.Sigmoid
	}

	from transformers import AutoModel

	class EDUSpeakerAwareMLM(nn.Module):
	def __init__(self, config):
	super().__init__()
	# model_name="sentence-transformers/all-MiniLM-L6-v2"
	model_name = "bert-base-uncased"

	self.edu_encoder = AutoModel.from_pretrained(model_name)
	for param in self.edu_encoder.parameters():
	param.requires_grad = False # frozen encoder

	self.d_model = config.hidden_size
	# self.key_proj = nn.Linear(config.hidden_size, config.hidden_size, bias = False)
	# self.val_proj = nn.Linear(config.hidden_size, config.hidden_size, bias = False)
	self.num_heads = config.num_attention_heads
	self.head_dim = config.hidden_size // self.num_heads

	self.key_proj = nn.Linear(config.hidden_size, config.hidden_size, bias=False)
	self.val_proj = nn.Linear(config.hidden_size, config.hidden_size, bias=False)
	self.query_proj = nn.Linear(config.hidden_size, config.hidden_size, bias=False)

	self.query_proj = nn.Linear(config.hidden_size, config.hidden_size, bias = False)

	encoder_layer = nn.TransformerEncoderLayer(d_model=config.hidden_size, nhead=config.num_attention_heads, batch_first=True)
	self.transformer = nn.TransformerEncoder(encoder_layer, num_layers=config.num_hidden_layers)
	# self.out_proj = nn.Linear(config.hidden_size, config.hidden_size)

	# self.mlp_proj = nn.Sequential(
	# nn.Linear(config.hidden_size, 2048),
	# activation_to_class["gelu"](),
	# # nn.Dropout(0.1),
	# nn.Linear(2048, config.hidden_size),
	# # nn.Dropout(0.1),
	# )
	self.ln1 = nn.LayerNorm(config.hidden_size)
	# self.ln2 = nn.LayerNorm(config.hidden_size)

	# self.speaker_memory = {} # Will be filled per batch
	# self.lm_head = nn.Linear(config.hidden_size, self.edu_encoder.config.vocab_size)

	def forward(self, input_ids, attention_mask, speaker_names):
	"""
	input_ids: (B, T, L)
	attention_mask: (B, T, L)
	speaker_names: list of list of strings, shape (B, T)
	"""
	B, T, L = input_ids.shape

	# Encode EDUs using frozen encoder
	with torch.no_grad():
	input_ids_flat = input_ids.view(B * T, L)
	attention_mask_flat = attention_mask.view(B * T, L)
	outputs = self.edu_encoder(input_ids=input_ids_flat, attention_mask=attention_mask_flat)
	token_embeddings = outputs.last_hidden_state # (B*T, L, D)

	token_embeddings = token_embeddings.view(B, T, L, self.d_model)
	# edu_embeddings = token_embeddings.mean(dim=2) # (B, T, D)
	edu_embeddings = token_embeddings[:,:,0] # CLS token
	# query_emb = self.query_proj(token_embeddings)

	# Speaker-aware memory
	speaker_memories = [{} for _ in range(B)]
	# speaker_matrices = torch.zeros(B, T, self.d_model, self.d_model, device=edu_embeddings.device)
	H = self.num_heads
	d = self.head_dim

	speaker_matrices = torch.zeros(B, T, H, d, d, device=edu_embeddings.device)


	for b in range(B):
	for t in range(T):
	speaker = speaker_names[b][t]
	e_t = edu_embeddings[b, t] # (D)

	if speaker not in speaker_memories[b]:
	# speaker_memories[b][speaker] = {
	# 'kv_sum': torch.zeros(self.d_model, self.d_model, device=e_t.device),
	# # 'k_sum': torch.zeros(self.d_model, device=e_t.device),
	# }
	speaker_memories[b][speaker] = {
	'kv_sum': torch.zeros(self.num_heads, self.head_dim, self.head_dim, device=e_t.device)
	}

	mem = speaker_memories[b][speaker]
	# k_t = self.key_proj(e_t)
	# v_t = self.val_proj(e_t)
	# kv_t = torch.outer(k_t, v_t)
	k_t = self.key_proj(e_t).view(self.num_heads, self.head_dim) # (H, d_k)
	v_t = self.val_proj(e_t).view(self.num_heads, self.head_dim) # (H, d_v)
	kv_t = torch.einsum("hd,he->hde", k_t, v_t) # (H, d_k, d_v)


	# with torch.no_grad():
	mem['kv_sum'] = mem['kv_sum'] + kv_t
	# mem['k_sum'] = mem['k_sum'] + k_t

	# z = torch.clamp(mem['k_sum'] @ k_t, min=1e-6)
	# M_s = mem['kv_sum'] / z # (D, D)

	# speaker_matrices[b, t] = M_s
	speaker_matrices[b, t] = mem['kv_sum']

	# Apply speaker matrix to each token
	# speaker_matrices_exp = speaker_matrices.unsqueeze(2) # (B, T, 1, D, D)
	# token_embeddings_exp = query_emb.unsqueeze(-1) # (B, T, L, D, 1)
	# contextual_tokens = token_embeddings + torch.matmul(speaker_matrices_exp, token_embeddings_exp).squeeze(-1) # (B, T, L, D)
	# contextual_tokens = self.ln1(contextual_tokens)
	# contextual_tokens = self.ln2(contextual_tokens + self.mlp_proj(contextual_tokens))
	# Project queries
	query_emb = self.query_proj(token_embeddings) # (B, T, L, D)
	query = query_emb.view(B, T, L, H, d) # (B, T, L, H, d)

	# Apply memory matrices
	contextual = []
	for b in range(B):
	head_outputs = []
	for t in range(T):
	speaker = speaker_names[b][t]
	M = speaker_matrices[b, t] # (H, d, d)
	q = query[b, t] # (L, H, d)
	q = q.transpose(0, 1) # (H, L, d)
	a = torch.matmul(q, M) # (H, L, d)
	a = a.transpose(0, 1).contiguous().view(L, -1) # (L, D)
	contextual_token = token_embeddings[b, t] + a
	head_outputs.append(contextual_token)
	contextual.append(torch.stack(head_outputs))
	contextual_tokens = torch.stack(contextual)
	# (B, T, L, D)
	# contextual_tokens = self.out_proj(contextual_tokens)

	# === NEW: EDU-level Transformer ===
	edu_tokens = contextual_tokens.view(B * T, L, self.d_model) # (B*T, L, D)
	encoded_edu = self.transformer(edu_tokens) # (B*T, L, D)
	encoded = encoded_edu.view(B, T, L, self.d_model) # (B, T, L, D)

	return encoded, 0


	class UtteranceEmbedings(PreTrainedModel):
	config_class = SAUTEConfig

	def __init__(self, config):
	super().__init__(config)

	self.lm_head = nn.Linear(config.hidden_size, config.vocab_size)
	self.saute_unit = EDUSpeakerAwareMLM(config)

	self.config = config

	self.init_weights()

	def forward(
	self,
	input_ids : torch.Tensor,
	speaker_names : list[str],
	attention_mask : torch.Tensor = None,
	labels : torch.Tensor = None
	):
	# print(input_ids.shape)
	X, flop_penalty = self.saute_unit.forward(
	input_ids = input_ids,
	speaker_names = speaker_names,
	attention_mask = attention_mask,
	# hidden_state = None
	)
	# print(X.shape)

	logits = self.lm_head(X)

	loss = None
	if labels is not None:
	loss_fct = nn.CrossEntropyLoss()
	# loss = loss_fct(logits.view(-1, self.config.vocab_size), labels.view(-1)) + 1e-3 * flop_penalty
	loss = loss_fct(logits.view(-1, self.config.vocab_size), labels.view(-1))

	return MaskedLMOutput(loss=loss, logits=logits)