sin-qac-model / model.py

Upload folder using huggingface_hub

924e4e0 verified about 1 month ago

7 kB

	"""
	Simplified Query Auto-Completion Model
	Uses CNN+Transformer for prefix/candidate encoding (IE module)
	Optionally uses pretrained ByT5 embeddings
	"""

	import torch
	import torch.nn as nn
	import torch.nn.functional as F
	from transformers import T5EncoderModel


	class CNNLocalEncoder(nn.Module):
	"""Multi-scale CNN for local pattern extraction"""

	def __init__(self, embed_dim=128, num_filters=64, filter_sizes=[3, 4, 5]):
	super().__init__()
	self.convs = nn.ModuleList(
	[
	nn.Conv1d(embed_dim, num_filters, fs, padding=fs // 2)
	for fs in filter_sizes
	]
	)
	self.layer_norm = nn.LayerNorm(num_filters * len(filter_sizes))
	self._init_weights()

	def _init_weights(self):
	for conv in self.convs:
	nn.init.kaiming_normal_(conv.weight, mode="fan_out", nonlinearity="relu")
	nn.init.zeros_(conv.bias)

	def forward(self, x):
	x = x.transpose(1, 2)
	conv_outs = [F.relu(conv(x)) for conv in self.convs]
	pooled = [
	(
	F.max_pool1d(out, out.size(2)).squeeze(2)
	if out.size(2) > 1
	else out.squeeze(2)
	)
	for out in conv_outs
	]
	out = torch.cat(pooled, dim=1)
	return self.layer_norm(out)


	class PrefixEncoder(nn.Module):
	"""CNN + Transformer encoder for prefix"""

	def __init__(self, embed_dim=128, num_filters=64, num_heads=4, num_layers=2):
	super().__init__()
	self.cnn = CNNLocalEncoder(embed_dim, num_filters)
	cnn_out_dim = num_filters * 3

	self.transformer = nn.TransformerEncoder(
	nn.TransformerEncoderLayer(
	d_model=cnn_out_dim,
	nhead=num_heads,
	dim_feedforward=cnn_out_dim * 4,
	dropout=0.1,
	batch_first=True,
	activation="gelu",
	layer_norm_eps=1e-6,
	norm_first=True,
	),
	num_layers=num_layers,
	)
	self.proj = nn.Linear(cnn_out_dim, embed_dim)
	self.layer_norm = nn.LayerNorm(embed_dim)
	self._init_weights()

	def _init_weights(self):
	nn.init.xavier_uniform_(self.proj.weight, gain=0.5)
	nn.init.zeros_(self.proj.bias)

	def forward(self, prefix_embed):
	cnn_out = self.cnn(prefix_embed).unsqueeze(1)
	transformer_out = self.transformer(cnn_out).squeeze(1)
	return self.layer_norm(self.proj(transformer_out))


	class CandidateEncoder(nn.Module):
	"""Transformer encoder for candidate (no CNN)"""

	def __init__(self, embed_dim=128, num_heads=4, num_layers=2):
	super().__init__()
	self.transformer = nn.TransformerEncoder(
	nn.TransformerEncoderLayer(
	d_model=embed_dim,
	nhead=num_heads,
	dim_feedforward=embed_dim * 4,
	dropout=0.1,
	batch_first=True,
	activation="gelu",
	layer_norm_eps=1e-6,
	norm_first=True,
	),
	num_layers=num_layers,
	)
	self.layer_norm = nn.LayerNorm(embed_dim)

	def forward(self, candidate_embed):
	transformer_out = self.transformer(candidate_embed)
	pooled = torch.max(transformer_out, dim=1)[0]
	return self.layer_norm(pooled)


	class QueryCompletionModel(nn.Module):
	"""Query auto-completion: CNN+Transformer for prefix, Transformer for candidate"""

	def __init__(
	self,
	vocab_size=10000,
	embed_dim=128,
	num_filters=64,
	num_heads=4,
	num_transformer_layers=2,
	use_pretrained_embeddings=False,
	pretrained_model_name="google/byt5-small",
	):
	super().__init__()
	self.use_pretrained_embeddings = use_pretrained_embeddings

	if use_pretrained_embeddings:
	# Load pretrained ByT5 and use its embeddings
	print(f"Loading pretrained embeddings from {pretrained_model_name}...")
	byt5_model = T5EncoderModel.from_pretrained(pretrained_model_name)
	pretrained_embed_dim = byt5_model.config.d_model

	# Share the pretrained embedding for both prefix and candidate
	self.shared_embedding = byt5_model.shared
	self.shared_embedding.requires_grad_(True) # Fine-tune embeddings

	# Project to target embed_dim if different
	if pretrained_embed_dim != embed_dim:
	self.embed_proj = nn.Linear(pretrained_embed_dim, embed_dim)
	nn.init.xavier_uniform_(self.embed_proj.weight, gain=0.5)
	else:
	self.embed_proj = nn.Identity()

	print(
	f" ✓ Using pretrained embeddings: {pretrained_embed_dim}D → {embed_dim}D"
	)
	else:
	# Use separate learned embeddings (original behavior)
	self.prefix_embedding = nn.Embedding(vocab_size, embed_dim)
	self.candidate_embedding = nn.Embedding(vocab_size, embed_dim)
	self._init_embeddings()

	self.prefix_encoder = PrefixEncoder(
	embed_dim, num_filters, num_heads, num_transformer_layers
	)
	self.candidate_encoder = CandidateEncoder(
	embed_dim, num_heads, num_transformer_layers
	)

	self.match_predictor = nn.Sequential(
	nn.LayerNorm(embed_dim * 2),
	nn.Linear(embed_dim * 2, embed_dim * 2),
	nn.GELU(),
	nn.Dropout(0.1),
	nn.Linear(embed_dim * 2, embed_dim),
	nn.GELU(),
	nn.Dropout(0.1),
	nn.Linear(embed_dim, 1),
	)
	self._init_predictor()

	def _init_embeddings(self):
	if not self.use_pretrained_embeddings:
	nn.init.normal_(self.prefix_embedding.weight, std=0.02)
	nn.init.normal_(self.candidate_embedding.weight, std=0.02)

	def _init_predictor(self):
	for module in self.match_predictor:
	if isinstance(module, nn.Linear):
	nn.init.xavier_uniform_(module.weight, gain=0.5)
	nn.init.zeros_(module.bias)

	def forward(self, prefix_ids, candidate_ids):
	if self.use_pretrained_embeddings:
	# Use shared pretrained embeddings for both
	prefix_embed = self.embed_proj(self.shared_embedding(prefix_ids))
	candidate_embed = self.embed_proj(self.shared_embedding(candidate_ids))
	else:
	# Use separate learned embeddings
	prefix_embed = self.prefix_embedding(prefix_ids)
	candidate_embed = self.candidate_embedding(candidate_ids)

	prefix_intention = self.prefix_encoder(prefix_embed)
	candidate_intention = self.candidate_encoder(candidate_embed)
	combined = torch.cat([prefix_intention, candidate_intention], dim=-1)
	logits = self.match_predictor(combined)
	return torch.sigmoid(logits)