neurocoder / modeling_neurocoder.py

Upload folder using huggingface_hub

ab7c22b verified 2 days ago

13.7 kB

	"""Transformers model implementation for NeuroCoder remote-code loading."""

	from __future__ import annotations

	import math
	from typing import Any

	import torch
	import torch.nn.functional as F
	from torch import Tensor, nn
	from transformers import PreTrainedModel
	from transformers.modeling_outputs import CausalLMOutputWithPast

	try:
	from .configuration_neurocoder import NeuroCoderConfig
	except Exception:
	from configuration_neurocoder import NeuroCoderConfig


	class RMSNorm(nn.Module):
	def __init__(self, hidden_size: int, eps: float = 1e-6) -> None:
	super().__init__()
	self.eps = eps
	self.weight = nn.Parameter(torch.ones(hidden_size))

	def forward(self, x: Tensor) -> Tensor:
	rms = x.pow(2).mean(-1, keepdim=True)
	return x * torch.rsqrt(rms + self.eps) * self.weight


	class SelfAttention(nn.Module):
	def __init__(self, config: NeuroCoderConfig) -> None:
	super().__init__()
	self.num_heads = config.num_heads
	self.head_dim = config.head_dim
	self.scale = self.head_dim ** -0.5
	self.qkv = nn.Linear(config.hidden_size, config.hidden_size * 3)
	self.out = nn.Linear(config.hidden_size, config.hidden_size)

	def forward(
	self,
	x: Tensor,
	past_key_value: tuple[Tensor, Tensor] \| None = None,
	attention_mask: Tensor \| None = None,
	use_cache: bool = False,
	) -> tuple[Tensor, tuple[Tensor, Tensor] \| None]:
	bsz, seq_len, hidden = x.shape
	qkv = self.qkv(x)
	q, k, v = qkv.chunk(3, dim=-1)

	def shape_heads(t: Tensor) -> Tensor:
	return t.view(bsz, seq_len, self.num_heads, self.head_dim).transpose(1, 2)

	q = shape_heads(q)
	k = shape_heads(k)
	v = shape_heads(v)

	if past_key_value is not None:
	past_k, past_v = past_key_value
	if past_k is not None and past_v is not None:
	k = torch.cat([past_k, k], dim=2)
	v = torch.cat([past_v, v], dim=2)

	present = (k, v) if use_cache else None
	key_len = k.shape[-2]
	past_len = key_len - seq_len

	attn = torch.matmul(q, k.transpose(-2, -1)) * self.scale
	if seq_len > 1 or past_len > 0:
	q_positions = torch.arange(
	past_len,
	past_len + seq_len,
	device=x.device,
	).unsqueeze(-1)
	k_positions = torch.arange(key_len, device=x.device).unsqueeze(0)
	causal_mask = (k_positions <= q_positions).unsqueeze(0).unsqueeze(0)
	attn = attn.masked_fill(~causal_mask, float("-inf"))
	if attention_mask is not None:
	# Expect [batch, key_len] style attention mask. Keep only the last key_len
	# columns so generation with cache remains aligned.
	key_mask = attention_mask[:, -key_len:].to(dtype=torch.bool).unsqueeze(1).unsqueeze(1)
	attn = attn.masked_fill(~key_mask, float("-inf"))

	probs = F.softmax(attn, dim=-1)
	out = torch.matmul(probs, v)
	out = out.transpose(1, 2).contiguous().view(bsz, seq_len, hidden)
	return self.out(out), present


	class DenseFFN(nn.Module):
	def __init__(self, config: NeuroCoderConfig) -> None:
	super().__init__()
	inner = config.hidden_size * config.ffn_multiplier
	self.gate = nn.Linear(config.hidden_size, inner)
	self.up = nn.Linear(config.hidden_size, inner)
	self.down = nn.Linear(inner, config.hidden_size)

	def forward(self, x: Tensor) -> Tensor:
	return self.down(F.silu(self.gate(x)) * self.up(x))


	class MoEFeedForward(nn.Module):
	def __init__(self, config: NeuroCoderConfig) -> None:
	super().__init__()
	self.num_experts = config.num_experts
	self.top_k = config.router_top_k
	self.capacity_factor_train = config.capacity_factor_train
	self.capacity_factor_infer = config.capacity_factor_infer
	self.router = nn.Linear(config.hidden_size, config.num_experts, bias=False)
	self.experts = nn.ModuleList([DenseFFN(config) for _ in range(config.num_experts)])

	def forward(self, x: Tensor) -> tuple[Tensor, Tensor, Tensor]:
	bsz, seq_len, hidden = x.shape
	x_flat = x.reshape(-1, hidden)
	tokens = x_flat.shape[0]

	logits = self.router(x_flat)
	probs = F.softmax(logits, dim=-1)
	top_vals, top_idx = torch.topk(probs, k=self.top_k, dim=-1)

	capacity_factor = self.capacity_factor_train if self.training else self.capacity_factor_infer
	capacity = max(1, math.ceil(capacity_factor * tokens / self.num_experts))

	output = torch.zeros_like(x_flat)
	expert_load = []

	for expert_id in range(self.num_experts):
	expert = self.experts[expert_id]
	assigned_indices = []
	assigned_weights = []
	for rank in range(self.top_k):
	mask = top_idx[:, rank] == expert_id
	idx = torch.nonzero(mask, as_tuple=False).squeeze(-1)
	if idx.numel() == 0:
	continue
	weights = top_vals[idx, rank]
	assigned_indices.append(idx)
	assigned_weights.append(weights)

	if not assigned_indices:
	expert_load.append(0.0)
	continue

	token_indices = torch.cat(assigned_indices, dim=0)
	token_weights = torch.cat(assigned_weights, dim=0)
	if token_indices.numel() > capacity:
	token_indices = token_indices[:capacity]
	token_weights = token_weights[:capacity]

	expert_in = x_flat[token_indices]
	expert_out = expert(expert_in)
	output[token_indices] += expert_out * token_weights.unsqueeze(-1)
	expert_load.append(float(token_indices.numel() / max(tokens, 1)))

	load_tensor = torch.tensor(expert_load, device=x.device)
	mean_prob = probs.mean(dim=0)
	aux_loss = self.num_experts * torch.sum(mean_prob * load_tensor)
	z_loss = torch.mean(torch.logsumexp(logits, dim=-1) ** 2)
	return output.reshape(bsz, seq_len, hidden), aux_loss, z_loss


	class TransformerBlock(nn.Module):
	def __init__(self, config: NeuroCoderConfig, use_moe: bool) -> None:
	super().__init__()
	self.norm1 = RMSNorm(config.hidden_size)
	self.norm2 = RMSNorm(config.hidden_size)
	self.attn = SelfAttention(config)
	self.ffn = MoEFeedForward(config) if use_moe else DenseFFN(config)
	self.use_moe = use_moe

	def forward(
	self,
	x: Tensor,
	past_key_value: tuple[Tensor, Tensor] \| None = None,
	attention_mask: Tensor \| None = None,
	use_cache: bool = False,
	) -> tuple[Tensor, Tensor, Tensor, tuple[Tensor, Tensor] \| None]:
	attn_out, present = self.attn(
	self.norm1(x),
	past_key_value=past_key_value,
	attention_mask=attention_mask,
	use_cache=use_cache,
	)
	x = x + attn_out
	aux_loss = torch.tensor(0.0, device=x.device)
	z_loss = torch.tensor(0.0, device=x.device)
	ffn_input = self.norm2(x)
	if self.use_moe:
	ffn_out, aux_loss, z_loss = self.ffn(ffn_input)
	else:
	ffn_out = self.ffn(ffn_input)
	x = x + ffn_out
	return x, aux_loss, z_loss, present


	class NeuroCoderForCausalLM(PreTrainedModel):
	config_class = NeuroCoderConfig
	base_model_prefix = "neurocoder"
	_no_split_modules = ["TransformerBlock", "MoEFeedForward"]
	_supports_cache_class = False

	def __init__(self, config: NeuroCoderConfig) -> None:
	super().__init__(config)
	self.token_embed = nn.Embedding(config.vocab_size, config.hidden_size)
	self.pos_embed = nn.Embedding(config.context_length, config.hidden_size)
	self.layers = nn.ModuleList(
	[
	TransformerBlock(config, use_moe=((idx + 1) % config.moe_every_n_layers == 0))
	for idx in range(config.num_layers)
	]
	)
	self.norm = RMSNorm(config.hidden_size)
	self.lm_head = nn.Linear(config.hidden_size, config.vocab_size, bias=False)
	self.lm_head.weight = self.token_embed.weight
	self.post_init()

	def get_input_embeddings(self) -> nn.Embedding:
	return self.token_embed

	def set_input_embeddings(self, value: nn.Embedding) -> None:
	self.token_embed = value

	def get_output_embeddings(self) -> nn.Linear:
	return self.lm_head

	def set_output_embeddings(self, new_embeddings: nn.Linear) -> None:
	self.lm_head = new_embeddings

	def prepare_inputs_for_generation(
	self,
	input_ids: Tensor,
	**kwargs: Any,
	) -> dict[str, Any]:
	past_key_values = kwargs.get("past_key_values")
	has_past = False
	if past_key_values is not None and hasattr(past_key_values, "get_seq_length"):
	has_past = bool(past_key_values.get_seq_length() > 0)
	elif isinstance(past_key_values, tuple) and past_key_values:
	first = past_key_values[0]
	has_past = bool(first and first[0] is not None and first[1] is not None)

	if has_past:
	input_ids = input_ids[:, -1:]
	return {
	"input_ids": input_ids,
	"attention_mask": kwargs.get("attention_mask"),
	"past_key_values": past_key_values,
	"use_cache": kwargs.get("use_cache", True),
	}

	@staticmethod
	def _as_legacy_past_key_values(
	past_key_values: Any,
	num_layers: int,
	) -> tuple[tuple[Tensor, Tensor] \| None, ...]:
	if past_key_values is None:
	return tuple([None] * num_layers)

	if hasattr(past_key_values, "to_legacy_cache"):
	past_key_values = past_key_values.to_legacy_cache()

	if isinstance(past_key_values, list):
	past_key_values = tuple(past_key_values)
	if isinstance(past_key_values, tuple):
	return past_key_values

	key_cache = getattr(past_key_values, "key_cache", None)
	value_cache = getattr(past_key_values, "value_cache", None)
	if isinstance(key_cache, list) and isinstance(value_cache, list):
	pairs: list[tuple[Tensor, Tensor] \| None] = []
	for idx in range(num_layers):
	if idx < len(key_cache) and idx < len(value_cache):
	key = key_cache[idx]
	value = value_cache[idx]
	if key is not None and value is not None:
	pairs.append((key, value))
	continue
	pairs.append(None)
	return tuple(pairs)

	return tuple([None] * num_layers)

	def _reorder_cache(
	self,
	past_key_values: tuple[tuple[Tensor, Tensor], ...] \| list[tuple[Tensor, Tensor]],
	beam_idx: Tensor,
	) -> tuple[tuple[Tensor, Tensor], ...]:
	reordered: list[tuple[Tensor, Tensor]] = []
	for key, value in past_key_values:
	reordered.append((key.index_select(0, beam_idx), value.index_select(0, beam_idx)))
	return tuple(reordered)

	def forward(
	self,
	input_ids: Tensor \| None = None,
	attention_mask: Tensor \| None = None,
	labels: Tensor \| None = None,
	past_key_values: Any = None,
	use_cache: bool \| None = None,
	**kwargs: Any,
	) -> CausalLMOutputWithPast:
	if input_ids is None:
	raise ValueError("input_ids is required")

	cache_enabled = bool(self.config.use_cache if use_cache is None else use_cache)
	past = self._as_legacy_past_key_values(past_key_values, len(self.layers))
	bsz, seq_len = input_ids.shape
	past_len = 0
	for entry in past:
	if (
	entry is not None
	and isinstance(entry, tuple)
	and len(entry) == 2
	and entry[0] is not None
	and entry[1] is not None
	):
	past_len = int(entry[0].shape[2])
	break
	pos = torch.arange(
	past_len,
	past_len + seq_len,
	device=input_ids.device,
	).unsqueeze(0).expand(bsz, seq_len)
	pos = pos.clamp_max(self.config.context_length - 1)
	x = self.token_embed(input_ids) + self.pos_embed(pos)
	aux_loss = torch.tensor(0.0, device=input_ids.device)
	z_loss = torch.tensor(0.0, device=input_ids.device)
	present_key_values: list[tuple[Tensor, Tensor]] = []

	for layer_idx, layer in enumerate(self.layers):
	layer_past = past[layer_idx] if layer_idx < len(past) else None
	x, layer_aux, layer_z, layer_present = layer(
	x,
	past_key_value=layer_past, # type: ignore[arg-type]
	attention_mask=attention_mask,
	use_cache=cache_enabled,
	)
	aux_loss = aux_loss + layer_aux
	z_loss = z_loss + layer_z
	if cache_enabled and layer_present is not None:
	present_key_values.append(layer_present)

	x = self.norm(x)
	logits = self.lm_head(x)

	loss = None
	if labels is not None:
	loss = F.cross_entropy(
	logits.view(-1, logits.size(-1)),
	labels.view(-1),
	ignore_index=-100,
	)
	loss = loss + 0.01 * aux_loss + 0.001 * z_loss

	return CausalLMOutputWithPast(
	loss=loss,
	logits=logits,
	past_key_values=tuple(present_key_values) if cache_enabled else None,
	)