Upload DINAC-AE export package

1b703d5 4 days ago

8.98 kB

	"""Dense unconditional DiT blocks used by the DINAC-AE export."""

	from __future__ import annotations

	import torch
	from torch import Tensor, nn

	from common.norms import RMSNorm
	from common.rope import Rope1D
	from dit.attention_blocks import DitSelfAttentionCore
	from dit.body_config import DiTConditioning
	from dit.mlp import build_dit_mlp, reset_module_parameters
	from dit.mlp_types import MLPType
	from dit.position_encoding import DiTPositionEncoding


	def _flatten_tokens(
	x: Tensor, hw: tuple[int, int] \| None
	) -> tuple[Tensor, tuple[int, int], bool]:
	"""Return dense tokens plus spatial metadata."""

	if x.dim() == 4:
	batch, channels, height, width = x.shape
	tokens = x.permute(0, 2, 3, 1).reshape(batch, height * width, channels)
	return tokens, (int(height), int(width)), True
	return x, hw if hw is not None else (int(x.shape[1]), 1), False


	def _restore_spatial(tokens: Tensor, hw: tuple[int, int]) -> Tensor:
	"""Restore dense tokens to NCHW features."""

	batch, _sequence_length, width = tokens.shape
	height, spatial_width = hw
	return tokens.transpose(1, 2).reshape(batch, width, height, spatial_width)


	class TransformerBlock(nn.Module):
	"""Dense pre-norm transformer block kept for import compatibility."""

	d_model: int
	n_heads: int
	attn_norm: RMSNorm \| None
	mlp_norm: RMSNorm \| None
	self_attn: DitSelfAttentionCore
	rope_1d: Rope1D \| None
	mlp: nn.Module

	def __init__(
	self,
	*,
	d_model: int,
	n_heads: int,
	mlp_ratio: float,
	mlp_type: MLPType,
	activation_config: object \| None = None,
	block_index: int = 0,
	use_norms: bool = True,
	position_encoding: DiTPositionEncoding = DiTPositionEncoding.NONE,
	rope_theta: float \| None = None,
	rope_max_position_embeddings: int \| None = None,
	) -> None:
	super().__init__()
	self.d_model = int(d_model)
	self.n_heads = int(n_heads)
	self.attn_norm = RMSNorm(self.d_model) if bool(use_norms) else None
	self.mlp_norm = RMSNorm(self.d_model) if bool(use_norms) else None
	self.self_attn = DitSelfAttentionCore(
	d_model=self.d_model,
	n_heads=self.n_heads,
	position_encoding=position_encoding,
	)
	self.rope_1d = self._build_rope_1d(
	position_encoding=position_encoding,
	rope_theta=rope_theta,
	rope_max_position_embeddings=rope_max_position_embeddings,
	)
	self.mlp = build_dit_mlp(
	mlp_type=mlp_type,
	in_features=self.d_model,
	hidden_budget=int(round(float(mlp_ratio) * self.d_model)),
	activation_config=activation_config,
	block_index=int(block_index),
	bias_up=False,
	bias_down=False,
	)

	def reset_parameters(self) -> None:
	"""Reset attention and MLP parameters."""

	self.self_attn.reset_parameters()
	reset_module_parameters(self.mlp)

	def _build_rope_1d(
	self,
	*,
	position_encoding: DiTPositionEncoding,
	rope_theta: float \| None,
	rope_max_position_embeddings: int \| None,
	) -> Rope1D \| None:
	"""Build 1D RoPE for sequence-only transformer blocks."""

	match position_encoding:
	case DiTPositionEncoding.NONE:
	return None
	case DiTPositionEncoding.ROPE_1D:
	if rope_theta is None or rope_max_position_embeddings is None:
	raise ValueError("ROPE_1D requires theta and max positions")
	return Rope1D(
	dim=int(self.d_model // self.n_heads),
	max_position_embeddings=int(rope_max_position_embeddings),
	base=float(rope_theta),
	)
	case _ as unreachable:
	raise ValueError(f"Unsupported TransformerBlock RoPE: {unreachable}")

	def forward(self, tokens: Tensor, *, generator: torch.Generator \| None) -> Tensor: # type: ignore[override]
	"""Apply dense self-attention and MLP to token sequences."""

	_ = generator
	attn_in = self.attn_norm(tokens) if self.attn_norm is not None else tokens
	rope_sincos = self._build_rope_sincos(attn_in)
	x = tokens + self.self_attn(attn_in, rope_sincos=rope_sincos)
	mlp_in = self.mlp_norm(x) if self.mlp_norm is not None else x
	return x + self.mlp(mlp_in)

	def _build_rope_sincos(self, tokens: Tensor) -> tuple[Tensor, Tensor] \| None:
	"""Return dense 1D RoPE sin/cos buffers."""

	rope = self.rope_1d
	if rope is None:
	return None
	batch = int(tokens.shape[0])
	seqlen = int(tokens.shape[1])
	position_ids = torch.arange(
	seqlen,
	device=tokens.device,
	dtype=torch.int64,
	).unsqueeze(0)
	position_ids = position_ids.expand(batch, seqlen)
	dummy = tokens.new_empty(batch, self.n_heads, seqlen, rope.dim)
	cos, sin = rope(dummy, position_ids)
	return sin, cos


	class DitBlock(nn.Module):
	"""Dense unconditional DiT self-attention block."""

	d: int
	h: int
	dh: int
	hidden_budget: int
	position_encoding: DiTPositionEncoding
	conditioning: DiTConditioning
	adaln: object \| None
	gate_attn: nn.Parameter \| None
	gate_mlp: nn.Parameter \| None
	use_norms: bool
	attn_norm1: RMSNorm
	attn_norm2: RMSNorm
	mlp_norm1: RMSNorm
	mlp_norm2: RMSNorm
	attn_core: DitSelfAttentionCore
	qkv: nn.Linear
	proj_out: nn.Linear
	mlp: nn.Module

	def __init__(
	self,
	d_model: int,
	n_heads: int,
	mlp_ratio: float,
	*,
	adaln: object \| None = None,
	mlp_type: MLPType = MLPType.GELU,
	activation_config: object \| None = None,
	block_index: int = 0,
	use_norms: bool = True,
	position_encoding: DiTPositionEncoding = DiTPositionEncoding.NONE,
	conditioning: DiTConditioning = DiTConditioning.UNCOND,
	) -> None:
	super().__init__()
	if conditioning is not DiTConditioning.UNCOND or adaln is not None:
	raise ValueError("DINAC-AE export only supports unconditional DitBlock")
	self.d = int(d_model)
	self.h = int(n_heads)
	self.dh = int(self.d // self.h)
	self.hidden_budget = int(float(mlp_ratio) * self.d)
	self.position_encoding = position_encoding
	self.conditioning = conditioning
	self.adaln = None
	self.gate_attn = None
	self.gate_mlp = None
	self.use_norms = bool(use_norms)
	self.attn_norm1 = RMSNorm(self.d)
	self.attn_norm2 = RMSNorm(self.d)
	self.mlp_norm1 = RMSNorm(self.d)
	self.mlp_norm2 = RMSNorm(self.d)
	self.attn_core = DitSelfAttentionCore(
	d_model=self.d,
	n_heads=self.h,
	position_encoding=position_encoding,
	)
	self.qkv = self.attn_core.qkv
	self.proj_out = self.attn_core.proj_out
	self.mlp = build_dit_mlp(
	mlp_type=mlp_type,
	in_features=self.d,
	hidden_budget=self.hidden_budget,
	activation_config=activation_config,
	block_index=int(block_index),
	bias_up=False,
	bias_down=False,
	)
	self.reset_parameters()

	def reset_parameters(self) -> None:
	"""Reset attention and MLP parameters."""

	self.attn_core.reset_parameters()
	reset_module_parameters(self.mlp)

	def compile_for_training(self, *, fullgraph: bool, dynamic: bool) -> None:
	"""No-op hook kept for API compatibility."""

	_ = fullgraph, dynamic

	def compile_for_eval(self, *, fullgraph: bool, dynamic: bool) -> None:
	"""No-op hook kept for API compatibility."""

	_ = fullgraph, dynamic

	def forward(
	self,
	x: Tensor,
	hw: tuple[int, int],
	cond_vec: Tensor,
	adaln_m: Tensor \| None = None,
	*,
	rope_sincos: tuple[Tensor, Tensor] \| None = None,
	generator: torch.Generator \| None = None,
	) -> Tensor:
	"""Apply the dense unconditional block to spatial features or tokens."""

	_ = cond_vec, adaln_m, generator
	tokens, hw_tokens, was_spatial = _flatten_tokens(x, hw)
	attn_in = self.attn_norm1(tokens) if self.use_norms else tokens
	y = self.attn_core(attn_in, rope_sincos=rope_sincos)
	attn_out = self.attn_norm2(y) if self.use_norms else y
	tokens = tokens + attn_out
	mlp_in = self.mlp_norm1(tokens) if self.use_norms else tokens
	mlp_out = self.mlp(mlp_in)
	mlp_out = self.mlp_norm2(mlp_out) if self.use_norms else mlp_out
	tokens = tokens + mlp_out
	if was_spatial:
	return _restore_spatial(tokens, hw_tokens)
	return tokens


	__all__ = ["DitBlock", "TransformerBlock"]