File size: 39,429 Bytes

"""HELM-BERT model implementation.

This module implements the HELM-BERT model with:
- Disentangled attention (DeBERTa-style)
- Enhanced Mask Decoder (EMD) for MLM
- n-gram Induced Encoding (nGiE) layer
"""

import math
from typing import Any, Dict, Optional, Tuple, Union

import torch
import torch.nn as nn
from packaging import version
from torch import _softmax_backward_data
from transformers import PreTrainedModel
from transformers.modeling_outputs import (
    BaseModelOutputWithPooling,
    MaskedLMOutput,
    SequenceClassifierOutput,
)

from .configuration_helmbert import HELMBertConfig


# -----------------------------------------------------------------------------
# Utility Functions
# -----------------------------------------------------------------------------


def masked_layer_norm(
    layer_norm: nn.LayerNorm, x: torch.Tensor, mask: Optional[torch.Tensor] = None
) -> torch.Tensor:
    """Apply LayerNorm with masking to avoid updates on padding tokens.

    Args:
        layer_norm: LayerNorm module
        x: Input tensor (batch_size, seq_len, hidden_size)
        mask: Mask tensor where 0 = padding (ignored), 1 = valid token

    Returns:
        Normalized tensor with padding positions zeroed out
    """
    output = layer_norm(x).to(x.dtype)
    if mask is None:
        return output
    if mask.dim() != x.dim():
        if mask.dim() == 4:
            mask = mask.squeeze(1).squeeze(1)
        mask = mask.unsqueeze(2)
    mask = mask.to(output.dtype)
    return output * mask


class XSoftmax(torch.autograd.Function):
    """Masked Softmax optimized for memory efficiency."""

    @staticmethod
    def forward(
        ctx, input: torch.Tensor, mask: Optional[torch.Tensor], dim: int
    ) -> torch.Tensor:
        ctx.dim = dim
        if mask is not None:
            rmask = ~(mask.bool())
            if rmask.dim() == 2:
                rmask = rmask.unsqueeze(1).unsqueeze(2)
            elif rmask.dim() == 3:
                rmask = rmask.unsqueeze(2)
            output = input.masked_fill(rmask, float("-inf"))
        else:
            output = input
        output = torch.softmax(output, ctx.dim)
        if mask is not None:
            output.masked_fill_(rmask, 0)
        ctx.save_for_backward(output)
        return output

    @staticmethod
    def backward(ctx, grad_output: torch.Tensor) -> Tuple[torch.Tensor, None, None]:
        (output,) = ctx.saved_tensors
        if version.Version(torch.__version__) >= version.Version("1.11.0"):
            input_grad = _softmax_backward_data(
                grad_output, output, ctx.dim, output.dtype
            )
        else:
            input_grad = _softmax_backward_data(grad_output, output, ctx.dim, output)
        return input_grad, None, None


def build_relative_position(
    query_size: int,
    key_size: int,
    bucket_size: int = -1,
    max_position: int = 512,
    device: Optional[torch.device] = None,
) -> torch.Tensor:
    """Build relative position matrix with optional log-bucketing."""
    q_ids = torch.arange(query_size, dtype=torch.long, device=device)
    k_ids = torch.arange(key_size, dtype=torch.long, device=device)
    rel_pos = q_ids.unsqueeze(1) - k_ids.unsqueeze(0)

    if bucket_size > 0:
        rel_buckets = 0
        num_buckets = bucket_size
        rel_buckets += (rel_pos > 0).long() * (num_buckets // 2)
        rel_pos = torch.abs(rel_pos)

        max_exact = num_buckets // 4
        is_small = rel_pos < max_exact

        rel_pos_if_large = (
            max_exact
            + (
                torch.log(rel_pos.float() / max_exact)
                / math.log(max_position / max_exact)
                * (num_buckets // 4 - 1)
            ).long()
        )
        rel_pos_if_large = torch.min(
            rel_pos_if_large, torch.full_like(rel_pos_if_large, num_buckets // 2 - 1)
        )

        rel_buckets += torch.where(is_small, rel_pos, rel_pos_if_large)
        return rel_buckets
    else:
        rel_pos = torch.clamp(rel_pos, -max_position, max_position)
        return rel_pos + max_position


# -----------------------------------------------------------------------------
# Attention Modules
# -----------------------------------------------------------------------------


class DisentangledSelfAttention(nn.Module):
    """Disentangled self-attention with content and position separation.

    Implements content-to-content, content-to-position, and position-to-content
    attention as described in DeBERTa.
    """

    def __init__(self, config: HELMBertConfig):
        super().__init__()

        if config.hidden_size % config.num_attention_heads != 0:
            raise ValueError(
                f"hidden_size ({config.hidden_size}) must be divisible by "
                f"num_attention_heads ({config.num_attention_heads})"
            )

        self.num_heads = config.num_attention_heads
        self.head_size = config.hidden_size // config.num_attention_heads
        self.all_head_size = self.num_heads * self.head_size

        # Content projections
        self.query_proj = nn.Linear(config.hidden_size, self.all_head_size, bias=True)
        self.key_proj = nn.Linear(config.hidden_size, self.all_head_size, bias=True)
        self.value_proj = nn.Linear(config.hidden_size, self.all_head_size, bias=True)

        # Position attention configuration
        self.pos_att_type = [x.strip() for x in config.pos_att_type.lower().split("|")]
        self.max_relative_positions = config.max_relative_positions
        self.position_buckets = config.position_buckets
        self.share_att_key = config.share_att_key

        # Position embedding size
        self.pos_ebd_size = config.max_relative_positions
        if config.position_buckets > 0:
            self.pos_ebd_size = config.position_buckets

        # Position embeddings
        self.rel_embeddings = nn.Embedding(self.pos_ebd_size * 2, config.hidden_size)

        # Position projections
        if not self.share_att_key:
            if "c2p" in self.pos_att_type or "p2p" in self.pos_att_type:
                self.pos_key_proj = nn.Linear(
                    config.hidden_size, self.all_head_size, bias=True
                )
            if "p2c" in self.pos_att_type or "p2p" in self.pos_att_type:
                self.pos_query_proj = nn.Linear(
                    config.hidden_size, self.all_head_size, bias=False
                )

        # Dropout
        self.dropout = nn.Dropout(config.attention_probs_dropout_prob)
        self.pos_dropout = nn.Dropout(config.attention_probs_dropout_prob)

    def transpose_for_scores(self, x: torch.Tensor) -> torch.Tensor:
        """Reshape tensor for attention computation."""
        new_shape = x.size()[:-1] + (self.num_heads, self.head_size)
        x = x.view(*new_shape)
        return x.permute(0, 2, 1, 3).contiguous().view(-1, x.size(1), x.size(-1))

    def forward(
        self,
        hidden_states: torch.Tensor,
        attention_mask: Optional[torch.Tensor] = None,
        output_attentions: bool = False,
        query_states: Optional[torch.Tensor] = None,
        relative_pos: Optional[torch.Tensor] = None,
        rel_embeddings: Optional[torch.Tensor] = None,
    ) -> Dict[str, Any]:
        """Forward pass of disentangled attention."""
        if query_states is None:
            query_states = hidden_states

        # Compute Q, K, V
        query_layer = self.transpose_for_scores(self.query_proj(query_states)).float()
        key_layer = self.transpose_for_scores(self.key_proj(hidden_states)).float()
        value_layer = self.transpose_for_scores(self.value_proj(hidden_states))

        # Calculate scale factor
        scale_factor = 1
        if "c2p" in self.pos_att_type:
            scale_factor += 1
        if "p2c" in self.pos_att_type:
            scale_factor += 1
        if "p2p" in self.pos_att_type:
            scale_factor += 1

        scale = 1.0 / math.sqrt(self.head_size * scale_factor)

        # Content-to-content attention (c2c)
        c2c_scores = torch.bmm(query_layer, key_layer.transpose(-1, -2) * scale)
        attention_scores = c2c_scores

        # Add relative position bias if enabled
        if len(self.pos_att_type) > 0 and self.pos_att_type[0]:
            rel_att = self._disentangled_attention_bias(
                query_layer, key_layer, relative_pos, rel_embeddings, scale_factor
            )
            if rel_att is not None:
                attention_scores = attention_scores + rel_att

        # Normalize scores for numerical stability
        attention_scores = (
            attention_scores - attention_scores.max(dim=-1, keepdim=True)[0].detach()
        )
        attention_scores = attention_scores.to(hidden_states.dtype)

        # Reshape for XSoftmax
        attention_scores = attention_scores.view(
            -1, self.num_heads, attention_scores.size(-2), attention_scores.size(-1)
        )

        # Apply XSoftmax
        attention_probs = XSoftmax.apply(attention_scores, attention_mask, -1)
        attention_probs = self.dropout(attention_probs)

        # Apply attention to values
        attention_probs_flat = attention_probs.view(
            -1, attention_probs.size(-2), attention_probs.size(-1)
        )
        context_layer = torch.bmm(attention_probs_flat, value_layer)

        # Reshape output
        context_layer = context_layer.view(
            -1, self.num_heads, context_layer.size(-2), context_layer.size(-1)
        )
        context_layer = context_layer.permute(0, 2, 1, 3).contiguous()
        new_shape = context_layer.size()[:-2] + (self.all_head_size,)
        context_layer = context_layer.view(*new_shape)

        result = {"hidden_states": context_layer, "attention_probs": attention_probs}
        return result

    def _disentangled_attention_bias(
        self,
        query_layer: torch.Tensor,
        key_layer: torch.Tensor,
        relative_pos: Optional[torch.Tensor],
        rel_embeddings: Optional[torch.Tensor],
        scale_factor: int,
    ) -> Optional[torch.Tensor]:
        """Compute disentangled attention bias."""
        if relative_pos is None:
            q_size = query_layer.size(-2)
            k_size = key_layer.size(-2)
            relative_pos = build_relative_position(
                q_size,
                k_size,
                bucket_size=self.position_buckets,
                max_position=self.max_relative_positions,
                device=query_layer.device,
            )

        if relative_pos.dim() == 2:
            relative_pos = relative_pos.unsqueeze(0).unsqueeze(0)
        elif relative_pos.dim() == 3:
            relative_pos = relative_pos.unsqueeze(1)

        batch_size = query_layer.size(0) // self.num_heads

        # Get position embeddings
        if rel_embeddings is None:
            rel_embeddings = self.rel_embeddings.weight

        att_span = self.pos_ebd_size
        rel_embeddings = rel_embeddings[
            self.pos_ebd_size - att_span : self.pos_ebd_size + att_span, :
        ].unsqueeze(0)
        rel_embeddings = self.pos_dropout(rel_embeddings)

        score = torch.zeros_like(query_layer[:, :, :1]).expand(
            -1, -1, key_layer.size(-2)
        )

        # Prepare position indices
        c2p_pos = torch.clamp(relative_pos + att_span, 0, att_span * 2 - 1)
        c2p_pos = c2p_pos.squeeze(0).expand(
            query_layer.size(0), query_layer.size(1), relative_pos.size(-1)
        )

        # Content-to-position (c2p)
        if "c2p" in self.pos_att_type:
            pos_key_layer = (
                self.pos_key_proj(rel_embeddings)
                if not self.share_att_key
                else self.key_proj(rel_embeddings)
            )
            pos_key_layer = self.transpose_for_scores(pos_key_layer).repeat(
                batch_size, 1, 1
            )

            c2p_scale = 1.0 / math.sqrt(self.head_size * scale_factor)
            c2p_att = torch.bmm(
                query_layer, pos_key_layer.transpose(-1, -2) * c2p_scale
            )
            c2p_att = torch.gather(c2p_att, dim=-1, index=c2p_pos)
            score = score + c2p_att

        # Position-to-content (p2c)
        if "p2c" in self.pos_att_type:
            pos_query_layer = (
                self.pos_query_proj(rel_embeddings)
                if not self.share_att_key
                else self.query_proj(rel_embeddings)
            )
            pos_query_layer = self.transpose_for_scores(pos_query_layer).repeat(
                batch_size, 1, 1
            )

            p2c_scale = 1.0 / math.sqrt(self.head_size * scale_factor)
            p2c_att = torch.bmm(
                pos_query_layer * p2c_scale, key_layer.transpose(-1, -2)
            )
            p2c_att = torch.gather(p2c_att, dim=-2, index=c2p_pos)
            score = score + p2c_att

        return score


# -----------------------------------------------------------------------------
# Transformer Components
# -----------------------------------------------------------------------------


class HELMBertEmbeddings(nn.Module):
    """Token and position embeddings for HELM-BERT."""

    def __init__(self, config: HELMBertConfig):
        super().__init__()
        self.word_embeddings = nn.Embedding(
            config.vocab_size, config.hidden_size, padding_idx=config.pad_token_id
        )
        self.position_embeddings = nn.Embedding(
            config.max_position_embeddings, config.hidden_size
        )
        self.layer_norm = nn.LayerNorm(config.hidden_size)
        self.dropout = nn.Dropout(config.hidden_dropout_prob)

    def forward(
        self,
        input_ids: torch.Tensor,
        attention_mask: Optional[torch.Tensor] = None,
    ) -> Tuple[torch.Tensor, torch.Tensor]:
        """Forward pass.

        Returns:
            Tuple of (token_embeddings, position_embeddings)
        """
        batch_size, seq_len = input_ids.shape

        # Token embeddings
        embeddings = self.word_embeddings(input_ids)

        # Position embeddings
        position_ids = torch.arange(seq_len, dtype=torch.long, device=input_ids.device)
        position_ids = position_ids.unsqueeze(0).expand(batch_size, -1)
        position_embeds = self.position_embeddings(position_ids)

        # Layer norm and dropout
        embeddings = masked_layer_norm(self.layer_norm, embeddings, attention_mask)
        embeddings = self.dropout(embeddings)

        return embeddings, position_embeds


class NgieLayer(nn.Module):
    """n-gram Induced Input Encoding (nGiE) layer.

    Captures local n-gram patterns using 1D convolution.
    """

    def __init__(self, config: HELMBertConfig):
        super().__init__()

        self.conv = nn.Conv1d(
            in_channels=config.hidden_size,
            out_channels=config.hidden_size,
            kernel_size=config.ngie_kernel_size,
            padding=(config.ngie_kernel_size - 1) // 2,
            groups=1,
        )
        self.activation = nn.Tanh()
        self.layer_norm = nn.LayerNorm(config.hidden_size)
        self.dropout = nn.Dropout(config.ngie_dropout)

    def forward(
        self,
        hidden_states: torch.Tensor,
        residual_states: torch.Tensor,
        attention_mask: torch.Tensor,
    ) -> torch.Tensor:
        """Forward pass.

        Args:
            hidden_states: Input to convolution (batch, seq, hidden)
            residual_states: States for residual connection (batch, seq, hidden)
            attention_mask: Mask where 1 = valid, 0 = padding

        Returns:
            Output with n-gram information incorporated
        """
        # Apply 1D convolution
        out = (
            self.conv(hidden_states.permute(0, 2, 1).contiguous())
            .permute(0, 2, 1)
            .contiguous()
        )

        # Create reverse mask for padding
        if version.Version(torch.__version__) >= version.Version("1.2.0a"):
            rmask = (1 - attention_mask).bool()
        else:
            rmask = (1 - attention_mask).byte()

        # Zero out padding positions
        out.masked_fill_(rmask.unsqueeze(-1).expand(out.size()), 0)

        # Apply activation and dropout
        out = self.activation(self.dropout(out))

        # Residual connection with LayerNorm
        output_states = masked_layer_norm(
            self.layer_norm, residual_states + out, attention_mask
        )

        return output_states


class TransformerBlock(nn.Module):
    """Transformer block with disentangled attention and GELU FFN."""

    def __init__(self, config: HELMBertConfig):
        super().__init__()

        self.self_attn = DisentangledSelfAttention(config)
        self.attn_output_dense = nn.Linear(config.hidden_size, config.hidden_size)

        # FFN with GELU
        self.linear1 = nn.Sequential(
            nn.Linear(config.hidden_size, config.intermediate_size), nn.GELU()
        )
        self.linear2 = nn.Linear(config.intermediate_size, config.hidden_size)

        # Normalization and dropout
        self.norm1 = nn.LayerNorm(config.hidden_size)
        self.norm2 = nn.LayerNorm(config.hidden_size)
        self.dropout1 = nn.Dropout(config.hidden_dropout_prob)
        self.dropout2 = nn.Dropout(config.hidden_dropout_prob)

    def forward(
        self,
        src: torch.Tensor,
        src_key_padding_mask: Optional[torch.Tensor] = None,
        output_attentions: bool = False,
        query_states: Optional[torch.Tensor] = None,
        relative_pos: Optional[torch.Tensor] = None,
        rel_embeddings: Optional[torch.Tensor] = None,
    ) -> Tuple[torch.Tensor, Optional[torch.Tensor]]:
        """Forward pass.

        Args:
            src: Input embeddings [seq_len, batch, hidden]
            src_key_padding_mask: Padding mask [batch, seq_len]
            output_attentions: Whether to return attention weights
            query_states: Optional query for EMD
            relative_pos: Relative position indices
            rel_embeddings: Relative position embeddings

        Returns:
            Tuple of (output, optional attention weights)
        """
        # Transpose for attention [seq, batch, hidden] -> [batch, seq, hidden]
        src_transposed = src.transpose(0, 1)

        # Convert padding mask to attention mask (1=valid, 0=padding)
        attention_mask = None
        if src_key_padding_mask is not None:
            attention_mask = (~src_key_padding_mask).float()

        query_states_transposed = None
        if query_states is not None:
            query_states_transposed = query_states.transpose(0, 1)

        # Self-attention
        attn_result = self.self_attn(
            src_transposed,
            attention_mask,
            output_attentions=output_attentions,
            query_states=query_states_transposed,
            relative_pos=relative_pos,
            rel_embeddings=rel_embeddings,
        )
        attn_output = attn_result["hidden_states"].transpose(0, 1)
        attn_weights = attn_result.get("attention_probs") if output_attentions else None

        # Dense projection
        attn_output = self.attn_output_dense(attn_output)

        # Residual connection
        residual_input = query_states if query_states is not None else src
        src = residual_input + self.dropout1(attn_output)

        # LayerNorm
        src = src.transpose(0, 1)
        src = masked_layer_norm(self.norm1, src)
        src = src.transpose(0, 1)

        # FFN
        ff_output = self.linear1(src)
        ff_output = self.linear2(ff_output)
        ff_output = self.dropout2(ff_output)
        src = src + ff_output

        # LayerNorm
        src = src.transpose(0, 1)
        src = masked_layer_norm(self.norm2, src)
        src = src.transpose(0, 1)

        return src, attn_weights


class HELMBertEncoder(nn.Module):
    """Stack of transformer blocks with nGiE layer."""

    def __init__(self, config: HELMBertConfig):
        super().__init__()
        self.config = config

        # nGiE layer (applied after first transformer block)
        self.ngie_layer = NgieLayer(config)

        # Transformer blocks
        self.layers = nn.ModuleList(
            [TransformerBlock(config) for _ in range(config.num_hidden_layers)]
        )

    def get_rel_embedding(self) -> Optional[torch.Tensor]:
        """Get relative position embeddings from first layer."""
        if len(self.layers) > 0:
            first_layer = self.layers[0]
            if hasattr(first_layer, "self_attn") and hasattr(
                first_layer.self_attn, "rel_embeddings"
            ):
                return first_layer.self_attn.rel_embeddings.weight
        return None

    def forward(
        self,
        hidden_states: torch.Tensor,
        attention_mask: Optional[torch.Tensor] = None,
        position_embeddings: Optional[torch.Tensor] = None,
        output_attentions: bool = False,
        output_hidden_states: bool = False,
        use_emd: bool = False,
    ) -> Tuple[torch.Tensor, Optional[torch.Tensor], Optional[Tuple], Optional[Tuple]]:
        """Forward pass.

        Args:
            hidden_states: Input embeddings [batch, seq, hidden]
            attention_mask: Attention mask [batch, seq]
            position_embeddings: Position embeddings for EMD
            output_attentions: Whether to return attention weights
            output_hidden_states: Whether to return all hidden states
            use_emd: Whether to use Enhanced Mask Decoder

        Returns:
            Tuple of (last_hidden_state, emd_output, all_hidden_states, all_attentions)
        """
        all_hidden_states = () if output_hidden_states else None
        all_attentions = () if output_attentions else None

        # Store for nGiE
        ngie_input_states = hidden_states

        # [batch, seq, hidden] -> [seq, batch, hidden]
        hidden_states = hidden_states.transpose(0, 1)

        # Key padding mask (True = padding)
        key_padding_mask = None
        if attention_mask is not None:
            key_padding_mask = ~attention_mask.bool()

        # Store layer[-2] for EMD
        layer_minus_2 = None
        num_layers = len(self.layers)

        for layer_idx, layer in enumerate(self.layers):
            if output_hidden_states:
                all_hidden_states = all_hidden_states + (hidden_states.transpose(0, 1),)

            hidden_states, attn_weights = layer(
                hidden_states,
                src_key_padding_mask=key_padding_mask,
                output_attentions=output_attentions,
            )

            if output_attentions and attn_weights is not None:
                all_attentions = all_attentions + (attn_weights,)

            # Apply nGiE after first layer
            if layer_idx == 0:
                hidden_states_batch = hidden_states.transpose(0, 1)
                hidden_states_batch = self.ngie_layer(
                    ngie_input_states, hidden_states_batch, attention_mask
                )
                hidden_states = hidden_states_batch.transpose(0, 1)

            # Store layer[-2] for EMD
            if use_emd and layer_idx == num_layers - 2:
                layer_minus_2 = hidden_states

        # Convert back to [batch, seq, hidden]
        hidden_states = hidden_states.transpose(0, 1)

        if output_hidden_states:
            all_hidden_states = all_hidden_states + (hidden_states,)

        # Enhanced Mask Decoder (EMD) for MLM
        emd_output = None
        if use_emd and layer_minus_2 is not None and position_embeddings is not None:
            emd_keys_values = layer_minus_2
            emd_query = layer_minus_2.transpose(0, 1)
            emd_query = position_embeddings + emd_query
            emd_query = emd_query.transpose(0, 1)

            rel_embeddings = self.get_rel_embedding()
            last_layer = self.layers[-1]

            for _ in range(2):
                emd_query, _ = last_layer(
                    emd_keys_values,
                    src_key_padding_mask=key_padding_mask,
                    query_states=emd_query,
                    relative_pos=None,
                    rel_embeddings=rel_embeddings,
                )

            emd_output = emd_query.transpose(0, 1)

        return hidden_states, emd_output, all_hidden_states, all_attentions


class HELMBertPooler(nn.Module):
    """Mean pooling over sequence."""

    def __init__(self, config: HELMBertConfig):
        super().__init__()
        self.hidden_size = config.hidden_size

    def forward(
        self, hidden_states: torch.Tensor, attention_mask: Optional[torch.Tensor] = None
    ) -> torch.Tensor:
        """Apply mean pooling.

        Args:
            hidden_states: [batch, seq, hidden]
            attention_mask: [batch, seq]

        Returns:
            Pooled output [batch, hidden]
        """
        if attention_mask is not None:
            mask_expanded = (
                attention_mask.unsqueeze(-1).expand(hidden_states.size()).float()
            )
            sum_embeddings = torch.sum(hidden_states * mask_expanded, 1)
            eps = torch.finfo(hidden_states.dtype).eps
            sum_mask = torch.clamp(mask_expanded.sum(1), min=eps)
            return sum_embeddings / sum_mask
        else:
            return hidden_states.mean(dim=1)


# -----------------------------------------------------------------------------
# Pre-trained Model Base
# -----------------------------------------------------------------------------


class HELMBertPreTrainedModel(PreTrainedModel):
    """Base class for HELM-BERT models."""

    config_class = HELMBertConfig
    base_model_prefix = "helmbert"

    def _init_weights(self, module: nn.Module) -> None:
        """Initialize weights with BERT-style initialization."""
        if isinstance(module, nn.Linear):
            nn.init.normal_(module.weight, mean=0.0, std=0.02)
            if module.bias is not None:
                nn.init.zeros_(module.bias)
        elif isinstance(module, nn.Embedding):
            nn.init.normal_(module.weight, mean=0.0, std=0.02)
            if module.padding_idx is not None:
                module.weight.data[module.padding_idx].zero_()
        elif isinstance(module, nn.LayerNorm):
            nn.init.ones_(module.weight)
            nn.init.zeros_(module.bias)


# -----------------------------------------------------------------------------
# Model Classes
# -----------------------------------------------------------------------------


class HELMBertModel(HELMBertPreTrainedModel):
    """HELM-BERT base model.

    This model outputs the last hidden states and optionally pooled output.

    Example:
        >>> from helmbert import HELMBertModel, HELMBertTokenizer
        >>> tokenizer = HELMBertTokenizer()
        >>> model = HELMBertModel.from_pretrained("./checkpoints/helmbert-base")
        >>> inputs = tokenizer("PEPTIDE1{A.C.D.E}$$$$", return_tensors="pt")
        >>> outputs = model(**inputs)
        >>> last_hidden_state = outputs.last_hidden_state
        >>> pooler_output = outputs.pooler_output
    """

    def __init__(self, config: HELMBertConfig):
        super().__init__(config)
        self.config = config

        self.embeddings = HELMBertEmbeddings(config)
        self.encoder = HELMBertEncoder(config)
        self.pooler = HELMBertPooler(config)

        self.post_init()

    def get_input_embeddings(self) -> nn.Embedding:
        return self.embeddings.word_embeddings

    def set_input_embeddings(self, value: nn.Embedding) -> None:
        self.embeddings.word_embeddings = value

    def forward(
        self,
        input_ids: torch.Tensor,
        attention_mask: Optional[torch.Tensor] = None,
        output_attentions: bool = False,
        output_hidden_states: bool = False,
        return_dict: bool = True,
    ) -> Union[Tuple, BaseModelOutputWithPooling]:
        """Forward pass.

        Args:
            input_ids: Token IDs [batch, seq]
            attention_mask: Attention mask [batch, seq]
            output_attentions: Whether to return attention weights
            output_hidden_states: Whether to return all hidden states
            return_dict: Whether to return a ModelOutput

        Returns:
            BaseModelOutputWithPooling or tuple
        """
        if attention_mask is None:
            attention_mask = torch.ones_like(input_ids)

        # Embeddings
        embeddings, position_embeddings = self.embeddings(input_ids, attention_mask)

        # Encoder
        encoder_outputs = self.encoder(
            embeddings,
            attention_mask=attention_mask,
            position_embeddings=position_embeddings,
            output_attentions=output_attentions,
            output_hidden_states=output_hidden_states,
            use_emd=False,
        )

        last_hidden_state = encoder_outputs[0]
        hidden_states = encoder_outputs[2]
        attentions = encoder_outputs[3]

        # Pooling
        pooler_output = self.pooler(last_hidden_state, attention_mask)

        if not return_dict:
            return (last_hidden_state, pooler_output, hidden_states, attentions)

        return BaseModelOutputWithPooling(
            last_hidden_state=last_hidden_state,
            pooler_output=pooler_output,
            hidden_states=hidden_states,
            attentions=attentions,
        )


class HELMBertLMHead(nn.Module):
    """MLM head with weight tying (HuggingFace standard)."""

    def __init__(self, config: HELMBertConfig):
        super().__init__()
        self.dense = nn.Linear(config.hidden_size, config.hidden_size)
        self.layer_norm = nn.LayerNorm(config.hidden_size)
        self.activation = nn.GELU()

        # Decoder with weight tying (weight tied to embedding, bias is separate)
        self.decoder = nn.Linear(config.hidden_size, config.vocab_size, bias=True)

    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
        """Forward pass.

        Args:
            hidden_states: [batch, seq, hidden]

        Returns:
            Logits [batch, seq, vocab]
        """
        hidden_states = self.dense(hidden_states)
        hidden_states = self.activation(hidden_states)
        hidden_states = self.layer_norm(hidden_states)
        logits = self.decoder(hidden_states)
        return logits


class HELMBertForMaskedLM(HELMBertPreTrainedModel):
    """HELM-BERT for Masked Language Modeling with Enhanced Mask Decoder (EMD).

    Example:
        >>> from helmbert import HELMBertForMaskedLM, HELMBertTokenizer
        >>> tokenizer = HELMBertTokenizer()
        >>> model = HELMBertForMaskedLM.from_pretrained("./checkpoints/helmbert-base")
        >>> inputs = tokenizer("PEPTIDE1{A.¶.D.E}$$$$", return_tensors="pt")  # ¶ is mask
        >>> outputs = model(**inputs)
        >>> predictions = outputs.logits.argmax(dim=-1)
    """

    _tied_weights_keys = ["lm_head.decoder.weight"]

    def __init__(self, config: HELMBertConfig):
        super().__init__(config)
        self.helmbert = HELMBertModel(config)
        self.lm_head = HELMBertLMHead(config)

        self.post_init()

    def get_output_embeddings(self) -> nn.Linear:
        return self.lm_head.decoder

    def set_output_embeddings(self, new_embeddings: nn.Linear) -> None:
        self.lm_head.decoder = new_embeddings

    def get_input_embeddings(self) -> nn.Embedding:
        return self.helmbert.embeddings.word_embeddings

    def forward(
        self,
        input_ids: torch.Tensor,
        attention_mask: Optional[torch.Tensor] = None,
        labels: Optional[torch.Tensor] = None,
        output_attentions: bool = False,
        output_hidden_states: bool = False,
        return_dict: bool = True,
        use_emd: bool = True,
    ) -> Union[Tuple, MaskedLMOutput]:
        """Forward pass.

        Args:
            input_ids: Token IDs [batch, seq]
            attention_mask: Attention mask [batch, seq]
            labels: Labels for MLM (-100 for non-masked tokens)
            output_attentions: Whether to return attention weights
            output_hidden_states: Whether to return all hidden states
            return_dict: Whether to return a ModelOutput
            use_emd: Whether to use Enhanced Mask Decoder

        Returns:
            MaskedLMOutput or tuple
        """
        if attention_mask is None:
            attention_mask = torch.ones_like(input_ids)

        # Embeddings
        embeddings, position_embeddings = self.helmbert.embeddings(
            input_ids, attention_mask
        )

        # Encoder with optional EMD
        encoder_outputs = self.helmbert.encoder(
            embeddings,
            attention_mask=attention_mask,
            position_embeddings=position_embeddings,
            output_attentions=output_attentions,
            output_hidden_states=output_hidden_states,
            use_emd=use_emd,
        )

        # Use EMD output if available, otherwise use last hidden state
        if use_emd and encoder_outputs[1] is not None:
            sequence_output = encoder_outputs[1]
        else:
            sequence_output = encoder_outputs[0]

        hidden_states = encoder_outputs[2]
        attentions = encoder_outputs[3]

        # MLM head (weight tying handled by HuggingFace)
        prediction_scores = self.lm_head(sequence_output)

        # Calculate loss if labels provided
        loss = None
        if labels is not None:
            loss_fct = nn.CrossEntropyLoss(ignore_index=-100)
            loss = loss_fct(
                prediction_scores.view(-1, self.config.vocab_size), labels.view(-1)
            )

        if not return_dict:
            output = (prediction_scores, hidden_states, attentions)
            return ((loss,) + output) if loss is not None else output

        return MaskedLMOutput(
            loss=loss,
            logits=prediction_scores,
            hidden_states=hidden_states,
            attentions=attentions,
        )


class MLPHead(nn.Module):
    """MLP head with skip connections for classification/regression.

    Architecture: input -> [Linear -> GELU -> LayerNorm -> Dropout (+ skip)] x N -> Linear -> output
    """

    def __init__(
        self,
        input_dim: int,
        output_dim: int,
        hidden_dims: list,
        dropout: float = 0.1,
    ):
        super().__init__()
        self.layers = nn.ModuleList()
        self.norms = nn.ModuleList()
        self.dropouts = nn.ModuleList()

        prev_dim = input_dim
        for hidden_dim in hidden_dims:
            self.layers.append(nn.Linear(prev_dim, hidden_dim))
            self.norms.append(nn.LayerNorm(hidden_dim))
            self.dropouts.append(nn.Dropout(dropout))
            prev_dim = hidden_dim

        self.output_layer = nn.Linear(prev_dim, output_dim)
        self.activation = nn.GELU()

    def forward(self, x: torch.Tensor) -> torch.Tensor:
        for layer, norm, dropout in zip(self.layers, self.norms, self.dropouts):
            identity = x
            x = layer(x)
            if x.shape == identity.shape:
                x = x + identity  # Skip connection
            x = self.activation(x)
            x = norm(x)
            x = dropout(x)
        return self.output_layer(x)


class HELMBertForSequenceClassification(HELMBertPreTrainedModel):
    """HELM-BERT for sequence classification/regression.

    Example:
        >>> from helmbert import HELMBertForSequenceClassification, HELMBertConfig
        >>> # Simple linear head (default)
        >>> config = HELMBertConfig(num_labels=1)
        >>> model = HELMBertForSequenceClassification(config)
        >>>
        >>> # MLP head with 2 layers (for permeability prediction)
        >>> config = HELMBertConfig(num_labels=1, classifier_num_layers=2)
        >>> model = HELMBertForSequenceClassification(config)
    """

    def __init__(self, config: HELMBertConfig):
        super().__init__(config)
        self.num_labels = config.num_labels
        self.config = config

        self.helmbert = HELMBertModel(config)

        # Use MLP head if num_layers > 0, otherwise simple linear
        if config.classifier_num_layers > 0:
            hidden_dims = [config.hidden_size] * config.classifier_num_layers
            self.classifier = MLPHead(
                input_dim=config.hidden_size,
                output_dim=config.num_labels,
                hidden_dims=hidden_dims,
                dropout=config.classifier_dropout,
            )
        else:
            self.dropout = nn.Dropout(config.classifier_dropout)
            self.classifier = nn.Linear(config.hidden_size, config.num_labels)

        self.post_init()

    def forward(
        self,
        input_ids: torch.Tensor,
        attention_mask: Optional[torch.Tensor] = None,
        labels: Optional[torch.Tensor] = None,
        output_attentions: bool = False,
        output_hidden_states: bool = False,
        return_dict: bool = True,
    ) -> Union[Tuple, SequenceClassifierOutput]:
        """Forward pass.

        Args:
            input_ids: Token IDs [batch, seq]
            attention_mask: Attention mask [batch, seq]
            labels: Labels for classification/regression
            output_attentions: Whether to return attention weights
            output_hidden_states: Whether to return all hidden states
            return_dict: Whether to return a ModelOutput

        Returns:
            SequenceClassifierOutput or tuple
        """
        outputs = self.helmbert(
            input_ids,
            attention_mask=attention_mask,
            output_attentions=output_attentions,
            output_hidden_states=output_hidden_states,
            return_dict=True,
        )

        pooled_output = outputs.pooler_output
        # MLP head has internal dropout, simple linear needs separate dropout
        if hasattr(self, "dropout"):
            pooled_output = self.dropout(pooled_output)
        logits = self.classifier(pooled_output)

        loss = None
        if labels is not None:
            if self.config.problem_type is None:
                if self.num_labels == 1:
                    self.config.problem_type = "regression"
                elif self.num_labels > 1 and (
                    labels.dtype == torch.long or labels.dtype == torch.int
                ):
                    self.config.problem_type = "single_label_classification"
                else:
                    self.config.problem_type = "multi_label_classification"

            if self.config.problem_type == "regression":
                loss_fct = nn.MSELoss()
                if self.num_labels == 1:
                    loss = loss_fct(logits.squeeze(), labels.squeeze())
                else:
                    loss = loss_fct(logits, labels)
            elif self.config.problem_type == "single_label_classification":
                loss_fct = nn.CrossEntropyLoss()
                loss = loss_fct(logits.view(-1, self.num_labels), labels.view(-1))
            elif self.config.problem_type == "multi_label_classification":
                loss_fct = nn.BCEWithLogitsLoss()
                loss = loss_fct(logits, labels)

        if not return_dict:
            output = (logits,) + outputs[2:]
            return ((loss,) + output) if loss is not None else output

        return SequenceClassifierOutput(
            loss=loss,
            logits=logits,
            hidden_states=outputs.hidden_states,
            attentions=outputs.attentions,
        )