File size: 7,480 Bytes

from typing import Unpack
import torch
from transformers import (
    Cache,
    EncoderDecoderCache,
    DynamicCache,
    DataCollatorWithFlattening,
    XLMRobertaModel,
    XLMRobertaForSequenceClassification,
    XLMRobertaForMaskedLM,
    XLMRobertaForCausalLM,
    XLMRobertaForTokenClassification,
    XLMRobertaForMultipleChoice,
    XLMRobertaForQuestionAnswering
)
from transformers.modeling_outputs import BaseModelOutputWithPoolingAndCrossAttentions
from transformers.utils import TransformersKwargs


def _unpad_input(input_ids: torch.Tensor, attention_mask: torch.Tensor):
    collator = DataCollatorWithFlattening(return_flash_attn_kwargs=True)
    features = collator([{"input_ids": i[a.bool()].tolist()} for i, a in zip(input_ids, attention_mask)])
    return features


def _pad_output(inputs: torch.Tensor, indices: torch.Tensor, batch: int, seqlen: int,) -> torch.Tensor:
    if inputs.dim() == 3:
        inputs = inputs.squeeze()
    if inputs.dim() == 1:
        output = torch.zeros(batch * seqlen, dtype=inputs.dtype, device=inputs.device)
        output[indices] = inputs
        padded_inputs = output.view(batch, seqlen)
    else:
        _, *rest = inputs.shape
        output = torch.zeros(batch * seqlen, *rest, dtype=inputs.dtype, device=inputs.device)
        output[indices] = inputs
        padded_inputs = output.view(batch, seqlen, *rest)
    return padded_inputs


class UnpadXLMRobertaModel(XLMRobertaModel):
    _no_split_modules = ["XLMRobertaEmbeddings", "XLMRobertaLayer"]

    def __init__(self, config, add_pooling_layer=True):
        super().__init__(config, add_pooling_layer=add_pooling_layer)

    def forward(
        self,
        input_ids: torch.Tensor | None = None,
        attention_mask: torch.Tensor | None = None,
        token_type_ids: torch.Tensor | None = None,
        position_ids: torch.Tensor | None = None,
        inputs_embeds: torch.Tensor | None = None,
        encoder_hidden_states: torch.Tensor | None = None,
        encoder_attention_mask: torch.Tensor | None = None,
        past_key_values: Cache | None = None,
        use_cache: bool | None = None,
        cache_position: torch.Tensor | None = None,
        **kwargs: Unpack[TransformersKwargs],
    ) -> tuple[torch.Tensor] | BaseModelOutputWithPoolingAndCrossAttentions:

        if (input_ids is None) ^ (inputs_embeds is not None):
            raise ValueError("You must specify exactly one of input_ids or inputs_embeds")

        if self.config.is_decoder:
            use_cache = use_cache if use_cache is not None else self.config.use_cache
        else:
            use_cache = False

        if use_cache and past_key_values is None:
            past_key_values = (
                EncoderDecoderCache(DynamicCache(config=self.config), DynamicCache(config=self.config))
                if encoder_hidden_states is not None or self.config.is_encoder_decoder
                else DynamicCache(config=self.config)
            )

        past_key_values_length = past_key_values.get_seq_length() if past_key_values is not None else 0

        if input_ids is not None:
            device = input_ids.device
            seq_length = input_ids.shape[1]
            batch_size = input_ids.shape[0]
        else:
            device = inputs_embeds.device
            seq_length = inputs_embeds.shape[1]
            batch_size = inputs_embeds.shape[0]

        indices = None
        if self.config._attn_implementation.startswith("flash_attention"):
            if input_ids is None or attention_mask is None:
                raise ValueError("Unpadding requires both input_ids and attention_mask")
            with torch.no_grad():
                indices = torch.nonzero(attention_mask.flatten(), as_tuple=False).flatten()
                features = _unpad_input(input_ids, attention_mask)
                input_ids = features["input_ids"].to(device=device)
                # roberta requires shifting position_ids by 2
                position_ids = (features["position_ids"] + 2).to(device=device)
                attention_mask = None
                kwargs["cu_seq_lens_k"] = features["cu_seq_lens_k"].to(device=device)
                kwargs["cu_seq_lens_q"] = features["cu_seq_lens_q"].to(device=device)
                kwargs["max_length_k"] = features["max_length_k"]
                kwargs["max_length_q"] = features["max_length_q"]

        embedding_output = self.embeddings(
            input_ids=input_ids,
            position_ids=position_ids,
            token_type_ids=token_type_ids,
            inputs_embeds=inputs_embeds,
            past_key_values_length=past_key_values_length,
        )

        attention_mask, encoder_attention_mask = self._create_attention_masks(
            attention_mask=attention_mask,
            encoder_attention_mask=encoder_attention_mask,
            embedding_output=embedding_output,
            encoder_hidden_states=encoder_hidden_states,
            past_key_values=past_key_values,
        )

        encoder_outputs = self.encoder(
            embedding_output,
            attention_mask=attention_mask,
            encoder_hidden_states=encoder_hidden_states,
            encoder_attention_mask=encoder_attention_mask,
            past_key_values=past_key_values,
            use_cache=use_cache,
            position_ids=position_ids,
            **kwargs,
        )

        sequence_output = encoder_outputs.last_hidden_state
        if self.config._attn_implementation.startswith("flash_attention"):
            sequence_output = _pad_output(
                inputs=sequence_output, indices=indices, batch=batch_size, seqlen=seq_length
            )

        pooled_output = self.pooler(sequence_output) if self.pooler is not None else None
        return BaseModelOutputWithPoolingAndCrossAttentions(
            last_hidden_state=sequence_output,
            pooler_output=pooled_output,
            past_key_values=encoder_outputs.past_key_values,
        )


class UnpadXLMRobertaForCausalLM(XLMRobertaForCausalLM):

    def __init__(self, config):
        super().__init__(config)
        self.roberta = UnpadXLMRobertaModel(config, add_pooling_layer=False)
        self.post_init()


class UnpadXLMRobertaForMaskedLM(XLMRobertaForMaskedLM):

    def __init__(self, config):
        super().__init__(config)
        self.roberta = UnpadXLMRobertaModel(config, add_pooling_layer=False)
        self.post_init()


class UnpadXLMRobertaForSequenceClassification(XLMRobertaForSequenceClassification):

    def __init__(self, config):
        super().__init__(config)
        self.roberta = UnpadXLMRobertaModel(config, add_pooling_layer=False)
        self.post_init()


class UnpadXLMRobertaForTokenClassification(XLMRobertaForTokenClassification):

    def __init__(self, config):
        super().__init__(config)
        self.roberta = UnpadXLMRobertaModel(config, add_pooling_layer=False)
        self.post_init()


class UnpadXLMRobertaForMultipleChoice(XLMRobertaForMultipleChoice):

    def __init__(self, config):
        super().__init__(config)
        self.roberta = UnpadXLMRobertaModel(config)
        self.post_init()


class UnpadXLMRobertaForQuestionAnswering(XLMRobertaForQuestionAnswering):

    def __init__(self, config):
        super().__init__(config)
        self.roberta = UnpadXLMRobertaModel(config, add_pooling_layer=False)
        self.post_init()


def enable_xlm_roberta_unpadding():
    XLMRobertaModel.forward = UnpadXLMRobertaModel.forward