xtc
File size: 8,734 Bytes
import torch
import torch.nn as nn
import random
import logging
import copy
from typing import Union, List, Optional
from transformers import LogitsProcessor, LogitsProcessorList, StoppingCriteriaList, GenerationConfig
from transformers.generation.utils import GenerationMixin, GenerateDecoderOnlyOutput

logger = logging.getLogger(__name__)

class XTCLogitsWarper(LogitsProcessor):
    """
    LogitsWarper that implements Exclude Top Choices (XTC).
    """
    def __init__(self, threshold: float, probability: float, protected_token_ids: Optional[List[int]] = None, filter_value: float = -float("Inf")):
        self.threshold = threshold
        self.probability = probability
        self.filter_value = filter_value
        self.protected_token_ids = set(protected_token_ids) if protected_token_ids is not None else set()

    def __call__(self, input_ids: torch.LongTensor, scores: torch.FloatTensor) -> torch.FloatTensor:
        if self.probability <= 0.0 or random.random() >= self.probability:
            return scores

        # Sort scores descending
        sorted_logits, sorted_indices = torch.sort(scores, descending=True)
        probs = sorted_logits.softmax(dim=-1)

        # Create a mask for removal
        sorted_indices_to_remove = torch.full_like(probs, False, dtype=torch.bool)

        # XTC Logic
        sorted_indices_to_remove[..., :-1] = probs[..., 1:] >= self.threshold

        # Scatter back to original indices
        indices_to_remove = sorted_indices_to_remove.scatter(1, sorted_indices, sorted_indices_to_remove)

        # Safety: Check if protected tokens would be removed
        if self.protected_token_ids:
            for pid in self.protected_token_ids:
                if indices_to_remove[:, pid].any():
                    # If any protected token is targeted, abort XTC for this step
                    return scores

        # Apply the filter
        scores = scores.masked_fill(indices_to_remove, self.filter_value)
        return scores

def _xtc_decoding(
    model,
    input_ids: torch.LongTensor,
    logits_processor: LogitsProcessorList,
    stopping_criteria: StoppingCriteriaList,
    generation_config: GenerationConfig,
    synced_gpus: bool = False,
    streamer: "BaseStreamer" = None,
    **model_kwargs,
) -> Union[GenerateDecoderOnlyOutput, torch.LongTensor]:
    """
    Custom decoding loop that ensures XTC is applied during sampling.
    """
    
    # 1. Retrieve XTC params from the config (injected by the generate wrapper)
    xtc_threshold = getattr(generation_config, "xtc_threshold", 0.1)
    xtc_probability = getattr(generation_config, "xtc_probability", 0.0)
    
    # Identify tokens to protect
    protected_ids = []
    if generation_config.eos_token_id is not None:
        if isinstance(generation_config.eos_token_id, list):
            protected_ids.extend(generation_config.eos_token_id)
        else:
            protected_ids.append(generation_config.eos_token_id)
            
    # Check for custom protected tokens injected via config
    custom_protected = getattr(generation_config, "xtc_protected_tokens", None)
    if custom_protected:
        protected_ids.extend(custom_protected)

    # 2. Inject XTC into the LogitsProcessorList
    if xtc_probability > 0:
        xtc_warper = XTCLogitsWarper(
            threshold=xtc_threshold,
            probability=xtc_probability,
            protected_token_ids=protected_ids
        )
        logits_processor.append(xtc_warper)

    # 3. Initialization
    pad_token_id = generation_config._pad_token_tensor
    output_attentions = generation_config.output_attentions
    output_hidden_states = generation_config.output_hidden_states
    output_scores = generation_config.output_scores
    return_dict_in_generate = generation_config.return_dict_in_generate
    has_eos_stopping_criteria = any(hasattr(criteria, "eos_token_id") for criteria in stopping_criteria)
    
    # Ensure sampling is on
    do_sample = True 

    # Init output tuples
    scores = () if (return_dict_in_generate and output_scores) else None
    decoder_attentions = () if (return_dict_in_generate and output_attentions) else None
    cross_attentions = () if (return_dict_in_generate and output_attentions) else None
    decoder_hidden_states = () if (return_dict_in_generate and output_hidden_states) else None

    # Track finished sequences
    batch_size, cur_length = input_ids.shape[:2]
    unfinished_sequences = torch.ones(batch_size, dtype=torch.long, device=input_ids.device)
    model_kwargs = model._get_initial_cache_position(cur_length, input_ids.device, model_kwargs)

    this_peer_finished = False

    # 4. Decoding Loop
    while model._has_unfinished_sequences(this_peer_finished, synced_gpus, device=input_ids.device):
        model_inputs = model.prepare_inputs_for_generation(input_ids, **model_kwargs)

        outputs = model(
            **model_inputs,
            return_dict=True,
            output_attentions=output_attentions,
            output_hidden_states=output_hidden_states,
        )

        if synced_gpus and this_peer_finished:
            continue

        next_token_logits = outputs.logits[:, -1, :]

        # Apply Logits Processors (XTC happens here)
        next_token_scores = logits_processor(input_ids, next_token_logits)

        # Store scores
        if return_dict_in_generate and output_scores:
            scores += (next_token_scores,)
        if return_dict_in_generate and output_attentions:
             decoder_attentions += ((outputs.decoder_attentions,) if model.config.is_encoder_decoder else (outputs.attentions,))
        if return_dict_in_generate and output_hidden_states:
            decoder_hidden_states += ((outputs.decoder_hidden_states,) if model.config.is_encoder_decoder else (outputs.hidden_states,))

        # Sample (Multinomial)
        probs = nn.functional.softmax(next_token_scores, dim=-1)
        next_tokens = torch.multinomial(probs, num_samples=1).squeeze(1)

        # EOS check
        if has_eos_stopping_criteria:
            next_tokens = next_tokens * unfinished_sequences + pad_token_id * (1 - unfinished_sequences)

        # Update inputs
        input_ids = torch.cat([input_ids, next_tokens[:, None]], dim=-1)
        
        if streamer is not None:
            streamer.put(next_tokens.cpu())

        model_kwargs = model._update_model_kwargs_for_generation(
            outputs, model_kwargs, is_encoder_decoder=model.config.is_encoder_decoder
        )

        unfinished_sequences = unfinished_sequences & ~stopping_criteria(input_ids, scores)
        this_peer_finished = unfinished_sequences.max() == 0

    if streamer is not None:
        streamer.end()

    if return_dict_in_generate:
        return GenerateDecoderOnlyOutput(
            sequences=input_ids,
            scores=scores,
            attentions=decoder_attentions,
            hidden_states=decoder_hidden_states,
            past_key_values=model_kwargs.get("past_key_values"),
        )
    else:
        return input_ids

def generate(model, *args, **kwargs):
    """
    Wrapper function that prepares parameters and calls the internal decoding loop.
    """
    # 1. Extract XTC parameters from kwargs using .pop()
    # This prevents the "unused model_kwargs" warning because they are removed from kwargs
    xtc_probability = kwargs.pop("xtc_probability", 0.0)
    xtc_threshold = kwargs.pop("xtc_threshold", 0.1)
    xtc_protected_tokens = kwargs.pop("xtc_protected_tokens", None)

    # 2. Prepare GenerationConfig
    # We must handle the case where generation_config is None or not present
    generation_config = kwargs.get("generation_config", None)
    
    if generation_config is None:
        # If no config passed, copy the model's default
        generation_config = copy.deepcopy(model.generation_config)
    else:
        # If passed, verify it's not None
        if generation_config is None: 
            generation_config = copy.deepcopy(model.generation_config)
            
    # Force sampling (XTC doesn't work with greedy)
    generation_config.do_sample = True
    
    # 3. Inject XTC params into the config object
    # Python allows dynamic attribute assignment
    generation_config.xtc_probability = xtc_probability
    generation_config.xtc_threshold = xtc_threshold
    generation_config.xtc_protected_tokens = xtc_protected_tokens
    
    # Update kwargs with the modified config
    kwargs["generation_config"] = generation_config

    # 4. Call standard generation, which will route to `custom_generate` (_xtc_decoding)
    # We pass _xtc_decoding as the function to execute
    return GenerationMixin.generate(
        model, *args, custom_generate=_xtc_decoding, **kwargs
    )