DigitalDaimyo
/

AddressedStateAttention

+"""
+Text Generation Utilities for ASA Models
+Simple, dependency-free text generation with common decoding strategies.
+Repository: https://github.com/DigitalDaimyo/AddressedStateAttention
+"""
+import torch
+import torch.nn.functional as F
+from typing import Optional, Set, Tuple, List
+__all__ = ['generate']
+def _forward_logits(model, input_ids, attention_mask=None):
+    """Extract logits from various model output formats."""
+    out = model(input_ids, attention_mask=attention_mask) if attention_mask is not None else model(input_ids)
+    if isinstance(out, torch.Tensor):
+        return out
+    if isinstance(out, (tuple, list)):
+        return out[0]
+    if isinstance(out, dict):
+        for key in ["logits", "out", "y", "pred"]:
+            if key in out:
+                return out[key]
+    raise TypeError(f"Unrecognized model output type: {type(out)}")
+def _apply_repetition_penalty(logits: torch.Tensor, input_ids: torch.Tensor, penalty: float):
+    """Apply repetition penalty to logits (GPT-2 style)."""
+    if penalty is None or penalty == 1.0:
+        return logits
+    B = logits.size(0)
+    for b in range(B):
+        prev_tokens = torch.unique(input_ids[b])
+        l = logits[b, prev_tokens]
+        logits[b, prev_tokens] = torch.where(l < 0, l * penalty, l / penalty)
+    return logits
+def _top_k_top_p_filtering(
+    logits: torch.Tensor,
+    top_k: int = 0,
+    top_p: float = 1.0,
+    min_tokens_to_keep: int = 1
+):
+    """Filter logits using top-k and nucleus (top-p) filtering."""
+    B, V = logits.shape
+    top_k = int(top_k) if top_k is not None else 0
+    top_p = float(top_p) if top_p is not None else 1.0
+    if top_k > 0 and top_k < V:
+        kth = torch.topk(logits, top_k, dim=-1).values[:, -1].unsqueeze(-1)
+        logits = logits.masked_fill(logits < kth, float("-inf"))
+    if top_p < 1.0:
+        sorted_logits, sorted_idx = torch.sort(logits, descending=True, dim=-1)
+        probs = F.softmax(sorted_logits, dim=-1)
+        cum = probs.cumsum(dim=-1)
+        remove = cum > top_p
+        if min_tokens_to_keep > 1:
+            remove[:, :min_tokens_to_keep] = False
+        remove = torch.cat([
+            torch.zeros((B, 1), device=logits.device, dtype=torch.bool),
+            remove[:, :-1]
+        ], dim=-1)
+        sorted_logits = sorted_logits.masked_fill(remove, float("-inf"))
+        logits = torch.full_like(logits, float("-inf"))
+        logits.scatter_(dim=-1, index=sorted_idx, src=sorted_logits)
+    return logits
+def _update_seen_ngrams(seen: Set, tokens: List[int], n: int):
+    """Add n-gram to seen set."""
+    if n > 0 and len(tokens) >= n:
+        seen.add(tuple(tokens[-n:]))
+def _seed_seen_ngrams(input_ids: torch.Tensor, n: int) -> Set:
+    """Initialize seen n-grams from input."""
+    seen = set()
+    if n <= 0:
+        return seen
+    tokens = input_ids[0].tolist()
+    if len(tokens) >= n:
+        for i in range(len(tokens) - n + 1):
+            seen.add(tuple(tokens[i:i+n]))
+    return seen
+def _banned_from_seen(seen: Set, input_ids: torch.Tensor, n: int) -> Set:
+    """Get tokens banned by n-gram constraint."""
+    if n <= 0 or input_ids.shape[1] < n - 1:
+        return set()
+    prefix = tuple(input_ids[0, -(n - 1):].tolist())
+    banned = set()
+    for ng in seen:
+        if ng[:-1] == prefix:
+            banned.add(ng[-1])
+    return banned
+@torch.no_grad()
+def generate(
+    model,
+    tokenizer,
+    prompt: str,
+    max_new_tokens: int = 120,
+    max_seq_len: int = 1024,
+    strategy: str = "sample",
+    temperature: float = 1.0,
+    top_k: int = 0,
+    top_p: float = 0.9,
+    repetition_penalty: float = 1.0,
+    no_repeat_ngram_size: int = 0,
+    eos_token_id: Optional[int] = None,
+    device: str = "cuda",
+) -> str:
+    """
+    Generate text from a prompt using various decoding strategies.
+    Args:
+        model: ASA language model
+        tokenizer: HuggingFace tokenizer
+        prompt: Input text prompt
+        max_new_tokens: Maximum tokens to generate
+        max_seq_len: Maximum sequence length (truncates context if exceeded)
+        strategy: "greedy" or "sample"
+        temperature: Sampling temperature (higher = more random)
+        top_k: Keep only top k tokens (0 = disabled)
+        top_p: Nucleus sampling threshold (1.0 = disabled)
+        repetition_penalty: Penalty for repeating tokens (1.0 = disabled)
+        no_repeat_ngram_size: Block repeating n-grams (0 = disabled)
+        eos_token_id: Stop generation at this token
+        device: Device to run on
+    Returns:
+        Generated text (including prompt)
+    Example:
+        >>> text = generate(
+        ...     model, tokenizer,
+        ...     prompt="The capital of France is",
+        ...     max_new_tokens=20,
+        ...     strategy="greedy"
+        ... )
+    """
+    model.eval()
+    enc = tokenizer(prompt, return_tensors="pt")
+    input_ids = enc.input_ids.to(device)
+    if eos_token_id is None:
+        eos_token_id = tokenizer.eos_token_id
+    seen = _seed_seen_ngrams(input_ids, no_repeat_ngram_size)
+    for _ in range(max_new_tokens):
+        # Truncate if exceeding context length
+        if input_ids.shape[1] > max_seq_len:
+            input_ids = input_ids[:, -max_seq_len:]
+            seen = _seed_seen_ngrams(input_ids, no_repeat_ngram_size)
+        logits = _forward_logits(model, input_ids)
+        next_logits = logits[:, -1, :].to(torch.float32).clone()
+        # Apply repetition penalty
+        next_logits = _apply_repetition_penalty(next_logits, input_ids, repetition_penalty)
+        # Block repeated n-grams
+        banned = _banned_from_seen(seen, input_ids, no_repeat_ngram_size)
+        if banned:
+            next_logits[0, list(banned)] = float("-inf")
+        # Decode strategy
+        if strategy == "greedy":
+            next_token = torch.argmax(next_logits, dim=-1, keepdim=True)
+        elif strategy == "sample":
+            temp = max(1e-6, float(temperature))
+            next_logits = next_logits / temp
+            next_logits = _top_k_top_p_filtering(next_logits, top_k=top_k, top_p=top_p)
+            probs = F.softmax(next_logits, dim=-1)
+            next_token = torch.multinomial(probs, num_samples=1)
+        else:
+            raise ValueError(f"Unknown strategy '{strategy}'. Use 'greedy' or 'sample'.")
+        input_ids = torch.cat([input_ids, next_token], dim=1)
+        # Update n-gram tracking
+        tokens = input_ids[0].tolist()
+        _update_seen_ngrams(seen, tokens, no_repeat_ngram_size)
+        # Check for EOS
+        if eos_token_id is not None and next_token.item() == eos_token_id:
+            break
+    return tokenizer.decode(input_ids[0], skip_special_tokens=False)