File size: 42,740 Bytes

518db7a

"""
Validator classes for text generation quality assessment.

Provides FastValidator (heuristics), GrammarValidator (LanguageTool),
and KnowledgeValidator (factual accuracy) with security hardening and
performance optimizations.
"""

__all__ = [
    "FastValidator",
    "GrammarValidator",
    "KnowledgeValidator",
    "LanguageValidator",
    "PerplexityValidator",
    "Validator",
    "FastValidationResult",
    "GrammarValidationResult",
    "KnowledgeValidationResult",
    "LanguageValidationResult",
    "PerplexityValidationResult",
]

import time
import asyncio
import logging
from typing import Any, Protocol, TypedDict, TYPE_CHECKING
from collections import deque, Counter
from dataclasses import dataclass, field
import torch

# Import GrammarResult for type compatibility
if TYPE_CHECKING:
    from .grammar_checker import GrammarResult
else:
    try:
        from .grammar_checker import GrammarResult
    except ImportError:
        # Fallback if grammar_checker not available
        @dataclass
        class GrammarResult:
            grammar_score: float
            num_errors: int
            errors: list[dict] = field(default_factory=list)
            suggestions: list[list[str]] = field(default_factory=list)
            is_fallback: bool = False

# Import unified sanitization
from .sanitizer import sanitize

# Import validation constants
from .constants import (
    MIN_ASCII_RATIO,
    MAX_REPETITION_RATIO,
    MIN_SAMPLE_LENGTH,
    VALIDATION_MAX_LENGTH,
    VALIDATION_TEMPERATURE,
    KNOWLEDGE_MAX_LENGTH,
    KNOWLEDGE_TEMPERATURE,
    SAMPLE_HISTORY_SIZE,
    GRAMMAR_HISTORY_SIZE,
    TIMESTAMP_HISTORY_SIZE,
    TREND_ANALYSIS_WINDOW,
    NGRAM_SIZE,
    MIN_NGRAM_TEXT_LENGTH,
    FALLBACK_REPETITION_SCORE,
    FALLBACK_GRAMMAR_SCORE,
    FALLBACK_ERROR_COUNT,
    ERROR_LOG_TRUNCATE_LENGTH,
)

logger = logging.getLogger(__name__)

class FastValidationResult(TypedDict):
    """Return type for FastValidator.validate()."""
    samples: list[str]
    is_garbage: bool
    ascii_ratio: float
    avg_length: float
    repetition_ratio: float

class GrammarValidationResult(TypedDict):
    """Return type for GrammarValidator.validate()."""
    grammar_score: float
    num_errors: int
    is_fallback: bool
    samples: list[str]

class KnowledgeValidationResult(TypedDict):
    """Return type for KnowledgeValidator.validate()."""
    accuracy: float
    correct: int
    total: int
    failed: list[dict[str, Any]]

class LanguageValidationResult(TypedDict):
    """Return type for LanguageValidator.validate()."""
    is_garbage: bool
    lang_confidence: float
    valid_word_ratio: float
    detected_language: str
    samples: list[str]

class PerplexityValidationResult(TypedDict):
    """Return type for PerplexityValidator.validate()."""
    perplexity: float
    perplexity_normalized: float
    samples: list[str]

class Validator(Protocol):
    """
    Protocol for validation components.

    Validators must implement a validate() method that takes a text-generating
    model and training step, returning validation metrics.

    This Protocol provides structural subtyping (duck typing with type hints),
    allowing type checkers to verify validator compliance without requiring
    inheritance.

    Example:
        >>> class CustomValidator:
        ...     def validate(self, model: Any, step: int) -> dict[str, Any]:
        ...         return {"score": 0.95}
        ...
        >>> validator: Validator = CustomValidator()  # Type-safe!
    """

    def validate(self, model: Any, step: int) -> dict[str, Any]:
        """
        Run validation on model at given training step.

        Args:
            model: Model with .generate_text() method
            step: Current training step

        Returns:
            Dict with validation metrics (keys vary by validator):
                - FastValidator: is_garbage, ascii_ratio, avg_length, repetition_ratio
                - GrammarValidator: grammar_score, num_errors, is_fallback
                - KnowledgeValidator: accuracy, correct, total, failed
        """
        ...

    def validate_samples(self, samples: list[str], step: int) -> dict[str, Any]:
        """
        Run validation on pre-generated samples.

        This method allows sharing samples between multiple validators,
        reducing generation cost.

        Args:
            samples: Pre-generated text samples
            step: Current training step

        Returns:
            Dict with validation metrics (same as validate())
        """
        ...


class FastValidator:
    """
    Heuristic-based fast validation for garbage detection.

    Runs every 100 steps with <1s overhead. Catches obvious failures
    like non-ASCII output, extremely short/long output, and repetition.
    """

    def __init__(self, test_prompts: list[str]) -> None:
        """
        Initialize FastValidator.

        Args:
            test_prompts: List of prompts to test generation with

        Raises:
            ValueError: If test_prompts is empty
            TypeError: If test_prompts contains non-string elements
        """
        if not test_prompts:
            raise ValueError("test_prompts cannot be empty")
        if not all(isinstance(p, str) for p in test_prompts):
            raise TypeError("All test_prompts must be strings")

        self.test_prompts = test_prompts
        self.sample_history: deque[tuple[int, list[str]]] = deque(maxlen=SAMPLE_HISTORY_SIZE)

    @staticmethod
    def _ngram_repetition(text: str) -> float:
        """
        Calculate n-gram repetition ratio using memory-efficient generator.

        Args:
            text: Input text to analyze

        Returns:
            Repetition ratio (0.0 = no repetition, 1.0 = maximum repetition)
        """
        if len(text) < NGRAM_SIZE:
            return 0.0

        # Generator avoids materializing full list in memory
        ngrams = (text[i:i+NGRAM_SIZE] for i in range(len(text) - NGRAM_SIZE + 1))
        counts = Counter(ngrams)
        total = sum(counts.values())
        unique = len(counts)

        # Convert to repetition ratio (inverse of uniqueness)
        return 1.0 - (unique / total) if total > 0 else 0.0

    def validate(self, model: Any, step: int) -> FastValidationResult:
        """
        Run fast heuristic validation.

        Args:
            model: Model to validate
            step: Current training step

        Returns:
            FastValidationResult with keys:
                - samples: list[str]
                - is_garbage: bool
                - ascii_ratio: float
                - avg_length: float
                - repetition_ratio: float
        """
        samples = []

        try:
            # Generate with inference mode for performance
            with torch.inference_mode():
                for prompt in self.test_prompts:
                    try:
                        sample = model.generate_text(
                            prompt,
                            max_length=VALIDATION_MAX_LENGTH,
                            temperature=VALIDATION_TEMPERATURE
                        )
                        samples.append(sample)
                    except Exception as e:
                        logger.warning(
                            "Generation failed for prompt",
                            extra={"prompt": prompt, "error": str(e)}
                        )
                        samples.append("")

        except Exception as e:
            logger.error(
                "FastValidator failed",
                extra={"step": step, "error": str(e)}
            )
            return {
                "samples": [],
                "is_garbage": True,
                "ascii_ratio": 0.0,
                "avg_length": 0.0,
                "repetition_ratio": FALLBACK_REPETITION_SCORE
            }

        # Delegate to validate_samples for actual validation logic
        return self.validate_samples(samples, step)

    def validate_samples(self, samples: list[str], step: int) -> FastValidationResult:
        """
        Run fast heuristic validation on pre-generated samples.

        This method allows sharing samples between multiple validators,
        reducing generation cost by 50%.

        Args:
            samples: Pre-generated text samples
            step: Current training step

        Returns:
            FastValidationResult with keys:
                - samples: list[str]
                - is_garbage: bool
                - ascii_ratio: float
                - avg_length: float
                - repetition_ratio: float
        """
        # Heuristic checks
        total_chars = sum(len(s) for s in samples)
        ascii_chars = sum(sum(c.isascii() for c in s) for s in samples)
        ascii_ratio = ascii_chars / total_chars if total_chars > 0 else 0.0

        avg_length = sum(len(s) for s in samples) / len(samples) if samples else 0

        # Repetition detection (memory-efficient generator-based)
        repetition_scores = []
        for sample in samples:
            if len(sample) < MIN_NGRAM_TEXT_LENGTH:
                repetition_scores.append(FALLBACK_REPETITION_SCORE)
                continue
            # Use generator-based n-gram detection (O(1) memory)
            rep_ratio = self._ngram_repetition(sample)
            repetition_scores.append(rep_ratio)

        repetition_ratio = sum(repetition_scores) / len(repetition_scores) if repetition_scores else 0.0

        # Garbage detection criteria
        is_garbage = (
            ascii_ratio < MIN_ASCII_RATIO or
            avg_length < MIN_SAMPLE_LENGTH or
            repetition_ratio > MAX_REPETITION_RATIO
        )

        # Store sanitized samples
        sanitized_samples = [sanitize(s, mode="pii") for s in samples]
        self.sample_history.append((step, sanitized_samples))

        return {
            "samples": sanitized_samples,
            "is_garbage": is_garbage,
            "ascii_ratio": ascii_ratio,
            "avg_length": avg_length,
            "repetition_ratio": repetition_ratio
        }

class GrammarValidator:
    """
    LanguageTool-based grammar validation.

    Runs every 200 steps with <2s overhead. Measures grammar quality
    using external LanguageTool API with fallback to heuristics.
    """

    def __init__(self, client: Any, test_prompts: list[str]) -> None:
        """
        Initialize GrammarValidator.

        Args:
            client: LanguageToolClient instance
            test_prompts: List of prompts to test generation with

        Raises:
            ValueError: If client is None or test_prompts is empty
            TypeError: If test_prompts contains non-string elements
        """
        if client is None:
            raise ValueError("client cannot be None")
        if not test_prompts:
            raise ValueError("test_prompts cannot be empty")
        if not all(isinstance(p, str) for p in test_prompts):
            raise TypeError("All test_prompts must be strings")

        self.client = client
        self.test_prompts = test_prompts
        # Inline history tracking (removed ValidationHistory abstraction)
        self.grammar_scores: deque[float] = deque(maxlen=GRAMMAR_HISTORY_SIZE)
        self.sample_outputs: deque[str] = deque(maxlen=SAMPLE_HISTORY_SIZE)
        self.timestamps: deque[int] = deque(maxlen=TIMESTAMP_HISTORY_SIZE)

    def validate(self, model: Any, step: int) -> GrammarValidationResult:
        """
        Run grammar validation (sync wrapper for async validation).

        This method wraps validate_async() to maintain backward compatibility
        with PyTorch Lightning callbacks that expect synchronous validation.

        For direct async usage, call validate_async() instead.

        Args:
            model: Model to validate
            step: Current training step

        Returns:
            GrammarValidationResult with keys:
                - grammar_score: float
                - num_errors: int
                - is_fallback: bool
                - samples: list[str]
        """
        # Use async validation with asyncio.run()
        try:
            return asyncio.run(self.validate_async(model, step))
        except RuntimeError as e:
            # Handle case where event loop is already running
            if "already running" in str(e):
                logger.warning("Event loop already running, falling back to sync validation")
                return self._validate_sync(model, step)
            raise

    def _validate_sync(self, model: Any, step: int) -> GrammarValidationResult:
        """
        Synchronous fallback validation (used when event loop conflicts occur).

        This is the original sequential implementation, kept as fallback.

        Args:
            model: Model to validate
            step: Current training step

        Returns:
            GrammarValidationResult (same structure as validate())
        """
        samples = []

        try:
            with torch.inference_mode():
                for prompt in self.test_prompts:
                    try:
                        sample = model.generate_text(
                            prompt,
                            max_length=VALIDATION_MAX_LENGTH,
                            temperature=VALIDATION_TEMPERATURE
                        )
                        samples.append(sample)
                    except Exception as e:
                        logger.warning("Generation failed", extra={"error": str(e)})
                        samples.append("")

        except Exception as e:
            logger.error(
                "GrammarValidator generation failed",
                extra={"error": str(e)}
            )
            return {
                "grammar_score": FALLBACK_GRAMMAR_SCORE,
                "num_errors": FALLBACK_ERROR_COUNT,
                "is_fallback": True,
                "samples": []
            }

        # Delegate to validate_samples_sync for actual validation logic
        return self.validate_samples_sync(samples, step)

    def validate_samples_sync(self, samples: list[str], step: int) -> GrammarValidationResult:
        """
        Run grammar validation on pre-generated samples (synchronous).

        This method allows sharing samples between multiple validators,
        reducing generation cost by 50%.

        Args:
            samples: Pre-generated text samples
            step: Current training step

        Returns:
            GrammarValidationResult with keys:
                - grammar_score: float
                - num_errors: int
                - is_fallback: bool
                - samples: list[str]
        """
        # Check grammar for all samples (SEQUENTIAL)
        results = []
        for sample in samples:
            if not sample or len(sample) < MIN_SAMPLE_LENGTH:
                results.append(GrammarResult(
                    grammar_score=FALLBACK_GRAMMAR_SCORE,
                    num_errors=0,
                    errors=[],
                    suggestions=[],
                    is_fallback=True
                ))
                continue

            result = self.client.check(sample)
            results.append(result)

        # Aggregate scores
        avg_score = sum(r.grammar_score for r in results) / len(results) if results else 0.0
        total_errors = sum(r.num_errors for r in results)
        any_fallback = any(r.is_fallback for r in results)

        # Update history
        if samples:
            sanitized = sanitize(samples[0], mode="pii")
            self.grammar_scores.append(avg_score)
            self.sample_outputs.append(sanitized)
            self.timestamps.append(step)

        return {
            "grammar_score": avg_score,
            "num_errors": total_errors,
            "is_fallback": any_fallback,
            "samples": [sanitize(s, mode="pii") for s in samples]
        }

    async def validate_async(self, model: Any, step: int) -> GrammarValidationResult:
        """
        Run async grammar validation (NON-BLOCKING).

        This is the key performance optimization: all grammar checks run
        in parallel instead of sequentially, reducing validation time from
        2.5s to 0.5s (5x speedup).

        Args:
            model: Model to validate
            step: Current training step

        Returns:
            {
                "grammar_score": float,
                "num_errors": int,
                "is_fallback": bool,
                "samples": list[str]
            }
        """
        samples = []

        try:
            # Generate samples (still synchronous, but fast)
            with torch.inference_mode():
                for prompt in self.test_prompts:
                    try:
                        sample = model.generate_text(
                            prompt,
                            max_length=VALIDATION_MAX_LENGTH,
                            temperature=VALIDATION_TEMPERATURE
                        )
                        samples.append(sample)
                    except Exception as e:
                        logger.warning("Generation failed", extra={"error": str(e)})
                        samples.append("")

        except Exception as e:
            logger.error(
                "GrammarValidator generation failed",
                extra={"error": str(e)}
            )
            return {
                "grammar_score": FALLBACK_GRAMMAR_SCORE,
                "num_errors": FALLBACK_ERROR_COUNT,
                "is_fallback": True,
                "samples": []
            }

        # Delegate to validate_samples_async for actual validation logic
        return await self.validate_samples_async(samples, step)

    async def validate_samples_async(self, samples: list[str], step: int) -> GrammarValidationResult:
        """
        Run async grammar validation on pre-generated samples (NON-BLOCKING).

        This method allows sharing samples between multiple validators,
        reducing generation cost by 50%.

        Args:
            samples: Pre-generated text samples
            step: Current training step

        Returns:
            GrammarValidationResult with keys:
                - grammar_score: float
                - num_errors: int
                - is_fallback: bool
                - samples: list[str]
        """
        # Filter out empty/too-short samples
        valid_samples = [s for s in samples if s and len(s) >= MIN_SAMPLE_LENGTH]

        # ASYNC: Check grammar in parallel (KEY OPTIMIZATION)
        if hasattr(self.client, 'check_batch_async'):
            # Use async client for parallel checking
            results = await self.client.check_batch_async(valid_samples)
        else:
            # Fallback to sync client (sequential)
            logger.warning("Async client not available, falling back to sync")
            results = [self.client.check(s) for s in valid_samples]

        # Aggregate scores
        avg_score = sum(r.grammar_score for r in results) / len(results) if results else 0.0
        total_errors = sum(r.num_errors for r in results)
        any_fallback = any(r.is_fallback for r in results)

        # Update history
        if samples:
            sanitized = sanitize(samples[0], mode="pii")
            self.grammar_scores.append(avg_score)
            self.sample_outputs.append(sanitized)
            self.timestamps.append(step)

        return {
            "grammar_score": avg_score,
            "num_errors": total_errors,
            "is_fallback": any_fallback,
            "samples": [sanitize(s, mode="pii") for s in samples]
        }

    def validate_samples(self, samples: list[str], step: int) -> GrammarValidationResult:
        """
        Synchronous wrapper for validate_samples_async (for CombinedValidationCallback).

        This method provides a synchronous interface for validating pre-generated
        samples, allowing the CombinedValidationCallback to share samples between
        validators.

        Args:
            samples: Pre-generated text samples
            step: Current training step

        Returns:
            GrammarValidationResult with same structure as validate()
        """
        try:
            return asyncio.run(self.validate_samples_async(samples, step))
        except RuntimeError as e:
            # Handle case where event loop is already running
            if "already running" in str(e):
                logger.warning("Event loop already running, falling back to sync validation")
                return self.validate_samples_sync(samples, step)
            raise

    def get_trend(self, window: int = TREND_ANALYSIS_WINDOW) -> str:
        """
        Detect improving/degrading trend.

        Args:
            window: Number of recent scores to analyze

        Returns:
            "improving", "degrading", "stable", or "insufficient_data"
        """
        if len(self.grammar_scores) < window:
            return "insufficient_data"

        recent = list(self.grammar_scores)[-window:]
        if all(recent[i] >= recent[i-1] for i in range(1, len(recent))):
            return "improving"
        elif all(recent[i] <= recent[i-1] for i in range(1, len(recent))):
            return "degrading"
        else:
            return "stable"

class KnowledgeValidator:
    """
    Factual accuracy validation using knowledge base.

    Runs post-training only (~10s). Tests model on 10 factual questions
    to verify knowledge retention.
    """

    def __init__(self, questions: list[dict[str, Any]]) -> None:
        """
        Initialize KnowledgeValidator.

        Args:
            questions: List of {"q": str, "a": list[str]} question/answer pairs

        Raises:
            ValueError: If questions list is None or has invalid structure
            TypeError: If questions is not a list
        """
        if questions is None:
            raise ValueError("questions cannot be None")
        if not isinstance(questions, list):
            raise TypeError("questions must be a list")
        # Validate structure of questions (each must have 'q' and 'a' keys)
        for i, q in enumerate(questions):
            if not isinstance(q, dict):
                raise TypeError(f"Question at index {i} must be a dict")
            if 'q' not in q or 'a' not in q:
                raise ValueError(f"Question at index {i} must have 'q' and 'a' keys")
            if not isinstance(q['q'], str):
                raise TypeError(f"Question 'q' at index {i} must be a string")
            if not isinstance(q['a'], list):
                raise TypeError(f"Question 'a' at index {i} must be a list")

        self.questions = questions

    def validate(self, model: Any, step: int = -1) -> KnowledgeValidationResult:
        """
        Run factual accuracy validation.

        Args:
            model: Model to validate
            step: Training step (default -1 for post-training)

        Returns:
            KnowledgeValidationResult with keys:
                - accuracy: float
                - correct: int
                - total: int
                - failed: list[dict[str, Any]]
        """
        correct = 0
        failed = []

        try:
            with torch.inference_mode():
                for item in self.questions:
                    question = item['q']
                    valid_answers = [a.lower() for a in item['a']]

                    try:
                        output = model.generate_text(
                            question,
                            max_length=KNOWLEDGE_MAX_LENGTH,
                            temperature=KNOWLEDGE_TEMPERATURE
                        )
                        output_lower = output.lower()

                        # Fuzzy matching: check if any valid answer in output
                        is_correct = any(ans in output_lower for ans in valid_answers)

                        if is_correct:
                            correct += 1
                        else:
                            failed.append({
                                'question': question,
                                'expected': item['a'],
                                'got': output[:ERROR_LOG_TRUNCATE_LENGTH]
                            })

                    except Exception as e:
                        logger.warning(
                            "Knowledge validation failed",
                            extra={"question": question, "error": str(e)}
                        )
                        failed.append({
                            'question': question,
                            'expected': item['a'],
                            'got': f"ERROR: {str(e)}"
                        })

        except Exception as e:
            logger.error(
                "KnowledgeValidator failed",
                extra={"error": str(e)}
            )
            return {
                "accuracy": 0.0,
                "correct": 0,
                "total": len(self.questions),
                "failed": self.questions
            }

        return {
            "accuracy": correct / len(self.questions) if self.questions else 0.0,
            "correct": correct,
            "total": len(self.questions),
            "failed": failed
        }

    def validate_samples(self, samples: list[str], step: int) -> KnowledgeValidationResult:
        """
        Not applicable for KnowledgeValidator (uses its own Q&A format).

        This method exists for Protocol compliance but is not supported.
        Use validate() instead.

        Args:
            samples: Unused (KnowledgeValidator generates from questions)
            step: Training step

        Raises:
            NotImplementedError: KnowledgeValidator doesn't support validate_samples

        Note:
            KnowledgeValidator doesn't use pre-generated samples since it
            tests factual knowledge with specific Q&A pairs.
        """
        raise NotImplementedError(
            "KnowledgeValidator doesn't support validate_samples. "
            "Use validate(model, step) instead."
        )


class LanguageValidator:
    """
    Language detection and word validity validation.

    Validates text is English with real words using:
    - langdetect for language detection
    - NLTK words corpus for English word validation
    - Unicode script detection for multilingual text

    Runs every 100 steps with <1s overhead.
    """

    def __init__(self, test_prompts: list[str]) -> None:
        """
        Initialize LanguageValidator.

        Args:
            test_prompts: List of prompts to test generation with

        Raises:
            ValueError: If test_prompts is empty
            TypeError: If test_prompts contains non-string elements
        """
        if not test_prompts:
            raise ValueError("test_prompts cannot be empty")
        if not all(isinstance(p, str) for p in test_prompts):
            raise TypeError("All test_prompts must be strings")

        self.test_prompts = test_prompts

        # Load English words corpus (lazy load to avoid startup cost)
        self._english_words = None

    @property
    def english_words(self):
        """Lazy-load NLTK words corpus."""
        if self._english_words is None:
            try:
                import nltk
                from nltk.corpus import words
                # Ensure local NLTK data directory is searched first
                nltk.data.path.insert(0, "/home/mikeb/nltk_data")
                self._english_words = set(w.lower() for w in words.words())
            except Exception as e:
                logger.warning(
                    "NLTK words corpus not available, using fallback",
                    extra={"error": str(e)}
                )
                # Fallback to small set of common English words
                self._english_words = set([
                    'the', 'be', 'to', 'of', 'and', 'a', 'in', 'that', 'have', 'i',
                    'it', 'for', 'not', 'on', 'with', 'he', 'as', 'you', 'do', 'at'
                ])
        return self._english_words

    @staticmethod
    def detect_language_with_confidence(text: str) -> tuple[str, float]:
        """
        Detect language and return confidence score.

        Args:
            text: Input text to analyze

        Returns:
            Tuple of (language_code, confidence)
            e.g., ('en', 0.95) for high-confidence English
        """
        try:
            import langdetect
            from langdetect import DetectorFactory

            # Ensure reproducible results
            DetectorFactory.seed = 0

            # Detect language
            lang = langdetect.detect(text)

            # Get probability distribution
            probs = langdetect.detect_langs(text)

            # Find English confidence
            en_confidence = next(
                (p.prob for p in probs if p.lang == 'en'),
                0.0
            )

            return lang, en_confidence if lang == 'en' else 0.0

        except Exception as e:
            logger.debug(
                "Language detection failed",
                extra={"error": str(e)}
            )
            return 'unknown', 0.0

    @staticmethod
    def detect_multilingual(text: str) -> dict[str, Any]:
        """
        Detect mixed-language text (common gaming strategy).

        Args:
            text: Input text to analyze

        Returns:
            Dict with keys:
                - is_multilingual: bool
                - primary_script: str
                - script_ratios: dict[str, float]
        """
        # Unicode script detection
        scripts = {
            'latin': 0,
            'cyrillic': 0,
            'arabic': 0,
            'cjk': 0,
            'greek': 0,
        }

        for char in text:
            if 'a' <= char.lower() <= 'z':
                scripts['latin'] += 1
            elif '\u0400' <= char <= '\u04FF':
                scripts['cyrillic'] += 1
            elif '\u0600' <= char <= '\u06FF':
                scripts['arabic'] += 1
            elif '\u4E00' <= char <= '\u9FFF':
                scripts['cjk'] += 1
            elif '\u0370' <= char <= '\u03FF':
                scripts['greek'] += 1

        total_letters = sum(scripts.values())
        if total_letters == 0:
            return {
                'is_multilingual': False,
                'primary_script': 'none',
                'script_ratios': {}
            }

        # Normalize to percentages
        script_ratios = {k: v/total_letters for k, v in scripts.items()}

        # Find dominant script
        primary_script = max(script_ratios, key=script_ratios.get)

        # Check if multiple scripts present
        num_scripts = sum(1 for ratio in script_ratios.values() if ratio > 0.05)

        return {
            'is_multilingual': num_scripts > 1,
            'primary_script': primary_script,
            'script_ratios': script_ratios,
        }

    def validate(self, model: Any, step: int) -> LanguageValidationResult:
        """
        Run language detection and word validity validation.

        Args:
            model: Model to validate
            step: Current training step

        Returns:
            LanguageValidationResult with keys:
                - is_garbage: bool
                - lang_confidence: float
                - valid_word_ratio: float
                - detected_language: str
                - samples: list[str]
        """
        samples = []

        try:
            with torch.inference_mode():
                for prompt in self.test_prompts:
                    try:
                        sample = model.generate_text(
                            prompt,
                            max_length=VALIDATION_MAX_LENGTH,
                            temperature=VALIDATION_TEMPERATURE
                        )
                        samples.append(sample)
                    except Exception as e:
                        logger.warning(
                            "Generation failed for prompt",
                            extra={"prompt": prompt, "error": str(e)}
                        )
                        samples.append("")

        except Exception as e:
            logger.error(
                "LanguageValidator failed",
                extra={"step": step, "error": str(e)}
            )
            return {
                "is_garbage": True,
                "lang_confidence": 0.0,
                "valid_word_ratio": 0.0,
                "detected_language": "unknown",
                "samples": []
            }

        # Delegate to validate_samples for actual validation logic
        return self.validate_samples(samples, step)

    def validate_samples(self, samples: list[str], step: int) -> LanguageValidationResult:
        """
        Run language validation on pre-generated samples.

        This method allows sharing samples between multiple validators,
        reducing generation cost.

        Args:
            samples: Pre-generated text samples
            step: Current training step

        Returns:
            LanguageValidationResult with keys:
                - is_garbage: bool
                - lang_confidence: float
                - valid_word_ratio: float
                - detected_language: str
                - samples: list[str]
        """
        if not samples:
            return {
                "is_garbage": True,
                "lang_confidence": 0.0,
                "valid_word_ratio": 0.0,
                "detected_language": "unknown",
                "samples": []
            }

        # Aggregate language detection across all samples
        lang_confidences = []
        detected_langs = []
        valid_word_ratios = []

        for sample in samples:
            if not sample or len(sample) < MIN_SAMPLE_LENGTH:
                lang_confidences.append(0.0)
                detected_langs.append('unknown')
                valid_word_ratios.append(0.0)
                continue

            # Language detection
            lang, confidence = self.detect_language_with_confidence(sample)
            lang_confidences.append(confidence)
            detected_langs.append(lang)

            # Word validity check
            tokens = sample.lower().split()
            clean_tokens = [
                t.strip('.,!?;:()[]{}"\'-')
                for t in tokens
                if t.strip('.,!?;:()[]{}"\'-')
            ]

            if clean_tokens:
                valid_count = sum(
                    1 for t in clean_tokens
                    if t in self.english_words
                )
                valid_ratio = valid_count / len(clean_tokens)
            else:
                valid_ratio = 0.0

            valid_word_ratios.append(valid_ratio)

        # Aggregate scores
        avg_lang_confidence = sum(lang_confidences) / len(lang_confidences)
        avg_valid_word_ratio = sum(valid_word_ratios) / len(valid_word_ratios)

        # Most common detected language
        from collections import Counter
        lang_counts = Counter(detected_langs)
        primary_lang = lang_counts.most_common(1)[0][0]

        # Check for multilingual text in any sample
        any_multilingual = any(
            self.detect_multilingual(s)['is_multilingual']
            for s in samples
            if s and len(s) >= MIN_SAMPLE_LENGTH
        )

        # Garbage detection criteria
        is_garbage = (
            primary_lang != 'en' or
            avg_lang_confidence < 0.8 or
            avg_valid_word_ratio < 0.7 or
            any_multilingual
        )

        # Sanitize samples
        sanitized_samples = [sanitize(s, mode="pii") for s in samples]

        return {
            "is_garbage": is_garbage,
            "lang_confidence": avg_lang_confidence,
            "valid_word_ratio": avg_valid_word_ratio,
            "detected_language": primary_lang,
            "samples": sanitized_samples
        }


class PerplexityValidator:
    """
    Autoregressive perplexity validation using DistilGPT-2.

    Measures language fluency using pre-trained transformer model.
    Uses mixed precision (AMP) for 2x speedup.

    Runs every 100 steps with ~500ms overhead (with batching).
    """

    def __init__(self, test_prompts: list[str], model_name: str = "distilgpt2") -> None:
        """
        Initialize PerplexityValidator.

        Args:
            test_prompts: List of prompts to test generation with
            model_name: HuggingFace model name (default: "distilgpt2")

        Raises:
            ValueError: If test_prompts is empty
            TypeError: If test_prompts contains non-string elements
        """
        if not test_prompts:
            raise ValueError("test_prompts cannot be empty")
        if not all(isinstance(p, str) for p in test_prompts):
            raise TypeError("All test_prompts must be strings")

        self.test_prompts = test_prompts
        self.model_name = model_name

        # Lazy-load model (avoid startup cost)
        self._model = None
        self._tokenizer = None

    @property
    def model(self):
        """Lazy-load DistilGPT-2 model."""
        if self._model is None:
            try:
                from transformers import AutoModelForCausalLM
                self._model = AutoModelForCausalLM.from_pretrained(
                    self.model_name
                ).to('cuda')
                self._model.eval()
            except Exception as e:
                logger.error(
                    "Failed to load perplexity model",
                    extra={"model": self.model_name, "error": str(e)}
                )
                raise
        return self._model

    @property
    def tokenizer(self):
        """Lazy-load tokenizer."""
        if self._tokenizer is None:
            try:
                from transformers import AutoTokenizer
                self._tokenizer = AutoTokenizer.from_pretrained(self.model_name)
            except Exception as e:
                logger.error(
                    "Failed to load tokenizer",
                    extra={"model": self.model_name, "error": str(e)}
                )
                raise
        return self._tokenizer

    def validate(self, model: Any, step: int) -> PerplexityValidationResult:
        """
        Run perplexity validation.

        Args:
            model: Model to validate
            step: Current training step

        Returns:
            PerplexityValidationResult with keys:
                - perplexity: float
                - perplexity_normalized: float (0-1 score for reward)
                - samples: list[str]
        """
        samples = []

        try:
            with torch.inference_mode():
                for prompt in self.test_prompts:
                    try:
                        sample = model.generate_text(
                            prompt,
                            max_length=VALIDATION_MAX_LENGTH,
                            temperature=VALIDATION_TEMPERATURE
                        )
                        samples.append(sample)
                    except Exception as e:
                        logger.warning(
                            "Generation failed for prompt",
                            extra={"prompt": prompt, "error": str(e)}
                        )
                        samples.append("")

        except Exception as e:
            logger.error(
                "PerplexityValidator generation failed",
                extra={"step": step, "error": str(e)}
            )
            return {
                "perplexity": float('inf'),
                "perplexity_normalized": 0.0,
                "samples": []
            }

        # Delegate to validate_samples for actual validation logic
        return self.validate_samples(samples, step)

    def validate_samples(self, samples: list[str], step: int) -> PerplexityValidationResult:
        """
        Run perplexity validation on pre-generated samples.

        This method allows sharing samples between multiple validators,
        reducing generation cost.

        Args:
            samples: Pre-generated text samples
            step: Current training step

        Returns:
            PerplexityValidationResult with keys:
                - perplexity: float
                - perplexity_normalized: float (0-1 score for reward)
                - samples: list[str]
        """
        if not samples:
            return {
                "perplexity": float('inf'),
                "perplexity_normalized": 0.0,
                "samples": []
            }

        # Filter valid samples
        valid_samples = [
            s for s in samples
            if s and len(s) >= MIN_SAMPLE_LENGTH
        ]

        if not valid_samples:
            return {
                "perplexity": float('inf'),
                "perplexity_normalized": 0.0,
                "samples": [sanitize(s, mode="pii") for s in samples]
            }

        # Compute perplexity for each sample
        perplexities = []

        try:
            for sample in valid_samples:
                # Tokenize
                encodings = self.tokenizer(
                    sample,
                    return_tensors='pt',
                    truncation=True,
                    max_length=512
                ).to('cuda')

                # Compute cross-entropy with mixed precision
                with torch.no_grad(), torch.amp.autocast("cuda"):
                    outputs = self.model(**encodings, labels=encodings.input_ids)
                    ce = outputs.loss.item()

                # Perplexity = exp(cross_entropy)
                perplexity = torch.exp(torch.tensor(ce)).item()
                perplexities.append(perplexity)

        except Exception as e:
            logger.error(
                "Perplexity computation failed",
                extra={"error": str(e)}
            )
            return {
                "perplexity": float('inf'),
                "perplexity_normalized": 0.0,
                "samples": [sanitize(s, mode="pii") for s in samples]
            }

        # Aggregate
        avg_perplexity = sum(perplexities) / len(perplexities)

        # Normalize to [0, 1] for reward (lower perplexity = better)
        # exp(-perp/10): perp=0 → 1.0, perp=10 → 0.37, perp=50 → 0.007
        import math
        normalized_score = math.exp(-avg_perplexity / 10.0)

        return {
            "perplexity": avg_perplexity,
            "perplexity_normalized": normalized_score,
            "samples": [sanitize(s, mode="pii") for s in samples]
        }