"""
Semantic Tokenizer Comparison Framework
========================================

Compares MathTok against GPT-2 and character-level baselines across
four evaluation categories, computing the Semantic Compression Ratio (SCR)
at three levels:

  Level 1 — Raw Token Count
      raw_scr = structural_score / token_count

  Level 2 — Semantic Density
      semantic_density = math_tokens / total_tokens
      (how "information-dense" the token stream is)

  Level 3 — Structural Efficiency
      structural_efficiency = parent_child_relations / token_count
      (how efficiently hierarchy is encoded)

Structural Score Formula
─────────────────────────
  score = operator_nodes          (+1 per OP_/FUNC_ token)
        + tree_depth              (+max depth in metadata)
        + parent_child_relations  (+1 per non-leaf node)
        + function_scope          (+1 per FUNC_ token)
        + canonical_bonus         (+2 if expression parsed ok)

  GPT-2 structural score is estimated heuristically from the token stream.

Test Categories
───────────────
  1. Standard expressions       — basic algebra, calculus
  2. Deep nesting               — sin(cos((x+1)^2 + y^3))
  3. Canonical equivalence      — x+2 vs 2+x (should converge)
  4. Mixed text+math            — "The derivative of sin(x^2)"
  5. LaTeX vs ASCII             — \\sin(x^2) vs sin(x^2)

Output
──────
  JSONL file: evaluation/results/comparison_results.jsonl
  Summary:    evaluation/results/comparison_summary.json

Usage
─────
  python -m evaluation.comparison
  python -m evaluation.comparison --no-gpt2       # skip GPT-2 download
  python -m evaluation.comparison --save          # save JSONL
  python -m evaluation.comparison --category deep # run one category
"""

from __future__ import annotations

import argparse
import json
import logging
import os
import time
from dataclasses import dataclass, asdict, field
from pathlib import Path
from typing import Callable, Optional

logger = logging.getLogger(__name__)

# ── Output directory ───────────────────────────────────────────────────────
_RESULTS_DIR = Path(__file__).parent / "results"


# ── Test suites ───────────────────────────────────────────────────────────

STANDARD_EXPRESSIONS = [
    "(x+1)^2",
    "sin(x^2) + 3*x",
    "x^2 + 2*x + 1",
    "exp(-x^2/2)",
    "1/(1 + exp(-x))",
    "log(x*y)",
    "sqrt(a^2 + b^2)",
    "n*(n+1)/2",
    "factorial(n)",
    "diff(sin(x), x)",
    "integrate(x^2, x)",
    "limit(sin(x)/x, x, 0)",
    "a^2 - b^2",
    "(-b + sqrt(b^2 - 4*a*c)) / (2*a)",
    "sum(k^2, k, 1, n)",
]

DEEP_NESTING_EXPRESSIONS = [
    "sin(cos(x^2 + 1))",
    "sin(cos((x+1)^2 + y^3))",
    "exp(log(sin(x^2 + cos(y))))",
    "sqrt(1 + sqrt(1 + sqrt(x)))",
    "log(1 + log(1 + x))",
    "((x+1)^2 + (y-1)^2)^3",
    "((a + b)*(a - b)) / ((a + b)^2)",
]

ODE_PDE_EXPRESSIONS = [
    "Derivative(f(x), x, 2) + 2*Derivative(f(x), x) + f(x)",
    "Derivative(u(x, t), t) - alpha * Derivative(u(x, t), x, 2)",
]

MATRIX_LINEAR_ALGEBRA = [
    "A*x + b",
    "det(A - lambda*I)",
]

PROBABILITY_EXPRESSIONS = [
    "P(A|B) * P(B) / P(A)",
    "exp(-x^2 / 2) / sqrt(2*pi)",
]

SET_THEORY = [
    "Union(A, B)",
    "Intersection(A, B)",
]

CANONICAL_PAIRS = [
    ("x + 2",            "2 + x"),
    ("a*b + a*c",        "a*(b+c)"),
    ("(x+1)^2",          "x^2 + 2*x + 1"),
    ("x^2 - y^2",        "(x+y)*(x-y)"),
    ("sin(x)^2 + cos(x)^2", "1"),
    ("2*x + 2*y",        "2*(x+y)"),
    ("x*y + x*z",        "x*(y+z)"),
    ("a^2 + 2*a*b + b^2","(a+b)^2"),
]

MIXED_TEXT_MATH = [
    "The derivative of sin(x^2) with respect to x.",
    "Solve for x when x^2 + 2*x + 1 = 0.",
    "The quadratic formula gives $x = \\frac{-b \\pm \\sqrt{b^2 - 4ac}}{2a}$.",
    "For $n \\geq 1$, the sum $\\sum_{k=1}^{n} k = \\frac{n(n+1)}{2}$.",
    "Integrate $\\int_0^1 x^2 dx$ to get $\\frac{1}{3}$.",
    "If $a > 0$ and $b > 0$ then $\\log(a) + \\log(b) = \\log(ab)$.",
    "The area of a circle of radius r is pi*r^2.",
    "Euler's identity: $e^{i\\pi} + 1 = 0$.",
]

LATEX_ASCII_PAIRS = [
    ("sin(x^2)",         "\\sin(x^2)"),
    ("sqrt(x^2 + 1)",    "\\sqrt{x^2 + 1}"),
    ("log(x)",           "\\ln(x)"),
    ("exp(x)",           "e^x"),
    ("x/y",              "\\frac{x}{y}"),
    ("int(x^2, x)",      "\\int x^2 dx"),
    ("diff(sin(x), x)",  "\\frac{d}{dx}\\sin(x)"),
    ("factorial(n)",     "n!"),
]


# ── Result dataclasses ────────────────────────────────────────────────────

@dataclass
class TokenizerStats:
    """Stats for one tokenizer on one expression."""
    name:           str
    tokens:         list[str]
    token_count:    int

    # Structural score components
    operator_nodes:         int = 0
    tree_depth:             int = 0
    parent_child_relations: int = 0
    function_scope:         int = 0
    canonical_bonus:        int = 0

    # Derived scores
    structural_score:      float = 0.0
    raw_scr:               float = 0.0   # structural_score / token_count
    semantic_density:      float = 0.0   # math tokens / total tokens
    structural_efficiency: float = 0.0   # parent_child_relations / token_count

    def compute_scr(self) -> None:
        self.structural_score = (
            self.operator_nodes
            + self.tree_depth
            + self.parent_child_relations
            + self.function_scope
            + self.canonical_bonus
        )
        self.raw_scr = (
            self.structural_score / self.token_count
            if self.token_count > 0 else 0.0
        )
        self.structural_efficiency = (
            self.parent_child_relations / self.token_count
            if self.token_count > 0 else 0.0
        )

    def to_dict(self) -> dict:
        d = asdict(self)
        d.pop("tokens")   # too verbose for JSONL
        return d


@dataclass
class ComparisonRecord:
    """Full comparison record for one expression."""
    expression:  str
    category:    str
    mathtok:     TokenizerStats
    char_level:  TokenizerStats
    gpt2:        Optional[TokenizerStats] = None
    sentencepiece: Optional[TokenizerStats] = None
    sexp:        str = ""                    # MathTok S-expression
    notes:       list[str] = field(default_factory=list)

    @property
    def scr_improvement_vs_gpt2(self) -> Optional[float]:
        if self.gpt2 is None or self.gpt2.raw_scr == 0:
            return None
        return self.mathtok.raw_scr / self.gpt2.raw_scr

    @property
    def scr_improvement_vs_sp(self) -> Optional[float]:
        if self.sentencepiece is None or self.sentencepiece.raw_scr == 0:
            return None
        return self.mathtok.raw_scr / self.sentencepiece.raw_scr

    @property
    def scr_improvement_vs_char(self) -> float:
        if self.char_level.raw_scr == 0:
            return 0.0
        return self.mathtok.raw_scr / self.char_level.raw_scr

    def to_dict(self) -> dict:
        return {
            "expression":             self.expression,
            "category":               self.category,
            "sexp":                   self.sexp,
            "mathtok":                self.mathtok.to_dict(),
            "gpt2":                   self.gpt2.to_dict() if self.gpt2 else None,
            "sentencepiece":          self.sentencepiece.to_dict() if self.sentencepiece else None,
            "char_level":             self.char_level.to_dict(),
            "scr_improvement_vs_gpt2": self.scr_improvement_vs_gpt2,
            "scr_improvement_vs_sp":   self.scr_improvement_vs_sp,
            "scr_improvement_vs_char": self.scr_improvement_vs_char,
            "notes":                  self.notes,
        }

    def print_row(self) -> None:
        gpt_count = self.gpt2.token_count if self.gpt2 else "N/A"
        gpt_scr   = f"{self.gpt2.raw_scr:.2f}" if self.gpt2 else "N/A"
        sp_count  = self.sentencepiece.token_count if self.sentencepiece else "N/A"
        sp_scr    = f"{self.sentencepiece.raw_scr:.2f}" if self.sentencepiece else "N/A"
        impr      = (f"{self.scr_improvement_vs_char:.2f}x"
                     if self.char_level.raw_scr > 0 else "N/A")
        expr_short = self.expression[:30].ljust(31)
        print(
            f"  {expr_short}"
            f" | MT:{self.mathtok.token_count:3d} (SCR {self.mathtok.raw_scr:.2f})"
            f" | GP:{str(gpt_count):3s} (SCR {gpt_scr})"
            f" | SP:{str(sp_count):3s} (SCR {sp_scr})"
            f" | CH:{self.char_level.token_count:3d} (SCR {self.char_level.raw_scr:.2f})"
            f" | Impr: {impr}"
        )


# ── Structural score helpers ──────────────────────────────────────────────

_OP_PREFIXES   = ("OP_", "FRAC")
_FUNC_PREFIXES = ("FUNC_",)
_BOUNDARY      = {"[MATH_START]", "[MATH_END]", "[TEXT_START]", "[TEXT_END]",
                  "[BOS]", "[EOS]", "[PAD]", "[UNK]", "[SEP]", "[MASK]"}

_MATH_OPS_GPT2 = {"+", "-", "*", "/", "^", "=", "<", ">", "**", "//"}
_MATH_FUNCS_GPT2 = {"sin", "cos", "tan", "log", "ln", "exp", "sqrt",
                    "lim", "sum", "prod", "diff", "integrate", "factorial"}
_PARENS = {"(", ")", "[", "]", "{", "}"}


def _score_mathtok(out) -> TokenizerStats:
    """Compute structural score for a MathTok TokenizedOutput."""
    tokens = [t for t in out.tokens if t not in _BOUNDARY]
    token_count = len(out.tokens)

    operator_nodes = sum(
        1 for t in tokens
        if any(t.startswith(p) for p in _OP_PREFIXES) or t == "FRAC"
    )
    function_scope = sum(1 for t in tokens if t.startswith("FUNC_"))
    math_tokens    = operator_nodes + function_scope + sum(
        1 for t in tokens if t.startswith("VAR_") or t.startswith("CONST_") or t.startswith("NUM_")
    )
    semantic_density = math_tokens / max(token_count, 1)

    # Tree depth and parent-child from metadata
    tree_depth = 0
    parent_child = 0
    if out.metadata:
        depths = [m.depth for m in out.metadata if m.depth >= 0]
        tree_depth = max(depths) if depths else 0
        parent_child = sum(1 for m in out.metadata if m.num_children > 0)

    canonical_bonus = 2 if out.canon_results and out.canon_results[0].success else 0

    stats = TokenizerStats(
        name="MathTok",
        tokens=out.tokens,
        token_count=token_count,
        operator_nodes=operator_nodes,
        tree_depth=tree_depth,
        parent_child_relations=parent_child,
        function_scope=function_scope,
        canonical_bonus=canonical_bonus,
        semantic_density=semantic_density,
    )
    stats.compute_scr()
    return stats


def _score_gpt2(tokens: list[str]) -> TokenizerStats:
    """Estimate structural score for a GPT-2 token list (heuristic)."""
    token_count = len(tokens)
    lower_toks  = [t.lower().strip() for t in tokens]

    operator_nodes = sum(1 for t in lower_toks if t in _MATH_OPS_GPT2)
    function_scope = sum(1 for t in lower_toks if t in _MATH_FUNCS_GPT2)
    math_tokens    = operator_nodes + function_scope

    # Estimate nesting depth from parentheses
    max_depth, depth = 0, 0
    for t in lower_toks:
        if t in ("(", "[", "{"):
            depth += 1
            max_depth = max(max_depth, depth)
        elif t in (")", "]", "}"):
            depth = max(0, depth - 1)

    # Estimate parent-child: every operator has ~1 parent and ~2 children
    parent_child = operator_nodes

    # No canonical parsing bonus
    canonical_bonus = 0

    semantic_density = math_tokens / max(token_count, 1)

    stats = TokenizerStats(
        name="GPT-2",
        tokens=tokens,
        token_count=token_count,
        operator_nodes=operator_nodes,
        tree_depth=max_depth,
        parent_child_relations=parent_child,
        function_scope=function_scope,
        canonical_bonus=canonical_bonus,
        semantic_density=semantic_density,
    )
    stats.compute_scr()
    return stats


def _score_char(expr: str) -> TokenizerStats:
    """Score for character-level tokenization."""
    tokens = list(expr)
    token_count = len(tokens)

    operator_nodes = sum(1 for c in tokens if c in "+-*/^=")
    function_scope = 0  # character level can't identify functions
    max_depth, depth = 0, 0
    for c in tokens:
        if c in "([{":
            depth += 1
            max_depth = max(max_depth, depth)
        elif c in ")]}":
            depth = max(0, depth - 1)
    parent_child = operator_nodes  # rough estimate

    semantic_density = operator_nodes / max(token_count, 1)

    stats = TokenizerStats(
        name="CharLevel",
        tokens=tokens,
        token_count=token_count,
        operator_nodes=operator_nodes,
        tree_depth=max_depth,
        parent_child_relations=parent_child,
        function_scope=function_scope,
        canonical_bonus=0,
        semantic_density=semantic_density,
    )
    stats.compute_scr()
    return stats


def _score_sp(tokens: list[str]) -> TokenizerStats:
    """Estimate structural score for a SentencePiece token list (heuristic)."""
    token_count = len(tokens)
    # Strip SentencePiece word prefix ' ' if present
    lower_toks  = [t.lower().replace(" ", "").strip() for t in tokens]
    lower_toks  = [t for t in lower_toks if t]

    operator_nodes = sum(1 for t in lower_toks if t in _MATH_OPS_GPT2)
    function_scope = sum(1 for t in lower_toks if t in _MATH_FUNCS_GPT2)
    math_tokens    = operator_nodes + function_scope

    # Estimate nesting depth from parentheses
    max_depth, depth = 0, 0
    for t in lower_toks:
        if t in ("(", "[", "{"):
            depth += 1
            max_depth = max(max_depth, depth)
        elif t in (")", "]", "}"):
            depth = max(0, depth - 1)

    parent_child = operator_nodes
    canonical_bonus = 0
    semantic_density = math_tokens / max(token_count, 1)

    stats = TokenizerStats(
        name="SentencePiece",
        tokens=tokens,
        token_count=token_count,
        operator_nodes=operator_nodes,
        tree_depth=max_depth,
        parent_child_relations=parent_child,
        function_scope=function_scope,
        canonical_bonus=canonical_bonus,
        semantic_density=semantic_density,
    )
    stats.compute_scr()
    return stats


def _get_trained_sp_tokenizer() -> Optional[Callable[[str], list[str]]]:
    """Train a small custom SentencePiece unigram model dynamically on all expressions."""
    try:
        import sentencepiece as spm
        import tempfile
        
        # Collect all expressions from our suites to form a corpus
        corpus = []
        corpus.extend(STANDARD_EXPRESSIONS)
        corpus.extend(DEEP_NESTING_EXPRESSIONS)
        corpus.extend(ODE_PDE_EXPRESSIONS)
        corpus.extend(MATRIX_LINEAR_ALGEBRA)
        corpus.extend(PROBABILITY_EXPRESSIONS)
        corpus.extend(SET_THEORY)
        for a, b in CANONICAL_PAIRS:
            corpus.extend([a, b])
        corpus.extend(MIXED_TEXT_MATH)
        for a, b in LATEX_ASCII_PAIRS:
            corpus.extend([a, b])
            
        # Deduplicate and strip
        corpus = sorted(list(set(e.strip() for e in corpus if e.strip())))
        
        # Write to a temp file
        with tempfile.NamedTemporaryFile(mode='w', delete=False, suffix='.txt', encoding='utf-8') as f:
            f.write("\n".join(corpus))
            temp_corpus_path = f.name
            
        model_prefix = os.path.join(tempfile.gettempdir(), "spm_math_temp")
        
        # Train a unigram model
        # Using a small vocab size (e.g., 100)
        spm.SentencePieceTrainer.train(
            input=temp_corpus_path,
            model_prefix=model_prefix,
            vocab_size=100,
            model_type="unigram",
            user_defined_symbols=["[PAD]", "[UNK]", "[BOS]", "[EOS]"],
        )
        
        # Clean up temp corpus file
        try:
            os.remove(temp_corpus_path)
        except Exception:
            pass
            
        sp = spm.SentencePieceProcessor(model_file=f"{model_prefix}.model")
        return lambda text: sp.encode(text, out_type=str)
    except Exception as exc:
        logger.warning("Could not train custom SentencePiece tokenizer: %s", exc)
        return None


# ── Main comparison engine ────────────────────────────────────────────────

class TokenizerComparison:
    """
    Run the full 3-level SCR comparison across all test categories.

    Parameters
    ----------
    pipeline    : MathTokPipeline
    gpt2_fn     : callable(str) -> list[str], or None to skip GPT-2
    save_jsonl  : write results to evaluation/results/comparison_results.jsonl
    """

    def __init__(
        self,
        pipeline,
        gpt2_fn:   Optional[Callable] = None,
        sp_fn:     Optional[Callable] = None,
        save_jsonl: bool = True,
    ) -> None:
        self.pipeline   = pipeline
        self.gpt2_fn    = gpt2_fn
        self.sp_fn      = sp_fn
        self.save_jsonl = save_jsonl
        self._records:  list[ComparisonRecord] = []

    # ── Public API ────────────────────────────────────────────────────────

    def run_all(self) -> list[ComparisonRecord]:
        """Run all 5 test categories and return all ComparisonRecords."""
        print("\n" + "=" * 80)
        print("  MathTok Semantic Tokenizer Comparison")
        print("=" * 80)

        self._run_category("standard",    STANDARD_EXPRESSIONS)
        self._run_category("deep_nesting", DEEP_NESTING_EXPRESSIONS)
        self._run_category("ode_pde", ODE_PDE_EXPRESSIONS)
        self._run_category("linear_algebra", MATRIX_LINEAR_ALGEBRA)
        self._run_category("probability", PROBABILITY_EXPRESSIONS)
        self._run_category("set_theory", SET_THEORY)
        self._run_canonical_equivalence()
        self._run_mixed_text_math()
        self._run_latex_vs_ascii()

        if self.save_jsonl:
            self._save_results()

        self._print_summary()
        return self._records

    def run_category(self, category: str) -> list[ComparisonRecord]:
        """Run a single named category."""
        categories = {
            "standard":    (self._run_category, ("standard",    STANDARD_EXPRESSIONS)),
            "deep":        (self._run_category, ("deep_nesting", DEEP_NESTING_EXPRESSIONS)),
            "ode_pde":     (self._run_category, ("ode_pde", ODE_PDE_EXPRESSIONS)),
            "linear":      (self._run_category, ("linear_algebra", MATRIX_LINEAR_ALGEBRA)),
            "probability": (self._run_category, ("probability", PROBABILITY_EXPRESSIONS)),
            "set_theory":  (self._run_category, ("set_theory", SET_THEORY)),
            "canonical":   (self._run_canonical_equivalence, ()),
            "mixed":       (self._run_mixed_text_math, ()),
            "latex_ascii": (self._run_latex_vs_ascii, ()),
        }
        if category not in categories:
            raise ValueError(f"Unknown category: {category}. Choose from: {list(categories)}")
        fn, args = categories[category]
        fn(*args)
        if self.save_jsonl:
            self._save_results()
        self._print_summary()
        return self._records

    # ── Category runners ──────────────────────────────────────────────────

    def _run_category(self, category: str, expressions: list[str]) -> None:
        print(f"\n--- {category.upper().replace('_', ' ')} ---")
        print(f"  {'Expression':<30} | {'MathTok':^21} | {'GPT-2':^16} | {'S-Piece':^16} | {'Char':^16} | Impr")
        print(f"  {'-'*30}-+-{'-'*21}-+-{'-'*16}-+-{'-'*16}-+-{'-'*16}-+------")

        for expr in expressions:
            rec = self._compare_one(expr, category)
            self._records.append(rec)
            rec.print_row()

    def _run_canonical_equivalence(self) -> None:
        print(f"\n--- CANONICAL EQUIVALENCE ---")
        print("  Testing that equivalent expressions -> similar MathTok token sets")
        print(f"  {'Pair':<45} | MT Jac  | GP Jac  | SP Jac  | Converged")
        print(f"  {'-'*45}-+---------+---------+---------+----------")

        for expr_a, expr_b in CANONICAL_PAIRS:
            rec_a = self._compare_one(expr_a, "canonical")
            rec_b = self._compare_one(expr_b, "canonical")
            self._records.extend([rec_a, rec_b])

            mt_a = set(t for t in rec_a.mathtok.tokens if t not in _BOUNDARY)
            mt_b = set(t for t in rec_b.mathtok.tokens if t not in _BOUNDARY)
            mt_jaccard = _jaccard(mt_a, mt_b)

            gp_jaccard = None
            if rec_a.gpt2 and rec_b.gpt2:
                gp_a = set(rec_a.gpt2.tokens)
                gp_b = set(rec_b.gpt2.tokens)
                gp_jaccard = _jaccard(gp_a, gp_b)

            sp_jaccard = None
            if rec_a.sentencepiece and rec_b.sentencepiece:
                sp_a = set(rec_a.sentencepiece.tokens)
                sp_b = set(rec_b.sentencepiece.tokens)
                sp_jaccard = _jaccard(sp_a, sp_b)

            pair_str = f"{expr_a!r} vs {expr_b!r}"[:45].ljust(46)
            gp_str   = f"{gp_jaccard:.3f}" if gp_jaccard is not None else "  N/A  "
            sp_str   = f"{sp_jaccard:.3f}" if sp_jaccard is not None else "  N/A  "
            converged = "YES" if mt_jaccard > 0.5 else "no "
            print(f"  {pair_str}| MT:{mt_jaccard:.3f} | GP:{gp_str} | SP:{sp_str} | {converged}")

    def _run_mixed_text_math(self) -> None:
        print(f"\n--- MIXED TEXT + MATH ---")
        print(f"  {'Input (truncated)':<40} | MT tokens | GP tokens | SP tokens | Math spans")
        print(f"  {'-'*40}-+-----------+-----------+-----------+-----------")

        for text in MIXED_TEXT_MATH:
            out = self.pipeline.encode(text)
            math_spans = len(out.math_sexps)
            mt_count   = len(out.tokens)

            gp_count = "N/A"
            if self.gpt2_fn:
                try:
                    gp_count = str(len(self.gpt2_fn(text)))
                except Exception:
                    pass

            sp_count = "N/A"
            if self.sp_fn:
                try:
                    sp_count = str(len(self.sp_fn(text)))
                except Exception:
                    pass

            preview = text[:40].ljust(41)
            print(f"  {preview}| {mt_count:9d} | {str(gp_count):9s} | {str(sp_count):9s} | {math_spans:9d}")

            rec = ComparisonRecord(
                expression=text,
                category="mixed_text_math",
                mathtok=_score_mathtok(out),
                gpt2=None,
                sentencepiece=None,
                char_level=_score_char(text),
                sexp=out.sexp,
            )
            self._records.append(rec)

    def _run_latex_vs_ascii(self) -> None:
        print(f"\n--- LaTeX vs ASCII NORMALIZATION ---")
        print("  Same expression in two formats — MathTok should produce identical AST")
        print(f"  {'ASCII':<25} {'LaTeX':<25} | MT same? | MT tokens A/L | GP tokens A/L | SP tokens A/L")
        print(f"  {'-'*25} {'-'*25}-+----------+---------------+---------------+---------------")

        for ascii_expr, latex_expr in LATEX_ASCII_PAIRS:
            out_ascii = self.pipeline.encode_math_only(ascii_expr)
            out_latex = self.pipeline.encode_math_only(latex_expr)

            mt_a = set(t for t in out_ascii.tokens if t not in _BOUNDARY)
            mt_l = set(t for t in out_latex.tokens if t not in _BOUNDARY)
            mt_same = _jaccard(mt_a, mt_l)
            same_str = f"{mt_same:.2f}" if mt_same > 0.8 else f"{mt_same:.2f}(~)"

            gp_str = "N/A / N/A"
            if self.gpt2_fn:
                try:
                    ga = len(self.gpt2_fn(ascii_expr))
                    gl = len(self.gpt2_fn(latex_expr))
                    gp_str = f"{ga:3d} / {gl:3d}"
                except Exception:
                    pass

            sp_str = "N/A / N/A"
            if self.sp_fn:
                try:
                    sa = len(self.sp_fn(ascii_expr))
                    sl = len(self.sp_fn(latex_expr))
                    sp_str = f"{sa:3d} / {sl:3d}"
                except Exception:
                    pass

            print(
                f"  {ascii_expr:<25} {latex_expr:<25}"
                f"| {same_str:>8s} "
                f"| {len(out_ascii.tokens):3d} / {len(out_latex.tokens):3d}       "
                f"| {gp_str}       "
                f"| {sp_str}"
            )

            for expr, out, fmt in [
                (ascii_expr, out_ascii, "ascii"),
                (latex_expr, out_latex, "latex"),
            ]:
                rec = ComparisonRecord(
                    expression=expr,
                    category=f"latex_vs_ascii_{fmt}",
                    mathtok=_score_mathtok(out),
                    gpt2=None,
                    sentencepiece=None,
                    char_level=_score_char(expr),
                    sexp=out.sexp,
                    notes=[f"pair_partner={latex_expr if fmt=='ascii' else ascii_expr}"],
                )
                self._records.append(rec)

    # ── Single expression comparison ──────────────────────────────────────

    def _compare_one(self, expr: str, category: str) -> ComparisonRecord:
        # MathTok
        try:
            out = self.pipeline.encode_math_only(expr)
            mt_stats = _score_mathtok(out)
            sexp = out.sexp
        except Exception as exc:
            logger.debug("MathTok failed on %r: %s", expr, exc)
            mt_stats = TokenizerStats(name="MathTok", tokens=[], token_count=0)
            sexp = ""

        # GPT-2
        gp_stats: Optional[TokenizerStats] = None
        if self.gpt2_fn:
            try:
                gp_tokens = self.gpt2_fn(expr)
                gp_stats  = _score_gpt2(gp_tokens)
            except Exception as exc:
                logger.debug("GPT-2 failed on %r: %s", expr, exc)

        # SentencePiece
        sp_stats: Optional[TokenizerStats] = None
        if self.sp_fn:
            try:
                sp_tokens = self.sp_fn(expr)
                sp_stats  = _score_sp(sp_tokens)
            except Exception as exc:
                logger.debug("SentencePiece failed on %r: %s", expr, exc)

        # Character-level
        ch_stats = _score_char(expr)

        return ComparisonRecord(
            expression=expr,
            category=category,
            mathtok=mt_stats,
            gpt2=gp_stats,
            sentencepiece=sp_stats,
            char_level=ch_stats,
            sexp=sexp,
        )

    # ── Aggregated summary ────────────────────────────────────────────────

    def _print_summary(self) -> None:
        math_records = [
            r for r in self._records
            if r.category not in ("mixed_text_math",)
            and r.mathtok.token_count > 0
        ]
        if not math_records:
            return

        mt_scr_mean  = _mean([r.mathtok.raw_scr         for r in math_records])
        mt_sd_mean   = _mean([r.mathtok.semantic_density for r in math_records])
        mt_se_mean   = _mean([r.mathtok.structural_efficiency for r in math_records])
        ch_scr_mean  = _mean([r.char_level.raw_scr       for r in math_records])

        gp_records   = [r for r in math_records if r.gpt2 is not None]
        gp_scr_mean  = _mean([r.gpt2.raw_scr             for r in gp_records]) if gp_records else None
        gp_sd_mean   = _mean([r.gpt2.semantic_density     for r in gp_records]) if gp_records else None

        sp_records   = [r for r in math_records if r.sentencepiece is not None]
        sp_scr_mean  = _mean([r.sentencepiece.raw_scr     for r in sp_records]) if sp_records else None
        sp_sd_mean   = _mean([r.sentencepiece.semantic_density for r in sp_records]) if sp_records else None

        impr_vs_gpt2 = (mt_scr_mean / gp_scr_mean) if gp_scr_mean else None
        impr_vs_sp   = (mt_scr_mean / sp_scr_mean)   if sp_scr_mean else None
        impr_vs_char = (mt_scr_mean / ch_scr_mean)  if ch_scr_mean else None

        print("\n" + "=" * 80)
        print("  AGGREGATED RESULTS")
        print("=" * 80)
        print(f"\n  {'Metric':<40} {'MathTok':>10} {'GPT-2':>10} {'S-Piece':>10} {'CharLvl':>10}")
        print(f"  {'-'*40} {'-'*10} {'-'*10} {'-'*10} {'-'*10}")

        def row(label, mt_val, gp_val=None, sp_val=None, ch_val=None):
            gp_str = f"{gp_val:10.4f}" if gp_val is not None else "       N/A"
            sp_str = f"{sp_val:10.4f}" if sp_val is not None else "       N/A"
            ch_str = f"{ch_val:10.4f}" if ch_val is not None else "       N/A"
            print(f"  {label:<40} {mt_val:10.4f} {gp_str} {sp_str} {ch_str}")

        row("Level 1 — SCR (struct_score / tokens)",
            mt_scr_mean, gp_scr_mean, sp_scr_mean, ch_scr_mean)
        row("Level 2 — Semantic Density (math_toks / total)",
            mt_sd_mean, gp_sd_mean, sp_sd_mean, None)
        row("Level 3 — Structural Efficiency (rels / tokens)",
            mt_se_mean)

        print(f"\n  SCR improvement vs GPT-2    : "
              f"{f'{impr_vs_gpt2:.2f}x' if impr_vs_gpt2 else 'N/A'}")
        print(f"  SCR improvement vs S-Piece  : "
              f"{f'{impr_vs_sp:.2f}x' if impr_vs_sp else 'N/A'}")
        print(f"  SCR improvement vs CharLevel: "
              f"{f'{impr_vs_char:.2f}x' if impr_vs_char else 'N/A'}")
        print(f"\n  Total records evaluated     : {len(self._records)}")
        print("=" * 80)

        return {
            "mathtok_scr":   mt_scr_mean,
            "gpt2_scr":      gp_scr_mean,
            "sp_scr":        sp_scr_mean,
            "charlevel_scr": ch_scr_mean,
            "scr_improvement_vs_gpt2": impr_vs_gpt2,
            "scr_improvement_vs_sp":   impr_vs_sp,
            "scr_improvement_vs_char": impr_vs_char,
            "mathtok_semantic_density": mt_sd_mean,
            "mathtok_structural_efficiency": mt_se_mean,
        }

    # ── Persistence ───────────────────────────────────────────────────────

    def _save_results(self) -> None:
        _RESULTS_DIR.mkdir(parents=True, exist_ok=True)
        jsonl_path = _RESULTS_DIR / "comparison_results.jsonl"

        with open(jsonl_path, "w", encoding="utf-8") as f:
            for rec in self._records:
                f.write(json.dumps(rec.to_dict(), ensure_ascii=False) + "\n")

        print(f"\n  Results saved to: {jsonl_path}")

        # Compact summary JSON
        math_records = [
            r for r in self._records
            if r.mathtok.token_count > 0
        ]
        summary = {
            "timestamp":    time.strftime("%Y-%m-%dT%H:%M:%SZ", time.gmtime()),
            "total_records": len(self._records),
            "mathtok_mean_scr":   _mean([r.mathtok.raw_scr         for r in math_records]),
            "charlevel_mean_scr": _mean([r.char_level.raw_scr       for r in math_records]),
            "gpt2_scr":           _mean([r.gpt2.raw_scr             for r in math_records if r.gpt2 is not None]),
            "sentencepiece_mean_scr": _mean([r.sentencepiece.raw_scr for r in math_records if r.sentencepiece is not None]),
            "mathtok_mean_semantic_density":
                _mean([r.mathtok.semantic_density          for r in math_records]),
            "mathtok_mean_structural_efficiency":
                _mean([r.mathtok.structural_efficiency     for r in math_records]),
            "per_record": [
                {
                    "expression":   r.expression[:60],
                    "category":     r.category,
                    "mt_tokens":    r.mathtok.token_count,
                    "mt_scr":       round(r.mathtok.raw_scr, 4),
                    "gp_tokens":    r.gpt2.token_count if r.gpt2 else None,
                    "gp_scr":       round(r.gpt2.raw_scr, 4) if r.gpt2 else None,
                    "sp_tokens":    r.sentencepiece.token_count if r.sentencepiece else None,
                    "sp_scr":       round(r.sentencepiece.raw_scr, 4) if r.sentencepiece else None,
                    "ch_tokens":    r.char_level.token_count,
                    "ch_scr":       round(r.char_level.raw_scr, 4),
                    "impr_vs_char": round(r.scr_improvement_vs_char, 4),
                }
                for r in math_records
            ],
        }
        summary_path = _RESULTS_DIR / "comparison_summary.json"
        with open(summary_path, "w", encoding="utf-8") as f:
            json.dump(summary, f, indent=2, ensure_ascii=False)
        print(f"  Summary saved to: {summary_path}")


# ── Helpers ───────────────────────────────────────────────────────────────

def _jaccard(a: set, b: set) -> float:
    union = len(a | b)
    return len(a & b) / union if union > 0 else 0.0


def _mean(values: list) -> float:
    vals = [v for v in values if v is not None]
    return sum(vals) / len(vals) if vals else 0.0


def _load_gpt2():
    """Load GPT-2 tokenizer, return None if unavailable."""
    try:
        from transformers import GPT2Tokenizer
        tok = GPT2Tokenizer.from_pretrained("gpt2")
        return tok.tokenize
    except Exception as exc:
        logger.warning("GPT-2 unavailable (%s); running without it.", exc)
        return None


# ── CLI ───────────────────────────────────────────────────────────────────

def main() -> None:
    logging.basicConfig(level=logging.WARNING)

    parser = argparse.ArgumentParser(
        description="MathTok vs GPT-2 vs Char-level — Semantic SCR Comparison"
    )
    parser.add_argument(
        "--no-gpt2",  action="store_true",
        help="Skip GPT-2 (no internet required)"
    )
    parser.add_argument(
        "--save",  action="store_true", default=True,
        help="Save JSONL and summary JSON (default: on)"
    )
    parser.add_argument(
        "--no-save", action="store_true",
        help="Disable JSONL saving"
    )
    parser.add_argument(
        "--category",
        choices=["standard", "deep", "canonical", "mixed", "latex_ascii", "all"],
        default="all",
        help="Which category to run (default: all)"
    )
    args = parser.parse_args()

    from mathtok.pipeline import MathTokPipeline
    pipeline = MathTokPipeline(include_metadata=True)
    gpt2_fn  = None if args.no_gpt2 else _load_gpt2()
    sp_fn    = _get_trained_sp_tokenizer()
    save     = args.save and not args.no_save

    comp = TokenizerComparison(pipeline, gpt2_fn=gpt2_fn, sp_fn=sp_fn, save_jsonl=save)

    if args.category == "all":
        comp.run_all()
    else:
        comp.run_category(args.category)


if __name__ == "__main__":
    main()