import argparse
import csv
import json
import os
import sys
import time
from dataclasses import dataclass
from datetime import datetime
from pathlib import Path
from typing import Any, Callable, Dict, List, Optional, Sequence, Tuple


def _safe_run_capture(cmd: Sequence[str]) -> Optional[str]:
    try:
        import subprocess

        out = subprocess.check_output(list(cmd), stderr=subprocess.STDOUT, text=True)
        return out.strip()
    except Exception:
        return None


def _try_import_version(module_name: str) -> Optional[str]:
    try:
        mod = __import__(module_name)
        return getattr(mod, "__version__", None)
    except Exception:
        return None


def _collect_system_metadata(device: str) -> Dict[str, Any]:
    import platform

    meta: Dict[str, Any] = {
        "timestamp": datetime.now().isoformat(timespec="seconds"),
        "cwd": os.getcwd(),
        "device_arg": device,
        "platform": platform.platform(),
        "python": sys.version.replace("\n", " ").strip(),
        "processor": platform.processor(),
    }

    try:
        import multiprocessing as mp

        meta["cpu_count_logical"] = mp.cpu_count()
    except Exception:
        meta["cpu_count_logical"] = None

    # RAM (best effort)
    ram_bytes: Optional[int] = None
    try:
        import ctypes

        class _MemStatus(ctypes.Structure):
            _fields_ = [
                ("dwLength", ctypes.c_uint32),
                ("dwMemoryLoad", ctypes.c_uint32),
                ("ullTotalPhys", ctypes.c_uint64),
                ("ullAvailPhys", ctypes.c_uint64),
                ("ullTotalPageFile", ctypes.c_uint64),
                ("ullAvailPageFile", ctypes.c_uint64),
                ("ullTotalVirtual", ctypes.c_uint64),
                ("ullAvailVirtual", ctypes.c_uint64),
                ("ullAvailExtendedVirtual", ctypes.c_uint64),
            ]

        st = _MemStatus()
        st.dwLength = ctypes.sizeof(_MemStatus)
        if ctypes.windll.kernel32.GlobalMemoryStatusEx(ctypes.byref(st)):
            ram_bytes = int(st.ullTotalPhys)
    except Exception:
        ram_bytes = None

    meta["ram_total_bytes"] = ram_bytes

    # Tooling/GPU info (best effort)
    meta["nvidia_smi"] = _safe_run_capture(["nvidia-smi", "-L"])  # type: ignore[list-item]
    meta["rocm_smi"] = _safe_run_capture(["rocm-smi", "-i"])  # type: ignore[list-item]

    # Library versions (best effort)
    meta["versions"] = {
        "tiktoken": _try_import_version("tiktoken"),
        "transformers": _try_import_version("transformers"),
        "matplotlib": _try_import_version("matplotlib"),
    }

    # Backend availability in this environment (best effort)
    backends: Dict[str, Any] = {}
    try:
        import torch

        backends["torch"] = getattr(torch, "__version__", None)
        backends["torch_cuda_is_available"] = bool(torch.cuda.is_available())
        backends["torch_cuda_device_count"] = int(torch.cuda.device_count()) if torch.cuda.is_available() else 0
        if torch.cuda.is_available():
            try:
                backends["torch_cuda_device_name_0"] = torch.cuda.get_device_name(0)
            except Exception:
                backends["torch_cuda_device_name_0"] = None
    except Exception:
        backends["torch"] = None

    meta["backends"] = backends
    return meta


def _now_tag() -> str:
    return datetime.now().strftime("%Y%m%d_%H%M%S")


def _mb_per_sec(byte_count: int, seconds: float) -> float:
    if seconds <= 0:
        return 0.0
    return (byte_count / 1024.0 / 1024.0) / seconds


@dataclass
class BenchCase:
    name: str
    text: str
    repeat: int = 1


@dataclass
class BenchResult:
    impl: str
    case: str
    status: str
    cold_load_time_ms: float
    warm_load_time_ms: float
    tokens_produced: int
    bytes_processed: int
    avg_time_ms: float
    tokens_per_sec: float
    mb_per_sec: float
    notes: str = ""


@dataclass
class BenchAggregate:
    impl: str
    case: str
    n: int
    tokens_per_sec_mean: float
    tokens_per_sec_std: float
    cold_load_time_ms_mean: float
    cold_load_time_ms_std: float
    warm_load_time_ms_mean: float
    warm_load_time_ms_std: float
    mb_per_sec_mean: float
    mb_per_sec_std: float
    tokens_produced_mean: float
    tokens_produced_std: float


def _default_cases() -> List[BenchCase]:
    english = (
        "The quick brown fox jumps over the lazy dog. "
        "Tokenization benchmarks should include punctuation, numbers 12345, and whitespace. "
        "This is a medium length sentence for throughput testing. "
    )
    code = (
        "def matrix_multiply(A, B):\n"
        "    result = [[0 for _ in range(len(B[0]))] for _ in range(len(A))]\n"
        "    for i in range(len(A)):\n"
        "        for j in range(len(B[0])):\n"
        "            for k in range(len(B)):\n"
        "                result[i][j] += A[i][k] * B[k][j]\n"
        "    return result\n"
    )
    unicode = (
        "E=mc². हिंदी: द. عربى: مرحبا. 中文: 你好. emoji: 😀🚀✨. "
        "Combining marks: a."
    )
    mixed = english + "\n" + code + "\n" + unicode

    return [
        BenchCase(name="english", text=english, repeat=4000),
        BenchCase(name="code", text=code, repeat=4000),
        BenchCase(name="unicode", text=unicode, repeat=6000),
        BenchCase(name="mixed", text=mixed, repeat=2500),
    ]


def _run_single(
    *,
    impl_name: str,
    case: BenchCase,
    load_fn: Callable[[], Any],
    tokenize_fn: Callable[[str], Sequence[int]],
    iterations: int,
    warmup: int,
) -> BenchResult:
    try:
        t0 = time.perf_counter()
        load_fn()
        cold_load_ms = (time.perf_counter() - t0) * 1000.0

        # Warm load measurement: call load again after the cold mapping/parse.
        t1 = time.perf_counter()
        load_fn()
        warm_load_ms = (time.perf_counter() - t1) * 1000.0

        payload = case.text * case.repeat
        payload_bytes = payload.encode("utf-8")

        for _ in range(warmup):
            _ = tokenize_fn(payload)

        total_t = 0.0
        total_tokens = 0
        for _ in range(iterations):
            s = time.perf_counter()
            toks = tokenize_fn(payload)
            total_t += (time.perf_counter() - s)
            total_tokens += len(toks)

        avg_t = total_t / max(iterations, 1)
        avg_tokens = int(total_tokens / max(iterations, 1))

        tps = (avg_tokens / avg_t) if avg_t > 0 else 0.0
        mbs = _mb_per_sec(len(payload_bytes), avg_t)

        return BenchResult(
            impl=impl_name,
            case=case.name,
            status="OK",
            cold_load_time_ms=cold_load_ms,
            warm_load_time_ms=warm_load_ms,
            tokens_produced=avg_tokens,
            bytes_processed=len(payload_bytes),
            avg_time_ms=avg_t * 1000.0,
            tokens_per_sec=tps,
            mb_per_sec=mbs,
        )
    except Exception as e:
        return BenchResult(
            impl=impl_name,
            case=case.name,
            status="FAIL",
            cold_load_time_ms=0.0,
            warm_load_time_ms=0.0,
            tokens_produced=0,
            bytes_processed=0,
            avg_time_ms=0.0,
            tokens_per_sec=0.0,
            mb_per_sec=0.0,
            notes=str(e),
        )


def _try_crayon_impl(device: str, profile: str) -> Optional[Tuple[str, Callable[[], Any], Callable[[str], Sequence[int]]]]:
    try:
        sys.path.insert(0, os.path.join(os.getcwd(), "src"))
        from crayon.core.vocabulary import CrayonVocab
    except Exception:
        return None

    name = f"crayon:{device}:{profile}"
    vocab: Optional[Any] = None

    def load() -> Any:
        nonlocal vocab
        vocab = CrayonVocab(device=device)
        vocab.load_profile(profile)
        return vocab

    def tokenize(text: str) -> Sequence[int]:
        if vocab is None:
            raise RuntimeError("CrayonVocab not loaded")
        return vocab.tokenize(text)  # type: ignore[return-value]

    return name, load, tokenize


def _try_tiktoken_impl(encoding_name: str) -> Optional[Tuple[str, Callable[[], Any], Callable[[str], Sequence[int]]]]:
    try:
        import tiktoken
    except Exception:
        return None

    name = f"tiktoken:{encoding_name}"
    enc: Optional[Any] = None

    def load() -> Any:
        nonlocal enc
        enc = tiktoken.get_encoding(encoding_name)
        return enc

    def tokenize(text: str) -> Sequence[int]:
        if enc is None:
            raise RuntimeError("tiktoken encoding not loaded")
        return enc.encode(text)

    return name, load, tokenize


def _try_hf_impl(model_id: str) -> Optional[Tuple[str, Callable[[], Any], Callable[[str], Sequence[int]]]]:
    try:
        from transformers import AutoTokenizer
    except Exception:
        return None

    name = f"hf:{model_id}"
    tok: Optional[Any] = None

    def load() -> Any:
        nonlocal tok
        tok = AutoTokenizer.from_pretrained(model_id, use_fast=True)
        return tok

    def tokenize(text: str) -> Sequence[int]:
        if tok is None:
            raise RuntimeError("HF tokenizer not loaded")
        return tok.encode(text)

    return name, load, tokenize


def _write_outputs(results: List[BenchResult], out_dir: Path) -> None:
    out_dir.mkdir(parents=True, exist_ok=True)

    json_path = out_dir / "benchmark_results.json"
    with open(json_path, "w", encoding="utf-8") as f:
        json.dump([r.__dict__ for r in results], f, ensure_ascii=False, indent=2)

    csv_path = out_dir / "benchmark_results.csv"
    with open(csv_path, "w", encoding="utf-8", newline="") as f:
        w = csv.DictWriter(f, fieldnames=list(BenchResult.__dataclass_fields__.keys()))
        w.writeheader()
        for r in results:
            w.writerow(r.__dict__)


def _std(values: List[float], mean: float) -> float:
    if not values:
        return 0.0
    if len(values) == 1:
        return 0.0
    var = sum((v - mean) ** 2 for v in values) / float(len(values) - 1)
    return var ** 0.5


def _aggregate(results: List[BenchResult]) -> List[BenchAggregate]:
    ok = [r for r in results if r.status == "OK"]
    groups: Dict[Tuple[str, str], List[BenchResult]] = {}
    for r in ok:
        groups.setdefault((r.impl, r.case), []).append(r)

    aggs: List[BenchAggregate] = []
    for (impl, case), rs in sorted(groups.items()):
        tps = [float(r.tokens_per_sec) for r in rs]
        cold_lms = [float(r.cold_load_time_ms) for r in rs]
        warm_lms = [float(r.warm_load_time_ms) for r in rs]
        mbs = [float(r.mb_per_sec) for r in rs]
        tok = [float(r.tokens_produced) for r in rs]

        tps_m = sum(tps) / float(len(tps))
        cold_lms_m = sum(cold_lms) / float(len(cold_lms))
        warm_lms_m = sum(warm_lms) / float(len(warm_lms))
        mbs_m = sum(mbs) / float(len(mbs))
        tok_m = sum(tok) / float(len(tok))

        aggs.append(
            BenchAggregate(
                impl=impl,
                case=case,
                n=len(rs),
                tokens_per_sec_mean=tps_m,
                tokens_per_sec_std=_std(tps, tps_m),
                cold_load_time_ms_mean=cold_lms_m,
                cold_load_time_ms_std=_std(cold_lms, cold_lms_m),
                warm_load_time_ms_mean=warm_lms_m,
                warm_load_time_ms_std=_std(warm_lms, warm_lms_m),
                mb_per_sec_mean=mbs_m,
                mb_per_sec_std=_std(mbs, mbs_m),
                tokens_produced_mean=tok_m,
                tokens_produced_std=_std(tok, tok_m),
            )
        )
    return aggs


def _write_summary(aggs: List[BenchAggregate], out_dir: Path) -> None:
    out_dir.mkdir(parents=True, exist_ok=True)

    json_path = out_dir / "benchmark_summary.json"
    with open(json_path, "w", encoding="utf-8") as f:
        json.dump([a.__dict__ for a in aggs], f, ensure_ascii=False, indent=2)

    csv_path = out_dir / "benchmark_summary.csv"
    with open(csv_path, "w", encoding="utf-8", newline="") as f:
        w = csv.DictWriter(f, fieldnames=list(BenchAggregate.__dataclass_fields__.keys()))
        w.writeheader()
        for a in aggs:
            w.writerow(a.__dict__)


def _write_metadata(metadata: Dict[str, Any], out_dir: Path) -> None:
    out_dir.mkdir(parents=True, exist_ok=True)
    meta_path = out_dir / "metadata.json"
    with open(meta_path, "w", encoding="utf-8") as f:
        json.dump(metadata, f, ensure_ascii=False, indent=2)


def _plot(results: List[BenchResult], out_dir: Path) -> None:
    try:
        import matplotlib

        matplotlib.use("Agg")
        import matplotlib.pyplot as plt
    except Exception:
        return

    ok = [r for r in results if r.status == "OK"]
    if not ok:
        return

    impls = sorted(set(r.impl for r in ok))
    cases = sorted(set(r.case for r in ok))

    def metric_matrix(metric: str) -> List[List[float]]:
        m: List[List[float]] = []
        for c in cases:
            row: List[float] = []
            for i in impls:
                v = next((getattr(r, metric) for r in ok if r.impl == i and r.case == c), 0.0)
                row.append(float(v))
            m.append(row)
        return m

    def bar_by_case(metric: str, title: str, fname: str) -> None:
        width = 0.8 / max(len(impls), 1)
        x = list(range(len(cases)))

        fig = plt.figure(figsize=(max(10, len(cases) * 2), 6))
        ax = fig.add_subplot(111)

        for idx, impl in enumerate(impls):
            vals = [
                next((float(getattr(r, metric)) for r in ok if r.impl == impl and r.case == c), 0.0)
                for c in cases
            ]
            ax.bar([xi + idx * width for xi in x], vals, width=width, label=impl)

        ax.set_title(title)
        ax.set_xticks([xi + (len(impls) * width) / 2 for xi in x])
        ax.set_xticklabels(cases, rotation=15, ha="right")
        ax.legend(fontsize=8)
        ax.grid(axis="y", alpha=0.3)
        fig.tight_layout()
        fig.savefig(out_dir / fname, dpi=200)
        plt.close(fig)

    bar_by_case("tokens_per_sec", "Tokens/sec (higher is better)", "tokens_per_sec.png")
    bar_by_case("mb_per_sec", "MB/sec (higher is better)", "mb_per_sec.png")
    bar_by_case("cold_load_time_ms", "Load time (ms) (lower is better)", "load_time_ms.png")
    bar_by_case("tokens_produced", "Tokens produced (avg per run)", "tokens_produced.png")


def main() -> int:
    ap = argparse.ArgumentParser(prog="benchmark_suite")
    ap.add_argument("--device", default="cpu", choices=["cpu", "auto", "cuda", "rocm"])
    ap.add_argument("--iterations", type=int, default=10)
    ap.add_argument("--warmup", type=int, default=5)
    ap.add_argument("--out", default=str(Path("benchmark_results") / _now_tag()))
    ap.add_argument("--include-hf", action="store_true")
    ap.add_argument("--repeats", type=int, default=10)
    args = ap.parse_args()

    cases = _default_cases()

    impls: List[Tuple[str, Callable[[], Any], Callable[[str], Sequence[int]]]] = []

    for profile in ["lite", "standard"]:
        cr = _try_crayon_impl(args.device, profile)
        if cr is not None:
            impls.append(cr)

    for enc_name in ["p50k_base", "cl100k_base", "o200k_base"]:
        tk = _try_tiktoken_impl(enc_name)
        if tk is not None:
            impls.append(tk)

    if args.include_hf:
        for model_id in [
            "gpt2",
            "bert-base-uncased",
        ]:
            hf = _try_hf_impl(model_id)
            if hf is not None:
                impls.append(hf)

    results: List[BenchResult] = []

    metadata = _collect_system_metadata(args.device)

    print("=" * 90)
    print("CRAYON BENCHMARK SUITE")
    print("=" * 90)
    print(f"Device: {args.device}")
    print(f"Iterations: {args.iterations} | Warmup: {args.warmup}")
    print(f"Output: {args.out}")
    if metadata.get("platform"):
        print(f"Platform: {metadata.get('platform')}")
    if metadata.get("processor"):
        print(f"CPU: {metadata.get('processor')}")
    if metadata.get("cpu_count_logical") is not None:
        print(f"CPU logical cores: {metadata.get('cpu_count_logical')}")
    if metadata.get("ram_total_bytes"):
        try:
            gib = float(metadata["ram_total_bytes"]) / 1024.0 / 1024.0 / 1024.0
            print(f"RAM (total): {gib:.2f} GiB")
        except Exception:
            pass
    if metadata.get("nvidia_smi"):
        print("NVIDIA GPUs:")
        for line in str(metadata["nvidia_smi"]).splitlines():
            print(f"  {line}")
    print("Implementations:")
    for n, _, _ in impls:
        print(f"  - {n}")
    print("Cases:")
    for c in cases:
        approx_mb = len((c.text * c.repeat).encode("utf-8")) / 1024.0 / 1024.0
        print(f"  - {c.name}: ~{approx_mb:.2f} MB")
    print("-" * 90)

    repeats = int(args.repeats)
    if repeats < 1:
        repeats = 1

    print(f"Repeats: {repeats}")
    print("-" * 90)

    for rep in range(repeats):
        if repeats > 1:
            print(f"REPEAT {rep + 1}/{repeats}")
        for impl_name, load_fn, tok_fn in impls:
            for case in cases:
                r = _run_single(
                    impl_name=impl_name,
                    case=case,
                    load_fn=load_fn,
                    tokenize_fn=tok_fn,
                    iterations=args.iterations,
                    warmup=args.warmup,
                )
                results.append(r)
                if r.status == "OK":
                    print(
                        f"[OK] {r.impl:<22} {r.case:<8} "
                        f"cold_load={r.cold_load_time_ms:>8.2f}ms "
                        f"warm_load={r.warm_load_time_ms:>8.2f}ms "
                        f"avg={r.avg_time_ms:>8.2f}ms "
                        f"tok={r.tokens_produced:>8} "
                        f"tps={r.tokens_per_sec:>12.0f} "
                        f"mbps={r.mb_per_sec:>8.2f}"
                    )
                else:
                    print(f"[FAIL] {r.impl:<22} {r.case:<8} {r.notes}")

    out_dir = Path(args.out)
    _write_outputs(results, out_dir)
    _write_metadata(metadata, out_dir)
    aggs = _aggregate(results)
    _write_summary(aggs, out_dir)
    _plot(results, out_dir)

    print("-" * 90)
    print("WROTE:")
    print(f"  - {out_dir / 'benchmark_results.json'}")
    print(f"  - {out_dir / 'benchmark_results.csv'}")
    print(f"  - {out_dir / 'benchmark_summary.json'}")
    print(f"  - {out_dir / 'benchmark_summary.csv'}")
    print(f"  - {out_dir / 'metadata.json'}")
    print(f"  - {out_dir / 'tokens_per_sec.png'} (if matplotlib installed)")
    print(f"  - {out_dir / 'mb_per_sec.png'} (if matplotlib installed)")
    print(f"  - {out_dir / 'load_time_ms.png'} (if matplotlib installed)")
    print(f"  - {out_dir / 'tokens_produced.png'} (if matplotlib installed)")
    print("=" * 90)

    return 0


if __name__ == "__main__":
    raise SystemExit(main())