from __future__ import annotations

import argparse
import json
import math
import sys
import traceback
from datetime import datetime, timezone
from pathlib import Path
from typing import Any

import torch


ROOT = Path(__file__).resolve().parents[1]
if str(ROOT) not in sys.path:
    sys.path.insert(0, str(ROOT))

from src.data.wikitext_bpe import load_wikitext_bpe
from src.model.testformer import TestFormerLM
from src.model.testformer_combined import TestFormerCombinedLM
from src.model.testformer_combined_config import build_testformer_combined_config
from src.model.testformer_config import TESTFORMER_MOTIFS, TestFormerConfig, build_testformer_config


ARCHIVE_DIR = ROOT / "archive"
ARCHIVE_DIR.mkdir(exist_ok=True)
DEFAULT_MOTIFS = ("Uniform-Baseline", "Narrow-Compare", "Wide-Memory")
_PARAM_MATCH_CACHE: dict[tuple[str, int, int, int], TestFormerConfig] = {}


def _default_learning_rate(d_model: int) -> float:
    if d_model <= 384:
        return 3.0e-4
    if d_model <= 640:
        return 2.0e-4
    return 1.5e-4


def _make_cosine_warmup_scheduler(
    optimizer: torch.optim.Optimizer,
    total_steps: int,
    warmup_fraction: float,
) -> torch.optim.lr_scheduler.LambdaLR:
    warmup_steps = max(1, int(total_steps * warmup_fraction))

    def lr_lambda(current_step: int) -> float:
        if current_step < warmup_steps:
            return float(current_step + 1) / float(warmup_steps)
        progress = (current_step - warmup_steps) / max(1, total_steps - warmup_steps)
        return 0.5 * (1.0 + math.cos(math.pi * progress))

    return torch.optim.lr_scheduler.LambdaLR(optimizer, lr_lambda=lr_lambda)


def _fit_language_model(
    model: torch.nn.Module,
    train_data: Any,
    val_data: Any,
    device: str,
    steps: int,
    batch_size: int,
    eval_every: int,
    eval_batches: int,
    learning_rate: float,
    weight_decay: float,
    beta1: float,
    beta2: float,
    grad_clip: float,
    warmup_fraction: float,
) -> list[dict[str, float]]:
    optimizer = torch.optim.AdamW(
        model.parameters(),
        lr=learning_rate,
        betas=(beta1, beta2),
        weight_decay=weight_decay,
    )
    scheduler = _make_cosine_warmup_scheduler(
        optimizer=optimizer,
        total_steps=max(steps, 1),
        warmup_fraction=warmup_fraction,
    )

    history: list[dict[str, float]] = []
    for step in range(steps):
        model.train()
        x, y = train_data.get_batch(batch_size)
        x = x.to(device)
        y = y.to(device)

        out = model(x, y)
        optimizer.zero_grad()
        out["loss"].backward()
        torch.nn.utils.clip_grad_norm_(model.parameters(), grad_clip)
        optimizer.step()
        scheduler.step()

        if (step + 1) % eval_every == 0 or step == steps - 1:
            metrics = _evaluate_model(
                model=model,
                dataset=val_data,
                batch_size=batch_size,
                device=device,
                max_batches=eval_batches,
            )
            history.append(
                {
                    "step": float(step + 1),
                    "train_loss": float(out["loss"].item()),
                    "train_bpb": float(out["loss"].item() / math.log(2.0)),
                    "val_loss": metrics["loss"],
                    "val_bpb": metrics["bpb"],
                    "lr": float(optimizer.param_groups[0]["lr"]),
                }
            )
    return history


def _evaluate_model(
    model: torch.nn.Module,
    dataset: Any,
    batch_size: int,
    device: str,
    max_batches: int,
) -> dict[str, float]:
    model.eval()
    total_loss = 0.0
    total_tokens = 0
    with torch.no_grad():
        for _ in range(max_batches):
            x, y = dataset.get_batch(batch_size)
            x = x.to(device)
            y = y.to(device)
            out = model(x, y)
            total_loss += float(out["loss"].item()) * y.numel()
            total_tokens += y.numel()
    mean_loss = total_loss / max(1, total_tokens)
    return {
        "loss": mean_loss,
        "bpb": mean_loss / math.log(2.0),
    }


def _find_param_matched_single_config(
    motif_name: str,
    target_params: int,
    vocab_size: int,
    max_seq_len: int,
) -> TestFormerConfig:
    cache_key = (motif_name, target_params, vocab_size, max_seq_len)
    if cache_key in _PARAM_MATCH_CACHE:
        return _PARAM_MATCH_CACHE[cache_key]

    motif = TESTFORMER_MOTIFS[motif_name]
    meta_device = torch.device("meta")
    best_cfg: TestFormerConfig | None = None
    best_diff: int | None = None

    for d_model in range(256, 1025, 64):
        n_heads = d_model // 64
        d_ff = int(round(d_model * motif.r_ff))
        for n_layers in range(8, 33):
            cfg = TestFormerConfig(
                name=f"TestFormer-ParamMatched-{motif_name}",
                vocab_size=vocab_size,
                d_model=d_model,
                n_layers=n_layers,
                n_heads=n_heads,
                d_ff=d_ff,
                max_seq_len=max_seq_len,
                alpha_q=motif.alpha_q,
                alpha_k=motif.alpha_k,
                beta_v=motif.beta_v,
                motif_name=motif.name,
            )
            params = TestFormerLM(cfg, device=meta_device).parameter_count()
            diff = abs(params - target_params)
            if best_diff is None or diff < best_diff:
                best_cfg = cfg
                best_diff = diff

    if best_cfg is None:
        raise RuntimeError(f"Could not find a param-matched config for {motif_name}")

    _PARAM_MATCH_CACHE[cache_key] = best_cfg
    return best_cfg


def _summarize_single_run(
    motif_name: str,
    model: TestFormerLM,
    history: list[dict[str, float]],
) -> dict[str, Any]:
    last = history[-1]
    return {
        "label": motif_name,
        "model_type": "single",
        "motif": motif_name,
        "parameters": model.parameter_count(),
        "body_parameters": model.body_parameter_count(),
        "d_model": model.cfg.d_model,
        "n_layers": model.cfg.n_layers,
        "n_heads": model.cfg.n_heads,
        "d_ff": model.cfg.d_ff,
        "qk_dim": model.cfg.qk_dim,
        "v_dim": model.cfg.v_dim,
        "final_train_loss": last["train_loss"],
        "final_val_loss": last["val_loss"],
        "final_val_bpb": last["val_bpb"],
        "history": history,
    }


def _summarize_combined_run(
    model: TestFormerCombinedLM,
    history: list[dict[str, float]],
) -> dict[str, Any]:
    last = history[-1]
    blend_weights = model.current_blend_weights().cpu()
    submodel_parameters = {
        motif_name: submodel.parameter_count()
        for motif_name, submodel in zip(model.motif_names, model.submodels)
    }
    return {
        "label": "Combined",
        "model_type": "combined",
        "motifs": list(model.motif_names),
        "parameters": model.parameter_count(),
        "body_parameters": model.body_parameter_count(),
        "blend_weights": {
            motif_name: float(weight.item())
            for motif_name, weight in zip(model.motif_names, blend_weights)
        },
        "submodel_parameters": submodel_parameters,
        "final_train_loss": last["train_loss"],
        "final_val_loss": last["val_loss"],
        "final_val_bpb": last["val_bpb"],
        "history": history,
    }


def run_testformer_wikitext_combo(
    preset_name: str,
    motif_names: tuple[str, ...],
    seq_len: int,
    steps: int,
    batch_size: int,
    eval_every: int,
    eval_batches: int,
    device: str,
    data_dir: str,
    wikitext_repo: str,
    wikitext_config_name: str,
    wikitext_bytes: int,
    wikitext_vocab_size: int,
    weight_decay: float,
    beta1: float,
    beta2: float,
    grad_clip: float,
    warmup_fraction: float,
    match_param_budget: bool = False,
    target_params: int | None = None,
) -> dict[str, Any]:
    train_data, val_data = load_wikitext_bpe(
        seq_len=seq_len,
        device=device,
        data_dir=data_dir,
        repo_id=wikitext_repo,
        config_name=wikitext_config_name,
        target_bytes=wikitext_bytes,
        vocab_size=wikitext_vocab_size,
    )

    actual_seq_len = getattr(train_data, "seq_len", seq_len)
    actual_vocab_size = int(train_data.vocab_size)
    results: list[dict[str, Any]] = []
    combined_cfg = build_testformer_combined_config(
        preset_name=preset_name,
        motif_names=motif_names,
        vocab_size=actual_vocab_size,
        max_seq_len=actual_seq_len,
    )
    combined_reference_params = TestFormerCombinedLM(combined_cfg, device=torch.device("meta")).parameter_count()
    resolved_target_params = target_params or combined_reference_params

    for motif_name in motif_names:
        if match_param_budget:
            cfg = _find_param_matched_single_config(
                motif_name=motif_name,
                target_params=resolved_target_params,
                vocab_size=actual_vocab_size,
                max_seq_len=actual_seq_len,
            )
        else:
            cfg = build_testformer_config(
                preset_name=preset_name,
                motif_name=motif_name,
                vocab_size=actual_vocab_size,
                max_seq_len=actual_seq_len,
            )
        model = TestFormerLM(cfg).to(device)
        history = _fit_language_model(
            model=model,
            train_data=train_data,
            val_data=val_data,
            device=device,
            steps=steps,
            batch_size=batch_size,
            eval_every=eval_every,
            eval_batches=eval_batches,
            learning_rate=_default_learning_rate(cfg.d_model),
            weight_decay=weight_decay,
            beta1=beta1,
            beta2=beta2,
            grad_clip=grad_clip,
            warmup_fraction=warmup_fraction,
        )
        results.append(_summarize_single_run(motif_name=motif_name, model=model, history=history))

    combined_model = TestFormerCombinedLM(combined_cfg).to(device)
    combined_history = _fit_language_model(
        model=combined_model,
        train_data=train_data,
        val_data=val_data,
        device=device,
        steps=steps,
        batch_size=batch_size,
        eval_every=eval_every,
        eval_batches=eval_batches,
        learning_rate=_default_learning_rate(combined_model.submodels[0].cfg.d_model),
        weight_decay=weight_decay,
        beta1=beta1,
        beta2=beta2,
        grad_clip=grad_clip,
        warmup_fraction=warmup_fraction,
    )
    results.append(_summarize_combined_run(model=combined_model, history=combined_history))

    ranking_by_val_loss = [
        {
            "label": run["label"],
            "model_type": run["model_type"],
            "final_val_loss": run["final_val_loss"],
            "parameters": run["parameters"],
        }
        for run in sorted(results, key=lambda run: float(run["final_val_loss"]))
    ]
    timestamp = datetime.now(timezone.utc).strftime("%Y%m%d_%H%M%S")
    archive_path = ARCHIVE_DIR / f"testformer_wikitext_combo_{timestamp}.json"
    report = {
        "status": "success",
        "preset": preset_name,
        "dataset": "wikitext-bpe",
        "motifs": list(motif_names),
        "device": device,
        "steps": steps,
        "batch_size": batch_size,
        "eval_every": eval_every,
        "eval_batches": eval_batches,
        "match_param_budget": match_param_budget,
        "target_params": resolved_target_params,
        "combined_reference_params": combined_reference_params,
        "seq_len": actual_seq_len,
        "vocab_size": actual_vocab_size,
        "wikitext_repo": wikitext_repo,
        "wikitext_config_name": wikitext_config_name,
        "wikitext_bytes": wikitext_bytes,
        "train_token_count": int(len(train_data)),
        "val_token_count": int(len(val_data)),
        "runs": results,
        "ranking_by_val_loss": ranking_by_val_loss,
        "archive_path": str(archive_path),
    }
    archive_path.write_text(json.dumps(report, indent=2, ensure_ascii=False), encoding="utf-8")
    return report


def _parse_motifs(raw: str) -> tuple[str, ...]:
    motifs = tuple(part.strip() for part in raw.split(",") if part.strip())
    return motifs or DEFAULT_MOTIFS


def main() -> None:
    parser = argparse.ArgumentParser()
    parser.add_argument("--preset", default="TestFormer-0.25x")
    parser.add_argument("--motifs", default=",".join(DEFAULT_MOTIFS))
    parser.add_argument("--seq-len", type=int, default=256)
    parser.add_argument("--steps", type=int, default=300)
    parser.add_argument("--batch-size", type=int, default=16)
    parser.add_argument("--eval-every", type=int, default=100)
    parser.add_argument("--eval-batches", type=int, default=8)
    parser.add_argument("--device", default="cuda" if torch.cuda.is_available() else "cpu")
    parser.add_argument("--data-dir", default="data_cache")
    parser.add_argument("--wikitext-repo", default="wikitext")
    parser.add_argument("--wikitext-config-name", default="wikitext-2-raw-v1")
    parser.add_argument("--wikitext-bytes", type=int, default=1_000_000)
    parser.add_argument("--wikitext-vocab-size", type=int, default=2048)
    parser.add_argument("--weight-decay", type=float, default=0.1)
    parser.add_argument("--beta1", type=float, default=0.9)
    parser.add_argument("--beta2", type=float, default=0.95)
    parser.add_argument("--grad-clip", type=float, default=1.0)
    parser.add_argument("--warmup-fraction", type=float, default=0.02)
    parser.add_argument("--match-param-budget", action="store_true")
    parser.add_argument("--target-params", type=int, default=None)
    args, _ = parser.parse_known_args()

    try:
        report = run_testformer_wikitext_combo(
            preset_name=args.preset,
            motif_names=_parse_motifs(args.motifs),
            seq_len=args.seq_len,
            steps=args.steps,
            batch_size=args.batch_size,
            eval_every=args.eval_every,
            eval_batches=args.eval_batches,
            device=args.device,
            data_dir=args.data_dir,
            wikitext_repo=args.wikitext_repo,
            wikitext_config_name=args.wikitext_config_name,
            wikitext_bytes=args.wikitext_bytes,
            wikitext_vocab_size=args.wikitext_vocab_size,
            weight_decay=args.weight_decay,
            beta1=args.beta1,
            beta2=args.beta2,
            grad_clip=args.grad_clip,
            warmup_fraction=args.warmup_fraction,
            match_param_budget=args.match_param_budget,
            target_params=args.target_params,
        )
    except Exception as exc:
        report = {
            "status": "error",
            "error": str(exc),
            "traceback": traceback.format_exc(),
        }

    print("\n===FINAL_RESULT===")
    print(json.dumps(report, indent=2, ensure_ascii=False))


if __name__ == "__main__":
    main()