"""Phase 3 training loop (prefix projector only)."""

from __future__ import annotations

import argparse
import math
import sys
import time
from pathlib import Path
from typing import Dict, List

import torch
import torch.nn.functional as F
from torch.optim import AdamW

_SCRIPT_DIR = Path(__file__).resolve().parent
_ROOT = _SCRIPT_DIR.parent
if str(_SCRIPT_DIR) not in sys.path:
    sys.path.insert(0, str(_SCRIPT_DIR))

from caption_dataloader import build_caption_dataloaders  # noqa: E402
from prefix_projector import (  # noqa: E402
    clap_text_for_prefix_projector,
    load_phase3_components,
    phase3_prefix_lm_loss,
)
from tokenizer import ID2TOKEN, PHRASE_START  # noqa: E402


def _pick_device() -> torch.device:
    if torch.cuda.is_available():
        return torch.device("cuda")
    mps = getattr(torch.backends, "mps", None)
    if mps is not None and mps.is_available():
        return torch.device("mps")
    return torch.device("cpu")


def parse_args() -> argparse.Namespace:
    p = argparse.ArgumentParser(
        description="Phase 3 training: prefix projector only"
    )
    p.add_argument(
        "--midi-checkpoint",
        type=str,
        default=str(_ROOT / "results" / "checkpoints" / "best_model.pt"),
    )
    p.add_argument(
        "--clap-checkpoint",
        type=str,
        default=str(
            _ROOT
            / "results"
            / "checkpoints_contrastive"
            / "clap_best.pt"
        ),
    )
    p.add_argument("--n-prefix-tokens", type=int, default=8)
    p.add_argument(
        "--captions-jsonl",
        type=str,
        default=str(_ROOT / "data" / "captions_llm.jsonl"),
    )
    p.add_argument("--batch-size", type=int, default=64)
    p.add_argument("--max-seq-len", type=int, default=512)
    p.add_argument("--split-ratio", type=float, default=0.95)
    p.add_argument("--num-workers", type=int, default=4)
    p.add_argument("--seed", type=int, default=17)
    p.add_argument(
        "--results-dir",
        type=str,
        default=str(_ROOT / "results"),
    )
    p.add_argument("--epochs", type=int, default=20)
    p.add_argument("--lr", type=float, default=1e-4)
    p.add_argument("--weight-decay", type=float, default=0.01)
    p.add_argument("--grad-clip-norm", type=float, default=1.0)
    p.add_argument("--warmup-steps", type=int, default=100)
    p.add_argument("--min-lr-scale", type=float, default=0.01)
    p.add_argument("--prefix-attn-reg-weight", type=float, default=0.0)
    p.add_argument("--prefix-attn-min-mean", type=float, default=0.05)
    p.add_argument("--qualitative-every", type=int, default=5)
    p.add_argument("--qual-gen-tokens", type=int, default=40)
    p.add_argument(
        "--qual-prompts",
        nargs="+",
        default=[
            "A fast bright piano étude with rising melodic contour.",
            "A syncopated jazz combo with saxophone and walking bass.",
            "An ambient electronic piece with sustained synth pads.",
        ],
    )
    return p.parse_args()


def _set_warmup_cosine_lr(
    optimizer: AdamW,
    step: int,
    total_steps: int,
    warmup_steps: int,
    base_lr: float,
    min_lr_scale: float,
) -> None:
    if step < warmup_steps:
        mult = float(step + 1) / float(max(1, warmup_steps))
    else:
        if total_steps <= warmup_steps:
            mult = 1.0
        else:
            progress = (step - warmup_steps) / float(total_steps - warmup_steps)
            progress = min(1.0, max(0.0, progress))
            mult = min_lr_scale + (1.0 - min_lr_scale) * 0.5 * (
                1.0 + math.cos(math.pi * progress)
            )
    optimizer.param_groups[0]["lr"] = base_lr * mult


@torch.no_grad()
def _eval_loss(
    clap_model,
    midi_gpt,
    projector,
    loader,
    device: torch.device,
    prefix_attn_reg_weight: float,
    prefix_attn_min_mean: float,
) -> float:
    projector.eval()
    total = 0.0
    n = 0
    for batch in loader:
        loss, _ = phase3_prefix_lm_loss(
            clap_model=clap_model,
            midi_gpt=midi_gpt,
            prefix_projector=projector,
            input_ids=batch["input_ids"].to(device),
            captions=batch["captions"],
            prefix_attn_reg_weight=prefix_attn_reg_weight,
            prefix_attn_min_mean=prefix_attn_min_mean,
        )
        total += float(loss.item())
        n += 1
    projector.train()
    return total / max(1, n)


def _lm_loss_without_prefix(midi_gpt, input_ids: torch.Tensor) -> torch.Tensor:
    logits = midi_gpt(input_ids)
    return F.cross_entropy(
        logits[:, :-1, :].reshape(-1, logits.size(-1)),
        input_ids[:, 1:].reshape(-1),
    )


def _infer_genre_label(caption: str) -> str:
    text = caption.lower()
    if "jazz" in text or "swing" in text or "bebop" in text:
        return "jazz"
    if "electronic" in text or "synth" in text or "edm" in text:
        return "electronic"
    if "classical" in text or "orchestral" in text or "baroque" in text:
        return "classical"
    if "rock" in text or "guitar" in text or "band" in text:
        return "rock"
    return "other"


@torch.no_grad()
def _conditional_perplexity_gap_by_genre(
    clap_model,
    midi_gpt,
    projector,
    loader,
    device: torch.device,
    max_examples: int = 200,
) -> Dict[str, float]:
    projector.eval()
    sums_with: Dict[str, float] = {}
    sums_without: Dict[str, float] = {}
    counts: Dict[str, int] = {}
    seen = 0

    for batch in loader:
        if seen >= max_examples:
            break
        input_ids = batch["input_ids"].to(device)
        captions = batch["captions"]
        for i in range(input_ids.size(0)):
            if seen >= max_examples:
                break
            x = input_ids[i : i + 1]
            cap = [captions[i]]
            loss_with, _ = phase3_prefix_lm_loss(
                clap_model=clap_model,
                midi_gpt=midi_gpt,
                prefix_projector=projector,
                input_ids=x,
                captions=cap,
            )
            loss_without = _lm_loss_without_prefix(midi_gpt=midi_gpt, input_ids=x)
            genre = _infer_genre_label(cap[0])
            sums_with[genre] = sums_with.get(genre, 0.0) + float(loss_with.item())
            sums_without[genre] = sums_without.get(genre, 0.0) + float(
                loss_without.item()
            )
            counts[genre] = counts.get(genre, 0) + 1
            seen += 1

    gaps: Dict[str, float] = {}
    for genre, n in counts.items():
        mean_with = sums_with[genre] / n
        mean_without = sums_without[genre] / n
        gaps[genre] = math.exp(mean_with) - math.exp(mean_without)
    projector.train()
    return gaps


@torch.no_grad()
def _generate_unconditional(midi_gpt, gen_tokens: int, device: torch.device) -> List[int]:
    seq = torch.tensor([[PHRASE_START]], dtype=torch.long, device=device)
    for _ in range(gen_tokens):
        logits = midi_gpt(seq)[:, -1, :]
        probs = F.softmax(logits, dim=-1)
        nxt = torch.multinomial(probs, num_samples=1)
        seq = torch.cat([seq, nxt], dim=1)
    return seq[0].tolist()


@torch.no_grad()
def _generate_with_text_prefix(
    clap_model,
    midi_gpt,
    projector,
    text_prompt: str,
    gen_tokens: int,
    device: torch.device,
) -> List[int]:
    # Diagnostic-only helper for qualitative checks during training.
    # This re-runs full prefix+GPT forward each token (O(n^2)); production
    # inference should use cached decoding in generate_conditional.py.
    ids: List[int] = [PHRASE_START]
    for _ in range(gen_tokens):
        x = torch.tensor([ids], dtype=torch.long, device=device)
        _loss, logits_full = phase3_prefix_lm_loss(
            clap_model=clap_model,
            midi_gpt=midi_gpt,
            prefix_projector=projector,
            input_ids=x,
            captions=[text_prompt],
        )
        logits = logits_full[:, -1, :]
        probs = F.softmax(logits, dim=-1)
        nxt = torch.multinomial(probs, num_samples=1)
        ids.append(int(nxt.item()))
    return ids


def _token_preview(ids: List[int], max_len: int = 40) -> str:
    toks = [ID2TOKEN.get(i, f"UNK({i})") for i in ids[:max_len]]
    suffix = " ..." if len(ids) > max_len else ""
    return " ".join(toks) + suffix


@torch.no_grad()
def _prefix_token_scale_diagnostics(
    clap_model,
    midi_gpt,
    projector,
    batch,
    device: torch.device,
) -> None:
    x = batch["input_ids"].to(device)
    caps = batch["captions"]
    text_emb = clap_text_for_prefix_projector(clap_model, caps, device)
    prefix = projector(text_emb)
    token = midi_gpt.wte(x)
    pnorm = float(prefix.norm(dim=-1).mean().item())
    tnorm = float(token.norm(dim=-1).mean().item())
    ratio = pnorm / max(1e-8, tnorm)
    print(
        "[phase3][scale] prefix_norm="
        f"{pnorm:.4f} token_norm={tnorm:.4f} ratio={ratio:.3f}"
    )
    if ratio > 10.0 or ratio < 0.1:
        print(
            "[phase3][scale][warn] prefix/token norm mismatch is large."
        )


@torch.no_grad()
def _verify_prefix_usage(
    clap_model,
    midi_gpt,
    projector,
    batch,
    device: torch.device,
) -> None:
    """Check loss is lower with correct caption prefix than random wrong one."""
    input_ids = batch["input_ids"].to(device)
    captions = batch["captions"]
    if input_ids.size(0) < 2:
        print("[phase3][verify1] skipped: need batch size >= 2.")
        return

    x = input_ids[0:1]
    correct_caption = [captions[0]]
    wrong_caption = [captions[1]]

    loss_correct, _ = phase3_prefix_lm_loss(
        clap_model=clap_model,
        midi_gpt=midi_gpt,
        prefix_projector=projector,
        input_ids=x,
        captions=correct_caption,
    )
    loss_wrong, _ = phase3_prefix_lm_loss(
        clap_model=clap_model,
        midi_gpt=midi_gpt,
        prefix_projector=projector,
        input_ids=x,
        captions=wrong_caption,
    )
    delta = float(loss_wrong.item() - loss_correct.item())
    print(
        "[phase3][verify1] loss(correct_prefix)="
        f"{loss_correct.item():.4f} loss(wrong_prefix)={loss_wrong.item():.4f} "
        f"delta(wrong-correct)={delta:+.4f}"
    )
    if abs(delta) < 1e-4:
        print(
            "[phase3][verify1][warn] losses are almost identical; "
            "prefix may be ignored."
        )


def main() -> None:
    args = parse_args()
    device = _pick_device()
    print(f"[phase3] device={device}")

    clap_model, midi_gpt, projector, counts = load_phase3_components(
        midi_checkpoint=args.midi_checkpoint,
        clap_checkpoint=args.clap_checkpoint,
        n_prefix_tokens=args.n_prefix_tokens,
        device=device,
    )

    # Phase 3 uses the exact same dataset setup as Phase 2.
    train_loader, val_loader, stats = build_caption_dataloaders(
        jsonl_path=args.captions_jsonl,
        max_seq_len=args.max_seq_len,
        batch_size=args.batch_size,
        split_ratio=args.split_ratio,
        seed=args.seed,
        num_workers=args.num_workers,
    )
    batch = next(iter(train_loader))
    if "input_ids" not in batch:
        raise RuntimeError(
            "Phase 3 requires input_ids from the dataloader to build LM labels."
        )

    print("[phase3] freeze policy check passed.")
    print(
        "[phase3] dataset total/train/val="
        f"{stats.n_total_records}/{stats.n_train_records}/{stats.n_val_records}"
    )
    print(
        "[phase3] dataloader check passed: input_ids shape="
        f"{tuple(batch['input_ids'].shape)}"
    )
    print(f"[phase3] CLAP params (frozen): {counts.n_clap_params:,}")
    print(f"[phase3] GPT params (frozen):  {counts.n_gpt_params:,}")
    print(f"[phase3] projector params:     {counts.n_projector_params:,}")
    print(f"[phase3] total trainable:      {counts.n_total_trainable:,}")

    optimizer = AdamW(
        projector.parameters(),
        lr=args.lr,
        weight_decay=args.weight_decay,
    )
    steps_per_epoch = len(train_loader)
    total_steps = max(1, args.epochs * steps_per_epoch)
    print(
        f"[phase3] epochs={args.epochs} steps_per_epoch={steps_per_epoch} "
        f"total_steps={total_steps} warmup_steps={args.warmup_steps}"
    )

    global_step = 0
    best_val = float("inf")
    t0 = time.perf_counter()
    for epoch in range(1, args.epochs + 1):
        train_loss_sum = 0.0
        n_train = 0
        verify1_done = False
        verify2_done = False
        for batch in train_loader:
            if not verify1_done:
                _verify_prefix_usage(
                    clap_model=clap_model,
                    midi_gpt=midi_gpt,
                    projector=projector,
                    batch=batch,
                    device=device,
                )
                verify1_done = True
            _set_warmup_cosine_lr(
                optimizer=optimizer,
                step=global_step,
                total_steps=total_steps,
                warmup_steps=args.warmup_steps,
                base_lr=args.lr,
                min_lr_scale=args.min_lr_scale,
            )
            optimizer.zero_grad(set_to_none=True)
            loss, _ = phase3_prefix_lm_loss(
                clap_model=clap_model,
                midi_gpt=midi_gpt,
                prefix_projector=projector,
                input_ids=batch["input_ids"].to(device),
                captions=batch["captions"],
                prefix_attn_reg_weight=args.prefix_attn_reg_weight,
                prefix_attn_min_mean=args.prefix_attn_min_mean,
            )
            loss.backward()

            if not verify2_done:
                grad = projector.fc2.weight.grad
                if grad is None:
                    print(
                        "[phase3][verify2][warn] projector.fc2.weight.grad is None."
                    )
                else:
                    grad_norm = float(grad.norm().item())
                    grad_abs = float(grad.abs().sum().item())
                    print(
                        "[phase3][verify2] projector.fc2.weight grad_norm="
                        f"{grad_norm:.6f} grad_abs_sum={grad_abs:.6f}"
                    )
                    if grad_abs == 0.0:
                        print(
                            "[phase3][verify2][warn] projector gradient is all zeros."
                        )
                verify2_done = True

            torch.nn.utils.clip_grad_norm_(
                projector.parameters(), args.grad_clip_norm
            )
            optimizer.step()
            train_loss_sum += float(loss.item())
            n_train += 1
            global_step += 1

        train_loss = train_loss_sum / max(1, n_train)
        val_loss = _eval_loss(
            clap_model=clap_model,
            midi_gpt=midi_gpt,
            projector=projector,
            loader=val_loader,
            device=device,
            prefix_attn_reg_weight=args.prefix_attn_reg_weight,
            prefix_attn_min_mean=args.prefix_attn_min_mean,
        )
        baseline_sum = 0.0
        baseline_n = 0
        for vbatch in val_loader:
            baseline_sum += float(
                _lm_loss_without_prefix(
                    midi_gpt=midi_gpt,
                    input_ids=vbatch["input_ids"].to(device),
                ).item()
            )
            baseline_n += 1
        baseline_val = baseline_sum / max(1, baseline_n)
        ppl_gap = math.exp(val_loss) - math.exp(baseline_val)
        genre_gap = _conditional_perplexity_gap_by_genre(
            clap_model=clap_model,
            midi_gpt=midi_gpt,
            projector=projector,
            loader=val_loader,
            device=device,
            max_examples=200,
        )
        current_lr = optimizer.param_groups[0]["lr"]
        print(
            f"[phase3] epoch={epoch}/{args.epochs} "
            f"train_loss={train_loss:.4f} val_loss={val_loss:.4f} "
            f"baseline_val={baseline_val:.4f} ppl_gap={ppl_gap:+.3f} "
            f"lr={current_lr:.2e}"
        )
        if genre_gap:
            parts = " ".join(f"{k}:{v:+.3f}" for k, v in sorted(genre_gap.items()))
            print(f"[phase3] genre ppl_gap(with-without): {parts}")
        if epoch >= 10 and val_loss >= baseline_val:
            print("[phase3][warn] prefix loss not below no-prefix baseline.")

        ckpt_dir = Path(
            args.results_dir
            if hasattr(args, "results_dir")
            else _ROOT / "results"
        ) / "checkpoints_prefix"
        ckpt_dir.mkdir(parents=True, exist_ok=True)

        ckpt = {
            "projector_state_dict": projector.state_dict(),
            "epoch": epoch,
            "val_loss": val_loss,
            "args": vars(args),
        }
        torch.save(ckpt, ckpt_dir / "prefix_projector_latest.pt")
        if val_loss < best_val:
            best_val = val_loss
            torch.save(ckpt, ckpt_dir / "prefix_projector_best.pt")

        _prefix_token_scale_diagnostics(
            clap_model=clap_model,
            midi_gpt=midi_gpt,
            projector=projector,
            batch=batch,
            device=device,
        )

        if epoch % args.qualitative_every == 0:
            print("\n[phase3] qualitative generation check")
            uncond = _generate_unconditional(
                midi_gpt=midi_gpt,
                gen_tokens=args.qual_gen_tokens,
                device=device,
            )
            print(f"  [unconditional] {_token_preview(uncond)}")
            for prompt in args.qual_prompts:
                cond = _generate_with_text_prefix(
                    clap_model=clap_model,
                    midi_gpt=midi_gpt,
                    projector=projector,
                    text_prompt=prompt,
                    gen_tokens=args.qual_gen_tokens,
                    device=device,
                )
                print(f"  [prompt] {prompt}")
                print(f"           {_token_preview(cond)}")

    elapsed = time.perf_counter() - t0
    print(
        f"[phase3] finished in {elapsed/60:.1f} min, best_val={best_val:.4f}"
    )


if __name__ == "__main__":
    main()