Spaces:

dayngerous
/

sampled

Sleeping

File size: 30,964 Bytes

import json
import os
from dataclasses import dataclass
from functools import lru_cache
from pathlib import Path

os.environ.setdefault("AST_MODEL", "MIT/ast-finetuned-audioset-10-10-0.4593")
os.environ.setdefault("SSLAM_MODEL", "ta012/SSLAM_pretrain")

import gradio as gr
import librosa
import matplotlib
import numpy as np
import torch
import torchaudio.transforms as T
from huggingface_hub import hf_hub_download

matplotlib.use("Agg")
import matplotlib.pyplot as plt

from model import CNNSampleDetector, SSLAMSampleDetector, SampleDetector, pair_summary_features


SAMPLE_RATE = int(os.environ.get("APP_SAMPLE_RATE", "16000"))
MODEL_REPO = os.environ.get("MODEL_REPO", "dayngerous/whoSampledAST")


def _resolve_checkpoint() -> str:
    """Return local checkpoint path, downloading from HF Hub if needed."""
    env_path = os.environ.get("MODEL_CHECKPOINT", "")
    for p in [env_path, "models/best.pt", "checkpoints/best.pt", "checkpoints2/best.pt"]:
        if p and Path(p).exists():
            return p
    try:
        return hf_hub_download(repo_id=MODEL_REPO, filename="models/best.pt")
    except Exception as exc:
        raise FileNotFoundError(
            f"No local checkpoint found and download from {MODEL_REPO} failed: {exc}"
        )


def _resolve_meta() -> str:
    """Return local test_indices.json path, downloading from HF Hub if needed."""
    for p in ["models/test_indices.json", "checkpoints2/test_indices.json", "checkpoints/test_indices.json"]:
        if Path(p).exists():
            return p
    try:
        return hf_hub_download(repo_id=MODEL_REPO, filename="models/test_indices.json")
    except Exception:
        return ""


DEFAULT_CHECKPOINT = _resolve_checkpoint()
DEFAULT_META = os.environ.get("MODEL_META", "") or _resolve_meta()
TARGET_FRAMES_PER_BEAT = 50
N_FFT = 1024
MEL_HOP = 512
N_MELS_VIZ = 128


@dataclass
class AudioClip:
    waveform: torch.Tensor
    sample_rate: int
    offset_sec: float
    duration_sec: float


@dataclass
class BeatWindow:
    waveform: torch.Tensor
    start_sec: float
    end_sec: float
    beat_intervals: list[tuple[float, float]]


def _format_time(seconds: float) -> str:
    seconds = max(0.0, float(seconds))
    minutes = int(seconds // 60)
    rem = seconds - minutes * 60
    return f"{minutes}:{rem:04.1f}"


def _format_intervals(intervals: list[tuple[float, float]], limit: int = 4) -> str:
    if not intervals:
        return "none"
    shown = ", ".join(f"{_format_time(a)}-{_format_time(b)}" for a, b in intervals[:limit])
    if len(intervals) > limit:
        shown += f", +{len(intervals) - limit} more"
    return shown


def _merge_intervals(intervals: list[tuple[float, float]], gap: float = 0.05) -> list[tuple[float, float]]:
    if not intervals:
        return []
    ordered = sorted((float(a), float(b)) for a, b in intervals if b > a)
    if not ordered:
        return []
    merged = [ordered[0]]
    for start, end in ordered[1:]:
        prev_start, prev_end = merged[-1]
        if start <= prev_end + gap:
            merged[-1] = (prev_start, max(prev_end, end))
        else:
            merged.append((start, end))
    return merged


def _load_args(checkpoint_path: Path) -> dict:
    meta_path = Path(DEFAULT_META) if DEFAULT_META else checkpoint_path.parent / "test_indices.json"
    args = {}
    if meta_path.exists():
        with open(meta_path) as f:
            args = json.load(f).get("args", {})

    args.setdefault("backbone", os.environ.get("MODEL_BACKBONE", "ast"))
    args.setdefault("ast_model", os.environ.get("AST_MODEL"))
    args.setdefault("bars", int(os.environ.get("MODEL_BARS", "4")))
    args.setdefault("n_mels", int(os.environ.get("MODEL_N_MELS", "128")))
    args.setdefault("sample_rate", SAMPLE_RATE)
    return args


def _build_model(args: dict, device: torch.device):
    beats_per_window = int(args.get("bars", 4)) * 4
    n_mels = int(args.get("n_mels", 128))
    backbone = args.get("backbone", "ast")
    if backbone == "ast":
        model = SampleDetector(
            model_name=args.get("ast_model", os.environ["AST_MODEL"]),
            freeze_encoder=True,
            beats_per_window=beats_per_window,
            n_mels=n_mels,
        )
    elif backbone == "sslam":
        model = SSLAMSampleDetector(
            freeze_encoder=True,
            beats_per_window=beats_per_window,
            n_mels=n_mels,
        )
    else:
        model = CNNSampleDetector(beats_per_window=beats_per_window, n_mels=n_mels)
    return model.to(device)


@lru_cache(maxsize=2)
def _load_model(checkpoint_path: str):
    path = Path(checkpoint_path)
    if not path.exists():
        raise FileNotFoundError(
            f"Checkpoint not found: {path}. Set MODEL_CHECKPOINT or place a checkpoint at models/best.pt."
        )

    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
    args = _load_args(path)
    model = _build_model(args, device)
    ckpt = torch.load(path, map_location=device)
    state = ckpt.get("model_state", ckpt)
    pair_head_loaded = any(k.startswith("pair_mask_head.") for k in state)
    missing, unexpected = model.load_state_dict(state, strict=False)
    model.eval()
    return {
        "model": model,
        "args": args,
        "device": device,
        "epoch": ckpt.get("epoch", "?"),
        "pair_head_loaded": pair_head_loaded,
        "missing": missing,
        "unexpected": unexpected,
    }


def _load_audio(path: str, offset_sec: float, max_seconds: float) -> AudioClip:
    if not path:
        raise gr.Error("Upload both audio files before running verification.")

    audio, sr = librosa.load(path, sr=SAMPLE_RATE, mono=True)
    waveform = torch.from_numpy(audio).float()

    offset_sec = max(0.0, float(offset_sec or 0.0))
    max_seconds = max(1.0, float(max_seconds or 1.0))
    start = min(int(offset_sec * sr), max(waveform.numel() - 1, 0))
    end = min(start + int(max_seconds * sr), waveform.numel())
    waveform = waveform[start:end].float().contiguous()
    if waveform.numel() < sr // 4:
        raise gr.Error("Each upload must contain at least 0.25 seconds of audio after offset trimming.")

    peak = waveform.abs().max().clamp_min(1e-6)
    waveform = waveform / peak
    return AudioClip(
        waveform=waveform,
        sample_rate=sr,
        offset_sec=offset_sec,
        duration_sec=waveform.numel() / sr,
    )


def _estimate_beats(waveform: torch.Tensor, sample_rate: int) -> tuple[float, np.ndarray]:
    y = waveform.detach().cpu().numpy().astype(np.float32)
    tempo, beat_frames = librosa.beat.beat_track(y=y, sr=sample_rate, hop_length=512)
    bpm = float(np.atleast_1d(tempo)[0]) if np.size(tempo) else 120.0
    if not np.isfinite(bpm) or bpm <= 0:
        bpm = 120.0
    bpm = float(np.clip(bpm, 60.0, 200.0))

    beat_samples = librosa.frames_to_samples(beat_frames, hop_length=512)
    beat_samples = beat_samples[(beat_samples >= 0) & (beat_samples < waveform.numel())]
    if len(beat_samples) < 2:
        step = max(1, int(round(sample_rate * 60.0 / bpm)))
        beat_samples = np.arange(0, waveform.numel(), step, dtype=np.int64)
    elif beat_samples[0] > sample_rate * 60.0 / bpm:
        beat_samples = np.insert(beat_samples, 0, 0)
    return bpm, beat_samples.astype(np.int64)


def _to_mel(waveform: torch.Tensor, bpm: float, args: dict) -> torch.Tensor:
    sample_rate = int(args.get("sample_rate", SAMPLE_RATE))
    n_mels = int(args.get("n_mels", 128))
    bars = int(args.get("bars", 4))
    fixed_frames = bars * 4 * TARGET_FRAMES_PER_BEAT
    hop = max(1, round(60 * sample_rate / (bpm * TARGET_FRAMES_PER_BEAT)))

    mel_transform = T.MelSpectrogram(
        sample_rate=sample_rate,
        n_fft=N_FFT,
        hop_length=hop,
        n_mels=n_mels,
        power=2.0,
    )
    amp_to_db = T.AmplitudeToDB(stype="power", top_db=80)
    mel = amp_to_db(mel_transform(waveform)).T
    if mel.shape[0] > fixed_frames:
        mel = mel[:fixed_frames]
    elif mel.shape[0] < fixed_frames:
        mel = torch.cat([mel, torch.zeros(fixed_frames - mel.shape[0], mel.shape[1])], dim=0)
    mel = (mel - mel.mean()) / (mel.std() + 1e-6)
    return mel.unsqueeze(0)


def _make_windows(
    clip: AudioClip,
    bpm: float,
    beat_samples: np.ndarray,
    args: dict,
    stride_beats: int,
    max_windows: int,
) -> list[BeatWindow]:
    bars = int(args.get("bars", 4))
    beats_per_window = bars * 4
    window_samples = max(1, int(round(beats_per_window * 60.0 / bpm * clip.sample_rate)))
    beat_seconds = 60.0 / bpm
    stride_beats = max(1, int(stride_beats))
    max_windows = max(1, int(max_windows))

    valid = [i for i in range(0, len(beat_samples), stride_beats) if beat_samples[i] < clip.waveform.numel()]
    if not valid:
        valid = [0]

    if len(valid) > max_windows:
        chosen_positions = np.linspace(0, len(valid) - 1, max_windows, dtype=np.int64)
        valid = [valid[i] for i in sorted(set(chosen_positions.tolist()))]

    windows = []
    for beat_idx in valid:
        start_sample = int(beat_samples[beat_idx]) if len(beat_samples) else 0
        chunk = clip.waveform[start_sample:start_sample + window_samples]
        if chunk.numel() < window_samples:
            chunk = torch.nn.functional.pad(chunk, (0, window_samples - chunk.numel()))

        start_sec = clip.offset_sec + start_sample / clip.sample_rate
        end_sec = start_sec + window_samples / clip.sample_rate
        beat_intervals = [
            (start_sec + i * beat_seconds, start_sec + (i + 1) * beat_seconds)
            for i in range(beats_per_window)
        ]
        windows.append(BeatWindow(chunk, start_sec, end_sec, beat_intervals))
    return windows


def _encode(model, mels: torch.Tensor, batch_size: int) -> torch.Tensor:
    embs = []
    for start in range(0, mels.shape[0], batch_size):
        embs.append(model.encoder(mels[start:start + batch_size]))
    return torch.cat(embs, dim=0)


def _score_pairs(model, track_mels: torch.Tensor, source_mels: torch.Tensor, batch_size: int) -> torch.Tensor:
    """Score each (track, source) window pair using the classifier head (model.forward)."""
    track_emb = _encode(model, track_mels, batch_size)
    source_emb = _encode(model, source_mels, batch_size)
    n_track, n_source = track_emb.shape[0], source_emb.shape[0]
    scores = torch.zeros(n_track, n_source, device=track_emb.device)

    for i in range(n_track):
        for j in range(n_source):
            t = track_emb[i:i + 1]
            s = source_emb[j:j + 1]
            pair_feat = pair_summary_features(
                model.pair_mask_head(track_mels[i:i + 1], source_mels[j:j + 1])
            )
            combined = torch.cat([t, s, torch.abs(t - s), t * s, pair_feat], dim=-1)
            logits = model.head(combined)
            scores[i, j] = torch.softmax(logits, dim=-1)[0, 1]

    return scores


def _intervals_from_mask(mask: np.ndarray, window: BeatWindow, max_end: float) -> list[tuple[float, float]]:
    intervals = []
    for use, (start, end) in zip(mask.tolist(), window.beat_intervals):
        if use:
            intervals.append((start, min(end, max_end)))
    return _merge_intervals(intervals)


def _find_contiguous_beats(pair_probs: np.ndarray, min_beats: int = 2) -> tuple[np.ndarray, np.ndarray]:
    """Find the best contiguous diagonal run in the beat similarity matrix.

    Searches every diagonal offset (track_beat - source_beat) and uses
    Kadane's algorithm to find the highest-scoring contiguous segment along
    each diagonal. Returns boolean masks over track and source beats.
    """
    n_track, n_source = pair_probs.shape
    best_score = -np.inf
    best_track_mask = np.zeros(n_track, dtype=bool)
    best_source_mask = np.zeros(n_source, dtype=bool)

    for d in range(-(n_source - 1), n_track):
        # diagonal: track[i], source[i - d] for valid i
        i0 = max(0, d)
        j0 = max(0, -d)
        length = min(n_track - i0, n_source - j0)
        if length < min_beats:
            continue

        diag = pair_probs[i0:i0 + length, j0:j0 + length].diagonal()

        # Kadane's max-subarray on the diagonal values
        curr_sum = 0.0
        curr_start = 0
        best_sum = -np.inf
        seg_start = seg_end = 0

        for k, val in enumerate(diag):
            curr_sum += val
            if curr_sum > best_sum:
                best_sum = curr_sum
                seg_start = curr_start
                seg_end = k
            if curr_sum < 0:
                curr_sum = 0.0
                curr_start = k + 1

        seg_len = seg_end - seg_start + 1
        if seg_len < min_beats:
            continue
        avg_score = best_sum / seg_len

        if avg_score > best_score:
            best_score = avg_score
            track_mask = np.zeros(n_track, dtype=bool)
            source_mask = np.zeros(n_source, dtype=bool)
            track_mask[i0 + seg_start: i0 + seg_end + 1] = True
            source_mask[j0 + seg_start: j0 + seg_end + 1] = True
            best_track_mask = track_mask
            best_source_mask = source_mask

    return best_track_mask, best_source_mask


def _localize_match(
    model,
    track_mel: torch.Tensor,
    source_mel: torch.Tensor,
    track_window: BeatWindow,
    source_window: BeatWindow,
    track_clip: AudioClip,
    source_clip: AudioClip,
    threshold: float,
    pair_head_loaded: bool,
) -> tuple[list[tuple[float, float]], list[tuple[float, float]], str]:
    if not pair_head_loaded:
        return (
            [(track_window.start_sec, min(track_window.end_sec, track_clip.offset_sec + track_clip.duration_sec))],
            [(source_window.start_sec, min(source_window.end_sec, source_clip.offset_sec + source_clip.duration_sec))],
            "The checkpoint does not include a trained pairwise beat head, so the highlight covers the best matching window.",
        )

    with torch.inference_mode():
        pair_probs = torch.sigmoid(model.pair_mask_head(track_mel, source_mel))[0].detach().cpu().numpy()

    track_mask, source_mask = _find_contiguous_beats(pair_probs, min_beats=2)

    # Fall back to top-k individual beats if no contiguous run was found
    if not track_mask.any():
        top_k = min(6, pair_probs.size)
        flat = np.argpartition(pair_probs.reshape(-1), -top_k)[-top_k:]
        selected = np.zeros_like(pair_probs, dtype=bool)
        selected.reshape(-1)[flat] = True
        track_mask = selected.any(axis=1)
        source_mask = selected.any(axis=0)

    track_regions = _intervals_from_mask(
        track_mask,
        track_window,
        track_clip.offset_sec + track_clip.duration_sec,
    )
    source_regions = _intervals_from_mask(
        source_mask,
        source_window,
        source_clip.offset_sec + source_clip.duration_sec,
    )
    return track_regions, source_regions, ""


def _draw_waveform(ax, clip: AudioClip, regions: list[tuple[float, float]], color: str, title: str):
    y = clip.waveform.detach().cpu().numpy()
    n = len(y)
    points = min(20000, n)
    idx = np.linspace(0, n - 1, points, dtype=np.int64)
    x = clip.offset_sec + idx / clip.sample_rate
    ax.plot(x, y[idx], color="#111827", linewidth=0.55)
    for start, end in regions:
        ax.axvspan(start, end, color=color, alpha=0.28)
    ax.set_title(title, loc="left", fontsize=10)
    ax.set_ylabel("Amplitude")
    ax.set_xlim(clip.offset_sec, clip.offset_sec + clip.duration_sec)
    ax.set_ylim(-1.05, 1.05)
    ax.grid(True, alpha=0.18)


def _draw_mel(ax, clip: AudioClip, regions: list[tuple[float, float]], color: str, title: str, matched: bool):
    y = clip.waveform.detach().cpu().numpy().astype(np.float32)
    mel = librosa.feature.melspectrogram(y=y, sr=clip.sample_rate, n_mels=N_MELS_VIZ, hop_length=MEL_HOP)
    mel_db = librosa.power_to_db(mel, ref=np.max)

    t_start = clip.offset_sec
    t_end = clip.offset_sec + clip.duration_sec
    f_max = clip.sample_rate / 2

    ax.imshow(
        mel_db,
        aspect="auto",
        origin="lower",
        extent=[t_start, t_end, 0, f_max],
        cmap="magma",
        interpolation="nearest",
    )
    ax.set_title(title, loc="left", fontsize=10)
    ax.set_ylabel("Frequency (Hz)")
    ax.set_xlim(t_start, t_end)

    if regions:
        for start, end in regions:
            ax.axvspan(start, end, color=color, alpha=0.38 if matched else 0.22, linewidth=0)
    if not matched:
        ax.text(
            0.5, 0.5, "No Match",
            transform=ax.transAxes,
            fontsize=18,
            color="white",
            ha="center",
            va="center",
            fontweight="bold",
            bbox=dict(boxstyle="round,pad=0.4", facecolor="#111827", alpha=0.65),
        )


def _plot_waveforms(
    track_clip: AudioClip,
    source_clip: AudioClip,
    track_regions: list[tuple[float, float]],
    source_regions: list[tuple[float, float]],
    score: float | None,
    matched: bool,
) -> plt.Figure:
    fig, axes = plt.subplots(2, 1, figsize=(12, 5), sharex=False)
    color = "#22c55e" if matched else "#f59e0b"
    title_score = "unavailable" if score is None else f"{score:.3f}"
    fig.suptitle(f"Best match score: {title_score}" if score is not None else "Waveform preview", fontsize=12)

    _draw_waveform(axes[0], track_clip, track_regions, color, "Track / song audio")
    _draw_waveform(axes[1], source_clip, source_regions, color, "Source sample audio")
    axes[1].set_xlabel("Time in uploaded file (seconds)")
    fig.tight_layout()
    return fig


def _plot_mels(
    track_clip: AudioClip,
    source_clip: AudioClip,
    track_regions: list[tuple[float, float]],
    source_regions: list[tuple[float, float]],
    matched: bool,
) -> plt.Figure:
    fig, axes = plt.subplots(2, 1, figsize=(12, 6), sharex=False)
    color = "#22c55e" if matched else "#f59e0b"

    _draw_mel(axes[0], track_clip, track_regions, color, "Track mel spectrogram", matched)
    _draw_mel(axes[1], source_clip, source_regions, color, "Source mel spectrogram", matched)
    axes[1].set_xlabel("Time in uploaded file (seconds)")
    fig.tight_layout()
    return fig


def _image_to_mel_tensor(image_path: str, args: dict) -> torch.Tensor:
    """Load a BPM-normalized mel spectrogram PNG as the model's input tensor."""
    from PIL import Image as PILImage
    n_mels = int(args.get("n_mels", 128))
    bars = int(args.get("bars", 4))
    fixed_frames = bars * 4 * TARGET_FRAMES_PER_BEAT

    img = PILImage.open(image_path).convert("L")
    img = img.resize((fixed_frames, n_mels), PILImage.LANCZOS)
    arr = np.array(img, dtype=np.float32) / 255.0  # [n_mels, fixed_frames]

    # Image was saved with origin="lower": row 0 in pixels = highest freq bin
    arr = arr[::-1]  # flip so row 0 = lowest mel bin
    mel = torch.from_numpy(arr.T.copy()).float()  # [fixed_frames, n_mels]
    mel = (mel - mel.mean()) / (mel.std() + 1e-6)
    return mel.unsqueeze(0)  # [1, fixed_frames, n_mels]


def _plot_spectrograms_with_mask(
    track_img_path: str,
    source_img_path: str,
    track_beats: np.ndarray,
    source_beats: np.ndarray,
    score: float,
    matched: bool,
) -> plt.Figure:
    from PIL import Image as PILImage
    color = "#22c55e" if matched else "#f59e0b"
    fig, axes = plt.subplots(2, 1, figsize=(12, 5))
    fig.suptitle(f"Score: {score:.3f}", fontsize=12)

    for ax, img_path, label, beats in [
        (axes[0], track_img_path, "Track spectrogram", track_beats),
        (axes[1], source_img_path, "Source spectrogram", source_beats),
    ]:
        img = np.array(PILImage.open(img_path).convert("RGB"))
        W = img.shape[1]
        ax.imshow(img, aspect="auto")
        ax.set_title(label, loc="left", fontsize=10)
        ax.set_xlabel("Time frame (BPM-normalized)")
        ax.set_ylabel("Mel bin")
        ax.tick_params(labelsize=7)

        if beats is not None and beats.any():
            n_beats = len(beats)
            beat_w = W / n_beats
            for i, active in enumerate(beats):
                if active:
                    ax.axvspan(i * beat_w, (i + 1) * beat_w, color=color, alpha=0.38, linewidth=0)

        if not matched:
            ax.text(0.5, 0.5, "No Match", transform=ax.transAxes,
                    fontsize=18, color="white", ha="center", va="center", fontweight="bold",
                    bbox=dict(boxstyle="round,pad=0.4", facecolor="#111827", alpha=0.65))

    fig.tight_layout()
    return fig


def _norm_file_list(files) -> list[str]:
    """Normalise whatever gr.File returns into a flat list of path strings."""
    if not files:
        return []
    if isinstance(files, (str, bytes)):
        return [str(files)]
    paths = []
    for f in (files if isinstance(files, list) else [files]):
        if isinstance(f, str):
            paths.append(f)
        elif hasattr(f, "name"):
            paths.append(f.name)
    return paths


def verify_spectrograms(
    track_specs,
    source_specs,
    checkpoint_path,
    match_threshold,
    localization_threshold,
):
    track_paths = _norm_file_list(track_specs)
    source_paths = _norm_file_list(source_specs)
    if not track_paths or not source_paths:
        raise gr.Error("Upload at least one spectrogram image for both track and source.")

    try:
        loaded = _load_model(checkpoint_path or DEFAULT_CHECKPOINT)
    except Exception as exc:
        return f"Model could not be loaded: {exc}", None, None

    model = loaded["model"]
    args = loaded["args"]
    device = loaded["device"]
    batch_size = 8 if device.type == "cpu" else 32

    track_mels = torch.stack([_image_to_mel_tensor(p, args) for p in track_paths]).to(device)
    source_mels = torch.stack([_image_to_mel_tensor(p, args) for p in source_paths]).to(device)

    with torch.inference_mode():
        score_matrix = _score_pairs(model, track_mels, source_mels, batch_size)

    best_flat = int(torch.argmax(score_matrix).item())
    best_track_idx = best_flat // score_matrix.shape[1]
    best_source_idx = best_flat % score_matrix.shape[1]
    best_score = float(score_matrix[best_track_idx, best_source_idx])
    matched = best_score >= float(match_threshold)

    best_track_mel = track_mels[best_track_idx:best_track_idx + 1]
    best_source_mel = source_mels[best_source_idx:best_source_idx + 1]
    beats_per_window = int(args.get("bars", 4)) * 4

    if loaded["pair_head_loaded"]:
        with torch.inference_mode():
            pair_probs = torch.sigmoid(model.pair_mask_head(best_track_mel, best_source_mel))[0].cpu().numpy()
        track_beats, source_beats = _find_contiguous_beats(pair_probs, min_beats=2)
        if not track_beats.any():
            track_beats = np.ones(beats_per_window, dtype=bool)
            source_beats = np.ones(beats_per_window, dtype=bool)
    else:
        track_beats = np.ones(beats_per_window, dtype=bool)
        source_beats = np.ones(beats_per_window, dtype=bool)

    spec_fig = _plot_spectrograms_with_mask(
        track_paths[best_track_idx], source_paths[best_source_idx],
        track_beats, source_beats, best_score, matched,
    )

    verdict = "Likely match" if matched else "No match"
    details = [
        f"**{verdict}**",
        f"Classifier score: `{best_score:.3f}` (threshold `{float(match_threshold):.2f}`).",
        f"Best window: track `w{best_track_idx:02d}` × source `w{best_source_idx:02d}` "
        f"({len(track_paths)} × {len(source_paths)} combinations tried).",
        f"Model: `{args.get('backbone', 'ast')}` checkpoint epoch `{loaded['epoch']}` on `{device}`.",
    ]
    if not loaded["pair_head_loaded"]:
        details.append("Checkpoint does not include a trained pairwise beat head.")
    return "\n\n".join(details), None, spec_fig


def preview_waveforms(track_audio, source_audio):
    if not track_audio or not source_audio:
        return None, None
    try:
        track_clip = _load_audio(track_audio, 0.0, 120.0)
        source_clip = _load_audio(source_audio, 0.0, 120.0)
        wfig = _plot_waveforms(track_clip, source_clip, [], [], None, False)
        mfig = _plot_mels(track_clip, source_clip, [], [], False)
        return wfig, mfig
    except Exception:
        return None, None


def verify(
    track_audio,
    source_audio,
    checkpoint_path,
    match_threshold,
    localization_threshold,
    track_offset,
    source_offset,
    max_seconds,
    stride_beats,
    max_windows,
):
    try:
        track_clip = _load_audio(track_audio, track_offset, max_seconds)
        source_clip = _load_audio(source_audio, source_offset, max_seconds)
    except Exception as exc:
        raise gr.Error(str(exc))

    try:
        loaded = _load_model(checkpoint_path or DEFAULT_CHECKPOINT)
    except Exception as exc:
        wfig = _plot_waveforms(track_clip, source_clip, [], [], None, False)
        mfig = _plot_mels(track_clip, source_clip, [], [], False)
        return f"Model could not be loaded: {exc}", wfig, mfig

    model = loaded["model"]
    args = loaded["args"]
    device = loaded["device"]
    batch_size = 8 if device.type == "cpu" else 32

    track_bpm, track_beats = _estimate_beats(track_clip.waveform, track_clip.sample_rate)
    source_bpm, source_beats = _estimate_beats(source_clip.waveform, source_clip.sample_rate)
    track_windows = _make_windows(track_clip, track_bpm, track_beats, args, stride_beats, max_windows)
    source_windows = _make_windows(source_clip, source_bpm, source_beats, args, stride_beats, max_windows)

    track_mels = torch.stack([_to_mel(w.waveform, track_bpm, args) for w in track_windows]).to(device)
    source_mels = torch.stack([_to_mel(w.waveform, source_bpm, args) for w in source_windows]).to(device)

    with torch.inference_mode():
        score_matrix = _score_pairs(model, track_mels, source_mels, batch_size)
    best_flat = int(torch.argmax(score_matrix).item())
    best_track = best_flat // score_matrix.shape[1]
    best_source = best_flat % score_matrix.shape[1]
    best_score = float(score_matrix[best_track, best_source].detach().cpu())
    matched = best_score >= float(match_threshold)

    track_regions, source_regions, note = _localize_match(
        model,
        track_mels[best_track:best_track + 1],
        source_mels[best_source:best_source + 1],
        track_windows[best_track],
        source_windows[best_source],
        track_clip,
        source_clip,
        localization_threshold,
        loaded["pair_head_loaded"],
    )

    if not track_regions or not source_regions:
        matched = False
        track_regions = []
        source_regions = []
        if not note:
            note = "Localization was inconclusive, so the result is treated as no match."

    wfig = _plot_waveforms(track_clip, source_clip, track_regions, source_regions, best_score, matched)
    mfig = _plot_mels(track_clip, source_clip, track_regions, source_regions, matched)

    verdict = "Likely match" if matched else "No match"
    details = [
        f"**{verdict}**",
        f"Classifier score: `{best_score:.3f}` (threshold `{float(match_threshold):.2f}`).",
        f"Estimated BPM: track `{track_bpm:.1f}`, source `{source_bpm:.1f}`.",
        f"{'Matched' if matched else 'Proposed'} track section(s): {_format_intervals(track_regions)}.",
        f"{'Matched' if matched else 'Proposed'} source section(s): {_format_intervals(source_regions)}.",
        f"Model: `{args.get('backbone', 'ast')}` checkpoint epoch `{loaded['epoch']}` on `{device}`.",
    ]
    if note:
        details.append(note)
    if loaded["missing"]:
        details.append(f"Missing checkpoint keys initialized at load time: `{len(loaded['missing'])}`.")
    return "\n\n".join(details), wfig, mfig


with gr.Blocks(title="Sample Match Verifier") as demo:
    gr.Markdown("# Sample Match Verifier")
    gr.Markdown(
        "Upload a track and a possible source sample. "
        "Click **Verify match** to run the model."
    )

    with gr.Tabs():
        with gr.Tab("Audio"):
            gr.Markdown("Waveforms appear immediately on upload.")
            with gr.Row():
                track_audio = gr.Audio(label="Track / song audio", type="filepath", sources=["upload"])
                source_audio = gr.Audio(label="Source sample audio", type="filepath", sources=["upload"])
            audio_run = gr.Button("Verify match", variant="primary")

        with gr.Tab("Spectrogram"):
            gr.Markdown(
                "Upload the window images "
                "(`*_w00.png`, `*_w01.png`, …). Select **all windows** for each file — "
                "the app will score every combination and return the best match."
            )
            with gr.Row():
                track_spec = gr.File(label="Track spectrogram windows", file_count="multiple",
                                     file_types=[".png", ".jpg", ".jpeg"])
                source_spec = gr.File(label="Source spectrogram windows", file_count="multiple",
                                      file_types=[".png", ".jpg", ".jpeg"])
            spec_run = gr.Button("Verify match", variant="primary")

    with gr.Accordion("Settings", open=False):
        checkpoint_path = gr.Textbox(label="Checkpoint path", value=DEFAULT_CHECKPOINT)
        with gr.Row():
            match_threshold = gr.Slider(0.0, 1.0, value=0.50, step=0.01, label="Match threshold")
            localization_threshold = gr.Slider(0.0, 1.0, value=0.55, step=0.01, label="Highlight threshold")
        with gr.Row():
            track_offset = gr.Number(value=0.0, label="Track start offset, seconds")
            source_offset = gr.Number(value=0.0, label="Source start offset, seconds")
        with gr.Row():
            max_seconds = gr.Slider(5, 180, value=60, step=5, label="Analyze duration per upload, seconds")
            stride_beats = gr.Slider(1, 16, value=16, step=1, label="Window stride, beats")
            max_windows = gr.Slider(4, 64, value=24, step=1, label="Max windows per upload")

    result = gr.Markdown()
    waveform_plot = gr.Plot(label="Waveforms")
    mel_plot = gr.Plot(label="Mel Spectrograms")

    # Show waveforms as soon as both audio files are uploaded
    for audio_input in [track_audio, source_audio]:
        audio_input.change(
            preview_waveforms,
            inputs=[track_audio, source_audio],
            outputs=[waveform_plot, mel_plot],
        )

    audio_run.click(
        verify,
        inputs=[
            track_audio,
            source_audio,
            checkpoint_path,
            match_threshold,
            localization_threshold,
            track_offset,
            source_offset,
            max_seconds,
            stride_beats,
            max_windows,
        ],
        outputs=[result, waveform_plot, mel_plot],
    )

    spec_run.click(
        verify_spectrograms,
        inputs=[track_spec, source_spec, checkpoint_path, match_threshold, localization_threshold],
        outputs=[result, waveform_plot, mel_plot],
    )


if __name__ == "__main__":
    demo.queue(max_size=8).launch()