"""
BERTopic Thematic Analysis Agent — Production Gradio UI
========================================================
A dashboard-style Gradio interface for orchestrating BERTopic topic modelling
via an LLM-backed agent defined in agent.py.

Layout
------
- Top: Header + Phase progress bar
- Body: Vertical cards in sequence
    1) Data Input
    2) Agent Console
    3) Results (Tabs: Review | Charts | Downloads)

Fixes applied (v2)
------------------
- BUG 3   : submit_review() now writes parsed review rows into
            agent_state["review_df"] BEFORE calling the agent, so
            _parse_review_df() in agent.py always receives a populated list.
- ISSUE 2 : PHASES list updated to 7 labels matching the actual B&C phases
            (was 6 labels misaligned with agent phase 0-6 mapping).
- ISSUE 4 : Added a startup API-key warning banner rendered in the UI when
            MISTRAL_API_KEY is not set in the environment.
"""

# ---------------------------------------------------------------------------
# Imports
# ---------------------------------------------------------------------------
import gradio as gr
import pandas as pd
import json
import os
import shutil
import uuid
from pathlib import Path
from urllib.parse import quote

# ---------------------------------------------------------------------------
# Method extraction tools — direct invocation (standalone tab, no agent)
# ---------------------------------------------------------------------------
try:
    from tools import (
        extract_methods_from_pdfs,
        OUTPUT_DIR as TOOLS_OUTPUT_DIR,
        _load_json as tools_load_json,
    )
    METHOD_TOOLS_AVAILABLE = True
except ImportError:
    METHOD_TOOLS_AVAILABLE = False

# ---------------------------------------------------------------------------
# Agent import — graceful stub when agent.py is absent during dev/testing
# ---------------------------------------------------------------------------
try:
    from agent import agent
    AGENT_AVAILABLE = True
except ImportError:
    AGENT_AVAILABLE = False

    class _StubAgent:
        """Minimal stub so the UI works without agent.py."""

        def invoke(self, message: str, state: dict) -> tuple[str, dict]:
            reply = (
                f"[STUB] Received: **{message}**\n\n"
                "Connect `agent.py` to get real responses. "
                f"Current phase: `{state.get('phase', 0)}`."
            )
            state["phase"] = min(state.get("phase", 0) + 1, 8)
            return reply, state

    agent = _StubAgent()

# ---------------------------------------------------------------------------
# Constants
# ---------------------------------------------------------------------------

# FIX ISSUE 2 — 7 labels aligned to the agent's phase 1-6 (index = phase-1)
PHASES = [
    "Familiarisation",   # Phase 1
    "Initial Codes",     # Phase 2
    "Themes",            # Phase 3
    "Review Themes",     # Phase 4
    "Naming",            # Phase 5
    "PAJAIS Mapping",    # Phase 5.5
    "Report",            # Phase 6
]

CHART_OPTIONS = ["Intertopic Map", "Top Words", "Hierarchy", "Heatmap"]

REVIEW_COLUMNS = [
    "#", "Topic Label", "Top Evidence", "Sentences", "Papers",
    "Approve", "Rename To", "Reasoning",
]

EMPTY_REVIEW_DF = pd.DataFrame(columns=REVIEW_COLUMNS)

# FIX ISSUE 4 — detect missing API keys at startup
MISTRAL_KEY_MISSING = not bool(os.environ.get("MISTRAL_API_KEY", ""))
GROQ_KEY_MISSING = not bool(os.environ.get("GROQ_API_KEY", ""))
UPLOADS_DIR = Path("uploads")
PDF_UPLOADS_DIR = Path("uploads") / "pdfs"
OUTPUTS_DIR = Path(__file__).resolve().parent / "outputs"

# ---------------------------------------------------------------------------
# Custom CSS — SaaS dashboard aesthetic
# ---------------------------------------------------------------------------
CUSTOM_CSS = """
/* Fonts */
@import url('https://fonts.googleapis.com/css2?family=DM+Sans:ital,opsz,wght@0,9..40,300;0,9..40,400;0,9..40,500;0,9..40,600;0,9..40,700;1,9..40,400&family=DM+Mono:wght@400;500&display=swap');

/* Tokens */
:root {
    --bg-base:          #0f1117;
    --bg-surface:       #181c27;
    --bg-elevated:      #1f2437;
    --bg-hover:         #252b3d;
    --border:           #2a3048;
    --border-active:    #4f6ef7;
    --text-primary:     #e8eaf0;
    --text-secondary:   #8b92a8;
    --text-muted:       #555f7a;
    --accent:           #4f6ef7;
    --accent-soft:      rgba(79,110,247,0.15);
    --accent-glow:      rgba(79,110,247,0.35);
    --success:          #34d399;
    --success-soft:     rgba(52,211,153,0.15);
    --warning:          #fbbf24;
    --warning-soft:     rgba(251,191,36,0.15);
    --danger:           #f87171;
    --radius-sm:        8px;
    --radius-md:        14px;
    --radius-lg:        20px;
    --shadow-card:      0 4px 24px rgba(0,0,0,0.45), 0 1px 3px rgba(0,0,0,0.3);
    --shadow-button:    0 2px 12px rgba(79,110,247,0.4);
    --font-ui:          'DM Sans', system-ui, sans-serif;
    --font-mono:        'DM Mono', 'Fira Code', monospace;
    --transition:       0.2s cubic-bezier(0.4, 0, 0.2, 1);
}

body, .gradio-container {
    background: var(--bg-base) !important;
    color: var(--text-primary) !important;
    font-family: var(--font-ui) !important;
}
.gradio-container { max-width: 1600px !important; padding: 0 !important; }

/* Header */
#app-header {
    background: linear-gradient(135deg, #0f1117 0%, #181c27 50%, #1a1f32 100%);
    border-bottom: 1px solid var(--border);
    padding: 24px 36px 20px;
    position: relative;
    overflow: hidden;
}
#app-header::before {
    content: '';
    position: absolute;
    top: -60px; right: -60px;
    width: 240px; height: 240px;
    background: radial-gradient(circle, rgba(79,110,247,0.18) 0%, transparent 70%);
    pointer-events: none;
}
#app-header .header-title {
    font-size: 1.7rem; font-weight: 700; letter-spacing: -0.03em;
    color: var(--text-primary); margin: 0 0 4px;
}
#app-header .header-subtitle {
    font-size: 0.875rem; color: var(--text-secondary); margin: 0;
}
#app-header .header-badge {
    display: inline-flex; align-items: center; gap: 6px;
    background: var(--accent-soft); border: 1px solid var(--accent);
    border-radius: 100px; padding: 3px 12px; font-size: 0.75rem;
    font-weight: 600; color: var(--accent); margin-left: 12px; vertical-align: middle;
}

/* API key warning banner */
.api-warning {
    background: var(--warning-soft);
    border: 1px solid var(--warning);
    border-radius: var(--radius-sm);
    padding: 10px 16px;
    font-size: 0.83rem;
    font-weight: 500;
    color: var(--warning);
    margin: 12px 28px 0;
}

/* Phase progress bar */
.phase-bar-wrap {
    display: flex; align-items: center; gap: 0;
    margin-top: 20px; position: relative;
}
.phase-bar-wrap::before {
    content: '';
    position: absolute;
    left: 20px; right: 20px; top: 50%;
    height: 2px; background: var(--border);
    transform: translateY(-50%); z-index: 0;
}
.phase-item {
    display: flex; flex-direction: column;
    align-items: center; flex: 1; position: relative; z-index: 1;
}
.phase-dot {
    width: 32px; height: 32px; border-radius: 50%;
    display: flex; align-items: center; justify-content: center;
    font-size: 0.8rem; font-weight: 700;
    border: 2px solid var(--border); background: var(--bg-base);
    transition: all var(--transition);
}
.phase-dot.done   { background: var(--success-soft); border-color: var(--success); color: var(--success); }
.phase-dot.active { background: var(--accent-soft); border-color: var(--accent); color: var(--accent);
                    box-shadow: 0 0 14px var(--accent-glow); }
.phase-dot.pending { color: var(--text-muted); }
.phase-label {
    font-size: 0.65rem; font-weight: 500; color: var(--text-muted);
    margin-top: 6px; text-align: center; letter-spacing: 0.02em; white-space: nowrap;
}
.phase-label.active { color: var(--accent); }
.phase-label.done   { color: var(--success); }

/* Main body */
#main-body {
    padding: 22px 28px 32px;
    gap: 16px !important;
    max-width: 1160px;
    margin: 0 auto;
    width: 100%;
}

.panel-card {
    background:
        radial-gradient(1200px 260px at 100% -15%, rgba(79,110,247,0.12), transparent 52%),
        linear-gradient(180deg, rgba(31,36,55,0.9) 0%, rgba(24,28,39,0.95) 100%);
    border: 1px solid var(--border);
    border-radius: var(--radius-lg);
    box-shadow: var(--shadow-card);
    padding: 18px 18px 16px;
    position: relative;
    overflow: hidden;
    margin-bottom: 2px;
}

.panel-card:last-child { margin-bottom: 0; }

.panel-card::after {
    content: '';
    position: absolute;
    inset: 0;
    background: linear-gradient(120deg, rgba(255,255,255,0.02), transparent 25%, transparent 75%, rgba(255,255,255,0.02));
    pointer-events: none;
}

.panel-data { margin-bottom: 2px; }
.panel-chat { margin-bottom: 2px; }

/* Card titles */
.card-title {
    font-size: 0.74rem; font-weight: 700; letter-spacing: 0.1em;
    text-transform: uppercase; color: var(--text-muted);
    margin: 0 0 16px; display: flex; align-items: center; gap: 10px;
    border-bottom: 1px solid var(--border);
    padding-bottom: 12px;
}
.card-title::before {
    content: '';
    width: 8px;
    height: 8px;
    border-radius: 50%;
    background: var(--accent);
    box-shadow: 0 0 10px var(--accent-glow);
}
.card-title span { font-size: 1.02rem; color: var(--text-primary); letter-spacing: 0.01em; }

/* Stats */
.stats-grid {
    display: grid; grid-template-columns: 1fr 1fr; gap: 10px; margin-top: 12px;
}
.stat-card {
    background: var(--bg-elevated); border: 1px solid var(--border);
    border-radius: var(--radius-sm); padding: 12px 14px;
}
.stat-value { font-size: 1.4rem; font-weight: 700; color: var(--text-primary); line-height: 1; }
.stat-label { font-size: 0.72rem; color: var(--text-muted); margin-top: 4px; text-transform: uppercase; letter-spacing: 0.05em; }
.stat-card.accent .stat-value { color: var(--accent); }
.stat-card.success .stat-value { color: var(--success); }

/* Status pill */
.status-pill {
    display: inline-flex; align-items: center; gap: 6px;
    padding: 5px 12px; border-radius: 100px; font-size: 0.78rem; font-weight: 600; margin-top: 12px;
}
.status-pill.idle    { background: rgba(139,146,168,0.12); color: var(--text-secondary); }
.status-pill.ready   { background: var(--success-soft); color: var(--success); }
.status-pill.working { background: var(--accent-soft); color: var(--accent); }
.status-pill .dot { width: 7px; height: 7px; border-radius: 50%; background: currentColor; }
.status-pill.working .dot { animation: pulse-dot 1.2s ease-in-out infinite; }
@keyframes pulse-dot {
    0%, 100% { opacity: 1; transform: scale(1); }
    50%       { opacity: 0.4; transform: scale(0.7); }
}

/* Chatbot */
#chatbot-container .chatbot {
    background: var(--bg-elevated) !important;
    border: 1px solid var(--border) !important;
    border-radius: var(--radius-md) !important;
}
.message.user {
    background: var(--accent-soft) !important;
    border: 1px solid rgba(79,110,247,0.2) !important;
    border-radius: 14px 14px 4px 14px !important;
    color: var(--text-primary) !important;
    font-size: 0.875rem !important;
}
.message.bot {
    background: var(--bg-elevated) !important;
    border: 1px solid var(--border) !important;
    border-radius: 14px 14px 14px 4px !important;
    color: var(--text-primary) !important;
    font-size: 0.875rem !important;
}

/* Chat input */
#chat-input-row { display: flex; gap: 10px; margin-top: 12px; align-items: flex-end; }
#chat-input-row textarea {
    background: var(--bg-elevated) !important; border: 1px solid var(--border) !important;
    border-radius: var(--radius-md) !important; color: var(--text-primary) !important;
    font-family: var(--font-ui) !important; font-size: 0.875rem !important;
    resize: none !important; transition: border-color var(--transition) !important;
}
#chat-input-row textarea:focus {
    border-color: var(--accent) !important;
    box-shadow: 0 0 0 3px var(--accent-soft) !important;
}

/* Buttons */
.btn-primary {
    background: var(--accent) !important; border: none !important;
    border-radius: var(--radius-sm) !important; color: #fff !important;
    font-family: var(--font-ui) !important; font-weight: 600 !important;
    font-size: 0.875rem !important; padding: 10px 20px !important;
    cursor: pointer !important; box-shadow: var(--shadow-button) !important;
    transition: all var(--transition) !important; white-space: nowrap;
}
.btn-primary:hover {
    background: #3d5de6 !important;
    box-shadow: 0 4px 20px rgba(79,110,247,0.55) !important;
    transform: translateY(-1px) !important;
}
.btn-primary:disabled { opacity: 0.45 !important; cursor: not-allowed !important; transform: none !important; }

.btn-secondary {
    background: var(--bg-elevated) !important; border: 1px solid var(--border) !important;
    border-radius: var(--radius-sm) !important; color: var(--text-secondary) !important;
    font-family: var(--font-ui) !important; font-weight: 500 !important;
    font-size: 0.875rem !important; padding: 10px 18px !important;
    cursor: pointer !important; transition: all var(--transition) !important;
}
.btn-secondary:hover {
    background: var(--bg-hover) !important; border-color: var(--accent) !important;
    color: var(--text-primary) !important;
}

.btn-success {
    background: rgba(52,211,153,0.15) !important; border: 1px solid var(--success) !important;
    border-radius: var(--radius-sm) !important; color: var(--success) !important;
    font-family: var(--font-ui) !important; font-weight: 600 !important;
    font-size: 0.875rem !important; padding: 10px 20px !important;
    cursor: pointer !important; transition: all var(--transition) !important;
}
.btn-success:hover { background: rgba(52,211,153,0.25) !important; box-shadow: 0 2px 14px rgba(52,211,153,0.3) !important; }

/* Tabs */
.tabs > .tab-nav {
    background: var(--bg-elevated) !important; border-bottom: 1px solid var(--border) !important;
    border-radius: var(--radius-md) var(--radius-md) 0 0 !important;
    padding: 6px 6px 0 !important; gap: 4px !important;
}
.tabs > .tab-nav button {
    background: transparent !important; border: none !important;
    color: var(--text-muted) !important; font-family: var(--font-ui) !important;
    font-size: 0.8rem !important; font-weight: 600 !important;
    letter-spacing: 0.04em !important; padding: 8px 16px !important;
    border-radius: var(--radius-sm) var(--radius-sm) 0 0 !important;
    transition: all var(--transition) !important; cursor: pointer !important;
}
.tabs > .tab-nav button:hover { color: var(--text-primary) !important; background: var(--bg-hover) !important; }
.tabs > .tab-nav button.selected {
    color: var(--accent) !important; background: var(--accent-soft) !important;
    box-shadow: inset 0 -2px 0 var(--accent) !important;
}
.tabitem {
    background: var(--bg-elevated) !important; border: 1px solid var(--border) !important;
    border-top: none !important; border-radius: 0 0 var(--radius-md) var(--radius-md) !important;
    padding: 16px !important;
}

/* Dataframe */
.dataframe-wrap {
    overflow-x: auto !important;
}
.dataframe-wrap table {
    font-family: var(--font-mono) !important;
    font-size: 0.78rem !important;
    border-collapse: collapse !important;
    width: max-content !important;
    min-width: 100% !important;
    table-layout: auto !important;
}
.dataframe-wrap th {
    background: var(--bg-elevated) !important; color: var(--text-muted) !important;
    font-family: var(--font-ui) !important; font-size: 0.72rem !important;
    font-weight: 600 !important; letter-spacing: 0.06em !important;
    text-transform: uppercase !important; padding: 10px 12px !important;
    border-bottom: 1px solid var(--border) !important;
    min-width: 120px !important;
}
.dataframe-wrap td {
    background: var(--bg-surface) !important; color: var(--text-primary) !important;
    padding: 9px 12px !important; border-bottom: 1px solid var(--border) !important;
    line-height: 1.35 !important;
    vertical-align: top !important;
    min-width: 120px !important;
}
.dataframe-wrap th,
.dataframe-wrap td {
    white-space: nowrap !important;
}
.dataframe-wrap td > div,
.dataframe-wrap td > span,
.dataframe-wrap td > p {
    display: block !important;
    max-width: none !important;
    white-space: nowrap !important;
    overflow: visible !important;
    text-overflow: clip !important;
    cursor: pointer !important;
}
.dataframe-wrap td:focus-within > div,
.dataframe-wrap td:focus-within > span,
.dataframe-wrap td:focus-within > p {
    white-space: nowrap !important;
    overflow: hidden !important;
    text-overflow: ellipsis !important;
}
.dataframe-wrap textarea,
.dataframe-wrap input[type="text"] {
    white-space: nowrap !important;
    overflow-wrap: normal !important;
    word-break: normal !important;
    overflow-x: auto !important;
    width: 100% !important;
    min-width: 160px !important;
    box-sizing: border-box !important;
}
.dataframe-wrap textarea {
    min-height: 38px !important;
    height: 38px !important;
    max-height: 38px !important;
    overflow-y: hidden !important;
    resize: none !important;
}
.dataframe-wrap tr:hover td { background: var(--bg-hover) !important; }
.dataframe-wrap input[type="checkbox"] {
    appearance: auto !important;
    accent-color: var(--accent) !important;
    cursor: pointer !important;
    width: 16px;
    height: 16px;
}

/* Chart frame */
.chart-frame {
    width: 100%; min-height: 420px; border: 1px solid var(--border);
    border-radius: var(--radius-md); background: var(--bg-elevated); overflow: hidden;
}

/* Vertical card spacing on small screens */
@media (max-width: 900px) {
    #main-body {
        padding: 14px 12px 20px;
        gap: 12px !important;
    }
    .panel-card {
        padding: 14px 12px;
        border-radius: var(--radius-md);
    }
    .chart-frame { min-height: 320px; }
}

/* Download list */
.file-list-item {
    display: flex; align-items: center; gap: 10px;
    background: var(--bg-elevated); border: 1px solid var(--border);
    border-radius: var(--radius-sm); padding: 10px 14px; margin-bottom: 8px;
    transition: all var(--transition);
}
.file-list-item:hover { border-color: var(--accent); background: var(--bg-hover); }
.file-icon { font-size: 1.1rem; }
.file-name { font-size: 0.83rem; color: var(--text-primary); flex: 1; font-family: var(--font-mono); }
.file-size { font-size: 0.72rem; color: var(--text-muted); }

/* Misc Gradio overrides */
label, .label-wrap { color: var(--text-secondary) !important; font-family: var(--font-ui) !important; font-size: 0.8rem !important; }
input:not([type="checkbox"]), textarea { background: var(--bg-elevated) !important; color: var(--text-primary) !important; border-color: var(--border) !important; }
.gr-form:not(.panel-card), .gr-box:not(.panel-card) { background: transparent !important; border: none !important; }
footer { display: none !important; }
select { background: var(--bg-elevated) !important; border: 1px solid var(--border) !important; border-radius: var(--radius-sm) !important; color: var(--text-primary) !important; font-family: var(--font-ui) !important; font-size: 0.875rem !important; padding: 8px 12px !important; }

/* Animations */
.fade-in { animation: fadeIn 0.35s ease-out both; }
@keyframes fadeIn { from { opacity: 0; transform: translateY(8px); } to { opacity: 1; transform: none; } }

/* Scrollbar */
::-webkit-scrollbar       { width: 6px; height: 6px; }
::-webkit-scrollbar-track { background: var(--bg-base); }
::-webkit-scrollbar-thumb { background: #2d3550; border-radius: 3px; }
::-webkit-scrollbar-thumb:hover { background: #3d4770; }
"""

# ---------------------------------------------------------------------------
# Helper — build phase-progress HTML
# FIX ISSUE 2 — phase index maps correctly to 7-item PHASES list
# ---------------------------------------------------------------------------
def build_phase_html(current_phase: int) -> str:
    """
    Render the 7-step phase progress bar.
    current_phase is the agent's phase (1-7); phase 0 = no phase started yet.
    Phase 8 indicates full completion and renders all 7 steps as done.
    """
    items = []
    for i, label in enumerate(PHASES):
        phase_number = i + 1    # phases are 1-indexed
        if phase_number < current_phase:
            dot_cls, lbl_cls, icon = "done",   "done",   "v"
        elif phase_number == current_phase:
            dot_cls, lbl_cls, icon = "active", "active", str(phase_number)
        else:
            dot_cls, lbl_cls, icon = "pending", "",       str(phase_number)

        items.append(f"""
        <div class="phase-item">
            <div class="phase-dot {dot_cls}">{icon}</div>
            <div class="phase-label {lbl_cls}">{label}</div>
        </div>""")

    inner = "\n".join(items)
    return f"""
    <div id="app-header">
        <div style="display:flex;align-items:baseline;gap:4px;">
            <span class="header-title">BERTopic Thematic Analysis Agent</span>
            <span class="header-badge">AI-Powered</span>
        </div>
        <p class="header-subtitle">
            End-to-end topic modelling — upload a Scopus corpus, run the agent, review topics.
        </p>
        <div class="phase-bar-wrap">
            {inner}
        </div>
    </div>"""


# ---------------------------------------------------------------------------
# Helper — dataset stats HTML
# ---------------------------------------------------------------------------
def build_stats_html(rows: int, cols: int, filename: str) -> str:
    return f"""
    <div class="stats-grid fade-in">
        <div class="stat-card accent">
            <div class="stat-value">{rows:,}</div>
            <div class="stat-label">Rows</div>
        </div>
        <div class="stat-card">
            <div class="stat-value">{cols}</div>
            <div class="stat-label">Columns</div>
        </div>
    </div>
    <div class="status-pill ready" style="margin-top:14px;">
        <div class="dot"></div>
        {filename}
    </div>"""


# ---------------------------------------------------------------------------
# Helper — download file-list HTML
# ---------------------------------------------------------------------------
def build_file_list_html(paths: list[str]) -> str:
    if not paths:
        return "<p style='color:var(--text-muted);font-size:0.83rem;padding:8px 0;'>No files generated yet.</p>"
    icons = {".csv": "CSV", ".json": "JSON", ".html": "HTML", ".png": "IMG", ".xlsx": "XLS", ".txt": "TXT"}
    items = []
    for p in paths:
        p    = Path(p)
        ext  = p.suffix.lower()
        icon = icons.get(ext, "FILE")
        size = ""
        if p.exists():
            b    = p.stat().st_size
            size = f"{b/1024:.1f} KB" if b < 1_048_576 else f"{b/1_048_576:.1f} MB"
        items.append(f"""
        <div class="file-list-item fade-in">
            <span class="file-icon" style="font-size:0.7rem;background:var(--accent-soft);color:var(--accent);
                  padding:2px 5px;border-radius:4px;font-family:var(--font-mono);font-weight:600;">{icon}</span>
            <span class="file-name">{p.name}</span>
            <span class="file-size">{size}</span>
        </div>""")
    return "\n".join(items)


# ---------------------------------------------------------------------------
# Helper — cluster stats HTML
# ---------------------------------------------------------------------------
def build_cluster_stats_html(agent_state: dict) -> str:
    run_key = agent_state.get("run_key", "abstract")
    opt_path = OUTPUTS_DIR / run_key / "optimization.json"
    if not opt_path.exists():
        return (
            "<p style='color:var(--text-muted);font-size:0.83rem;padding:6px 0 2px;'>"
            "No clustering stats yet. Run topic discovery to generate optimization stats."
            "</p>"
        )

    try:
        rounds = json.loads(opt_path.read_text(encoding="utf-8"))
    except Exception:
        rounds = []

    if not isinstance(rounds, list) or not rounds:
        return (
            "<p style='color:var(--text-muted);font-size:0.83rem;padding:6px 0 2px;'>"
            "Optimization stats are unavailable or empty."
            "</p>"
        )

    first = rounds[0]
    last = rounds[-1]
    first_clusters = int(first.get("metrics", {}).get("n_clusters", 0))
    last_clusters = int(last.get("metrics", {}).get("n_clusters", 0))

    before_round = first
    after_round = last
    if last_clusters > first_clusters:
        before_round, after_round = last, first

    def _metrics_block(metrics: dict) -> str:
        if not isinstance(metrics, dict):
            return "<div style='color:var(--text-muted);'>No metrics</div>"
        return (
            "<div style='display:grid;gap:4px;font-size:0.78rem;'>"
            f"<div>Clusters: <b>{int(metrics.get('n_clusters', 0))}</b></div>"
            f"<div>Noise ratio: <b>{metrics.get('noise_ratio', 0.0):.2f}</b></div>"
            f"<div>Min/Med/Mean/Max size: <b>{metrics.get('min_size', 0):.0f}</b> / "
            f"<b>{metrics.get('median_size', 0):.0f}</b> / "
            f"<b>{metrics.get('mean_size', 0):.0f}</b> / "
            f"<b>{metrics.get('max_size', 0):.0f}</b></div>"
            "</div>"
        )

    def _params_line(params: dict) -> str:
        if not isinstance(params, dict):
            return ""
        return (
            f"min_cluster_size={params.get('min_cluster_size', '')}, "
            f"max_cluster_size={params.get('max_cluster_size', '')}, "
            f"min_samples={params.get('min_samples', '')}"
        )

    before_label = "Before optimization (more)"
    after_label = "After optimization (less)" if len(rounds) > 1 else "After optimization (no change)"

    return f"""
    <div style='display:grid;gap:10px;'>
        <div style='font-size:0.82rem;color:var(--text-secondary);font-weight:600;'>Cluster stats</div>
        <div style='display:grid;grid-template-columns:1fr 1fr;gap:12px;'>
            <div style='background:var(--bg-elevated);border:1px solid var(--border);border-radius:10px;padding:10px 12px;'>
                <div style='font-size:0.78rem;color:var(--text-secondary);margin-bottom:6px;'>{before_label}</div>
                <div style='font-size:0.74rem;color:var(--text-muted);margin-bottom:6px;'>
                    {_params_line(before_round.get('params', {}))}
                </div>
                {_metrics_block(before_round.get('metrics', {}))}
            </div>
            <div style='background:var(--bg-elevated);border:1px solid var(--border);border-radius:10px;padding:10px 12px;'>
                <div style='font-size:0.78rem;color:var(--text-secondary);margin-bottom:6px;'>{after_label}</div>
                <div style='font-size:0.74rem;color:var(--text-muted);margin-bottom:6px;'>
                    {_params_line(after_round.get('params', {}))}
                </div>
                {_metrics_block(after_round.get('metrics', {}))}
            </div>
        </div>
    </div>"""


# ---------------------------------------------------------------------------
# Helper — cluster info HTML
# ---------------------------------------------------------------------------
def build_cluster_info_html(agent_state: dict) -> str:
    run_key = agent_state.get("run_key", "abstract")
    summaries_path = OUTPUTS_DIR / run_key / "summaries.json"
    labels_path = OUTPUTS_DIR / run_key / "labels.json"

    if not summaries_path.exists():
        return (
            "<p style='color:var(--text-muted);font-size:0.83rem;padding:6px 0 2px;'>"
            "No clusters yet. Run topic discovery to generate cluster summaries."
            "</p>"
        )

    try:
        summaries = json.loads(summaries_path.read_text(encoding="utf-8"))
    except Exception:
        summaries = []

    labels = []
    if labels_path.exists():
        try:
            labels = json.loads(labels_path.read_text(encoding="utf-8"))
        except Exception:
            labels = []

    label_by_id = {
        int(row.get("cluster_id", -1)): (
            row.get("adjudicated_label")
            or row.get("mistral_label")
            or row.get("label")
            or ""
        )
        for row in labels
        if isinstance(row, dict)
    }

    def _escape_html(text: object) -> str:
        return (
            str(text or "")
            .replace("&", "&amp;")
            .replace("<", "&lt;")
            .replace(">", "&gt;")
        )

    def _format_papers(papers: list[dict]) -> str:
        if not papers:
            return ""
        items = []
        for entry in papers[:3]:
            if not isinstance(entry, dict):
                continue
            title = str(entry.get("paper_title") or entry.get("title") or "").strip()
            if not title:
                continue
            count = entry.get("count")
            items.append(
                f"{_escape_html(title)} ({count})" if count else _escape_html(title)
            )
        return "; ".join(items)

    def _cluster_card(summary: dict) -> str:
        cid = int(summary.get("cluster_id", -1))
        label = _escape_html(label_by_id.get(cid, ""))
        size = int(summary.get("size", 0))
        evidence = summary.get("evidence", [])
        top_evidence = _escape_html(evidence[0]) if evidence else ""
        paper_count = summary.get("paper_count", "")
        top_papers = _format_papers(summary.get("top_papers", []))

        if not label:
            return ""

        return (
            "<details style='background:var(--bg-elevated);border:1px solid var(--border);"
            "border-radius:10px;padding:10px 12px;'>"
            f"<summary style='cursor:pointer;font-size:0.84rem;font-weight:600;color:var(--text-primary);'>"
            f"Cluster {cid} — {label or 'Unlabeled'} ({size} sentences)</summary>"
            "<div style='margin-top:8px;font-size:0.78rem;color:var(--text-secondary);display:grid;gap:6px;'>"
            f"<div><b>Top evidence:</b> {top_evidence}</div>"
            f"<div><b>Papers:</b> {paper_count} | {top_papers}</div>"
            "</div>"
            "</details>"
        )

    if not isinstance(summaries, list) or not summaries:
        return (
            "<p style='color:var(--text-muted);font-size:0.83rem;padding:6px 0 2px;'>"
            "Cluster summaries are empty."
            "</p>"
        )

    cards = "\n".join(filter(None, map(_cluster_card, summaries)))
    if not cards:
        return (
            "<p style='color:var(--text-muted);font-size:0.83rem;padding:6px 0 2px;'>"
            "No labeled clusters yet. Run labeling or VERIFY to populate labels."
            "</p>"
        )
    return (
        "<div style='display:grid;gap:10px;'>"
        "<div style='font-size:0.82rem;color:var(--text-secondary);font-weight:600;'>"
        "Cluster details</div>"
        f"{cards}"
        "</div>"
    )


# ---------------------------------------------------------------------------
# Helper — placeholder chart HTML
# ---------------------------------------------------------------------------
def build_placeholder_chart(chart_type: str) -> str:
    colour_map = {
        "Intertopic Map": "#4f6ef7",
        "Top Words":      "#34d399",
        "Hierarchy":      "#fbbf24",
        "Heatmap":        "#f87171",
    }
    col = colour_map.get(chart_type, "#4f6ef7")
    return f"""
    <div class="chart-frame" style="display:flex;align-items:center;justify-content:center;flex-direction:column;gap:10px;">
        <div style="font-size:2rem;color:var(--text-muted);">CHART</div>
        <div style="color:var(--text-secondary);font-size:0.9rem;font-weight:600;">{chart_type}</div>
        <div style="color:var(--text-muted);font-size:0.78rem;">Run the agent to generate this chart.</div>
        <div style="width:180px;height:4px;background:var(--border);border-radius:2px;margin-top:6px;">
            <div style="width:0%;height:4px;background:{col};border-radius:2px;animation:grow 2s ease-in-out infinite alternate;"></div>
        </div>
    </div>
    <style>@keyframes grow {{ from{{width:0%}} to{{width:75%}} }}</style>"""


# ---------------------------------------------------------------------------
# Method Extraction — helper functions
# ---------------------------------------------------------------------------

def build_method_stats_html(result: dict) -> str:
    """Build stats HTML for method extraction results."""
    if not result or result.get("error"):
        return (
            "<p style='color:var(--text-muted);font-size:0.83rem;padding:6px 0;'>"
            "Upload PDFs and click <b>Run Method Extraction</b> to start."
            "</p>"
        )
    n_papers = result.get("n_papers", 0)
    n_extracted = result.get("n_extracted", 0)
    return f"""
    <div class="stats-grid fade-in" style="grid-template-columns:1fr 1fr;">
        <div class="stat-card accent">
            <div class="stat-value">{n_papers}</div>
            <div class="stat-label">PDFs Processed</div>
        </div>
        <div class="stat-card success">
            <div class="stat-value">{n_extracted}</div>
            <div class="stat-label">Methods Identified</div>
        </div>
    </div>
    """


def get_method_results_df() -> pd.DataFrame:
    """Return the method summary dataframe."""
    columns = [
        "Paper ID",
        "Paper Title",
        "Computational Methods",
    ]
    csv_path = OUTPUTS_DIR / "methods" / "method_summary.csv"
    if csv_path.exists():
        try:
            df = pd.read_csv(csv_path)
        except Exception:
            return pd.DataFrame(columns=columns)
        for col in columns:
            if col not in df.columns:
                df[col] = ""
        return df[columns]
    return pd.DataFrame(columns=columns)


def get_method_technique_df() -> pd.DataFrame:
    """Return the technique-to-papers summary dataframe."""
    columns = ["Main Computational Technique", "Algorithms", "Papers"]
    csv_path = OUTPUTS_DIR / "methods" / "technique_to_papers.csv"
    if csv_path.exists():
        try:
            df = pd.read_csv(csv_path)
        except Exception:
            return pd.DataFrame(columns=columns)
        for col in columns:
            if col not in df.columns:
                df[col] = ""
        return df[columns]
    return pd.DataFrame(columns=columns)


def get_method_download_file() -> list[str]:
    """Return downloadable method CSV."""
    technique_path = OUTPUTS_DIR / "methods" / "technique_to_papers.csv"
    if technique_path.exists():
        return [str(technique_path)]
    return None


# ---------------------------------------------------------------------------
# Method Extraction — interaction handlers
# ---------------------------------------------------------------------------

def handle_pdf_upload(file_objs):
    """Copy uploaded PDFs to a stable directory."""
    if not file_objs:
        return (
            "<div class='status-pill idle'><div class='dot'></div>No PDFs uploaded</div>",
            "<p style='color:var(--text-muted);font-size:0.83rem;'>Upload PDF research papers to extract methods.</p>",
        )

    PDF_UPLOADS_DIR.mkdir(parents=True, exist_ok=True)
    # Clear previous uploads
    for old in PDF_UPLOADS_DIR.glob("*.pdf"):
        old.unlink()
    for old in PDF_UPLOADS_DIR.glob("*.PDF"):
        old.unlink()

    count = 0
    for f in file_objs:
        src = Path(f.name) if hasattr(f, 'name') else Path(f)
        if src.suffix.lower() == ".pdf":
            dst = PDF_UPLOADS_DIR / f"{uuid.uuid4().hex[:8]}_{src.name}"
            shutil.copy2(src, dst)
            count += 1

    status = f"<div class='status-pill ready'><div class='dot'></div>{count} PDFs ready</div>"
    stats = f"""
    <div class="stats-grid fade-in">
        <div class="stat-card accent">
            <div class="stat-value">{count}</div>
            <div class="stat-label">PDFs Uploaded</div>
        </div>
    </div>"""
    return status, stats


def run_method_extraction_pipeline():
    """Run the method extraction pipeline."""
    if not METHOD_TOOLS_AVAILABLE:
        return (
            build_method_stats_html({"error": True}),
            "<div class='status-pill idle'><div class='dot'></div>Tools unavailable</div>",
            get_method_technique_df(),
            get_method_download_file(),
        )

    pdf_dir = str(PDF_UPLOADS_DIR.resolve())
    if not PDF_UPLOADS_DIR.exists() or not list(PDF_UPLOADS_DIR.glob("*.pdf")) + list(PDF_UPLOADS_DIR.glob("*.PDF")):
        return (
            "<p style='color:var(--danger);font-size:0.83rem;'>No PDFs found. Upload PDFs first.</p>",
            "<div class='status-pill idle'><div class='dot'></div>No PDFs</div>",
            get_method_technique_df(),
            get_method_download_file(),
        )

    # Step 1: Extract + LLM Processing
    result = extract_methods_from_pdfs.invoke({"pdf_dir": pdf_dir})

    if isinstance(result, dict) and result.get("error"):
        return (
            f"<p style='color:var(--danger);font-size:0.83rem;'>{result['error']}</p>",
            "<div class='status-pill idle'><div class='dot'></div>Extraction failed</div>",
            get_method_technique_df(),
            get_method_download_file(),
        )

    # Build UI outputs
    stats_html = build_method_stats_html(result)
    status_html = "<div class='status-pill ready'><div class='dot'></div>Extraction complete</div>"

    return (
        stats_html,
        status_html,
        get_method_technique_df(),
        get_method_download_file(),
    )


# ---------------------------------------------------------------------------
# Core interaction handlers
# ---------------------------------------------------------------------------

def _persist_upload(file_obj) -> Path:
    """Copy Gradio temp upload to a stable local path and return it."""
    src = Path(file_obj.name)
    UPLOADS_DIR.mkdir(parents=True, exist_ok=True)
    dst = UPLOADS_DIR / f"{uuid.uuid4().hex[:10]}_{src.name}"
    shutil.copy2(src, dst)
    return dst.resolve()

def handle_file_upload(file_obj, agent_state):
    """Parse uploaded CSV, store file_path in state, trigger agent."""
    if file_obj is None:
        return (
            "<p style='color:var(--text-muted);font-size:0.83rem;'>No file selected.</p>",
            "<div class='status-pill idle'><div class='dot'></div>Awaiting upload</div>",
            agent_state,
            build_phase_html(agent_state.get("phase", 0)),
        )

    try:
        persisted = _persist_upload(file_obj)
        df       = pd.read_csv(persisted)
        rows, cols = df.shape
        filename = Path(file_obj.name).name
        stats_html = build_stats_html(rows, cols, filename)
        agent_state["file_path"] = str(persisted)
        agent_state["file_name"] = filename
        agent_state["rows"]      = rows
        agent_state["cols"]      = cols
    except Exception as exc:
        stats_html = f"<p style='color:var(--danger);font-size:0.83rem;'>Upload error: {exc}</p>"

    status_html = "<div class='status-pill ready'><div class='dot'></div>File ready</div>"
    phase_html  = build_phase_html(agent_state.get("phase", 0))
    return stats_html, status_html, agent_state, phase_html


def handle_chat(user_message: str, chat_history: list, agent_state: dict):
    """Stream one user turn through the agent."""
    if not user_message.strip():
        yield chat_history, agent_state, build_phase_html(agent_state.get("phase", 0))
        return

    chat_history = chat_history + [
        {"role": "user", "content": user_message},
        {"role": "assistant", "content": "Thinking..."},
    ]
    yield chat_history, agent_state, build_phase_html(agent_state.get("phase", 0))

    file_path = agent_state.get("file_path")
    if file_path and not Path(file_path).exists():
        chat_history[-1]["content"] = (
            "Uploaded CSV is no longer available on disk. "
            "Please upload the file again and retry."
        )
        yield chat_history, agent_state, build_phase_html(agent_state.get("phase", 0))
        return

    try:
        reply, agent_state = agent.invoke(user_message, agent_state)
    except Exception as exc:
        reply = f"Agent error: `{exc}`"

    chat_history[-1]["content"] = reply
    yield chat_history, agent_state, build_phase_html(agent_state.get("phase", 0))


def auto_trigger_agent(agent_state: dict, chat_history: list):
    """Fire an automatic Phase 1 trigger after file upload."""
    filename = agent_state.get("file_name", "uploaded file")
    rows     = agent_state.get("rows", 0)
    auto_msg = (
        f"A dataset has been uploaded: **{filename}** ({rows:,} rows). "
        "Please start the thematic analysis pipeline."
    )
    results = []
    for state in handle_chat(auto_msg, chat_history, agent_state):
        results = state
    return results   # (chat_history, agent_state, phase_html)


def refresh_review_table(agent_state: dict):
    """Render the review DataFrame from agent_state."""
    raw = agent_state.get("review_df", [])
    if raw:
        try:
            return gr.update(value=pd.DataFrame(raw), interactive=True)
        except Exception:
            pass
    return gr.update(value=EMPTY_REVIEW_DF.copy(), interactive=True)


def submit_review(review_df, agent_state: dict, chat_history: list):
    """
    FIX BUG 3 — write parsed review rows into agent_state["review_df"]
    BEFORE calling the agent, so _parse_review_df() receives the populated list.
    """
    def _next_phase_message(state: dict) -> str:
        gate = state.get("stop_gate")
        if gate == "STOP_GATE_1_AWAIT_REVIEW_TABLE":
            return "Review table submitted. Please proceed to Phase 3 and consolidate themes."
        if gate == "STOP_GATE_2_AWAIT_THEME_MERGE":
            return "Theme merge confirmed. Please proceed to Phase 4 for saturation check."
        if gate == "STOP_GATE_3_AWAIT_SATURATION_SIGNOFF":
            return "Saturation sign-off confirmed. Please proceed to Phase 5 for naming themes."
        if gate == "STOP_GATE_4_AWAIT_TAXONOMY_REVIEW":
            return "Taxonomy review confirmed. Please proceed to Phase 6 to finalize outputs."
        return "Review table submitted. Please proceed to the next phase."

    # Store the review table in state so agent.py can read it
    agent_state["review_df"] = review_df.to_dict(orient="records")
    agent_state["review_submitted"] = True

    # Send a short trigger message — the agent reads state, not the payload
    msg = _next_phase_message(agent_state)
    results = []
    for state in handle_chat(msg, chat_history, agent_state):
        results = state
    new_history, new_state, phase_html = results
    return new_history, new_state, phase_html


def auto_accept_review(agent_state: dict, chat_history: list, enabled: bool):
    """Auto-approve Phase 2 review rows and submit when enabled."""
    if not enabled:
        return chat_history, agent_state, build_phase_html(agent_state.get("phase", 0))

    gate = agent_state.get("stop_gate")
    if gate != "STOP_GATE_1_AWAIT_REVIEW_TABLE":
        return chat_history, agent_state, build_phase_html(agent_state.get("phase", 0))

    if agent_state.get("review_submitted"):
        return chat_history, agent_state, build_phase_html(agent_state.get("phase", 0))

    if agent_state.get("auto_accept_last_gate") == gate:
        return chat_history, agent_state, build_phase_html(agent_state.get("phase", 0))

    rows = agent_state.get("review_df", [])
    if not rows:
        return chat_history, agent_state, build_phase_html(agent_state.get("phase", 0))

    df = pd.DataFrame(rows)
    if "Approve" in df.columns:
        df["Approve"] = True
    if "Rename To" in df.columns and "Topic Label" in df.columns:
        df["Rename To"] = df["Rename To"].fillna("").astype(str)
        df["Rename To"] = df.apply(
            lambda r: r["Rename To"] or r["Topic Label"], axis=1
        )

    new_history, new_state, phase_html = submit_review(df, agent_state, chat_history)
    new_state["auto_accept_last_gate"] = gate
    return new_history, new_state, phase_html


def refresh_downloads(agent_state: dict):
    """Return downloadable artefact paths from agent state."""
    files = agent_state.get("output_files", [])
    html  = build_file_list_html(files)
    valid = [f for f in files if os.path.exists(f)]
    return html, valid if valid else None


def get_chart_html(chart_choice: str, agent_state: dict) -> str:
    """Return chart iframe or placeholder HTML."""
    charts = agent_state.get("charts", {})
    if chart_choice in charts:
        src = charts[chart_choice]
        if os.path.exists(src):
            # Gradio 6 serves local files from /gradio_api/file=..., and
            # paths must be URL-encoded when directories contain spaces.
            normalised = str(Path(src).resolve()).replace("\\", "/")
            encoded = quote(normalised, safe="/:")
            return (
                f'<iframe src="./gradio_api/file={encoded}" '
                'class="chart-frame" frameborder="0"></iframe>'
            )
        return f'<div class="chart-frame fade-in">{src}</div>'
    return build_placeholder_chart(chart_choice)


# ---------------------------------------------------------------------------
# Build UI
# ---------------------------------------------------------------------------

def build_app() -> gr.Blocks:
    with gr.Blocks(
        title="BERTopic Thematic Analysis Agent",
    ) as app:

        # ── Shared state ──────────────────────────────────────────────────
        agent_state  = gr.State({})
        chat_history = gr.State([])

        # ── Header ───────────────────────────────────────────────────────
        phase_bar = gr.HTML(value=build_phase_html(0), elem_id="phase-bar")

        # FIX ISSUE 4 — show warning banner when API key is missing
        if MISTRAL_KEY_MISSING:
            gr.HTML(
                "<div class='api-warning'>"
                "WARNING: MISTRAL_API_KEY is not set. "
                "All LLM calls will fail. "
                "Set it in HuggingFace Spaces: Settings -> Variables and secrets."
                "</div>"
            )

        if GROQ_KEY_MISSING:
            gr.HTML(
                "<div class='api-warning'>"
                "WARNING: GROQ_API_KEY is not set. "
                "VERIFY command will be unavailable for Groq side-by-side checks. "
                "Set it to enable Mistral + Groq-Ollama + Groq-GPT verification in Phase 2 "
                "and Groq verification in Phase 5.5."
                "</div>"
            )

        # ── Main vertical body ────────────────────────────────────────────
        with gr.Column(elem_id="main-body"):

            with gr.Column(elem_classes=["panel-card", "panel-data"]):
                gr.HTML("""<div class="card-title"><span>Data Input</span></div>""")

                file_input = gr.File(
                    label="Upload Corpus (CSV)",
                    file_types=[".csv"],
                    interactive=True,
                    elem_id="csv-upload",
                )

                file_status = gr.HTML(
                    value="<div class='status-pill idle'><div class='dot'></div>Awaiting upload</div>"
                )

                dataset_stats = gr.HTML(
                    value="<p style='color:var(--text-muted);font-size:0.83rem;"
                          "padding:8px 0 0;'>Upload a CSV to see statistics.</p>"
                )

                gr.HTML("<hr style='border:none;border-top:1px solid var(--border);margin:16px 0;'>")
                gr.HTML("""
                <div style='font-size:0.72rem;color:var(--text-muted);line-height:1.7;'>
                    <b style='color:var(--text-secondary);'>Expected columns</b><br>
                    Title, Abstract, Author Keywords, Authors, Year<br><br>
                    <b style='color:var(--text-secondary);'>Quick commands</b><br>
                    <code style='font-family:var(--font-mono);'>run abstract</code><br>
                    <code style='font-family:var(--font-mono);'>run title</code><br>
                    <code style='font-family:var(--font-mono);'>run keywords</code><br>
                    <code style='font-family:var(--font-mono);'>verify</code><br>
                    <code style='font-family:var(--font-mono);'>show topics</code><br>
                    <code style='font-family:var(--font-mono);'>export results</code>
                </div>""")

            with gr.Column(elem_classes=["panel-card", "panel-chat"]):
                gr.HTML("""<div class="card-title"><span>Agent Console</span></div>""")

                chatbot = gr.Chatbot(
                    value=[],
                    height=470,
                    show_label=False,
                    avatar_images=(None, None),
                    elem_id="chatbot-container",
                )

                with gr.Row(elem_id="chat-input-row"):
                    chat_input = gr.Textbox(
                        placeholder='Type a command, e.g. "run abstract" or "run keywords" ...',
                        show_label=False,
                        lines=1,
                        scale=5,
                        container=False,
                    )
                    send_btn = gr.Button(
                        "Send",
                        variant="primary",
                        scale=1,
                        min_width=90,
                        elem_classes=["btn-primary"],
                    )

                with gr.Row():
                    clear_btn = gr.Button(
                        "Clear Chat",
                        variant="secondary",
                        scale=1,
                        elem_classes=["btn-secondary"],
                    )

            with gr.Column(elem_classes=["panel-card", "panel-results"]):
                gr.HTML("""<div class="card-title"><span>Results</span></div>""")

                cluster_stats = gr.HTML(
                    value=build_cluster_stats_html({}),
                )

                with gr.Tabs(elem_classes=["tabs"]):

                    # ── Tab 1: Review Table ─────────────────────────────
                    with gr.TabItem("Review", elem_classes=["tabitem"]):
                        gr.HTML("""
                        <p style='font-size:0.78rem;color:var(--text-muted);margin:0 0 12px;'>
                            Edit <b>Approve</b>, <b>Rename To</b>, and <b>Reasoning</b> columns inline,
                            and use the <b>Papers</b> column to see the top 3 paper titles per cluster.
                            then click <b>Submit Review</b>. Use <b>verify</b> in chat at Phase 2
                            or Phase 5.5 to see Mistral vs Groq comparisons directly in chat output.
                            Phase 2 verification also adds an adjudicated best label.
                            Enable <b>Auto-accept Phase 2 review</b> to skip manual submission.
                        </p>""")

                        review_table = gr.Dataframe(
                            value=EMPTY_REVIEW_DF.copy(),
                            headers=REVIEW_COLUMNS,
                            datatype=[
                                "number", "str", "str", "number", "str",
                                "bool", "str", "str",
                            ],
                            interactive=True,
                            wrap=False,
                            elem_classes=["dataframe-wrap"],
                        )

                        with gr.Row():
                            refresh_table_btn = gr.Button(
                                "Refresh",
                                variant="secondary",
                                scale=1,
                                elem_classes=["btn-secondary"],
                            )
                            submit_review_btn = gr.Button(
                                "Submit Review",
                                variant="primary",
                                scale=2,
                                elem_classes=["btn-success"],
                            )

                        auto_accept_toggle = gr.Checkbox(
                            label="Auto-accept Phase 2 review and continue",
                            value=False,
                        )

                    # ── Tab 2: Charts ───────────────────────────────────
                    with gr.TabItem("Charts", elem_classes=["tabitem"]):
                        chart_selector = gr.Dropdown(
                            choices=CHART_OPTIONS,
                            value=CHART_OPTIONS[0],
                            label="Select chart",
                            interactive=True,
                        )
                        chart_display = gr.HTML(
                            value=build_placeholder_chart(CHART_OPTIONS[0])
                        )

                    # ── Tab 3: Downloads ────────────────────────────────
                    with gr.TabItem("Downloads", elem_classes=["tabitem"]):
                        gr.HTML("""
                        <p style='font-size:0.78rem;color:var(--text-muted);margin:0 0 12px;'>
                            Files generated by the agent will appear here automatically.
                        </p>""")

                        download_file_list_html = gr.HTML(
                            value="<p style='color:var(--text-muted);font-size:0.83rem;'>"
                                  "No files generated yet.</p>"
                        )

                        download_files = gr.File(
                            label="",
                            file_count="multiple",
                            interactive=False,
                        )

                        refresh_dl_btn = gr.Button(
                            "Refresh Downloads",
                            variant="secondary",
                            elem_classes=["btn-secondary"],
                        )

                    # ── Tab 4: Clusters ─────────────────────────────────
                    with gr.TabItem("Clusters", elem_classes=["tabitem"]):
                        cluster_info_html = gr.HTML(
                            value=build_cluster_info_html({}),
                        )

            # ── METHOD EXTRACTION — Standalone panel ──────────────────────
            with gr.Column(elem_classes=["panel-card"]):
                gr.HTML("""
                <div class="card-title">
                    <span>📄 Computational Methodology Extraction</span>
                </div>
                <p style='font-size:0.78rem;color:var(--text-muted);margin:0 0 12px;'>
                    Upload research PDFs to identify the specific computational methods
                    used in each paper (text-only extraction via PyMuPDF + LLM).
                </p>
                """)

                with gr.Row():
                    with gr.Column(scale=1):
                        pdf_upload = gr.File(
                            label="Upload Research PDFs",
                            file_types=[".pdf"],
                            file_count="multiple",
                            interactive=True,
                            elem_id="pdf-upload",
                        )
                    with gr.Column(scale=1):
                        method_status = gr.HTML(
                            value="<div class='status-pill idle'><div class='dot'></div>Awaiting PDF upload</div>"
                        )
                        method_stats = gr.HTML(
                            value="<p style='color:var(--text-muted);font-size:0.83rem;'>"
                                  "Upload PDF research papers to extract methods.</p>"
                        )

                run_methods_btn = gr.Button(
                    "🚀 Extract Computational Methods",
                    variant="primary",
                    elem_classes=["btn-primary"],
                )

                gr.HTML("<hr style='border:none;border-top:1px solid var(--border);margin:12px 0;'>")

                # Results Dataframe
                gr.HTML("""
                <div style='font-size:0.82rem;color:var(--text-secondary);font-weight:600;margin-bottom:8px;'>
                    Computational Techniques → Algorithms → Papers
                </div>""")
                method_technique_df = gr.Dataframe(
                    headers=["Main Computational Technique", "Algorithms", "Papers"],
                    interactive=False,
                    wrap=True,
                )

                gr.HTML("<hr style='border:none;border-top:1px solid var(--border);margin:12px 0;'>")
                
                # CSV Download
                method_dl_files = gr.File(
                    label="Download CSV Report",
                    file_count="multiple",
                    interactive=False,
                )

        # ────────────────────────────────────────────────────────────────
        # Event wiring
        # ────────────────────────────────────────────────────────────────

        def _on_file_upload(file_obj, a_state, c_history):
            stats, status, a_state, phase_html = handle_file_upload(file_obj, a_state)
            if file_obj is not None and "file_path" in a_state:
                c_history, a_state, phase_html = auto_trigger_agent(a_state, c_history)
            return stats, status, a_state, phase_html, c_history

        file_input.change(
            fn=_on_file_upload,
            inputs=[file_input, agent_state, chat_history],
            outputs=[dataset_stats, file_status, agent_state, phase_bar, chatbot],
        )

        def _on_send(msg, c_history, a_state):
            accumulated = []
            for result in handle_chat(msg, c_history, a_state):
                accumulated = result
                yield accumulated[0], accumulated[1], accumulated[2], ""

        send_btn.click(
            fn=_on_send,
            inputs=[chat_input, chatbot, agent_state],
            outputs=[chatbot, agent_state, phase_bar, chat_input],
        )
        chat_input.submit(
            fn=_on_send,
            inputs=[chat_input, chatbot, agent_state],
            outputs=[chatbot, agent_state, phase_bar, chat_input],
        )

        clear_btn.click(
            fn=lambda: ([], {}),
            outputs=[chatbot, agent_state],
        )

        refresh_table_btn.click(
            fn=refresh_review_table,
            inputs=[agent_state],
            outputs=[review_table],
        )

        # FIX BUG 3 — submit_review now writes review_df into state first
        submit_review_btn.click(
            fn=submit_review,
            inputs=[review_table, agent_state, chatbot],
            outputs=[chatbot, agent_state, phase_bar],
        )

        chart_selector.change(
            fn=get_chart_html,
            inputs=[chart_selector, agent_state],
            outputs=[chart_display],
        )

        refresh_dl_btn.click(
            fn=refresh_downloads,
            inputs=[agent_state],
            outputs=[download_file_list_html, download_files],
        )

        # Auto-refresh review table, downloads, and the active chart after every chat turn.
        chatbot.change(
            fn=lambda selected_chart, a: (
                refresh_review_table(a),
                *refresh_downloads(a),
                get_chart_html(selected_chart, a),
                build_cluster_stats_html(a),
                build_cluster_info_html(a),
            ),
            inputs=[chart_selector, agent_state],
            outputs=[
                review_table,
                download_file_list_html,
                download_files,
                chart_display,
                cluster_stats,
                cluster_info_html,
            ],
        )

        # Auto-accept Phase 2 review when enabled.
        chatbot.change(
            fn=auto_accept_review,
            inputs=[agent_state, chatbot, auto_accept_toggle],
            outputs=[chatbot, agent_state, phase_bar],
        )

        # ── Method Extraction event wiring ─────────────────────────────

        pdf_upload.change(
            fn=handle_pdf_upload,
            inputs=[pdf_upload],
            outputs=[method_status, method_stats],
        )

        run_methods_btn.click(
            fn=run_method_extraction_pipeline,
            inputs=[],
            outputs=[
                method_stats,
                method_status,
                method_technique_df,
                method_dl_files,
            ],
        )

    return app


# ---------------------------------------------------------------------------
# Entry point
# ---------------------------------------------------------------------------
if __name__ == "__main__":
    demo = build_app()
    demo.launch(
        server_name="0.0.0.0",
        server_port=7860,
        share=False,
        show_error=True,
        allowed_paths=[str(OUTPUTS_DIR.resolve())],
        css=CUSTOM_CSS,
        theme=gr.themes.Soft(
            primary_hue=gr.themes.colors.indigo,
            secondary_hue=gr.themes.colors.slate,
            neutral_hue=gr.themes.colors.slate,
            font=[gr.themes.GoogleFont("DM Sans"), "system-ui", "sans-serif"],
        ),
    )