BERTopic_AG_final

Sleeping

App Files Files Community

anujjuna commited on 24 days ago

Commit

ee50027

verified ·

1 Parent(s): 0f5b08b

Update app.py

Browse files

Files changed (1) hide show

app.py +117 -449

app.py CHANGED Viewed

@@ -1,456 +1,124 @@
-"""
-app.py
-------
-Streamlit UI — SPECTER-2 + UMAP + HDBSCAN Bayesian Pipeline
-with 2-D UMAP scatter, Pareto front, strong/weak members,
-trial log, and LLM Council Sheets 1-4.
-"""
 import os, json, tempfile
-import pandas as pd
-import numpy as np
-import streamlit as st
 import plotly.express as px
-import plotly.graph_objects as go
-from tools import run_topic_modeling
-from agent import run_agent
-# ── Page ─────────────────────────────────────────────────────────────────────
-st.set_page_config(page_title="SPECTER-2 Topic Analyzer", page_icon="📐",
-                   layout="wide", initial_sidebar_state="expanded")
-# ── CSS ──────────────────────────────────────────────────────────────────────
-st.markdown("""
-<style>
-@import url('https://fonts.googleapis.com/css2?family=IBM+Plex+Mono:wght@400;600&family=IBM+Plex+Sans:wght@300;400;500;600&display=swap');
-html, body, [class*="css"] { font-family:'IBM Plex Sans',sans-serif; }
-.stApp { background:#0d0f14; color:#e8eaf0; }
-[data-testid="stSidebar"] { background:#13161e; border-right:1px solid #1f2333; }
-[data-testid="stSidebar"] * { color:#b0b8cc !important; }
-[data-testid="stSidebar"] h1,[data-testid="stSidebar"] h2,[data-testid="stSidebar"] h3 {
-  color:#e8eaf0!important; font-family:'IBM Plex Mono',monospace!important;
-  font-size:.8rem!important; letter-spacing:.12em!important; text-transform:uppercase!important; }
-.site-header { padding:2.5rem 0 1.5rem; border-bottom:1px solid #1f2333; margin-bottom:2rem; }
-.site-header h1 { font-family:'IBM Plex Mono',monospace; font-size:1.6rem; font-weight:600;
-  color:#e8eaf0; letter-spacing:-.01em; margin:0 0 .3rem; }
-.site-header p { font-size:.82rem; color:#5a6480; font-family:'IBM Plex Mono',monospace; margin:0; }
-.pill { display:inline-block; font-family:'IBM Plex Mono',monospace; font-size:.68rem;
-  font-weight:600; letter-spacing:.08em; text-transform:uppercase; padding:3px 10px;
-  border-radius:2px; margin-right:6px; }
-.pill-blue  { background:#0f2a4a; color:#4d9de0; border:1px solid #1a4070; }
-.pill-green { background:#0a2a1a; color:#3dba7a; border:1px solid #1a4a2a; }
-.pill-amber { background:#2a1f00; color:#e8a020; border:1px solid #4a3500; }
-.pill-red   { background:#2a0f0f; color:#e04d4d; border:1px solid #4a1a1a; }
-.pill-gray  { background:#1a1e2a; color:#7a8090; border:1px solid #2a2e3a; }
-.stat-grid { display:grid; grid-template-columns:repeat(5,1fr); gap:1px;
-  background:#1f2333; border:1px solid #1f2333; border-radius:6px; overflow:hidden; margin-bottom:2rem; }
-.stat-card { background:#13161e; padding:1.25rem 1.5rem; text-align:center; }
-.stat-val { font-family:'IBM Plex Mono',monospace; font-size:1.9rem; font-weight:600;
-  color:#e8eaf0; line-height:1; margin-bottom:.3rem; }
-.stat-label { font-size:.7rem; color:#5a6480; text-transform:uppercase; letter-spacing:.1em;
-  font-family:'IBM Plex Mono',monospace; }
-.section-title { font-family:'IBM Plex Mono',monospace; font-size:.7rem; font-weight:600;
-  letter-spacing:.15em; text-transform:uppercase; color:#5a6480;
-  padding-bottom:.6rem; border-bottom:1px solid #1f2333; margin-bottom:1.2rem; }
-.topic-card { background:#13161e; border:1px solid #1f2333; border-left:3px solid #4d9de0;
-  border-radius:4px; padding:1rem 1.25rem; margin-bottom:.6rem; transition:border-color .15s; }
-.topic-card:hover { border-left-color:#3dba7a; }
-.topic-label { font-size:.92rem; font-weight:500; color:#e8eaf0; margin-bottom:.35rem; }
-.topic-meta { font-family:'IBM Plex Mono',monospace; font-size:.7rem; color:#5a6480; }
-.topic-kw { font-family:'IBM Plex Mono',monospace; font-size:.68rem; color:#3d6480;
-  margin-top:.4rem; line-height:1.5; }
-.val-box { background:#0a2a1a; border:1px solid #1a4a2a; border-radius:6px;
-  padding:1.25rem 1.5rem; margin-bottom:1.5rem; }
-.val-box h4 { font-family:'IBM Plex Mono',monospace; font-size:.72rem; font-weight:600;
-  letter-spacing:.1em; text-transform:uppercase; color:#3dba7a; margin:0 0 .75rem; }
-.val-row { display:flex; justify-content:space-between; align-items:center;
-  padding:.4rem 0; border-bottom:1px solid #1a3a2a; font-size:.8rem; color:#a0b8a8; }
-.val-row:last-child { border-bottom:none; }
-.val-key { color:#5a7a6a; } .val-num { font-family:'IBM Plex Mono',monospace; color:#3dba7a; font-weight:600; }
-.stButton > button { background:#4d9de0!important; color:#0d0f14!important; border:none!important;
-  border-radius:3px!important; font-family:'IBM Plex Mono',monospace!important;
-  font-size:.78rem!important; font-weight:600!important; letter-spacing:.08em!important;
-  text-transform:uppercase!important; padding:.6rem 2rem!important; }
-.stButton > button:hover { background:#3d8ed0!important; }
-.stDownloadButton > button { background:transparent!important; color:#4d9de0!important;
-  border:1px solid #1a4070!important; border-radius:3px!important;
-  font-family:'IBM Plex Mono',monospace!important; font-size:.72rem!important; }
-</style>
-""", unsafe_allow_html=True)
-# ── Header ───────────────────────────────────────────────────────────────────
-st.markdown("""
-<div class="site-header">
-  <h1>SPECTER-2 Topic Analyzer</h1>
-  <p>SPECTER-2 embeddings &nbsp;·&nbsp; Bayesian UMAP+HDBSCAN &nbsp;·&nbsp;
-     3-LLM Council (Groq + Mistral + Gemini)</p>
-</div>
-""", unsafe_allow_html=True)
-# ── Sidebar ──────────────────────────────────────────────────────────────────
-with st.sidebar:
-    st.markdown("### API Keys")
-    groq_key_in    = st.text_input("Groq API Key",    type="password")
-    mistral_key_in = st.text_input("Mistral API Key", type="password")
-    gemini_key_in  = st.text_input("Gemini API Key",  type="password")
-    st.caption("Keys are never stored. Leave blank to use env vars.")
-    st.markdown("---")
-    st.markdown("### Bayesian Optimisation")
-    n_trials = st.slider("Optuna trials", 20, 100, 50,
-                         help="§3.4: 50–100 trials recommended")
-    st.markdown(
-        "<span class='pill pill-blue'>Max mass ≤ 25%</span>"
-        "<span class='pill pill-blue'>Min size ≥ 5</span>",
-        unsafe_allow_html=True)
-    st.markdown("---")
-    st.markdown("### LLM Council")
-    st.markdown("""
-<div style="display:flex;gap:8px;flex-wrap:wrap;margin-bottom:1rem;">
-  <span class="pill pill-blue">Groq / LLaMA-3.1</span>
-  <span class="pill pill-green">Mistral Small</span>
-  <span class="pill pill-amber">Gemini 2.5 Flash</span>
-</div>
-<p style="font-size:.72rem;color:#5a6480;font-family:'IBM Plex Mono',monospace;">
-Sheet 1–3 per LLM · Sheet 4 consolidation<br>
-Triple / Two / Single agreement tags<br>
-Defence prompt for disagreement clusters
-</p>
-""", unsafe_allow_html=True)
-    st.markdown("---")
-    if st.button("Reset Results", use_container_width=True):
-        for k in ["results", "agent_out", "topic_data"]:
-            st.session_state.pop(k, None)
-        st.rerun()
-groq_key    = groq_key_in.strip()    or os.getenv("GROQ_API_KEY")
-mistral_key = mistral_key_in.strip() or os.getenv("MISTRAL_API_KEY")
-gemini_key  = gemini_key_in.strip()  or os.getenv("GEMINI_API_KEY")
-# ── Upload ───────────────────────────────────────────────────────────────────
-st.markdown("<div class='section-title'>Dataset</div>", unsafe_allow_html=True)
-col_up, col_s = st.columns([3, 1])
-with col_up:
-    uploaded = st.file_uploader(
-        "Upload Scopus CSV (must have 'title' + 'abstract')", type=["csv"])
-with col_s:
-    st.markdown("<br>", unsafe_allow_html=True)
-    use_sample = st.checkbox("Use sample dataset (50 papers)")
-if uploaded and not use_sample:
-    dfp = pd.read_csv(uploaded); uploaded.seek(0)
-    c1, c2, c3 = st.columns(3)
-    c1.metric("Papers", len(dfp))
-    c2.metric("Columns", len(dfp.columns))
-    ok = {"title","abstract"}.issubset(set(dfp.columns.str.lower()))
-    c3.metric("Title+Abstract", "✓" if ok else "✗")
-    if not ok:
-        st.error("CSV must have 'title' and 'abstract' columns.")
-# ── Run ──────────────────────────────────────────────────────────────────────
-st.markdown("<br>", unsafe_allow_html=True)
-run_btn = st.button("▶  Run Full Pipeline", type="primary")
-if run_btn:
-    missing = []
-    if not groq_key:    missing.append("Groq")
-    if not mistral_key: missing.append("Mistral")
-    if not gemini_key:  missing.append("Gemini")
-    if missing:
-        st.error(f"Missing key(s): {', '.join(missing)}")
-        st.stop()
-    if not use_sample and not uploaded:
-        st.error("Upload a CSV or enable sample dataset.")
-        st.stop()
-    # Prepare CSV
-    if use_sample:
-        rng = np.random.default_rng(42)
-        pool = [
-            ("Deep Learning for Healthcare Prediction",
-             "We apply LSTM networks to predict patient readmission from EHR data."),
-            ("Process Mining in Enterprise Systems",
-             "Event log analysis using Petri nets for conformance checking in ERP workflows."),
-            ("Recommender Systems Collaborative Filtering",
-             "Matrix factorization techniques applied to e-commerce product recommendation."),
-            ("LLM Applications in Information Systems",
-             "GPT-4 used for automated requirements extraction from stakeholder documents."),
-            ("Blockchain Smart Contract Security",
-             "Formal verification of Solidity smart contracts for financial transaction safety."),
-            ("Federated Learning Privacy Preservation",
-             "Differential privacy mechanisms for distributed model training across hospitals."),
-            ("Cybersecurity Intrusion Detection",
-             "Random forest classifiers for network anomaly detection in enterprise environments."),
-            ("NLP Sentiment Analysis",
-             "BERT fine-tuning for aspect-level sentiment analysis in product reviews."),
-            ("Knowledge Graph Embedding",
-             "TransE and RotatE models for biomedical entity relation prediction."),
-            ("Computer Vision Medical Imaging",
-             "CNN architectures for diabetic retinopathy grading from fundus photographs."),
-        ]
-        rows = [{"title": t, "abstract": a + f" Study {i+1}.",
-                 "doi": f"10.1145/sample.{i+1}"}
-                for i, (t, a) in enumerate(pool * 5)]
-        dfs = pd.DataFrame(rows)
-        tmp = tempfile.NamedTemporaryFile(delete=False, suffix=".csv")
-        dfs.to_csv(tmp.name, index=False); csv_path = tmp.name
-    else:
-        tmp = tempfile.NamedTemporaryFile(delete=False, suffix=".csv")
-        tmp.write(uploaded.read()); tmp.flush(); csv_path = tmp.name
-    # Step 1 — Topic modelling + Bayesian optimisation
-    pbar = st.progress(0, text="Step 1/2 — SPECTER-2 embed + Bayesian UMAP/HDBSCAN…")
-    def _progress(cur, total, entry):
-        pct = int(cur / total * 45)
-        txt = (f"Trial {cur}/{total} — "
-               f"{'PASS' if entry['discipline_pass'] else 'FAIL'} — "
-               f"{entry['n_clusters']} clusters")
-        pbar.progress(min(pct, 49), text=txt)
     try:
-        topic_data = run_topic_modeling(csv_path, n_trials=n_trials,
-                                       progress_callback=_progress)
-        nc = topic_data["discipline"]["n_clusters"]
-        pbar.progress(50, text=f"Step 1 done — {nc} clusters, "
-                      f"{topic_data['n_trials_run']} trials.")
     except Exception as e:
-        st.error(f"Topic modelling failed: {e}")
-        st.stop()
-    # Step 2 — LLM Council
-    pbar.progress(55, text="Step 2/2 — 3-LLM Council labelling…")
-    try:
-        agent_out = run_agent(topic_data, groq_key, mistral_key, gemini_key)
-        pbar.progress(100, text="Pipeline complete.")
-        st.session_state["topic_data"] = topic_data
-        st.session_state["agent_out"]  = agent_out
-        st.success(f"Done — {len(agent_out['interpretations'])} clusters labelled.")
-    except Exception as e:
-        st.error(f"LLM Council failed: {e}")
-        st.stop()
-# ── Results ──────────────────────────────────────────────────────────────────
-td = st.session_state.get("topic_data")
-ao = st.session_state.get("agent_out")
-if td and ao:
-    interps = ao["interpretations"]
-    disc    = td["discipline"]
-    met     = td["metrics"]
-    # ── Summary stats ────────────────────────────────────────────────────
-    st.markdown("<div class='section-title'>Pipeline Summary</div>",
-                unsafe_allow_html=True)
-    n_topics = disc["n_clusters"]
-    strong_total = sum(i.strong_count for i in interps.values())
-    weak_total   = sum(i.weak_count for i in interps.values())
-    total_papers = strong_total + weak_total
-    strong_pct   = round(strong_total / max(total_papers, 1) * 100)
-    st.markdown(f"""
-<div class="stat-grid">
-  <div class="stat-card"><div class="stat-val">{n_topics}</div>
-    <div class="stat-label">Clusters</div></div>
-  <div class="stat-card"><div class="stat-val">{total_papers}</div>
-    <div class="stat-label">Papers assigned</div></div>
-  <div class="stat-card"><div class="stat-val">{strong_pct}%</div>
-    <div class="stat-label">Strong members</div></div>
-  <div class="stat-card"><div class="stat-val">{round(met['persistence'],3)}</div>
-    <div class="stat-label">Persistence</div></div>
-  <div class="stat-card"><div class="stat-val">{round(met['dbcv'],3)}</div>
-    <div class="stat-label">DBCV</div></div>
-</div>
-""", unsafe_allow_html=True)
-    # ── Discipline + metrics panel ───────────────────────────────────────
-    st.markdown("<div class='section-title'>Discipline & Quality</div>",
-                unsafe_allow_html=True)
-    st.markdown(f"""
-<div class="val-box">
-  <h4>§3.2 Hard Constraints + §3.4 Quality Criteria</h4>
-  <div class="val-row"><span class="val-key">Max cluster mass ≤ 25%</span>
-    <span class="val-num">{'✅ PASS' if disc['max_mass_ok'] else '❌ FAIL'}
-    ({round(disc['max_mass_pct']*100,1)}%)</span></div>
-  <div class="val-row"><span class="val-key">Min cluster size ≥ 5</span>
-    <span class="val-num">{'✅ PASS' if disc['min_size_ok'] else '❌ FAIL'}
-    (min={disc['min_size']})</span></div>
-  <div class="val-row"><span class="val-key">HDBSCAN Persistence</span>
-    <span class="val-num">{round(met['persistence'],4)}</span></div>
-  <div class="val-row"><span class="val-key">DBCV</span>
-    <span class="val-num">{round(met['dbcv'],4)}</span></div>
-  <div class="val-row"><span class="val-key">Stability (ARI, 5 seeds)</span>
-    <span class="val-num">{round(met['stability'],4)}</span></div>
-  <div class="val-row"><span class="val-key">Bayesian trials run</span>
-    <span class="val-num">{td['n_trials_run']} (best = #{td['best_trial']})</span></div>
-  <div class="val-row"><span class="val-key">Noise papers (−1)</span>
-    <span class="val-num">{disc['n_noise']}</span></div>
-</div>
-""", unsafe_allow_html=True)
-    # ── Best params ──────────────────────────────────────────────────────
-    with st.expander("Winning UMAP + HDBSCAN parameters", expanded=False):
-        bp = td["best_params"]
-        pdf = pd.DataFrame([
-            {"Parameter": "UMAP.n_neighbors", "Value": bp["n_neighbors"]},
-            {"Parameter": "UMAP.n_components", "Value": bp["n_components"]},
-            {"Parameter": "UMAP.min_dist", "Value": 0.0},
-            {"Parameter": "UMAP.metric", "Value": "cosine"},
-            {"Parameter": "HDBSCAN.min_cluster_size",
-             "Value": bp["min_cluster_size"]},
-            {"Parameter": "HDBSCAN.min_samples", "Value": bp["min_samples"]},
-            {"Parameter": "HDBSCAN.cluster_selection_method",
-             "Value": bp["csm"]},
-            {"Parameter": "HDBSCAN.cluster_selection_epsilon",
-             "Value": bp["cse"]},
-        ])
-        st.dataframe(pdf, use_container_width=True, hide_index=True)
-    # ── 2-D UMAP scatter ────────────────────────────────────────────────
-    st.markdown("<div class='section-title'>2-D UMAP Visualisation</div>",
-                unsafe_allow_html=True)
-    umap2d = np.array(td["umap_2d"])
-    labels_arr = np.array(td["labels"])
-    scatter_df = pd.DataFrame({
-        "UMAP-1": umap2d[:, 0], "UMAP-2": umap2d[:, 1],
-        "Cluster": [str(l) for l in labels_arr],
-        "Doc": [d[:80]+"…" for d in td["documents"]],
-    })
-    fig = px.scatter(scatter_df, x="UMAP-1", y="UMAP-2", color="Cluster",
-                     hover_data=["Doc"], opacity=0.75,
-                     title="SPECTER-2 embeddings (2-D UMAP, min_dist=0.1)")
-    fig.update_layout(
-        template="plotly_dark",
-        paper_bgcolor="#0d0f14", plot_bgcolor="#13161e",
-        font=dict(family="IBM Plex Mono", size=11),
-        height=520,
-    )
-    st.plotly_chart(fig, use_container_width=True)
-    # ── Pareto front ─────────────────────────────────────────────────────
-    with st.expander("Bayesian trial log & Pareto front", expanded=False):
-        tl = td["trial_log"]
-        tl_df = pd.DataFrame(tl)
-        if not tl_df.empty:
-            tl_df["colour"] = tl_df["discipline_pass"].map(
-                {True: "PASS", False: "FAIL"})
-            fig2 = px.scatter(
-                tl_df, x="persistence", y="dbcv", color="colour",
-                hover_data=["trial", "n_clusters", "max_mass_pct"],
-                color_discrete_map={"PASS": "#3dba7a", "FAIL": "#e04d4d"},
-                title="Pareto front — Persistence vs DBCV",
-            )
-            fig2.add_vline(x=0, line_dash="dash", line_color="#5a6480")
-            fig2.update_layout(
-                template="plotly_dark",
-                paper_bgcolor="#0d0f14", plot_bgcolor="#13161e",
-                font=dict(family="IBM Plex Mono", size=11), height=400)
-            st.plotly_chart(fig2, use_container_width=True)
-            st.dataframe(tl_df[["trial", "discipline_pass", "n_clusters",
-                                "persistence", "dbcv", "max_mass_pct",
-                                "min_size", "n_noise"]],
-                         use_container_width=True, height=300)
-    # ── Cluster table (strong / weak) ────────────────────────────────────
-    st.markdown("<div class='section-title'>Cluster Results</div>",
-                unsafe_allow_html=True)
     rows = []
     for cid in sorted(interps.keys()):
-        i = interps[cid]
-        rows.append({
-            "Cluster": cid,
-            "Label": i.final_label,
-            "Agreement": i.agreement,
-            "PAJAIS": i.final_pacis_match,
-            "Strong": i.strong_count,
-            "Weak": i.weak_count,
-            "Total": i.paper_count,
-            "Confidence": round(i.final_confidence, 2),
-            "Grounding": i.grounding_check.get("verdict", "?"),
-            "Keyphrases": ", ".join(i.keyphrases[:5]),
-        })
-    df_res = pd.DataFrame(rows).sort_values("Total", ascending=False
-                                            ).reset_index(drop=True)
-    st.dataframe(df_res, use_container_width=True, height=420)
-    # ── Topic cards ──────────────────────────────────────────────────────
-    with st.expander("Topic cards (detailed)", expanded=False):
-        for _, row in df_res.iterrows():
-            ag_pill = {"Triple": "pill-green", "Two": "pill-blue",
-                       "Single": "pill-amber"}.get(row["Agreement"], "pill-gray")
-            st.markdown(f"""
-<div class="topic-card">
-  <div class="topic-label">{row['Label']}</div>
-  <div class="topic-meta">
-    <span class="pill {ag_pill}">{row['Agreement']}</span>
-    <span class="pill pill-gray">{row['PAJAIS']}</span>
-    <span class="pill pill-blue">{row['Strong']}S / {row['Weak']}W</span>
-    <span class="pill pill-gray">Ground: {row['Grounding']}</span>
-  </div>
-  <div class="topic-kw">{row['Keyphrases']}</div>
-</div>""", unsafe_allow_html=True)
-    # ── LLM Council Sheets ───────────────────────────────────────────────
-    with st.expander("LLM Council — Sheets 1-4", expanded=False):
-        sheet_rows = []
-        for cid in sorted(interps.keys()):
-            i = interps[cid]
-            for sn, sheet in [("Sheet 1 (Groq)", i.sheet1),
-                              ("Sheet 2 (Mistral)", i.sheet2),
-                              ("Sheet 3 (Gemini)", i.sheet3)]:
-                sheet_rows.append({
-                    "Cluster": cid, "Sheet": sn,
-                    "Label": sheet.get("label", "—"),
-                    "PAJAIS": sheet.get("pacis_match", "—"),
-                    "Conf": sheet.get("confidence", "—"),
-                })
-            sheet_rows.append({
-                "Cluster": cid, "Sheet": "Sheet 4 (Final)",
-                "Label": i.final_label,
-                "PAJAIS": i.final_pacis_match,
-                "Conf": i.final_confidence,
-            })
-        st.dataframe(pd.DataFrame(sheet_rows), use_container_width=True,
-                     height=400)
-    # ── Downloads ───────────────────────────────────────────���────────────
-    st.markdown("<div class='section-title'>Downloads</div>",
-                unsafe_allow_html=True)
-    c1, c2, c3, c4 = st.columns(4)
-    with c1:
-        try:
-            with open(ao["json_path"]) as f:
-                st.download_button("⬇ topics.json", f.read(),
-                                   "topics.json", "application/json",
-                                   use_container_width=True)
-        except Exception:
-            st.warning("JSON not found.")
-    with c2:
-        st.download_button("⬇ results.csv",
-                           df_res.to_csv(index=False),
-                           "results.csv", "text/csv",
-                           use_container_width=True)
-    with c3:
-        tl_csv = pd.DataFrame(td["trial_log"]).to_csv(index=False)
-        st.download_button("⬇ trial_log.csv", tl_csv,
-                           "trial_log.csv", "text/csv",
-                           use_container_width=True)
-    with c4:
-        bp_json = json.dumps(td["best_params"], indent=2)
-        st.download_button("⬇ best_params.json", bp_json,
-                           "best_params.json", "application/json",
-                           use_container_width=True)
-elif not td:
-    st.markdown("""
-<div style="text-align:center;padding:4rem 2rem;border:1px dashed #1f2333;border-radius:6px;margin-top:2rem;">
-  <p style="font-family:'IBM Plex Mono',monospace;font-size:.8rem;color:#3a4060;letter-spacing:.1em;">
-    UPLOAD CSV → ENTER API KEYS → RUN PIPELINE
-  </p>
-  <p style="font-size:.75rem;color:#2a3050;margin-top:.5rem;">
-    SPECTER-2 → Bayesian UMAP+HDBSCAN (50–100 trials) → 3-LLM Council
-  </p>
-</div>
-""", unsafe_allow_html=True)

+"""app.py — Gradio UI entry point (<200 lines, §11)."""
 import os, json, tempfile
+import pandas as pd, numpy as np
+import gradio as gr
 import plotly.express as px
+from agent import run_pipeline
+def _run(file, groq_key, mistral_key, gemini_key, n_trials):
+    if not file: return ("Upload a CSV first.",)+(None,)*7
+    gk = groq_key.strip() or os.getenv("GROQ_API_KEY","")
+    mk = mistral_key.strip() or os.getenv("MISTRAL_API_KEY","")
+    gek = gemini_key.strip() or os.getenv("GEMINI_API_KEY","")
+    if not all([gk,mk,gek]):
+        return ("All 3 API keys required.",)+(None,)*7
     try:
+        r = run_pipeline(file.name, gk, mk, gek, int(n_trials))
     except Exception as e:
+        return (f"Pipeline error: {e}",)+(None,)*7
+    if r.get("error"):
+        return (f"Error: {r['error']}",)+(None,)*7
+    td, interps = r["topic_data"], r.get("interpretations",{})
+    disc, met = td["discipline"], td["metrics"]
+    sw_total = sum(v["strong"] for v in interps.values())
+    wk_total = sum(v["weak"] for v in interps.values())
+    ar = r.get("agreement_rates",{})
+    summary = (f"**Clusters:** {disc['n_clusters']} | "
+        f"**Strong:** {sw_total} ({round(sw_total/max(sw_total+wk_total,1)*100)}%) | "
+        f"**Weak:** {wk_total} | **Noise:** {disc['n_noise']}\n\n"
+        f"**Max mass:** {round(disc['max_mass_pct']*100,1)}% "
+        f"({'✅' if disc['max_mass_ok'] else '❌'}) | "
+        f"**Min size:** {disc['min_size']} "
+        f"({'✅' if disc['min_size_ok'] else '❌'})\n\n"
+        f"**Persistence:** {round(met['persistence'],4)} | "
+        f"**DBCV:** {round(met['dbcv'],4)} | "
+        f"**Stability:** {round(met['stability'],4)}\n\n"
+        f"**Trials:** {td['n_trials_run']} (best #{td['best_trial']})\n\n"
+        f"**Agreement:** Triple={ar.get('triple',0)}% "
+        f"Two+={ar.get('two_or_more',0)}% "
+        f"Single={ar.get('single',0)}%")
+    # UMAP scatter
+    u2d = np.array(td["umap_2d"])
+    sdf = pd.DataFrame({"UMAP-1":u2d[:,0],"UMAP-2":u2d[:,1],
+        "Cluster":[str(l) for l in td["labels"]],
+        "Doc":[d[:60] for d in td["documents"]]})
+    fig = px.scatter(sdf, x="UMAP-1", y="UMAP-2", color="Cluster",
+        hover_data=["Doc"], opacity=0.7, title="2-D UMAP (SPECTER-2)")
+    fig.update_layout(template="plotly_dark", height=480,
+        paper_bgcolor="#0d0f14", plot_bgcolor="#13161e")
+    # Trial log
+    tl = pd.DataFrame(td["trial_log"])
+    tl_cols = ["trial","discipline_pass","n_clusters","persistence",
+               "dbcv","max_mass_pct","min_size","n_noise"]
+    tl_show = tl[[c for c in tl_cols if c in tl.columns]] if not tl.empty else pd.DataFrame()
+    # Cluster table with strong/weak/persistence
     rows = []
     for cid in sorted(interps.keys()):
+        v = interps[cid]
+        rows.append({"Cluster":cid,"Label":v["label"],"Agreement":v["agreement"],
+            "Description":v.get("description",""),
+            "PAJAIS":v.get("pacis_match",""),"Strong":v["strong"],"Weak":v["weak"],
+            "Persistence":round(v.get("persistence",0),4),
+            "Keyphrases":", ".join(v.get("keyphrases",[]))})
+    cdf = pd.DataFrame(rows)
+    # TCCM sheets
+    sheets = r.get("sheets",{})
+    s_rows = []
+    for sn, label in [(1,"Groq"),(2,"Mistral"),(3,"Gemini"),(4,"Consolidated")]:
+        for row in sheets.get(sn,[]):
+            s_rows.append({"Sheet":f"{sn}-{label}", **row})
+    sdf2 = pd.DataFrame(s_rows) if s_rows else pd.DataFrame()
+    # Mismatch
+    mt = r.get("mismatch_table",[])
+    mdf = pd.DataFrame(mt) if mt else pd.DataFrame()
+    # Downloads
+    jp = r.get("json_path","topics.json")
+    cp = r.get("csv_path","topics.csv")
+    return summary, fig, tl_show, cdf, sdf2, mdf, jp, cp
+css = """
+.gradio-container{background:#0d0f14!important;color:#e8eaf0!important}
+.gr-button-primary{background:#4d9de0!important}
+footer{display:none!important}
+"""
+with gr.Blocks(theme=gr.themes.Base(primary_hue="blue",
+    neutral_hue="slate"), css=css, title="SPECTER-2 Topic Analyzer") as demo:
+    gr.Markdown("# 📐 SPECTER-2 Topic Analyzer\n"
+        "SPECTER-2 → Bayesian UMAP+HDBSCAN → 3-LLM Council")
+    with gr.Row():
+        with gr.Column(scale=1):
+            file_in = gr.File(label="Upload Scopus CSV", file_types=[".csv"])
+            groq_in = gr.Textbox(label="Groq API Key", type="password")
+            mistral_in = gr.Textbox(label="Mistral API Key", type="password")
+            gemini_in = gr.Textbox(label="Gemini API Key", type="password")
+            trials_in = gr.Slider(10,100,50,step=5,label="Optuna Trials (§3.4)")
+            run_btn = gr.Button("▶ Run Full Pipeline", variant="primary")
+            gr.Markdown("**Hard rules:** max mass ≤25%, min size ≥5\n\n"
+                "**LLM Council:** Groq · Mistral · Gemini\n\n"
+                "**4 Sheets:** 3 independent LLMs + 1 consolidated")
+        with gr.Column(scale=3):
+            with gr.Tabs():
+                with gr.Tab("Summary"):
+                    summary_out = gr.Markdown()
+                with gr.Tab("2-D UMAP"):
+                    scatter_out = gr.Plot()
+                with gr.Tab("Trial Log"):
+                    trial_out = gr.Dataframe(label="Bayesian Trials (≥50)")
+                with gr.Tab("Clusters"):
+                    cluster_out = gr.Dataframe(
+                        label="Strong/Weak + Persistence per cluster")
+                with gr.Tab("LLM Sheets 1-4"):
+                    sheet_out = gr.Dataframe(label="4 Sheets: 3 LLMs + Consolidated")
+                with gr.Tab("RQ Mismatch"):
+                    mismatch_out = gr.Dataframe(label="RQ2/RQ3 Mismatch Table")
+                with gr.Tab("Downloads"):
+                    json_out = gr.File(label="topics.json")
+                    csv_out = gr.File(label="topics.csv")
+    run_btn.click(_run,
+        inputs=[file_in, groq_in, mistral_in, gemini_in, trials_in],
+        outputs=[summary_out, scatter_out, trial_out, cluster_out,
+                 sheet_out, mismatch_out, json_out, csv_out])
+if __name__ == "__main__":
+    demo.launch(server_name="0.0.0.0", server_port=7860)