Spaces:

Daniel0315
/

cithub_website

Running

App Files Files Community

Daniel0315 commited on Mar 19

Commit

41e4f48

verified ·

1 Parent(s): 48b93fd

Upload app.py

Browse files

Files changed (1) hide show

src/app.py +438 -314

src/app.py CHANGED Viewed

@@ -2,17 +2,15 @@ from __future__ import annotations
 import os
 from pathlib import Path
-from typing import Dict, List, Tuple
 import pandas as pd
 import streamlit as st
 import plotly.express as px
-import networkx as nx
 from pyvis.network import Network
 import streamlit.components.v1 as components
-# Hugging Face: Space 배포 시. Space Secrets에 HF_TOKEN, HF_REPO_ID 설정 (env로 주입됨)
-# HF_REPO_ID 예: "username/citationhub-data" (Dataset repo 이름)
 HF_REPO_ID = os.environ.get("HF_REPO_ID", "")
 HF_TOKEN = os.environ.get("HF_TOKEN", "")
@@ -23,44 +21,27 @@ st.set_page_config(
 )
 ALLOWED_INTENTS = [
-    "background",
-    "uses",
-    "similarities",
-    "motivation",
-    "differences",
-    "future_work",
-    "extends",
 ]
 INTENT_COLORS = {
-    "background": "#94a3b8",
-    "uses": "#22c55e",
-    "similarities": "#3b82f6",
-    "motivation": "#f59e0b",
-    "differences": "#ef4444",
-    "future_work": "#8b5cf6",
-    "extends": "#06b6d4",
 }
 NODE_COLORS = {
-    "seed_paper": "#111827",
-    "citing_paper": "#dbeafe",
-    "citation_event": "#fde68a",
-    "journal": "#ede9fe",
-    "author": "#fee2e2",
-    "affiliation": "#fae8ff",
-    "city": "#cffafe",
-    "country": "#ffedd5",
-    "field": "#e0e7ff",
-    "intent": "#dcfce7",
 }
-DEFAULT_DATA_DIR = Path(
-    os.environ.get(
-        "CITATIONHUB_DATA_DIR",
-        r"C:\Users\user\OneDrive\바탕 화면\citationhub_v1_ontology_ready",
-    )
-)
 def fmt_num(x):
     try:
@@ -68,134 +49,171 @@ def fmt_num(x):
     except Exception:
         return "-"
-def _load_from_hf():
-    """Hugging Face Dataset에서 Parquet 다운로드 후 로드 (Space 배포용)"""
-    try:
-        from huggingface_hub import hf_hub_download
-    except ImportError:
-        raise ImportError("huggingface_hub가 필요합니다. pip install huggingface_hub")
-    if not HF_REPO_ID:
-        raise ValueError("HF_REPO_ID가 설정되지 않았습니다. (예: username/citationhub-data)")
-    token = HF_TOKEN or None  # None이면 public repo, 있으면 private 인증
-    seed_path = hf_hub_download(repo_id=HF_REPO_ID, repo_type="dataset", filename="data/seed_cited_papers_normalized.parquet", token=token)
-    events_path = hf_hub_download(repo_id=HF_REPO_ID, repo_type="dataset", filename="data/citation_events_normalized.parquet", token=token)
-    citing_path = hf_hub_download(repo_id=HF_REPO_ID, repo_type="dataset", filename="data/citing_papers_normalized.parquet", token=token)
-    return pd.read_parquet(seed_path), pd.read_parquet(events_path), pd.read_parquet(citing_path)
-@st.cache_data(show_spinner=False)
-def load_data(data_dir_str: str):
-    # Hugging Face 모드: HF_REPO_ID가 설정되어 있으면 Dataset에서 로드
     if HF_REPO_ID:
-        seed_df, events_df, citing_df = _load_from_hf()
-    else:
-        data_dir = Path(data_dir_str)
-        seed_path = data_dir / "seed_cited_papers_normalized.parquet"
-        events_path = data_dir / "citation_events_normalized.parquet"
-        citing_path = data_dir / "citing_papers_normalized.parquet"
-        missing = [str(p) for p in [seed_path, events_path, citing_path] if not p.exists()]
-        if missing:
-            raise FileNotFoundError(f"Missing parquet files: {missing}")
-        seed_df = pd.read_parquet(seed_path)
-        events_df = pd.read_parquet(events_path)
-        citing_df = pd.read_parquet(citing_path)
     seed = pd.DataFrame({
-        "seed_paper_id": seed_df["seed_paper_id"],
-        "doi": seed_df.get("doi", "").fillna(""),
-        "title": seed_df.get("title", "").fillna(""),
-        "journal": seed_df.get("publication_name", "").fillna(""),
-        "author": seed_df.get("creator", "").fillna(""),
-        "affiliation": seed_df.get("affilname", "").fillna(""),
-        "city": seed_df.get("affiliation_city", "").fillna(""),
-        "country": seed_df.get("affiliation_country", "").fillna(""),
-        "field": seed_df.get("group", "").fillna(""),
-        "citedby_count": pd.to_numeric(seed_df.get("citedby_count"), errors="coerce").fillna(0).astype(int),
     })
     for col in ["title", "doi", "journal", "field", "country"]:
         seed[f"{col}_lc"] = seed[col].astype(str).str.lower()
     seed = seed.sort_values(["citedby_count", "title"], ascending=[False, True]).reset_index(drop=True)
     events = pd.DataFrame({
         "citation_event_id": events_df["citation_event_id"],
-        "seed_paper_id": events_df["cited_seed_paper_id"],
-        "citing_paper_id": events_df["citing_paper_id"],
-        "citing_title": events_df.get("citing_title", "").fillna(""),
-        "citing_doi": events_df.get("citing_doi", "").fillna(""),
-        "citing_year": pd.to_numeric(events_df.get("citing_year"), errors="coerce"),
-        "primary_intent": events_df.get("primary_intent", "").fillna(""),
-        "contexts": events_df.get("contexts"),
-        "context_count": pd.to_numeric(events_df.get("context_count"), errors="coerce").fillna(0).astype(int),
-        "intent_count": pd.to_numeric(events_df.get("intent_count"), errors="coerce").fillna(0).astype(int),
     })
     events = events[events["primary_intent"].isin(ALLOWED_INTENTS)].reset_index(drop=True)
     citing = pd.DataFrame({
         "citing_paper_id": citing_df["citing_paper_id"],
-        "doi": citing_df.get("doi", "").fillna(""),
-        "title": citing_df.get("title", "").fillna(""),
-        "year": pd.to_numeric(citing_df.get("year"), errors="coerce"),
-        "venue": citing_df.get("venue", "").fillna(""),
-        "oa_pdf": citing_df.get("oa_pdf", "").fillna(""),
     })
     filters = {
-        "fields": sorted([x for x in seed["field"].dropna().astype(str).unique().tolist() if x]),
-        "countries": sorted([x for x in seed["country"].dropna().astype(str).unique().tolist() if x]),
-        "journals": sorted([x for x in seed["journal"].dropna().astype(str).unique().tolist() if x]),
-        "intents": ALLOWED_INTENTS,
-        "year_min": int(events["citing_year"].dropna().min()) if events["citing_year"].notna().any() else 2000,
-        "year_max": int(events["citing_year"].dropna().max()) if events["citing_year"].notna().any() else 2025,
     }
     overview = {
-        "seed_papers": int(len(seed)),
-        "citation_events": int(len(events)),
-        "citing_papers": int(events["citing_paper_id"].nunique()),
-        "journals": int(seed["journal"].replace("", pd.NA).dropna().nunique()),
-        "countries": int(seed["country"].replace("", pd.NA).dropna().nunique()),
-        "fields": int(seed["field"].replace("", pd.NA).dropna().nunique()),
-        "intents": len(ALLOWED_INTENTS),
     }
-    return seed, events, citing, filters, overview
-def filter_seed_papers(seed: pd.DataFrame, q: str, fields: List[str], countries: List[str], journals: List[str]):
     df = seed.copy()
     q = (q or "").strip().lower()
     if q:
         df = df[df["title_lc"].str.contains(q, na=False) | df["doi_lc"].str.contains(q, na=False)]
     if fields:
-        wanted = {x.lower() for x in fields}
-        df = df[df["field"].str.lower().isin(wanted)]
     if countries:
-        wanted = {x.lower() for x in countries}
-        df = df[df["country"].str.lower().isin(wanted)]
     if journals:
-        wanted = {x.lower() for x in journals}
-        df = df[df["journal"].str.lower().isin(wanted)]
     return df.reset_index(drop=True)
-def event_subset(events: pd.DataFrame, seed_paper_id: str, year_min: int, year_max: int):
     df = events[events["seed_paper_id"] == seed_paper_id].copy()
     df = df[df["citing_year"].fillna(-99999) >= year_min]
     df = df[df["citing_year"].fillna(99999) <= year_max]
     return df.reset_index(drop=True)
-def build_intent_summary(df: pd.DataFrame):
     counts = df.groupby("primary_intent").size().to_dict()
     return pd.DataFrame({
         "intent": ALLOWED_INTENTS,
-        "count": [int(counts.get(intent, 0)) for intent in ALLOWED_INTENTS]
     })
-def build_context_rows(df: pd.DataFrame, limit: int = 20):
     rows = []
-    df = df.sort_values(["context_count", "intent_count", "citing_year"], ascending=[False, False, False], na_position="last")
     for _, row in df.iterrows():
         contexts = row["contexts"]
         if isinstance(contexts, list) and contexts:
@@ -212,123 +230,108 @@ def build_context_rows(df: pd.DataFrame, limit: int = 20):
     return pd.DataFrame(rows[:limit])
-def build_citing_table(df: pd.DataFrame, limit: int = 30):
     if df.empty:
         return pd.DataFrame(columns=["citing_title", "citing_year", "primary_intent", "context_count"])
-    out = (
-        df.sort_values(["context_count", "intent_count", "citing_year"], ascending=[False, False, False], na_position="last")
         [["citing_paper_id", "citing_title", "citing_doi", "citing_year", "primary_intent", "context_count"]]
         .drop_duplicates(subset=["citing_paper_id"])
         .head(limit)
     )
-    return out
-def pyvis_html_from_citation_graph(seed_row: pd.Series, events_df: pd.DataFrame):
-    net = Network(height="1100px", width="100%", bgcolor="#ffffff", font_color="#111827", directed=True)
-    seed_id = seed_row["seed_paper_id"]
-    net.add_node(seed_id, label=seed_row["title"][:60], color=INTENT_COLORS.get("background", "#111827"), size=34, shape="dot")
-    df = events_df.sort_values(["context_count", "intent_count"], ascending=[False, False]).head(40)
-    for _, row in df.iterrows():
         cid = row["citing_paper_id"]
-        citing_label = (row["citing_title"] or row["citing_doi"] or cid)[:60]
-        net.add_node(cid, label=citing_label, color=NODE_COLORS["citing_paper"], size=18, shape="dot")
-        context = None
-        if isinstance(row["contexts"], list) and row["contexts"]:
-            context = row["contexts"][0]
-        title = f"Intent: {row['primary_intent']}<br>Year: {'' if pd.isna(row['citing_year']) else int(row['citing_year'])}<br>{context or ''}"
-        net.add_edge(cid, seed_id, label=row["primary_intent"], color=INTENT_COLORS.get(row["primary_intent"], "#94a3b8"), title=title)
     net.barnes_hut()
-    return net.generate_html()
-def pyvis_html_from_kg(seed_row: pd.Series, events_df: pd.DataFrame):
-    net = Network(height="1100px", width="100%", bgcolor="#ffffff", font_color="#111827", directed=True)
-    seed_id = seed_row["seed_paper_id"]
-    net.add_node(seed_id, label=seed_row["title"][:60], color=NODE_COLORS["seed_paper"], font={"color": "white"}, size=34, shape="dot")
-    meta_map = [
-        ("journal", "journal", "PUBLISHED_IN"),
-        ("author", "author", "HAS_AUTHOR"),
-        ("affiliation", "affiliation", "HAS_AFFILIATION"),
-        ("city", "city", "LOCATED_IN_CITY"),
-        ("country", "country", "LOCATED_IN_COUNTRY"),
-        ("field", "field", "BELONGS_TO_FIELD"),
-    ]
-    for key, typ, rel in meta_map:
         val = seed_row.get(key, "")
         if val:
             nid = f"{typ}:{val}"
             net.add_node(nid, label=str(val)[:50], color=NODE_COLORS[typ], size=16)
-            net.add_edge(seed_id, nid, label=rel)
-    top_events = events_df.sort_values(["context_count", "intent_count"], ascending=[False, False]).head(20)
-    intent_counts = top_events.groupby("primary_intent").size().to_dict()
-    for intent, count in intent_counts.items():
         iid = f"intent:{intent}"
-        net.add_node(iid, label=f"{intent} ({count})", color=NODE_COLORS["intent"], size=18)
-        net.add_edge(seed_id, iid, label="HAS_INTENT_CLUSTER")
-    for _, row in top_events.iterrows():
-        eid = row["citation_event_id"]
-        cid = row["citing_paper_id"]
         net.add_node(eid, label=row["primary_intent"], color=NODE_COLORS["citation_event"], size=14)
-        net.add_node(cid, label=(row["citing_title"] or row["citing_doi"] or cid)[:55], color=NODE_COLORS["citing_paper"], size=14)
-        net.add_edge(eid, seed_id, label="HAS_CITED_PAPER")
         net.add_edge(eid, cid, label="HAS_CITING_PAPER")
         net.add_edge(eid, f"intent:{row['primary_intent']}", label="HAS_PRIMARY_INTENT")
     net.barnes_hut()
-    return net.generate_html()
-def pyvis_html_from_ontology():
-    net = Network(height="1100px", width="100%", bgcolor="#ffffff", font_color="#111827", directed=True)
-    nodes = [
-        ("seed", "Top5PctCitedPaper", "seed_paper"),
-        ("event", "CitationEvent", "citation_event"),
-        ("citing", "CitingPaper", "citing_paper"),
-        ("intent", "Intent", "intent"),
-        ("journal", "Journal", "journal"),
-        ("author", "Author", "author"),
-        ("affiliation", "Affiliation", "affiliation"),
-        ("city", "City", "city"),
-        ("country", "Country", "country"),
-        ("field", "Field", "field"),
-    ]
-    for nid, label, typ in nodes:
         net.add_node(nid, label=label, color=NODE_COLORS[typ], size=24)
-    edges = [
-        ("event", "citing", "hasCitingPaper"),
-        ("event", "seed", "hasCitedPaper"),
-        ("event", "intent", "hasPrimaryIntent"),
-        ("seed", "journal", "publishedInJournal"),
-        ("seed", "author", "hasAuthor"),
-        ("seed", "affiliation", "hasAffiliation"),
-        ("seed", "city", "locatedInCity"),
-        ("seed", "country", "locatedInCountry"),
-        ("seed", "field", "belongsToField"),
-    ]
-    for s, t, l in edges:
         net.add_edge(s, t, label=l)
     net.barnes_hut()
-    return net.generate_html()
-# ---------- UI ----------
 st.title("CitationHub")
 st.caption("Explore influential papers, their citation networks, and related research.")
 with st.sidebar:
     st.subheader("Data source")
     if HF_REPO_ID:
-        data_dir = "hf"
-        st.caption(f"Loading from Hugging Face: {HF_REPO_ID}")
     else:
-        data_dir = st.text_input("Parquet directory", str(DEFAULT_DATA_DIR))
     try:
-        seed, events, citing, filters, overview = load_data(data_dir)
         st.success("Data loaded")
     except Exception as e:
         st.error(str(e))
@@ -341,165 +344,286 @@ with st.sidebar:
     if st.button("Search", use_container_width=True):
         st.session_state["q_submit"] = q_input
-    fields = st.multiselect("Field", filters["fields"])
-    countries = st.multiselect("Country", filters["countries"])
-    journals = st.multiselect("Journal", filters["journals"][:200])
-    display_year_min = max(2000, filters["year_min"])
-    year_min, year_max = st.slider(
-        "Citing year",
-        display_year_min,
-        filters["year_max"],
-        (display_year_min, filters["year_max"]),
-    )
-    seed_filtered = filter_seed_papers(seed, st.session_state["q_submit"], fields, countries, journals)
     st.subheader("Overview counts")
     c1, c2 = st.columns(2)
-    c1.metric("Seed papers", fmt_num(overview["seed_papers"]))
-    c2.metric("Events", fmt_num(overview["citation_events"]))
-    c1.metric("Citing papers", fmt_num(overview["citing_papers"]))
-    c2.metric("Intents", fmt_num(overview["intents"]))
     options = seed_filtered["seed_paper_id"].tolist()
     if not options:
         st.warning("No seed papers match the current search.")
         st.stop()
-    default_idx = 0
     current = st.session_state.get("selected_seed_id", options[0])
-    if current in options:
-        default_idx = options.index(current)
     selected_seed_id = st.selectbox(
-        "Seed paper records",
-        options,
-        index=default_idx,
-        format_func=lambda sid: seed_filtered.loc[seed_filtered["seed_paper_id"] == sid, "title"].iloc[0],
     )
     st.session_state["selected_seed_id"] = selected_seed_id
 selected_seed = seed_filtered[seed_filtered["seed_paper_id"] == selected_seed_id].iloc[0]
-seed_events = event_subset(events, selected_seed_id, year_min, year_max)
 intent_summary = build_intent_summary(seed_events)
-contexts_df = build_context_rows(seed_events, limit=20)
-citing_df = build_citing_table(seed_events, limit=30)
-tab_overview, tab_cnet, tab_ontology, tab_kg = st.tabs(["Overview", "Citation network", "Ontology", "Knowledge graph"])
 with tab_overview:
-    col1, col2 = st.columns([1, 1])
     with col1:
-        st.subheader("Selected seed paper detail")
-        detail_cols = st.columns(2)
-        detail_cols[0].metric("Cited by count", fmt_num(selected_seed["citedby_count"]))
-        detail_cols[1].metric("Related citation events", fmt_num(len(seed_events)))
-        st.markdown(f"**Title**  \n{selected_seed['title']}")
-        st.markdown(f"**DOI**  \n{selected_seed['doi'] or '-'}")
-        st.markdown(f"**Journal**  \n{selected_seed['journal'] or '-'}")
-        st.markdown(f"**Author**  \n{selected_seed['author'] or '-'}")
-        st.markdown(f"**Affiliation**  \n{selected_seed['affiliation'] or '-'}")
-        st.markdown(f"**City**  \n{selected_seed['city'] or '-'}")
-        st.markdown(f"**Country**  \n{selected_seed['country'] or '-'}")
-        st.markdown(f"**Field**  \n{selected_seed['field'] or '-'}")
         st.subheader("Related citing papers")
         st.dataframe(
-            citing_df.rename(columns={
-                "citing_title": "Title",
-                "citing_year": "Year",
-                "primary_intent": "Intent",
-                "context_count": "Contexts",
             }),
-            use_container_width=True,
-            hide_index=True,
         )
     with col2:
-        st.subheader("Selected seed paper intent distribution")
-        fig_intent = px.bar(intent_summary, x="intent", y="count", color="intent", color_discrete_map=INTENT_COLORS)
-        fig_intent.update_layout(showlegend=False, xaxis_title="", yaxis_title="Count")
-        st.plotly_chart(fig_intent, use_container_width=True)
-        st.subheader("CitationHub field distribution")
-        field_dist = seed_filtered.groupby("field", dropna=False).size().reset_index(name="count").sort_values("count", ascending=False).head(20)
-        field_dist["field"] = field_dist["field"].replace("", "Unknown")
-        fig_field = px.bar(field_dist, x="field", y="count")
-        fig_field.update_layout(xaxis_title="", yaxis_title="Count")
-        st.plotly_chart(fig_field, use_container_width=True)
-        st.subheader("CitationHub intent distribution")
-        all_intent_counts = events.groupby("primary_intent").size().to_dict()
-        all_intent_df = pd.DataFrame({"intent": ALLOWED_INTENTS, "count": [int(all_intent_counts.get(i, 0)) for i in ALLOWED_INTENTS]})
-        fig_all_intent = px.bar(all_intent_df, x="intent", y="count", color="intent", color_discrete_map=INTENT_COLORS)
-        fig_all_intent.update_layout(showlegend=False, xaxis_title="", yaxis_title="Count")
-        st.plotly_chart(fig_all_intent, use_container_width=True)
-    st.subheader("Selected seed paper contexts")
     if contexts_df.empty:
-        st.info("No contexts available for this seed paper.")
     else:
         for _, row in contexts_df.iterrows():
             st.markdown(
-                f"""
-                <div style="border:1px solid #e2e8f0;border-radius:14px;padding:12px;margin-bottom:10px;background:#f8fafc;">
-                  <div style="display:inline-block;background:{INTENT_COLORS.get(row['primary_intent'], '#64748b')};color:white;border-radius:999px;padding:4px 8px;font-size:12px;margin-bottom:6px;">{row['primary_intent']}</div>
-                  <div style="font-size:12px;color:#64748b;margin-bottom:6px;">{row['citing_year'] or '-'} · {row['citing_title'] or row['citing_doi']}</div>
-                  <div>{row['context']}</div>
-                </div>
-                """,
                 unsafe_allow_html=True,
             )
 with tab_cnet:
-    st.subheader("Citing ↔ cited citation network visualization")
-    cnet_expand = st.toggle("Expand citation network view", value=False, key="cnet_expand")
-    cnet_height = st.slider(
-        "Citation network height",
-        min_value=700,
-        max_value=1800,
-        value=1400 if cnet_expand else 900,
-        step=100,
-        key="cnet_height",
-    )
     if seed_events.empty:
         st.info("No citation network data for this seed paper.")
     else:
-        html = pyvis_html_from_citation_graph(selected_seed, seed_events)
-        components.html(html, height=cnet_height, scrolling=True)
 with tab_ontology:
-    st.subheader("CitationHub ontology overview")
-    ontology_expand = st.toggle("Expand ontology view", value=False, key="ontology_expand")
-    ontology_height = st.slider(
-        "Ontology graph height",
-        min_value=700,
-        max_value=1800,
-        value=1400 if ontology_expand else 900,
-        step=100,
-        key="ontology_height",
-    )
-    components.html(pyvis_html_from_ontology(), height=ontology_height, scrolling=True)
 with tab_kg:
-    st.subheader("Knowledge graph for the selected seed paper")
-    kg_expand = st.toggle("Expand knowledge graph view", value=False, key="kg_expand")
-    kg_height = st.slider(
-        "Knowledge graph height",
-        min_value=700,
-        max_value=1800,
-        value=1400 if kg_expand else 900,
-        step=100,
-        key="kg_height",
-    )
     if seed_events.empty:
         st.info("No knowledge graph data for this seed paper.")
     else:
-        components.html(pyvis_html_from_kg(selected_seed, seed_events), height=kg_height, scrolling=True)

 import os
 from pathlib import Path
+from typing import List
 import pandas as pd
 import streamlit as st
 import plotly.express as px
+import plotly.graph_objects as go
 from pyvis.network import Network
 import streamlit.components.v1 as components
 HF_REPO_ID = os.environ.get("HF_REPO_ID", "")
 HF_TOKEN = os.environ.get("HF_TOKEN", "")
 )
 ALLOWED_INTENTS = [
+    "background", "uses", "similarities", "motivation",
+    "differences", "future_work", "extends",
 ]
 INTENT_COLORS = {
+    "background": "#94a3b8", "uses": "#22c55e", "similarities": "#3b82f6",
+    "motivation": "#f59e0b", "differences": "#ef4444",
+    "future_work": "#8b5cf6", "extends": "#06b6d4",
 }
 NODE_COLORS = {
+    "seed_paper": "#111827", "citing_paper": "#dbeafe", "citation_event": "#fde68a",
+    "journal": "#ede9fe", "author": "#fee2e2", "affiliation": "#fae8ff",
+    "city": "#cffafe", "country": "#ffedd5", "field": "#e0e7ff", "intent": "#dcfce7",
 }
+DEFAULT_DATA_DIR = Path(os.environ.get(
+    "CITATIONHUB_DATA_DIR",
+    r"C:\Users\user\OneDrive\바탕 화면\Citehub_huggingface\data",
+))
 def fmt_num(x):
     try:
     except Exception:
         return "-"
+def _hf_download(filename: str) -> str:
+    from huggingface_hub import hf_hub_download
+    return hf_hub_download(
+        repo_id=HF_REPO_ID, repo_type="dataset",
+        filename=f"data/{filename}", token=HF_TOKEN or None,
+    )
+def _read(filename: str, data_dir: Path | None = None) -> pd.DataFrame:
     if HF_REPO_ID:
+        return pd.read_parquet(_hf_download(filename))
+    return pd.read_parquet(data_dir / filename)
+def inject_fullscreen(html: str) -> str:
+    """pyvis HTML에 전체화면 버튼을 주입합니다."""
+    btn = """
+    <button
+      onclick="var el=document.getElementById('mynetwork');
+               if(el){if(el.requestFullscreen)el.requestFullscreen();
+               else if(el.webkitRequestFullscreen)el.webkitRequestFullscreen();}"
+      style="position:fixed;bottom:18px;right:18px;z-index:9999;
+             padding:8px 18px;background:#1e293b;color:white;
+             border:none;border-radius:8px;cursor:pointer;font-size:13px;
+             box-shadow:0 2px 8px rgba(0,0,0,0.35);">
+      ⛶ Fullscreen
+    </button>
+    <div style="position:fixed;bottom:18px;left:18px;z-index:9999;
+                font-size:12px;color:#64748b;background:rgba(255,255,255,0.85);
+                padding:5px 10px;border-radius:6px;">
+      🖱 Scroll: zoom &nbsp;|&nbsp; Drag: pan &nbsp;|&nbsp; Click node: info
+    </div>
+    """
+    return html.replace("</body>", btn + "</body>")
+@st.cache_data(show_spinner=False)
+def load_data(data_dir_str: str):
+    d = None if HF_REPO_ID else Path(data_dir_str)
+    # --- 핵심 3개 (대용량) ---
+    seed_df = _read("seed_cited_papers_normalized.parquet", d)
+    events_df = _read("citation_events_normalized.parquet", d)
+    citing_df = _read("citing_papers_normalized.parquet", d)
+    # --- 참조 테이블 (소용량) ---
+    authors_df     = _read("authors.parquet", d)
+    affiliations_df = _read("affiliations.parquet", d)
+    aff_geo_df     = _read("affiliation_geo.parquet", d)
+    cities_df      = _read("cities.parquet", d)
+    countries_df   = _read("countries.parquet", d)
+    fields_df      = _read("fields.parquet", d)
+    intents_df     = _read("intents.parquet", d)
+    journals_df    = _read("journals.parquet", d)
+    # --- seed 가공 ---
     seed = pd.DataFrame({
+        "seed_paper_id":  seed_df["seed_paper_id"],
+        "doi":            seed_df.get("doi", pd.Series(dtype=str)).fillna(""),
+        "title":          seed_df.get("title", pd.Series(dtype=str)).fillna(""),
+        "journal":        seed_df.get("publication_name", pd.Series(dtype=str)).fillna(""),
+        "author":         seed_df.get("creator", pd.Series(dtype=str)).fillna(""),
+        "affiliation":    seed_df.get("affilname", pd.Series(dtype=str)).fillna(""),
+        "city":           seed_df.get("affiliation_city", pd.Series(dtype=str)).fillna(""),
+        "country":        seed_df.get("affiliation_country", pd.Series(dtype=str)).fillna(""),
+        "field":          seed_df.get("group", pd.Series(dtype=str)).fillna(""),
+        "citedby_count":  pd.to_numeric(seed_df.get("citedby_count"), errors="coerce").fillna(0).astype(int),
+        "author_id":      seed_df.get("author_id", pd.Series(dtype=object)),
+        "affiliation_id": seed_df.get("affiliation_id", pd.Series(dtype=object)),
+        "country_id":     seed_df.get("country_id", pd.Series(dtype=object)),
+        "field_id":       seed_df.get("field_id", pd.Series(dtype=object)),
+        "journal_id":     seed_df.get("journal_id", pd.Series(dtype=object)),
     })
     for col in ["title", "doi", "journal", "field", "country"]:
         seed[f"{col}_lc"] = seed[col].astype(str).str.lower()
     seed = seed.sort_values(["citedby_count", "title"], ascending=[False, True]).reset_index(drop=True)
+    # --- events 가공 ---
     events = pd.DataFrame({
         "citation_event_id": events_df["citation_event_id"],
+        "seed_paper_id":     events_df["cited_seed_paper_id"],
+        "citing_paper_id":   events_df["citing_paper_id"],
+        "citing_title":      events_df.get("citing_title", pd.Series(dtype=str)).fillna(""),
+        "citing_doi":        events_df.get("citing_doi", pd.Series(dtype=str)).fillna(""),
+        "citing_year":       pd.to_numeric(events_df.get("citing_year"), errors="coerce"),
+        "citing_venue":      events_df.get("citing_venue", pd.Series(dtype=str)).fillna(""),
+        "primary_intent":    events_df.get("primary_intent", pd.Series(dtype=str)).fillna(""),
+        "contexts":          events_df.get("contexts"),
+        "context_count":     pd.to_numeric(events_df.get("context_count"), errors="coerce").fillna(0).astype(int),
+        "intent_count":      pd.to_numeric(events_df.get("intent_count"), errors="coerce").fillna(0).astype(int),
+        "is_influential":    events_df.get("is_influential", pd.Series(dtype=bool)).fillna(False),
+        "field_id":          events_df.get("field_id", pd.Series(dtype=object)),
     })
     events = events[events["primary_intent"].isin(ALLOWED_INTENTS)].reset_index(drop=True)
+    # --- citing 가공 ---
     citing = pd.DataFrame({
         "citing_paper_id": citing_df["citing_paper_id"],
+        "doi":   citing_df.get("doi", pd.Series(dtype=str)).fillna(""),
+        "title": citing_df.get("title", pd.Series(dtype=str)).fillna(""),
+        "year":  pd.to_numeric(citing_df.get("year"), errors="coerce"),
+        "venue": citing_df.get("venue", pd.Series(dtype=str)).fillna(""),
+        "oa_pdf": citing_df.get("oa_pdf", pd.Series(dtype=str)).fillna(""),
     })
     filters = {
+        "fields":    sorted([x for x in seed["field"].dropna().astype(str).unique() if x]),
+        "countries": sorted([x for x in seed["country"].dropna().astype(str).unique() if x]),
+        "journals":  sorted([x for x in seed["journal"].dropna().astype(str).unique() if x]),
+        "intents":   ALLOWED_INTENTS,
+        "year_min":  int(events["citing_year"].dropna().min()) if events["citing_year"].notna().any() else 2000,
+        "year_max":  int(events["citing_year"].dropna().max()) if events["citing_year"].notna().any() else 2025,
     }
     overview = {
+        "seed_papers":      int(len(seed)),
+        "citation_events":  int(len(events)),
+        "citing_papers":    int(events["citing_paper_id"].nunique()),
+        "journals":         int(seed["journal"].replace("", pd.NA).dropna().nunique()),
+        "countries":        int(seed["country"].replace("", pd.NA).dropna().nunique()),
+        "fields":           int(seed["field"].replace("", pd.NA).dropna().nunique()),
+        "intents":          len(ALLOWED_INTENTS),
+        "authors":          int(len(authors_df)),
     }
+    return (seed, events, citing, filters, overview,
+            authors_df, affiliations_df, aff_geo_df,
+            cities_df, countries_df, fields_df, intents_df, journals_df)
+# ── 필터 헬퍼 ──────────────────────────────────────────────
+def filter_seed_papers(seed, q, fields, countries, journals):
     df = seed.copy()
     q = (q or "").strip().lower()
     if q:
         df = df[df["title_lc"].str.contains(q, na=False) | df["doi_lc"].str.contains(q, na=False)]
     if fields:
+        df = df[df["field"].str.lower().isin({x.lower() for x in fields})]
     if countries:
+        df = df[df["country"].str.lower().isin({x.lower() for x in countries})]
     if journals:
+        df = df[df["journal"].str.lower().isin({x.lower() for x in journals})]
     return df.reset_index(drop=True)
+def event_subset(events, seed_paper_id, year_min, year_max):
     df = events[events["seed_paper_id"] == seed_paper_id].copy()
     df = df[df["citing_year"].fillna(-99999) >= year_min]
     df = df[df["citing_year"].fillna(99999) <= year_max]
     return df.reset_index(drop=True)
+def build_intent_summary(df):
     counts = df.groupby("primary_intent").size().to_dict()
     return pd.DataFrame({
         "intent": ALLOWED_INTENTS,
+        "count": [int(counts.get(i, 0)) for i in ALLOWED_INTENTS],
     })
+def build_context_rows(df, limit=20):
     rows = []
+    df = df.sort_values(["context_count", "intent_count", "citing_year"],
+                        ascending=[False, False, False], na_position="last")
     for _, row in df.iterrows():
         contexts = row["contexts"]
         if isinstance(contexts, list) and contexts:
     return pd.DataFrame(rows[:limit])
+def build_citing_table(df, limit=30):
     if df.empty:
         return pd.DataFrame(columns=["citing_title", "citing_year", "primary_intent", "context_count"])
+    return (
+        df.sort_values(["context_count", "intent_count", "citing_year"],
+                       ascending=[False, False, False], na_position="last")
         [["citing_paper_id", "citing_title", "citing_doi", "citing_year", "primary_intent", "context_count"]]
         .drop_duplicates(subset=["citing_paper_id"])
         .head(limit)
     )
+# ── pyvis 빌더 ─────────────────────────────────────────────
+def pyvis_citation_graph(seed_row, events_df):
+    net = Network(height="780px", width="100%", bgcolor="#ffffff", font_color="#111827", directed=True)
+    sid = seed_row["seed_paper_id"]
+    net.add_node(sid, label=seed_row["title"][:60], color="#111827", size=34, shape="dot",
+                 font={"color": "white"})
+    for _, row in events_df.sort_values(["context_count", "intent_count"],
+                                         ascending=False).head(40).iterrows():
         cid = row["citing_paper_id"]
+        net.add_node(cid, label=(row["citing_title"] or row["citing_doi"] or cid)[:60],
+                     color=NODE_COLORS["citing_paper"], size=18, shape="dot")
+        ctx = (row["contexts"] or [])[0] if isinstance(row["contexts"], list) and row["contexts"] else ""
+        yr = "" if pd.isna(row["citing_year"]) else int(row["citing_year"])
+        net.add_edge(cid, sid, label=row["primary_intent"],
+                     color=INTENT_COLORS.get(row["primary_intent"], "#94a3b8"),
+                     title=f"Intent: {row['primary_intent']}<br>Year: {yr}<br>{ctx}")
     net.barnes_hut()
+    return inject_fullscreen(net.generate_html())
+def pyvis_kg(seed_row, events_df):
+    net = Network(height="780px", width="100%", bgcolor="#ffffff", font_color="#111827", directed=True)
+    sid = seed_row["seed_paper_id"]
+    net.add_node(sid, label=seed_row["title"][:60], color=NODE_COLORS["seed_paper"],
+                 font={"color": "white"}, size=34, shape="dot")
+    for key, typ, rel in [
+        ("journal", "journal", "PUBLISHED_IN"), ("author", "author", "HAS_AUTHOR"),
+        ("affiliation", "affiliation", "HAS_AFFILIATION"), ("city", "city", "LOCATED_IN_CITY"),
+        ("country", "country", "LOCATED_IN_COUNTRY"), ("field", "field", "BELONGS_TO_FIELD"),
+    ]:
         val = seed_row.get(key, "")
         if val:
             nid = f"{typ}:{val}"
             net.add_node(nid, label=str(val)[:50], color=NODE_COLORS[typ], size=16)
+            net.add_edge(sid, nid, label=rel)
+    top = events_df.sort_values(["context_count", "intent_count"], ascending=False).head(20)
+    for intent, cnt in top.groupby("primary_intent").size().items():
         iid = f"intent:{intent}"
+        net.add_node(iid, label=f"{intent} ({cnt})", color=NODE_COLORS["intent"], size=18)
+        net.add_edge(sid, iid, label="HAS_INTENT_CLUSTER")
+    for _, row in top.iterrows():
+        eid, cid = row["citation_event_id"], row["citing_paper_id"]
         net.add_node(eid, label=row["primary_intent"], color=NODE_COLORS["citation_event"], size=14)
+        net.add_node(cid, label=(row["citing_title"] or row["citing_doi"] or cid)[:55],
+                     color=NODE_COLORS["citing_paper"], size=14)
+        net.add_edge(eid, sid, label="HAS_CITED_PAPER")
         net.add_edge(eid, cid, label="HAS_CITING_PAPER")
         net.add_edge(eid, f"intent:{row['primary_intent']}", label="HAS_PRIMARY_INTENT")
     net.barnes_hut()
+    return inject_fullscreen(net.generate_html())
+def pyvis_ontology():
+    net = Network(height="780px", width="100%", bgcolor="#ffffff", font_color="#111827", directed=True)
+    for nid, label, typ in [
+        ("seed","Top5PctCitedPaper","seed_paper"), ("event","CitationEvent","citation_event"),
+        ("citing","CitingPaper","citing_paper"),   ("intent","Intent","intent"),
+        ("journal","Journal","journal"),            ("author","Author","author"),
+        ("affiliation","Affiliation","affiliation"),("city","City","city"),
+        ("country","Country","country"),            ("field","Field","field"),
+    ]:
         net.add_node(nid, label=label, color=NODE_COLORS[typ], size=24)
+    for s, t, l in [
+        ("event","citing","hasCitingPaper"), ("event","seed","hasCitedPaper"),
+        ("event","intent","hasPrimaryIntent"), ("seed","journal","publishedInJournal"),
+        ("seed","author","hasAuthor"),         ("seed","affiliation","hasAffiliation"),
+        ("seed","city","locatedInCity"),        ("seed","country","locatedInCountry"),
+        ("seed","field","belongsToField"),
+    ]:
         net.add_edge(s, t, label=l)
     net.barnes_hut()
+    return inject_fullscreen(net.generate_html())
+# ── 메인 UI ────────────────────────────────────────────────
 st.title("CitationHub")
 st.caption("Explore influential papers, their citation networks, and related research.")
 with st.sidebar:
     st.subheader("Data source")
     if HF_REPO_ID:
+        data_dir_val = "hf"
+        st.caption(f"Hugging Face: {HF_REPO_ID}")
     else:
+        data_dir_val = st.text_input("Parquet directory", str(DEFAULT_DATA_DIR))
     try:
+        (seed, events, citing, filters, overview,
+         authors_df, affiliations_df, aff_geo_df,
+         cities_df, countries_df, fields_df, intents_df, journals_df) = load_data(data_dir_val)
         st.success("Data loaded")
     except Exception as e:
         st.error(str(e))
     if st.button("Search", use_container_width=True):
         st.session_state["q_submit"] = q_input
+    fields_sel    = st.multiselect("Field", filters["fields"])
+    countries_sel = st.multiselect("Country", filters["countries"])
+    journals_sel  = st.multiselect("Journal", filters["journals"][:200])
+    y_min = max(2000, filters["year_min"])
+    year_min, year_max = st.slider("Citing year", y_min, filters["year_max"], (y_min, filters["year_max"]))
+    seed_filtered = filter_seed_papers(seed, st.session_state["q_submit"],
+                                       fields_sel, countries_sel, journals_sel)
     st.subheader("Overview counts")
     c1, c2 = st.columns(2)
+    c1.metric("Seed papers",      fmt_num(overview["seed_papers"]))
+    c2.metric("Citation events",  fmt_num(overview["citation_events"]))
+    c1.metric("Citing papers",    fmt_num(overview["citing_papers"]))
+    c2.metric("Authors",          fmt_num(overview["authors"]))
+    c1.metric("Countries",        fmt_num(overview["countries"]))
+    c2.metric("Fields",           fmt_num(overview["fields"]))
     options = seed_filtered["seed_paper_id"].tolist()
     if not options:
         st.warning("No seed papers match the current search.")
         st.stop()
     current = st.session_state.get("selected_seed_id", options[0])
+    default_idx = options.index(current) if current in options else 0
     selected_seed_id = st.selectbox(
+        "Seed paper", options, index=default_idx,
+        format_func=lambda sid: seed_filtered.loc[
+            seed_filtered["seed_paper_id"] == sid, "title"].iloc[0],
     )
     st.session_state["selected_seed_id"] = selected_seed_id
 selected_seed = seed_filtered[seed_filtered["seed_paper_id"] == selected_seed_id].iloc[0]
+seed_events   = event_subset(events, selected_seed_id, year_min, year_max)
 intent_summary = build_intent_summary(seed_events)
+contexts_df    = build_context_rows(seed_events)
+citing_table   = build_citing_table(seed_events)
+# ── 탭 ────────────────────────────────────────────────────
+(tab_overview, tab_cnet, tab_ontology, tab_kg,
+ tab_geo, tab_analytics) = st.tabs([
+    "Overview", "Citation Network", "Ontology", "Knowledge Graph",
+    "Geographic Map", "Analytics",
+])
+# ─────────────────── 1. OVERVIEW ──────────────────────────
 with tab_overview:
+    col1, col2 = st.columns(2)
     with col1:
+        st.subheader("Seed paper detail")
+        st.columns(2)[0].metric("Cited by", fmt_num(selected_seed["citedby_count"]))
+        st.columns(2)[1].metric("Citation events", fmt_num(len(seed_events)))
+        for label, key in [
+            ("Title","title"), ("DOI","doi"), ("Journal","journal"),
+            ("Author","author"), ("Affiliation","affiliation"),
+            ("City","city"), ("Country","country"), ("Field","field"),
+        ]:
+            st.markdown(f"**{label}**  \n{selected_seed[key] or '-'}")
         st.subheader("Related citing papers")
         st.dataframe(
+            citing_table.rename(columns={
+                "citing_title":"Title","citing_year":"Year",
+                "primary_intent":"Intent","context_count":"Contexts",
             }),
+            use_container_width=True, hide_index=True,
         )
     with col2:
+        st.subheader("Intent distribution (selected paper)")
+        fig = px.bar(intent_summary, x="intent", y="count", color="intent",
+                     color_discrete_map=INTENT_COLORS)
+        fig.update_layout(showlegend=False, xaxis_title="", yaxis_title="Count")
+        st.plotly_chart(fig, use_container_width=True)
+        st.subheader("Field distribution")
+        fd = (seed_filtered.groupby("field", dropna=False).size()
+              .reset_index(name="count").sort_values("count", ascending=False).head(20))
+        fd["field"] = fd["field"].replace("", "Unknown")
+        st.plotly_chart(
+            px.bar(fd, x="field", y="count").update_layout(xaxis_title="", yaxis_title="Count"),
+            use_container_width=True,
+        )
+        st.subheader("Overall intent distribution")
+        all_intents = events.groupby("primary_intent").size().to_dict()
+        ai_df = pd.DataFrame({"intent": ALLOWED_INTENTS,
+                               "count": [int(all_intents.get(i, 0)) for i in ALLOWED_INTENTS]})
+        fig2 = px.bar(ai_df, x="intent", y="count", color="intent",
+                      color_discrete_map=INTENT_COLORS)
+        fig2.update_layout(showlegend=False, xaxis_title="", yaxis_title="Count")
+        st.plotly_chart(fig2, use_container_width=True)
+    st.subheader("Citation contexts")
     if contexts_df.empty:
+        st.info("No contexts available.")
     else:
         for _, row in contexts_df.iterrows():
             st.markdown(
+                f"""<div style="border:1px solid #e2e8f0;border-radius:14px;padding:12px;
+                margin-bottom:10px;background:#f8fafc;">
+                <div style="display:inline-block;background:{INTENT_COLORS.get(row['primary_intent'],'#64748b')};
+                color:white;border-radius:999px;padding:4px 8px;font-size:12px;margin-bottom:6px;">
+                {row['primary_intent']}</div>
+                <div style="font-size:12px;color:#64748b;margin-bottom:6px;">
+                {row['citing_year'] or '-'} · {row['citing_title'] or row['citing_doi']}</div>
+                <div>{row['context']}</div></div>""",
                 unsafe_allow_html=True,
             )
+# ─────────────────── 2. CITATION NETWORK ──────────────────
 with tab_cnet:
+    st.subheader("Citing ↔ Cited Citation Network")
+    st.caption("🖱 Scroll: zoom  |  Drag: pan  |  Click node: info  |  ⛶ button: fullscreen")
     if seed_events.empty:
         st.info("No citation network data for this seed paper.")
     else:
+        components.html(pyvis_citation_graph(selected_seed, seed_events), height=820, scrolling=True)
+# ─────────────────── 3. ONTOLOGY ──────────────────────────
 with tab_ontology:
+    st.subheader("CitationHub Ontology")
+    st.caption("🖱 Scroll: zoom  |  Drag: pan  |  Click node: info  |  ⛶ button: fullscreen")
+    components.html(pyvis_ontology(), height=820, scrolling=True)
+# ─────────────────── 4. KNOWLEDGE GRAPH ───────────────────
 with tab_kg:
+    st.subheader("Knowledge Graph — Selected Seed Paper")
+    st.caption("🖱 Scroll: zoom  |  Drag: pan  |  Click node: info  |  ⛶ button: fullscreen")
     if seed_events.empty:
         st.info("No knowledge graph data for this seed paper.")
     else:
+        components.html(pyvis_kg(selected_seed, seed_events), height=820, scrolling=True)
+# ─────────────────── 5. GEOGRAPHIC MAP ────────────────────
+with tab_geo:
+    st.subheader("Geographic Distribution of Seed Papers")
+    # 국가별 seed paper 수
+    country_cnt = (
+        seed_filtered.groupby("country", dropna=False).size()
+        .reset_index(name="count")
+        .rename(columns={"country": "country_name"})
+    )
+    country_cnt = country_cnt[country_cnt["country_name"].str.strip() != ""]
+    country_cnt = country_cnt.merge(countries_df, on="country_name", how="left")
+    if not country_cnt.empty:
+        fig_map = px.choropleth(
+            country_cnt,
+            locations="country_name",
+            locationmode="country names",
+            color="count",
+            hover_name="country_name",
+            color_continuous_scale="Blues",
+            title="Seed Papers by Country",
+        )
+        fig_map.update_layout(geo=dict(showframe=False), height=500)
+        st.plotly_chart(fig_map, use_container_width=True)
+    # 도시별 분포 (affiliation_geo 활용)
+    st.subheader("Affiliation Geo Distribution")
+    city_cnt = (
+        seed_filtered.merge(
+            aff_geo_df[["affiliation_name", "city_name", "country_name"]],
+            left_on="affiliation", right_on="affiliation_name", how="left",
+        )
+        .groupby(["country_name","city_name"], dropna=False).size()
+        .reset_index(name="count")
+        .dropna(subset=["country_name"])
+        .sort_values("count", ascending=False)
+        .head(30)
+    )
+    if not city_cnt.empty:
+        fig_city = px.bar(
+            city_cnt, x="city_name", y="count", color="country_name",
+            title="Top 30 Cities (Affiliation)",
+        )
+        fig_city.update_layout(xaxis_title="", yaxis_title="# Seed Papers", xaxis_tickangle=-40)
+        st.plotly_chart(fig_city, use_container_width=True)
+    # 연도별 citing 추이 (국가 필터)
+    st.subheader("Citation Trend over Time")
+    year_trend = (
+        seed_events.groupby("citing_year").size()
+        .reset_index(name="count")
+        .dropna()
+    )
+    year_trend["citing_year"] = year_trend["citing_year"].astype(int)
+    if not year_trend.empty:
+        fig_trend = px.line(year_trend, x="citing_year", y="count",
+                            title="Citations per Year (selected seed paper)",
+                            markers=True)
+        fig_trend.update_layout(xaxis_title="Year", yaxis_title="Citations")
+        st.plotly_chart(fig_trend, use_container_width=True)
+# ─────────────────── 6. ANALYTICS ────────────────────────
+with tab_analytics:
+    col_a, col_b = st.columns(2)
+    # ── 저자 랭킹
+    with col_a:
+        st.subheader("Top Authors (by seed paper count)")
+        # seed_cited_papers_normalized에 author_id 있으면 join
+        if "author_id" in seed.columns and not seed["author_id"].isna().all():
+            top_authors = (
+                seed.explode("author_id")
+                .merge(authors_df, on="author_id", how="left")
+                .groupby("author_name").size()
+                .reset_index(name="paper_count")
+                .sort_values("paper_count", ascending=False)
+                .head(20)
+            )
+        else:
+            # creator 컬럼에서 직접 추출
+            top_authors = (
+                seed["author"].value_counts()
+                .reset_index()
+                .rename(columns={"author": "author_name", "count": "paper_count"})
+                .head(20)
+            )
+        top_authors = top_authors[top_authors["author_name"].str.strip() != ""]
+        fig_auth = px.bar(top_authors, x="paper_count", y="author_name",
+                          orientation="h", title="Top 20 Authors")
+        fig_auth.update_layout(yaxis=dict(autorange="reversed"),
+                               xaxis_title="Seed Papers", yaxis_title="")
+        st.plotly_chart(fig_auth, use_container_width=True)
+    # ── 저널 랭킹
+    with col_b:
+        st.subheader("Top Journals (by seed paper count)")
+        top_journals = (
+            seed.groupby("journal").size()
+            .reset_index(name="count")
+            .sort_values("count", ascending=False)
+            .head(20)
+        )
+        top_journals = top_journals[top_journals["journal"].str.strip() != ""]
+        fig_jnl = px.bar(top_journals, x="count", y="journal",
+                         orientation="h", title="Top 20 Journals")
+        fig_jnl.update_layout(yaxis=dict(autorange="reversed"),
+                               xaxis_title="Seed Papers", yaxis_title="")
+        st.plotly_chart(fig_jnl, use_container_width=True)
+    st.markdown("---")
+    col_c, col_d = st.columns(2)
+    # ── 분야별 인용 의도 히트맵
+    with col_c:
+        st.subheader("Field × Intent Heatmap")
+        field_intent = (
+            seed[["seed_paper_id", "field"]]
+            .merge(events[["seed_paper_id", "primary_intent"]], on="seed_paper_id", how="inner")
+            .groupby(["field", "primary_intent"]).size()
+            .reset_index(name="count")
+        )
+        if not field_intent.empty:
+            pivot = field_intent.pivot(index="field", columns="primary_intent", values="count").fillna(0)
+            fig_hm = px.imshow(pivot, color_continuous_scale="Blues",
+                               title="Citation Intent by Field",
+                               aspect="auto")
+            fig_hm.update_layout(xaxis_title="Intent", yaxis_title="Field")
+            st.plotly_chart(fig_hm, use_container_width=True)
+    # ── Influential citation 비율
+    with col_d:
+        st.subheader("Influential Citations")
+        if "is_influential" in seed_events.columns:
+            inf_cnt = seed_events["is_influential"].value_counts().reset_index()
+            inf_cnt.columns = ["is_influential", "count"]
+            inf_cnt["label"] = inf_cnt["is_influential"].map({True: "Influential", False: "Non-influential"})
+            fig_inf = px.pie(inf_cnt, names="label", values="count",
+                             title="Influential vs Non-influential (selected paper)")
+            st.plotly_chart(fig_inf, use_container_width=True)
+        else:
+            st.info("is_influential 컬럼이 없습니다.")
+    # ── Intent 상세 정보
+    st.subheader("Intent Reference Table")
+    st.dataframe(intents_df, use_container_width=True, hide_index=True)
+    # ── Fields 상세 정보
+    st.subheader("Field Reference Table")
+    st.dataframe(fields_df, use_container_width=True, hide_index=True)