Spaces:

Daniel0315
/

cithub_website

Sleeping

App Files Files Community

Daniel0315 commited on Mar 18

Commit

00ff4cf

verified ·

1 Parent(s): ab1755b

Upload 2 files

Browse files

Files changed (2) hide show

app.py +505 -0
requirements.txt +7 -3

app.py ADDED Viewed

	@@ -0,0 +1,505 @@

+from __future__ import annotations
+import os
+from pathlib import Path
+from typing import Dict, List, Tuple
+import pandas as pd
+import streamlit as st
+import plotly.express as px
+import networkx as nx
+from pyvis.network import Network
+import streamlit.components.v1 as components
+# Hugging Face: Space 배포 시. Space Secrets에 HF_TOKEN, HF_REPO_ID 설정 (env로 주입됨)
+# HF_REPO_ID 예: "username/citationhub-data" (Dataset repo 이름)
+HF_REPO_ID = os.environ.get("HF_REPO_ID", "")
+HF_TOKEN = os.environ.get("HF_TOKEN", "")
+st.set_page_config(
+    page_title="CitationHub",
+    page_icon="📚",
+    layout="wide",
+)
+ALLOWED_INTENTS = [
+    "background",
+    "uses",
+    "similarities",
+    "motivation",
+    "differences",
+    "future_work",
+    "extends",
+]
+INTENT_COLORS = {
+    "background": "#94a3b8",
+    "uses": "#22c55e",
+    "similarities": "#3b82f6",
+    "motivation": "#f59e0b",
+    "differences": "#ef4444",
+    "future_work": "#8b5cf6",
+    "extends": "#06b6d4",
+}
+NODE_COLORS = {
+    "seed_paper": "#111827",
+    "citing_paper": "#dbeafe",
+    "citation_event": "#fde68a",
+    "journal": "#ede9fe",
+    "author": "#fee2e2",
+    "affiliation": "#fae8ff",
+    "city": "#cffafe",
+    "country": "#ffedd5",
+    "field": "#e0e7ff",
+    "intent": "#dcfce7",
+}
+DEFAULT_DATA_DIR = Path(
+    os.environ.get(
+        "CITATIONHUB_DATA_DIR",
+        r"C:\Users\user\OneDrive\바탕 화면\citationhub_v1_ontology_ready",
+    )
+)
+def fmt_num(x):
+    try:
+        return f"{int(x):,}"
+    except Exception:
+        return "-"
+def _load_from_hf():
+    """Hugging Face Dataset에서 Parquet 다운로드 후 로드 (Space 배포용)"""
+    try:
+        from huggingface_hub import hf_hub_download
+    except ImportError:
+        raise ImportError("huggingface_hub가 필요합니다. pip install huggingface_hub")
+    if not HF_REPO_ID:
+        raise ValueError("HF_REPO_ID가 설정되지 않았습니다. (예: username/citationhub-data)")
+    token = HF_TOKEN or None  # None이면 public repo, 있으면 private 인증
+    seed_path = hf_hub_download(repo_id=HF_REPO_ID, repo_type="dataset", filename="seed_cited_papers_normalized.parquet", token=token)
+    events_path = hf_hub_download(repo_id=HF_REPO_ID, repo_type="dataset", filename="citation_events_normalized.parquet", token=token)
+    citing_path = hf_hub_download(repo_id=HF_REPO_ID, repo_type="dataset", filename="citing_papers_normalized.parquet", token=token)
+    return pd.read_parquet(seed_path), pd.read_parquet(events_path), pd.read_parquet(citing_path)
+@st.cache_data(show_spinner=False)
+def load_data(data_dir_str: str):
+    # Hugging Face 모드: HF_REPO_ID가 설정되어 있으면 Dataset에서 로드
+    if HF_REPO_ID:
+        seed_df, events_df, citing_df = _load_from_hf()
+    else:
+        data_dir = Path(data_dir_str)
+        seed_path = data_dir / "seed_cited_papers_normalized.parquet"
+        events_path = data_dir / "citation_events_normalized.parquet"
+        citing_path = data_dir / "citing_papers_normalized.parquet"
+        missing = [str(p) for p in [seed_path, events_path, citing_path] if not p.exists()]
+        if missing:
+            raise FileNotFoundError(f"Missing parquet files: {missing}")
+        seed_df = pd.read_parquet(seed_path)
+        events_df = pd.read_parquet(events_path)
+        citing_df = pd.read_parquet(citing_path)
+    seed = pd.DataFrame({
+        "seed_paper_id": seed_df["seed_paper_id"],
+        "doi": seed_df.get("doi", "").fillna(""),
+        "title": seed_df.get("title", "").fillna(""),
+        "journal": seed_df.get("publication_name", "").fillna(""),
+        "author": seed_df.get("creator", "").fillna(""),
+        "affiliation": seed_df.get("affilname", "").fillna(""),
+        "city": seed_df.get("affiliation_city", "").fillna(""),
+        "country": seed_df.get("affiliation_country", "").fillna(""),
+        "field": seed_df.get("group", "").fillna(""),
+        "citedby_count": pd.to_numeric(seed_df.get("citedby_count"), errors="coerce").fillna(0).astype(int),
+    })
+    for col in ["title", "doi", "journal", "field", "country"]:
+        seed[f"{col}_lc"] = seed[col].astype(str).str.lower()
+    seed = seed.sort_values(["citedby_count", "title"], ascending=[False, True]).reset_index(drop=True)
+    events = pd.DataFrame({
+        "citation_event_id": events_df["citation_event_id"],
+        "seed_paper_id": events_df["cited_seed_paper_id"],
+        "citing_paper_id": events_df["citing_paper_id"],
+        "citing_title": events_df.get("citing_title", "").fillna(""),
+        "citing_doi": events_df.get("citing_doi", "").fillna(""),
+        "citing_year": pd.to_numeric(events_df.get("citing_year"), errors="coerce"),
+        "primary_intent": events_df.get("primary_intent", "").fillna(""),
+        "contexts": events_df.get("contexts"),
+        "context_count": pd.to_numeric(events_df.get("context_count"), errors="coerce").fillna(0).astype(int),
+        "intent_count": pd.to_numeric(events_df.get("intent_count"), errors="coerce").fillna(0).astype(int),
+    })
+    events = events[events["primary_intent"].isin(ALLOWED_INTENTS)].reset_index(drop=True)
+    citing = pd.DataFrame({
+        "citing_paper_id": citing_df["citing_paper_id"],
+        "doi": citing_df.get("doi", "").fillna(""),
+        "title": citing_df.get("title", "").fillna(""),
+        "year": pd.to_numeric(citing_df.get("year"), errors="coerce"),
+        "venue": citing_df.get("venue", "").fillna(""),
+        "oa_pdf": citing_df.get("oa_pdf", "").fillna(""),
+    })
+    filters = {
+        "fields": sorted([x for x in seed["field"].dropna().astype(str).unique().tolist() if x]),
+        "countries": sorted([x for x in seed["country"].dropna().astype(str).unique().tolist() if x]),
+        "journals": sorted([x for x in seed["journal"].dropna().astype(str).unique().tolist() if x]),
+        "intents": ALLOWED_INTENTS,
+        "year_min": int(events["citing_year"].dropna().min()) if events["citing_year"].notna().any() else 2000,
+        "year_max": int(events["citing_year"].dropna().max()) if events["citing_year"].notna().any() else 2025,
+    }
+    overview = {
+        "seed_papers": int(len(seed)),
+        "citation_events": int(len(events)),
+        "citing_papers": int(events["citing_paper_id"].nunique()),
+        "journals": int(seed["journal"].replace("", pd.NA).dropna().nunique()),
+        "countries": int(seed["country"].replace("", pd.NA).dropna().nunique()),
+        "fields": int(seed["field"].replace("", pd.NA).dropna().nunique()),
+        "intents": len(ALLOWED_INTENTS),
+    }
+    return seed, events, citing, filters, overview
+def filter_seed_papers(seed: pd.DataFrame, q: str, fields: List[str], countries: List[str], journals: List[str]):
+    df = seed.copy()
+    q = (q or "").strip().lower()
+    if q:
+        df = df[df["title_lc"].str.contains(q, na=False) | df["doi_lc"].str.contains(q, na=False)]
+    if fields:
+        wanted = {x.lower() for x in fields}
+        df = df[df["field"].str.lower().isin(wanted)]
+    if countries:
+        wanted = {x.lower() for x in countries}
+        df = df[df["country"].str.lower().isin(wanted)]
+    if journals:
+        wanted = {x.lower() for x in journals}
+        df = df[df["journal"].str.lower().isin(wanted)]
+    return df.reset_index(drop=True)
+def event_subset(events: pd.DataFrame, seed_paper_id: str, year_min: int, year_max: int):
+    df = events[events["seed_paper_id"] == seed_paper_id].copy()
+    df = df[df["citing_year"].fillna(-99999) >= year_min]
+    df = df[df["citing_year"].fillna(99999) <= year_max]
+    return df.reset_index(drop=True)
+def build_intent_summary(df: pd.DataFrame):
+    counts = df.groupby("primary_intent").size().to_dict()
+    return pd.DataFrame({
+        "intent": ALLOWED_INTENTS,
+        "count": [int(counts.get(intent, 0)) for intent in ALLOWED_INTENTS]
+    })
+def build_context_rows(df: pd.DataFrame, limit: int = 20):
+    rows = []
+    df = df.sort_values(["context_count", "intent_count", "citing_year"], ascending=[False, False, False], na_position="last")
+    for _, row in df.iterrows():
+        contexts = row["contexts"]
+        if isinstance(contexts, list) and contexts:
+            for ctx in contexts[:2]:
+                rows.append({
+                    "primary_intent": row["primary_intent"],
+                    "citing_title": row["citing_title"],
+                    "citing_doi": row["citing_doi"],
+                    "citing_year": None if pd.isna(row["citing_year"]) else int(row["citing_year"]),
+                    "context": ctx,
+                })
+        if len(rows) >= limit:
+            break
+    return pd.DataFrame(rows[:limit])
+def build_citing_table(df: pd.DataFrame, limit: int = 30):
+    if df.empty:
+        return pd.DataFrame(columns=["citing_title", "citing_year", "primary_intent", "context_count"])
+    out = (
+        df.sort_values(["context_count", "intent_count", "citing_year"], ascending=[False, False, False], na_position="last")
+        [["citing_paper_id", "citing_title", "citing_doi", "citing_year", "primary_intent", "context_count"]]
+        .drop_duplicates(subset=["citing_paper_id"])
+        .head(limit)
+    )
+    return out
+def pyvis_html_from_citation_graph(seed_row: pd.Series, events_df: pd.DataFrame):
+    net = Network(height="1100px", width="100%", bgcolor="#ffffff", font_color="#111827", directed=True)
+    seed_id = seed_row["seed_paper_id"]
+    net.add_node(seed_id, label=seed_row["title"][:60], color=INTENT_COLORS.get("background", "#111827"), size=34, shape="dot")
+    df = events_df.sort_values(["context_count", "intent_count"], ascending=[False, False]).head(40)
+    for _, row in df.iterrows():
+        cid = row["citing_paper_id"]
+        citing_label = (row["citing_title"] or row["citing_doi"] or cid)[:60]
+        net.add_node(cid, label=citing_label, color=NODE_COLORS["citing_paper"], size=18, shape="dot")
+        context = None
+        if isinstance(row["contexts"], list) and row["contexts"]:
+            context = row["contexts"][0]
+        title = f"Intent: {row['primary_intent']}<br>Year: {'' if pd.isna(row['citing_year']) else int(row['citing_year'])}<br>{context or ''}"
+        net.add_edge(cid, seed_id, label=row["primary_intent"], color=INTENT_COLORS.get(row["primary_intent"], "#94a3b8"), title=title)
+    net.barnes_hut()
+    return net.generate_html()
+def pyvis_html_from_kg(seed_row: pd.Series, events_df: pd.DataFrame):
+    net = Network(height="1100px", width="100%", bgcolor="#ffffff", font_color="#111827", directed=True)
+    seed_id = seed_row["seed_paper_id"]
+    net.add_node(seed_id, label=seed_row["title"][:60], color=NODE_COLORS["seed_paper"], font={"color": "white"}, size=34, shape="dot")
+    meta_map = [
+        ("journal", "journal", "PUBLISHED_IN"),
+        ("author", "author", "HAS_AUTHOR"),
+        ("affiliation", "affiliation", "HAS_AFFILIATION"),
+        ("city", "city", "LOCATED_IN_CITY"),
+        ("country", "country", "LOCATED_IN_COUNTRY"),
+        ("field", "field", "BELONGS_TO_FIELD"),
+    ]
+    for key, typ, rel in meta_map:
+        val = seed_row.get(key, "")
+        if val:
+            nid = f"{typ}:{val}"
+            net.add_node(nid, label=str(val)[:50], color=NODE_COLORS[typ], size=16)
+            net.add_edge(seed_id, nid, label=rel)
+    top_events = events_df.sort_values(["context_count", "intent_count"], ascending=[False, False]).head(20)
+    intent_counts = top_events.groupby("primary_intent").size().to_dict()
+    for intent, count in intent_counts.items():
+        iid = f"intent:{intent}"
+        net.add_node(iid, label=f"{intent} ({count})", color=NODE_COLORS["intent"], size=18)
+        net.add_edge(seed_id, iid, label="HAS_INTENT_CLUSTER")
+    for _, row in top_events.iterrows():
+        eid = row["citation_event_id"]
+        cid = row["citing_paper_id"]
+        net.add_node(eid, label=row["primary_intent"], color=NODE_COLORS["citation_event"], size=14)
+        net.add_node(cid, label=(row["citing_title"] or row["citing_doi"] or cid)[:55], color=NODE_COLORS["citing_paper"], size=14)
+        net.add_edge(eid, seed_id, label="HAS_CITED_PAPER")
+        net.add_edge(eid, cid, label="HAS_CITING_PAPER")
+        net.add_edge(eid, f"intent:{row['primary_intent']}", label="HAS_PRIMARY_INTENT")
+    net.barnes_hut()
+    return net.generate_html()
+def pyvis_html_from_ontology():
+    net = Network(height="1100px", width="100%", bgcolor="#ffffff", font_color="#111827", directed=True)
+    nodes = [
+        ("seed", "Top5PctCitedPaper", "seed_paper"),
+        ("event", "CitationEvent", "citation_event"),
+        ("citing", "CitingPaper", "citing_paper"),
+        ("intent", "Intent", "intent"),
+        ("journal", "Journal", "journal"),
+        ("author", "Author", "author"),
+        ("affiliation", "Affiliation", "affiliation"),
+        ("city", "City", "city"),
+        ("country", "Country", "country"),
+        ("field", "Field", "field"),
+    ]
+    for nid, label, typ in nodes:
+        net.add_node(nid, label=label, color=NODE_COLORS[typ], size=24)
+    edges = [
+        ("event", "citing", "hasCitingPaper"),
+        ("event", "seed", "hasCitedPaper"),
+        ("event", "intent", "hasPrimaryIntent"),
+        ("seed", "journal", "publishedInJournal"),
+        ("seed", "author", "hasAuthor"),
+        ("seed", "affiliation", "hasAffiliation"),
+        ("seed", "city", "locatedInCity"),
+        ("seed", "country", "locatedInCountry"),
+        ("seed", "field", "belongsToField"),
+    ]
+    for s, t, l in edges:
+        net.add_edge(s, t, label=l)
+    net.barnes_hut()
+    return net.generate_html()
+# ---------- UI ----------
+st.title("CitationHub")
+st.caption("Explore influential papers, their citation networks, and related research.")
+with st.sidebar:
+    st.subheader("Data source")
+    if HF_REPO_ID:
+        data_dir = "hf"
+        st.caption(f"Loading from Hugging Face: {HF_REPO_ID}")
+    else:
+        data_dir = st.text_input("Parquet directory", str(DEFAULT_DATA_DIR))
+    try:
+        seed, events, citing, filters, overview = load_data(data_dir)
+        st.success("Data loaded")
+    except Exception as e:
+        st.error(str(e))
+        st.stop()
+    st.subheader("Search seed papers")
+    q_input = st.text_input("Title or DOI")
+    if "q_submit" not in st.session_state:
+        st.session_state["q_submit"] = ""
+    if st.button("Search", use_container_width=True):
+        st.session_state["q_submit"] = q_input
+    fields = st.multiselect("Field", filters["fields"])
+    countries = st.multiselect("Country", filters["countries"])
+    journals = st.multiselect("Journal", filters["journals"][:200])
+    display_year_min = max(2000, filters["year_min"])
+    year_min, year_max = st.slider(
+        "Citing year",
+        display_year_min,
+        filters["year_max"],
+        (display_year_min, filters["year_max"]),
+    )
+    seed_filtered = filter_seed_papers(seed, st.session_state["q_submit"], fields, countries, journals)
+    st.subheader("Overview counts")
+    c1, c2 = st.columns(2)
+    c1.metric("Seed papers", fmt_num(overview["seed_papers"]))
+    c2.metric("Events", fmt_num(overview["citation_events"]))
+    c1.metric("Citing papers", fmt_num(overview["citing_papers"]))
+    c2.metric("Intents", fmt_num(overview["intents"]))
+    options = seed_filtered["seed_paper_id"].tolist()
+    if not options:
+        st.warning("No seed papers match the current search.")
+        st.stop()
+    default_idx = 0
+    current = st.session_state.get("selected_seed_id", options[0])
+    if current in options:
+        default_idx = options.index(current)
+    selected_seed_id = st.selectbox(
+        "Seed paper records",
+        options,
+        index=default_idx,
+        format_func=lambda sid: seed_filtered.loc[seed_filtered["seed_paper_id"] == sid, "title"].iloc[0],
+    )
+    st.session_state["selected_seed_id"] = selected_seed_id
+selected_seed = seed_filtered[seed_filtered["seed_paper_id"] == selected_seed_id].iloc[0]
+seed_events = event_subset(events, selected_seed_id, year_min, year_max)
+intent_summary = build_intent_summary(seed_events)
+contexts_df = build_context_rows(seed_events, limit=20)
+citing_df = build_citing_table(seed_events, limit=30)
+tab_overview, tab_cnet, tab_ontology, tab_kg = st.tabs(["Overview", "Citation network", "Ontology", "Knowledge graph"])
+with tab_overview:
+    col1, col2 = st.columns([1, 1])
+    with col1:
+        st.subheader("Selected seed paper detail")
+        detail_cols = st.columns(2)
+        detail_cols[0].metric("Cited by count", fmt_num(selected_seed["citedby_count"]))
+        detail_cols[1].metric("Related citation events", fmt_num(len(seed_events)))
+        st.markdown(f"**Title**  \n{selected_seed['title']}")
+        st.markdown(f"**DOI**  \n{selected_seed['doi'] or '-'}")
+        st.markdown(f"**Journal**  \n{selected_seed['journal'] or '-'}")
+        st.markdown(f"**Author**  \n{selected_seed['author'] or '-'}")
+        st.markdown(f"**Affiliation**  \n{selected_seed['affiliation'] or '-'}")
+        st.markdown(f"**City**  \n{selected_seed['city'] or '-'}")
+        st.markdown(f"**Country**  \n{selected_seed['country'] or '-'}")
+        st.markdown(f"**Field**  \n{selected_seed['field'] or '-'}")
+        st.subheader("Related citing papers")
+        st.dataframe(
+            citing_df.rename(columns={
+                "citing_title": "Title",
+                "citing_year": "Year",
+                "primary_intent": "Intent",
+                "context_count": "Contexts",
+            }),
+            use_container_width=True,
+            hide_index=True,
+        )
+    with col2:
+        st.subheader("Selected seed paper intent distribution")
+        fig_intent = px.bar(intent_summary, x="intent", y="count", color="intent", color_discrete_map=INTENT_COLORS)
+        fig_intent.update_layout(showlegend=False, xaxis_title="", yaxis_title="Count")
+        st.plotly_chart(fig_intent, use_container_width=True)
+        st.subheader("CitationHub field distribution")
+        field_dist = seed_filtered.groupby("field", dropna=False).size().reset_index(name="count").sort_values("count", ascending=False).head(20)
+        field_dist["field"] = field_dist["field"].replace("", "Unknown")
+        fig_field = px.bar(field_dist, x="field", y="count")
+        fig_field.update_layout(xaxis_title="", yaxis_title="Count")
+        st.plotly_chart(fig_field, use_container_width=True)
+        st.subheader("CitationHub intent distribution")
+        all_intent_counts = events.groupby("primary_intent").size().to_dict()
+        all_intent_df = pd.DataFrame({"intent": ALLOWED_INTENTS, "count": [int(all_intent_counts.get(i, 0)) for i in ALLOWED_INTENTS]})
+        fig_all_intent = px.bar(all_intent_df, x="intent", y="count", color="intent", color_discrete_map=INTENT_COLORS)
+        fig_all_intent.update_layout(showlegend=False, xaxis_title="", yaxis_title="Count")
+        st.plotly_chart(fig_all_intent, use_container_width=True)
+    st.subheader("Selected seed paper contexts")
+    if contexts_df.empty:
+        st.info("No contexts available for this seed paper.")
+    else:
+        for _, row in contexts_df.iterrows():
+            st.markdown(
+                f"""
+                <div style="border:1px solid #e2e8f0;border-radius:14px;padding:12px;margin-bottom:10px;background:#f8fafc;">
+                  <div style="display:inline-block;background:{INTENT_COLORS.get(row['primary_intent'], '#64748b')};color:white;border-radius:999px;padding:4px 8px;font-size:12px;margin-bottom:6px;">{row['primary_intent']}</div>
+                  <div style="font-size:12px;color:#64748b;margin-bottom:6px;">{row['citing_year'] or '-'} · {row['citing_title'] or row['citing_doi']}</div>
+                  <div>{row['context']}</div>
+                </div>
+                """,
+                unsafe_allow_html=True,
+            )
+with tab_cnet:
+    st.subheader("Citing ↔ cited citation network visualization")
+    cnet_expand = st.toggle("Expand citation network view", value=False, key="cnet_expand")
+    cnet_height = st.slider(
+        "Citation network height",
+        min_value=700,
+        max_value=1800,
+        value=1400 if cnet_expand else 900,
+        step=100,
+        key="cnet_height",
+    )
+    if seed_events.empty:
+        st.info("No citation network data for this seed paper.")
+    else:
+        html = pyvis_html_from_citation_graph(selected_seed, seed_events)
+        components.html(html, height=cnet_height, scrolling=True)
+with tab_ontology:
+    st.subheader("CitationHub ontology overview")
+    ontology_expand = st.toggle("Expand ontology view", value=False, key="ontology_expand")
+    ontology_height = st.slider(
+        "Ontology graph height",
+        min_value=700,
+        max_value=1800,
+        value=1400 if ontology_expand else 900,
+        step=100,
+        key="ontology_height",
+    )
+    components.html(pyvis_html_from_ontology(), height=ontology_height, scrolling=True)
+with tab_kg:
+    st.subheader("Knowledge graph for the selected seed paper")
+    kg_expand = st.toggle("Expand knowledge graph view", value=False, key="kg_expand")
+    kg_height = st.slider(
+        "Knowledge graph height",
+        min_value=700,
+        max_value=1800,
+        value=1400 if kg_expand else 900,
+        step=100,
+        key="kg_height",
+    )
+    if seed_events.empty:
+        st.info("No knowledge graph data for this seed paper.")
+    else:
+        components.html(pyvis_html_from_kg(selected_seed, seed_events), height=kg_height, scrolling=True)

requirements.txt CHANGED Viewed

@@ -1,3 +1,7 @@
-altair
-pandas
-streamlit

+streamlit==1.39.0
+pandas==2.2.2
+pyarrow==17.0.0
+plotly==5.24.1
+networkx==3.3
+pyvis==0.3.2
+huggingface_hub>=0.20.0