Spaces:

EQUES
/

Paper-Extractor

Sleeping

App Files Files Community

stardust-coder commited on 25 days ago

Commit

135b830

1 Parent(s): 41414a0

[mod]

Browse files

Files changed (1) hide show

src/streamlit_app.py +40 -81

src/streamlit_app.py CHANGED Viewed

@@ -1,119 +1,78 @@
 import json
-import time
 import requests
 import streamlit as st
-from bs4 import BeautifulSoup
-# Google Scholar から論文リスト要素を取得
-def scrape_listings(soup):
-    return soup.select("div.gs_r.gs_or.gs_scl")
-# タイトル取得
-def scrape_scholar_title(listing):
-    title_element = listing.select_one("h3.gs_rt > a")
-    if title_element:
-        return title_element.text.strip()
-    return "タイトルなし"
-# publication info 取得
-def scrape_scholar_publication_info(listing):
-    publication_info_element = listing.select_one("div.gs_a")
-    if publication_info_element:
-        return publication_info_element.text.strip()
-    return "出版情報なし"
-# スニペット取得
-def scrape_scholar_snippet(listing):
-    snippet_element = listing.select_one("div.gs_rs, div.gs_snippet")
-    if snippet_element:
-        return snippet_element.text.strip()
-    return "スニペットなし"
-# Google Scholar からデータ取得
-def fetch_google_scholar_data(query):
-    url = "https://scholar.google.com/scholar"
     params = {
-        "hl": "en",
-        "q": query,
     }
-    headers = {
-        "User-Agent": (
-            "Mozilla/5.0 (Windows NT 10.0; Win64; x64) "
-            "AppleWebKit/537.36 (KHTML, like Gecko) "
-            "Chrome/122.0.0.0 Safari/537.36"
-        )
-    }
-    response = requests.get(url, params=params, headers=headers, timeout=15, verify=False)
     response.raise_for_status()
-    time.sleep(2)
-    soup = BeautifulSoup(response.text, "html.parser")
-    listings = scrape_listings(soup)
-    scholar_data = []
-    for listing in listings:
-        title = scrape_scholar_title(listing)
-        publication_info = scrape_scholar_publication_info(listing)
-        snippet = scrape_scholar_snippet(listing)
-        scholar_info = {
-            "title": title,
-            "publication_info": publication_info,
-            "snippet": snippet,
         }
-        scholar_data.append(scholar_info)
-    return scholar_data
 def main():
-    st.set_page_config(page_title="Google Scholar Scraper", layout="wide")
-    st.title("Google Scholar Scraper")
-    st.write("Google Scholar の検索結果を取得して表示します。")
-    query = st.text_input("検索キーワード", value="biology")
     if st.button("検索"):
-        with st.spinner("Google Scholar からデータ取得中..."):
             try:
-                scholar_data = fetch_google_scholar_data(query)
-                if not scholar_data:
-                    st.warning("検索結果が取得できませんでした。")
                     return
-                st.success(f"{len(scholar_data)} 件の結果を取得しました。")
-                for i, item in enumerate(scholar_data, start=1):
-                    with st.container():
-                        st.subheader(f"{i}. {item['title']}")
-                        st.write(f"**Publication Info:** {item['publication_info']}")
-                        st.write(f"**Snippet:** {item['snippet']}")
-                        st.divider()
-                json_data = json.dumps(scholar_data, indent=4, ensure_ascii=False)
                 st.download_button(
                     label="JSONをダウンロード",
                     data=json_data,
-                    file_name="google_scholar_data.json",
-                    mime="application/json",
                 )
-                st.json(scholar_data)
             except requests.exceptions.RequestException as e:
-                st.error(f"リクエスト中にエラーが発生しました: {e}")
             except Exception as e:
                 st.error(f"予期しないエラーが発生しました: {e}")
 main()

 import json
 import requests
 import streamlit as st
+API_URL = "https://api.semanticscholar.org/graph/v1/paper/search"
+def search_papers(query, limit=10):
     params = {
+        "query": query,
+        "limit": limit,
+        "fields": "title,abstract,authors,year,venue,url"
     }
+    response = requests.get(API_URL, params=params, timeout=20)
     response.raise_for_status()
+    data = response.json()
+    papers = []
+    for item in data.get("data", []):
+        authors = ", ".join([a.get("name", "") for a in item.get("authors", [])])
+        paper = {
+            "title": item.get("title", "タイトルなし"),
+            "publication_info": f"{authors} / {item.get('venue', 'Unknown Venue')} / {item.get('year', 'Unknown Year')}",
+            "snippet": item.get("abstract", "概要なし"),
+            "url": item.get("url", "")
         }
+        papers.append(paper)
+    return papers
 def main():
+    st.set_page_config(page_title="Paper Search App", layout="wide")
+    st.title("論文検索アプリ")
+    st.write("Semantic Scholar API を使って論文を検索します。")
+    query = st.text_input("検索キーワード", value="neuro")
+    limit = st.slider("取得件数", min_value=1, max_value=20, value=10)
     if st.button("検索"):
+        with st.spinner("検索中..."):
             try:
+                papers = search_papers(query, limit)
+                if not papers:
+                    st.warning("結果が見つかりませんでした。")
                     return
+                st.success(f"{len(papers)} 件取得しました。")
+                for i, paper in enumerate(papers, start=1):
+                    st.subheader(f"{i}. {paper['title']}")
+                    st.write(f"**Publication Info:** {paper['publication_info']}")
+                    st.write(f"**Snippet:** {paper['snippet']}")
+                    if paper["url"]:
+                        st.markdown(f"[論文ページを開く]({paper['url']})")
+                    st.divider()
+                json_data = json.dumps(papers, indent=2, ensure_ascii=False)
                 st.download_button(
                     label="JSONをダウンロード",
                     data=json_data,
+                    file_name="papers.json",
+                    mime="application/json"
                 )
+                st.json(papers)
             except requests.exceptions.RequestException as e:
+                st.error(f"APIリクエスト中にエラーが発生しました: {e}")
             except Exception as e:
                 st.error(f"予期しないエラーが発生しました: {e}")
 main()