Spaces:

leonsimon23
/

MedResearchAgent

Sleeping

App Files Files Community

leonsimon23 commited on Sep 10, 2025

Commit

f73be48

verified ·

1 Parent(s): 5a53f4f

Update app.py

Browse files

Files changed (1) hide show

app.py +64 -64

app.py CHANGED Viewed

@@ -2,7 +2,7 @@ import streamlit as st
 import requests
 import xml.etree.ElementTree as ET
 import pandas as pd
-from googletrans import Translator, LANGUAGES
 # 语言翻译字典
 translations = {
@@ -22,8 +22,8 @@ translations = {
         "col_authors": "Authors",
         "col_link": "Link",
         "spinner_searching": "Searching PubMed and fetching up to 200 articles...",
-        "spinner_translating": "Translating results to Chinese...",
-        "translation_warning": "Could not translate an entry. Displaying original text."
     },
     "zh": {
         "title": "PubMed 文献检索",
@@ -41,7 +41,7 @@ translations = {
         "col_authors": "文献作者",
         "col_link": "文献链接",
         "spinner_searching": "正在检索 PubMed 并获取最多 200 篇文献...",
-        "spinner_translating": "正在将结果翻译成中文...",
         "translation_warning": "部分条目翻译失败，将显示原文。"
     }
 }
@@ -51,13 +51,10 @@ def get_translation(lang, key):
 @st.cache_data(ttl=3600)
 def search_pubmed(query, retmax=200):
-    """
-    使用PubMed API进行检索，并明确指定retmax
-    """
     base_url = "https://eutils.ncbi.nlm.nih.gov/entrez/eutils/"
     search_url = f"{base_url}esearch.fcgi?db=pubmed&term={query}&retmax={retmax}"
     try:
-        search_response = requests.get(search_url, timeout=15)
         search_response.raise_for_status()
         search_root = ET.fromstring(search_response.content)
         id_list = [id_elem.text for id_elem in search_root.findall(".//Id")]
@@ -68,53 +65,48 @@ def search_pubmed(query, retmax=200):
 @st.cache_data(ttl=3600)
 def fetch_articles(_id_list):
-    """
-    根据ID列表获取文献详情
-    """
     if not _id_list:
         return None
     base_url = "https://eutils.ncbi.nlm.nih.gov/entrez/eutils/"
-    # PubMed efetch有URL长度限制，分批获取更稳妥，但为简化，此处仍一次性获取
     ids = ",".join(_id_list)
     fetch_url = f"{base_url}efetch.fcgi?db=pubmed&id={ids}&rettype=xml"
     try:
-        fetch_response = requests.get(fetch_url, timeout=30)
         fetch_response.raise_for_status()
         return fetch_response.content
     except requests.exceptions.RequestException as e:
-        st.error(f"Error during fetching article details: {e}")
         return None
 def parse_articles(xml_data):
-    """
-    解析文献的XML数据
-    """
     articles = []
-    if xml_data:
-        root = ET.fromstring(xml_data)
-        for article in root.findall(".//PubmedArticle"):
-            title_elem = article.find(".//ArticleTitle")
-            title = "".join(title_elem.itertext()) if title_elem is not None else "No Title"
-            abstract_elem = article.find(".//Abstract/AbstractText")
-            abstract = "".join(abstract_elem.itertext()) if abstract_elem is not None else "No Abstract"
-            author_list = article.findall(".//Author")
-            authors = ", ".join([
-                f"{author.find('LastName').text if author.find('LastName') is not None else ''} {author.find('Initials').text if author.find('Initials') is not None else ''}".strip()
-                for author in author_list
-            ]) if author_list else "No Authors"
-            pmid_elem = article.find(".//PMID")
-            pmid = pmid_elem.text if pmid_elem is not None else ""
-            link = f"https://pubmed.ncbi.nlm.nih.gov/{pmid}/" if pmid else "No Link"
-            articles.append({
-                "Title": title,
-                "Abstract": abstract,
-                "Authors": authors,
-                "Link": link
-            })
     return articles
 def main():
@@ -132,15 +124,12 @@ def main():
     if st.button(get_translation(lang, "search_button")):
         if search_query:
             with st.spinner(get_translation(lang, "spinner_searching")):
-                # *** 关键修正点 ***
-                # 明确传入 retmax=200
                 id_list = search_pubmed(search_query, retmax=200)
                 if id_list:
                     xml_data = fetch_articles(tuple(id_list))
-                    articles = parse_articles(xml_data) if xml_data else []
-                else:
-                    articles = []
             if articles:
                 st.subheader(get_translation(lang, "results_title"))
@@ -150,22 +139,33 @@ def main():
                 if lang == 'zh':
                     with st.spinner(get_translation(lang, "spinner_translating")):
-                        translator = Translator()
-                        df_translated = df.copy()
-                        for index, row in df.iterrows():
-                            try:
-                                if row['Title'] != "No Title":
-                                    df_translated.at[index, 'Title'] = translator.translate(row['Title'], dest='zh-cn').text
-                                if row['Abstract'] != "No Abstract":
-                                    df_translated.at[index, 'Abstract'] = translator.translate(row['Abstract'], dest='zh-cn').text
-                            except Exception:
-                                # 只警告一次
-                                if 'translation_warning_shown' not in st.session_state:
-                                    st.warning(get_translation(lang, "translation_warning"), icon="⚠️")
-                                    st.session_state.translation_warning_shown = True
-                                continue
-                        df = df_translated
                 df.index = range(1, len(df) + 1)
                 df.rename(columns={
                     "Title": get_translation(lang, "col_title"),

 import requests
 import xml.etree.ElementTree as ET
 import pandas as pd
+from googletrans import Translator
 # 语言翻译字典
 translations = {
         "col_authors": "Authors",
         "col_link": "Link",
         "spinner_searching": "Searching PubMed and fetching up to 200 articles...",
+        "spinner_translating": "Translating results to Chinese (this may take a moment)...",
+        "translation_warning": "Could not translate some entries. Displaying original text for those."
     },
     "zh": {
         "title": "PubMed 文献检索",
         "col_authors": "文献作者",
         "col_link": "文献链接",
         "spinner_searching": "正在检索 PubMed 并获取最多 200 篇文献...",
+        "spinner_translating": "正在批量翻译结果 (请稍候)...",
         "translation_warning": "部分条目翻译失败，将显示原文。"
     }
 }
 @st.cache_data(ttl=3600)
 def search_pubmed(query, retmax=200):
     base_url = "https://eutils.ncbi.nlm.nih.gov/entrez/eutils/"
     search_url = f"{base_url}esearch.fcgi?db=pubmed&term={query}&retmax={retmax}"
     try:
+        search_response = requests.get(search_url, timeout=20) # 搜索ID一般很快
         search_response.raise_for_status()
         search_root = ET.fromstring(search_response.content)
         id_list = [id_elem.text for id_elem in search_root.findall(".//Id")]
 @st.cache_data(ttl=3600)
 def fetch_articles(_id_list):
     if not _id_list:
         return None
     base_url = "https://eutils.ncbi.nlm.nih.gov/entrez/eutils/"
     ids = ",".join(_id_list)
     fetch_url = f"{base_url}efetch.fcgi?db=pubmed&id={ids}&rettype=xml"
     try:
+        # 1. 增加超时时间：从30秒增加到90秒，以处理200篇文章的大请求
+        fetch_response = requests.get(fetch_url, timeout=90)
         fetch_response.raise_for_status()
         return fetch_response.content
     except requests.exceptions.RequestException as e:
+        st.error(f"Error during fetching article details (อาจเป็นเพราะหมดเวลา): {e}")
         return None
 def parse_articles(xml_data):
     articles = []
+    if not xml_data:
+        return articles
+    root = ET.fromstring(xml_data)
+    for article in root.findall(".//PubmedArticle"):
+        title_elem = article.find(".//ArticleTitle")
+        title = "".join(title_elem.itertext()) if title_elem is not None else "No Title"
+        abstract_elem = article.find(".//Abstract/AbstractText")
+        abstract = "".join(abstract_elem.itertext()) if abstract_elem is not None else "No Abstract"
+        author_list = article.findall(".//Author")
+        authors = ", ".join([
+            f"{author.find('LastName').text if author.find('LastName') is not None else ''} {author.find('Initials').text if author.find('Initials') is not None else ''}".strip()
+            for author in author_list
+        ]) if author_list else "No Authors"
+        pmid_elem = article.find(".//PMID")
+        pmid = pmid_elem.text if pmid_elem is not None else ""
+        link = f"https://pubmed.ncbi.nlm.nih.gov/{pmid}/" if pmid else "No Link"
+        articles.append({
+            "Title": title,
+            "Abstract": abstract,
+            "Authors": authors,
+            "Link": link
+        })
     return articles
 def main():
     if st.button(get_translation(lang, "search_button")):
         if search_query:
             with st.spinner(get_translation(lang, "spinner_searching")):
                 id_list = search_pubmed(search_query, retmax=200)
+                articles = []
                 if id_list:
                     xml_data = fetch_articles(tuple(id_list))
+                    if xml_data:
+                        articles = parse_articles(xml_data)
             if articles:
                 st.subheader(get_translation(lang, "results_title"))
                 if lang == 'zh':
                     with st.spinner(get_translation(lang, "spinner_translating")):
+                        try:
+                            translator = Translator()
+                            df_translated = df.copy()
+                            # 2. 批量翻译优化
+                            # 收集所有需要翻译的标题和摘要
+                            titles_to_translate = df_translated[df_translated['Title'] != "No Title"]['Title'].tolist()
+                            abstracts_to_translate = df_translated[df_translated['Abstract'] != "No Abstract"]['Abstract'].tolist()
+                            # 获取对应的索引，以便稍后写回
+                            title_indices = df_translated[df_translated['Title'] != "No Title"].index
+                            abstract_indices = df_translated[df_translated['Abstract'] != "No Abstract"].index
+                            # 一次性翻译所有标题
+                            if titles_to_translate:
+                                translated_titles = translator.translate(titles_to_translate, dest='zh-cn')
+                                df_translated.loc[title_indices, 'Title'] = [t.text for t in translated_titles]
+                            # 一次性翻译所有摘要
+                            if abstracts_to_translate:
+                                translated_abstracts = translator.translate(abstracts_to_translate, dest='zh-cn')
+                                df_translated.loc[abstract_indices, 'Abstract'] = [t.text for t in translated_abstracts]
+                            df = df_translated
+                        except Exception as e:
+                            st.warning(f"{get_translation(lang, 'translation_warning')} (Error: {e})", icon="⚠️")
                 df.index = range(1, len(df) + 1)
                 df.rename(columns={
                     "Title": get_translation(lang, "col_title"),