Spaces:

deneve07
/

OriginatorFinder

Running

App Files Files Community

deneve07 commited on 25 days ago

Commit

d004243

verified ·

1 Parent(s): 0207f8d

Update app.py

Browse files

Files changed (1) hide show

app.py +100 -81

app.py CHANGED Viewed

@@ -1,5 +1,6 @@
 import re
 import requests
 from urllib.parse import quote
 from bs4 import BeautifulSoup
 from playwright.sync_api import sync_playwright
@@ -19,7 +20,7 @@ def translate_en_to_ja(text):
     return text
 # ==========================================
-# 🇬🇧 英國 eMC (支援多重商品名)
 # ==========================================
 def get_uk_originator(ingredient_query, page):
     log = []
@@ -29,13 +30,11 @@ def get_uk_originator(ingredient_query, page):
     try:
         log.append("1. 前往 eMC 搜尋頁面...")
         page.goto(f"https://www.medicines.org.uk/emc/search?q={ingredient_query}", timeout=30000)
-        log.append("2. 等待搜尋結果...")
         page.wait_for_selector('.search-results-product-info-title-link', timeout=15000)
         soup = BeautifulSoup(page.content(), 'html.parser')
         links = soup.find_all('a', class_='search-results-product-info-title-link')
-        log.append(f"3. 找到 {len(links)} 筆結果，開始篩選...")
         for link in links:
             raw_title = link.get_text(strip=True)
@@ -52,15 +51,14 @@ def get_uk_originator(ingredient_query, page):
             log.append("✅ 成功找到原廠藥！")
             return ", ".join(brands), ", ".join(companies), "\n".join(log)
         else:
-            log.append("❌ 結果皆以成分名開頭，判定為無原廠。")
             return "查無原廠", "-", "\n".join(log)
     except Exception as e:
         log.append(f"❌ 發生錯誤: {str(e)}")
         return "執行失敗", "-", "\n".join(log)
 # ==========================================
-# 🇺🇸 美國 FDA (支援多重商品名)
 # ==========================================
 def get_usa_originator(ingredient_query, page):
     log = []
@@ -69,17 +67,16 @@ def get_usa_originator(ingredient_query, page):
     try:
         log.append("1. 前往 FDA Orange Book...")
-        page.goto("https://www.accessdata.fda.gov/scripts/cder/ob/index.cfm", timeout=30000)
-        log.append("2. 切換至 Active Ingredient 頁籤並輸入...")
-        # 增強版定位器
         page.locator('a[aria-controls="ingredient"], button:has-text("Active Ingredient")').first.click()
         page.locator('input[name="activeIngredient"], input#ingredient').first.fill(ingredient_query)
-        page.keyboard.press("Enter") # 避免按鈕找不到，直接按 Enter
         log.append("3. 等待結果表格...")
         page.wait_for_selector('table#example', timeout=15000)
         soup = BeautifulSoup(page.content(), 'html.parser')
         table = soup.find('table', id='example')
@@ -89,85 +86,108 @@ def get_usa_originator(ingredient_query, page):
             rld_idx = next((i for i, h in enumerate(headers) if 'rld' in h), 8)
             mfg_idx = next((i for i, h in enumerate(headers) if 'applicant holder' in h), 10)
-            tbody = table.find('tbody') or table
-            rows = tbody.find_all('tr')
-            log.append(f"4. 表格載入完成，共 {len(rows)} 列資料，開始尋找 RLD...")
             for tr in rows:
                 tds = tr.find_all('td')
                 if len(tds) > max(rld_idx, brand_idx):
-                    rld_text = tds[rld_idx].get_text(strip=True).upper()
-                    # 只要欄位內有 RLD 三個字就是原廠
-                    if "RLD" in rld_text:
                         brands.add(tds[brand_idx].get_text(strip=True))
                         if len(tds) > mfg_idx:
                             companies.add(tds[mfg_idx].get_text(strip=True))
         if brands:
-            log.append(f"✅ 成功找到 {len(brands)} 個 RLD 原廠藥！")
             return ", ".join(brands), ", ".join(companies), "\n".join(log)
         else:
-            log.append("❌ 表格中未發現 RLD 標記。")
-            return "尚未核准或無 RLD", "-", "\n".join(log)
     except Exception as e:
         log.append(f"❌ 發生錯誤: {str(e)}")
-        return "執行失敗", "-", "\n".join(log)
 # ==========================================
-# 🇨🇦 加拿大 DPD (支援多重商品名)
 # ==========================================
 def get_canada_originator(ingredient_query, page):
     log = []
-    brands = set()
-    companies = set()
-    generic_companies = ['apotex', 'teva', 'sandoz', 'jamp', 'mint', 'pharmascience', 'sanis', 'sivem', 'auro', 'glenmark', 'taro']
     try:
         log.append("1. 前往 Canada DPD...")
         page.goto("https://health-products.canada.ca/dpd-bdpp/index-eng.jsp", timeout=30000)
-        log.append("2. 輸入成分並送出...")
         page.locator('input[id="activeIngredient"]').fill(ingredient_query)
         page.keyboard.press("Enter")
-        log.append("3. 等待結果表格...")
         page.wait_for_selector('table#results', timeout=15000)
         soup = BeautifulSoup(page.content(), 'html.parser')
         table = soup.find('table', id='results')
-        if table:
-            tbody = table.find('tbody')
-            if tbody:
-                rows = tbody.find_all('tr')
-                log.append(f"4. 找到 {len(rows)} 筆資料，過濾學名藥廠中...")
-                for tr in rows:
-                    tds = tr.find_all('td')
-                    if len(tds) >= 4:
-                        comp_name_full = tds[2].get_text(strip=True)
-                        comp_name_lower = comp_name_full.lower()
-                        # 如果不是知名學名藥廠，我們就將其視為原廠（收集起來）
-                        if not any(gc in comp_name_lower for gc in generic_companies):
-                            product_name = tds[3].get_text(strip=True)
-                            brands.add(product_name)
-                            companies.add(comp_name_full)
-        if brands:
-            log.append("✅ 成功過濾出非學名藥品項！")
-            return ", ".join(brands), ", ".join(companies), "\n".join(log)
-        else:
-            log.append("❌ 剩下的全為學名藥廠，查無原廠。")
             return "查無原廠", "-", "\n".join(log)
     except Exception as e:
         log.append(f"❌ 發生錯誤: {str(e)}")
         return "執行失敗", "-", "\n".join(log)
 # ==========================================
-# 🇯🇵 日本 PMDA (支援多重商品名)
 # ==========================================
 def get_japan_originator(ingredient_query_ja, page):
     log = []
@@ -179,15 +199,25 @@ def get_japan_originator(ingredient_query_ja, page):
         log.append("1. 前往 PMDA...")
         page.goto("https://www.pmda.go.jp/PmdaSearch/iyakuSearch/", timeout=30000)
         log.append("2. 輸入並送出...")
-        page.locator('input[title*="一般名"], input[name="generalName"]').fill(ingredient_query_ja)
         page.keyboard.press("Enter")
         log.append("3. 等待表格 id=ResultList...")
         try:
             page.wait_for_selector('table#ResultList', timeout=15000)
         except:
-            log.append("❌ 等待逾時，可能是完全查無此成分。")
             return "查無資料", "-", "\n".join(log)
         soup = BeautifulSoup(page.content(), 'html.parser')
@@ -200,9 +230,7 @@ def get_japan_originator(ingredient_query_ja, page):
                 tds = tr.find_all('td')
                 if len(tds) >= 3:
                     raw_brand = tds[1].get_text(strip=True)
-                    # 條件：無括號學名標記，且不能只是純成分名
                     if '「' not in raw_brand and '（' not in raw_brand and ingredient_query_ja not in raw_brand:
-                        # 切除皮下注、錠、OD、數字等劑量標籤
                         clean_brand = re.split(r'(皮下注|錠|カプセル|顆粒|シロップ|OD|細粒|液|\d+)', raw_brand)[0].strip()
                         if clean_brand:
                             brands.add(clean_brand)
@@ -210,10 +238,10 @@ def get_japan_originator(ingredient_query_ja, page):
                             companies.add(comp)
         if brands:
-            log.append("✅ 成功排除學名藥括號，找到原廠！")
             return ", ".join(brands), ", ".join(companies), "\n".join(log)
         else:
-            log.append("❌ 找到的都是學名藥或格式不符。")
             return "查無原廠", "-", "\n".join(log)
     except Exception as e:
@@ -221,65 +249,56 @@ def get_japan_originator(ingredient_query_ja, page):
         return "執行失敗", "-", "\n".join(log)
 # ==========================================
-# 🚀 主執行函數
 # ==========================================
 def run_diagnostic_search(ingredient_en, ingredient_ja_manual):
     if not ingredient_en:
         return [["錯誤", "請輸入英文成分名", "-", ""]]
-    # 如果使用者沒有手動填寫日文，就呼叫 API 翻譯
-    if not ingredient_ja_manual:
-        ingredient_ja = translate_en_to_ja(ingredient_en)
-    else:
-        ingredient_ja = ingredient_ja_manual
     results = []
     with sync_playwright() as p:
-        # 使用 Firefox 測試 (有時候 Chromium 會被反爬蟲擋住)
         browser = p.chromium.launch(headless=True, args=['--no-sandbox', '--disable-dev-shm-usage'])
-        context = browser.new_context()
         page = context.new_page()
-        # 英國
         uk_b, uk_c, uk_log = get_uk_originator(ingredient_en, page)
         results.append(["🇬🇧 英國 (eMC)", uk_b, uk_c, uk_log])
-        # 美國
         us_b, us_c, us_log = get_usa_originator(ingredient_en, page)
         results.append(["🇺🇸 美國 (FDA)", us_b, us_c, us_log])
-        # 加拿大
         ca_b, ca_c, ca_log = get_canada_originator(ingredient_en, page)
         results.append(["🇨🇦 加拿大 (DPD)", ca_b, ca_c, ca_log])
-        # 日本
         ja_b, ja_c, ja_log = get_japan_originator(ingredient_ja, page)
         results.append(["🇯🇵 日本 (PMDA)", ja_b, ja_c, ja_log])
         browser.close()
     return results
 # ==========================================
 # 🎨 UI 介面
 # ==========================================
-with gr.Blocks(title="四國原廠智能檢索 (診斷與多重版)") as demo:
-    gr.Markdown("## 🌐 跨國原廠商品名檢索器 (支援多重商品名與診斷紀錄)")
     with gr.Row():
         ing_input = gr.Textbox(label="🧪 英文成分名 (必填)", placeholder="例如: Semaglutide")
-        ja_input = gr.Textbox(label="🇯🇵 日文成分名 (選填，若空白則自動翻譯)", placeholder="例如: セマグルチド (若自動翻譯失敗請手動填入)")
-    search_btn = gr.Button("🚀 啟動診斷與查詢", variant="primary")
     result_table = gr.Dataframe(
         headers=["國家", "🌟 判定為原廠的商品名", "🏭 藥廠名稱", "🛠️ 系統執行診斷日誌"],
         datatype=["str", "str", "str", "str"],
-        wrap=True, # 讓長長的日誌可以自動換行
         interactive=False
     )
     search_btn.click(fn=run_diagnostic_search, inputs=[ing_input, ja_input], outputs=[result_table])
 if __name__ == "__main__":

 import re
 import requests
+import datetime
 from urllib.parse import quote
 from bs4 import BeautifulSoup
 from playwright.sync_api import sync_playwright
     return text
 # ==========================================
+# 🇬🇧 英國 eMC
 # ==========================================
 def get_uk_originator(ingredient_query, page):
     log = []
     try:
         log.append("1. 前往 eMC 搜尋頁面...")
         page.goto(f"https://www.medicines.org.uk/emc/search?q={ingredient_query}", timeout=30000)
         page.wait_for_selector('.search-results-product-info-title-link', timeout=15000)
         soup = BeautifulSoup(page.content(), 'html.parser')
         links = soup.find_all('a', class_='search-results-product-info-title-link')
+        log.append(f"2. 找到 {len(links)} 筆結果，篩選非成分名開頭的項目...")
         for link in links:
             raw_title = link.get_text(strip=True)
             log.append("✅ 成功找到原廠藥！")
             return ", ".join(brands), ", ".join(companies), "\n".join(log)
         else:
+            log.append("❌ 查無原廠 (皆以成分名開頭)。")
             return "查無原廠", "-", "\n".join(log)
     except Exception as e:
         log.append(f"❌ 發生錯誤: {str(e)}")
         return "執行失敗", "-", "\n".join(log)
 # ==========================================
+# 🇺🇸 美國 FDA Orange Book (加入偽裝)
 # ==========================================
 def get_usa_originator(ingredient_query, page):
     log = []
     try:
         log.append("1. 前往 FDA Orange Book...")
+        # 加上 wait_until="domcontentloaded" 避免等待外部資源卡住
+        page.goto("https://www.accessdata.fda.gov/scripts/cder/ob/index.cfm", timeout=30000, wait_until="domcontentloaded")
+        log.append("2. 切換頁籤並搜尋...")
         page.locator('a[aria-controls="ingredient"], button:has-text("Active Ingredient")').first.click()
         page.locator('input[name="activeIngredient"], input#ingredient').first.fill(ingredient_query)
+        page.keyboard.press("Enter")
         log.append("3. 等待結果表格...")
         page.wait_for_selector('table#example', timeout=15000)
         soup = BeautifulSoup(page.content(), 'html.parser')
         table = soup.find('table', id='example')
             rld_idx = next((i for i, h in enumerate(headers) if 'rld' in h), 8)
             mfg_idx = next((i for i, h in enumerate(headers) if 'applicant holder' in h), 10)
+            rows = table.find('tbody').find_all('tr') if table.find('tbody') else table.find_all('tr')
             for tr in rows:
                 tds = tr.find_all('td')
                 if len(tds) > max(rld_idx, brand_idx):
+                    if "RLD" in tds[rld_idx].get_text(strip=True).upper():
                         brands.add(tds[brand_idx].get_text(strip=True))
                         if len(tds) > mfg_idx:
                             companies.add(tds[mfg_idx].get_text(strip=True))
         if brands:
+            log.append("✅ 成功找到 RLD 原廠藥！")
             return ", ".join(brands), ", ".join(companies), "\n".join(log)
         else:
+            log.append("❌ 尚未核准或無 RLD。")
+            return "查無原廠", "-", "\n".join(log)
     except Exception as e:
         log.append(f"❌ 發生錯誤: {str(e)}")
+        return "執行失敗 (可能被阻擋)", "-", "\n".join(log)
 # ==========================================
+# 🇨🇦 加拿大 DPD (日期比對 ＋ 多重商品名策略)
 # ==========================================
 def get_canada_originator(ingredient_query, page):
     log = []
+    # 更新學名藥黑名單以節省比對時間
+    generic_companies = ['apotex', 'teva', 'sandoz', 'jamp', 'mint', 'pharmascience', 'sanis', 'sivem', 'auro', 'glenmark', 'taro', 'marcan', 'nora', 'mantra', 'reddy', 'sandoz']
     try:
         log.append("1. 前往 Canada DPD...")
         page.goto("https://health-products.canada.ca/dpd-bdpp/index-eng.jsp", timeout=30000)
         page.locator('input[id="activeIngredient"]').fill(ingredient_query)
         page.keyboard.press("Enter")
+        log.append("2. 等待結果表格...")
         page.wait_for_selector('table#results', timeout=15000)
         soup = BeautifulSoup(page.content(), 'html.parser')
         table = soup.find('table', id='results')
+        if not table or not table.find('tbody'):
+            return "查無資料", "-", "\n".join(log)
+        rows = table.find('tbody').find_all('tr')
+        all_candidates = []
+        companies_to_check = {} # 記錄每家公司「隨便一個」連結去查日期
+        log.append(f"3. 找到 {len(rows)} 筆，過濾黑名單並彙整藥廠...")
+        for tr in rows:
+            tds = tr.find_all('td')
+            if len(tds) >= 4:
+                comp_name = tds[2].get_text(strip=True)
+                comp_lower = comp_name.lower()
+                # 擋掉已知學名藥廠
+                if any(gc in comp_lower for gc in generic_companies):
+                    continue
+                product_name = tds[3].get_text(strip=True)
+                link_tag = tds[1].find('a')
+                if link_tag:
+                    url = "https://health-products.canada.ca" + link_tag['href']
+                    all_candidates.append({"company": comp_name, "product": product_name})
+                    # 每家公司我們只記一個網址進去查日期就好，節省時間！
+                    if comp_name not in companies_to_check:
+                        companies_to_check[comp_name] = url
+        if not companies_to_check:
+            log.append("❌ 剩下的全為學名藥廠。")
             return "查無原廠", "-", "\n".join(log)
+        log.append(f"4. 進入詳細頁面比對 {len(companies_to_check)} 家候選藥廠的上市日期...")
+        earliest_date = datetime.datetime(2099, 12, 31)
+        originator_company = None
+        for comp_name, url in companies_to_check.items():
+            try:
+                page.goto(url, timeout=15000)
+                detail_soup = BeautifulSoup(page.content(), 'html.parser')
+                strong_tag = detail_soup.find(lambda tag: tag.name == "strong" and "Original Market Authorization Date" in tag.get_text())
+                if strong_tag and strong_tag.next_sibling:
+                    date_str = strong_tag.next_sibling.strip()
+                    auth_date = datetime.datetime.strptime(date_str, "%Y-%m-%d")
+                    log.append(f"   - {comp_name}: {date_str}")
+                    if auth_date < earliest_date:
+                        earliest_date = auth_date
+                        originator_company = comp_name
+            except Exception as e:
+                log.append(f"   - {comp_name} 抓取日期失敗")
+        if originator_company:
+            log.append(f"✅ 確認最���老原廠為: {originator_company} ({earliest_date.strftime('%Y-%m-%d')})")
+            # 把屬於這家原廠的所有商品名都抓出來！
+            final_brands = set([c['product'] for c in all_candidates if c['company'] == originator_company])
+            return ", ".join(final_brands), originator_company, "\n".join(log)
+        else:
+            return "查無日期", "-", "\n".join(log)
     except Exception as e:
         log.append(f"❌ 發生錯誤: {str(e)}")
         return "執行失敗", "-", "\n".join(log)
 # ==========================================
+# 🇯🇵 日本 PMDA (加入自動同意條款)
 # ==========================================
 def get_japan_originator(ingredient_query_ja, page):
     log = []
         log.append("1. 前往 PMDA...")
         page.goto("https://www.pmda.go.jp/PmdaSearch/iyakuSearch/", timeout=30000)
+        # 🟢 破門機制：檢查是否有「同意する」按鈕並點擊
+        try:
+            agree_btn = page.locator('text=同意する, input[value="同意する"], a:has-text("同意する")').first
+            if agree_btn.is_visible(timeout=3000):
+                log.append("   - 發現使用條款畫面，自動點擊同意...")
+                agree_btn.click()
+                page.wait_for_load_state('networkidle')
+        except:
+            pass # 沒有出現同意畫面就略過
         log.append("2. 輸入並送出...")
+        page.locator('input[title*="一般名"], input[name="generalName"]').first.fill(ingredient_query_ja)
         page.keyboard.press("Enter")
         log.append("3. 等待表格 id=ResultList...")
         try:
             page.wait_for_selector('table#ResultList', timeout=15000)
         except:
+            log.append("❌ 等待逾時，查無此成分。")
             return "查無資料", "-", "\n".join(log)
         soup = BeautifulSoup(page.content(), 'html.parser')
                 tds = tr.find_all('td')
                 if len(tds) >= 3:
                     raw_brand = tds[1].get_text(strip=True)
                     if '「' not in raw_brand and '（' not in raw_brand and ingredient_query_ja not in raw_brand:
                         clean_brand = re.split(r'(皮下注|錠|カプセル|顆粒|シロップ|OD|細粒|液|\d+)', raw_brand)[0].strip()
                         if clean_brand:
                             brands.add(clean_brand)
                             companies.add(comp)
         if brands:
+            log.append("✅ 成功找到原廠！")
             return ", ".join(brands), ", ".join(companies), "\n".join(log)
         else:
+            log.append("❌ 皆為學名藥括號。")
             return "查無原廠", "-", "\n".join(log)
     except Exception as e:
         return "執行失敗", "-", "\n".join(log)
 # ==========================================
+# 🚀 主執行函數 (加入 User-Agent 偽裝)
 # ==========================================
 def run_diagnostic_search(ingredient_en, ingredient_ja_manual):
     if not ingredient_en:
         return [["錯誤", "請輸入英文成分名", "-", ""]]
+    ingredient_ja = ingredient_ja_manual if ingredient_ja_manual else translate_en_to_ja(ingredient_en)
     results = []
     with sync_playwright() as p:
+        # 🟢 加入 user_agent 偽裝成正常的 Chrome，減少被阻擋的機率
         browser = p.chromium.launch(headless=True, args=['--no-sandbox', '--disable-dev-shm-usage'])
+        context = browser.new_context(
+            user_agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36"
+        )
         page = context.new_page()
         uk_b, uk_c, uk_log = get_uk_originator(ingredient_en, page)
         results.append(["🇬🇧 英國 (eMC)", uk_b, uk_c, uk_log])
         us_b, us_c, us_log = get_usa_originator(ingredient_en, page)
         results.append(["🇺🇸 美國 (FDA)", us_b, us_c, us_log])
         ca_b, ca_c, ca_log = get_canada_originator(ingredient_en, page)
         results.append(["🇨🇦 加拿大 (DPD)", ca_b, ca_c, ca_log])
         ja_b, ja_c, ja_log = get_japan_originator(ingredient_ja, page)
         results.append(["🇯🇵 日本 (PMDA)", ja_b, ja_c, ja_log])
         browser.close()
     return results
 # ==========================================
 # 🎨 UI 介面
 # ==========================================
+with gr.Blocks(title="四國原廠智能檢索 (精準多重版)") as demo:
+    gr.Markdown("## 🌐 跨國原廠商品名檢索器 (支援多重商品名與防爬蟲突破)")
     with gr.Row():
         ing_input = gr.Textbox(label="🧪 英文成分名 (必填)", placeholder="例如: Semaglutide")
+        ja_input = gr.Textbox(label="🇯🇵 日文成分名 (選填)", placeholder="例如: セマグルチド (若空白則自動翻譯)")
+    search_btn = gr.Button("🚀 啟動查詢", variant="primary")
     result_table = gr.Dataframe(
         headers=["國家", "🌟 判定為原廠的商品名", "🏭 藥廠名稱", "🛠️ 系統執行診斷日誌"],
         datatype=["str", "str", "str", "str"],
+        wrap=True,
         interactive=False
     )
     search_btn.click(fn=run_diagnostic_search, inputs=[ing_input, ja_input], outputs=[result_table])
 if __name__ == "__main__":