Spaces:

deneve07
/

OriginatorFinder

Running

App Files Files Community

deneve07 commited on 24 days ago

Commit

2ada690

verified ·

1 Parent(s): dd37c90

Update app.py

Browse files

Files changed (1) hide show

app.py +28 -33

app.py CHANGED Viewed

@@ -239,23 +239,24 @@ def get_japan_originator(ing_ja, page):
     log, brands, companies = [], set(), set()
     try:
         log.append(f"1. 前往 PMDA (搜尋: {ing_ja})...")
-        page.goto("https://www.pmda.go.jp/PmdaSearch/iyakuSearch/", timeout=30000, wait_until="domcontentloaded")
-        log.append("2. 鎖定「一般名(成分)」欄位並填寫...")
-        search_input = page.locator('input#txtIppanName, input[name="general_name"]').first
-        search_input.wait_for(state="visible", timeout=15000)
-        search_input.fill(ing_ja)
-        log.append("3. 監聽新開視窗並按下 Enter...")
         with page.expect_popup() as popup_info:
             search_input.press("Enter")
         popup = popup_info.value
-        log.append("4. 等待新視窗表格並掃描所有分頁...")
         current_page = 1
-        # 💡 新增：自動翻頁迴圈
         while True:
             popup.wait_for_selector('table#ResultList, .errormsg, .non-result', timeout=15000)
             soup = BeautifulSoup(popup.content(), 'html.parser')
             table = soup.find('table', id='ResultList')
@@ -267,6 +268,7 @@ def get_japan_originator(ing_ja, page):
                     tds = tr.find_all('td')
                     if len(tds) >= 3:
                         title = tds[1].get_text(strip=True)
                         if not is_generic(title, "", ing_ja):
                             brands.add(clean_brand_name(title))
                             companies.add(tds[2].get_text(separator=" ", strip=True).replace('製造販売元／', ''))
@@ -274,15 +276,14 @@ def get_japan_originator(ing_ja, page):
                 log.append(f"❌ 第 {current_page} 頁未出現 ResultList。")
                 break
-            # 檢查是否有下一頁 (透過檢查下一頁的 JavaScript 觸發連結)
             current_page += 1
             next_page_link = popup.locator(f'a[href="javascript:changePg({current_page});"]')
             if next_page_link.count() > 0:
-                log.append(f"   -> 發現第 {current_page} 頁，準備翻頁...")
-                next_page_link.first.click()
-                popup.wait_for_load_state('domcontentloaded')
-                popup.wait_for_timeout(1500) # 給予表格重新渲染的緩衝時間
             else:
                 log.append("   -> 已無下一頁，結束掃描。")
                 break
@@ -298,30 +299,24 @@ def get_switzerland_originator(ing_de, page):
     log, brands, companies = [], set(), set()
     try:
         log.append(f"1. 前往 Swissmedicinfo 搜尋頁面 (搜尋: {ing_de})...")
-        page.goto("https://swissmedicinfo.ch/SearchPage", timeout=30000)
-        # 💡 修正：透過 Label 的 for 屬性反查 Input 的 ID，這是最堅固的定位法
-        log.append("2. 尋找 Wirkstoff (成分) 標籤並擷取綁定 ID...")
-        label = page.locator('label', has_text='Wirkstoff').first
-        label.wait_for(state="visible", timeout=15000)
-        input_id = label.get_attribute('for')
-        if input_id:
-            log.append(f"   -> 成功鎖定輸入框 ID: {input_id}")
-            ing_input = page.locator(f'#{input_id}')
-        else:
-            log.append("   -> 找不到 for 屬性，啟動備用相鄰節點定位...")
-            ing_input = page.locator('input[type="text"]').nth(1)
-        ing_input.fill(ing_de)
-        log.append("3. 點擊 Packungsbeilage suchen (搜尋) 按鈕...")
-        search_btn = page.locator('button', has_text='Packungsbeilage suchen').first
-        search_btn.click()
-        log.append("4. 等待網路請求與卡片 (.medicament-card) 渲染...")
-        page.wait_for_load_state('networkidle', timeout=15000)
-        page.wait_for_timeout(3000) # 給予 Vue.js 長出卡片的緩衝時間
         soup = BeautifulSoup(page.content(), 'html.parser')
         cards = soup.find_all('div', class_=re.compile('medicament-card'))

     log, brands, companies = [], set(), set()
     try:
         log.append(f"1. 前往 PMDA (搜尋: {ing_ja})...")
+        page.goto("https://www.pmda.go.jp/PmdaSearch/iyakuSearch/", timeout=45000, wait_until="domcontentloaded")
+        log.append("2. 準確定位置首頁搜尋框 (id='txtName')...")
+        # 依照您提供的 HTML 結構，直接鎖定 txtName
+        search_input = page.locator('input#txtName')
+        search_input.wait_for(state="attached", timeout=15000)
+        search_input.fill(ing_ja, force=True)
+        log.append("3. 觸發搜尋並監聽彈出新視窗...")
         with page.expect_popup() as popup_info:
             search_input.press("Enter")
         popup = popup_info.value
+        log.append("4. 等待新視窗表格並啟動自動翻頁掃描...")
         current_page = 1
         while True:
+            # 等待表格出現
             popup.wait_for_selector('table#ResultList, .errormsg, .non-result', timeout=15000)
             soup = BeautifulSoup(popup.content(), 'html.parser')
             table = soup.find('table', id='ResultList')
                     tds = tr.find_all('td')
                     if len(tds) >= 3:
                         title = tds[1].get_text(strip=True)
+                        # 這裡會自動把帶有「括號」或廠商名稱的學名藥濾掉
                         if not is_generic(title, "", ing_ja):
                             brands.add(clean_brand_name(title))
                             companies.add(tds[2].get_text(separator=" ", strip=True).replace('製造販売元／', ''))
                 log.append(f"❌ 第 {current_page} 頁未出現 ResultList。")
                 break
+            # 尋找下一頁的按鈕 (例如 javascript:changePg(2);)
             current_page += 1
             next_page_link = popup.locator(f'a[href="javascript:changePg({current_page});"]')
             if next_page_link.count() > 0:
+                log.append(f"   -> 發現第 {current_page} 頁，執行翻頁...")
+                next_page_link.first.click(force=True)
+                popup.wait_for_timeout(2000) # 給予表格重新渲染的緩衝時間
             else:
                 log.append("   -> 已無下一頁，結束掃描。")
                 break
     log, brands, companies = [], set(), set()
     try:
         log.append(f"1. 前往 Swissmedicinfo 搜尋頁面 (搜尋: {ing_de})...")
+        page.goto("https://swissmedicinfo.ch/SearchPage", timeout=45000, wait_until="domcontentloaded")
+        log.append("2. 透過父層容器定位 Wirkstoff 欄位...")
+        # 絕對定位：尋找包含 Wirkstoff 的 Vue 欄位容器，抓取內部的 input，無視任何 ID
+        search_input = page.locator('div.v-field__field').filter(has_text="Wirkstoff").locator('input[type="text"]').first
+        # 💡 關鍵修正：改為等待 attached (存在於DOM)，並用 force=True 無視 UI 動畫遮罩強制填寫
+        search_input.wait_for(state="attached", timeout=15000)
+        search_input.fill(ing_de, force=True)
+        log.append("3. 強制點擊搜尋按鈕...")
+        search_btn = page.locator('button').filter(has_text='Packungsbeilage suchen').first
+        search_btn.click(force=True)
+        log.append("4. 等待卡片 (.medicament-card) 渲染...")
+        page.wait_for_timeout(3000) # 給予 Vue.js 充分時間生成卡片
+        # 確保畫面出現卡片，或者出現找不到資料的提示
+        page.wait_for_selector('.medicament-card, .v-alert', timeout=15000)
         soup = BeautifulSoup(page.content(), 'html.parser')
         cards = soup.find_all('div', class_=re.compile('medicament-card'))