DrugReviewRetriever

Paused

App Files Files Community

zavavan commited on Mar 17, 2025

Commit

522a7c4

verified ·

1 Parent(s): 6324d26

Update app.py

Browse files

Files changed (1) hide show

app.py +30 -18

app.py CHANGED Viewed

@@ -32,44 +32,56 @@ def scrape_drugs_com_reviews(drug_name, max_pages=3, delay=2):
     """
     Scrapes user reviews from Drugs.com for a given drug.
     """
-    base_url = f"https://www.drugs.com/comments/{drug_name}/"
     all_reviews = []
-    with sync_playwright() as p:
-        browser = p.chromium.launch(headless=True)
-        page = browser.new_page()
         for page_num in range(1, max_pages + 1):
             url = base_url if page_num == 1 else f"{base_url}?page={page_num}"
             print(f"Scraping: {url}")
-            page.goto(url, timeout=60000)
-            time.sleep(delay)  # Give page some time to load
-            html = page.content()
             soup = BeautifulSoup(html, 'html.parser')
-            review_blocks = soup.select('.user-comment')
             if not review_blocks:
                 print("No reviews found on this page.")
                 break
             for block in review_blocks:
-                review_text = block.select_one('.user-comment-text')
-                condition = block.select_one('.drug-condition')
-                rating = block.select_one('.rating-score')
-                date = block.select_one('.comment-date')
                 all_reviews.append({
-                    "condition": condition.get_text(strip=True) if condition else None,
-                    "rating": rating.get_text(strip=True) if rating else None,
-                    "review": review_text.get_text(strip=True) if review_text else None,
-                    "date": date.get_text(strip=True) if date else None,
                     "source": url
                 })
-            time.sleep(delay)
-        browser.close()
     return pd.DataFrame(all_reviews)

     """
     Scrapes user reviews from Drugs.com for a given drug.
     """
+        base_url = f"https://www.drugs.com/comments/{drug_name}/"
     all_reviews = []
+    async with async_playwright() as p:
+        browser = await p.chromium.launch(headless=False)
+        context = await browser.new_context(
+            user_agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121 Safari/537.36",
+            locale="en-US",
+            viewport={'width': 1280, 'height': 800},
+            device_scale_factor=1,
+            is_mobile=False,
+            has_touch=False
+        )
+        page = await context.new_page()
         for page_num in range(1, max_pages + 1):
             url = base_url if page_num == 1 else f"{base_url}?page={page_num}"
             print(f"Scraping: {url}")
+            await page.goto(url, timeout=60000)
+            await asyncio.sleep(delay)  # Give page some time to load
+            html = await page.content()
+            await asyncio.sleep(delay)  # Give page some time to load
             soup = BeautifulSoup(html, 'html.parser')
+            print(soup)
+            review_blocks = soup.find_all('div', class_='ddc-comment ddc-box ddc-mgb-2')
             if not review_blocks:
                 print("No reviews found on this page.")
                 break
             for block in review_blocks:
+                review_paragraph = block.find('p')
+                if review_paragraph:
+                    # Remove the <b> tag from the paragraph to isolate the review text
+                    if review_paragraph.b:
+                        review_paragraph.b.extract()  # Removes <b> so it doesn't show up in the text
+                        # Get the cleaned text
+                        review_text = review_paragraph.get_text(strip=True)
                 all_reviews.append({
+                    "review": review_text if review_text else None,
                     "source": url
                 })
+            await asyncio.sleep(delay)
+        await browser.close()
     return pd.DataFrame(all_reviews)