unit4_test

Sleeping

App Files Files Community

Vladyslav Khaitov commited on Aug 1, 2025

Commit

8e26419

1 Parent(s): e354c90

Add more readable version of wikipedia pages when visiting web page (live or archived)

Browse files

Files changed (1) hide show

tools/text_web_browser.py +33 -13

tools/text_web_browser.py CHANGED Viewed

@@ -13,6 +13,7 @@ from urllib.parse import unquote, urljoin, urlparse
 import pathvalidate
 import requests
 # from serpapi import GoogleSearch
 from markdownify import markdownify
@@ -471,10 +472,19 @@ class VisitTool(Tool):
         self.browser = browser
     def forward(self, url: str) -> str:
-        self.browser.visit_page(url)
-        header, content = self.browser._state()
-        # return header.strip() + "\n=======================\n" + content
-        return markdownify(content)
 class DownloadTool(Tool):
@@ -545,15 +555,25 @@ class ArchiveSearchTool(Tool):
         else:
             raise Exception(f"Your {url=} was not archived on Wayback Machine, try a different url.")
         target_url = closest["url"]
-        self.browser.visit_page(target_url)
-        header, content = self.browser._state()
-        # return (
-        #     f"Web archive for url {url}, snapshot taken at date {closest['timestamp'][:8]}:\n"
-        #     + header.strip()
-        #     + "\n=======================\n"
-        #     + content
-        # )
-        return markdownify(content)
 class PageUpTool(Tool):

 import pathvalidate
 import requests
+import trafilatura
 # from serpapi import GoogleSearch
 from markdownify import markdownify
         self.browser = browser
     def forward(self, url: str) -> str:
+        if 'wikipedia.org/wiki/' in url:
+            downloaded = trafilatura.fetch_url(url)
+            if downloaded is None:
+                return "Failed to fetch the Wikipedia page content."
+            extracted = trafilatura.extract(downloaded)
+            if not extracted:
+                return "Failed to extract main content from the Wikipedia page."
+            return extracted
+        else:
+            self.browser.visit_page(url)
+            header, content = self.browser._state()
+            # return header.strip() + "\n=======================\n" + content
+            return markdownify(content)
 class DownloadTool(Tool):
         else:
             raise Exception(f"Your {url=} was not archived on Wayback Machine, try a different url.")
         target_url = closest["url"]
+        if 'wikipedia.org/wiki/' in target_url:
+            downloaded = trafilatura.fetch_url(target_url)
+            if downloaded is None:
+                return "Failed to fetch the Wikipedia page content."
+            extracted = trafilatura.extract(downloaded)
+            if not extracted:
+                return "Failed to extract main content from the Wikipedia page."
+            return extracted
+        else:
+            self.browser.visit_page(target_url)
+            header, content = self.browser._state()
+            # return (
+            #     f"Web archive for url {url}, snapshot taken at date {closest['timestamp'][:8]}:\n"
+            #     + header.strip()
+            #     + "\n=======================\n"
+            #     + content
+            # )
+            return markdownify(content)
 class PageUpTool(Tool):