Spaces:

gabejavitt
/

agentCourse

Sleeping

App Files Files Community

gabejavitt commited on Feb 8

Commit

c47deb7

verified ·

1 Parent(s): e6af6ca

Update app.py

Browse files

Files changed (1) hide show

app.py +33 -59

app.py CHANGED Viewed

@@ -629,19 +629,13 @@ def validate_answer(proposed_answer: str, original_question: str) -> str:
 class WikipediaInput(BaseModel):
     query: str = Field(description="Topic to search (e.g., 'Mercedes Sosa', 'Python programming')")
 @tool(args_schema=WikipediaInput)
 @retry_with_backoff(max_retries=2)
 def wikipedia_search(query: str) -> str:
     """
-    Search Wikipedia with automatic page retrieval.
-    Better than search_tool for:
-    - Biographical information
-    - Historical facts
-    - Scientific concepts
-    - Counting items in lists (discography, filmography, etc.)
-    Returns full article sections, not just snippets.
     """
     start_time = time.time()
@@ -656,71 +650,51 @@ def wikipedia_search(query: str) -> str:
             telemetry.record_call("wikipedia_search", time.time() - start_time, True)
             return cached
-        import requests
-        # Step 1: Search for page
-        search_url = "https://en.wikipedia.org/w/api.php"
-        search_params = {
-            'action': 'opensearch',
-            'search': query,
-            'limit': 1,
-            'namespace': 0,
-            'format': 'json'
-        }
-        response = requests.get(search_url, params=search_params, timeout=10)
-        response.raise_for_status()
-        search_results = response.json()
-        if not search_results[1]:  # No results
-            result = f"No Wikipedia article found for: '{query}'"
-            search_cache.put(cache_key, result)
-            telemetry.record_call("wikipedia_search", time.time() - start_time, True)
-            return result
-        page_title = search_results[1][0]
-        page_url = search_results[3][0]
-        print(f"   Found: {page_title}")
-        print(f"   URL: {page_url}")
-        # Step 2: Get full page content
-        content_params = {
-            'action': 'query',
-            'titles': page_title,
-            'prop': 'extracts',
-            'explaintext': True,
-            'format': 'json'
-        }
-        response = requests.get(search_url, params=content_params, timeout=10)
-        response.raise_for_status()
-        data = response.json()
-        pages = data['query']['pages']
-        page_id = list(pages.keys())[0]
-        if page_id == '-1':
-            result = f"Wikipedia page not found: '{query}'"
-            search_cache.put(cache_key, result)
-            telemetry.record_call("wikipedia_search", time.time() - start_time, True)
-            return result
-        content = pages[page_id].get('extract', '')
-        if not content:
-            result = f"Wikipedia page found but content empty: '{page_title}'"
-            search_cache.put(cache_key, result)
-            telemetry.record_call("wikipedia_search", time.time() - start_time, True)
-            return result
         print(f"   Retrieved {len(content)} chars")
         # Format result
-        result = f"Wikipedia: {page_title}\n"
-        result += f"URL: {page_url}\n\n"
         result += content
-        result = truncate_if_needed(result, max_length=12000)  # Allow more for Wikipedia
         # Cache result
         search_cache.put(cache_key, result)
@@ -730,7 +704,7 @@ def wikipedia_search(query: str) -> str:
     except Exception as e:
         telemetry.record_call("wikipedia_search", time.time() - start_time, False)
-        raise ToolError("wikipedia_search", e, "Try a more specific search term")
 class SearchInput(BaseModel):

 class WikipediaInput(BaseModel):
     query: str = Field(description="Topic to search (e.g., 'Mercedes Sosa', 'Python programming')")
+# Replace your wikipedia_search function with:
 @tool(args_schema=WikipediaInput)
 @retry_with_backoff(max_retries=2)
 def wikipedia_search(query: str) -> str:
     """
+    Search Wikipedia by scraping (API blocked on HuggingFace).
     """
     start_time = time.time()
             telemetry.record_call("wikipedia_search", time.time() - start_time, True)
             return cached
+        # Build direct Wikipedia URL
+        wiki_title = query.replace(' ', '_')
+        wiki_url = f"https://en.wikipedia.org/wiki/{wiki_title}"
+        print(f"   Trying: {wiki_url}")
+        headers = {
+            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
+        }
+        response = requests.get(wiki_url, headers=headers, timeout=10)
+        # If 404, try search page
+        if response.status_code == 404:
+            search_url = f"https://en.wikipedia.org/w/index.php?search={query.replace(' ', '+')}"
+            print(f"   404, trying search: {search_url}")
+            response = requests.get(search_url, headers=headers, timeout=10)
+        response.raise_for_status()
+        soup = BeautifulSoup(response.text, 'html.parser')
+        # Get title
+        title_elem = soup.find('h1', {'id': 'firstHeading'})
+        title = title_elem.get_text() if title_elem else query
+        # Get main content
+        content_div = soup.find('div', {'class': 'mw-parser-output'})
+        if not content_div:
+            raise ValueError("No content found on Wikipedia page")
+        # Remove unwanted elements
+        for tag in content_div(['script', 'style', 'table', 'sup', 'span.reference']):
+            tag.extract()
+        content = content_div.get_text(separator='\n', strip=True)
         print(f"   Retrieved {len(content)} chars")
         # Format result
+        result = f"Wikipedia: {title}\n"
+        result += f"URL: {response.url}\n\n"
         result += content
+        result = truncate_if_needed(result, max_length=12000)
         # Cache result
         search_cache.put(cache_key, result)
     except Exception as e:
         telemetry.record_call("wikipedia_search", time.time() - start_time, False)
+        raise ToolError("wikipedia_search", e, "Try using search_tool instead")
 class SearchInput(BaseModel):