webmetaextractor

Runtime error

App Files Files Community

zvl commited on Feb 17, 2025

Commit

930fb8e

verified ·

1 Parent(s): a3ad57b

Update app.py

Browse files

Files changed (1) hide show

app.py +35 -1

app.py CHANGED Viewed

@@ -9,6 +9,40 @@ from bs4 import BeautifulSoup
 from Gradio_UI import GradioUI
 # Below is an example of a tool that does nothing. Amaze us with your creativity !
 @tool
 def extract_metadata_from_url(url: str) -> dict:
     """Extrae todos los metadatos de una página web.
@@ -78,7 +112,7 @@ with open("prompts.yaml", 'r') as stream:
 agent = CodeAgent(
     model=model,
-    tools=[final_answer, extract_metadata_from_url], ## add your tools here (don't remove final answer)
     max_steps=6,
     verbosity_level=1,
     grammar=None,

 from Gradio_UI import GradioUI
 # Below is an example of a tool that does nothing. Amaze us with your creativity !
+@tool
+def scrape_webpage(url: str, tag: str = "p", class_name: str = None) -> dict:
+    """Extrae contenido de una página web según una etiqueta HTML y clase opcional.
+    Args:
+        url: URL de la página a scrapear.
+        tag: Etiqueta HTML a extraer (por defecto <p>).
+        class_name: Clase CSS opcional para filtrar resultados.
+    Returns:
+        Un diccionario con el contenido extraído.
+    """
+    try:
+        headers = {'User-Agent': 'Mozilla/5.0'}
+        response = requests.get(url, headers=headers)
+        response.raise_for_status()
+        soup = BeautifulSoup(response.text, 'html.parser')
+        if class_name:
+            elements = soup.find_all(tag, class_=class_name)
+        else:
+            elements = soup.find_all(tag)
+        extracted_data = [element.get_text(strip=True) for element in elements]
+        return {"url": url, "scraped_data": extracted_data[:20]}  # Limita a 10 resultados
+    except requests.exceptions.RequestException as e:
+        return {"error": f"Error al acceder a la URL: {str(e)}"}
+    except Exception as e:
+        return {"error": f"Error inesperado: {str(e)}"}
 @tool
 def extract_metadata_from_url(url: str) -> dict:
     """Extrae todos los metadatos de una página web.
 agent = CodeAgent(
     model=model,
+    tools=[final_answer, extract_metadata_from_url, scrape_webpage], ## add your tools here (don't remove final answer)
     max_steps=6,
     verbosity_level=1,
     grammar=None,