Spaces:

Lukeetah
/

UniversalScrap

Sleeping

App Files Files Community

Lukeetah commited on Jul 21, 2025

Commit

6f77dbb

verified ·

1 Parent(s): a35aa97

Update app.py

Browse files

Files changed (1) hide show

app.py +109 -109

app.py CHANGED Viewed

@@ -1,120 +1,120 @@
-import os
 import requests
-from flask import Flask, render_template, request, flash, redirect, url_for
 from bs4 import BeautifulSoup
-import pandas as pd
 import time
-# --- Inicialización de la Aplicación Flask ---
-app = Flask(__name__)
-# Se necesita una clave secreta para mostrar mensajes (flashing)
-app.secret_key = 'supersecretkey'
-# --- Lógica de Web Scraping ---
-def scrape_lobby_data():
     """
-    Función que realiza el web scraping en el sitio de Ley de Lobby,
-    extrae los datos de audiencias y los guarda en archivos TXT y CSV.
     """
-    # URL del sitio a scrapear para el año 2025
-    url = "https://www.leylobby.gob.cl/instituciones/AO001/audiencias/2025"
-    # --- Consideración Ética ---
-    # Es una buena práctica identificarse. Algunos sitios web pueden bloquear
-    # solicitudes sin un User-Agent reconocible.
-    headers = {
-        'User-Agent': 'EthicalScraper/1.0 (contacto@ejemplo.com) - Script para proyecto educativo'
-    }
     try:
-        # Realizar la solicitud GET para obtener el contenido de la página
-        print(f"Obteniendo datos desde: {url}")
         response = requests.get(url, headers=headers, timeout=15)
-        # Genera un error si la solicitud no fue exitosa (ej. error 404, 500)
-        response.raise_for_status()
-        # --- Parseo del HTML con BeautifulSoup ---
         soup = BeautifulSoup(response.content, 'html.parser')
-        # Encontrar la tabla que contiene los datos de las audiencias
-        # Se debe inspeccionar el HTML del sitio para encontrar los selectores correctos.
-        table = soup.find('table', class_='table-striped')
-        if not table:
-            print("No se encontró la tabla de datos. El sitio puede haber cambiado su estructura.")
-            return False, "No se pudo encontrar la tabla de datos en la página."
-        # --- Extracción de Datos ---
-        # Extraer los encabezados de la tabla
-        headers_list = [th.get_text(strip=True) for th in table.find('thead').find_all('th')]
-        # Extraer las filas de datos de la tabla
-        data_rows = []
-        for row in table.find('tbody').find_all('tr'):
-            columns = [td.get_text(strip=True) for td in row.find_all('td')]
-            data_rows.append(columns)
-        if not data_rows:
-            return False, "La tabla fue encontrada, pero no contenía datos de audiencias."
-        # --- Guardado de Archivos ---
-        # Crear un DataFrame de pandas con los datos extraídos
-        df = pd.DataFrame(data_rows, columns=headers_list)
-        # 1. Guardar en formato CSV
-        df.to_csv('audiencias_lobby.csv', index=False, encoding='utf-8-sig')
-        print("Datos guardados exitosamente en 'audiencias_lobby.csv'")
-        # 2. Guardar en formato TXT (formato de texto plano separado por comas)
-        df.to_csv('audiencias_lobby.txt', index=False, sep='\t')
-        print("Datos guardados exitosamente en 'audiencias_lobby.txt'")
-        # --- Pausa Ética ---
-        # Si fueras a hacer más solicitudes, es bueno esperar un momento.
-        time.sleep(1)
-        return True, f"¡Éxito! Se extrajeron {len(data_rows)} registros y se guardaron en 'audiencias_lobby.csv' y 'audiencias_lobby.txt'."
-    except requests.exceptions.RequestException as e:
-        # Capturar errores de red (ej. sin conexión, DNS no encontrado)
-        error_message = f"Error de red al intentar acceder a la URL: {e}"
-        print(error_message)
-        return False, error_message
-    except Exception as e:
-        # Capturar cualquier otro error inesperado
-        error_message = f"Ocurrió un error inesperado: {e}"
-        print(error_message)
-        return False, error_message
-# --- Rutas de la Aplicación Web ---
-@app.route('/')
-def index():
-    """
-    Renderiza la página principal (index.html).
-    """
-    return render_template('index.html')
-@app.route('/scrape', methods=['POST'])
-def run_scraper():
-    """
-    Esta ruta se activa cuando se hace clic en el botón del formulario.
-    Llama a la función de scraping y muestra un mensaje al usuario.
-    """
-    print("Iniciando proceso de scraping...")
-    success, message = scrape_lobby_data()
-    # Muestra un mensaje de éxito o error en la página
-    if success:
-        flash(message, 'success')
-    else:
-        flash(message, 'error')
-    # Redirige al usuario de vuelta a la página principal
-    return redirect(url_for('index'))
-# --- Punto de Entrada Principal ---
-if __name__ == '__main__':
-    # Inicia el servidor de desarrollo de Flask
-    # El debug=True permite ver los errores en el navegador y recarga el servidor automáticamente
-    app.run(debug=True)

+import gradio as gr
 import requests
 from bs4 import BeautifulSoup
 import time
+import random
+from urllib.parse import urljoin
+# --- Técnicas Anti-Scraping ---
+USER_AGENTS = [
+    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36",
+    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36",
+    "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:89.0) Gecko/20100101 Firefox/89.0",
+]
+def get_random_user_agent():
+    """ Devuelve un User-Agent al azar. """
+    return random.choice(USER_AGENTS)
+# --- Función Principal de Scraping ---
+def scrape_website(url, max_links_str):
     """
+    Scrapea la URL, entra en cada link de detalle, extrae el contenido de las tablas
+    y devuelve un archivo de texto para descargar.
     """
+    if not url.startswith('http'):
+        url = 'https://' + url
+    # Convertir el número máximo de links a entero, con un valor por defecto
+    try:
+        max_links = int(max_links_str)
+    except (ValueError, TypeError):
+        max_links = 10 # Valor por defecto si la entrada no es válida
+    links_to_visit = set()
+    all_content = f"Resultados del scraping para: {url}\n"
+    all_content += "========================================\n\n"
     try:
+        # 1. Petición a la URL principal
+        headers = {'User-Agent': get_random_user_agent()}
         response = requests.get(url, headers=headers, timeout=15)
+        response.raise_for_status()
         soup = BeautifulSoup(response.content, 'html.parser')
+        # 2. Encontrar todos los links que parecen ser de audiencias
+        # Se busca un patrón específico para ser más preciso
+        for a_tag in soup.find_all('a', href=True):
+            link = a_tag['href']
+            # Usamos urljoin para construir correctamente la URL absoluta
+            full_link = urljoin(url, link)
+            # Filtramos para quedarnos solo con los links de audiencias del mismo sitio
+            if url in full_link and '/audiencias/' in full_link:
+                links_to_visit.add(full_link)
+        all_content += f"Se encontraron {len(links_to_visit)} links de audiencias para visitar.\n"
+        all_content += f"Procesando los primeros {min(len(links_to_visit), max_links)} links...\n\n"
+        # 3. Visitar cada link y extraer el contenido de la tabla
+        for i, link in enumerate(list(links_to_visit)[:max_links]):
+            try:
+                time.sleep(random.uniform(1, 2.5)) # Pausa respetuosa
+                headers = {'User-Agent': get_random_user_agent()}
+                detail_response = requests.get(link, headers=headers, timeout=10)
+                detail_response.raise_for_status()
+                detail_soup = BeautifulSoup(detail_response.content, 'html.parser')
+                title = detail_soup.find('title').get_text(strip=True) if detail_soup.find('title') else "Sin título"
+                all_content += f"--- Contenido de: {link} ---\n"
+                all_content += f"Título: {title}\n\n"
+                # Buscar la tabla de detalles (inspeccionando la página, vemos que tiene la clase 'table') [4, 5]
+                table = detail_soup.find('table', class_='table')
+                if table:
+                    # Extraer todas las filas de la tabla [1]
+                    rows = table.find_all('tr')
+                    for row in rows:
+                        # Extraer las celdas de cabecera (th) y datos (td)
+                        cols = row.find_all(['th', 'td'])
+                        # Limpiar y unir el texto de las celdas
+                        cleaned_cols = [ele.text.strip() for ele in cols]
+                        all_content += " | ".join(cleaned_cols) + "\n"
+                else:
+                    all_content += "No se encontró una tabla de detalles en esta página.\n"
+                all_content += "\n----------------------------------------\n\n"
+            except requests.RequestException as e:
+                all_content += f"Error al visitar {link}: {e}\n\n"
+    except requests.RequestException as e:
+        return f"Error al acceder a la URL principal: {e}", None # Devuelve dos valores
+    # 4. Crear el archivo de texto y devolverlo
+    # Gradio maneja la creación del archivo temporal automáticamente [7, 8]
+    file_path = "resultados_scraping.txt"
+    with open(file_path, "w", encoding="utf-8") as f:
+        f.write(all_content)
+    # Devolvemos un mensaje de éxito y la ruta del archivo para la descarga
+    return f"¡Proceso completado! Se procesaron {min(len(links_to_visit), max_links)} links. Descarga el archivo para ver los resultados.", file_path
+# --- Interfaz con Gradio ---
+iface = gr.Interface(
+    fn=scrape_website,
+    inputs=[
+        gr.Textbox(lines=1, placeholder="Ingresa una URL (ej. leylobby.gob.cl/...)"),
+        gr.Textbox(value="10", label="Número máximo de links a visitar")
+    ],
+    outputs=[
+        gr.Textbox(label="Estado del Proceso"),
+        gr.File(label="Descargar Resultados (.txt)") # Componente de descarga de archivo [7, 9]
+    ],
+    title="🤖 Web Scraper Pro v2",
+    description="Ingresa una URL para extraer el contenido de los links de detalle. El resultado se genera en un archivo .txt descargable. ¡Ideal para análisis de datos!",
+    allow_flagging="never"
+)
+# ¡Lanzamos la app!
+iface.launch()