Spaces:

Lukeetah
/

UniversalScrap

Sleeping

App Files Files Community

UniversalScrap / app.py

Lukeetah

Update app.py

6f77dbb verified 7 months ago

raw

history blame contribute delete

5.4 kB

	import gradio as gr
	import requests
	from bs4 import BeautifulSoup
	import time
	import random
	from urllib.parse import urljoin

	# --- Técnicas Anti-Scraping ---
	USER_AGENTS = [
	"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36",
	"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36",
	"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:89.0) Gecko/20100101 Firefox/89.0",
	]

	def get_random_user_agent():
	""" Devuelve un User-Agent al azar. """
	return random.choice(USER_AGENTS)

	# --- Función Principal de Scraping ---
	def scrape_website(url, max_links_str):
	"""
	Scrapea la URL, entra en cada link de detalle, extrae el contenido de las tablas
	y devuelve un archivo de texto para descargar.
	"""
	if not url.startswith('http'):
	url = 'https://' + url

	# Convertir el número máximo de links a entero, con un valor por defecto
	try:
	max_links = int(max_links_str)
	except (ValueError, TypeError):
	max_links = 10 # Valor por defecto si la entrada no es válida

	links_to_visit = set()
	all_content = f"Resultados del scraping para: {url}\n"
	all_content += "========================================\n\n"

	try:
	# 1. Petición a la URL principal
	headers = {'User-Agent': get_random_user_agent()}
	response = requests.get(url, headers=headers, timeout=15)
	response.raise_for_status()
	soup = BeautifulSoup(response.content, 'html.parser')

	# 2. Encontrar todos los links que parecen ser de audiencias
	# Se busca un patrón específico para ser más preciso
	for a_tag in soup.find_all('a', href=True):
	link = a_tag['href']
	# Usamos urljoin para construir correctamente la URL absoluta
	full_link = urljoin(url, link)
	# Filtramos para quedarnos solo con los links de audiencias del mismo sitio
	if url in full_link and '/audiencias/' in full_link:
	links_to_visit.add(full_link)

	all_content += f"Se encontraron {len(links_to_visit)} links de audiencias para visitar.\n"
	all_content += f"Procesando los primeros {min(len(links_to_visit), max_links)} links...\n\n"

	# 3. Visitar cada link y extraer el contenido de la tabla
	for i, link in enumerate(list(links_to_visit)[:max_links]):
	try:
	time.sleep(random.uniform(1, 2.5)) # Pausa respetuosa
	headers = {'User-Agent': get_random_user_agent()}
	detail_response = requests.get(link, headers=headers, timeout=10)
	detail_response.raise_for_status()
	detail_soup = BeautifulSoup(detail_response.content, 'html.parser')

	title = detail_soup.find('title').get_text(strip=True) if detail_soup.find('title') else "Sin título"
	all_content += f"--- Contenido de: {link} ---\n"
	all_content += f"Título: {title}\n\n"

	# Buscar la tabla de detalles (inspeccionando la página, vemos que tiene la clase 'table') [4, 5]
	table = detail_soup.find('table', class_='table')
	if table:
	# Extraer todas las filas de la tabla [1]
	rows = table.find_all('tr')
	for row in rows:
	# Extraer las celdas de cabecera (th) y datos (td)
	cols = row.find_all(['th', 'td'])
	# Limpiar y unir el texto de las celdas
	cleaned_cols = [ele.text.strip() for ele in cols]
	all_content += " \| ".join(cleaned_cols) + "\n"
	else:
	all_content += "No se encontró una tabla de detalles en esta página.\n"

	all_content += "\n----------------------------------------\n\n"

	except requests.RequestException as e:
	all_content += f"Error al visitar {link}: {e}\n\n"

	except requests.RequestException as e:
	return f"Error al acceder a la URL principal: {e}", None # Devuelve dos valores

	# 4. Crear el archivo de texto y devolverlo
	# Gradio maneja la creación del archivo temporal automáticamente [7, 8]
	file_path = "resultados_scraping.txt"
	with open(file_path, "w", encoding="utf-8") as f:
	f.write(all_content)

	# Devolvemos un mensaje de éxito y la ruta del archivo para la descarga
	return f"¡Proceso completado! Se procesaron {min(len(links_to_visit), max_links)} links. Descarga el archivo para ver los resultados.", file_path


	# --- Interfaz con Gradio ---
	iface = gr.Interface(
	fn=scrape_website,
	inputs=[
	gr.Textbox(lines=1, placeholder="Ingresa una URL (ej. leylobby.gob.cl/...)"),
	gr.Textbox(value="10", label="Número máximo de links a visitar")
	],
	outputs=[
	gr.Textbox(label="Estado del Proceso"),
	gr.File(label="Descargar Resultados (.txt)") # Componente de descarga de archivo [7, 9]
	],
	title="🤖 Web Scraper Pro v2",
	description="Ingresa una URL para extraer el contenido de los links de detalle. El resultado se genera en un archivo .txt descargable. ¡Ideal para análisis de datos!",
	allow_flagging="never"
	)

	# ¡Lanzamos la app!
	iface.launch()