Spaces:

Lukeetah
/

UniversalScrap

Sleeping

App Files Files Community

Lukeetah commited on Jul 15, 2025

Commit

f06ce2c

verified ·

1 Parent(s): f5cf48c

Update app.py

Browse files

Files changed (1) hide show

app.py +13 -13

app.py CHANGED Viewed

@@ -1,7 +1,6 @@
 # app.py
 import asyncio
-import aiohttp
 from bs4 import BeautifulSoup
 from selenium import webdriver
 from selenium.webdriver.common.by import By
@@ -9,7 +8,6 @@ from selenium.webdriver.chrome.service import Service as ChromeService
 from selenium.webdriver.support.ui import WebDriverWait
 from selenium.webdriver.support import expected_conditions as EC
 from selenium.common.exceptions import NoSuchElementException, TimeoutException
-from webdriver_manager.chrome import ChromeDriverManager
 from urllib.parse import urljoin, urlparse
 import pandas as pd
 import re
@@ -19,7 +17,6 @@ from datetime import datetime
 import gradio as gr
 import os
 import traceback
-import ssl
 # --- Funciones Utilitarias ---
 def clean_text(text):
@@ -66,19 +63,20 @@ class SeleniumLobbyScraper:
         options.add_argument("--window-size=1920,1080")
         options.add_argument("user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36")
-        # En HF Spaces, especificar la ruta del binario de Chrome instalado vía packages.txt
-        if os.path.exists("/usr/bin/chromium-browser"):
-            print("Usando el binario de Chrome de /usr/bin/chromium-browser")
-            options.binary_location = "/usr/bin/chromium-browser"
-        # Instala y configura el driver de Chrome automáticamente
         try:
-            print("Instalando/Cacheando chromedriver con webdriver-manager...")
-            service = ChromeService(ChromeDriverManager().install())
             self.driver = webdriver.Chrome(service=service, options=options)
             print("Navegador virtual configurado exitosamente.")
         except Exception as e:
-            print("Error FATAL al configurar Selenium. Verifica las dependencias en packages.txt.")
             traceback.print_exc()
             raise e
@@ -98,7 +96,7 @@ class SeleniumLobbyScraper:
             try:
                 # Espera a que la tabla o lista de audiencias sea visible
                 wait = WebDriverWait(self.driver, 20)
-                # Selectores genéricos para una tabla de datos. Si falla, es lo primero a ajustar.
                 wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, "table.audiencias, table.table, .audiencias-list, #audiencias")))
                 print(f"Contenido dinámico detectado en la página {page_num}.")
@@ -229,8 +227,10 @@ class SeleniumLobbyScraper:
             # Generate final summary and files
             df = pd.DataFrame(self.all_audiences_data)
             required_cols_final = ['Fecha', 'Hora', 'Identificador Audiencia', 'Link Audiencia', 'Funcionario (nombre, cargo, código)', 'Gestor de intereses (nombre, empresa)', 'Representados', 'Materia', 'Detalle', 'Participantes (rol)']
             for col in required_cols_final:
-                if col not in df.columns: df[col] = None
             df = df[required_cols_final]
             summary_analysis = "✅ ¡Extracción completada!\n\n"

 # app.py
 import asyncio
 from bs4 import BeautifulSoup
 from selenium import webdriver
 from selenium.webdriver.common.by import By
 from selenium.webdriver.support.ui import WebDriverWait
 from selenium.webdriver.support import expected_conditions as EC
 from selenium.common.exceptions import NoSuchElementException, TimeoutException
 from urllib.parse import urljoin, urlparse
 import pandas as pd
 import re
 import gradio as gr
 import os
 import traceback
 # --- Funciones Utilitarias ---
 def clean_text(text):
         options.add_argument("--window-size=1920,1080")
         options.add_argument("user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36")
+        # En el entorno Docker, las rutas son predecibles
+        chrome_driver_path = "/usr/local/bin/chromedriver"  # Ruta común si se instala manualmente o con Docker
+        if not os.path.exists(chrome_driver_path):
+             # Fallback a una ruta común de Chrome si la principal falla
+             chrome_driver_path = "/usr/bin/chromedriver"
+        # Crear instancia de Selenium con el servicio y las opciones
         try:
+            print(f"Usando chromedriver de la ruta: {chrome_driver_path}")
+            service = ChromeService(executable_path=chrome_driver_path)
             self.driver = webdriver.Chrome(service=service, options=options)
             print("Navegador virtual configurado exitosamente.")
         except Exception as e:
+            print("Error FATAL al configurar Selenium. Verifica que el Dockerfile haya instalado Chrome correctamente.")
             traceback.print_exc()
             raise e
             try:
                 # Espera a que la tabla o lista de audiencias sea visible
                 wait = WebDriverWait(self.driver, 20)
+                # Selector genérico para una tabla de datos. Si falla, es lo primero a ajustar.
                 wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, "table.audiencias, table.table, .audiencias-list, #audiencias")))
                 print(f"Contenido dinámico detectado en la página {page_num}.")
             # Generate final summary and files
             df = pd.DataFrame(self.all_audiences_data)
             required_cols_final = ['Fecha', 'Hora', 'Identificador Audiencia', 'Link Audiencia', 'Funcionario (nombre, cargo, código)', 'Gestor de intereses (nombre, empresa)', 'Representados', 'Materia', 'Detalle', 'Participantes (rol)']
+            # FIX: Corrected syntax for creating columns if not exists
             for col in required_cols_final:
+                if col not in df.columns:
+                    df[col] = None
             df = df[required_cols_final]
             summary_analysis = "✅ ¡Extracción completada!\n\n"