Spaces:

Lukeetah
/

UniversalScrap

Sleeping

App Files Files Community

Lukeetah commited on Jul 15, 2025

Commit

f5cf48c

verified ·

1 Parent(s): 307437b

Update app.py

Browse files

Files changed (1) hide show

app.py +47 -29

app.py CHANGED Viewed

@@ -57,17 +57,30 @@ class SeleniumLobbyScraper:
     def setup_driver(self):
         print("Configurando el navegador virtual (Chrome)...")
         options = webdriver.ChromeOptions()
-        options.add_argument("--headless")
         options.add_argument("--no-sandbox")
         options.add_argument("--disable-dev-shm-usage")
         options.add_argument("--disable-gpu")
-        options.add_argument("--window-size=1920x1080")
         options.add_argument("user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36")
         # Instala y configura el driver de Chrome automáticamente
-        service = ChromeService(ChromeDriverManager().install())
-        self.driver = webdriver.Chrome(service=service, options=options)
-        print("Navegador virtual configurado.")
     def shutdown_driver(self):
         if self.driver:
@@ -84,16 +97,16 @@ class SeleniumLobbyScraper:
             await asyncio.sleep(random.uniform(2, 4)) # Pequeña pausa para estabilidad
             try:
                 # Espera a que la tabla o lista de audiencias sea visible
-                wait = WebDriverWait(self.driver, 20) # Aumentado a 20s
-                # Selector genérico para una tabla de datos. Si falla, es lo primero a ajustar.
-                wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, "table.audiencias, table.table, .audiencias-list")))
                 print(f"Contenido dinámico detectado en la página {page_num}.")
                 # Extraer todos los enlaces "Ver Detalle" de la página actual
                 # Selector genérico que busca cualquier enlace 'a' que contenga '/audiencias/detalle/'
                 detail_links = self.driver.find_elements(By.CSS_SELECTOR, 'a[href*="/audiencias/detalle/"]')
                 if not detail_links:
-                    print(f"ADVERTENCIA: No se encontraron enlaces de detalle en la página {page_num}. Puede que el selector 'a[href*=\"/audiencias/detalle/\"]' sea incorrecto o no haya más audiencias.")
                 for link in detail_links:
                     href = link.get_attribute('href')
@@ -101,7 +114,7 @@ class SeleniumLobbyScraper:
                 print(f"Recolectados {len(detail_links)} enlaces en la página {page_num}. Total únicos: {len(all_detail_urls)}")
                 # Intentar ir a la siguiente página
-                # Selector genérico para un botón de paginación "Siguiente". Si falla, es lo segundo a ajustar.
                 next_button = self.driver.find_element(By.CSS_SELECTOR, "li.pagination-next:not(.disabled) a, a.page-link[aria-label='Next']")
                 print("Botón 'Siguiente' encontrado, haciendo clic...")
                 self.driver.execute_script("arguments[0].click();", next_button) # Click con JS para evitar problemas de "interactability"
@@ -122,7 +135,7 @@ class SeleniumLobbyScraper:
             wait = WebDriverWait(self.driver, 20)
             # Esperar a que un elemento clave de la página de detalle sea visible
             # Selector genérico, si falla, es lo tercero a ajustar.
-            wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, "div.materia, div.info-audiencia")))
             soup = BeautifulSoup(self.driver.page_source, 'html.parser')
@@ -188,23 +201,28 @@ class SeleniumLobbyScraper:
     async def run(self):
         try:
-            yield "Configurando navegador virtual...", "Procesando...", None, None, pd.DataFrame()
             self.setup_driver()
-            yield "Recolectando URLs de detalle...", "Navegando y esperando JavaScript...", None, None, pd.DataFrame()
             audiencia_detail_urls = await self.get_audience_detail_urls()
             if not audiencia_detail_urls:
                  summary_no_urls = "No se encontraron URLs de detalle para extraer.\n\n**Posibles causas:**\n1. No hay audiencias publicadas para la URL/fecha.\n2. Los selectores CSS genéricos no coinciden con la estructura del sitio.\n3. El sitio requiere una interacción más compleja que la actual.\n\nEl proceso ha finalizado."
-                 yield "Proceso finalizado: No se encontraron URLs.", summary_no_urls, None, None, pd.DataFrame()
                  return
-            yield f"Recolectadas {len(audiencia_detail_urls)} URLs. Extrayendo detalles...", "Procesando...", None, None, pd.DataFrame()
-            tasks = [self.extract_audience_detail(url) for url in audiencia_detail_urls]
-            results = await asyncio.gather(*tasks)
-            self.all_audiences_data = [item for sublist in results for item in sublist]
             print(f"Extracción completa. Total de registros: {len(self.all_audiences_data)}")
@@ -228,18 +246,18 @@ class SeleniumLobbyScraper:
             csv_filename = os.path.join(output_dir, f"leylobby_audiencias_{self.institucion_codigo}_{self.anio}_{timestamp}.csv")
             df.to_csv(csv_filename, index=False, encoding='utf-8-sig')
-            yield "Proceso finalizado.", summary_analysis, csv_filename, None, df_success.head(10)
         except Exception as e:
             print(f"Error crítico en el scraper: {e}"); traceback.print_exc()
-            yield "Error crítico.", f"Ocurrió un error grave: {e}\n\n{traceback.format_exc()}", None, None, pd.DataFrame()
         finally:
             self.shutdown_driver()
 # --- Interfaz Gradio ---
 def create_interface():
-    with gr.Blocks(title="🤖 Ley Lobby Scraper Adaptativo", theme=gr.themes.Soft(primary_hue="blue", secondary_hue="gray")) as demo:
         gr.HTML("""<div style="text-align: center; background: linear-gradient(135deg, #1e3a8a 0%, #1e40af 100%); color: white; padding: 25px; border-radius: 15px; margin-bottom: 25px;">
             <h1>🤖 Ley Lobby Scraper Robusto</h1>
             <p>Extractor inteligente que usa un navegador virtual para sortear defensas comunes y ejecutar JavaScript.</p></div>""")
@@ -250,27 +268,27 @@ def create_interface():
         with gr.Group():
             status_output = gr.Textbox(label="📊 Estado del Proceso", lines=3, interactive=False, autoscroll=True)
-            summary_output = gr.Markdown(label="📋 Resumen Ejecutivo")
         with gr.Row():
             download_file_csv = gr.File(label="📥 Descargar Reporte CSV Completo", interactive=False)
-            preview_table = gr.DataFrame(label="👀 Vista Previa (Datos Exitosos)", interactive=False)
         async def run_task(initial_url):
              if not initial_url or not (initial_url.startswith('http://') or initial_url.startswith('https://')):
-                  yield "Error: URL inválida.", "Por favor, introduce una URL válida.", None, pd.DataFrame()
                   return
              try:
                  scraper = SeleniumLobbyScraper(initial_url)
-                 async for status, summary, csv_file, _, preview_df in scraper.run():
-                      yield status, summary, csv_file, preview_df
              except Exception as e:
-                 yield "Error Crítico", f"Error: {e}\n{traceback.format_exc()}", None, pd.DataFrame()
         scrape_btn.click(
             fn=run_task,
             inputs=[url_input],
-            outputs=[status_output, summary_output, download_file_csv, preview_table]
         )
         gr.Markdown("### ¿Cómo funciona?\nEste sistema utiliza un navegador web virtual (Selenium con Chrome) para cargar completamente las páginas, incluyendo contenido dinámico de JavaScript. Navega automáticamente a través de la paginación para encontrar todas las audiencias y luego extrae los detalles de cada una. Esto lo hace mucho más resistente a los sitios web modernos que los scrapers tradicionales.")

     def setup_driver(self):
         print("Configurando el navegador virtual (Chrome)...")
         options = webdriver.ChromeOptions()
+        # Argumentos esenciales para entornos como Hugging Face Spaces
+        options.add_argument("--headless=new") # Nuevo método para modo headless
         options.add_argument("--no-sandbox")
         options.add_argument("--disable-dev-shm-usage")
         options.add_argument("--disable-gpu")
+        options.add_argument("--disable-extensions") # Deshabilitar extensiones
+        options.add_argument("--window-size=1920,1080")
         options.add_argument("user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36")
+        # En HF Spaces, especificar la ruta del binario de Chrome instalado vía packages.txt
+        if os.path.exists("/usr/bin/chromium-browser"):
+            print("Usando el binario de Chrome de /usr/bin/chromium-browser")
+            options.binary_location = "/usr/bin/chromium-browser"
         # Instala y configura el driver de Chrome automáticamente
+        try:
+            print("Instalando/Cacheando chromedriver con webdriver-manager...")
+            service = ChromeService(ChromeDriverManager().install())
+            self.driver = webdriver.Chrome(service=service, options=options)
+            print("Navegador virtual configurado exitosamente.")
+        except Exception as e:
+            print("Error FATAL al configurar Selenium. Verifica las dependencias en packages.txt.")
+            traceback.print_exc()
+            raise e
     def shutdown_driver(self):
         if self.driver:
             await asyncio.sleep(random.uniform(2, 4)) # Pequeña pausa para estabilidad
             try:
                 # Espera a que la tabla o lista de audiencias sea visible
+                wait = WebDriverWait(self.driver, 20)
+                # Selectores genéricos para una tabla de datos. Si falla, es lo primero a ajustar.
+                wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, "table.audiencias, table.table, .audiencias-list, #audiencias")))
                 print(f"Contenido dinámico detectado en la página {page_num}.")
                 # Extraer todos los enlaces "Ver Detalle" de la página actual
                 # Selector genérico que busca cualquier enlace 'a' que contenga '/audiencias/detalle/'
                 detail_links = self.driver.find_elements(By.CSS_SELECTOR, 'a[href*="/audiencias/detalle/"]')
                 if not detail_links:
+                    print(f"ADVERTENCIA: No se encontraron enlaces de detalle en la página {page_num}.")
                 for link in detail_links:
                     href = link.get_attribute('href')
                 print(f"Recolectados {len(detail_links)} enlaces en la página {page_num}. Total únicos: {len(all_detail_urls)}")
                 # Intentar ir a la siguiente página
+                # Selector genérico para un botón de paginación "Siguiente".
                 next_button = self.driver.find_element(By.CSS_SELECTOR, "li.pagination-next:not(.disabled) a, a.page-link[aria-label='Next']")
                 print("Botón 'Siguiente' encontrado, haciendo clic...")
                 self.driver.execute_script("arguments[0].click();", next_button) # Click con JS para evitar problemas de "interactability"
             wait = WebDriverWait(self.driver, 20)
             # Esperar a que un elemento clave de la página de detalle sea visible
             # Selector genérico, si falla, es lo tercero a ajustar.
+            wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, "div.materia, div.info-audiencia, #detalle_audiencia")))
             soup = BeautifulSoup(self.driver.page_source, 'html.parser')
     async def run(self):
         try:
+            yield "Configurando navegador virtual...", "Procesando...", None, None
             self.setup_driver()
+            yield "Recolectando URLs de detalle...", "Navegando y esperando JavaScript...", None, None
             audiencia_detail_urls = await self.get_audience_detail_urls()
             if not audiencia_detail_urls:
                  summary_no_urls = "No se encontraron URLs de detalle para extraer.\n\n**Posibles causas:**\n1. No hay audiencias publicadas para la URL/fecha.\n2. Los selectores CSS genéricos no coinciden con la estructura del sitio.\n3. El sitio requiere una interacción más compleja que la actual.\n\nEl proceso ha finalizado."
+                 yield "Proceso finalizado: No se encontraron URLs.", summary_no_urls, None, None
                  return
+            yield f"Recolectadas {len(audiencia_detail_urls)} URLs. Extrayendo detalles...", "Procesando...", None, None
+            # Usamos un bucle for secuencial para la extracción para mayor estabilidad con Selenium
+            all_results = []
+            for i, url in enumerate(audiencia_detail_urls):
+                print(f"Procesando detalle {i+1}/{len(audiencia_detail_urls)}: {url}")
+                yield f"Extrayendo detalle {i+1}/{len(audiencia_detail_urls)}...", f"URL: {url}", None, None
+                result_list = await self.extract_audience_detail(url)
+                all_results.append(result_list)
+            self.all_audiences_data = [item for sublist in all_results for item in sublist]
             print(f"Extracción completa. Total de registros: {len(self.all_audiences_data)}")
             csv_filename = os.path.join(output_dir, f"leylobby_audiencias_{self.institucion_codigo}_{self.anio}_{timestamp}.csv")
             df.to_csv(csv_filename, index=False, encoding='utf-8-sig')
+            yield "Proceso finalizado.", summary_analysis, csv_filename, None
         except Exception as e:
             print(f"Error crítico en el scraper: {e}"); traceback.print_exc()
+            yield "Error crítico.", f"Ocurrió un error grave: {e}\n\n{traceback.format_exc()}", None, None
         finally:
             self.shutdown_driver()
 # --- Interfaz Gradio ---
 def create_interface():
+    with gr.Blocks(title="🤖 Ley Lobby Scraper Robusto", theme=gr.themes.Soft(primary_hue="blue", secondary_hue="gray")) as demo:
         gr.HTML("""<div style="text-align: center; background: linear-gradient(135deg, #1e3a8a 0%, #1e40af 100%); color: white; padding: 25px; border-radius: 15px; margin-bottom: 25px;">
             <h1>🤖 Ley Lobby Scraper Robusto</h1>
             <p>Extractor inteligente que usa un navegador virtual para sortear defensas comunes y ejecutar JavaScript.</p></div>""")
         with gr.Group():
             status_output = gr.Textbox(label="📊 Estado del Proceso", lines=3, interactive=False, autoscroll=True)
+            summary_output = gr.Textbox(label="📋 Resumen Ejecutivo", lines=10, interactive=False, autoscroll=True)
         with gr.Row():
             download_file_csv = gr.File(label="📥 Descargar Reporte CSV Completo", interactive=False)
+            download_file_txt = gr.File(label="📥 Descargar Resumen TXT", interactive=False)
         async def run_task(initial_url):
              if not initial_url or not (initial_url.startswith('http://') or initial_url.startswith('https://')):
+                  yield "Error: URL inválida.", "Por favor, introduce una URL válida.", None, None
                   return
              try:
                  scraper = SeleniumLobbyScraper(initial_url)
+                 async for status, summary, csv_file, txt_file in scraper.run():
+                      yield status, summary, csv_file, txt_file
              except Exception as e:
+                 yield "Error Crítico", f"Error: {e}\n{traceback.format_exc()}", None, None
         scrape_btn.click(
             fn=run_task,
             inputs=[url_input],
+            outputs=[status_output, summary_output, download_file_csv, download_file_txt]
         )
         gr.Markdown("### ¿Cómo funciona?\nEste sistema utiliza un navegador web virtual (Selenium con Chrome) para cargar completamente las páginas, incluyendo contenido dinámico de JavaScript. Navega automáticamente a través de la paginación para encontrar todas las audiencias y luego extrae los detalles de cada una. Esto lo hace mucho más resistente a los sitios web modernos que los scrapers tradicionales.")