Spaces:

tx3bas
/

kwrl-url

Running

App Files Files Community

tx3bas commited on May 26, 2024

Commit

13ef407

verified ·

1 Parent(s): ab306e6

Update extract.py

Browse files

Files changed (1) hide show

extract.py +8 -35

extract.py CHANGED Viewed

@@ -1,10 +1,11 @@
 from selenium import webdriver
 from selenium.common.exceptions import WebDriverException
 from bs4 import BeautifulSoup
 import time
 import random
-import logging
-from fp.fp import FreeProxy
 # Lista de User Agents para rotar
 user_agents = [
@@ -33,38 +34,19 @@ user_agents = [
 def get_random_user_agent():
     return random.choice(user_agents)
-def get_random_window_size():
-    window_sizes = [
-        (1920, 1080), (1366, 768), (1440, 900), (1536, 864), (1280, 800), (1280, 720), (1024, 768)
-    ]
-    return random.choice(window_sizes)
-def get_proxy():
-    proxy = FreeProxy(rand=True, timeout=1).get()
-    return proxy
 def extract_data(user_input, mode):
-    proxy = get_proxy()
-    proxy_url = f"http://{proxy}"
     options = webdriver.ChromeOptions()
     options.add_argument('--headless')
     options.add_argument('--no-sandbox')
     options.add_argument('--disable-dev-shm-usage')
     options.add_argument(f"user-agent={get_random_user_agent()}")
-    options.add_argument('--proxy-server=%s' % proxy_url)
-    wd = None
     try:
         wd = webdriver.Chrome(options=options)
-        window_size = get_random_window_size()
-        wd.set_window_size(window_size[0], window_size[1])
         # Construir la URL de búsqueda
         url_busqueda = f"https://app.neilpatel.com/es/traffic_analyzer/keywords?domain={user_input}&lang=es&locId=2724&mode={mode}"
-        logging.info(f"Making request to {url_busqueda} with IP: {proxy_url}")
         wd.get(url_busqueda)
         # Espera aleatoria para simular el comportamiento humano
@@ -73,15 +55,7 @@ def extract_data(user_input, mode):
         # Obtener el contenido de la página
         page_content = wd.page_source
-        # Obtener el código de respuesta HTTP
-        response_status = wd.execute_script("return document.readyState")
-        if response_status == "complete":
-            logging.info(f"Request with IP: {proxy_url} returned status code 200")
-        else:
-            logging.warning(f"Request with IP: {proxy_url} did not return status code 200")
     except WebDriverException as e:
-        logging.error(f"Request failed with proxy {proxy_url}. Error: {e}")
         return []
     finally:
         if wd:
@@ -93,19 +67,18 @@ def extract_data(user_input, mode):
     # Buscar el div con id="root"
     root_div = soup.find('div', id='root')
     if not root_div:
-        logging.error("No se encontró el div con id 'root'")
         return []
     # Extraer el texto plano dentro del div
     texto_plano = root_div.get_text(separator='\n', strip=True)
-    # Log el contenido del div root
-    logging.info(f"Contenido del div 'root':\n{texto_plano}")
     # Buscar la palabra clave específica "Última actualización" y descartar todo lo anterior
     keyword = "Última actualización"
     index = texto_plano.find(keyword)
-    if index != -1:
         texto_plano = texto_plano[index + len(keyword):].strip()
     # Eliminar todas las líneas que contienen la palabra "Búsquedas"

 from selenium import webdriver
+from selenium.webdriver.common.by import By
+from selenium.webdriver.common.keys import Keys
+from selenium.webdriver.chrome.service import Service
 from selenium.common.exceptions import WebDriverException
 from bs4 import BeautifulSoup
 import time
 import random
 # Lista de User Agents para rotar
 user_agents = [
 def get_random_user_agent():
     return random.choice(user_agents)
 def extract_data(user_input, mode):
     options = webdriver.ChromeOptions()
     options.add_argument('--headless')
     options.add_argument('--no-sandbox')
     options.add_argument('--disable-dev-shm-usage')
     options.add_argument(f"user-agent={get_random_user_agent()}")
     try:
         wd = webdriver.Chrome(options=options)
+        wd.set_window_size(1080, 720)
         # Construir la URL de búsqueda
         url_busqueda = f"https://app.neilpatel.com/es/traffic_analyzer/keywords?domain={user_input}&lang=es&locId=2724&mode={mode}"
         wd.get(url_busqueda)
         # Espera aleatoria para simular el comportamiento humano
         # Obtener el contenido de la página
         page_content = wd.page_source
     except WebDriverException as e:
         return []
     finally:
         if wd:
     # Buscar el div con id="root"
     root_div = soup.find('div', id='root')
     if not root_div:
         return []
+    # Imprimir el contenido del div con id="root"
+    print(root_div.prettify())
     # Extraer el texto plano dentro del div
     texto_plano = root_div.get_text(separator='\n', strip=True)
     # Buscar la palabra clave específica "Última actualización" y descartar todo lo anterior
     keyword = "Última actualización"
     index = texto_plano.find(keyword)
+    if (index != -1):
         texto_plano = texto_plano[index + len(keyword):].strip()
     # Eliminar todas las líneas que contienen la palabra "Búsquedas"