Spaces:

tx3bas
/

kwrl-url

Sleeping

App Files Files Community

tx3bas commited on May 25, 2024

Commit

bd146a7

verified ·

1 Parent(s): 31cacf9

Update extract.py

Browse files

Files changed (1) hide show

extract.py +22 -1

extract.py CHANGED Viewed

@@ -1,21 +1,42 @@
 from selenium import webdriver
 from selenium.common.exceptions import WebDriverException
 from bs4 import BeautifulSoup
 import time
 def extract_data(user_input, mode):
     options = webdriver.ChromeOptions()
     options.add_argument('--headless')
     options.add_argument('--no-sandbox')
     options.add_argument('--disable-dev-shm-usage')
     try:
         wd = webdriver.Chrome(options=options)
         wd.set_window_size(1080, 720)
         # Construir la URL de búsqueda
         url_busqueda = f"https://app.neilpatel.com/es/traffic_analyzer/keywords?domain={user_input}&lang=es&locId=2724&mode={mode}"
         wd.get(url_busqueda)
-        time.sleep(15)  # Espera 15 segundos para que la página se cargue completamente
         # Obtener el contenido de la página
         page_content = wd.page_source

 from selenium import webdriver
+from selenium.webdriver.common.by import By
+from selenium.webdriver.common.keys import Keys
+from selenium.webdriver.chrome.service import Service
 from selenium.common.exceptions import WebDriverException
 from bs4 import BeautifulSoup
 import time
+import random
+# Lista de User Agents para rotar
+user_agents = [
+    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36",
+    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36",
+    "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:89.0) Gecko/20100101 Firefox/89.0",
+    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.15; rv:89.0) Gecko/20100101 Firefox/89.0",
+    "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36",
+    "Mozilla/5.0 (X11; Linux x86_64; rv:89.0) Gecko/20100101 Firefox/89.0"
+]
+def get_random_user_agent():
+    return random.choice(user_agents)
 def extract_data(user_input, mode):
     options = webdriver.ChromeOptions()
     options.add_argument('--headless')
     options.add_argument('--no-sandbox')
     options.add_argument('--disable-dev-shm-usage')
+    options.add_argument(f"user-agent={get_random_user_agent()}")
     try:
         wd = webdriver.Chrome(options=options)
         wd.set_window_size(1080, 720)
         # Construir la URL de búsqueda
         url_busqueda = f"https://app.neilpatel.com/es/traffic_analyzer/keywords?domain={user_input}&lang=es&locId=2724&mode={mode}"
         wd.get(url_busqueda)
+        # Espera aleatoria para simular el comportamiento humano
+        time.sleep(random.uniform(10, 20))
         # Obtener el contenido de la página
         page_content = wd.page_source