Spaces:

tx3bas
/

suggest

Sleeping

App Files Files Community

tx3bas commited on Jan 21, 2024

Commit

a7641dd

verified ·

1 Parent(s): 05681ba

Update app.py

Browse files

Files changed (1) hide show

app.py +40 -75

app.py CHANGED Viewed

@@ -1,88 +1,53 @@
 import gradio as gr
 import pandas as pd
 import requests
-from bs4 import BeautifulSoup
-import re
-from IPython.core.display import display, HTML
-from urllib.parse import urlparse
-def limpiar_dominio(dominio):
-    dominio_limpio = re.sub(r"https?://", "", dominio)
-    dominio_limpio = re.sub(r"^www\.", "", dominio_limpio)
-    dominio_limpio = dominio_limpio.split(".")[-2] if len(dominio_limpio.split(".")) > 1 else dominio_limpio
-    dominio_limpio = re.sub(r"\.[a-zA-Z]{2,}$", "", dominio_limpio)
-    dominio_limpio = dominio_limpio.capitalize()
-    return dominio_limpio
-def buscar_google(query, dominio, hl='es', num_results=100):
-    all_results = []
-    posiciones_dominio = []
-    posiciones_dominio_exacto = []
-    url_objetivo = dominio
-    dominio_objetivo = urlparse(url_objetivo).netloc
-    table_html = "<table border='1'><tr><th>Posición</th><th>Título</th><th>URL</th></tr>"
-    estilo = "color: #ed4b4b;"
-    for start in range(0, num_results, 10):
-        url = f"https://www.google.com/search?q={query}&hl={hl}&start={start}"
-        headers = {
-            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.3"
-        }
-        response = requests.get(url, headers=headers)
-        soup = BeautifulSoup(response.text, 'html.parser')
-        search_results = soup.find_all('div', attrs={'class': 'tF2Cxc'})
-        all_results.extend(search_results)
-    for i, result in enumerate(all_results[:num_results]):
-        header = result.find('h3')
-        header = header.text if header else "Sin título"
-        link = result.find('a', href=True)['href']
-        link_clean = re.search("(?P<url>https?://[^\s]+)", link).group("url")
-        dominio_resultado = urlparse(link_clean).netloc
-        estilo_dominio = ""
-        if dominio_objetivo in dominio_resultado:
-            posiciones_dominio.append(i + 1)
-            if link_clean == url_objetivo:
-                posiciones_dominio_exacto.append(i + 1)
-                estilo_dominio = estilo
             else:
-                estilo_dominio = estilo  # Marcar en rojo las URLs del mismo dominio
-        table_html += f"<tr><td>{i+1}</td><td>{header}</td><td><span style='{estilo_dominio}'>{link_clean}</span></td></tr>"
-    table_html += "</table>"
-    if len(posiciones_dominio) > 1 and 1 in posiciones_dominio:
-        mensaje = f"Parasitación SEO: {url_objetivo} se encuentra en las posiciones {posiciones_dominio} 🥇"
-        estilo = "font-size:19px; color: #ffd700;"
-    elif len(posiciones_dominio) > 1:
-        mensaje = f"Canibalización: {url_objetivo} se encuentra en las posiciones {posiciones_dominio} 😕"
-        estilo = "font-size:19px; color: #ed4b4b;"
-    elif len(posiciones_dominio) == 1 and len(posiciones_dominio_exacto) == 0:
-        mensaje = f"Canibalización: URL diferente del dominio en la posición {posiciones_dominio[0]} 😕"
-    elif len(posiciones_dominio) == 1:
-        mensaje = f"Sin canibalización: {url_objetivo} se encuentra en la posición {posiciones_dominio[0]} 😕"
-        estilo = "font-size:19px; color: #26d52d;"
-    else:
-        mensaje = f"{url_objetivo} no se encuentra en el top 100 😕"
-        estilo = "font-size:19px; color: #ed4b4b;"
-    return mensaje, table_html
-def canibalizacion_interface(url, keyword):
-    mensaje, tabla = buscar_google(keyword, url)
-    return mensaje, tabla
 iface = gr.Interface(
-    fn=canibalizacion_interface,
-    inputs=["text", "text"],
-    outputs=["text", "html"],
-    title="Buscador de Canibalizaciones en Google",
-    description="Encuentra posibles canibalizaciones y parasitaciones en Google a partir de una URL y una palabra clave.",
-    article="<p style='text-align:center !important;'>Desarrollada por <a style='text-decoration:none !important;color:#e12a31 !important;' href='https://artxeweb.com'>© Artxe Web</a></p>",
 )
 iface.launch()

 import gradio as gr
 import pandas as pd
 import requests
+import urllib.parse
+def fetch_suggestions(query, lang_code="es"):
+    encoded_query = urllib.parse.quote(query)
+    url = f"http://suggestqueries.google.com/complete/search?client=firefox&hl={lang_code}&q={encoded_query}"
+    response = requests.get(url)
+    if response.status_code == 200:
+        return response.json()[1]
+    else:
+        return []
+def expand_keyword(keyword):
+    expanded_keywords = [keyword]
+    for letter in 'abcdefghijklmnopqrstuvwxyz*_':
+        expanded_keywords.append(keyword + " " + letter)
+        expanded_keywords.append(letter + " " + keyword)
+    return expanded_keywords
+def main(keyword):
+    expanded_keywords = expand_keyword(keyword)
+    all_suggestions = {}
+    for exp_keyword in expanded_keywords:
+        suggestions = fetch_suggestions(exp_keyword)
+        for suggestion in suggestions:
+            if suggestion in all_suggestions:
+                all_suggestions[suggestion] += 1
             else:
+                all_suggestions[suggestion] = 1
+    # Convertir el diccionario en un DataFrame de Pandas
+    df = pd.DataFrame(list(all_suggestions.items()), columns=['Sugerencias de Google', 'Frecuencia'])
+    # Filtrar el DataFrame para mostrar solo las sugerencias con una frecuencia de al menos 2
+    df_filtered = df[df['Frecuencia'] >= 2]
+    # Ordenar el DataFrame según la frecuencia
+    df_sorted = df_filtered.sort_values(by=['Frecuencia'], ascending=False)
+    return df_sorted
 iface = gr.Interface(
+    fn=main,
+    inputs="text",
+    outputs="dataframe",
+    title="Generador de Sugerencias de Búsqueda de Google",
+    description="Ingrese una palabra clave para obtener sugerencias de búsqueda relacionadas de Google."
 )
 iface.launch()