Spaces:

JMAA00
/

Testllama8b

Sleeping

App Files Files Community

JMAA00 commited on Mar 29, 2025

Commit

9dfbce3

1 Parent(s): 9fa6053

v8

Browse files

Files changed (1) hide show

app.py +133 -83

app.py CHANGED Viewed

@@ -1,30 +1,61 @@
 import os
-import torch
 import gradio as gr
-from transformers import (
-    AutoTokenizer,
-    AutoModelForCausalLM,
-    TextIteratorStreamer,
-)
-# URL al modelo validado:
-MODEL_URL = "https://llama3-1.llamameta.net/*?Policy=eyJTdGF0ZW1lbnQiOlt7InVuaXF1ZV9oYXNoIjoicTNqOHYzcTJyZ3B0eWl6ZTd6dTFkNXN1IiwiUmVzb3VyY2UiOiJodHRwczpcL1wvbGxhbWEzLTEubGxhbWFtZXRhLm5ldFwvKiIsIkNvbmRpdGlvbiI6eyJEYXRlTGVzc1RoYW4iOnsiQVdTOkVwb2NoVGltZSI6MTc0MzQ0MDM3Nn19fV19&Signature=bFkdKBkrmrAe6vKEmYlEblQ5a7O9UB09rcCrEYKTo%7EL-d5bY3qgR8TWzGp3WrzdcIm9lK1srSp5t4Oz%7EctElYCeLwYTlmrV-DmPm6cvwTpW75yDMnKHkZOWw2eETT7w6TkX1HqtMU2rKmN1Yx9vfz0guaKrgtIrVr4sq0pY-6DZqr0G6wkFDAFcok6qEK%7ExzqQms8zHjvJuEUTzWRpcJ2zwL6pO1GBDB8OYPzu%7EwSDEqmLMMLn3AFfQKpFlkGUQDlF0-9RePPecRtldBK-AaJMgoQpzsxcrmP3PblAJgVR3ujoJj2MVS7RzwUOOX3yrxir0en7GK-BAxiT8QGRPDSA__&Key-Pair-Id=K15QRJLYKIFSLZ&Download-Request-ID=1214046803621383"
-# 1) Cargamos el tokenizer y el modelo desde la URL firmada:
-print("Cargando tokenizer...")
-tokenizer = AutoTokenizer.from_pretrained(MODEL_URL, trust_remote_code=True)
-print("Cargando modelo (puede tardar varios minutos)...")
-# device_map="auto" intenta usar GPU si está disponible;
-# si no hay GPU, lo cargará en CPU (podría requerir mucha RAM).
-# Ajusta "torch_dtype" a float16 si dispones de GPU con FP16.
-model = AutoModelForCausalLM.from_pretrained(
-    MODEL_URL,
-    trust_remote_code=True,
-    device_map="auto",
-    torch_dtype=torch.float16  # Si tienes GPU. Si solo CPU, usa float32
-)
-model.eval()
 def respond(
     message,
@@ -33,62 +64,75 @@ def respond(
     max_tokens,
     temperature,
     top_p,
 ):
     """
-    Mantenemos la estructura anterior:
-    - history: [(usuario, asistente), ...]
-    - system_message: texto con rol 'system'
-    - message: el mensaje más reciente del usuario
     """
-    # Preparamos el "prompt" reconstruyendo la conversación en un formato simple.
-    # Podrías mejorarlo usando un formateo estilo "ChatGPT" con roles y saltos de línea.
-    full_prompt = f"[SYSTEM] {system_message}\n"
-    for user_msg, assistant_msg in history:
-        if user_msg:
-            full_prompt += f"[USER] {user_msg}\n"
-        if assistant_msg:
-            full_prompt += f"[ASSISTANT] {assistant_msg}\n"
-    full_prompt += f"[USER] {message}\n[ASSISTANT]"
-    # Preparamos la generación con streaming usando TextIteratorStreamer
-    # (similar a la API de chat_completion con stream=True)
-    streamer = TextIteratorStreamer(
-        tokenizer=tokenizer,
-        skip_special_tokens=True
-    )
-    # Ajustamos parámetros de decodificación (lo que antes hacíamos con pipeline)
-    generation_kwargs = dict(
-        inputs=tokenizer(full_prompt, return_tensors="pt").to(model.device),
-        streamer=streamer,
-        max_new_tokens=max_tokens,
         temperature=temperature,
         top_p=top_p,
-        do_sample=True,
-        # Recomendado no usar 'repetition_penalty=1.0' en Llama3 si no se sugiere.
-    )
-    # Disparamos la generación en un hilo:
-    # streamer irá soltando tokens a medida que se generen.
-    generation_thread = torch.Thread(
-        target=model.generate,
-        kwargs=generation_kwargs
-    )
-    generation_thread.start()
-    # Ahora leemos tokens a medida que se generen y los enviamos a Gradio (yield)
-    output_tokens = ""
-    for new_token in streamer:
-        output_tokens += new_token
-        yield output_tokens
-# Interfaz usando ChatInterface de Gradio
 demo = gr.ChatInterface(
-    respond,
     additional_inputs=[
         gr.Textbox(
-            label="Mensaje del sistema",
             value=(
                 "Eres Juan, un asistente virtual en español. "
                 "Debes responder con mucha paciencia y empatía a usuarios que "
@@ -96,20 +140,21 @@ demo = gr.ChatInterface(
                 "Provee explicaciones simples, procura entender la intención del usuario "
                 "aunque la frase esté mal escrita, y mantén siempre un tono amable."
             ),
         ),
         gr.Slider(
-            minimum=1,
-            maximum=2048,
-            value=512,
-            step=1,
-            label="Máxima cantidad de tokens",
         ),
         gr.Slider(
-            minimum=0.1,
-            maximum=4.0,
-            value=0.7,
-            step=0.1,
-            label="Temperatura",
         ),
         gr.Slider(
             minimum=0.1,
@@ -118,9 +163,14 @@ demo = gr.ChatInterface(
             step=0.05,
             label="Top-p (muestreo por núcleo)",
         ),
     ],
 )
 if __name__ == "__main__":
-    print("Iniciando servidor Gradio...")
     demo.launch()

 import os
 import gradio as gr
+import requests
+from huggingface_hub import InferenceClient
+"""
+For more information on `huggingface_hub` Inference API support,
+please check the docs:
+https://huggingface.co/docs/huggingface_hub/v0.22.2/en/guides/inference
+"""
+# ----------------------------------------------------------------
+# CONFIGURACIÓN DE SERPER (búsqueda web)
+# ----------------------------------------------------------------
+SERPER_API_KEY = os.getenv("SERPER_API_KEY")
+def do_websearch(query: str) -> str:
+    """
+    Llama a serper.dev para hacer la búsqueda en Google y devolver
+    un texto resumido de los resultados.
+    """
+    if not SERPER_API_KEY:
+        return "(SERPER_API_KEY no está configurado)"
+    url = "https://google.serper.dev/search"
+    headers = {
+        "X-API-KEY": SERPER_API_KEY,
+        "Content-Type": "application/json",
+    }
+    payload = {"q": query}
+    try:
+        resp = requests.post(url, json=payload, headers=headers, timeout=10)
+        data = resp.json()
+    except Exception as e:
+        return f"(Error al llamar a serper.dev: {e})"
+    # Se espera un campo 'organic' con resultados
+    if "organic" not in data:
+        return "No se encontraron resultados en serper.dev."
+    results = data["organic"]
+    if not results:
+        return "No hay resultados relevantes."
+    text = []
+    for i, item in enumerate(results, start=1):
+        title = item.get("title", "Sin título")
+        link = item.get("link", "Sin enlace")
+        text.append(f"{i}. {title}\n   {link}")
+    return "\n".join(text)
+# ----------------------------------------------------------------
+# CONFIGURACIÓN DEL MODELO
+# ----------------------------------------------------------------
+client = InferenceClient("meta-llama/Llama-3.1-8B-Instruct")
 def respond(
     message,
     max_tokens,
     temperature,
     top_p,
+    use_search  # <-- Nuevo parámetro: si está "activado" el botón
 ):
     """
+    - system_message: Texto del rol "system"
+    - history: lista de (user_msg, assistant_msg)
+    - message: Mensaje actual del usuario
+    - use_search: booleano que indica si se habilita la búsqueda en serper
     """
+    # ----------------------------------------------------------------
+    # 1) Si el toggle está activo, hacemos búsqueda y la agregamos al prompt
+    # ----------------------------------------------------------------
+    if use_search:
+        web_info = do_websearch(message)
+        # Agregamos info al final del texto del usuario
+        message = f"{message}\nInformación de la web:\n{web_info}"
+    # ----------------------------------------------------------------
+    # 2) Construimos la lista de mensajes para la API de chat
+    # ----------------------------------------------------------------
+    messages = [{"role": "system", "content": system_message}]
+    for val in history:
+        if val[0]:
+            messages.append({"role": "user", "content": val[0]})
+        if val[1]:
+            messages.append({"role": "assistant", "content": val[1]})
+    # Añadimos el mensaje nuevo del usuario (posiblemente complementado con la info web)
+    messages.append({"role": "user", "content": message})
+    # ----------------------------------------------------------------
+    # 3) Llamamos a la API con streaming de tokens
+    # ----------------------------------------------------------------
+    response = ""
+    for chunk in client.chat_completion(
+        messages,
+        max_tokens=max_tokens,
+        stream=True,
         temperature=temperature,
         top_p=top_p,
+    ):
+        token = chunk.choices[0].delta.get("content", "")
+        response += token
+        yield response
+# ----------------------------------------------------------------
+# CONFIGURACIÓN DE LA INTERFAZ
+# ----------------------------------------------------------------
+# Para usar Tailwind, podemos asignar clases en "elem_classes".
+# Ejemplo de clases genéricas (puedes cambiarlas a tu gusto):
+tailwind_toggle_classes = [
+    "inline-flex",
+    "items-center",
+    "bg-blue-500",
+    "hover:bg-blue-700",
+    "text-white",
+    "font-bold",
+    "py-1",
+    "px-2",
+    "rounded",
+    "cursor-pointer"
+]
+# ChatInterface, con un input Checkbox para "🌐 Búsqueda"
 demo = gr.ChatInterface(
+    fn=respond,
     additional_inputs=[
         gr.Textbox(
             value=(
                 "Eres Juan, un asistente virtual en español. "
                 "Debes responder con mucha paciencia y empatía a usuarios que "
                 "Provee explicaciones simples, procura entender la intención del usuario "
                 "aunque la frase esté mal escrita, y mantén siempre un tono amable."
             ),
+            label="Mensaje del sistema",
         ),
         gr.Slider(
+            minimum=1,
+            maximum=2048,
+            value=512,
+            step=1,
+            label="Máxima cantidad de tokens"
         ),
         gr.Slider(
+            minimum=0.1,
+            maximum=4.0,
+            value=0.7,
+            step=0.1,
+            label="Temperatura"
         ),
         gr.Slider(
             minimum=0.1,
             step=0.05,
             label="Top-p (muestreo por núcleo)",
         ),
+        # Un checkbox que hace de "toggle" para la búsqueda
+        gr.Checkbox(
+            value=False,         # Por defecto desactivado
+            label="🌐 Búsqueda", # Etiqueta
+            elem_classes=tailwind_toggle_classes
+        ),
     ],
 )
 if __name__ == "__main__":
     demo.launch()