Spaces:

JMAA00
/

Testllama8b

Sleeping

App Files Files Community

JMAA00 commited on Mar 29, 2025

Commit

62fd8bb

1 Parent(s): 2ddc1fd

DSv7

Browse files

Files changed (2) hide show

app.py +30 -39
requirements.txt +1 -1

app.py CHANGED Viewed

@@ -14,57 +14,52 @@ tokenizer = AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-R1-Distill-Llama
 print("Cargando modelo (puede tardar varios minutos)...")
 model = AutoModelForCausalLM.from_pretrained(
     "deepseek-ai/DeepSeek-R1-Distill-Llama-8B",
-    device_map="auto",          # Usa GPU si está disponible
-    torch_dtype=torch.float16    # FP16 en GPU; en CPU quizá float32
 )
 model.eval()
 def respond(
-    message,
     history: list[tuple[str, str]],
     system_message: str,
     max_tokens: int,
     temperature: float,
     top_p: float,
 ):
-    """
-    Construimos el prompt a partir de:
-      - system_message
-      - history (lista de (user, assistant))
-      - message actual
-    Generamos tokens progresivamente con TextIteratorStreamer.
-    """
-    prompt = f"[SYSTEM] {system_message}\n"
     for (usr, bot) in history:
-        if usr:
-            prompt += f"[USER] {usr}\n"
-        if bot:
-            prompt += f"[ASSISTANT] {bot}\n"
-    prompt += f"[USER] {message}\n[ASSISTANT]"
-    streamer = TextIteratorStreamer(
-        tokenizer=tokenizer,
-        skip_special_tokens=True
-    )
     inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
-    generation_kwargs = dict(
-        **inputs,
-        streamer=streamer,
-        max_new_tokens=max_tokens,
-        temperature=temperature,
-        top_p=top_p,
-        do_sample=True,
-    )
-    # Usamos threading.Thread en lugar de torch.Thread
     generation_thread = threading.Thread(
         target=model.generate,
         kwargs=generation_kwargs
     )
     generation_thread.start()
-    # Leemos tokens a medida que se generan y los enviamos a Gradio (yield)
     output_text = ""
     for new_token in streamer:
         output_text += new_token
@@ -76,19 +71,15 @@ demo = gr.ChatInterface(
         gr.Textbox(
             label="Mensaje del sistema",
             value=(
-                "Eres Juan, un asistente virtual en español. "
-                "Debes responder con mucha paciencia y empatía a usuarios que "
-                "pueden tener dificultades cognitivas o escribir frases confusas. "
-                "Provee explicaciones simples, procura entender la intención del usuario "
-                "aunque la frase esté mal escrita, y mantén siempre un tono amable."
             ),
         ),
-        gr.Slider(1, 2048, 512, 1, label="Máxima cantidad de tokens"),
-        gr.Slider(0.1, 4.0, 0.7, 0.1, label="Temperatura"),
-        gr.Slider(0.1, 1.0, 0.95, 0.05, label="Top-p (muestreo por núcleo)"),
     ],
 )
 if __name__ == "__main__":
-    print("Iniciando servidor Gradio...")
     demo.launch()

 print("Cargando modelo (puede tardar varios minutos)...")
 model = AutoModelForCausalLM.from_pretrained(
     "deepseek-ai/DeepSeek-R1-Distill-Llama-8B",
+    device_map="auto",
+    torch_dtype=torch.float16  # Si GPU; en CPU => float32
 )
 model.eval()
 def respond(
+    message: str,
     history: list[tuple[str, str]],
     system_message: str,
     max_tokens: int,
     temperature: float,
     top_p: float,
 ):
+    # Solo añade system_message si no hay historial:
+    prompt = ""
+    if not history:
+        prompt += f"[SYSTEM] {system_message}\n"
+    # Añade historial
     for (usr, bot) in history:
+        prompt += f"[USER] {usr}\n"
+        prompt += f"[ASSISTANT] {bot}\n"
+    # Añade nuevo turno
+    prompt += f"[USER] {message}\n[ASSISTANT]"
+    streamer = TextIteratorStreamer(tokenizer=tokenizer, skip_special_tokens=True)
     inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
+    generation_kwargs = {
+        "inputs": inputs["input_ids"],
+        "attention_mask": inputs["attention_mask"],
+        "streamer": streamer,
+        "max_new_tokens": max_tokens,
+        "temperature": temperature,
+        "top_p": top_p,
+        "do_sample": True,
+    }
+    # Lanza la generación en un thread de Python
     generation_thread = threading.Thread(
         target=model.generate,
         kwargs=generation_kwargs
     )
     generation_thread.start()
     output_text = ""
     for new_token in streamer:
         output_text += new_token
         gr.Textbox(
             label="Mensaje del sistema",
             value=(
+                "Eres Juan, un asistente virtual en español, muy paciente "
+                "y empático con usuarios que puedan tener dificultades cognitivas."
             ),
         ),
+        gr.Slider(1, 1024, 128, 1, label="Máxima cantidad de tokens"),  # bajamos a 128
+        gr.Slider(0.1, 2.0, 0.7, 0.1, label="Temperatura"),             # bajamos rango
+        gr.Slider(0.1, 1.0, 0.9, 0.05, label="Top-p (nucleus)"),
     ],
 )
 if __name__ == "__main__":
     demo.launch()

requirements.txt CHANGED Viewed

@@ -1,5 +1,5 @@
 torch>=2.0
-transformers
 accelerate
 gradio==5.0.1
 requests

 torch>=2.0
+transformers>=4.28
 accelerate
 gradio==5.0.1
 requests