Spaces:

joackoEsp
/

Solid-ALIA

Paused

joackoEsp commited on Mar 2

Commit

61e43c4

verified ·

1 Parent(s): 3afee96

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -4,26 +4,30 @@ import torch
 # Cargar el modelo y el tokenizador
 model_name = "BSC-LT/salamandra-2b"
-tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
-model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float16)
-# Función de generación optimizada con System Prompt
 def generate_response(prompt):
     system_prompt = "Responde solo con el texto solicitado, sin información personal ni datos irrelevantes."
     inputs = tokenizer(
         f"Instrucción: {system_prompt} \n Pregunta: {prompt} \n Respuesta directa:",
-        return_tensors="pt"
     )
     outputs = model.generate(
         inputs.input_ids,
-        max_length=50,  # 🔹 Limita la respuesta a 50 tokens
         do_sample=True,
-        temperature=0.5,  # 🔹 Menos aleatoriedad, más precisión
-        top_p=0.85,  # 🔹 Más controlado
-        repetition_penalty=1.2,  # 🔹 Evita respuestas repetitivas
-        early_stopping=True,  # 🔹 Detiene la respuesta si ya está completa
     )
     return tokenizer.decode(outputs[0], skip_special_tokens=True)
@@ -37,4 +41,3 @@ with gr.Blocks() as demo:
     submit_button.click(generate_response, inputs=input_text, outputs=output_text)
 demo.launch()

 # Cargar el modelo y el tokenizador
 model_name = "BSC-LT/salamandra-2b"
+if "model" not in globals():
+    tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
+    tokenizer.pad_token = tokenizer.eos_token  # 🔹 Evita errores de atención
+    model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float16)
+# Función de generación optimizada
 def generate_response(prompt):
     system_prompt = "Responde solo con el texto solicitado, sin información personal ni datos irrelevantes."
     inputs = tokenizer(
         f"Instrucción: {system_prompt} \n Pregunta: {prompt} \n Respuesta directa:",
+        return_tensors="pt",
+        padding=True  # 🔹 Evita respuestas inconsistentes
     )
     outputs = model.generate(
         inputs.input_ids,
+        max_new_tokens=50,  # 🔹 En vez de max_length (mejor control de generación)
         do_sample=True,
+        temperature=0.45,  # 🔹 Menos aleatoriedad, más coherencia
+        top_p=0.9,  # 🔹 Más controlado
+        repetition_penalty=1.1,  # 🔹 Evita repeticiones
+        early_stopping=True,
     )
     return tokenizer.decode(outputs[0], skip_special_tokens=True)
     submit_button.click(generate_response, inputs=input_text, outputs=output_text)
 demo.launch()