Spaces:

edusc182
/

TryModel

Running

edusc182 commited on 12 days ago

Commit

34340f6

verified ·

1 Parent(s): fe4d7cf

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -19,17 +19,30 @@ def predecir(pregunta):
             device_map="cpu"
         )
-    # 1. Aplicar el Chat Template (crucial para que Gemma no repita texto)
-    chat = [
-        {"role": "user", "content": pregunta},
-    ]
     prompt = generador.tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)
-    # 2. Inferencia limpia
     resultados = generador(
         prompt,
-        max_new_tokens=512,
-        temperature=1.0,
         do_sample=True,
         pad_token_id=generador.tokenizer.eos_token_id,
         eos_token_id=generador.tokenizer.eos_token_id,

             device_map="cpu"
         )
+    # 1. Definir los límites de la arquitectura
+    CONTEXT_WINDOW = 8192
+    RESERVED_FOR_RESPONSE = 2048  # Espacio garantizado para la respuesta
+    # 2. Calcular tokens del prompt actual
+    chat = [{"role": "user", "content": pregunta}]
     prompt = generador.tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)
+    tokens_prompt = len(generador.tokenizer.encode(prompt))
+    # 3. Calcular tokens disponibles dinámicamente
+    # Si el prompt es enorme, reducimos el límite de respuesta,
+    # pero nunca dejamos menos de 512 tokens para responder.
+    max_tokens_permitidos = max(512, CONTEXT_WINDOW - tokens_prompt)
+    # Nos aseguramos de no superar nuestro límite máximo de seguridad
+    final_max_new_tokens = min(max_tokens_permitidos, RESERVED_FOR_RESPONSE)
+    print(f"Tokens prompt: {tokens_prompt} | Límite respuesta: {final_max_new_tokens}")
+    # 4. Inferencia con límite dinámico
     resultados = generador(
         prompt,
+        max_new_tokens=final_max_new_tokens,
+        temperature=0.7,
         do_sample=True,
         pad_token_id=generador.tokenizer.eos_token_id,
         eos_token_id=generador.tokenizer.eos_token_id,