Spaces:

ilkeileri
/

vapi-gemma-api

Sleeping

Ilke Ileri commited on Dec 2, 2025

Commit

d54cae5

1 Parent(s): 0ccd1fa

Reduce max_tokens to 100 for faster response to prevent Vapi timeout

Files changed (1) hide show

app.py CHANGED Viewed

@@ -143,7 +143,7 @@ def chat_completions():
         print(f"Generating response...")
         outputs = model.generate(
             **inputs,
-            max_new_tokens=150,  # Reduced from 256 for faster response
             temperature=0.7,
             do_sample=True,
             top_p=0.9,

         print(f"Generating response...")
         outputs = model.generate(
             **inputs,
+            max_new_tokens=100,  # Further reduced for faster response (was 150)
             temperature=0.7,
             do_sample=True,
             top_p=0.9,