Spaces:

ilkeileri
/

vapi-gemma-api

Sleeping

Ilke Ileri commited on Dec 2, 2025

Commit

b9e9889

1 Parent(s): 88b53d1

Optimize for speed: max_tokens=50, greedy decoding for real-time voice

Files changed (1) hide show

app.py CHANGED Viewed

@@ -157,12 +157,9 @@ def chat_completions():
         print(f"Generating response...")
         outputs = model.generate(
             **inputs,
-            max_new_tokens=100,  # Further reduced for faster response (was 150)
-            temperature=0.7,
-            do_sample=True,
-            top_p=0.9,
-            num_return_sequences=1,
-            repetition_penalty=1.15,
             pad_token_id=tokenizer.pad_token_id,
             eos_token_id=tokenizer.eos_token_id
         )

         print(f"Generating response...")
         outputs = model.generate(
             **inputs,
+            max_new_tokens=50,  # Drastically reduced for real-time voice (was 100)
+            temperature=0.3,  # Lower for faster, more focused responses
+            do_sample=False,  # Greedy decoding for speed
             pad_token_id=tokenizer.pad_token_id,
             eos_token_id=tokenizer.eos_token_id
         )