Spaces:

ilkeileri
/

vapi-gemma-api

Sleeping

Ilke Ileri commited on Dec 2, 2025

Commit

190133f

1 Parent(s): 39bb917

Optimize for speed: reduce to 80 tokens, lower sampling params, add timing logs

Files changed (1) hide show

app.py CHANGED Viewed

@@ -126,17 +126,21 @@ def chat_completions():
             inputs = {k: v.to(model.device) for k, v in inputs.items()}
         print(f"Generating response...")
         outputs = model.generate(
             **inputs,
-            max_new_tokens=150,  # Increased for complete appointment booking responses
-            temperature=0.7,  # Higher for more natural conversation
-            do_sample=True,  # Enable sampling for variety
-            top_p=0.9,
-            repetition_penalty=1.1,
             pad_token_id=tokenizer.pad_token_id,
             eos_token_id=tokenizer.eos_token_id
         )
-        print(f"Response generated!")
         full_response = tokenizer.decode(outputs[0], skip_special_tokens=False)

             inputs = {k: v.to(model.device) for k, v in inputs.items()}
         print(f"Generating response...")
+        import time
+        start_time = time.time()
         outputs = model.generate(
             **inputs,
+            max_new_tokens=80,  # Balanced: fast but complete (reduced from 150)
+            temperature=0.6,  # Slightly lower for faster convergence
+            do_sample=True,
+            top_p=0.85,  # Reduced for faster sampling
             pad_token_id=tokenizer.pad_token_id,
             eos_token_id=tokenizer.eos_token_id
         )
+        elapsed = time.time() - start_time
+        print(f"Response generated in {elapsed:.2f}s")
         full_response = tokenizer.decode(outputs[0], skip_special_tokens=False)