Spaces:

ilkeileri
/

vapi-gemma-api

Sleeping

App Files Files Community

Ilke Ileri commited on Dec 1, 2025

Commit

a73c020

1 Parent(s): e48c956

Add system prompt guard to enforce sales-only responses

Browse files

Files changed (1) hide show

app.py +37 -6

app.py CHANGED Viewed

@@ -30,16 +30,21 @@ tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL, trust_remote_code=True, to
 print("Loading base model...")
 base_model = AutoModelForCausalLM.from_pretrained(
     BASE_MODEL,
-    dtype=torch.float16,
     low_cpu_mem_usage=True,
     trust_remote_code=True,
-    token=HF_TOKEN
 )
 print("Loading LoRA adapters...")
 model = PeftModel.from_pretrained(base_model, MODEL_NAME, token=HF_TOKEN)
 model.eval()
 print("Model loaded successfully!")
 @app.route("/", methods=["GET"])
@@ -77,13 +82,33 @@ def chat_completions():
         if not prompt:
             return jsonify({"error": "No prompt provided"}), 400
-        # Gemma formatında prompt
-        formatted_prompt = f"<start_of_turn>user\n{prompt}<end_of_turn>\n<start_of_turn>model\n"
         # Model yanıtı üret
         inputs = tokenizer(formatted_prompt, return_tensors="pt")
         outputs = model.generate(
-            inputs["input_ids"],
             max_new_tokens=256,
             temperature=0.7,
             do_sample=True,
@@ -113,8 +138,14 @@ def chat_completions():
         return jsonify(vapi_response), 200
     except Exception as e:
         print(f"Error: {str(e)}")
-        return jsonify({"error": str(e)}), 500
 if __name__ == "__main__":
     app.run(host="0.0.0.0", port=7860)

 print("Loading base model...")
 base_model = AutoModelForCausalLM.from_pretrained(
     BASE_MODEL,
+    torch_dtype=torch.float16,
     low_cpu_mem_usage=True,
     trust_remote_code=True,
+    token=HF_TOKEN,
+    device_map="auto"
 )
 print("Loading LoRA adapters...")
 model = PeftModel.from_pretrained(base_model, MODEL_NAME, token=HF_TOKEN)
 model.eval()
+# Device'ı belirle
+device = "cuda" if torch.cuda.is_available() else "cpu"
+print(f"Using device: {device}")
 print("Model loaded successfully!")
 @app.route("/", methods=["GET"])
         if not prompt:
             return jsonify({"error": "No prompt provided"}), 400
+        # Sales context guard - sistem prompt'u ekle
+        system_prompt = """You are a professional sales assistant for Wisemate. You ONLY answer questions related to:
+- Sales techniques and strategies
+- Handling objections (price, timing, competition)
+- Closing deals
+- Lead qualification
+- Customer relationship management
+- Sales processes and frameworks
+- Wisemate's services and capabilities
+If asked about unrelated topics (science, math, general knowledge, etc.), politely redirect:
+"I'm here to help with sales and business-related questions about Wisemate. How can I assist you with your sales inquiries?"
+Now respond to this sales-related question:"""
+        # Gemma formatında prompt - sistem prompt'u dahil et
+        formatted_prompt = f"<start_of_turn>user\n{system_prompt}\n{prompt}<end_of_turn>\n<start_of_turn>model\n"
         # Model yanıtı üret
         inputs = tokenizer(formatted_prompt, return_tensors="pt")
+        # Input'u model ile aynı device'a taşı
+        if hasattr(model, 'device'):
+            inputs = {k: v.to(model.device) for k, v in inputs.items()}
         outputs = model.generate(
+            **inputs,
             max_new_tokens=256,
             temperature=0.7,
             do_sample=True,
         return jsonify(vapi_response), 200
     except Exception as e:
+        import traceback
+        error_details = traceback.format_exc()
         print(f"Error: {str(e)}")
+        print(f"Traceback: {error_details}")
+        return jsonify({
+            "error": str(e),
+            "type": type(e).__name__
+        }), 500
 if __name__ == "__main__":
     app.run(host="0.0.0.0", port=7860)