Spaces:

helloperson123
/

tiny-llama-chatbot

Runtime error

helloperson123 commited on Nov 12, 2025

Commit

c20d839

verified ·

1 Parent(s): 2cab154

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,40 +1,43 @@
 from flask import Flask, request, jsonify
-from flask_cors import CORS
-from transformers import AutoModelForCausalLM, AutoTokenizer
-import torch
 app = Flask(__name__)
-CORS(app)
-print("🧠 Loading Phi-3-mini model...")
-tokenizer = AutoTokenizer.from_pretrained("microsoft/Phi-3-mini-4k-instruct")
-model = AutoModelForCausalLM.from_pretrained(
-    "microsoft/Phi-3-mini-4k-instruct",
-    torch_dtype=torch.float16,
-    device_map="auto"
 )
-@app.route("/")
-def home():
-    return "✅ Phi-3-mini API is running! POST JSON to /api/ask with {'prompt': 'your question'}"
 @app.route("/api/ask", methods=["POST"])
 def ask():
-    data = request.get_json()
-    prompt = data.get("prompt", "")
-    if not prompt:
-        return jsonify({"error": "No prompt provided"}), 400
-    full_prompt = f"You are Acla, a friendly and helpful assistant powered by Phi-3 mini who gives clear, step-by-step answers. " "Be concise but thoughtful. Use reasoning and math when needed.\nUser: {prompt}\nAssistant:"
-    inputs = tokenizer(full_prompt, return_tensors="pt").to(model.device)
-    with torch.no_grad():
-        outputs = model.generate(**inputs, max_new_tokens=200)
-    reply = tokenizer.decode(outputs[0], skip_special_tokens=True)
-    reply = reply.split("Assistant:")[-1].strip()
-    return jsonify({"reply": reply})
 if __name__ == "__main__":
-    app.run(host="0.0.0.0", port=7860)

 from flask import Flask, request, jsonify
+from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
 app = Flask(__name__)
+# -------------------------------
+# Load Phi-3-mini model
+# -------------------------------
+MODEL_NAME = "helloperson123/phi-3-mini"
+tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
+model = AutoModelForCausalLM.from_pretrained(MODEL_NAME)
+# Create text-generation pipeline
+generator = pipeline(
+    "text-generation",
+    model=model,
+    tokenizer=tokenizer,
+    max_new_tokens=256,
 )
+# -------------------------------
+# System prompt for behavior
+# -------------------------------
+SYSTEM_PROMPT = """#n You are Acla, an AI assistant that is helpful, concise,
+and specializes in reasoning, math, and coding. Answer clearly and step by step."""
 @app.route("/api/ask", methods=["POST"])
 def ask():
+    data = request.json
+    user_prompt = data.get("prompt", "")
+    # Combine system prompt + user prompt
+    full_prompt = f"{SYSTEM_PROMPT}\nUser: {user_prompt}\nAI:"
+    try:
+        output = generator(full_prompt)
+        reply = output[0]["generated_text"].split("AI:")[-1].strip()
+        return jsonify({"reply": reply})
+    except Exception as e:
+        return jsonify({"error": str(e)}), 500
 if __name__ == "__main__":
+    app.run(host="0.0.0.0", port=5000)