Spaces:

helloperson123
/

tiny-llama-chatbot

Runtime error

App Files Files Community

helloperson123 commited on Nov 10, 2025

Commit

1b39db0

verified ·

1 Parent(s): 28889ce

Update app.py

Browse files

Files changed (1) hide show

app.py +29 -18

app.py CHANGED Viewed

@@ -1,44 +1,55 @@
 from flask import Flask, request, jsonify
-from transformers import AutoTokenizer, AutoModelForCausalLM
 from flask_cors import CORS
 import torch
 app = Flask(__name__)
-CORS(app)
-print("🚀 Loading Phi model (microsoft/phi-2)...")
-model_name = "microsoft/phi-2"
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 model = AutoModelForCausalLM.from_pretrained(
     model_name,
     torch_dtype=torch.float16,
-    low_cpu_mem_usage=True
 )
-model.to("cuda" if torch.cuda.is_available() else "cpu")
-print("✅ Phi model loaded!")
 @app.route("/api/ask", methods=["POST"])
 def ask():
-    data = request.get_json(force=True)
-    prompt = data.get("prompt", "")
-    chat_prompt = f"### Instruction:\nYou are Acla, a helpful AI powered by phi-3 mini that can reason about math, code, and logic.\n\n### Input:\n{prompt}\n\n### Response:"
-    inputs = tokenizer(chat_prompt, return_tensors="pt").to(model.device)
     outputs = model.generate(
         **inputs,
-        max_new_tokens=250,
         temperature=0.7,
         top_p=0.9,
-        do_sample=True
     )
-    text = tokenizer.decode(outputs[0], skip_special_tokens=True)
-    response = text.split("### Response:")[-1].strip()
     return jsonify({"reply": response})
-@app.route("/")
-def home():
-    return "🧠 Phi-2 chatbot is running! POST JSON to /api/ask with {'prompt': 'your question'}."
 if __name__ == "__main__":
     app.run(host="0.0.0.0", port=7860)

 from flask import Flask, request, jsonify
 from flask_cors import CORS
+from transformers import AutoTokenizer, AutoModelForCausalLM
 import torch
 app = Flask(__name__)
+CORS(app)  # Allow requests from anywhere (for your TurboWarp extension etc.)
+print("🚀 Loading Phi-3-mini model... this may take a minute.")
+model_name = "microsoft/Phi-3-mini-4k-instruct"
+# Load model and tokenizer
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 model = AutoModelForCausalLM.from_pretrained(
     model_name,
     torch_dtype=torch.float16,
+    device_map="auto"
 )
+# 🧠 System prompt — this defines how the AI acts
+SYSTEM_PROMPT = """You are Phi, a friendly, helpful, and intelligent AI assistant.
+You always explain your reasoning clearly and step-by-step when solving math or code problems.
+You never hallucinate facts — if unsure, you say so politely.
+You can help with logic, reasoning, and programming tasks in a kind, conversational tone."""
 @app.route("/api/ask", methods=["POST"])
 def ask():
+    data = request.get_json()
+    user_prompt = data.get("prompt", "")
+    # Combine system + user prompts
+    full_prompt = f"<|system|>\nYou are Acla, a helpful AI powered by phi-3 mini that can reason about math, code, and logic.\n<|user|>\n{user_prompt}\n<|assistant|>"
+    # Tokenize
+    inputs = tokenizer(full_prompt, return_tensors="pt").to(model.device)
+    # Generate response
     outputs = model.generate(
         **inputs,
+        max_new_tokens=300,
         temperature=0.7,
         top_p=0.9,
+        do_sample=True,
     )
+    # Decode and clean response
+    response = tokenizer.decode(outputs[0], skip_special_tokens=True)
+    if "<|assistant|>" in response:
+        response = response.split("<|assistant|>")[-1].strip()
     return jsonify({"reply": response})
 if __name__ == "__main__":
     app.run(host="0.0.0.0", port=7860)