Spaces:

helloperson123
/

tiny-llama-chatbot

Runtime error

helloperson123 commited on Nov 11, 2025

Commit

2cab154

verified ·

1 Parent(s): 4e5ae26

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,21 +1,18 @@
 from flask import Flask, request, jsonify
 from flask_cors import CORS
-from transformers import AutoTokenizer, AutoModelForCausalLM
 import torch
 app = Flask(__name__)
 CORS(app)
-# 🔹 Load model
-MODEL_NAME = "microsoft/Phi-3-mini-4k-instruct"
-print("🚀 Loading Phi-3-mini model (this may take a minute)...")
-tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
 model = AutoModelForCausalLM.from_pretrained(
-    MODEL_NAME,
     torch_dtype=torch.float16,
     device_map="auto"
 )
-print("✅ Model ready!")
 @app.route("/")
 def home():
@@ -26,27 +23,18 @@ def ask():
     data = request.get_json()
     prompt = data.get("prompt", "")
-    system_prompt = (
-        "You are Acla, a friendly and helpful assistant powered by Phi-3 mini who gives clear, step-by-step answers. "
-        "Be concise but thoughtful. Use reasoning and math when needed."
-    )
-    full_prompt = f"### System:\n{system_prompt}\n\n### User:\n{prompt}\n\n### Assistant:"
     inputs = tokenizer(full_prompt, return_tensors="pt").to(model.device)
-    outputs = model.generate(
-        **inputs,
-        max_new_tokens=250,
-        temperature=0.7,
-        top_p=0.9,
-        do_sample=True
-    )
-    text = tokenizer.decode(outputs[0], skip_special_tokens=True)
-    reply = text.split("### Assistant:")[-1].strip()
     return jsonify({"reply": reply})
 if __name__ == "__main__":
     app.run(host="0.0.0.0", port=7860)

 from flask import Flask, request, jsonify
 from flask_cors import CORS
+from transformers import AutoModelForCausalLM, AutoTokenizer
 import torch
 app = Flask(__name__)
 CORS(app)
+print("🧠 Loading Phi-3-mini model...")
+tokenizer = AutoTokenizer.from_pretrained("microsoft/Phi-3-mini-4k-instruct")
 model = AutoModelForCausalLM.from_pretrained(
+    "microsoft/Phi-3-mini-4k-instruct",
     torch_dtype=torch.float16,
     device_map="auto"
 )
 @app.route("/")
 def home():
     data = request.get_json()
     prompt = data.get("prompt", "")
+    if not prompt:
+        return jsonify({"error": "No prompt provided"}), 400
+    full_prompt = f"You are Acla, a friendly and helpful assistant powered by Phi-3 mini who gives clear, step-by-step answers. " "Be concise but thoughtful. Use reasoning and math when needed.\nUser: {prompt}\nAssistant:"
     inputs = tokenizer(full_prompt, return_tensors="pt").to(model.device)
+    with torch.no_grad():
+        outputs = model.generate(**inputs, max_new_tokens=200)
+    reply = tokenizer.decode(outputs[0], skip_special_tokens=True)
+    reply = reply.split("Assistant:")[-1].strip()
     return jsonify({"reply": reply})
 if __name__ == "__main__":
     app.run(host="0.0.0.0", port=7860)