Spaces:

helloperson123
/

tiny-llama-chatbot

Runtime error

App Files Files Community

helloperson123 commited on Jan 9

Commit

a78a95c

verified ·

1 Parent(s): 4386b39

Update app.py

Browse files

Files changed (1) hide show

app.py +28 -25

app.py CHANGED Viewed

@@ -1,56 +1,59 @@
 # app.py
 from flask import Flask, request, jsonify
 from flask_cors import CORS
-from transformers import AutoModelForCausalLM, AutoTokenizer
 import torch
 app = Flask(__name__)
 CORS(app)
 # ----------------------------
-# Model setup
 # ----------------------------
-MODEL_NAME = "openaccess-ai/phi-3-mini"  # Public HF model
 DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
-# Load tokenizer and model
 tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
-model = AutoModelForCausalLM.from_pretrained(MODEL_NAME).to(DEVICE)
 # ----------------------------
-# System prompt
 # ----------------------------
 SYSTEM_PROMPT = """#n
-You are Acla, an AI Aclaassistant. Be helpful, concise, and accurate.
-Focus on math, reasoning, and code when relevant.
-Always respond in a friendly and clear manner.
 """
 # ----------------------------
-# API endpoint
 # ----------------------------
 @app.route("/api/ask", methods=["POST"])
 def ask():
-    try:
-        data = request.json
-        user_prompt = data.get("prompt", "")
-        # Combine system prompt and user input
-        full_prompt = SYSTEM_PROMPT + "\nUser: " + user_prompt + "\nAI:"
-        inputs = tokenizer(full_prompt, return_tensors="pt").to(DEVICE)
-        outputs = model.generate(**inputs, max_new_tokens=150)
-        answer = tokenizer.decode(outputs[0], skip_special_tokens=True)
-        # Remove the system prompt part from output
-        answer = answer.replace(full_prompt, "").strip()
-        return jsonify({"reply": answer})
-    except Exception as e:
-        return jsonify({"error": str(e)}), 500
 # ----------------------------
-# Run app
 # ----------------------------
 if __name__ == "__main__":
     app.run(host="0.0.0.0", port=7860)

 # app.py
 from flask import Flask, request, jsonify
 from flask_cors import CORS
+from transformers import AutoTokenizer, AutoModelForCausalLM
 import torch
 app = Flask(__name__)
 CORS(app)
 # ----------------------------
+# Model (UNGATED, FREE)
 # ----------------------------
+MODEL_NAME = "microsoft/phi-2"
 DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
 tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
+model = AutoModelForCausalLM.from_pretrained(
+    MODEL_NAME,
+    torch_dtype=torch.float16 if DEVICE == "cuda" else torch.float32
+).to(DEVICE)
 # ----------------------------
+# SYSTEM PROMPT
 # ----------------------------
 SYSTEM_PROMPT = """#n
+You are a helpful AI assistant.
+You are good at math, reasoning, and programming.
+Explain things clearly and simply.
 """
 # ----------------------------
+# API ROUTE
 # ----------------------------
 @app.route("/api/ask", methods=["POST"])
 def ask():
+    data = request.get_json()
+    user_prompt = data.get("prompt", "")
+    prompt = f"{SYSTEM_PROMPT}\nUser: {user_prompt}\nAssistant:"
+    inputs = tokenizer(prompt, return_tensors="pt").to(DEVICE)
+    outputs = model.generate(
+        **inputs,
+        max_new_tokens=200,
+        do_sample=True,
+        temperature=0.7
+    )
+    text = tokenizer.decode(outputs[0], skip_special_tokens=True)
+    reply = text.split("Assistant:")[-1].strip()
+    return jsonify({"reply": reply})
 # ----------------------------
+# START SERVER
 # ----------------------------
 if __name__ == "__main__":
     app.run(host="0.0.0.0", port=7860)