Spaces:

Valtry
/

AI-Machine

Sleeping

App Files Files Community

Valtry commited on Apr 25

Commit

3bee657

verified ·

1 Parent(s): d1aba81

Update app.py

Browse files

Files changed (1) hide show

app.py +30 -93

app.py CHANGED Viewed

@@ -1,11 +1,10 @@
 from fastapi import FastAPI
-from fastapi.responses import StreamingResponse
 from fastapi.middleware.cors import CORSMiddleware
 from pydantic import BaseModel
 from llama_cpp import Llama
 from huggingface_hub import hf_hub_download
 from supabase import create_client
-import os, json, uvicorn, threading
 from contextlib import asynccontextmanager
 # =========================
@@ -18,15 +17,14 @@ SUPABASE_KEY = os.getenv("SUPABASE_KEY")
 supabase = create_client(SUPABASE_URL, SUPABASE_KEY)
 model = None
-stop_flag = False
 # =========================
 # REQUEST
 # =========================
 class ChatRequest(BaseModel):
     message: str
     temperature: float = 0.7
-    stream: bool = False
 # =========================
 # CLEAN OUTPUT
@@ -46,7 +44,7 @@ def clean_output(text):
     return text.strip()
 # =========================
-# PROMPT (NO HISTORY)
 # =========================
 def build_prompt(user_msg):
     return f"""<|begin_of_text|>
@@ -100,22 +98,13 @@ app.add_middleware(
 # =========================
 # SAVE
 # =========================
-def save_message(role, content):
     supabase.table("messages").insert({
         "role": role,
-        "content": content
-        # timestamp auto handled by DB
     }).execute()
-# =========================
-# STOP
-# =========================
-@app.post("/v1/stop")
-def stop():
-    global stop_flag
-    stop_flag = True
-    return {"status": "stopped"}
 # =========================
 # CHAT
 # =========================
@@ -124,105 +113,53 @@ async def chat(req: ChatRequest):
     prompt = build_prompt(req.message)
-    temp, rp, tp = req.temperature, 1.15, 0.9
-    max_tokens = 2048
-    if req.stream:
-        def generate():
-            global stop_flag
-            output = ""
-            stream = model(
-                prompt,
-                max_tokens=max_tokens,
-                temperature=temp,
-                top_p=tp,
-                repeat_penalty=rp,
-                stop=["<|eot_id|>", "<|end_of_text|>", "<|eof|>"],
-                stream=True
-            )
-            for chunk in stream:
-                if stop_flag:
-                    stop_flag = False
-                    break
-                token = chunk["choices"][0]["text"]
-                output += token
-                yield f"data: {json.dumps({'choices':[{'delta':{'content':token}}]})}\n\n"
-            output_clean = clean_output(output)
-            yield "event: done\ndata: {}\n\n"
-            yield "data: [DONE]\n\n"
-            def save_async():
-                save_message("user", req.message)
-                save_message("assistant", output_clean)
-            threading.Thread(target=save_async).start()
-        return StreamingResponse(generate(), media_type="text/event-stream")
     output = model(
         prompt,
-        max_tokens=max_tokens,
-        temperature=temp,
-        top_p=tp,
-        repeat_penalty=rp,
         stop=["<|eot_id|>", "<|end_of_text|>", "<|eof|>"]
     )
     text = clean_output(output["choices"][0]["text"])
-    def save_async():
-        save_message("user", req.message)
-        save_message("assistant", text)
-    threading.Thread(target=save_async).start()
-    return {
-        "choices":[{"message":{"role":"assistant","content":text}}],
-        "done":True
-    }
-@app.get("/v1/latest")
-def get_latest():
     try:
         res = supabase.table("messages") \
-            .select("role, content") \
             .order("created_at", desc=True) \
-            .limit(2) \
             .execute()
-        data = res.data or []
-        user_msg = ""
-        assistant_msg = ""
-        for item in reversed(data):
-            if item["role"] == "user":
-                user_msg = item["content"]
-            elif item["role"] == "assistant":
-                assistant_msg = item["content"]
-        return {
-            "user": user_msg,
-            "assistant": assistant_msg
-        }
     except Exception as e:
-        return {"error": str(e)}
 # =========================
 # ROOT
 # =========================
 @app.get("/")
 def root():
-    return {"status": "Minimal LLaMA API running 🚀"}
 # =========================
 # RUN

 from fastapi import FastAPI
 from fastapi.middleware.cors import CORSMiddleware
 from pydantic import BaseModel
 from llama_cpp import Llama
 from huggingface_hub import hf_hub_download
 from supabase import create_client
+import os, uvicorn
 from contextlib import asynccontextmanager
 # =========================
 supabase = create_client(SUPABASE_URL, SUPABASE_KEY)
 model = None
 # =========================
 # REQUEST
 # =========================
 class ChatRequest(BaseModel):
     message: str
+    request_id: str
     temperature: float = 0.7
 # =========================
 # CLEAN OUTPUT
     return text.strip()
 # =========================
+# PROMPT
 # =========================
 def build_prompt(user_msg):
     return f"""<|begin_of_text|>
 # =========================
 # SAVE
 # =========================
+def save_message(role, content, request_id):
     supabase.table("messages").insert({
         "role": role,
+        "content": content,
+        "request_id": request_id
     }).execute()
 # =========================
 # CHAT
 # =========================
     prompt = build_prompt(req.message)
     output = model(
         prompt,
+        max_tokens=2048,
+        temperature=req.temperature,
+        top_p=0.9,
+        repeat_penalty=1.15,
         stop=["<|eot_id|>", "<|end_of_text|>", "<|eof|>"]
     )
     text = clean_output(output["choices"][0]["text"])
+    # ✅ SAVE BOTH
+    save_message("user", req.message, req.request_id)
+    save_message("assistant", text, req.request_id)
+    return {"status": "saved"}
+# =========================
+# GET RESPONSE
+# =========================
+@app.get("/v1/get_response/{request_id}")
+def get_response(request_id: str):
     try:
         res = supabase.table("messages") \
+            .select("content") \
+            .eq("role", "assistant") \
+            .eq("request_id", request_id) \
             .order("created_at", desc=True) \
+            .limit(1) \
             .execute()
+        data = res.data
+        if data:
+            return {"response": data[0]["content"]}
+        else:
+            return {"response": None}
     except Exception as e:
+        return {"error": str(e)}
 # =========================
 # ROOT
 # =========================
 @app.get("/")
 def root():
+    return {"status": "LLaMA API running 🚀"}
 # =========================
 # RUN