Spaces:

Toilatop1sever
/

AI_Coder

Sleeping

Toilatop1sever commited on May 22

Commit

b7080ed

verified ·

1 Parent(s): b78d107

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,36 +1,25 @@
-from fastapi import FastAPI, HTTPException
-from pydantic import BaseModel
-from llama_cpp import Llama
 from huggingface_hub import hf_hub_download
 import os
-app = FastAPI()
 MODEL_REPO = "Qwen/Qwen2.5-3B-Instruct-GGUF"
 MODEL_FILE = "qwen2.5-3b-instruct-q4_k_m.gguf"
-# Tải model nếu chưa có (tự động làm sau khi build, không tốn RAM build)
 if not os.path.exists(MODEL_FILE):
-    print(f"Downloading {MODEL_FILE} from {MODEL_REPO}...")
     hf_hub_download(repo_id=MODEL_REPO, filename=MODEL_FILE, local_dir=".")
     print("Download done!")
 print("Loading model...")
-llm = Llama(model_path=MODEL_FILE, n_ctx=2048, n_threads=4)
 print("Model ready!")
-class ChatRequest(BaseModel):
-    prompt: str
-    max_tokens: int = 512
-    temperature: float = 0.7
-@app.post("/chat")
-async def chat(req: ChatRequest):
-    if not req.prompt:
-        raise HTTPException(status_code=400, detail="Empty prompt")
-    output = llm(req.prompt, max_tokens=req.max_tokens, temperature=req.temperature)
-    return {"response": output["choices"][0]["text"]}
-@app.get("/")
-async def root():
-    return {"status": "ok", "message": "AI Coder is running!"}

+import gradio as gr
+from ctransformers import AutoModelForCausalLM
 from huggingface_hub import hf_hub_download
 import os
 MODEL_REPO = "Qwen/Qwen2.5-3B-Instruct-GGUF"
 MODEL_FILE = "qwen2.5-3b-instruct-q4_k_m.gguf"
+# Tự động tải model nếu chưa có
 if not os.path.exists(MODEL_FILE):
+    print(f"Downloading {MODEL_FILE}...")
     hf_hub_download(repo_id=MODEL_REPO, filename=MODEL_FILE, local_dir=".")
     print("Download done!")
 print("Loading model...")
+llm = AutoModelForCausalLM.from_pretrained(
+    ".", model_file=MODEL_FILE, model_type="qwen", gpu_layers=0
+)
 print("Model ready!")
+def chat(message, history):
+    response = llm(message, max_new_tokens=512, temperature=0.7)
+    return response
+gr.ChatInterface(chat, title="AI Coder Qwen 2.5 3B").launch()