Spaces:

UcsTurkey
/

oncu

Paused

App Files Files Community

ciyidogan commited on May 28

Commit

7460785

verified ·

1 Parent(s): d72f235

Update app.py

Browse files

Files changed (1) hide show

app.py +28 -24

app.py CHANGED Viewed

@@ -1,10 +1,11 @@
 import os
 import sys
 import traceback
 from fastapi import FastAPI
 from pydantic import BaseModel
-from llama_cpp import Llama
-from huggingface_hub import hf_hub_download
 from datetime import datetime
 # === 🕒 Zamanlı log fonksiyonu
@@ -14,12 +15,10 @@ def log(message):
     print(line, flush=True)
 # === Model bilgileri
-REPO_ID = "oncu/Turkish-Llama-3-8B-function-calling-GGUF"
-FILENAME = "turkish-llama-3-8b-function-calling.q8_0.gguf"
-LOCAL_MODEL_PATH = f"/tmp/{FILENAME}"
 HF_TOKEN = os.getenv("HF_TOKEN")
-# === System prompt
 SYSTEM_PROMPT = """
 Siz bir görev tabanlı asistan botsunuz. Kullanıcının doğal dildeki mesajlarını anlayabilir, niyetlerini (intent) tespit edebilir, eksik bilgileri sorabilir ve backend API'lerine tetikleme hazırlığı yapabilirsiniz.
 ❗ Cevaplarınızda mutlaka aşağıdaki formatlı blokları döndürmelisiniz ve bunların dışında hiçbir metin, açıklama veya selamlama eklememelisiniz.
@@ -37,30 +36,34 @@ Siz bir görev tabanlı asistan botsunuz. Kullanıcının doğal dildeki mesajla
 """
 app = FastAPI()
-llm = None
 class ChatRequest(BaseModel):
     prompt: str
 @app.on_event("startup")
 def load_model():
-    global llm
     try:
         log("🚀 Uygulama başlatılıyor...")
-        log("📥 Model indirme başlatılıyor...")
-        model_path = hf_hub_download(
-            repo_id=REPO_ID,
-            filename=FILENAME,
-            local_dir="/tmp",
             token=HF_TOKEN
         )
-        log(f"✅ Model indirildi: {model_path}")
-        log("📦 GGUF model yükleniyor...")
-        llm = Llama(model_path=model_path, n_gpu_layers=40, n_ctx=1024)
         log("✅ Model başarıyla yüklendi ve kullanılmaya hazır.")
-        log("💡 Artık /chat endpoint'ine POST isteği gönderebilirsiniz.")
     except Exception as e:
         log(f"❌ Model yükleme hatası: {e}")
         traceback.print_exc()
@@ -70,16 +73,17 @@ def load_model():
 def chat(req: ChatRequest):
     try:
         log(f"💬 Yeni istek alındı: '{req.prompt}'")
-        prompt = f"{SYSTEM_PROMPT}\n\nKullanıcı: {req.prompt}\nAsistan:"
         log("🧠 LLM çağrısı başlatılıyor...")
-        response = llm(
-            prompt,
-            max_tokens=256,
-            stop=["Kullanıcı:", "Asistan:"],
-            echo=False
         )
-        answer = response["choices"][0]["text"].strip()
         log("✅ LLM cevabı başarıyla alındı.")
         return {"response": answer}

 import os
 import sys
 import traceback
+import json
 from fastapi import FastAPI
 from pydantic import BaseModel
+from unsloth import FastLanguageModel
+from transformers import pipeline
 from datetime import datetime
 # === 🕒 Zamanlı log fonksiyonu
     print(line, flush=True)
 # === Model bilgileri
+MODEL_NAME = "atasoglu/Turkish-Llama-3-8B-function-calling"
 HF_TOKEN = os.getenv("HF_TOKEN")
+# === System prompt (bizim intent yapımız)
 SYSTEM_PROMPT = """
 Siz bir görev tabanlı asistan botsunuz. Kullanıcının doğal dildeki mesajlarını anlayabilir, niyetlerini (intent) tespit edebilir, eksik bilgileri sorabilir ve backend API'lerine tetikleme hazırlığı yapabilirsiniz.
 ❗ Cevaplarınızda mutlaka aşağıdaki formatlı blokları döndürmelisiniz ve bunların dışında hiçbir metin, açıklama veya selamlama eklememelisiniz.
 """
 app = FastAPI()
+model = None
+tokenizer = None
+pipe = None
 class ChatRequest(BaseModel):
     prompt: str
 @app.on_event("startup")
 def load_model():
+    global model, tokenizer, pipe
     try:
         log("🚀 Uygulama başlatılıyor...")
+        log("📥 Model yüklemesi başlatılıyor...")
+        model, tokenizer = FastLanguageModel.from_pretrained(
+            model_name=MODEL_NAME,
+            load_in_4bit=True,
             token=HF_TOKEN
         )
+        FastLanguageModel.for_inference(model)
+        pipe = pipeline(
+            "text-generation",
+            model=model,
+            tokenizer=tokenizer,
+            device_map="auto"
+        )
         log("✅ Model başarıyla yüklendi ve kullanılmaya hazır.")
     except Exception as e:
         log(f"❌ Model yükleme hatası: {e}")
         traceback.print_exc()
 def chat(req: ChatRequest):
     try:
         log(f"💬 Yeni istek alındı: '{req.prompt}'")
+        full_prompt = f"{SYSTEM_PROMPT}\n\nKullanıcı: {req.prompt}\nAsistan:"
         log("🧠 LLM çağrısı başlatılıyor...")
+        outputs = pipe(
+            full_prompt,
+            max_new_tokens=256,
+            temperature=0.2,
+            top_p=0.95,
+            repetition_penalty=1.1
         )
+        answer = outputs[0]["generated_text"].replace(full_prompt, "").strip()
         log("✅ LLM cevabı başarıyla alındı.")
         return {"response": answer}