Spaces:

quan3s
/

llmAI

Running

App Files Files Community

quan3s commited on 8 days ago

Commit

d3d6770

verified ·

1 Parent(s): ddc9788

Update app.py

Browse files

Files changed (1) hide show

app.py +36 -9

app.py CHANGED Viewed

@@ -21,8 +21,8 @@ logging.basicConfig(level=logging.INFO, format="%(asctime)s [%(levelname)s] %(me
 logger = logging.getLogger(__name__)
 # ─── Config ────────────────────────────────────────────────────────────────────
-BEARER_TOKEN = os.environ.get("BEARER_TOKEN", "")
-MODEL_PATH   = os.environ.get("MODEL_PATH", "/app/models/model.gguf")
 MODEL_NAME   = os.environ.get("MODEL_NAME", "qwen2.5-coder-7b-instruct")
 N_CTX        = int(os.environ.get("N_CTX", "4096"))
 N_THREADS    = int(os.environ.get("N_THREADS", "4"))
@@ -35,11 +35,38 @@ if not BEARER_TOKEN:
 # ─── Global model holder ────────────────────────────────────────────────────────
 llm = None
-# ─── Lifespan: load model once at startup ──────────────────────────────────────
 @asynccontextmanager
 async def lifespan(app: FastAPI):
-    global llm
-    logger.info(f"🔄 Loading model from: {MODEL_PATH}")
     try:
         from llama_cpp import Llama
         llm = Llama(
@@ -48,14 +75,14 @@ async def lifespan(app: FastAPI):
             n_threads=N_THREADS,
             n_gpu_layers=N_GPU_LAYERS,
             verbose=False,
-            chat_format="chatml",   # works for Qwen2.5 / most instruct models
         )
-        logger.info("✅ Model loaded successfully.")
     except Exception as e:
-        logger.error(f"❌ Failed to load model: {e}")
         raise RuntimeError(f"Model load failed: {e}")
     yield
-    logger.info("🛑 Shutting down.")
 # ─── App ────────────────────────────────────────────────────────────────────────
 app = FastAPI(

 logger = logging.getLogger(__name__)
 # ─── Config ────────────────────────────────────────────────────────────────────
+BEARER_TOKEN = os.environ.get("quan11082012, "")
+MODEL_PATH   = os.environ.get("MODEL_PATH", "/app/models/qwen2.5-coder-7b-instruct-q4_k_m.gguf")
 MODEL_NAME   = os.environ.get("MODEL_NAME", "qwen2.5-coder-7b-instruct")
 N_CTX        = int(os.environ.get("N_CTX", "4096"))
 N_THREADS    = int(os.environ.get("N_THREADS", "4"))
 # ─── Global model holder ────────────────────────────────────────────────────────
 llm = None
+# ─── Lifespan: download and load model once at startup ─────────────────────────
 @asynccontextmanager
 async def lifespan(app: FastAPI):
+    global llm, MODEL_PATH
+    # 1. Tự động kiểm tra và tải model nếu chưa tồn tại ở Runtime
+    if not os.path.exists(MODEL_PATH):
+        logger.info("🚚 Model không tìm thấy tại local. Đang tiến hành tải từ Hugging Face Hub...")
+        try:
+            from huggingface_hub import hf_hub_download
+            model_dir = os.path.dirname(MODEL_PATH)
+            model_filename = os.path.basename(MODEL_PATH)
+            # Đảm bảo thư mục đích tồn tại
+            os.makedirs(model_dir, exist_ok=True)
+            # Thực hiện tải file (sử dụng mạng runtime cực kỳ ổn định của HF)
+            downloaded_path = hf_hub_download(
+                repo_id="Qwen/Qwen2.5-Coder-7B-Instruct-GGUF",
+                filename=model_filename,
+                local_dir=model_dir,
+                local_dir_use_symlinks=False
+            )
+            MODEL_PATH = downloaded_path
+            logger.info(f"✅ Tải model thành công! Đường dẫn thực tế: {MODEL_PATH}")
+        except Exception as e:
+            logger.error(f"❌ Lỗi tải model từ Hugging Face Hub: {e}")
+            raise RuntimeError(f"Model download failed: {e}")
+    # 2. Khởi tạo và nạp model vào bộ nhớ RAM
+    logger.info(f"🔄 Đang nạp model từ: {MODEL_PATH}")
     try:
         from llama_cpp import Llama
         llm = Llama(
             n_threads=N_THREADS,
             n_gpu_layers=N_GPU_LAYERS,
             verbose=False,
+            chat_format="chatml",   # Phù hợp cho cấu trúc Qwen2.5 Instruct
         )
+        logger.info("✅ Model đã được nạp thành công và sẵn sàng xử lý.")
     except Exception as e:
+        logger.error(f"❌ Không thể nạp cấu hình model LLM: {e}")
         raise RuntimeError(f"Model load failed: {e}")
     yield
+    logger.info("🛑 Đang tắt ứng dụng Backend.")
 # ─── App ────────────────────────────────────────────────────────────────────────
 app = FastAPI(