from llama_cpp import Llama
import logging

model = None

def load_model(model_path: str):
    global model
    if model is not None:
        return model

    logging.info(f"📦 Tìm thấy mô hình: {model_path}")

    model = Llama(
        model_path=model_path,
        n_ctx=1024,             # giảm từ 2048 xuống 1024 → tăng tốc (đủ dùng cho câu hỏi ngắn)
        n_batch=64,             # bắt buộc ≥ GGML_KQ_MASK_PAD → giảm warning + tăng hiệu suất
        n_threads=4,            # HFS Free thường cấp 2–4 vCPU → để 4 là hợp lý
        n_threads_batch=2,      # tối ưu xử lý song song cho batch nhỏ
        logits_all=False,       # tiết kiệm RAM nếu không cần full logits
        use_mlock=False,        # giảm lỗi trên host không hỗ trợ mlock
        verbose=False
    )

    logging.info("✅ Model Loader: Đã tải mô hình thành công.")
    return model