from llama_cpp import Llama

def load_model(model_path: str):
    n_ctx = 2048  # bạn có thể điều chỉnh tùy theo mô hình
    llm = Llama(
        model_path=model_path,
        n_ctx=n_ctx,
        n_threads=4,
        n_gpu_layers=0,
        use_mlock=False,
        logits_all=False
    )
    return {"llm": llm, "n_ctx": n_ctx}