| from llama_cpp import Llama | |
| def load_model(model_path: str): | |
| n_ctx = 2048 # bạn có thể điều chỉnh tùy theo mô hình | |
| llm = Llama( | |
| model_path=model_path, | |
| n_ctx=n_ctx, | |
| n_threads=4, | |
| n_gpu_layers=0, | |
| use_mlock=False, | |
| logits_all=False | |
| ) | |
| return {"llm": llm, "n_ctx": n_ctx} | |