Spaces:
Sleeping
Sleeping
| from llama_cpp import Llama | |
| import logging | |
| model = None | |
| def load_model(model_path: str): | |
| global model | |
| if model is not None: | |
| return model | |
| logging.info(f"📦 Tìm thấy mô hình: {model_path}") | |
| model = Llama( | |
| model_path=model_path, | |
| n_ctx=1024, # giảm từ 2048 xuống 1024 → tăng tốc (đủ dùng cho câu hỏi ngắn) | |
| n_batch=64, # bắt buộc ≥ GGML_KQ_MASK_PAD → giảm warning + tăng hiệu suất | |
| n_threads=4, # HFS Free thường cấp 2–4 vCPU → để 4 là hợp lý | |
| n_threads_batch=2, # tối ưu xử lý song song cho batch nhỏ | |
| logits_all=False, # tiết kiệm RAM nếu không cần full logits | |
| use_mlock=False, # giảm lỗi trên host không hỗ trợ mlock | |
| verbose=False | |
| ) | |
| logging.info("✅ Model Loader: Đã tải mô hình thành công.") | |
| return model |