Commit
·
03bbae3
1
Parent(s):
54c0e82
Test GGUF with lightweight build
Browse files- src/utils/config.py +11 -4
src/utils/config.py
CHANGED
|
@@ -58,14 +58,21 @@ class Config:
|
|
| 58 |
self.USE_MODEL_HUB = os.getenv("USE_MODEL_HUB", "true").lower() == "true"
|
| 59 |
|
| 60 |
# Hugging Face Model Hub 설정
|
| 61 |
-
|
| 62 |
-
self.
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 63 |
self.MODEL_CACHE_DIR = os.getenv("MODEL_CACHE_DIR", ".cache/models")
|
| 64 |
|
| 65 |
# 로컬 경로 (USE_MODEL_HUB=false인 경우)
|
| 66 |
-
self.GGUF_MODEL_PATH = os.getenv("GGUF_MODEL_PATH", ".cache/models/
|
| 67 |
|
| 68 |
-
# GGUF GPU 설정 (T4 Medium 최적화)
|
| 69 |
self.GGUF_N_GPU_LAYERS = int(os.getenv("GGUF_N_GPU_LAYERS", "35")) # T4에서 8B 모델 전체를 GPU에 로드
|
| 70 |
self.GGUF_N_CTX = int(os.getenv("GGUF_N_CTX", "2048")) # 컨텍스트 길이
|
| 71 |
self.GGUF_N_THREADS = int(os.getenv("GGUF_N_THREADS", "4")) # CPU 스레드 (GPU 사용 시 낮게)
|
|
|
|
| 58 |
self.USE_MODEL_HUB = os.getenv("USE_MODEL_HUB", "true").lower() == "true"
|
| 59 |
|
| 60 |
# Hugging Face Model Hub 설정
|
| 61 |
+
# Llama-3-Open-Ko-8B 한국어 GGUF 모델 사용
|
| 62 |
+
self.MODEL_HUB_REPO = os.getenv(
|
| 63 |
+
"MODEL_HUB_REPO",
|
| 64 |
+
"Dongjin1203/RFP_Documents_chatbot"
|
| 65 |
+
)
|
| 66 |
+
self.MODEL_HUB_FILENAME = os.getenv(
|
| 67 |
+
"MODEL_HUB_FILENAME",
|
| 68 |
+
"Llama-3-Open-Ko-8B.Q4_K_M.gguf"
|
| 69 |
+
)
|
| 70 |
self.MODEL_CACHE_DIR = os.getenv("MODEL_CACHE_DIR", ".cache/models")
|
| 71 |
|
| 72 |
# 로컬 경로 (USE_MODEL_HUB=false인 경우)
|
| 73 |
+
self.GGUF_MODEL_PATH = os.getenv("GGUF_MODEL_PATH", ".cache/models/Llama-3-Open-Ko-8B.Q4_K_M.gguf")
|
| 74 |
|
| 75 |
+
# GGUF GPU 설정 (T4 Medium 최적화 - 8B 모델용)
|
| 76 |
self.GGUF_N_GPU_LAYERS = int(os.getenv("GGUF_N_GPU_LAYERS", "35")) # T4에서 8B 모델 전체를 GPU에 로드
|
| 77 |
self.GGUF_N_CTX = int(os.getenv("GGUF_N_CTX", "2048")) # 컨텍스트 길이
|
| 78 |
self.GGUF_N_THREADS = int(os.getenv("GGUF_N_THREADS", "4")) # CPU 스레드 (GPU 사용 시 낮게)
|