Dongjin1203 commited on
Commit
03bbae3
·
1 Parent(s): 54c0e82

Test GGUF with lightweight build

Browse files
Files changed (1) hide show
  1. src/utils/config.py +11 -4
src/utils/config.py CHANGED
@@ -58,14 +58,21 @@ class Config:
58
  self.USE_MODEL_HUB = os.getenv("USE_MODEL_HUB", "true").lower() == "true"
59
 
60
  # Hugging Face Model Hub 설정
61
- self.MODEL_HUB_REPO = os.getenv("MODEL_HUB_REPO", "beomi/Llama-3-Open-Ko-8B-gguf")
62
- self.MODEL_HUB_FILENAME = os.getenv("MODEL_HUB_FILENAME", "ggml-model-Q4_K_M.gguf")
 
 
 
 
 
 
 
63
  self.MODEL_CACHE_DIR = os.getenv("MODEL_CACHE_DIR", ".cache/models")
64
 
65
  # 로컬 경로 (USE_MODEL_HUB=false인 경우)
66
- self.GGUF_MODEL_PATH = os.getenv("GGUF_MODEL_PATH", ".cache/models/llama-3-ko-8b-Q4_K_M.gguf")
67
 
68
- # GGUF GPU 설정 (T4 Medium 최적화)
69
  self.GGUF_N_GPU_LAYERS = int(os.getenv("GGUF_N_GPU_LAYERS", "35")) # T4에서 8B 모델 전체를 GPU에 로드
70
  self.GGUF_N_CTX = int(os.getenv("GGUF_N_CTX", "2048")) # 컨텍스트 길이
71
  self.GGUF_N_THREADS = int(os.getenv("GGUF_N_THREADS", "4")) # CPU 스레드 (GPU 사용 시 낮게)
 
58
  self.USE_MODEL_HUB = os.getenv("USE_MODEL_HUB", "true").lower() == "true"
59
 
60
  # Hugging Face Model Hub 설정
61
+ # Llama-3-Open-Ko-8B 한국어 GGUF 모델 사용
62
+ self.MODEL_HUB_REPO = os.getenv(
63
+ "MODEL_HUB_REPO",
64
+ "Dongjin1203/RFP_Documents_chatbot"
65
+ )
66
+ self.MODEL_HUB_FILENAME = os.getenv(
67
+ "MODEL_HUB_FILENAME",
68
+ "Llama-3-Open-Ko-8B.Q4_K_M.gguf"
69
+ )
70
  self.MODEL_CACHE_DIR = os.getenv("MODEL_CACHE_DIR", ".cache/models")
71
 
72
  # 로컬 경로 (USE_MODEL_HUB=false인 경우)
73
+ self.GGUF_MODEL_PATH = os.getenv("GGUF_MODEL_PATH", ".cache/models/Llama-3-Open-Ko-8B.Q4_K_M.gguf")
74
 
75
+ # GGUF GPU 설정 (T4 Medium 최적화 - 8B 모델용)
76
  self.GGUF_N_GPU_LAYERS = int(os.getenv("GGUF_N_GPU_LAYERS", "35")) # T4에서 8B 모델 전체를 GPU에 로드
77
  self.GGUF_N_CTX = int(os.getenv("GGUF_N_CTX", "2048")) # 컨텍스트 길이
78
  self.GGUF_N_THREADS = int(os.getenv("GGUF_N_THREADS", "4")) # CPU 스레드 (GPU 사용 시 낮게)