Spaces:

Dongjin1203
/

RFP_summary_chatbot

Paused

App Files Files Community

Dongjin1203 commited on Nov 27, 2025

Commit

54c0e82

1 Parent(s): d9d7415

Test GGUF with lightweight build

Browse files

Files changed (2) hide show

src/generator/generator_gguf.py +36 -52
src/utils/config.py +59 -0

src/generator/generator_gguf.py CHANGED Viewed

@@ -78,18 +78,25 @@ class GGUFGenerator:
             return
         try:
             # Model Hub 사용 여부에 따라 경로 결정
-            if self.config.USE_MODEL_HUB:
                 # === Model Hub에서 다운로드 ===
-                logger.info(f"📥 Model Hub에서 다운로드: {self.config.MODEL_HUB_REPO}")
                 from huggingface_hub import hf_hub_download
                 model_path = hf_hub_download(
-                    repo_id=self.config.MODEL_HUB_REPO,
-                    filename=self.config.MODEL_HUB_FILENAME,
-                    cache_dir=self.config.MODEL_CACHE_DIR,
-                    local_dir=self.config.MODEL_CACHE_DIR,
                     local_dir_use_symlinks=False  # 심볼릭 링크 대신 실제 복사
                 )
@@ -97,7 +104,7 @@ class GGUFGenerator:
             else:
                 # === 로컬 파일 사용 ===
-                model_path = self.config.GGUF_MODEL_PATH
                 if not os.path.exists(model_path):
                     raise FileNotFoundError(
@@ -305,33 +312,42 @@ class GGUFRAGPipeline:
             alpha: 임베딩 가중치
         """
         self.config = config or RAGConfig()
-        self.top_k = top_k or self.config.DEFAULT_TOP_K
         # 검색 설정
-        self.search_mode = search_mode or self.config.DEFAULT_SEARCH_MODE
-        self.alpha = alpha if alpha is not None else self.config.DEFAULT_ALPHA
         # Retriever 초기화 (RAGRetriever 사용)
         logger.info("RAGRetriever 초기화 중...")
         from src.retriever.retriever import RAGRetriever
         self.retriever = RAGRetriever(config=self.config)
-        # GGUF 설정 (파라미터가 주어지면 config 오버라이드)
-        gguf_n_gpu_layers = n_gpu_layers if n_gpu_layers is not None else self.config.GGUF_N_GPU_LAYERS
-        gguf_n_ctx = n_ctx if n_ctx is not None else self.config.GGUF_N_CTX
-        gguf_n_threads = n_threads if n_threads is not None else self.config.GGUF_N_THREADS
-        gguf_max_new_tokens = max_new_tokens if max_new_tokens is not None else self.config.GGUF_MAX_NEW_TOKENS
-        gguf_temperature = temperature if temperature is not None else self.config.GGUF_TEMPERATURE
-        gguf_top_p = top_p if top_p is not None else self.config.GGUF_TOP_P
         # GGUFGenerator 초기화
         logger.info("GGUFGenerator 초기화 중...")
         logger.info(f"   GPU 레이어: {gguf_n_gpu_layers}")
         logger.info(f"   컨텍스트: {gguf_n_ctx}")
         logger.info(f"   스레드: {gguf_n_threads}")
         self.generator = GGUFGenerator(
-            model_path=self.config.GGUF_MODEL_PATH,
             n_gpu_layers=gguf_n_gpu_layers,
             n_ctx=gguf_n_ctx,
             n_threads=gguf_n_threads,
@@ -339,7 +355,7 @@ class GGUFRAGPipeline:
             max_new_tokens=gguf_max_new_tokens,
             temperature=gguf_temperature,
             top_p=gguf_top_p,
-            system_prompt=self.config.SYSTEM_PROMPT
         )
         # 모델 로드 (시간 소요)
@@ -552,36 +568,4 @@ class GGUFRAGPipeline:
         logger.info(
             f"🔧 검색 설정 변경: mode={self.search_mode}, "
             f"top_k={self.top_k}, alpha={self.alpha}"
-        )
-# 테스트용
-if __name__ == "__main__":
-    from src.utils.config import RAGConfig
-    config = RAGConfig()
-    # GGUFRAGPipeline 초기화
-    pipeline = GGUFRAGPipeline(config=config)
-    # 테스트 질문들
-    test_questions = [
-        "안녕하세요",
-        "본 사업의 예산 범위는 어떻게 되나요?",
-        "고마워요!"
-    ]
-    for question in test_questions:
-        print("\n" + "="*50)
-        print("테스트 질문:", question)
-        print("="*50)
-        result = pipeline.generate_answer(question)
-        print(f"\n라우팅: {result['routing_info']['route']}")
-        print(f"검색 사용: {result['used_retrieval']}")
-        print("\n응답:")
-        print(result['answer'])
-        print(f"\n소요 시간: {result['elapsed_time']:.2f}초")
-        print(f"참고 문서: {len(result['sources'])}개")
-        print("="*50)

             return
         try:
+            # Config에서 USE_MODEL_HUB 확인 (없으면 True 기본값)
+            use_model_hub = getattr(self.config, 'USE_MODEL_HUB', True)
             # Model Hub 사용 여부에 따라 경로 결정
+            if use_model_hub:
                 # === Model Hub에서 다운로드 ===
+                model_hub_repo = getattr(self.config, 'MODEL_HUB_REPO', 'beomi/Llama-3-Open-Ko-8B-gguf')
+                model_hub_filename = getattr(self.config, 'MODEL_HUB_FILENAME', 'ggml-model-Q4_K_M.gguf')
+                model_cache_dir = getattr(self.config, 'MODEL_CACHE_DIR', '.cache/models')
+                logger.info(f"📥 Model Hub에서 다운로드: {model_hub_repo}")
                 from huggingface_hub import hf_hub_download
                 model_path = hf_hub_download(
+                    repo_id=model_hub_repo,
+                    filename=model_hub_filename,
+                    cache_dir=model_cache_dir,
+                    local_dir=model_cache_dir,
                     local_dir_use_symlinks=False  # 심볼릭 링크 대신 실제 복사
                 )
             else:
                 # === 로컬 파일 사용 ===
+                model_path = self.model_path  # 생성자에서 받은 경로 사용
                 if not os.path.exists(model_path):
                     raise FileNotFoundError(
             alpha: 임베딩 가중치
         """
         self.config = config or RAGConfig()
+        # Config에서 기본값 가져오기 (없으면 fallback)
+        self.top_k = top_k or getattr(self.config, 'DEFAULT_TOP_K', 10)
         # 검색 설정
+        self.search_mode = search_mode or getattr(self.config, 'DEFAULT_SEARCH_MODE', 'hybrid_rerank')
+        self.alpha = alpha if alpha is not None else getattr(self.config, 'DEFAULT_ALPHA', 0.5)
         # Retriever 초기화 (RAGRetriever 사용)
         logger.info("RAGRetriever 초기화 중...")
         from src.retriever.retriever import RAGRetriever
         self.retriever = RAGRetriever(config=self.config)
+        # GGUF 설정 (파라미터가 주어지면 config 오버라이드, 없으면 기본값)
+        gguf_n_gpu_layers = n_gpu_layers if n_gpu_layers is not None else getattr(self.config, 'GGUF_N_GPU_LAYERS', 35)
+        gguf_n_ctx = n_ctx if n_ctx is not None else getattr(self.config, 'GGUF_N_CTX', 2048)
+        gguf_n_threads = n_threads if n_threads is not None else getattr(self.config, 'GGUF_N_THREADS', 4)
+        gguf_max_new_tokens = max_new_tokens if max_new_tokens is not None else getattr(self.config, 'GGUF_MAX_NEW_TOKENS', 512)
+        gguf_temperature = temperature if temperature is not None else getattr(self.config, 'GGUF_TEMPERATURE', 0.7)
+        gguf_top_p = top_p if top_p is not None else getattr(self.config, 'GGUF_TOP_P', 0.9)
+        # 모델 경로 (fallback)
+        gguf_model_path = getattr(self.config, 'GGUF_MODEL_PATH', '.cache/models/llama-3-ko-8b.gguf')
+        # 시스템 프롬프트 (fallback)
+        system_prompt = getattr(self.config, 'SYSTEM_PROMPT', '당신은 한국 공공기관 사업제안서 분석 전문가입니다.')
         # GGUFGenerator 초기화
         logger.info("GGUFGenerator 초기화 중...")
         logger.info(f"   GPU 레이어: {gguf_n_gpu_layers}")
         logger.info(f"   컨텍스트: {gguf_n_ctx}")
         logger.info(f"   스레드: {gguf_n_threads}")
+        logger.info(f"   모델 경로: {gguf_model_path}")
         self.generator = GGUFGenerator(
+            model_path=gguf_model_path,
             n_gpu_layers=gguf_n_gpu_layers,
             n_ctx=gguf_n_ctx,
             n_threads=gguf_n_threads,
             max_new_tokens=gguf_max_new_tokens,
             temperature=gguf_temperature,
             top_p=gguf_top_p,
+            system_prompt=system_prompt
         )
         # 모델 로드 (시간 소요)
         logger.info(
             f"🔧 검색 설정 변경: mode={self.search_mode}, "
             f"top_k={self.top_k}, alpha={self.alpha}"
+        )

src/utils/config.py CHANGED Viewed

@@ -52,6 +52,26 @@ class Config:
         # 시스템 프롬프트
         self.SYSTEM_PROMPT = "당신은 RFP(제안요청서) 분석 및 요약 전문가입니다."
     def _get_api_key(self) -> str:
         """환경변수에서 API 키 로드"""
@@ -89,16 +109,55 @@ class Config:
             raise ValueError("OPENAI_API_KEY가 설정되지 않았습니다")
         return True
     def validate_all(self):
         """전체 설정 유효성 검사"""
         self.validate_preprocess()
         self.validate_rag()
         return True
     def validate(self):
         """설정 유효성 검사 (하위 호환성)"""
         return self.validate_preprocess()
 # 하위 호환성을 위한 별칭

         # 시스템 프롬프트
         self.SYSTEM_PROMPT = "당신은 RFP(제안요청서) 분석 및 요약 전문가입니다."
+        # ===== GGUF 로컬 모델 설정 =====
+        # Model Hub 사용 여부 (환경변수 우선)
+        self.USE_MODEL_HUB = os.getenv("USE_MODEL_HUB", "true").lower() == "true"
+        # Hugging Face Model Hub 설정
+        self.MODEL_HUB_REPO = os.getenv("MODEL_HUB_REPO", "beomi/Llama-3-Open-Ko-8B-gguf")
+        self.MODEL_HUB_FILENAME = os.getenv("MODEL_HUB_FILENAME", "ggml-model-Q4_K_M.gguf")
+        self.MODEL_CACHE_DIR = os.getenv("MODEL_CACHE_DIR", ".cache/models")
+        # 로컬 경로 (USE_MODEL_HUB=false인 경우)
+        self.GGUF_MODEL_PATH = os.getenv("GGUF_MODEL_PATH", ".cache/models/llama-3-ko-8b-Q4_K_M.gguf")
+        # GGUF GPU 설정 (T4 Medium 최적화)
+        self.GGUF_N_GPU_LAYERS = int(os.getenv("GGUF_N_GPU_LAYERS", "35"))  # T4에서 8B 모델 전체를 GPU에 로드
+        self.GGUF_N_CTX = int(os.getenv("GGUF_N_CTX", "2048"))              # 컨텍스트 길이
+        self.GGUF_N_THREADS = int(os.getenv("GGUF_N_THREADS", "4"))         # CPU 스레드 (GPU 사용 시 낮게)
+        self.GGUF_MAX_NEW_TOKENS = int(os.getenv("GGUF_MAX_NEW_TOKENS", "512"))  # 최대 생성 토큰
+        self.GGUF_TEMPERATURE = float(os.getenv("GGUF_TEMPERATURE", "0.7"))       # 생성 다양성
+        self.GGUF_TOP_P = float(os.getenv("GGUF_TOP_P", "0.9"))                   # Nucleus sampling
     def _get_api_key(self) -> str:
         """환경변수에서 API 키 로드"""
             raise ValueError("OPENAI_API_KEY가 설정되지 않았습니다")
         return True
+    def validate_gguf(self):
+        """GGUF 설정 유효성 검사"""
+        if not self.USE_MODEL_HUB:
+            # 로컬 파일 사용 시 경로 확인
+            if not os.path.exists(self.GGUF_MODEL_PATH):
+                print(f"⚠️ 경고: GGUF 모델 파일이 없습니다: {self.GGUF_MODEL_PATH}")
+                print(f"   USE_MODEL_HUB=true로 설정하여 자동 다운로드하거나 모델 파일을 준비하세요.")
+        # GPU 레이어 설정 확인
+        if self.GGUF_N_GPU_LAYERS > 0:
+            print(f"✅ GPU 가속 활성화: {self.GGUF_N_GPU_LAYERS}개 레이어")
+        else:
+            print(f"⚠️ CPU 전용 모드 (n_gpu_layers=0)")
+        return True
     def validate_all(self):
         """전체 설정 유효성 검사"""
         self.validate_preprocess()
         self.validate_rag()
+        self.validate_gguf()
         return True
     def validate(self):
         """설정 유효성 검사 (하위 호환성)"""
         return self.validate_preprocess()
+    def print_gguf_config(self):
+        """GGUF 설정 출력 (디버깅용)"""
+        print("\n" + "="*50)
+        print("GGUF 모델 설정")
+        print("="*50)
+        print(f"Model Hub 사용: {self.USE_MODEL_HUB}")
+        if self.USE_MODEL_HUB:
+            print(f"Hub Repo: {self.MODEL_HUB_REPO}")
+            print(f"Hub 파일명: {self.MODEL_HUB_FILENAME}")
+            print(f"캐시 디렉토리: {self.MODEL_CACHE_DIR}")
+        else:
+            print(f"로컬 경로: {self.GGUF_MODEL_PATH}")
+        print(f"\nGPU 설정:")
+        print(f"  - GPU 레이어: {self.GGUF_N_GPU_LAYERS}")
+        print(f"  - 컨텍스트: {self.GGUF_N_CTX}")
+        print(f"  - 스레드: {self.GGUF_N_THREADS}")
+        print(f"\n생성 설정:")
+        print(f"  - Max Tokens: {self.GGUF_MAX_NEW_TOKENS}")
+        print(f"  - Temperature: {self.GGUF_TEMPERATURE}")
+        print(f"  - Top-P: {self.GGUF_TOP_P}")
+        print("="*50 + "\n")
 # 하위 호환성을 위한 별칭