Spaces:

gbrabbit
/

lily_fast_api

Sleeping

App Files Files Community

gbrabbit commited on Aug 20, 2025

Commit

656a9b2

1 Parent(s): d098bcd

Auto commit at 21-2025-08 0:28:12

Browse files

Files changed (4) hide show

README.md +2 -0
lily_llm_api/app_v2.py +39 -12
lily_llm_api/models/polyglot_ko_1_3b_chat.py +14 -13
lily_llm_api/models/polyglot_ko_5_8b_chat.py +83 -105

README.md CHANGED Viewed

@@ -10,6 +10,8 @@ app_file: app.py
 pinned: false
 ---
 # 250819
 - v1.0.1

 pinned: false
 ---
+# 250820
+- lily llm kanana 3b 멀티모달 개선, polyglot 1.3b, 5.8b 응답 품질 개선
 # 250819
 - v1.0.1

lily_llm_api/app_v2.py CHANGED Viewed

@@ -183,6 +183,7 @@ executor = concurrent.futures.ThreadPoolExecutor()
 def configure_cpu_threads():
     """CPU 스레드 환경 최적화 (vCPU 수에 맞게 조정)."""
     try:
         # 기본값: 환경변수 또는 시스템 CPU 수를 사용하되 과도한 스레드 방지
         env_threads = os.getenv("CPU_THREADS")
@@ -190,7 +191,7 @@ def configure_cpu_threads():
             threads = max(1, int(env_threads))
         else:
             detected = os.cpu_count() or 2
-            # 컨테이너/서버의 vCPU 수를 그대로 사용하되 상한 8 적용
             threads = max(1, min(detected, 16))
         # OpenMP/MKL/numexpr
@@ -213,6 +214,7 @@ def configure_cpu_threads():
         logger.info(f"🧵 CPU thread config -> OMP/MKL/numexpr={threads}, torch_threads={threads}")
     except Exception as e:
         logger.warning(f"⚠️ CPU 스레드 설정 실패: {e}")
 def select_model_interactive():
     """인터랙티브 모델 선택"""
@@ -225,7 +227,7 @@ def select_model_interactive():
         try:
             # choice = input(f"\n📝 사용할 모델 번호를 선택하세요 (1-{len(available_models)}): ")
             # selected_model = available_models[int(choice) - 1]
-            selected_model = available_models[2]
             print(f"\n✅ '{selected_model['name']}' 모델을 선택했습니다.")
             return selected_model['model_id']
         except (ValueError, IndexError):
@@ -237,7 +239,12 @@ async def startup_event():
     """[복원] 서버 시작 시 인터랙티브 모델 선택 및 로드"""
     global model_loaded
     # CPU 스레드 최적화 적용
-    configure_cpu_threads()
     selected_model_id = select_model_interactive()
     try:
         await load_model_async(selected_model_id)
@@ -448,7 +455,7 @@ def generate_sync(prompt: str, image_data_list: Optional[List[bytes]], max_lengt
                     return_tensors="pt",
                     padding=True,
                     truncation=True,
-                    max_length=64,
                 )
                 if 'token_type_ids' in inputs:
                     del inputs['token_type_ids']
@@ -533,19 +540,39 @@ def generate_sync(prompt: str, image_data_list: Optional[List[bytes]], max_lengt
                         gen_config['max_time'] = 60.0  # 60초 타임아웃으로 조정
                     # 추가 타임아웃 설정
-                    gen_config['max_time'] = 60.0  # 강제 60초 타임아웃
-                    print(f"🔍 [DEBUG] 강제 타임아웃 설정: 60초")
                     # 추가 성능 최적화 설정
                     gen_config['use_cache'] = True  # 캐시 사용으로 속도 향상
-                    gen_config['pad_token_id'] = tokenizer.eos_token_id if tokenizer.eos_token_id else None
-                    # EOS 토큰 강제 설정 - 문장 끝 문제 해결
-                    if tokenizer.eos_token_id is not None:
-                        gen_config['eos_token_id'] = tokenizer.eos_token_id
-                        print(f"🔍 [DEBUG] EOS 토큰 강제 설정: {tokenizer.eos_token} (ID: {tokenizer.eos_token_id})")
                     else:
-                        print(f"⚠️ [DEBUG] EOS 토큰이 설정되지 않음")
                     # 생성 설정 최종 확인
                     print(f"🔍 [DEBUG] 최종 생성 설정: {gen_config}")

 def configure_cpu_threads():
     """CPU 스레드 환경 최적화 (vCPU 수에 맞게 조정)."""
+    print(f"🔍 [DEBUG] configure_cpu_threads 시작")
     try:
         # 기본값: 환경변수 또는 시스템 CPU 수를 사용하되 과도한 스레드 방지
         env_threads = os.getenv("CPU_THREADS")
             threads = max(1, int(env_threads))
         else:
             detected = os.cpu_count() or 2
+            # 컨테이너/서버의 vCPU 수를 그대로 사용하되 상한 16 적용
             threads = max(1, min(detected, 16))
         # OpenMP/MKL/numexpr
         logger.info(f"🧵 CPU thread config -> OMP/MKL/numexpr={threads}, torch_threads={threads}")
     except Exception as e:
         logger.warning(f"⚠️ CPU 스레드 설정 실패: {e}")
+    print(f"🔍 [DEBUG] configure_cpu_threads 종료")
 def select_model_interactive():
     """인터랙티브 모델 선택"""
         try:
             # choice = input(f"\n📝 사용할 모델 번호를 선택하세요 (1-{len(available_models)}): ")
             # selected_model = available_models[int(choice) - 1]
+            selected_model = available_models[0]
             print(f"\n✅ '{selected_model['name']}' 모델을 선택했습니다.")
             return selected_model['model_id']
         except (ValueError, IndexError):
     """[복원] 서버 시작 시 인터랙티브 모델 선택 및 로드"""
     global model_loaded
     # CPU 스레드 최적화 적용
+    try:
+        configure_cpu_threads()
+    except Exception as e:
+        logger.error(f"❌ CPU 스레드 설정 실패: {e}")
+        print(f"🔍 [DEBUG] CPU 스레드 설정 실패: {e}")
+        print(f"🔍 [DEBUG] CPU 스레드 설정 실패: {e}")
     selected_model_id = select_model_interactive()
     try:
         await load_model_async(selected_model_id)
                     return_tensors="pt",
                     padding=True,
                     truncation=True,
+                    max_length=256,
                 )
                 if 'token_type_ids' in inputs:
                     del inputs['token_type_ids']
                         gen_config['max_time'] = 60.0  # 60초 타임아웃으로 조정
                     # 추가 타임아웃 설정
+                    # gen_config['max_time'] = 60.0  # 강제 60초 타임아웃
+                    print(f"🔍 [DEBUG] 강제 타임아웃 설정: {gen_config['max_time']}초")
                     # 추가 성능 최적화 설정
                     gen_config['use_cache'] = True  # 캐시 사용으로 속도 향상
+                    # PAD 토큰 설정 - 모델 프로필 설정 우선
+                    if 'pad_token_id' not in gen_config:
+                        # 프로필에 설정이 없을 때만 기본값 사용
+                        if tokenizer.pad_token_id is not None:
+                            gen_config['pad_token_id'] = tokenizer.pad_token_id
+                            print(f"🔍 [DEBUG] PAD 토큰 설정: 토크나이저 기본값 사용 (ID: {tokenizer.pad_token_id})")
+                        else:
+                            gen_config['pad_token_id'] = None
+                            print(f"🔍 [DEBUG] PAD 토큰 설정: None (토크나이저에 PAD 토큰 없음)")
+                    # EOS 토큰 설정 - 모델 프로필 설정 우선
+                    if 'eos_token_id' not in gen_config:
+                        # 프로필에 설정이 없을 때만 기본값 사용
+                        if tokenizer.eos_token_id is not None:
+                            gen_config['eos_token_id'] = tokenizer.eos_token_id
+                            print(f"🔍 [DEBUG] EOS 토큰 설정: 토크나이저 ��본값 사용 (ID: {tokenizer.eos_token_id})")
+                        else:
+                            gen_config['eos_token_id'] = None
+                            print(f"🔍 [DEBUG] EOS 토큰 설정: None (토크나이저에 EOS 토큰 없음)")
                     else:
+                        # 프로필에 이미 설정된 경우 - 그대로 사용
+                        print(f"🔍 [DEBUG] EOS 토큰 설정: 프로필 설정 사용 (ID: {gen_config['eos_token_id']})")
+                        # 프로필에서 설정한 EOS 토큰 ID가 유효한지 확인
+                        if gen_config['eos_token_id'] is not None:
+                            print(f"🔍 [DEBUG] EOS 토큰 ID {gen_config['eos_token_id']} 사용하여 생성 중단점 설정")
+                        else:
+                            print(f"🔍 [DEBUG] EOS 토큰 없음 - max_new_tokens까지 생성")
                     # 생성 설정 최종 확인
                     print(f"🔍 [DEBUG] 최종 생성 설정: {gen_config}")

lily_llm_api/models/polyglot_ko_1_3b_chat.py CHANGED Viewed

@@ -10,6 +10,7 @@ from transformers import AutoTokenizer, AutoModelForCausalLM
 import logging
 import os
 from pathlib import Path
 logger = logging.getLogger(__name__)
@@ -77,11 +78,11 @@ class PolyglotKo13bChatProfile:
         # Hugging Face 모델 페이지의 공식 프롬프트 형식 사용
         prompt = f"""당신은 AI 챗봇입니다. 사용자에게 도움이 되고 유익한 내용을 제공해야합니다. 답변은 길고 자세하며 친절한 설명을 덧붙여서 작성하세요.
-### 사용자:
-{user_input}
-### 챗봇:
-"""
         return prompt
     def extract_response(self, full_text: str, formatted_prompt: str = None) -> str:
@@ -161,17 +162,17 @@ class PolyglotKo13bChatProfile:
             return False
         # 영어가 포함되어 있으면 품질 낮음
-        if any(char.isascii() and char.isalpha() for char in response):
-            return False
         # 문장이 중간에 끊어진 경우 품질 낮음
         if response.endswith(('하', '는', '을', '를', '이', '가', '의', '에', '로')):
             return False
         # 중복된 단어가 많으면 품질 낮음
-        words = response.split()
-        if len(words) > 3 and len(set(words)) / len(words) < 0.7:
-            return False
         return True
@@ -181,8 +182,8 @@ class PolyglotKo13bChatProfile:
         improved = response.strip()
         # 영어 제거
-        import re
-        improved = re.sub(r'[a-zA-Z]+', '', improved)
         # 중복 공백 제거
         improved = re.sub(r'\s+', ' ', improved)
@@ -192,7 +193,7 @@ class PolyglotKo13bChatProfile:
             improved += '니다.'
         # 너무 짧은 경우 기본 응답 추가
-        if len(improved) < 10:
             improved = f"{improved} (응답이 너무 짧습니다. 더 자세한 답변을 원하시면 다시 질문해주세요.)"
         logger.info(f"🔧 응답 품질 개선 완료: {improved}")
@@ -209,7 +210,7 @@ class PolyglotKo13bChatProfile:
             "repetition_penalty": 1.2,       # 반복 방지
             "no_repeat_ngram_size": 4,       # 반복 방지
             "pad_token_id": None,            # 모델 기본값 사용
-            "eos_token_id": None,            # None으로 설정하여 모델이 <|endoftext|> 자동 감지
             "use_cache": True,               # 캐시 사용으로 속도 향상
             "max_time": 60.0,                # 60초 타임아웃
             "early_stopping": False,         # False로 설정하여 <|endoftext|>까지 생성

 import logging
 import os
 from pathlib import Path
+import re
 logger = logging.getLogger(__name__)
         # Hugging Face 모델 페이지의 공식 프롬프트 형식 사용
         prompt = f"""당신은 AI 챗봇입니다. 사용자에게 도움이 되고 유익한 내용을 제공해야합니다. 답변은 길고 자세하며 친절한 설명을 덧붙여서 작성하세요.
+        ### 사용자:
+        {user_input}
+        ### 챗봇:
+        """
         return prompt
     def extract_response(self, full_text: str, formatted_prompt: str = None) -> str:
             return False
         # 영어가 포함되어 있으면 품질 낮음
+        # if any(char.isascii() and char.isalpha() for char in response):
+        #     return False
         # 문장이 중간에 끊어진 경우 품질 낮음
         if response.endswith(('하', '는', '을', '를', '이', '가', '의', '에', '로')):
             return False
         # 중복된 단어가 많으면 품질 낮음
+        # words = response.split()
+        # if len(words) > 3 and len(set(words)) / len(words) < 0.7:
+        #     return False
         return True
         improved = response.strip()
         # 영어 제거
+        # improved = re.sub(r'[a-zA-Z]+', '', improved)
         # 중복 공백 제거
         improved = re.sub(r'\s+', ' ', improved)
             improved += '니다.'
         # 너무 짧은 경우 기본 응답 추가
+        if len(improved) < 5:
             improved = f"{improved} (응답이 너무 짧습니다. 더 자세한 답변을 원하시면 다시 질문해주세요.)"
         logger.info(f"🔧 응답 품질 개선 완료: {improved}")
             "repetition_penalty": 1.2,       # 반복 방지
             "no_repeat_ngram_size": 4,       # 반복 방지
             "pad_token_id": None,            # 모델 기본값 사용
+            "eos_token_id": 2,               # <|endoftext|> 토큰 ID 명시적 설정
             "use_cache": True,               # 캐시 사용으로 속도 향상
             "max_time": 60.0,                # 60초 타임아웃
             "early_stopping": False,         # False로 설정하여 <|endoftext|>까지 생성

lily_llm_api/models/polyglot_ko_5_8b_chat.py CHANGED Viewed

@@ -10,6 +10,7 @@ from transformers import AutoTokenizer, AutoModelForCausalLM
 import logging
 import os
 from pathlib import Path
 logger = logging.getLogger(__name__)
@@ -23,7 +24,7 @@ class PolyglotKo58bChatProfile:
         self.description = "한국어 채팅 전용 고성능 모델 (5.8B)"
         self.language = "ko"
         self.model_size = "5.8B"
     def load_model(self) -> Tuple[AutoModelForCausalLM, AutoTokenizer]:
         """모델 로드 (토크나이저 설정 수정)"""
         logger.info(f"📥 {self.display_name} 모델 로드 중...")
@@ -45,6 +46,19 @@ class PolyglotKo58bChatProfile:
                 logger.warning("⚠️ EOS 토큰이 없습니다. 모델 공식 문서에 따라 <|endoftext|> 설정")
                 tokenizer.eos_token = "<|endoftext|>"
             if tokenizer.pad_token is None:
                 logger.warning("⚠️ PAD 토큰이 없습니다. EOS 토큰으로 설정")
                 tokenizer.pad_token = tokenizer.eos_token
@@ -64,6 +78,7 @@ class PolyglotKo58bChatProfile:
                 trust_remote_code=True,
                 torch_dtype=selected_dtype,
                 local_files_only=use_local,
             ).to(device)
             logger.info(f"✅ {self.display_name} 모델 로드 성공! (device={device}, dtype={selected_dtype})")
@@ -73,144 +88,107 @@ class PolyglotKo58bChatProfile:
             raise
     def format_prompt(self, user_input: str) -> str:
-        """프롬프트 포맷팅 - 공식 문서와 일치"""
-        # Hugging Face 모델 페이지의 공식 프롬프트 형식 사용
-        prompt = f"""당신은 AI 챗봇입니다. 사용자에게 도움이 되고 유익한 내용을 제공해야합니다. 답변은 길고 자세하며 친절한 설명을 덧붙여서 작성하세요.
-### 사용자:
-{user_input}
-### 챗봇:
-"""
         return prompt
     def extract_response(self, full_text: str, formatted_prompt: str = None) -> str:
         """응답 추출 - 품질 검증 및 개선"""
-        logger.info(f"--- Polyglot 5.8B 응답 추출 시작 ---")
         logger.info(f"전체 생성 텍스트 (Raw): \n---\n{full_text}\n---")
         logger.info(f"사용된 프롬프트: {formatted_prompt}")
-        # 1순위: "### 챗봇:" 태그로 추출 시도
-        if "### 챗봇:" in full_text:
-            response = full_text.split("### 챗봇:")[-1].strip()
-            logger.info(f"✅ 성공: '### 챗봇:' 태그로 응답 추출")
-            logger.info(f"추출된 응답: {response}")
-            # 응답 품질 검증
-            if self._validate_response_quality(response):
-                return response
             else:
-                logger.warning("⚠️ 응답 품질이 낮습니다. 품질 개선 제안을 추가합니다.")
-                return self._improve_response_quality(response)
-        # 2순위: 프롬프트 제거로 추출 시도
-        if formatted_prompt and formatted_prompt in full_text:
-            response = full_text.replace(formatted_prompt, "").strip()
-            logger.info(f"✅ 성공: 프롬프트 제거로 응답 추출")
             logger.info(f"추출된 응답: {response}")
-            if self._validate_response_quality(response):
-                return response
-            else:
-                return self._improve_response_quality(response)
-        # 3순위: 일반적인 프롬프트 패턴 제거 시도
-        clean_text = full_text.strip()
-        patterns_to_remove = [
-            "당신은 AI 챗봇입니다. 사용자에게 도움이 되고 유익한 내용을 제공해야합니다. 답변은 길고 자세하며 친절한 설명을 덧붙여서 작성하세요.",
-            "### 사용자:",
-            "### 챗봇:",
-            "사용자:",
-            "챗봇:",
-            "assistant:",
-            "user:"
-        ]
-        for pattern in patterns_to_remove:
-            clean_text = clean_text.replace(pattern, "")
-        clean_text = clean_text.strip()
-        if clean_text and clean_text != full_text:
-            logger.info("✅ 성공: 패턴 제거로 응답 정리")
-            logger.info(f"정리된 응답: {clean_text}")
-            if self._validate_response_quality(clean_text):
-                return clean_text
-            else:
-                return self._improve_response_quality(clean_text)
-        # 4순위: 전체 텍스트에서 불필요한 부분만 제거
-        final_response = full_text.strip()
-        logger.warning("⚠️ 경고: 특별한 응답 추출 패턴을 찾지 못했습니다. 전체 텍스트를 정리하여 반환합니다.")
-        logger.info(f"최종 반환 텍스트: {final_response}")
-        if self._validate_response_quality(final_response):
-            return final_response
-        else:
-            return self._improve_response_quality(final_response)
     def _validate_response_quality(self, response: str) -> bool:
-        """응답 품질 검증"""
-        if not response or len(response.strip()) < 5:
             return False
-        # 영어가 포함되어 있으면 품질 낮음
-        if any(char.isascii() and char.isalpha() for char in response):
-            return False
-        # 문장이 중간에 끊어진 경우 품질 낮음
-        if response.endswith(('하', '는', '을', '를', '이', '가', '의', '에', '로')):
-            return False
-        # 중복된 단어가 많으면 품질 낮음
-        words = response.split()
-        if len(words) > 3 and len(set(words)) / len(words) < 0.7:
-            return False
         return True
     def _improve_response_quality(self, response: str) -> str:
-        """응답 품질 개선"""
-        # 기본 정리
         improved = response.strip()
-        # 영어 제거
-        import re
-        improved = re.sub(r'[a-zA-Z]+', '', improved)
-        # 중복 공백 제거
-        improved = re.sub(r'\s+', ' ', improved)
-        # 문장이 중간에 끊어진 경우 처리
-        if improved.endswith(('하', '는', '을', '를', '이', '가', '의', '에', '로')):
-            improved += '니다.'
-        # 너무 짧은 경우 기본 응답 추가
-        if len(improved) < 10:
-            improved = f"{improved} (응답이 너무 짧습니다. 더 자세한 답변을 원하시면 다시 질문해주세요.)"
         logger.info(f"🔧 응답 품질 개선 완료: {improved}")
         return improved
     def get_generation_config(self) -> Dict[str, Any]:
-        """생성 설정 - 공식 EOS 토큰 사용"""
         return {
-            "max_new_tokens": 128,           # 5.8B 모델은 더 긴 응답 생성 가능
-            "temperature": 0.3,              # 일관성 향상
             "do_sample": True,               # 샘플링 활성화
-            "top_k": 20,                     # 품질 향상
-            "top_p": 0.8,                    # 일관성 향상
-            "repetition_penalty": 1.2,       # 반복 방지
-            "no_repeat_ngram_size": 4,       # 반복 방지
             "pad_token_id": None,            # 모델 기본값 사용
-            "eos_token_id": None,            # None으로 설정하여 모델이 <|endoftext|> 자동 감지
             "use_cache": True,               # 캐시 사용으로 속도 향상
-            "max_time": 240.0,               # 5.8B 모델은 더 긴 시간 필요 (120초)
-            "early_stopping": False,         # False로 설정하여 <|endoftext|>까지 생성
             "stopping_criteria": None,       # 기본 정지 기준 사용
         }
     def get_model_info(self) -> Dict[str, Any]:
         """모델 정보"""
         return {
@@ -221,4 +199,4 @@ class PolyglotKo58bChatProfile:
             "model_size": self.model_size,
             "local_path": self.local_path,
             "multimodal": False,
-        }

 import logging
 import os
 from pathlib import Path
+import re
 logger = logging.getLogger(__name__)
         self.description = "한국어 채팅 전용 고성능 모델 (5.8B)"
         self.language = "ko"
         self.model_size = "5.8B"
     def load_model(self) -> Tuple[AutoModelForCausalLM, AutoTokenizer]:
         """모델 로드 (토크나이저 설정 수정)"""
         logger.info(f"📥 {self.display_name} 모델 로드 중...")
                 logger.warning("⚠️ EOS 토큰이 없습니다. 모델 공식 문서에 따라 <|endoftext|> 설정")
                 tokenizer.eos_token = "<|endoftext|>"
+            # 5.8B 모델 특별 설정
+            if hasattr(tokenizer, 'add_eos_token'):
+                tokenizer.add_eos_token = False  # 자동 EOS 토큰 추가 비활성화
+                logger.info("✅ 자동 EOS 토큰 추가 비활성화됨")
+            # EOS 토큰 처리 개선
+            if tokenizer.eos_token == "<|endoftext|>":
+                logger.info("✅ <|endoftext|> EOS 토큰 확인됨")
+                # EOS 토큰을 특별하게 처리하지 않도록 설정
+                if hasattr(tokenizer, 'eos_token_id'):
+                    logger.info(f"✅ EOS 토큰 ID: {tokenizer.eos_token_id}")
+            # PAD 토큰 설정
             if tokenizer.pad_token is None:
                 logger.warning("⚠️ PAD 토큰이 없습니다. EOS 토큰으로 설정")
                 tokenizer.pad_token = tokenizer.eos_token
                 trust_remote_code=True,
                 torch_dtype=selected_dtype,
                 local_files_only=use_local,
+                low_cpu_mem_usage=True,  # CPU 메모리 사용량 최적화
             ).to(device)
             logger.info(f"✅ {self.display_name} 모델 로드 성공! (device={device}, dtype={selected_dtype})")
             raise
     def format_prompt(self, user_input: str) -> str:
+        """프롬프트 포맷팅 - 5.8B 모델 최적화"""
+        # 5.8B 모델에 더 적합한 프롬프트 형식
+        prompt = f"""당신은 친근하고 도움이 되는 AI 챗봇입니다. 사용자의 질문에 대해 정확하고 상세하며 친절하게 답변해주세요.
+사용자: {user_input}
+AI: """
         return prompt
     def extract_response(self, full_text: str, formatted_prompt: str = None) -> str:
         """응답 추출 - 품질 검증 및 개선"""
+        logger.info(f"--- Polyglot 응답 추출 시작 ---")
         logger.info(f"전체 생성 텍스트 (Raw): \n---\n{full_text}\n---")
         logger.info(f"사용된 프롬프트: {formatted_prompt}")
+        try:
+            # 새로운 프롬프트 형식에 맞는 응답 추출
+            if "AI: " in full_text:
+                # "AI: " 이후의 텍스트를 응답으로 추출
+                response = full_text.split("AI: ")[-1].strip()
+                logger.info(f"✅ 성공: 'AI:' 태그로 응답 추출")
+            elif "### 챗봇:" in full_text:
+                # 기존 형식도 지원
+                response = full_text.split("### 챗봇:")[-1].strip()
+                logger.info(f"✅ 성공: '### 챗봇:' 태그로 응답 추출")
             else:
+                # 프롬프트 제거 방식
+                clean_text = full_text.strip()
+                if formatted_prompt:
+                    response = clean_text.replace(formatted_prompt, "").strip()
+                else:
+                    response = clean_text
+                logger.info(f"✅ 성공: 프롬프트 제거로 응답 추출")
             logger.info(f"추출된 응답: {response}")
+            # 응답 품질 검증 및 개선
+            if not self._validate_response_quality(response):
+                logger.warning(f"⚠️ 응답 품질이 낮습니다. 품질 개선 제안을 추가합니다.")
+                response = self._improve_response_quality(response)
+            return response
+        except Exception as e:
+            logger.error(f"❌ 응답 추출 중 오류: {e}")
+            # 폴백: 전체 텍스트에서 프롬프트 부분만 제거
+            if formatted_prompt:
+                return full_text.replace(formatted_prompt, "").strip()
+            return full_text.strip()
     def _validate_response_quality(self, response: str) -> bool:
+        """응답 품질 검증 - 5.8B 모델 최적화"""
+        if not response or len(response.strip()) < 3:  # 5→3으로 완화
             return False
+        # 영어가 포함되어 있어도 허용 (5.8B 모델은 영어도 잘함)
+        # if any(char.isascii() and char.isalpha() for char in response):
+        #     return False
+        # 문장이 중간에 끊어진 경우도 허용 (5.8B 모델은 자연스럽게 완성)
+        # if response.endswith(('하', '는', '을', '를', '이', '가', '의', '에', '로')):
+        #     return False
+        # 중복된 단어가 많아도 허용 (5.8B 모델은 문맥상 반복이 자연스러울 수 있음)
+        # words = response.split()
+        # if len(words) > 3 and len(set(words)) / len(words) < 0.7:
+        #     return False
         return True
     def _improve_response_quality(self, response: str) -> str:
+        """응답 품질 개선 - 5.8B 모델 최적화"""
+        # 기본 정리만 수행
         improved = response.strip()
+        # 너무 짧은 경우에만 기본 응답 추가
+        if len(improved) < 5:
+            improved = f"{improved} (더 자세한 답변을 원하시면 다시 질문해주세요.)"
         logger.info(f"🔧 응답 품질 개선 완료: {improved}")
         return improved
     def get_generation_config(self) -> Dict[str, Any]:
+        """생성 설정 - 5.8B 모델 최적화"""
         return {
+            "max_new_tokens": 512,           # 5.8B 모델은 더 긴 응답 생성 가능
+            "temperature": 0.8,              # 창의성 향상
             "do_sample": True,               # 샘플링 활성화
+            "top_k": 40,                     # 더 다양한 선택
+            "top_p": 0.95,                   # 더 자연스러운 응답
+            "repetition_penalty": 1.05,      # 반복 방지
+            "no_repeat_ngram_size": 2,       # 반복 방지
             "pad_token_id": None,            # 모델 기본값 사용
+            "eos_token_id": 2,               # <|endoftext|> 토큰 ID 명시적 설정
             "use_cache": True,               # 캐시 사용으로 속도 향상
+            "max_time": 280.0,               # 5.8B 모델은 더 긴 시간 필요
+            "early_stopping": False,         # False로 설정하여 자연스럽게 완성
             "stopping_criteria": None,       # 기본 정지 기준 사용
+            "min_length": 50,                # 최소 길이 보장 (20→50)
+            "num_beams": 1,                  # 단일 빔으로 빠른 생성
         }
     def get_model_info(self) -> Dict[str, Any]:
         """모델 정보"""
         return {
             "model_size": self.model_size,
             "local_path": self.local_path,
             "multimodal": False,
+        }