Spaces:

Dongjin1203
/

QLoRA_RAG_test

Sleeping

App Files Files Community

Dongjin1203 commited on Dec 8, 2025

Commit

338103b

1 Parent(s): 76e2e7b

라우터, 프롬프트 추가

Browse files

Files changed (7) hide show

.gitignore +0 -1
src/__init__.py +0 -0
src/generator/__init__.py +0 -0
src/prompts/dynamic_prompts.py +181 -0
src/retriever/__init__.py +0 -0
src/router/query_router.py +137 -0
src/utils/__init__.py +0 -0

.gitignore CHANGED Viewed

@@ -207,7 +207,6 @@ marimo/_lsp/
 __marimo__/
 # 모델 & DB
-chroma_db/
 models/
 *.gguf
 .cache/

 __marimo__/
 # 모델 & DB
 models/
 *.gguf
 .cache/

src/__init__.py ADDED Viewed

File without changes

src/generator/__init__.py ADDED Viewed

File without changes

src/prompts/dynamic_prompts.py ADDED Viewed

	@@ -0,0 +1,181 @@

+class PromptManager:
+    """질문 유형별 시스템 프롬프트 관리"""
+    # GPT용 프롬프트 (jiyunpark 상세 버전 - 변경 없음)
+    PROMPTS_GPT = {
+        'greeting': """You are a helpful RFP analysis chatbot assistant.
+        Example conversations:
+        User: 안녕하세요
+        Assistant: 안녕하세요! RFP 문서 분석을 도와드리겠습니다. 어떤 도움이 필요하신가요?
+        Instructions:
+        - Greet warmly in 1-2 sentences
+        - Offer help with RFP analysis
+        - Be concise and natural
+        Response in Korean:""",
+        'thanks': """You are a helpful RFP analysis chatbot.
+        Example conversations:
+        User: 고마워요
+        Assistant: 천만에요! 언제든 RFP 관련 질문 있으시면 도와드리겠습니다.
+        Instructions:
+        - Respond warmly in 1-2 sentences
+        - Keep it brief and friendly
+        Response in Korean:""",
+        'document': """You are an RFP analysis expert for Korean public procurement.
+        You always answer based ONLY on the RFP excerpts and metadata provided to you
+        (예: [문서 1], [문서 2] 형태의 태그가 붙은 텍스트들).
+        If the necessary information is not clearly present, you MUST say
+        "검색된 문서에서 확인할 수 없습니다." and DO NOT guess numbers or dates.
+        ===============================
+        1. 먼저 질문 의도를 파악하세요.
+        ===============================
+        사용자의 질문을 읽고, 아래 세 가지 중 어떤 유형인지 스스로 결정합니다:
+        (A) 조건에 맞는 사업 찾기 (여러 개)
+            - "어떤 제안요청서가 있나요?", "어떤 사업이 있나요?", "찾아줘" 처럼
+              조건(예산, 분야, 기간, 과업 등)에 맞는 사업 후보를 여러 개 찾으라고 할 때
+        (B) 단일 사업 정보 조회
+            - 특정 사업명, 파일명, 공고번호, 기관명을 언급하거나
+              "이 사업", "이 제안요청서"처럼 하나의 RFP를 가리키는 표현이 있을 때
+        (C) 일반 설명 / 제도 해설
+            - RFP 문서 구조, 평가 항목, 제출 서류, 용어 설명 등
+              특정 사업이 아니라 개념을 물어보는 경우
+        ====================================
+        2. 유형별로 아래 출력 형식을 반드시 따르십시오.
+        ====================================
+        ■ (A) 조건에 맞는 사업 찾기일 때:
+        1) 사용자 조건 요약 (1~2문장)
+        2) 후보 사업 목록 (최대 10개)
+            - 사업명, 발주기관, 사업 기간, 추정 사업비, 주요 과업, 참가 자격, 근거 문서 태그
+        3) 제한 사항: "검색된 상위 문서 내에서만 판단했기 때문에, 실제 모든 제안요청서를 완전히 포괄하지는 않을 수 있습니다."
+        ■ (B) 단일 사업 정보 조회일 때:
+        1) 한 줄 요약 (사업명 + 핵심 목적)
+        2) 기본 정보: 총 사업비, 사업 기간, 발주기관, 입찰 방식, 제출 서류, 참가 자격
+        3) 근거: [문서 N] 명시
+        ■ (C) 일반 설명 / 해설일 때:
+        - 제공된 문서에 근거하여 개념 설명
+        - 근거 문서 태그 최소 1개 이상 제시
+        ===============================
+        3. 공통 규칙
+        ===============================
+        - 답변은 항상 한국어로 작성합니다.
+        - 숫자, 금액, 날짜는 문서에 있는 값만 사용하고, 추정하지 않습니다.
+        - 필요한 정보가 문서에 없으면 "검색된 문서에서 확인할 수 없습니다."라고 명확히 말합니다.
+        - 근거 문서 태그([문서 1], [문서 2])는 retrieval 단계에서 제공된 번호를 따라 사용합니다.
+        - 문서 내용이 불확실할 때는 절대 추론하지 않습니다.
+        Response in Korean:""",
+        'out_of_scope': """You are a helpful assistant.
+        Example conversations:
+        User: 오늘 날씨 어때?
+        Assistant: 죄송하지만 날씨 정보는 제공하지 않습니다. 저는 RFP 문서 분석과 공공조달 정보 검색을 도와드립니다.
+        Instructions:
+        - Politely decline in 2-3 sentences
+        - Briefly mention what you CAN help with
+        - Stay friendly and professional
+        Response in Korean:"""
+    }
+    # GGUF용 프롬프트 (경량화 버전 - 예시 대폭 축소)
+    PROMPTS_GGUF = {
+        'greeting': """당신은 친절한 RFP 분석 챗봇입니다.
+대화 예시:
+사용자: 안녕하세요
+답변: 안녕하세요! RFP 문서 분석을 도와드리겠습니다. 어떤 도움이 필요하신가요?
+지침: 1-2문장으로 따뜻하게 인사하고 RFP 분석 도움을 제안하세요.""",
+        'thanks': """당신은 친절한 RFP 분석 챗봇입니다.
+대화 예시:
+��용자: 고마워요
+답변: 천만에요! 언제든 RFP 관련 질문 있으시면 도와드리겠습니다.
+지침: 1-2문장으로 따뜻하게 답변하세요.""",
+        'document': """당신은 한국 공공조달 RFP 분석 전문가입니다.
+제공된 문서([문서 1], [문서 2] 등)만을 기반으로 답변하세요.
+정보가 없으면 "검색된 문서에서 확인할 수 없습니다"라고 말하세요.
+질문 유형 3가지:
+(A) 조건에 맞는 사업 찾기 - 여러 사업 나열
+(B) 단일 사업 정보 조회 - 한 사업의 상세 정보
+(C) 일반 설명 / 용어 해설
+출력 형식:
+(A) 조건 기반 검색:
+- 조건 요약 (1문장)
+- 사업 목록 (사업명, 발주기관, 기간, 예산, 과업, 자격, [문서 N])
+- 주의: "검색된 상위 문서 내에서만 판단했습니다."
+(B) 단일 사업 조회:
+- 한 줄 요약
+- 기본 정보 (예산, 기간, 발주기관, 입찰방식, 제출서류, 참가자격)
+- 근거: [문서 N]
+(C) 일반 설명:
+- 문서 기반 개념 설명
+- 근거: [문서 N]
+규칙:
+- 숫자/날짜는 문서에 있는 값만 사용
+- 추측 금지
+- 근거 문서 태그 필수""",
+        'out_of_scope': """당신은 친절한 어시스턴트입니다.
+대화 예시:
+사용자: 오늘 날씨 어때?
+답변: 죄송하지만 날씨 정보는 제공하지 않습니다. 저는 RFP 문서 분석을 도와드립니다.
+지침: 2-3문장으로 정중하게 거절하고 RFP 관련 질문을 유도하세요."""
+    }
+    # 기본 프롬프트 (하위 호환성)
+    PROMPTS = PROMPTS_GPT
+    @classmethod
+    def get_prompt(cls, query_type: str, context: str = None, model_type: str = "gpt") -> str:
+        """
+        프롬프트 가져오기
+        Args:
+            query_type: 쿼리 타입 (greeting/thanks/document/out_of_scope)
+            context: 컨텍스트 (사용 안 함)
+            model_type: 모델 타입 ("gpt" 또는 "gguf")
+        Returns:
+            시스템 프롬프트 문자열
+        """
+        if model_type == "gguf":
+            return cls.PROMPTS_GGUF[query_type]
+        else:
+            return cls.PROMPTS_GPT[query_type]

src/retriever/__init__.py ADDED Viewed

File without changes

src/router/query_router.py ADDED Viewed

	@@ -0,0 +1,137 @@

+# src/router/query_router.py
+import logging
+logger = logging.getLogger(__name__)
+class QueryRouter:
+    """
+    Query를 RAG vs Direct로 라우팅 (하이브리드 버전)
+    improved + lee 버전의 장점 결합:
+    - improved: out_of_scope 키워드로 명확한 비RFP 질문 감지
+    - lee: 숫자 + 사업 키워드 조합으로 맥락 파악
+    """
+    def __init__(self):
+        # 인사 키워드
+        self.greeting_keywords = [
+            "안녕", "hi", "hello", "반가워", "처음", "인사"
+        ]
+        # 감사 키워드
+        self.thanks_keywords = [
+            "고마워", "감사", "thanks", "고맙", "땡큐"
+        ]
+        # RFP/입찰 관련 키워드
+        self.document_keywords = [
+            # 돈 관련
+            "예산", "비용", "금액", "원", "만원", "억", "억원",
+            # 일정 관련
+            "기한", "마감", "언제", "기간", "납기", "일정",
+            # 문서 관련
+            "요구사항", "제출", "서류", "양식", "평가", "rfp", "제안서",
+            # 조직 관련
+            "발주", "기관", "담당자", "연락처", "부처", "지자체",
+            # 사업/계약 관련
+            "사업", "사업명", "과업", "범위", "목적", "계약", "입찰",
+            "공고", "프로젝트", "위탁", "용역", "협상", "제안",
+            # 제도/규정 관련
+            "법", "규정", "기준", "조건", "중소기업", "대기업"
+        ]
+        # ✅ out_of_scope 키워드 (improved 버전에서 가져옴)
+        self.out_of_scope_keywords = [
+            # 음식
+            "점심", "저녁", "아침", "식사", "밥", "메뉴", "맛집", "음식", "요리",
+            # 날씨/일상
+            "날씨", "기온", "비", "눈", "추워", "더워",
+            # 엔터테인먼트
+            "영화", "드라마", "게임", "노래", "음악", "유튜브",
+            # 여행/취미
+            "여행", "관광", "휴가", "취미", "운동", "등산",
+            # 금융/투자 (RFP와 무관)
+            "주식", "코인", "비트코인", "투자", "펀드", "부동산",
+            # 기타
+            "사랑", "연애", "데이트", "친구", "가족"
+        ]
+    def classify(self, query: str) -> dict:
+        """
+        쿼리 분류
+        Returns:
+            dict: {
+                'type': 'greeting' | 'thanks' | 'document' | 'out_of_scope',
+                'confidence': 0.0~1.0,
+                'reason': str
+            }
+        """
+        query_lower = query.lower()
+        query_length = len(query)
+        # ✅ 1. 명확한 out_of_scope 먼저 체크 (improved 로직)
+        for keyword in self.out_of_scope_keywords:
+            if keyword in query_lower:
+                logger.info(f"🚫 out_of_scope 감지: '{keyword}' 키워드")
+                return {
+                    'type': 'out_of_scope',
+                    'confidence': 0.95,
+                    'reason': f'비RFP 키워드 감지: {keyword}'
+                }
+        # 2. 짧은 질문일 때만 인사/감사 체크 (lee의 25자 기준 사용)
+        if query_length < 25:
+            # 감사
+            if any(kw in query_lower for kw in self.thanks_keywords):
+                logger.info(f"🙏 thanks 감지")
+                return {
+                    'type': 'thanks',
+                    'confidence': 0.90,
+                    'reason': '감사 인사 감지'
+                }
+            # 인사
+            if any(kw in query_lower for kw in self.greeting_keywords):
+                logger.info(f"👋 greeting 감지")
+                return {
+                    'type': 'greeting',
+                    'confidence': 0.90,
+                    'reason': '인사 감지'
+                }
+        # 3. RFP/문서 관련 키워드 체크 (동적 신뢰도)
+        document_matches = sum(1 for kw in self.document_keywords if kw in query_lower)
+        if document_matches > 0:
+            # 매칭된 키워드 수에 따라 신뢰도 조정
+            confidence = min(0.70 + (document_matches * 0.05), 0.95)
+            logger.info(f"📄 document 감지: {document_matches}개 키워드 매칭")
+            return {
+                'type': 'document',
+                'confidence': confidence,
+                'reason': f'RFP 키워드 {document_matches}개 감지'
+            }
+        # ✅ 4. 숫자 + 사업 키워드 조합 체크 (lee 로직)
+        # "12개월 사업", "5억원 프로젝트" 같은 맥락 파악
+        has_number = any(ch.isdigit() for ch in query)
+        business_terms = ["사업", "과업", "계획", "프로젝트", "용역"]
+        has_business = any(term in query_lower for term in business_terms)
+        if has_number and has_business:
+            logger.info(f"🔢 document 감지: 숫자 + 사업 키워드 조합")
+            return {
+                'type': 'document',
+                'confidence': 0.65,
+                'reason': '숫자와 사업 키워드 동시 감지'
+            }
+        # 5. 기본값: out_of_scope (improved의 0.6 사용)
+        logger.info(f"🚫 out_of_scope (기본값): RFP 키워드 없음")
+        return {
+            'type': 'out_of_scope',
+            'confidence': 0.60,
+            'reason': 'RFP 관련 키워드 미감지'
+        }

src/utils/__init__.py ADDED Viewed

File without changes