Spaces:

Dongjin1203
/

RFP_summary_chatbot

Paused

App Files Files Community

RFP_summary_chatbot / src /retriever /retriever.py

Dongjin1203

Initial commit for HF Spaces deployment

4739096 17 days ago

raw

history blame

10.9 kB

	from langchain_chroma import Chroma
	from langchain_openai.embeddings import OpenAIEmbeddings
	from langsmith import traceable
	import time
	import os
	from rank_bm25 import BM25Okapi
	import numpy as np
	from sentence_transformers import CrossEncoder

	from src.utils.config import RAGConfig


	class RAGRetriever:
	"""RAG 검색 시스템 (Hybrid Search + Re-ranker)"""

	def __init__(self, config: RAGConfig = None):
	self.config = config or RAGConfig()
	self.vectorstore = None
	self.embeddings = None

	self._initialize_embeddings()
	self._create_vectorstore()
	self._initialize_bm25()
	self._initialize_reranker()

	def _initialize_embeddings(self):
	"""임베딩 모델 초기화"""
	os.environ["OPENAI_API_KEY"] = self.config.OPENAI_API_KEY

	self.embeddings = OpenAIEmbeddings(
	model=self.config.EMBEDDING_MODEL_NAME
	)

	def _create_vectorstore(self):
	"""기존 벡터스토어 로드"""
	self.vectorstore = Chroma(
	embedding_function=self.embeddings,
	persist_directory=self.config.DB_DIRECTORY,
	collection_name=self.config.COLLECTION_NAME
	)

	def _initialize_bm25(self):
	"""BM25 인덱스 생성"""
	all_docs = self.vectorstore.get()

	self.doc_texts = all_docs['documents']
	self.doc_ids = all_docs['ids']
	self.doc_metadatas = all_docs['metadatas']

	self.content_to_id = {text: doc_id for text, doc_id in zip(self.doc_texts, self.doc_ids)}

	tokenized_docs = [doc.split() for doc in self.doc_texts]
	self.bm25 = BM25Okapi(tokenized_docs)

	print(f"✅ BM25 인덱스 생성 완료: {len(self.doc_texts)}개 문서")

	def _initialize_reranker(self):
	"""Re-ranker 초기화"""
	self.reranker = CrossEncoder('BAAI/bge-reranker-base')
	print("✅ Re-ranker 초기화 완료 (bge-reranker-base)")

	@staticmethod
	def _min_max_normalize(scores):
	"""0~1 범위로 정규화"""
	scores = np.array(scores)
	min_score = scores.min()
	max_score = scores.max()

	if max_score == min_score:
	return np.full_like(scores, 0.5, dtype=float)

	return (scores - min_score) / (max_score - min_score)

	def _find_doc_id_by_content(self, content):
	"""문서 content로 ID 찾기"""
	return self.content_to_id.get(content, None)

	def _rerank(self, query, documents, top_k):
	"""
	검색 결과 재정렬

	Args:
	query: 검색 쿼리
	documents: hybrid_search 결과 리스트
	top_k: 최종 반환할 문서 수

	Returns:
	재정렬된 상위 k개 문서
	"""
	if len(documents) == 0:
	return []

	# 1. (query, document) 쌍 생성
	pairs = [[query, doc['content']] for doc in documents]

	# 2. CrossEncoder로 점수 계산
	scores = self.reranker.predict(pairs)

	# 3. 점수를 문서에 추가
	for i, doc in enumerate(documents):
	doc['rerank_score'] = float(scores[i])

	# 4. 정렬 및 반환
	sorted_docs = sorted(documents,
	key=lambda x: x['rerank_score'],
	reverse=True)

	return sorted_docs[:top_k]

	@traceable(
	name="RAG_Hybrid_Search",
	metadata={"component": "retriever", "version": "2.0"}
	)
	def hybrid_search(self, query, top_k=None, alpha=0.5):
	"""
	Hybrid Search: BM25 + 임베딩 결합

	Args:
	query: 검색 쿼리
	top_k: 반환할 문서 수
	alpha: 임베딩 가중치 (0~1)
	"""
	start_time = time.time()

	if top_k is None:
	top_k = self.config.DEFAULT_TOP_K

	# 1. BM25 검색
	tokenized_query = query.split()
	bm25_scores = self.bm25.get_scores(tokenized_query)
	bm25_normalized = self._min_max_normalize(bm25_scores)

	# 2. 임베딩 검색
	embedding_results = self.vectorstore.similarity_search_with_score(
	query, k=min(top_k * 3, len(self.doc_texts))
	)

	# 3. 임베딩 점수 정규화
	embedding_scores_raw = {}
	for doc, distance in embedding_results:
	doc_id = self._find_doc_id_by_content(doc.page_content)
	if doc_id:
	embedding_scores_raw[doc_id] = 1 / (1 + distance)

	if embedding_scores_raw:
	embed_values = np.array(list(embedding_scores_raw.values()))
	embed_normalized = self._min_max_normalize(embed_values)
	embedding_scores = dict(zip(embedding_scores_raw.keys(), embed_normalized))
	else:
	embedding_scores = {}

	# 4. 하이브리드 점수 계산
	hybrid_scores = {}
	for i, doc_id in enumerate(self.doc_ids):
	bm25_score = bm25_normalized[i]
	embed_score = embedding_scores.get(doc_id, 0)
	hybrid_scores[doc_id] = (1 - alpha) * bm25_score + alpha * embed_score

	# 5. 정렬 및 상위 k개 선택
	sorted_ids = sorted(hybrid_scores.keys(),
	key=lambda x: hybrid_scores[x],
	reverse=True)
	top_ids = sorted_ids[:top_k]

	# 6. 결과 포맷팅
	formatted_results = []
	for doc_id in top_ids:
	idx = self.doc_ids.index(doc_id)
	formatted_results.append({
	'content': self.doc_texts[idx],
	'metadata': self.doc_metadatas[idx],
	'hybrid_score': hybrid_scores[doc_id],
	'bm25_score': float(bm25_normalized[idx]),
	'embed_score': embedding_scores.get(doc_id, 0),
	'filename': self.doc_metadatas[idx].get('파일명', 'N/A'),
	'organization': self.doc_metadatas[idx].get('발주 기관', 'N/A')
	})

	end_time = time.time()
	print(f"🔍 Hybrid 검색 완료: {len(formatted_results)}개 (alpha={alpha}, {end_time-start_time:.3f}초)")
	return formatted_results

	@traceable(
	name="RAG_Hybrid_Search_Rerank",
	metadata={"component": "retriever", "version": "3.0"}
	)
	def hybrid_search_with_rerank(self, query, top_k=None, alpha=0.5, rerank_candidates=None):
	"""
	Hybrid Search + Re-ranking

	Args:
	query: 검색 쿼리
	top_k: 최종 반환할 문서 수
	alpha: BM25/임베딩 가중치
	rerank_candidates: Re-rank할 후보 수 (None이면 top_k * 3)
	"""
	start_time = time.time()

	if top_k is None:
	top_k = self.config.DEFAULT_TOP_K

	if rerank_candidates is None:
	rerank_candidates = top_k * 3

	# 1. Hybrid Search로 후보 문서 가져오기
	candidates = self.hybrid_search(query, top_k=rerank_candidates, alpha=alpha)

	# 2. Re-ranking
	if len(candidates) > 0:
	results = self._rerank(query, candidates, top_k)
	else:
	results = []

	end_time = time.time()
	print(f"🔄 Re-ranking 완료: {len(candidates)}개 → {len(results)}개 ({end_time-start_time:.3f}초)")

	return results

	def search_with_mode(self, query, top_k=None, mode="hybrid_rerank", alpha=0.5):
	"""검색 모드 선택"""
	if mode == "embedding":
	return self.search(query, top_k)
	elif mode == "bm25":
	return self.hybrid_search(query, top_k, alpha=0.0)
	elif mode == "hybrid":
	return self.hybrid_search(query, top_k, alpha=alpha)
	elif mode == "hybrid_rerank":
	return self.hybrid_search_with_rerank(query, top_k, alpha)
	else:
	raise ValueError(f"Unknown mode: {mode}")

	@traceable(
	name="RAG_Retriever_Search",
	metadata={"component": "retriever", "version": "1.0"}
	)
	def search(self, query: str, top_k: int = None, filter_metadata: dict = None):
	"""
	유사 문서 검색 (임베딩 기반)
	"""
	start_time = time.time()
	if top_k is None:
	top_k = self.config.DEFAULT_TOP_K

	if filter_metadata:
	results = self.vectorstore.similarity_search_with_score(
	query, k=top_k, filter=filter_metadata
	)
	else:
	results = self.vectorstore.similarity_search_with_score(
	query, k=top_k
	)

	formatted_results = []
	for doc, score in results:
	formatted_results.append({
	'content': doc.page_content,
	'metadata': doc.metadata,
	'distance': score,
	'relevance_score': 1 - score,
	'filename': doc.metadata.get('파일명', 'N/A'),
	'organization': doc.metadata.get('발주 기관', 'N/A')
	})

	end_time = time.time()
	print(f"🔍 검색 완료: {len(results)}개 ({end_time-start_time:.3f}초)")
	return formatted_results

	def search_with_rerank(self, query, top_k=None, rerank_candidates=None):
	"""
	임베딩 검색 + Re-ranking

	Args:
	query: 검색 쿼리
	top_k: 최종 반환할 문서 수
	rerank_candidates: Re-rank할 후보 수

	Returns:
	재정렬된 문서 리스트
	"""
	start_time = time.time()

	if top_k is None:
	top_k = self.config.DEFAULT_TOP_K

	if rerank_candidates is None:
	rerank_candidates = top_k * 3

	# 1. 임베딩 검색으로 후보 가져오기
	candidates = self.search(query, top_k=rerank_candidates)

	# 2. Re-ranking
	if len(candidates) > 0:
	results = self._rerank(query, candidates, top_k)
	else:
	results = []

	end_time = time.time()
	print(f"🔄 Embedding + Re-ranking 완료: {len(candidates)}개 → {len(results)}개 ({end_time-start_time:.3f}초)")

	return results

	def search_by_organization(self, query: str, organization: str, top_k: int = None):
	"""특정 발주기관만 검색"""
	return self.search(
	query, top_k=top_k, filter_metadata={'발주 기관': organization}
	)

	def get_retriever(self):
	"""LangChain 체인용 Retriever 반환"""
	return self.vectorstore.as_retriever(
	search_type="similarity",
	search_kwargs={"k": self.config.DEFAULT_TOP_K}
	)