Spaces:

dongle0516
/

mbtibooktalk

Sleeping

App Files Files Community

mbtibooktalk / server /semantic_engine.py

dongle0516

feat: 사서에게 질문하기 종합 개선 (1차~4차 누적)

1fa3750 21 days ago

raw

history blame contribute delete

4.51 kB

	"""한국어 시맨틱 임베딩 검색 엔진.

	- sentence-transformers + ko-sroberta-multitask 사용
	- 모델 미설치·메모리 부족 등 환경 문제 발생 시 자동으로 비활성화
	- 임베딩 행렬은 디스크에 캐시(.npz)하여 재시작 시 즉시 로드

	ENV
	---
	SEMANTIC_MODEL : 한국어 임베딩 모델명 (기본: jhgan/ko-sroberta-multitask)
	SEMANTIC_ENABLED : "0" 으로 설정 시 강제 비활성화
	"""

	from __future__ import annotations

	import os
	import pickle
	from pathlib import Path
	from typing import Optional

	import numpy as np

	from .database import get_conn, get_items_for_index

	MODEL_NAME = os.getenv("SEMANTIC_MODEL", "jhgan/ko-sroberta-multitask")
	CACHE_PATH = Path(__file__).parent / "semantic_cache.pkl"
	DISABLED = os.getenv("SEMANTIC_ENABLED", "1") == "0"

	_model = None
	_embeddings: Optional[np.ndarray] = None
	_ids: list[int] = []
	_rec_keys: list[str] = []
	_load_failed: bool = False


	def _try_load_model():
	"""sentence-transformers 모델을 지연 로드. 실패 시 None 반환."""
	global _model, _load_failed
	if DISABLED or _load_failed:
	return None
	if _model is not None:
	return _model
	try:
	from sentence_transformers import SentenceTransformer # type: ignore
	_model = SentenceTransformer(MODEL_NAME)
	return _model
	except Exception as e:
	_load_failed = True
	print(f"[semantic_engine] 모델 로드 실패 → TF-IDF 폴백: {e}")
	return None


	def is_available() -> bool:
	"""시맨틱 검색 가용 여부."""
	if DISABLED:
	return False
	if _embeddings is not None:
	return True
	return _try_load_model() is not None


	def build_index() -> bool:
	"""전체 Q&A에 대해 임베딩을 생성하여 디스크 캐시."""
	global _embeddings, _ids, _rec_keys
	model = _try_load_model()
	if model is None:
	return False

	rows = get_items_for_index()
	if not rows:
	return False

	_ids = [r["id"] for r in rows]
	_rec_keys = [r["rec_key"] for r in rows]
	texts = [f"{r['question']} {r['answer']}"[:1024] for r in rows]

	print(f"[semantic_engine] {len(texts)}건 임베딩 생성 중...")
	embs = model.encode(texts, batch_size=32, show_progress_bar=False,
	convert_to_numpy=True, normalize_embeddings=True)
	_embeddings = embs.astype(np.float32)

	with open(CACHE_PATH, "wb") as f:
	pickle.dump({"ids": _ids, "rec_keys": _rec_keys,
	"embeddings": _embeddings, "model": MODEL_NAME}, f)
	print(f"[semantic_engine] 임베딩 캐시 저장 완료 ({_embeddings.shape})")
	return True


	def _ensure_loaded() -> bool:
	global _embeddings, _ids, _rec_keys
	if _embeddings is not None:
	return True
	if not CACHE_PATH.exists():
	return False
	try:
	with open(CACHE_PATH, "rb") as f:
	data = pickle.load(f)
	_embeddings = data["embeddings"]
	_ids = data["ids"]
	_rec_keys = data["rec_keys"]
	return True
	except Exception as e:
	print(f"[semantic_engine] 캐시 로드 실패: {e}")
	return False


	def semantic_search(query: str, top_k: int = 10) -> list[dict]:
	"""시맨틱 임베딩 기반 코사인 유사도 검색."""
	if not is_available():
	return []
	if not _ensure_loaded():
	return []
	model = _try_load_model()
	if model is None:
	return []

	q_vec = model.encode([query], convert_to_numpy=True, normalize_embeddings=True)[0]
	scores = (_embeddings @ q_vec).astype(np.float32)
	top_idx = np.argsort(scores)[::-1][: top_k * 2]
	top_idx = [i for i in top_idx if scores[i] >= 0.2][:top_k]
	if not top_idx:
	return []

	id_list = [_ids[i] for i in top_idx]
	placeholders = ",".join("?" * len(id_list))
	with get_conn() as conn:
	rows = conn.execute(
	f"SELECT id, rec_key, question, answer, subject, answer_date, answer_lib "
	f"FROM qa_items WHERE id IN ({placeholders})",
	id_list,
	).fetchall()
	by_id = {r["id"]: dict(r) for r in rows}

	results = []
	for i in top_idx:
	row = by_id.get(_ids[i])
	if row:
	results.append({**row, "score": float(scores[i]), "search_type": "semantic"})
	return results


	def invalidate_cache() -> None:
	global _embeddings, _ids, _rec_keys
	_embeddings = None
	_ids = []
	_rec_keys = []
	if CACHE_PATH.exists():
	CACHE_PATH.unlink()