Spaces:

multifuly
/

certweb-reranker

Sleeping

App Files Files Community

certweb-reranker / app.py

multifuly

Update app.py

dadefb7 verified 6 days ago

raw

history blame contribute delete

5.45 kB

	"""
	Hugging Face Spaces에서 돌리는 Reranker API (ONNX 최적화 버전).

	모델은 HF Hub에서 로드 (환경변수 HF_MODEL_ID, 예: cross-encoder/ms-marco-MiniLM-L-6-v2).
	ONNX Runtime으로 변환하여 CPU 추론 속도 2-3배 향상.

	환경변수:
	- HF_MODEL_ID: 모델 ID (필수)
	- HF_TOKEN: 비공개 리포 접근용 토큰 (선택)
	- USE_ONNX: "true"면 ONNX Runtime 사용 (기본: true)
	- ONNX_PROVIDER: "CPUExecutionProvider" 또는 "CUDAExecutionProvider" (기본: CPU)
	"""
	import os
	import time
	from typing import List, Optional

	from fastapi import FastAPI
	from fastapi.middleware.cors import CORSMiddleware
	from pydantic import BaseModel

	MODEL_ID = (os.environ.get("HF_MODEL_ID") or "").strip()
	HF_TOKEN = (os.environ.get("HF_TOKEN") or "").strip() or None
	USE_ONNX = os.environ.get("USE_ONNX", "true").lower() == "true"
	ONNX_PROVIDER = os.environ.get("ONNX_PROVIDER", "CPUExecutionProvider")

	model = None
	tokenizer = None
	is_onnx_mode = False

	app = FastAPI(title="Reranker API (ONNX)")
	app.add_middleware(CORSMiddleware, allow_origins=[""], allow_methods=[""], allow_headers=["*"])


	class RerankerRequest(BaseModel):
	query: str
	passages: List[str]


	class RerankerResponse(BaseModel):
	scores: List[float]
	latency_ms: Optional[float] = None
	mode: Optional[str] = None
	error: Optional[str] = None


	def load_onnx_model():
	"""ONNX Runtime으로 모델 로드. 최초 실행 시 자동 변환."""
	global model, tokenizer, is_onnx_mode
	try:
	from optimum.onnxruntime import ORTModelForSequenceClassification
	from transformers import AutoTokenizer

	print(f"[ONNX] 모델 로딩 중: {MODEL_ID} (provider={ONNX_PROVIDER})")
	tokenizer = AutoTokenizer.from_pretrained(MODEL_ID, token=HF_TOKEN)
	model = ORTModelForSequenceClassification.from_pretrained(
	MODEL_ID,
	export=True, # PyTorch → ONNX 자동 변환
	provider=ONNX_PROVIDER,
	token=HF_TOKEN,
	)
	is_onnx_mode = True
	print("[ONNX] 로드 완료.")
	except Exception as e:
	print(f"[ONNX] 로드 실패, fallback to CrossEncoder: {e}")
	load_crossencoder_model()


	def load_crossencoder_model():
	"""기존 CrossEncoder 모델 로드 (fallback)."""
	global model, is_onnx_mode
	from sentence_transformers import CrossEncoder
	print(f"[CrossEncoder] 모델 로딩 중: {MODEL_ID}")
	model = CrossEncoder(MODEL_ID, token=HF_TOKEN)
	is_onnx_mode = False
	print("[CrossEncoder] 로드 완료.")


	@app.on_event("startup")
	def startup_load_model():
	global model
	if not MODEL_ID:
	raise RuntimeError("Space 설정에서 HF_MODEL_ID 를 지정하세요")

	if USE_ONNX:
	load_onnx_model()
	else:
	load_crossencoder_model()


	def predict_onnx(query: str, passages: List[str]) -> List[float]:
	"""ONNX 모델로 batch predict."""
	import torch
	pairs = [[query, p] for p in passages]
	inputs = tokenizer(
	pairs,
	padding=True,
	truncation=True,
	max_length=512,
	return_tensors="pt",
	)
	outputs = model(**inputs)
	# logits shape: (batch_size, num_labels) - 보통 1개 label (relevance score)
	logits = outputs.logits
	if logits.shape[-1] == 1:
	scores = logits.squeeze(-1)
	else:
	# 2개 label이면 softmax 후 positive class 확률
	scores = torch.softmax(logits, dim=-1)[:, 1]
	return scores.tolist()


	def predict_crossencoder(query: str, passages: List[str]) -> List[float]:
	"""CrossEncoder 모델로 predict."""
	pairs = [(query, p) for p in passages]
	scores = model.predict(pairs)
	if hasattr(scores, "tolist"):
	scores = scores.tolist()
	return [float(s) for s in scores]


	@app.get("/")
	def root():
	"""브라우저/App 탭 접속 시 안내."""
	return {
	"message": "CertWeb Reranker API (ONNX Optimized)",
	"model": MODEL_ID,
	"mode": "onnx" if is_onnx_mode else "crossencoder",
	"usage": "POST / with JSON body: {\"query\": \"질문\", \"passages\": [\"문단1\", \"문단2\", ...]}",
	"response": "{\"scores\": [0.9, 0.2, ...], \"latency_ms\": 123.4, \"mode\": \"onnx\"}",
	}


	@app.post("/", response_model=RerankerResponse)
	def score(request: RerankerRequest):
	query = request.query
	passages = request.passages

	if not query or not passages or model is None:
	return RerankerResponse(scores=[], error="Empty query/passages or model not loaded")

	try:
	start = time.perf_counter()
	if is_onnx_mode:
	scores = predict_onnx(query, passages)
	else:
	scores = predict_crossencoder(query, passages)
	latency_ms = (time.perf_counter() - start) * 1000

	return RerankerResponse(
	scores=scores,
	latency_ms=round(latency_ms, 2),
	mode="onnx" if is_onnx_mode else "crossencoder",
	)
	except Exception as e:
	return RerankerResponse(scores=[], error=str(e))


	@app.get("/health")
	def health():
	"""Health check endpoint."""
	return {
	"status": "ok",
	"model_loaded": model is not None,
	"mode": "onnx" if is_onnx_mode else "crossencoder",
	}