Spaces:

umyunsang
/

govon-runtime

Paused

App Files Files Community

govon-runtime / scripts /entrypoint.sh

umyunsang

Upload folder using huggingface_hub

d2585c1 verified about 2 months ago

raw

history blame contribute delete

4.39 kB

	#!/usr/bin/env bash
	# GovOn Runtime Entrypoint
	# 1) vLLM OpenAI-compatible 서버를 백그라운드로 기동
	# 2) health check로 준비 완료 대기
	# 3) FastAPI 서버 실행 (foreground, GPU 접근 차단)
	set -euo pipefail

	VLLM_PORT="${VLLM_PORT:-8000}"
	MODEL="${MODEL_PATH:-LGAI-EXAONE/EXAONE-4.0-32B-AWQ}"
	GPU_UTIL="${GPU_UTILIZATION:-0.90}"
	MAX_LEN="${MAX_MODEL_LEN:-8192}"
	DTYPE="${MODEL_DTYPE:-half}"
	KV_DTYPE="${KV_CACHE_DTYPE:-auto}"
	SKIP_MODEL="${SKIP_MODEL_LOAD:-false}"

	# SKIP_MODEL_LOAD 시 vLLM 서버 없이 FastAPI만 실행
	if [ "$SKIP_MODEL" = "true" ] \|\| [ "$SKIP_MODEL" = "1" ]; then
	echo "[entrypoint] SKIP_MODEL_LOAD=true: FastAPI만 실행"
	CUDA_VISIBLE_DEVICES="" exec python3.10 -m src.inference.api_server
	fi

	# --- vLLM 서버 기동 ---
	VLLM_ARGS=(
	--model "$MODEL"
	--port "$VLLM_PORT"
	--host 127.0.0.1
	--dtype "$DTYPE"
	--gpu-memory-utilization "$GPU_UTIL"
	--max-model-len "$MAX_LEN"
	--kv-cache-dtype "$KV_DTYPE"
	--trust-remote-code
	--enable-auto-tool-choice
	--tool-call-parser hermes
	)

	# LoRA 어댑터 설정 (ADAPTER_PATHS 환경변수에서 파싱)
	if [ -n "${ADAPTER_PATHS:-}" ]; then
	VLLM_ARGS+=(--enable-lora --max-loras 4 --max-lora-rank 64)
	# ADAPTER_PATHS 형식: "civil=repo/path,legal=repo/path"
	# vLLM 0.19: --lora-modules를 한 번만 사용, 여러 어댑터는 배열 전개로 개별 인자 전달
	IFS=',' read -ra PAIRS <<< "$ADAPTER_PATHS"
	LORA_MODULES=()
	for pair in "${PAIRS[@]}"; do
	name="${pair%%=*}"
	path="${pair#*=}"
	LORA_MODULES+=("${name}=${path}")
	done
	VLLM_ARGS+=(--lora-modules "${LORA_MODULES[@]}")
	fi

	echo "[entrypoint] vLLM 서버 기동: port=$VLLM_PORT model=$MODEL"
	echo "[entrypoint] args: ${VLLM_ARGS[*]}"

	python3.10 -m vllm.entrypoints.openai.api_server "${VLLM_ARGS[@]}" &
	VLLM_PID=$!

	# --- vLLM health check ---
	# CUDA_VISIBLE_DEVICES="": health check python 프로세스에서 GPU 접근 차단
	# → torch/vllm import 시 CUDA 초기화 hang 방지
	# except Exception: bare except(except:) 사용 금지
	# → sys.exit()이 raise하는 SystemExit을 잡아버려 항상 실패 반환
	# timeout 10: 프로세스-레벨 타임아웃 (urllib timeout과 별개)
	echo "[entrypoint] vLLM 서버 준비 대기 중..."
	MAX_WAIT=900
	WAITED=0
	INTERVAL=5

	# nvidia/cuda 이미지에 coreutils(timeout)가 없을 수 있으므로 조건부 사용
	if command -v timeout &>/dev/null; then
	TIMEOUT_CMD="timeout 10"
	else
	TIMEOUT_CMD=""
	fi

	_health_check() {
	CUDA_VISIBLE_DEVICES="" $TIMEOUT_CMD python3.10 -c "
	import urllib.request, sys
	try:
	r = urllib.request.urlopen('http://localhost:${VLLM_PORT}/health', timeout=5)
	sys.exit(0 if r.status == 200 else 1)
	except Exception:
	sys.exit(1)
	" 2>&1
	return $?
	}

	while [ $WAITED -lt $MAX_WAIT ]; do
	if _health_check; then
	echo "[entrypoint] vLLM 서버 준비 완료 (${WAITED}s)"
	break
	fi
	# vLLM 프로세스가 죽었는지 확인
	if ! kill -0 $VLLM_PID 2>/dev/null; then
	echo "[entrypoint] ERROR: vLLM 프로세스 종료됨"
	wait $VLLM_PID; VLLM_EXIT=$?
	echo "[entrypoint] vLLM exit code=$VLLM_EXIT"
	exit $VLLM_EXIT
	fi
	sleep $INTERVAL
	WAITED=$((WAITED + INTERVAL))
	done

	if [ $WAITED -ge $MAX_WAIT ]; then
	echo "[entrypoint] ERROR: vLLM 서버 시작 타임아웃 (${MAX_WAIT}s)"
	kill $VLLM_PID 2>/dev/null \|\| true
	exit 1
	fi

	# --- FastAPI 서버 실행 (foreground) ---
	# CUDA_VISIBLE_DEVICES="": FastAPI는 httpx로 vLLM API만 호출하므로 GPU 불필요
	# → vLLM import 시 CUDA context 생성 방지, GPU 메모리 절약
	# exec 대신 백그라운드 실행 후 wait: SIGTERM을 vLLM/FastAPI 양쪽에 전파하기 위함
	cleanup() {
	echo "[entrypoint] Shutting down..."
	kill $FASTAPI_PID 2>/dev/null \|\| true
	kill $VLLM_PID 2>/dev/null \|\| true
	wait $FASTAPI_PID 2>/dev/null \|\| true
	wait $VLLM_PID 2>/dev/null \|\| true
	}
	trap cleanup EXIT SIGTERM SIGINT

	echo "[entrypoint] FastAPI 서버 기동: port=${PORT:-7860}"
	CUDA_VISIBLE_DEVICES="" python3.10 -m src.inference.api_server &
	FASTAPI_PID=$!

	# 두 자식 중 먼저 종료된 프로세스를 감지하여 나머지도 정리
	wait -n $FASTAPI_PID $VLLM_PID 2>/dev/null \|\| true
	EXITED=$?
	echo "[entrypoint] 프로세스 종료 감지 (exit=$EXITED), cleanup 진행"