Spaces:

umyunsang
/

govon-runtime

Paused

File size: 4,391 Bytes

c5fd9c1
 
 
 
b5e31d0
c5fd9c1
 
 
 
 
 
 
 
 
 
 
 
 
d2585c1
c5fd9c1
 
 
 
 
 
d2585c1
c5fd9c1
 
 
 
 
 
 
 
 
 
 
 
 
d2585c1
c5fd9c1
79159da
c5fd9c1
 
 
79159da
c5fd9c1
79159da
c5fd9c1
 
 
 
 
 
 
 
b5e31d0
 
 
 
 
 
c5fd9c1
a69d616
c5fd9c1
 
 
d2585c1
 
 
 
 
 
 
a69d616
d2585c1
a69d616
 
b5e31d0
a69d616
b5e31d0
a69d616
b5e31d0
 
a69d616
 
c5fd9c1
a69d616
c5fd9c1
 
 
 
 
 
d2585c1
 
 
c5fd9c1
 
 
 
 
 
 
 
 
 
 
 
b5e31d0
 
d2585c1

#!/usr/bin/env bash
# GovOn Runtime Entrypoint
# 1) vLLM OpenAI-compatible 서버를 백그라운드로 기동
# 2) health check로 준비 완료 대기
# 3) FastAPI 서버 실행 (foreground, GPU 접근 차단)
set -euo pipefail

VLLM_PORT="${VLLM_PORT:-8000}"
MODEL="${MODEL_PATH:-LGAI-EXAONE/EXAONE-4.0-32B-AWQ}"
GPU_UTIL="${GPU_UTILIZATION:-0.90}"
MAX_LEN="${MAX_MODEL_LEN:-8192}"
DTYPE="${MODEL_DTYPE:-half}"
KV_DTYPE="${KV_CACHE_DTYPE:-auto}"
SKIP_MODEL="${SKIP_MODEL_LOAD:-false}"

# SKIP_MODEL_LOAD 시 vLLM 서버 없이 FastAPI만 실행
if [ "$SKIP_MODEL" = "true" ] || [ "$SKIP_MODEL" = "1" ]; then
    echo "[entrypoint] SKIP_MODEL_LOAD=true: FastAPI만 실행"
    CUDA_VISIBLE_DEVICES="" exec python3.10 -m src.inference.api_server
fi

# --- vLLM 서버 기동 ---
VLLM_ARGS=(
    --model "$MODEL"
    --port "$VLLM_PORT"
    --host 127.0.0.1
    --dtype "$DTYPE"
    --gpu-memory-utilization "$GPU_UTIL"
    --max-model-len "$MAX_LEN"
    --kv-cache-dtype "$KV_DTYPE"
    --trust-remote-code
    --enable-auto-tool-choice
    --tool-call-parser hermes
)

# LoRA 어댑터 설정 (ADAPTER_PATHS 환경변수에서 파싱)
if [ -n "${ADAPTER_PATHS:-}" ]; then
    VLLM_ARGS+=(--enable-lora --max-loras 4 --max-lora-rank 64)
    # ADAPTER_PATHS 형식: "civil=repo/path,legal=repo/path"
    # vLLM 0.19: --lora-modules를 한 번만 사용, 여러 어댑터는 배열 전개로 개별 인자 전달
    IFS=',' read -ra PAIRS <<< "$ADAPTER_PATHS"
    LORA_MODULES=()
    for pair in "${PAIRS[@]}"; do
        name="${pair%%=*}"
        path="${pair#*=}"
        LORA_MODULES+=("${name}=${path}")
    done
    VLLM_ARGS+=(--lora-modules "${LORA_MODULES[@]}")
fi

echo "[entrypoint] vLLM 서버 기동: port=$VLLM_PORT model=$MODEL"
echo "[entrypoint] args: ${VLLM_ARGS[*]}"

python3.10 -m vllm.entrypoints.openai.api_server "${VLLM_ARGS[@]}" &
VLLM_PID=$!

# --- vLLM health check ---
# CUDA_VISIBLE_DEVICES="": health check python 프로세스에서 GPU 접근 차단
#   → torch/vllm import 시 CUDA 초기화 hang 방지
# except Exception: bare except(except:) 사용 금지
#   → sys.exit()이 raise하는 SystemExit을 잡아버려 항상 실패 반환
# timeout 10: 프로세스-레벨 타임아웃 (urllib timeout과 별개)
echo "[entrypoint] vLLM 서버 준비 대기 중..."
MAX_WAIT=900
WAITED=0
INTERVAL=5

# nvidia/cuda 이미지에 coreutils(timeout)가 없을 수 있으므로 조건부 사용
if command -v timeout &>/dev/null; then
    TIMEOUT_CMD="timeout 10"
else
    TIMEOUT_CMD=""
fi

_health_check() {
    CUDA_VISIBLE_DEVICES="" $TIMEOUT_CMD python3.10 -c "
import urllib.request, sys
try:
    r = urllib.request.urlopen('http://localhost:${VLLM_PORT}/health', timeout=5)
    sys.exit(0 if r.status == 200 else 1)
except Exception:
    sys.exit(1)
" 2>&1
    return $?
}

while [ $WAITED -lt $MAX_WAIT ]; do
    if _health_check; then
        echo "[entrypoint] vLLM 서버 준비 완료 (${WAITED}s)"
        break
    fi
    # vLLM 프로세스가 죽었는지 확인
    if ! kill -0 $VLLM_PID 2>/dev/null; then
        echo "[entrypoint] ERROR: vLLM 프로세스 종료됨"
        wait $VLLM_PID; VLLM_EXIT=$?
        echo "[entrypoint] vLLM exit code=$VLLM_EXIT"
        exit $VLLM_EXIT
    fi
    sleep $INTERVAL
    WAITED=$((WAITED + INTERVAL))
done

if [ $WAITED -ge $MAX_WAIT ]; then
    echo "[entrypoint] ERROR: vLLM 서버 시작 타임아웃 (${MAX_WAIT}s)"
    kill $VLLM_PID 2>/dev/null || true
    exit 1
fi

# --- FastAPI 서버 실행 (foreground) ---
# CUDA_VISIBLE_DEVICES="": FastAPI는 httpx로 vLLM API만 호출하므로 GPU 불필요
#   → vLLM import 시 CUDA context 생성 방지, GPU 메모리 절약
# exec 대신 백그라운드 실행 후 wait: SIGTERM을 vLLM/FastAPI 양쪽에 전파하기 위함
cleanup() {
    echo "[entrypoint] Shutting down..."
    kill $FASTAPI_PID 2>/dev/null || true
    kill $VLLM_PID 2>/dev/null || true
    wait $FASTAPI_PID 2>/dev/null || true
    wait $VLLM_PID 2>/dev/null || true
}
trap cleanup EXIT SIGTERM SIGINT

echo "[entrypoint] FastAPI 서버 기동: port=${PORT:-7860}"
CUDA_VISIBLE_DEVICES="" python3.10 -m src.inference.api_server &
FASTAPI_PID=$!

# 두 자식 중 먼저 종료된 프로세스를 감지하여 나머지도 정리
wait -n $FASTAPI_PID $VLLM_PID 2>/dev/null || true
EXITED=$?
echo "[entrypoint] 프로세스 종료 감지 (exit=$EXITED), cleanup 진행"