Spaces:

scvcoder
/

kpaa

Paused

App Files Files Community

scvcoder commited on May 2

Commit

686f69a

verified ·

1 Parent(s): a8db799

feat: model preset selector (Gemma 4 + 4 Qwen variants)

Browse files

Adds runtime model switching via Open WebUI dropdown:
- New ModelPreset registry (gemma-4-e2b default + qwen2.5-1.5b/3b, qwen3-1.7b, qwen3-4b-instruct-2507)
- ModelManager with persisted selection (config_root/model.json)
- /v1/models exposes all 5 presets so they appear in Open WebUI
- /v1/chat/completions parses req.model and switches manager
- Gradio UI gains a model dropdown in '⚙️ 모델 설정' accordion
- Split-view + standalone /chat headers gain dropdown

Files changed (6) hide show

src/kpaa/llm/factory.py +10 -34
src/kpaa/llm/manager.py +175 -0
src/kpaa/llm/presets.py +101 -0
src/kpaa/llm/zerogpu_backend.py +3 -2
src/kpaa/server.py +231 -17
src/kpaa/ui/gradio.py +37 -1

src/kpaa/llm/factory.py CHANGED Viewed

@@ -1,47 +1,23 @@
-"""LLM 백엔드 팩토리 — 환경 자동 감지 + 강제 override.
-선택 규칙:
-  1. `KPAA_LLM_BACKEND` 환경변수 (또는 settings 의 동명 필드) 명시 시 그 값.
-     허용값: "llama_cpp" | "zerogpu".
-  2. 미명시: HF Spaces 환경변수(`SPACE_ID`) 가 있으면 "zerogpu", 아니면
-     "llama_cpp".
-HF Spaces (Gradio SDK + ZeroGPU) 에는 `SPACE_ID` 가 자동으로 주입된다 —
-`huggingface/your-space` 형태. 로컬 머신에는 없으므로 자연스럽게 분기.
 """
 from __future__ import annotations
 import logging
-import os
-from kpaa.config import get_settings
 from kpaa.llm.base import LLMBackend
 logger = logging.getLogger("kpaa.llm.factory")
-def _resolve_backend_name() -> str:
-    s = get_settings()
-    chosen = s.kpaa_llm_backend or os.environ.get("KPAA_LLM_BACKEND")
-    if chosen:
-        return chosen.strip().lower()
-    if os.environ.get("SPACE_ID"):
-        return "zerogpu"
-    return "llama_cpp"
 def get_backend() -> LLMBackend:
-    name = _resolve_backend_name()
-    if name == "zerogpu":
-        from kpaa.llm.zerogpu_backend import ZeroGPUBackend
-        logger.info("LLM backend selected: zerogpu (transformers + @spaces.GPU)")
-        return ZeroGPUBackend()  # type: ignore[return-value]
-    if name == "llama_cpp":
-        from kpaa.llm.llama_cpp_backend import LlamaCppBackend
-        logger.info("LLM backend selected: llama_cpp (GGUF embed)")
-        return LlamaCppBackend()  # type: ignore[return-value]
-    raise ValueError(
-        f"unknown KPAA_LLM_BACKEND={name!r} — expected 'llama_cpp' or 'zerogpu'"
-    )

+"""LLM 백엔드 팩토리 — `ModelManager` 위임 (런타임 모델 전환 지원).
+기존 호출자(`kpaa.llm.get_backend()`) 인터페이스는 동일.
+실제 선택 정책은 `kpaa.llm.manager.ModelManager` 가 담당:
+  * 백엔드 종류(zerogpu vs llama_cpp): 환경변수 `KPAA_LLM_BACKEND`,
+    HF Spaces 환경(`SPACE_ID`) 자동 감지.
+  * 모델 가중치(어느 GGUF / HF repo): 프리셋 카탈로그(`presets.PRESETS`) 에서
+    선택. UI 또는 환경변수 `KPAA_MODEL_PRESET` 으로 변경 가능.
 """
 from __future__ import annotations
 import logging
 from kpaa.llm.base import LLMBackend
+from kpaa.llm.manager import get_manager
 logger = logging.getLogger("kpaa.llm.factory")
 def get_backend() -> LLMBackend:
+    """현재 선택된 프리셋의 백엔드 인스턴스 (lazy 빌드)."""
+    return get_manager().get_backend()

src/kpaa/llm/manager.py ADDED Viewed

	@@ -0,0 +1,175 @@

+"""모델 매니저 — 현재 선택된 프리셋 + 백엔드 인스턴스 단일 캐시.
+설계:
+  - 동시에 *최대 1개* 백엔드만 메모리 상주 (모델 swap 시 이전 인스턴스 unload).
+    이유: GGUF 1개당 1.5~5GB. 여러 모델 동시 캐시는 노트북 RAM 부담.
+  - 선택값은 `config_root/model.json` 에 영속화 → 재시작해도 같은 모델.
+  - 환경변수 강제 override 우선순위:
+      KPAA_MODEL_PRESET > 영속 파일 > presets.default_preset()
+  - HF Spaces (`SPACE_ID` 존재) 일 때는 ZeroGPU 백엔드 반환, 그 외 llama_cpp.
+    (factory 의 기존 정책과 동일.)
+스레드세이프티: Gradio 큐 + FastAPI 모두 단일 이벤트 루프 안에서 사용된다는
+가정. swap 시 짧은 race 가능성은 있으나 사용자 의도(모델 바꾸기) 와 다음 답변
+사이에 자연스럽게 직렬화된다.
+"""
+from __future__ import annotations
+import json
+import logging
+import os
+from pathlib import Path
+from typing import Any
+from kpaa.config import get_settings
+from kpaa.llm.base import LLMBackend
+from kpaa.llm.presets import ModelPreset, default_preset, get_preset, list_presets
+logger = logging.getLogger("kpaa.llm.manager")
+def _state_path() -> Path:
+    return get_settings().config_root / "model.json"
+def _load_persisted_id() -> str | None:
+    p = _state_path()
+    if not p.exists():
+        return None
+    try:
+        data = json.loads(p.read_text(encoding="utf-8"))
+        v = data.get("preset_id")
+        return str(v) if v else None
+    except Exception as e:
+        logger.warning("model.json 읽기 실패 — 무시 (%s)", e)
+        return None
+def _save_persisted_id(preset_id: str) -> None:
+    p = _state_path()
+    try:
+        p.write_text(
+            json.dumps({"preset_id": preset_id}, ensure_ascii=False, indent=2),
+            encoding="utf-8",
+        )
+    except Exception as e:
+        logger.warning("model.json 쓰기 실패 — 무시 (%s)", e)
+def _resolve_initial_id() -> str:
+    """초기 프리셋 결정 — env > 영속 파일 > 기본."""
+    env = os.environ.get("KPAA_MODEL_PRESET", "").strip()
+    if env and get_preset(env):
+        return env
+    persisted = _load_persisted_id()
+    if persisted and get_preset(persisted):
+        return persisted
+    return default_preset().id
+def _resolve_backend_kind() -> str:
+    """zerogpu | llama_cpp — factory 와 같은 정책."""
+    s = get_settings()
+    chosen = s.kpaa_llm_backend or os.environ.get("KPAA_LLM_BACKEND")
+    if chosen:
+        return chosen.strip().lower()
+    if os.environ.get("SPACE_ID"):
+        return "zerogpu"
+    return "llama_cpp"
+def _build_backend(preset: ModelPreset) -> LLMBackend:
+    kind = _resolve_backend_kind()
+    if kind == "zerogpu":
+        from kpaa.llm.zerogpu_backend import ZeroGPUBackend
+        logger.info("backend build: zerogpu preset=%s repo=%s", preset.id, preset.hf_repo)
+        return ZeroGPUBackend(model_id=preset.hf_repo)  # type: ignore[return-value]
+    if kind == "llama_cpp":
+        from kpaa.llm.llama_cpp_backend import LlamaCppBackend
+        logger.info(
+            "backend build: llama_cpp preset=%s repo=%s file=%s",
+            preset.id, preset.llama_cpp_repo, preset.llama_cpp_file,
+        )
+        return LlamaCppBackend(
+            repo_id=preset.llama_cpp_repo,
+            filename=preset.llama_cpp_file,
+        )  # type: ignore[return-value]
+    raise ValueError(
+        f"unknown KPAA_LLM_BACKEND={kind!r} — expected 'llama_cpp' or 'zerogpu'"
+    )
+class ModelManager:
+    """싱글턴 — `kpaa.llm.factory.get_backend()` 가 위임."""
+    def __init__(self) -> None:
+        self._current_id: str = _resolve_initial_id()
+        self._backend: LLMBackend | None = None
+        self._backend_id: str | None = None
+    # ─── 조회 ───
+    @property
+    def current_id(self) -> str:
+        return self._current_id
+    def current_preset(self) -> ModelPreset:
+        p = get_preset(self._current_id) or default_preset()
+        return p
+    def list(self) -> list[ModelPreset]:
+        return list_presets()
+    # ─── 백엔드 ───
+    def get_backend(self) -> LLMBackend:
+        """현재 프리셋의 백엔드 — 첫 호출 시 lazy 빌드 + 가중치 다운로드."""
+        if self._backend is not None and self._backend_id == self._current_id:
+            return self._backend
+        # 새 백엔드 빌드 — 이전 것 unload (close 비동기지만 GC로 충분)
+        if self._backend is not None:
+            logger.info("unloading previous backend: %s", self._backend_id)
+            self._backend = None
+            self._backend_id = None
+        preset = self.current_preset()
+        self._backend = _build_backend(preset)
+        self._backend_id = self._current_id
+        return self._backend
+    # ─── 변경 ───
+    def set_current(self, preset_id: str, *, persist: bool = True) -> ModelPreset:
+        """프리셋 전환 — 다음 `get_backend()` 시점에 새 모델 로드.
+        Returns:
+            전환된 프리셋.
+        Raises:
+            ValueError: 알 수 없는 preset_id.
+        """
+        preset = get_preset(preset_id)
+        if preset is None:
+            raise ValueError(f"unknown preset_id: {preset_id!r}")
+        if preset_id == self._current_id and self._backend is not None:
+            return preset  # no-op
+        logger.info("model preset switch: %s → %s", self._current_id, preset_id)
+        self._current_id = preset_id
+        # 기존 백엔드 unload (다음 get_backend 호출 시 재빌드)
+        if self._backend is not None:
+            self._backend = None
+            self._backend_id = None
+        if persist:
+            _save_persisted_id(preset_id)
+        return preset
+_manager: ModelManager | None = None
+def get_manager() -> ModelManager:
+    """프로세스 단일 매니저 인스턴스."""
+    global _manager
+    if _manager is None:
+        _manager = ModelManager()
+    return _manager
+__all__ = ["ModelManager", "get_manager"]

src/kpaa/llm/presets.py ADDED Viewed

	@@ -0,0 +1,101 @@

+"""모델 프리셋 카탈로그 — UI 에서 선택 가능한 후보 목록.
+각 프리셋은 *동일 가중치의 두 형식* 을 함께 가진다:
+  - llama_cpp_repo / llama_cpp_file : 로컬 노트북용 GGUF (Hugging Face 자동 다운로드)
+  - hf_repo                         : HF Spaces ZeroGPU 용 transformers 가중치 (옵션)
+목적: 사용자가 채팅 답변 속도/품질 트레이드오프를 *런타임에* 비교해볼 수 있게.
+초기 후보는 한국어 RAG 답변 + 라우팅 분류 양쪽 모두에 충분히 작동한다고 알려진
+모델 위주.
+"""
+from __future__ import annotations
+from dataclasses import dataclass
+@dataclass(frozen=True)
+class ModelPreset:
+    id: str                 # 영구 식별자 (config 저장용)
+    label: str              # UI 표시 이름
+    short: str              # 한줄 설명 (속도·품질 힌트)
+    llama_cpp_repo: str     # GGUF repo
+    llama_cpp_file: str     # GGUF 파일명
+    hf_repo: str            # transformers repo (ZeroGPU 용; 없으면 llama_cpp 와 동일 모델군 사용)
+    family: str             # "gemma" | "qwen2.5" | "qwen3"
+    is_default: bool = False
+# 후보 목록 — 답변 속도 빠른 순서 (대략).
+# Q4_K_M 양자화 기준. 모두 instruct/chat 변형.
+PRESETS: list[ModelPreset] = [
+    ModelPreset(
+        id="gemma-4-e2b",
+        label="Gemma 4 E2B (기본·균형)",
+        short="2B 유효 · 한국어 자연스러움 · 인용 포맷 안정",
+        llama_cpp_repo="bartowski/google_gemma-4-E2B-it-GGUF",
+        llama_cpp_file="google_gemma-4-E2B-it-Q4_K_M.gguf",
+        hf_repo="google/gemma-4-E2B-it",
+        family="gemma",
+        is_default=True,
+    ),
+    ModelPreset(
+        id="qwen2.5-1.5b",
+        label="Qwen2.5 1.5B Instruct (가장 빠름)",
+        short="1.5B · 토큰 속도 최우선 · 한국어 톤은 다소 뻣뻣",
+        llama_cpp_repo="bartowski/Qwen2.5-1.5B-Instruct-GGUF",
+        llama_cpp_file="Qwen2.5-1.5B-Instruct-Q4_K_M.gguf",
+        hf_repo="Qwen/Qwen2.5-1.5B-Instruct",
+        family="qwen2.5",
+    ),
+    ModelPreset(
+        id="qwen2.5-3b",
+        label="Qwen2.5 3B Instruct (빠름·안정)",
+        short="3B · Gemma 4 E2B 보다 약간 빠름 · 한국어 품질 양호",
+        llama_cpp_repo="bartowski/Qwen2.5-3B-Instruct-GGUF",
+        llama_cpp_file="Qwen2.5-3B-Instruct-Q4_K_M.gguf",
+        hf_repo="Qwen/Qwen2.5-3B-Instruct",
+        family="qwen2.5",
+    ),
+    ModelPreset(
+        id="qwen3-1.7b",
+        label="Qwen3 1.7B (최신·빠름)",
+        short="1.7B · 최신 세대 · 다국어 토크나이저 개선",
+        llama_cpp_repo="bartowski/Qwen_Qwen3-1.7B-GGUF",
+        llama_cpp_file="Qwen_Qwen3-1.7B-Q4_K_M.gguf",
+        hf_repo="Qwen/Qwen3-1.7B",
+        family="qwen3",
+    ),
+    ModelPreset(
+        id="qwen3-4b-instruct-2507",
+        label="Qwen3 4B Instruct 2507 (큰 모델·non-thinking)",
+        short="4B · 더 정확하나 더 느림 · thinking off 변형",
+        llama_cpp_repo="bartowski/Qwen_Qwen3-4B-Instruct-2507-GGUF",
+        llama_cpp_file="Qwen_Qwen3-4B-Instruct-2507-Q4_K_M.gguf",
+        hf_repo="Qwen/Qwen3-4B-Instruct-2507",
+        family="qwen3",
+    ),
+]
+_BY_ID: dict[str, ModelPreset] = {p.id: p for p in PRESETS}
+def list_presets() -> list[ModelPreset]:
+    return list(PRESETS)
+def get_preset(preset_id: str) -> ModelPreset | None:
+    return _BY_ID.get(preset_id)
+def default_preset() -> ModelPreset:
+    for p in PRESETS:
+        if p.is_default:
+            return p
+    return PRESETS[0]
+__all__ = [
+    "ModelPreset", "PRESETS",
+    "list_presets", "get_preset", "default_preset",
+]

src/kpaa/llm/zerogpu_backend.py CHANGED Viewed

@@ -55,9 +55,10 @@ class ZeroGPUBackend:
     name = "zerogpu"
-    def __init__(self) -> None:
         s = get_settings()
-        self.model_id = s.kpaa_hf_model_repo
         self._dtype_name = s.kpaa_hf_model_dtype
         self._gpu_duration = s.kpaa_hf_gpu_duration
         self._tok: Any = None

     name = "zerogpu"
+    def __init__(self, *, model_id: str | None = None) -> None:
         s = get_settings()
+        # ModelManager 가 프리셋의 hf_repo 를 넘겨준다. 명시 없으면 settings 기본값.
+        self.model_id = model_id or s.kpaa_hf_model_repo
         self._dtype_name = s.kpaa_hf_model_dtype
         self._gpu_duration = s.kpaa_hf_gpu_duration
         self._tok: Any = None

src/kpaa/server.py CHANGED Viewed

@@ -2,19 +2,23 @@
 엔드포인트:
     GET  /healthz                        — liveness
-    GET  /v1/models                      — 모델 1개 (kpaa-privacy-ko)
     POST /v1/chat/completions            — 비스트리밍/스트리밍 모두 지원
                                            (stream=true 일 때 SSE)
-요청의 `model`, `system` 메시지는 무시한다 — 항상 RAG 파이프라인을 거치므로
-시스템 프롬프트는 서버에서 주입한다. 사용자 질문은 마지막 `role=user` 메시지의
-`content`를 사용 (멀티턴 history는 v1 미지원).
 """
 from __future__ import annotations
 import asyncio
 import contextlib
 import json
 import time
 import uuid
 from collections.abc import AsyncIterator
@@ -27,10 +31,55 @@ from pydantic import BaseModel, ConfigDict, Field
 from kpaa import __version__
 from kpaa.llm import ChatMessage as LLMChatMessage
 from kpaa.llm import LLMOptions
 from kpaa.pipeline import generate
 from kpaa.retrieval.excerpts import Excerpt
-MODEL_ID = "개인정보 미니 상담 AI"
 def _excerpt_to_dict(e: Excerpt) -> dict[str, Any]:
@@ -141,6 +190,12 @@ class ChatMessage(BaseModel):
     content: str
 class ChatRequest(BaseModel):
     model_config = ConfigDict(extra="ignore")  # 모르는 필드는 무시 (Open WebUI가 보내는 필드 다양)
@@ -329,8 +384,13 @@ async def _stream_chat(
     req: ChatRequest,
     query: str,
     history: list[LLMChatMessage],
 ) -> AsyncIterator[str]:
-    """OpenAI SSE chunk 형식으로 토큰 스트리밍."""
     completion_id = _new_id()
     created = int(time.time())
     options = _options_from_request(req)
@@ -340,7 +400,7 @@ async def _stream_chat(
             "id": completion_id,
             "object": "chat.completion.chunk",
             "created": created,
-            "model": MODEL_ID,
             "choices": [{"index": 0, "delta": {"content": content}, "finish_reason": None}],
         }
@@ -354,7 +414,7 @@ async def _stream_chat(
             "id": completion_id,
             "object": "chat.completion.chunk",
             "created": created,
-            "model": MODEL_ID,
             "choices": [
                 {
                     "index": 0,
@@ -369,7 +429,7 @@ async def _stream_chat(
         "id": completion_id,
         "object": "chat.completion.chunk",
         "created": created,
-        "model": MODEL_ID,
         "choices": [{"index": 0, "delta": {"role": "assistant"}, "finish_reason": None}],
     })
@@ -489,7 +549,7 @@ async def _stream_chat(
         "id": completion_id,
         "object": "chat.completion.chunk",
         "created": created,
-        "model": MODEL_ID,
         "choices": [{"index": 0, "delta": {}, "finish_reason": finish_reason or "stop"}],
     })
     yield _sse("[DONE]")
@@ -528,7 +588,8 @@ def create_app() -> FastAPI:
 </style></head>
 <body>
 <h1>KPAA — 개인정보보호법 미니 상담 백엔드</h1>
-<p class="muted">버전 {__version__} · 모델 <code>{MODEL_ID}</code></p>
 <p style="background:#0a66c2;color:#fff;padding:14px 16px;border-radius:8px;font-weight:600;">
 👉 <a href="/" style="color:#fff;">Open WebUI + 참고자료 분할 화면 (홈)</a> &nbsp; · &nbsp;
@@ -564,14 +625,23 @@ def create_app() -> FastAPI:
     @app.get("/v1/models")
     async def list_models() -> ModelList:
         return ModelList(
-            data=[ModelInfo(id=MODEL_ID, created=int(time.time()))]
         )
     @app.post("/v1/chat/completions")
     async def chat_completions(req: ChatRequest):
         history, query = _split_history_and_query(req.messages)
         # 새 대화 자동 감지 — Open WebUI 의 "새 대화" 클릭 후 첫 질문은
         # `history` 가 비어 있다 (prior assistant turn 없음). 메타 프롬프트
         # (제목 자동생성 등) 는 제외하고, 사용자 첫 질문일 때만 우측 패널
@@ -591,7 +661,7 @@ def create_app() -> FastAPI:
         if req.stream:
             return StreamingResponse(
-                _stream_chat(req, query, history),
                 media_type="text/event-stream",
                 headers={
                     "Cache-Control": "no-cache",
@@ -622,7 +692,7 @@ def create_app() -> FastAPI:
         return ChatResponse(
             id=_new_id(),
             created=int(time.time()),
-            model=MODEL_ID,
             choices=[ChatChoice(message=ChatChoiceMessage(content=text))],
         )
@@ -636,6 +706,38 @@ def create_app() -> FastAPI:
     async def api_last_refs() -> dict[str, Any]:
         return dict(_last_refs)
     @app.post("/api/clear-references")
     async def api_clear_refs() -> dict[str, str]:
         """우측 참고자료 패널 초기화 — Open WebUI 새 채팅 등에서 사용."""
@@ -697,7 +799,10 @@ def run(*, host: str = "127.0.0.1", port: int = 8000) -> None:
     uvicorn.run(create_app(), host=host, port=port, log_level="info")
-__all__ = ["create_app", "run", "MODEL_ID"]
 _SPLIT_HTML = """<!doctype html>
@@ -829,11 +934,15 @@ _SPLIT_HTML = """<!doctype html>
     <header class="right-header">
       <h1>참고한 자료 <span class="pulse" id="pulse"></span></h1>
       <span class="muted" id="refs-count"></span>
       <button id="clear-btn" title="새 검색 — 우측 참고자료 초기화"
-              style="margin-left:auto; padding:4px 10px; border-radius:6px; border:1px solid var(--border); background:var(--card-bg); color:var(--text); cursor:pointer; font-size:0.78em;">
         🔄 초기화
       </button>
     </header>
     <div class="meta-line" id="meta">Open WebUI에서 질문하면 LLM이 본 근거가 여기에 표시됩니다 (1초마다 갱신).</div>
     <div class="refs-list" id="refs">
       <div class="refs-empty">아직 답변이 없습니다.</div>
@@ -963,6 +1072,59 @@ async function clearRefsUI() {
 // 초기화 버튼 — 백엔드의 _last_refs 를 비우고 우측 패널 즉시 비움.
 document.getElementById("clear-btn").addEventListener("click", clearRefsUI);
 // Open WebUI iframe 의 route 변경 자동 감지.
 window.addEventListener("message", (e) => {
   console.log("[kpaa-parent] message:", e.origin, e.data);
@@ -1036,8 +1198,11 @@ _CHAT_HTML = """<!doctype html>
   <section class="pane left">
     <header>
       <h1>KPAA — 개인정보보호법 상담</h1>
-      <span class="muted">모델: kpaa-privacy-ko</span>
     </header>
     <div class="messages" id="messages">
       <div class="msg bot">
         <div class="role">상담 도우미</div>
@@ -1169,6 +1334,55 @@ form.addEventListener("submit", (ev) => {
   };
 });
 input.addEventListener("keydown", (e) => {
   // 일반 채팅 UX: Enter = 전송, Shift+Enter = 줄바꿈.
   // 한국어 IME 조합 중 Enter(글자 확정)는 무시.

 엔드포인트:
     GET  /healthz                        — liveness
+    GET  /v1/models                      — 프리셋별 모델 목록
+                                           (`개인정보 상담 AI(<preset.id>)`)
     POST /v1/chat/completions            — 비스트리밍/스트리밍 모두 지원
                                            (stream=true 일 때 SSE)
+요청의 `model` 은 ModelManager 전환 신호로 사용 (Open WebUI 모델 dropdown 에서
+선택한 그 이름이 들어옴). `system` 메시지는 무시한다 — 항상 RAG 파이프라인을
+거치므로 시스템 프롬프트는 서버에서 주입한다. 사용자 질문은 마지막 `role=user`
+메시지의 `content` 를 사용.
 """
 from __future__ import annotations
 import asyncio
 import contextlib
 import json
+import logging
+import re
 import time
 import uuid
 from collections.abc import AsyncIterator
 from kpaa import __version__
 from kpaa.llm import ChatMessage as LLMChatMessage
 from kpaa.llm import LLMOptions
+from kpaa.llm.manager import get_manager
+from kpaa.llm.presets import ModelPreset, default_preset, get_preset, list_presets
 from kpaa.pipeline import generate
 from kpaa.retrieval.excerpts import Excerpt
+logger = logging.getLogger("kpaa.server")
+# OpenAI-호환 모델 ID 형식 — Open WebUI 모델 dropdown 에 노출되는 이름.
+# 프리셋별로 1개씩 생성: "개인정보 상담 AI(<preset.id>)"
+# 사용자가 Open WebUI 에서 모델을 선택하면 그 이름이 그대로 ChatRequest.model 에
+# 들어오고, 서버는 preset.id 를 추출해 ModelManager 를 그 모델로 전환한다.
+_MODEL_ID_PREFIX = "개인정보 상담 AI"
+_MODEL_ID_RE = re.compile(rf"^{re.escape(_MODEL_ID_PREFIX)}\((?P<id>[\w.\-]+)\)$")
+def model_id_for(preset: ModelPreset) -> str:
+    """프리셋 → OpenAI-호환 모델 ID."""
+    return f"{_MODEL_ID_PREFIX}({preset.id})"
+def preset_id_from_model(model: str | None) -> str | None:
+    """`개인정보 상담 AI(<id>)` → preset.id. 매칭 실패 시 None."""
+    if not model:
+        return None
+    m = _MODEL_ID_RE.match(model.strip())
+    return m.group("id") if m else None
+# 기본 모델 ID — `/healthz`, 자체 chat UI 헤더, `/info` curl 예시, 그리고
+# 테스트 호환용. 항상 default_preset() 의 표시 ID 와 동기.
+MODEL_ID = model_id_for(default_preset())
+def _switch_to_requested_model(model: str | None) -> str:
+    """요청 model 필드 → preset 매핑 + 매니저 전환. 항상 *최종 사용된* 모델 ID 반환.
+    매핑 실패 (Open WebUI 의 메타 호출이 prefix 가 다른 임의 model 을 보낼 때 등)
+    시엔 매니저 그대로 두고 *현재 모델 ID* 반환.
+    """
+    pid = preset_id_from_model(model)
+    if pid is not None and get_preset(pid) is not None:
+        mgr = get_manager()
+        if pid != mgr.current_id:
+            try:
+                mgr.set_current(pid)
+            except ValueError as e:
+                logger.warning("모델 전환 실패 — %s", e)
+    # 항상 현재 매니저 상태 기준으로 응답 model 필드 채움.
+    return model_id_for(get_manager().current_preset())
 def _excerpt_to_dict(e: Excerpt) -> dict[str, Any]:
     content: str
+class SelectModelReq(BaseModel):
+    """`/api/select-model` 요청 바디 — preset_id 하나."""
+    preset_id: str
 class ChatRequest(BaseModel):
     model_config = ConfigDict(extra="ignore")  # 모르는 필드는 무시 (Open WebUI가 보내는 필드 다양)
     req: ChatRequest,
     query: str,
     history: list[LLMChatMessage],
+    model_id: str,
 ) -> AsyncIterator[str]:
+    """OpenAI SSE chunk 형식으로 토큰 스트리밍.
+    model_id 는 응답 chunk 의 `model` 필드 값 — 보통 사용자가 Open WebUI 에서
+    선택한 그 이름 그대로. ModelManager 전환은 호출 전에 끝나 있어야 한다.
+    """
     completion_id = _new_id()
     created = int(time.time())
     options = _options_from_request(req)
             "id": completion_id,
             "object": "chat.completion.chunk",
             "created": created,
+            "model": model_id,
             "choices": [{"index": 0, "delta": {"content": content}, "finish_reason": None}],
         }
             "id": completion_id,
             "object": "chat.completion.chunk",
             "created": created,
+            "model": model_id,
             "choices": [
                 {
                     "index": 0,
         "id": completion_id,
         "object": "chat.completion.chunk",
         "created": created,
+        "model": model_id,
         "choices": [{"index": 0, "delta": {"role": "assistant"}, "finish_reason": None}],
     })
         "id": completion_id,
         "object": "chat.completion.chunk",
         "created": created,
+        "model": model_id,
         "choices": [{"index": 0, "delta": {}, "finish_reason": finish_reason or "stop"}],
     })
     yield _sse("[DONE]")
 </style></head>
 <body>
 <h1>KPAA — 개인정보보호법 미니 상담 백엔드</h1>
+<p class="muted">버전 {__version__} · 기본 모델 <code>{MODEL_ID}</code></p>
+<p class="muted">선택 가능: {", ".join(f"<code>{model_id_for(p)}</code>" for p in list_presets())}</p>
 <p style="background:#0a66c2;color:#fff;padding:14px 16px;border-radius:8px;font-weight:600;">
 👉 <a href="/" style="color:#fff;">Open WebUI + 참고자료 분할 화면 (홈)</a> &nbsp; · &nbsp;
     @app.get("/v1/models")
     async def list_models() -> ModelList:
+        # 프리셋별 1개씩 — Open WebUI 모델 dropdown 에 동시에 노출.
+        # 사용자가 dropdown 에서 선택한 모델 이름이 ChatRequest.model 로 전달되며,
+        # `_switch_to_requested_model` 가 그 이름을 보고 ModelManager 를 전환한다.
+        now = int(time.time())
         return ModelList(
+            data=[ModelInfo(id=model_id_for(p), created=now) for p in list_presets()]
         )
     @app.post("/v1/chat/completions")
     async def chat_completions(req: ChatRequest):
         history, query = _split_history_and_query(req.messages)
+        # Open WebUI 가 보낸 모델 이름 (`개인정보 상담 AI(<preset.id>)`) → 매니저 전환.
+        # 메타 호출(제목/태그 생성 등)도 같은 매니저를 쓰므로 자동으로 같은 모델로 처리.
+        # 매핑 안 되는 임의 model 이면 현재 매니저 상태 유지.
+        active_model_id = _switch_to_requested_model(req.model)
         # 새 대화 자동 감지 — Open WebUI 의 "새 대화" 클릭 후 첫 질문은
         # `history` 가 비어 있다 (prior assistant turn 없음). 메타 프롬프트
         # (제목 자동생성 등) 는 제외하고, 사용자 첫 질문일 때만 우측 패널
         if req.stream:
             return StreamingResponse(
+                _stream_chat(req, query, history, active_model_id),
                 media_type="text/event-stream",
                 headers={
                     "Cache-Control": "no-cache",
         return ChatResponse(
             id=_new_id(),
             created=int(time.time()),
+            model=active_model_id,
             choices=[ChatChoice(message=ChatChoiceMessage(content=text))],
         )
     async def api_last_refs() -> dict[str, Any]:
         return dict(_last_refs)
+    @app.get("/api/models")
+    async def api_models() -> dict[str, Any]:
+        """프리셋 목록 + 현재 선택. 프런트 dropdown 채우기용."""
+        mgr = get_manager()
+        return {
+            "current": mgr.current_id,
+            "presets": [
+                {
+                    "id": p.id,
+                    "label": p.label,
+                    "short": p.short,
+                    "family": p.family,
+                    "is_default": p.is_default,
+                }
+                for p in list_presets()
+            ],
+        }
+    @app.post("/api/select-model")
+    async def api_select_model(req: SelectModelReq) -> dict[str, Any]:
+        """모델 프리셋 전환 — 다음 답변부터 새 모델로."""
+        try:
+            preset = get_manager().set_current(req.preset_id)
+        except ValueError as e:
+            raise HTTPException(400, str(e)) from e
+        return {
+            "status": "ok",
+            "current": preset.id,
+            "label": preset.label,
+            "short": preset.short,
+        }
     @app.post("/api/clear-references")
     async def api_clear_refs() -> dict[str, str]:
         """우측 참고자료 패널 초기화 — Open WebUI 새 채팅 등에서 사용."""
     uvicorn.run(create_app(), host=host, port=port, log_level="info")
+__all__ = [
+    "create_app", "run", "MODEL_ID",
+    "model_id_for", "preset_id_from_model",
+]
 _SPLIT_HTML = """<!doctype html>
     <header class="right-header">
       <h1>참고한 자료 <span class="pulse" id="pulse"></span></h1>
       <span class="muted" id="refs-count"></span>
+      <select id="model-select" title="답변 LLM 모델 — 변경 시 다음 질문부터 적용"
+              style="margin-left:auto; padding:4px 8px; border-radius:6px; border:1px solid var(--border); background:var(--card-bg); color:var(--text); font-size:0.78em; max-width: 220px;">
+      </select>
       <button id="clear-btn" title="새 검색 — 우측 참고자료 초기화"
+              style="padding:4px 10px; border-radius:6px; border:1px solid var(--border); background:var(--card-bg); color:var(--text); cursor:pointer; font-size:0.78em;">
         🔄 초기화
       </button>
     </header>
+    <div id="model-status" class="meta-line" style="display:none;"></div>
     <div class="meta-line" id="meta">Open WebUI에서 질문하면 LLM이 본 근거가 여기에 표시됩니다 (1초마다 갱신).</div>
     <div class="refs-list" id="refs">
       <div class="refs-empty">아직 답변이 없습니다.</div>
 // 초기화 버튼 — 백엔드의 _last_refs 를 비우고 우측 패널 즉시 비움.
 document.getElementById("clear-btn").addEventListener("click", clearRefsUI);
+// ─ 모델 선택 dropdown ─
+const modelSelect = document.getElementById("model-select");
+const modelStatus = document.getElementById("model-status");
+function showModelStatus(msg, ok) {
+  modelStatus.textContent = msg;
+  modelStatus.style.display = "block";
+  modelStatus.style.color = ok ? "var(--pulse)" : "#c0392b";
+  setTimeout(() => { modelStatus.style.display = "none"; }, 4000);
+}
+async function loadModels() {
+  try {
+    const r = await fetch("/api/models", { cache: "no-store" });
+    if (!r.ok) return;
+    const data = await r.json();
+    modelSelect.innerHTML = "";
+    for (const p of data.presets || []) {
+      const opt = document.createElement("option");
+      opt.value = p.id;
+      opt.textContent = p.label;
+      opt.title = p.short;
+      if (p.id === data.current) opt.selected = true;
+      modelSelect.appendChild(opt);
+    }
+  } catch (_) {}
+}
+modelSelect.addEventListener("change", async () => {
+  const preset_id = modelSelect.value;
+  modelSelect.disabled = true;
+  try {
+    const r = await fetch("/api/select-model", {
+      method: "POST",
+      headers: { "Content-Type": "application/json" },
+      body: JSON.stringify({ preset_id }),
+    });
+    if (!r.ok) {
+      const txt = await r.text();
+      showModelStatus(`모델 변경 실패: ${txt}`, false);
+      return;
+    }
+    const data = await r.json();
+    showModelStatus(`✅ 모델 변경됨 — ${data.label} (다음 질문부터 적용 · 첫 사용 시 다운로드)`, true);
+  } catch (e) {
+    showModelStatus(`네트워크 오류: ${e}`, false);
+  } finally {
+    modelSelect.disabled = false;
+  }
+});
+loadModels();
 // Open WebUI iframe 의 route 변경 자동 감지.
 window.addEventListener("message", (e) => {
   console.log("[kpaa-parent] message:", e.origin, e.data);
   <section class="pane left">
     <header>
       <h1>KPAA — 개인정보보호법 상담</h1>
+      <select id="model-select" title="답변 LLM 모델 — 변경 시 다음 질문부터 적용"
+              style="margin-left:auto; padding:4px 8px; border-radius:6px; border:1px solid #d0d0d0; background:#fff; font-size:0.82em; max-width: 240px;">
+      </select>
     </header>
+    <div id="model-status" class="meta-line" style="display:none;"></div>
     <div class="messages" id="messages">
       <div class="msg bot">
         <div class="role">상담 도우미</div>
   };
 });
+// ─ 모델 선택 dropdown (자체 chat UI) ─
+const modelSelect = document.getElementById("model-select");
+const modelStatus = document.getElementById("model-status");
+function showModelStatus(msg, ok) {
+  modelStatus.textContent = msg;
+  modelStatus.style.display = "block";
+  modelStatus.style.color = ok ? "#15833a" : "#c0392b";
+  setTimeout(() => { modelStatus.style.display = "none"; }, 4000);
+}
+async function loadModels() {
+  try {
+    const r = await fetch("/api/models", { cache: "no-store" });
+    if (!r.ok) return;
+    const data = await r.json();
+    modelSelect.innerHTML = "";
+    for (const p of data.presets || []) {
+      const opt = document.createElement("option");
+      opt.value = p.id;
+      opt.textContent = p.label;
+      opt.title = p.short;
+      if (p.id === data.current) opt.selected = true;
+      modelSelect.appendChild(opt);
+    }
+  } catch (_) {}
+}
+modelSelect.addEventListener("change", async () => {
+  const preset_id = modelSelect.value;
+  modelSelect.disabled = true;
+  try {
+    const r = await fetch("/api/select-model", {
+      method: "POST",
+      headers: { "Content-Type": "application/json" },
+      body: JSON.stringify({ preset_id }),
+    });
+    if (!r.ok) {
+      const txt = await r.text();
+      showModelStatus(`모델 변경 실패: ${txt}`, false);
+      return;
+    }
+    const data = await r.json();
+    showModelStatus(`✅ 모델 변경됨 — ${data.label} (다음 질문부터 적용 · 첫 사용 시 다운로드)`, true);
+  } catch (e) {
+    showModelStatus(`네트워크 오류: ${e}`, false);
+  } finally {
+    modelSelect.disabled = false;
+  }
+});
+loadModels();
 input.addEventListener("keydown", (e) => {
   // 일반 채팅 UX: Enter = 전송, Shift+Enter = 줄바꿈.
   // 한국어 IME 조합 중 Enter(글자 확정)는 무시.

src/kpaa/ui/gradio.py CHANGED Viewed

@@ -26,6 +26,8 @@ from typing import Any
 from kpaa.llm import ChatMessage as LLMChatMessage
 from kpaa.llm import LLMOptions
 from kpaa.pipeline import generate
 from kpaa.retrieval.citation_match import (
     compute_cited_with_indices,
@@ -381,10 +383,44 @@ def build_app():
             한국 **개인정보보호법** 을 평이한 한국어로 안내합니다.
             법제처 OPEN API + 개인정보보호위원회 상담사례 1,745건 + 안내서를
-            근거로 **Gemma 4 E2B** 가 답변합니다. 모든 답변에 **인용·면책** 자동 부착.
             """
         )
         with gr.Row():
             with gr.Column(scale=3):
                 chatbot = gr.Chatbot(

 from kpaa.llm import ChatMessage as LLMChatMessage
 from kpaa.llm import LLMOptions
+from kpaa.llm.manager import get_manager
+from kpaa.llm.presets import list_presets
 from kpaa.pipeline import generate
 from kpaa.retrieval.citation_match import (
     compute_cited_with_indices,
             한국 **개인정보보호법** 을 평이한 한국어로 안내합니다.
             법제처 OPEN API + 개인정보보호위원회 상담사례 1,745건 + 안내서를
+            근거로 답변합니다. 모든 답변에 **인용·면책** 자동 부착.
             """
         )
+        # ─── 모델 선택 (테스트용) ─────────────────────────────────────────
+        # 사용자가 답변 LLM 을 런타임에 교체해 *속도 vs 품질* 비교 가능.
+        # 처음 선택된 모델은 다음 질문 시 자동 다운로드 + 로드 (수 GB, 1-2분).
+        _mgr = get_manager()
+        _presets = list_presets()
+        _choices = [(f"{p.label} — {p.short}", p.id) for p in _presets]
+        with gr.Accordion("⚙️ 모델 설정", open=False):
+            model_dd = gr.Dropdown(
+                choices=_choices,
+                value=_mgr.current_id,
+                label="답변 LLM 모델",
+                info=(
+                    "모델 변경 시 다음 질문부터 적용됩니다. 처음 쓰는 모델은 "
+                    "Hugging Face 에서 자동 다운로드 (수 GB, 1-2분 소요)."
+                ),
+                interactive=True,
+            )
+            model_status = gr.Markdown(
+                f"현재: **{_mgr.current_preset().label}**",
+            )
+            def _on_model_change(preset_id: str) -> str:
+                try:
+                    p = _mgr.set_current(preset_id)
+                    return (
+                        f"✅ 변경됨 — **{p.label}**  \n"
+                        f"_{p.short}_  \n"
+                        f"다음 질문 시 모델 로드 (필요 시 자동 다운로드)."
+                    )
+                except ValueError as e:
+                    return f"❌ 오류: {e}"
+            model_dd.change(_on_model_change, inputs=model_dd, outputs=model_status)
         with gr.Row():
             with gr.Column(scale=3):
                 chatbot = gr.Chatbot(