Spaces:

code-slicer
/

chatbotMOAI

Sleeping

App Files Files Community

code-slicer commited on Sep 10, 2025

Commit

8662746

verified ·

1 Parent(s): aa0760c

Update app.py

Browse files

Files changed (1) hide show

app.py +66 -12

app.py CHANGED Viewed

@@ -154,7 +154,7 @@ from chat_a import (
 # ──────────────────────────────── LLM ────────────────────────────────
 OLLAMA_HOST = os.getenv("OLLAMA_HOST", "http://localhost:11434")
 OLLAMA_MODEL = os.getenv("OLLAMA_MODEL", "gemma2:9b")
-OLLAMA_TIMEOUT = int(os.getenv("OLLAMA_TIMEOUT", "60"))
 KOREAN_SYSTEM_PROMPT = """당신은 한국어 어시스턴트입니다. 항상 한국어로 답하세요."""
@@ -248,6 +248,50 @@ def _call_ollama_chat(messages, model=OLLAMA_MODEL, temperature=0.8, top_p=0.9,
         st.error(f"요청 오류: {e}")
     return ""
 def _llm_structured_extract(user_text: str):
     out = _call_ollama_chat(
         [
@@ -287,7 +331,7 @@ def render_llm_followup(chat_container, inline=False):
     # 종료 명령
     if text in {"종료", "quit", "exit"}:
         st.session_state["llm_inline"] = False
-        st.session_state["llm_mode"] = False   # ← llm_open 대신 llm_mode 사용
         st.rerun()
         return
@@ -295,18 +339,28 @@ def render_llm_followup(chat_container, inline=False):
     st.session_state.setdefault("llm_msgs", [])
     st.session_state["llm_msgs"].append({"role": "user", "content": text})
-    # ✅ Ollama로 실제 호출
     try:
-        bot = _call_ollama_chat(
-            messages=st.session_state["llm_msgs"],
-            system_prompt=KOREAN_SYSTEM_PROMPT
-        )
-        if not bot:
-            bot = "⚠️ LLM 응답을 받지 못했습니다. Ollama 서버를 확인해 주세요."
-    except Exception:
-        bot = "⚠️ LLM 응답을 받지 못했습니다. Ollama 서버를 확인해 주세요."
-    st.session_state["llm_msgs"].append({"role": "assistant", "content": bot})
     st.rerun()

 # ──────────────────────────────── LLM ────────────────────────────────
 OLLAMA_HOST = os.getenv("OLLAMA_HOST", "http://localhost:11434")
 OLLAMA_MODEL = os.getenv("OLLAMA_MODEL", "gemma2:9b")
+OLLAMA_TIMEOUT = int(os.getenv("OLLAMA_TIMEOUT", "300"))
 KOREAN_SYSTEM_PROMPT = """당신은 한국어 어시스턴트입니다. 항상 한국어로 답하세요."""
         st.error(f"요청 오류: {e}")
     return ""
+def call_ollama_stream(messages, *, model: str = OLLAMA_MODEL,
+                       temperature: float = 0.8, top_p: float = 0.9,
+                       top_k: int = 40, repeat_penalty: float = 1.1,
+                       num_predict: int = 200, num_ctx: int = 2048,
+                       system_prompt: str | None = None):
+    """
+    Ollama /api/chat 스트리밍 제너레이터.
+    Streamlit에서는 st.write_stream(...)으로 바로 쓸 수 있음.
+    """
+    url = f"{OLLAMA_HOST}/api/chat"
+    _msgs = []
+    if system_prompt:
+        _msgs.append({"role": "system", "content": system_prompt})
+    _msgs.extend(messages)
+    payload = {
+        "model": model,
+        "messages": _msgs,
+        "options": {
+            "temperature": temperature,
+            "top_p": top_p,
+            "top_k": top_k,
+            "repeat_penalty": repeat_penalty,
+            "num_predict": num_predict,   # CPU + 9B는 128~256 권장
+            "num_ctx": num_ctx            # 2048~4096
+        },
+        "stream": True,                   # ✅ 핵심
+    }
+    with requests.post(url, json=payload, stream=True, timeout=OLLAMA_TIMEOUT) as resp:
+        resp.raise_for_status()
+        for line in resp.iter_lines(decode_unicode=True):
+            if not line:
+                continue
+            data = json.loads(line)
+            if data.get("done"):
+                break
+            chunk = (data.get("message") or {}).get("content", "")
+            if chunk:
+                yield chunk
 def _llm_structured_extract(user_text: str):
     out = _call_ollama_chat(
         [
     # 종료 명령
     if text in {"종료", "quit", "exit"}:
         st.session_state["llm_inline"] = False
+        st.session_state["llm_mode"] = False
         st.rerun()
         return
     st.session_state.setdefault("llm_msgs", [])
     st.session_state["llm_msgs"].append({"role": "user", "content": text})
+    # ✅ 스트리밍 호출로 변경
     try:
+        with st.chat_message("assistant"):
+            # 시스템 프롬프트 + 히스토리 모두 보내기
+            msgs = st.session_state["llm_msgs"]
+            full_text = st.write_stream(
+                call_ollama_stream(
+                    msgs,
+                    model=OLLAMA_MODEL,
+                    system_prompt=KOREAN_SYSTEM_PROMPT,
+                    num_predict=200,   # 필요시 128~256 조정
+                    num_ctx=2048
+                )
+            )
+        st.session_state["llm_msgs"].append({"role": "assistant", "content": full_text})
+    except requests.Timeout:
+        st.error(f"⏱️ Ollama 타임아웃({OLLAMA_TIMEOUT}s). host={OLLAMA_HOST}, model={OLLAMA_MODEL}")
+        st.session_state["llm_msgs"].append({"role": "assistant", "content": "⚠️ 타임아웃이 발생했습니다."})
+    except requests.RequestException as e:
+        st.error(f"요청 오류: {e}")
+        st.session_state["llm_msgs"].append({"role": "assistant", "content": "⚠️ LLM 호출 중 오류가 발생했습니다."})
     st.rerun()