Spaces:

dish0nest2
/

finance_help

Sleeping

App Files Files Community

Nikolay Ponomarev commited on 10 days ago

Commit

12101fc

1 Parent(s): d289510

inance help

Browse files

Files changed (3) hide show

Dockerfile +14 -12
app.py +123 -60
start.sh +51 -30

Dockerfile CHANGED Viewed

@@ -5,7 +5,6 @@ RUN apt-get update && apt-get install -y \
     curl ca-certificates python3 python3-pip bash && \
     rm -rf /var/lib/apt/lists/*
-# Install Ollama
 RUN curl -fsSL https://ollama.com/install.sh | sh
 WORKDIR /app
@@ -16,24 +15,27 @@ COPY app.py /app/app.py
 COPY start.sh /app/start.sh
 RUN chmod +x /app/start.sh
-# Ollama server
 ENV OLLAMA_HOST=0.0.0.0:11434
-# CPU-friendly
-ENV OLLAMA_CONTEXT_LENGTH=4096
 ENV OLLAMA_NUM_PARALLEL=1
-ENV OLLAMA_MAX_LOADED_MODELS=1
 ENV OLLAMA_KEEP_ALIVE=10m
-# Gradio on Spaces
 ENV GRADIO_SERVER_NAME=0.0.0.0
 ENV GRADIO_SERVER_PORT=7860
-# App defaults (можно переопределить в Space Variables)
-ENV MODEL_NAME=qwen2.5-coder:3b
-ENV PIPELINE=single
-ENV NUM_CTX=4096
-ENV MAX_TOKENS=1024
 ENV LITELLM_TIMEOUT=3600
 CMD ["/app/start.sh"]

     curl ca-certificates python3 python3-pip bash && \
     rm -rf /var/lib/apt/lists/*
 RUN curl -fsSL https://ollama.com/install.sh | sh
 WORKDIR /app
 COPY start.sh /app/start.sh
 RUN chmod +x /app/start.sh
 ENV OLLAMA_HOST=0.0.0.0:11434
+ENV OLLAMA_CONTEXT_LENGTH=2048
 ENV OLLAMA_NUM_PARALLEL=1
+# Сколько моделей держать загруженными.
+# На CPU/16GB лучше 1 (иначе может съесть память).
+ENV OLLAMA_MAX_LOADED_MODELS=3
 ENV OLLAMA_KEEP_ALIVE=10m
 ENV GRADIO_SERVER_NAME=0.0.0.0
 ENV GRADIO_SERVER_PORT=7860
+# 3 модели (можно переопределить в Space Variables)
+ENV PIPELINE=multi
+ENV MODEL_NAME=qwen2.5-coder:1.5b
+ENV TRIAGE_MODEL=qwen2.5-coder:1.5b
+ENV ACTIONS_MODEL=qwen2.5-coder:3b
+ENV WRITER_MODEL=qwen2.5-coder:3b
+ENV NUM_CTX=2048
+ENV MAX_TOKENS=512
 ENV LITELLM_TIMEOUT=3600
 CMD ["/app/start.sh"]

app.py CHANGED Viewed

@@ -10,26 +10,34 @@ from smolagents import LiteLLMModel
 warnings.filterwarnings("ignore", category=UserWarning, module="pydantic")
-MODEL_NAME = os.getenv("MODEL_NAME", "qwen2.5-coder:1.5b")
 OLLAMA_BASE = os.getenv("OLLAMA_URL", "http://127.0.0.1:11434").rstrip("/")
 NUM_CTX = int(os.getenv("NUM_CTX", "2048"))
 MAX_TOKENS = int(os.getenv("MAX_TOKENS", "512"))
 LITELLM_TIMEOUT = int(os.getenv("LITELLM_TIMEOUT", "3600"))
-PIPELINE = os.getenv("PIPELINE", "single").strip().lower()
-def make_model():
-    # ВАЖНО: фикс “string indices must be integers” на некоторых связках smolagents/litellm
     return LiteLLMModel(
-        model_id=f"ollama_chat/{MODEL_NAME}",
         api_base=OLLAMA_BASE,
         num_ctx=NUM_CTX,
         temperature=0.2,
         max_tokens=MAX_TOKENS,
         timeout=LITELLM_TIMEOUT,
-        flatten_messages_as_text=False,
     )
@@ -76,33 +84,13 @@ def web_search(query: str) -> str:
     return _strip_html(resp.text)[:4500]
-def _friendly_error(e: Exception) -> str:
-    return (
-        "### Ошибка\n\n"
-        "Бэкенд получил запрос, но он завершился ошибкой.\n\n"
-        "Текст ошибки:\n"
-        f"```text\n{repr(e)}\n```"
-    )
-def ping():
-    print("[ping] clicked", flush=True)
-    return "pong ✅ (кнопка работает, бэкенд отвечает)"
 def build_web_context(region: str, allow_internet: bool) -> str:
     if not allow_internet:
         return ""
     q1 = f"emergency financial assistance {region}"
     q2 = "how to avoid financial aid scams"
-    print(f"[web] search 1: {q1}", flush=True)
     r1 = web_search(q1)
-    print(f"[web] search 2: {q2}", flush=True)
     r2 = web_search(q2)
     return (
         "## Результаты web_search (внутренний контекст)\n"
         f"### Поиск 1: {q1}\n{r1}\n\n"
@@ -110,25 +98,35 @@ def build_web_context(region: str, allow_internet: bool) -> str:
     )
 def run_fin_aid(case_description: str, region: str, urgency: str, allow_internet: bool):
-    # ЭТО ДОЛЖНО ПЕЧАТАТЬСЯ СРАЗУ ПРИ КЛИКЕ
-    print("[run] button clicked", flush=True)
     print(f"[run] region={region!r} urgency={urgency!r} internet={allow_internet}", flush=True)
-    try:
-        model = make_model()
-        system = (
-            "Ты помощник по финансовой навигации. Всегда отвечай на РУССКОМ.\n"
-            "Безопасность:\n"
-            "- НЕ проси номера карт, CVV, пароли, SMS-коды, полный паспорт/ID.\n"
-            "- Можно спрашивать безопасные категории: диапазоны сумм, сроки, статус аренды.\n"
-            "- Никаких инвестсоветов. Фокус: кризисная поддержка, бюджет, варианты помощи.\n"
-        )
         web_ctx = build_web_context(region, allow_internet)
         print("[run] web_ctx ready", flush=True)
-        prompt = f"""
 Сформируй ГОТОВЫЙ отчёт в Markdown.
 Структура:
@@ -153,36 +151,104 @@ def run_fin_aid(case_description: str, region: str, urgency: str, allow_internet
 {web_ctx}
 """
-        print("[run] calling model...", flush=True)
-        out = llm_text(model, textwrap.dedent(prompt), system_prompt=system)
-        print("[run] model returned", flush=True)
-        print("[run] out_len=", len(out), flush=True)
-        print("[run] out_head=", repr(out[:300]), flush=True)
-        return gr.update(value=out)
     except Exception as e:
         print("[run] ERROR:", repr(e), flush=True)
-        return _friendly_error(e)
 print("[boot] app.py loaded", flush=True)
-with gr.Blocks(title="Financial Aid Navigator (CPU debug)") as demo:
-    gr.Markdown("# Financial Aid Navigator (CPU debug)")
     gr.Markdown(
-        f"- Model: `{MODEL_NAME}`\n"
         f"- Ollama: `{OLLAMA_BASE}`\n"
-        f"- NUM_CTX: `{NUM_CTX}`, MAX_TOKENS: `{MAX_TOKENS}`, TIMEOUT: `{LITELLM_TIMEOUT}`\n"
-        f"- PIPELINE: `{PIPELINE}`"
     )
-    with gr.Row():
-        ping_btn = gr.Button("Ping (проверка клика)")
-        ping_out = gr.Markdown()
-    ping_btn.click(fn=ping, inputs=None, outputs=ping_out, queue=False)
     region = gr.Textbox(label="Регион", lines=1)
     urgency = gr.Dropdown(
         ["срочно (24–72 часа)", "в течение недели", "не срочно (в течение месяца)"],
@@ -193,7 +259,7 @@ with gr.Blocks(title="Financial Aid Navigator (CPU debug)") as demo:
     allow_internet = gr.Checkbox(label="Разрешить поиск в интернете", value=False)
     run_btn = gr.Button("Сформировать план помощи")
-    output = gr.Textbox(label="План", lines=22)
     run_btn.click(
         fn=run_fin_aid,
@@ -202,9 +268,6 @@ with gr.Blocks(title="Financial Aid Navigator (CPU debug)") as demo:
         queue=False,
     )
-    # очередь можно включить позже, когда всё заработает
-    # demo.queue(max_size=20)
 def main():
     server_name = os.getenv("GRADIO_SERVER_NAME", "0.0.0.0")
     server_port = int(os.getenv("GRADIO_SERVER_PORT", "7860"))

 warnings.filterwarnings("ignore", category=UserWarning, module="pydantic")
 OLLAMA_BASE = os.getenv("OLLAMA_URL", "http://127.0.0.1:11434").rstrip("/")
+# Можно задать разные модели на разные этапы:
+# TRIAGE_MODEL, ACTIONS_MODEL, WRITER_MODEL
+DEFAULT_MODEL = os.getenv("MODEL_NAME", "qwen2.5-coder:1.5b")
+TRIAGE_MODEL = os.getenv("TRIAGE_MODEL", DEFAULT_MODEL)
+ACTIONS_MODEL = os.getenv("ACTIONS_MODEL", DEFAULT_MODEL)
+WRITER_MODEL = os.getenv("WRITER_MODEL", DEFAULT_MODEL)
+# CPU-friendly дефолты
 NUM_CTX = int(os.getenv("NUM_CTX", "2048"))
 MAX_TOKENS = int(os.getenv("MAX_TOKENS", "512"))
 LITELLM_TIMEOUT = int(os.getenv("LITELLM_TIMEOUT", "3600"))
+# single = 1 модель/1 запрос (быстрее на CPU)
+# multi  = 3 этапа: triage -> actions -> writer (и могут быть 3 разные модели)
+PIPELINE = os.getenv("PIPELINE", "multi").strip().lower()
+def make_model(model_name: str) -> LiteLLMModel:
     return LiteLLMModel(
+        model_id=f"ollama_chat/{model_name}",
         api_base=OLLAMA_BASE,
         num_ctx=NUM_CTX,
         temperature=0.2,
         max_tokens=MAX_TOKENS,
         timeout=LITELLM_TIMEOUT,
+        flatten_messages_as_text=False,  # важно для совместимости
     )
     return _strip_html(resp.text)[:4500]
 def build_web_context(region: str, allow_internet: bool) -> str:
     if not allow_internet:
         return ""
     q1 = f"emergency financial assistance {region}"
     q2 = "how to avoid financial aid scams"
     r1 = web_search(q1)
     r2 = web_search(q2)
     return (
         "## Результаты web_search (внутренний контекст)\n"
         f"### Поиск 1: {q1}\n{r1}\n\n"
     )
+def _friendly_error(e: Exception) -> str:
+    return (
+        "### Ошибка\n\n"
+        "Запрос завершился ошибкой.\n\n"
+        "```text\n"
+        f"{repr(e)}\n"
+        "```"
+    )
 def run_fin_aid(case_description: str, region: str, urgency: str, allow_internet: bool):
+    print("[run] clicked", flush=True)
     print(f"[run] region={region!r} urgency={urgency!r} internet={allow_internet}", flush=True)
+    system = (
+        "Ты помощник по финансовой навигации. Всегда отвечай на РУССКОМ.\n"
+        "Правила безопасности:\n"
+        "- НЕ проси и НЕ предлагай вводить чувствительные данные: номера карт, CVV, пароли, SMS-коды, номера документов.\n"
+        "- НЕ проси полный паспорт/ID. Разрешены только общие категории: 'удостоверение личности' без номеров/серий.\n"
+        "- Никаких инвестсоветов. Фокус: кризисная поддержка, бюджет, варианты помощи.\n"
+    )
+    try:
         web_ctx = build_web_context(region, allow_internet)
         print("[run] web_ctx ready", flush=True)
+        if PIPELINE != "multi":
+            model = make_model(WRITER_MODEL)
+            prompt = f"""
 Сформируй ГОТОВЫЙ отчёт в Markdown.
 Структура:
 {web_ctx}
 """
+            print(f"[run] single -> model={WRITER_MODEL}", flush=True)
+            out = llm_text(model, textwrap.dedent(prompt), system_prompt=system)
+            print("[run] done (single), len=", len(out), flush=True)
+            return gr.update(value=out)
+        # --- MULTI: 3 этапа, возможно 3 разные модели ---
+        triage_model = make_model(TRIAGE_MODEL)
+        actions_model = make_model(ACTIONS_MODEL)
+        writer_model = make_model(WRITER_MODEL)
+        triage_prompt = f"""
+Ты агент Triage.
+Сформируй структуру:
+- Краткое резюме (2–4 предложения)
+- Допущения (список)
+- Приоритеты: Сегодня / На неделе / В течение месяца
+- Риски (выселение/отключения/штрафы/коллекторы/мошенники/перегрузка)
+- Какие данные подготовить (безопасный список, без номеров документов)
+- Вопросы для уточнения (до 8)
+Срочность: {urgency}
+Регион: {region}
+Описание:
+{case_description}
+{web_ctx}
+"""
+        print(f"[run] triage -> model={TRIAGE_MODEL}", flush=True)
+        triage = llm_text(triage_model, textwrap.dedent(triage_prompt), system_prompt=system)
+        print("[run] triage done, len=", len(triage), flush=True)
+        actions_prompt = f"""
+Ты агент Actions.
+На основе Triage составь:
+1) Действия в 3 корзинах: urgent / short_term / mid_term (каждая 4–8 пунктов)
+2) Варианты помощи в регионе (resources): government/ngo/debt_counseling/housing/utilities/other
+Формат: Markdown (НЕ Python-структуры).
+Triage:
+{triage}
+"""
+        print(f"[run] actions -> model={ACTIONS_MODEL}", flush=True)
+        actions = llm_text(actions_model, textwrap.dedent(actions_prompt), system_prompt=system)
+        print("[run] actions done, len=", len(actions), flush=True)
+        writer_prompt = f"""
+Ты агент Writer.
+Собери финальный отчёт в Markdown строго по структуре:
+# План финансовой помощи
+## Важно
+## Сводка ситуации
+## Приоритеты
+### Сегодня (24–72 часа)
+### На неделе
+### В течение месяца
+## Варианты помощи в регионе
+## Пошаговый план
+## Мини-бюджет на 30 дней
+## Анти-мошенничество
+## Что подготовить
+## Вопросы для уточнения (до 8)
+Требования:
+- НЕ проси чувствительные данные, НЕ проси номера документов/карт, НЕ проси полный паспорт/ID.
+- Не вставляй исходники/логи/HTML.
+- Используй содержимое Triage и Actions.
+Triage:
+{triage}
+Actions:
+{actions}
+"""
+        print(f"[run] writer -> model={WRITER_MODEL}", flush=True)
+        out = llm_text(writer_model, textwrap.dedent(writer_prompt), system_prompt=system)
+        print("[run] done (multi), len=", len(out), flush=True)
+        return gr.update(value=out)
     except Exception as e:
         print("[run] ERROR:", repr(e), flush=True)
+        return gr.update(value=_friendly_error(e))
 print("[boot] app.py loaded", flush=True)
+with gr.Blocks(title="Financial Aid Navigator (3 models)") as demo:
+    gr.Markdown("# Financial Aid Navigator (3 models via Ollama)")
     gr.Markdown(
         f"- Ollama: `{OLLAMA_BASE}`\n"
+        f"- PIPELINE: `{PIPELINE}`\n"
+        f"- TRIAGE_MODEL: `{TRIAGE_MODEL}`\n"
+        f"- ACTIONS_MODEL: `{ACTIONS_MODEL}`\n"
+        f"- WRITER_MODEL: `{WRITER_MODEL}`\n"
+        f"- NUM_CTX: `{NUM_CTX}`, MAX_TOKENS: `{MAX_TOKENS}`, TIMEOUT: `{LITELLM_TIMEOUT}`"
     )
     region = gr.Textbox(label="Регион", lines=1)
     urgency = gr.Dropdown(
         ["срочно (24–72 часа)", "в течение недели", "не срочно (в течение месяца)"],
     allow_internet = gr.Checkbox(label="Разрешить поиск в интернете", value=False)
     run_btn = gr.Button("Сформировать план помощи")
+    output = gr.Textbox(label="План", lines=24)
     run_btn.click(
         fn=run_fin_aid,
         queue=False,
     )
 def main():
     server_name = os.getenv("GRADIO_SERVER_NAME", "0.0.0.0")
     server_port = int(os.getenv("GRADIO_SERVER_PORT", "7860"))

start.sh CHANGED Viewed

@@ -1,11 +1,16 @@
 #!/usr/bin/env bash
 set -euo pipefail
-MODEL_NAME="${MODEL_NAME:-qwen2.5-coder:3b}"
 OLLAMA_URL="${OLLAMA_URL:-http://127.0.0.1:11434}"
-export MODEL_NAME
 export OLLAMA_URL
 SCRIPT_DIR="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)"
 cd "$SCRIPT_DIR"
@@ -13,7 +18,6 @@ echo "[start.sh] Starting Ollama..."
 ollama serve > /tmp/ollama.log 2>&1 &
 OLLAMA_PID=$!
-# Wait until Ollama is ready
 python3 - << 'PY'
 import os, time, urllib.request
 base = os.environ.get("OLLAMA_URL","http://127.0.0.1:11434").rstrip("/")
@@ -28,38 +32,55 @@ for _ in range(180):
 raise SystemExit("Ollama did not start")
 PY
-echo "[start.sh] Ensuring model exists: ${MODEL_NAME}"
-if ! ollama show "${MODEL_NAME}" >/dev/null 2>&1; then
-  echo "[start.sh] Model not found locally. Pulling..."
-  ollama pull "${MODEL_NAME}"
-else
-  echo "[start.sh] Model already present. Skipping pull."
-fi
-# Warmup
-echo "[start.sh] Warming up model..."
 python3 - << 'PY'
 import os, json, urllib.request
 base = os.environ.get("OLLAMA_URL","http://127.0.0.1:11434").rstrip("/")
-model = os.environ.get("MODEL_NAME")
-ctx = int(os.environ.get("OLLAMA_CONTEXT_LENGTH","4096"))
-payload = {
-  "model": model,
-  "prompt": "ping",
-  "stream": False,
-  "options": {
-    "num_ctx": ctx,
-    "num_predict": 32
-  }
-}
-req = urllib.request.Request(
-    base + "/api/generate",
-    data=json.dumps(payload).encode(),
-    headers={"Content-Type":"application/json"},
-)
-urllib.request.urlopen(req, timeout=1200).read()
-print("Warmup OK")
 PY
 echo "[start.sh] Launching app..."

 #!/usr/bin/env bash
 set -euo pipefail
 OLLAMA_URL="${OLLAMA_URL:-http://127.0.0.1:11434}"
 export OLLAMA_URL
+MODEL_NAME="${MODEL_NAME:-qwen2.5-coder:1.5b}"
+TRIAGE_MODEL="${TRIAGE_MODEL:-$MODEL_NAME}"
+ACTIONS_MODEL="${ACTIONS_MODEL:-$MODEL_NAME}"
+WRITER_MODEL="${WRITER_MODEL:-$MODEL_NAME}"
+export MODEL_NAME TRIAGE_MODEL ACTIONS_MODEL WRITER_MODEL
 SCRIPT_DIR="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)"
 cd "$SCRIPT_DIR"
 ollama serve > /tmp/ollama.log 2>&1 &
 OLLAMA_PID=$!
 python3 - << 'PY'
 import os, time, urllib.request
 base = os.environ.get("OLLAMA_URL","http://127.0.0.1:11434").rstrip("/")
 raise SystemExit("Ollama did not start")
 PY
+# Уникальный список моделей
+MODELS=("$MODEL_NAME" "$TRIAGE_MODEL" "$ACTIONS_MODEL" "$WRITER_MODEL")
+UNIQ_MODELS=()
+for m in "${MODELS[@]}"; do
+  skip=false
+  for u in "${UNIQ_MODELS[@]}"; do
+    if [ "$u" = "$m" ]; then skip=true; fi
+  done
+  if [ "$skip" = false ]; then UNIQ_MODELS+=("$m"); fi
+done
+echo "[start.sh] Ensuring models exist..."
+for m in "${UNIQ_MODELS[@]}"; do
+  echo "[start.sh] model: $m"
+  if ! ollama show "$m" >/dev/null 2>&1; then
+    echo "[start.sh] pulling $m..."
+    ollama pull "$m"
+  else
+    echo "[start.sh] already present"
+  fi
+done
+echo "[start.sh] Warming up models..."
 python3 - << 'PY'
 import os, json, urllib.request
 base = os.environ.get("OLLAMA_URL","http://127.0.0.1:11434").rstrip("/")
+ctx = int(os.environ.get("OLLAMA_CONTEXT_LENGTH","2048"))
+models = []
+for k in ("MODEL_NAME","TRIAGE_MODEL","ACTIONS_MODEL","WRITER_MODEL"):
+    v = os.environ.get(k)
+    if v and v not in models:
+        models.append(v)
+for m in models:
+    payload = {
+      "model": m,
+      "prompt": "ping",
+      "stream": False,
+      "options": {"num_ctx": ctx, "num_predict": 16}
+    }
+    req = urllib.request.Request(
+        base + "/api/generate",
+        data=json.dumps(payload).encode(),
+        headers={"Content-Type":"application/json"},
+    )
+    urllib.request.urlopen(req, timeout=1800).read()
+    print("Warmup OK:", m)
 PY
 echo "[start.sh] Launching app..."