Spaces:

dish0nest2
/

finance_help

Sleeping

App Files Files Community

Nikolay Ponomarev commited on Jan 9

Commit

5183c26

1 Parent(s): bf83283

inance help

Browse files

Files changed (3) hide show

Dockerfile +1 -7
app.py +104 -150
start.sh +1 -1

Dockerfile CHANGED Viewed

@@ -19,15 +19,10 @@ RUN chmod +x /app/start.sh
 # Ollama server
 ENV OLLAMA_HOST=0.0.0.0:11434
-# CPU-friendly: маленький контекст (по умолчанию в Ollama 4096) :contentReference[oaicite:4]{index=4}
 ENV OLLAMA_CONTEXT_LENGTH=4096
-# CPU-friendly: не раздувать параллелизм и память :contentReference[oaicite:5]{index=5}
 ENV OLLAMA_NUM_PARALLEL=1
 ENV OLLAMA_MAX_LOADED_MODELS=1
-# Можно держать модель в памяти подольше (уменьшает “долгий первый ответ”),
-# но это увеличивает расход RAM. Документация/faq упоминают keep_alive как env в некоторых сборках. :contentReference[oaicite:6]{index=6}
 ENV OLLAMA_KEEP_ALIVE=10m
 # Gradio on Spaces
@@ -40,6 +35,5 @@ ENV PIPELINE=single
 ENV NUM_CTX=4096
 ENV MAX_TOKENS=1024
 ENV LITELLM_TIMEOUT=3600
-ENV AGENT_MAX_STEPS=1
 CMD ["/app/start.sh"]

 # Ollama server
 ENV OLLAMA_HOST=0.0.0.0:11434
+# CPU-friendly
 ENV OLLAMA_CONTEXT_LENGTH=4096
 ENV OLLAMA_NUM_PARALLEL=1
 ENV OLLAMA_MAX_LOADED_MODELS=1
 ENV OLLAMA_KEEP_ALIVE=10m
 # Gradio on Spaces
 ENV NUM_CTX=4096
 ENV MAX_TOKENS=1024
 ENV LITELLM_TIMEOUT=3600
 CMD ["/app/start.sh"]

app.py CHANGED Viewed

@@ -2,33 +2,29 @@ import os
 import re
 import html as ihtml
 import textwrap
 import requests
 import gradio as gr
-from smolagents import CodeAgent, LiteLLMModel, tool
 # ----------------------------
 # Config (через env)
 # ----------------------------
-# CPU-safe дефолт: небольшая модель из Ollama library
-# Можно заменить в Space Variables: MODEL_NAME=qwen2.5-coder:7b или llama3.1:8b (но на CPU будет медленно)
 MODEL_NAME = os.getenv("MODEL_NAME", "qwen2.5-coder:3b")
 OLLAMA_BASE = os.getenv("OLLAMA_URL", "http://127.0.0.1:11434").rstrip("/")
-# CPU-safe дефолты: маленький контекст + умеренный вывод
 NUM_CTX = int(os.getenv("NUM_CTX", "4096"))
 MAX_TOKENS = int(os.getenv("MAX_TOKENS", "1024"))
-# На CPU даже 3B иногда может “долго думать”, поэтому таймаут повышаем
-LITELLM_TIMEOUT = int(os.getenv("LITELLM_TIMEOUT", "3600"))  # секунд
-# На CPU лучше избегать многошаговых агентов
-AGENT_MAX_STEPS = int(os.getenv("AGENT_MAX_STEPS", "1"))
-# single = 1 вызов модели (лучше для CPU)
-# multi  = ваш 3-агентный пайплайн (дольше)
 PIPELINE = os.getenv("PIPELINE", "single").strip().lower()
@@ -43,8 +39,20 @@ def make_model():
     )
 def _strip_html(raw_html: str) -> str:
-    """Грубое преобразование HTML -> текст, чтобы агент не тащил сырой HTML в ответ."""
     raw_html = ihtml.unescape(raw_html)
     raw_html = re.sub(r"(?is)<(script|style).*?>.*?</\1>", " ", raw_html)
     raw_html = re.sub(r"(?is)<br\s*/?>", "\n", raw_html)
@@ -55,10 +63,9 @@ def _strip_html(raw_html: str) -> str:
     return raw_html.strip()
-@tool
 def web_search(query: str) -> str:
     """
-    Ищет краткую информацию в интернете по текстовому запросу (через DuckDuckGo HTML)
     и возвращает очищенный текст (без сырого HTML).
     Args:
@@ -80,83 +87,74 @@ def web_search(query: str) -> str:
 def _friendly_error(e: Exception) -> str:
     return (
-        "### Ошибка при обращении к модели (Ollama)\n\n"
-        "На CPU большие запросы/модели могут работать очень медленно, и запрос не успевает завершиться.\n\n"
-        "**Что сделать:**\n"
-        "- Используйте меньшую модель (например `qwen2.5-coder:3b` или даже `qwen2.5-coder:1.5b`).\n"
-        "- Держите `NUM_CTX=4096` и `MAX_TOKENS=512..1024`.\n"
-        "- Оставьте `PIPELINE=single`.\n\n"
         "Текст ошибки:\n"
         f"```text\n{repr(e)}\n```"
     )
-def _web_hints(allow_internet: bool):
-    if allow_internet:
-        triage = """
-Интернет доступен ТОЛЬКО через инструмент web_search(query: str).
-ОБЯЗАТЕЛЬНО: минимум 2 раза вызвать web_search:
-1) "emergency financial assistance <регион>" или "rent assistance <регион>";
-2) "how to avoid financial aid scams" или "debt relief scams warning".
-Не вставляй сырой HTML — только извлечённые выводы.
-"""
-        actions = """
-Интернет — только через web_search(query: str).
-Используй результаты поиска, чтобы дополнить список вариа��тов помощи и добавить предупреждения о мошенничестве.
-"""
-        writer = """
-Интернет — только через web_search(query: str).
-Можно уточнить формулировки и типовые источники помощи, но не вставляй сырой HTML.
-"""
-        return triage, actions, writer
-    else:
-        common = """
-Интернет недоступен, инструмент web_search отсутствует.
-Опирайся только на свои знания и общие принципы.
-"""
-        return common, common, common
-def run_fin_aid_multi_agent(case_description: str, region: str, urgency: str, allow_internet: bool):
-    model = make_model()
-    tools = [web_search] if allow_internet else []
-    web_hint_triage, web_hint_actions, web_hint_writer = _web_hints(allow_internet)
-    # ----------------------------
-    # CPU-friendly: single-pass pipeline
-    # ----------------------------
-    if PIPELINE != "multi":
-        agent = CodeAgent(
-            tools=tools,
-            model=model,
-            add_base_tools=False,
-            max_steps=AGENT_MAX_STEPS,
-        )
-        prompt = f"""
-Ты помощник по финансовой навигации.
-Всегда отвечай на РУССКОМ языке.
-{web_hint_writer}
-Сформируй ГОТОВЫЙ ОТЧЁТ ДЛЯ ЧЕЛОВЕКА в формате Markdown.
-Важные правила:
-- НЕ проси и НЕ предлагай вводить чувствительные данные: номера карт, CVV, пароли, коды из SMS, полные паспорта/ID.
-- Можно спрашивать безопасные категории: диапазоны сумм, статус аренды, сроки просрочек, примерные расходы.
-- Фокус: кризисная поддержка, бюджет, варианты помощи. Никаких инвестсоветов.
-Структура отчёта:
 # План финансовой помощи
 ## Важно
-- дисклеймер: не юр/фин совет; при угрозе выселения/насилия/суицида — обращаться в местные службы
-- не сообщать коды, CVV, пароли; осторожно с предоплатами и “мгновенными списаниями”
 ## Сводка ситуации
 ## Приоритеты
 ### Сегодня (24–72 часа)
 ### На неделе
 ### В течение месяца
 ## Варианты помощи в регионе
-- если интернет включён — добавь 3–8 вариантов/категорий по региону (гос/НКО/жильё/коммуналка/долги)
 ## Пошаговый план
 ## Мини-бюджет на 30 дней
 ## Анти-мошенничество
@@ -167,33 +165,22 @@ def run_fin_aid_multi_agent(case_description: str, region: str, urgency: str, al
 Регион: {region}
 Описание ситуации:
 {case_description}
 """
         try:
-            out = agent.run(textwrap.dedent(prompt))
-            return str(out).strip() if out is not None else ""
         except Exception as e:
             return _friendly_error(e)
     # ----------------------------
-    # Multi-agent pipeline (ваш исходный подход, но max_steps=1)
     # ----------------------------
-    try:
-        # Agent 1: Triage
-        triage = CodeAgent(tools=tools, model=model, add_base_tools=False, max_steps=AGENT_MAX_STEPS)
-        triage_prompt = f"""
-Ты агент Triage.
-Всегда отвечай на РУССКОМ языке.
-{web_hint_triage}
-Цель: быстро разобрать ситуацию человека и определить приоритеты.
-Правила:
-- НЕ проси чувствительные данные: номера карт, CVV, пароли, SMS-коды, полный паспорт/ID.
-- Можно безопасные категории: диапазоны сумм, тип дохода, примерные расходы, статус аренды.
-Сформируй структуру:
 - Краткое резюме (2–4 предложения)
 - Допущения (список)
-- Приоритеты: "сегодня", "на неделе", "в течение месяца"
 - Риски (выселение/отключения/штрафы/коллекторы/мошенники/перегрузка)
 - Какие данные подготовить (безопасный список)
 - Вопросы для уточнения (до 8)
@@ -202,54 +189,21 @@ def run_fin_aid_multi_agent(case_description: str, region: str, urgency: str, al
 Регион: {region}
 Описание:
 {case_description}
-"""
-        triage_result = triage.run(textwrap.dedent(triage_prompt))
-        # Agent 2: Actions
-        actions_agent = CodeAgent(tools=tools, model=model, add_base_tools=False, max_steps=AGENT_MAX_STEPS)
-        actions_prompt = f"""
 Ты агент Actions.
-Всегда отвечай на РУССКОМ языке.
-{web_hint_actions}
-На основе результата Triage сформируй ПИТОНОВСКИЙ СПИСОК словарей actions (и больше ничего).
-Поля:
-- "bucket": "urgent" | "short_term" | "mid_term"
-- "title"
-- "steps" (3–8)
-- "expected_outcome"
-- "documents"
-- "warnings"
-Дополнительно: список resources (тоже питоновский список словарей):
-- "type": "government" | "ngo" | "debt_counseling" | "housing" | "utilities" | "other"
-- "name"
-- "what_it_helps_with"
-- "how_to_start"
-- "notes"
-Вход (Triage):
-{triage_result}
 """
-        actions_struct = actions_agent.run(textwrap.dedent(actions_prompt))
-        # Agent 3: Writer
-        writer = CodeAgent(tools=tools, model=model, add_base_tools=False, max_steps=AGENT_MAX_STEPS)
-        writer_prompt = f"""
 Ты агент Writer.
-Всегда отвечай на РУССКОМ языке.
-{web_hint_writer}
-Сгенерируй Python-код, который создаёт переменную report (Markdown строка)
-и возвращает её как последнее выражение.
-Формат:
-report = \"\"\"
-...markdown...
-\"\"\"
-report
-Структура отчёта:
 # План финансовой помощи
 ## Важно
 ## Сводка ситуации
@@ -262,32 +216,31 @@ report
 ## Мини-бюджет на 30 дней
 ## Анти-мошенничество
 ## Что подготовить
-## Вопросы для уточнения
-ВАЖНО:
-- НЕ вставляй Python-структуры dict/list в Markdown — только текст.
-- НЕ запрашивай чувствительные данные.
-Вход (Triage):
-{triage_result}
-Вход (Actions структуры):
-{actions_struct}
 """
-        result = writer.run(textwrap.dedent(writer_prompt))
-        return str(result).strip() if result is not None else ""
     except Exception as e:
         return _friendly_error(e)
-with gr.Blocks(title="Financial Aid Navigator (CPU-friendly)") as demo:
     gr.Markdown("# Financial Aid Navigator (Ollama on CPU)")
     gr.Markdown(
         f"- Model: `{MODEL_NAME}`\n"
         f"- Ollama: `{OLLAMA_BASE}`\n"
-        f"- PIPELINE: `{PIPELINE}` (single = быстрее на CPU)\n"
-        f"- NUM_CTX: `{NUM_CTX}`, MAX_TOKENS: `{MAX_TOKENS}`, TIMEOUT: `{LITELLM_TIMEOUT}`\n"
     )
     region = gr.Textbox(
@@ -309,7 +262,7 @@ with gr.Blocks(title="Financial Aid Navigator (CPU-friendly)") as demo:
         ),
     )
     allow_internet = gr.Checkbox(
-        label="Разрешить агенту поиск в интернете (web_search)",
         value=False,
     )
@@ -317,11 +270,12 @@ with gr.Blocks(title="Financial Aid Navigator (CPU-friendly)") as demo:
     output = gr.Markdown()
     run_btn.click(
-        fn=run_fin_aid_multi_agent,
         inputs=[case_description, region, urgency, allow_internet],
         outputs=[output],
     )
     demo.queue(max_size=20)

 import re
 import html as ihtml
 import textwrap
+import warnings
 import requests
 import gradio as gr
+from smolagents import LiteLLMModel
+# (опционально) меньше шума в логах
+warnings.filterwarnings("ignore", category=UserWarning, module="pydantic")
 # ----------------------------
 # Config (через env)
 # ----------------------------
 MODEL_NAME = os.getenv("MODEL_NAME", "qwen2.5-coder:3b")
 OLLAMA_BASE = os.getenv("OLLAMA_URL", "http://127.0.0.1:11434").rstrip("/")
+# CPU-friendly дефолты
 NUM_CTX = int(os.getenv("NUM_CTX", "4096"))
 MAX_TOKENS = int(os.getenv("MAX_TOKENS", "1024"))
+LITELLM_TIMEOUT = int(os.getenv("LITELLM_TIMEOUT", "3600"))
+# single = 1 вызов модели (рекомендуется на CPU)
+# multi  = 3 вызова модели (triage/actions/writer) — медленнее
 PIPELINE = os.getenv("PIPELINE", "single").strip().lower()
     )
+def llm_text(model: LiteLLMModel, user_prompt: str, system_prompt: str | None = None) -> str:
+    messages = []
+    if system_prompt:
+        messages.append({"role": "system", "content": system_prompt})
+    messages.append({"role": "user", "content": user_prompt})
+    resp = model(messages)
+    # smolagents модели иногда возвращают объект с .content, иногда уже строку
+    if hasattr(resp, "content"):
+        return (resp.content or "").strip()
+    return str(resp).strip()
 def _strip_html(raw_html: str) -> str:
     raw_html = ihtml.unescape(raw_html)
     raw_html = re.sub(r"(?is)<(script|style).*?>.*?</\1>", " ", raw_html)
     raw_html = re.sub(r"(?is)<br\s*/?>", "\n", raw_html)
     return raw_html.strip()
 def web_search(query: str) -> str:
     """
+    Ищет краткую информацию в интернете по текстовому запросу (DuckDuckGo HTML)
     и возвращает очищенный текст (без сырого HTML).
     Args:
 def _friendly_error(e: Exception) -> str:
     return (
+        "### Ошибка\n\n"
+        "Запрос к Ollama/модели не выполнился.\n\n"
+        "На CPU чаще всего помогает:\n"
+        "- Модель поменьше (`qwen2.5-coder:1.5b` или `qwen2.5-coder:3b`)\n"
+        "- `NUM_CTX=2048..4096`\n"
+        "- `MAX_TOKENS=512..1024`\n\n"
         "Текст ошибки:\n"
         f"```text\n{repr(e)}\n```"
     )
+def build_web_context(region: str, allow_internet: bool) -> str:
+    if not allow_internet:
+        return ""
+    q1 = f"emergency financial assistance {region}"
+    q2 = "how to avoid financial aid scams"
+    try:
+        r1 = web_search(q1)
+    except Exception as e:
+        r1 = f"(web_search ошибка по запросу '{q1}': {repr(e)})"
+    try:
+        r2 = web_search(q2)
+    except Exception as e:
+        r2 = f"(web_search ошибка по запросу '{q2}': {repr(e)})"
+    return (
+        "## Результаты web_search (для внутреннего использования в ответе)\n"
+        f"### Поиск 1: {q1}\n{r1}\n\n"
+        f"### Поиск 2: {q2}\n{r2}\n"
+    )
+def run_fin_aid(
+    case_description: str,
+    region: str,
+    urgency: str,
+    allow_internet: bool,
+):
+    model = make_model()
+    web_ctx = build_web_context(region, allow_internet)
+    system = (
+        "Ты помощник по финансовой навигации. Всегда отвечай на РУССКОМ.\n"
+        "Правила безопасности:\n"
+        "- НЕ проси и НЕ предлагай вводить чувствительные данные: номера карт, CVV, пароли, коды из SMS, полный паспорт/ID.\n"
+        "- Можно спрашивать безопасные категории: диапазоны сумм, сроки, тип дохода, примерные расходы.\n"
+        "- Никаких инвестсоветов. Фокус: кризисная поддержка, бюджет, варианты помощи.\n"
+    )
+    if PIPELINE != "multi":
+        prompt = f"""
+Сформируй ГОТОВЫЙ отчёт для человека в Markdown.
+Структура:
 # План финансовой помощи
 ## Важно
+- дисклеймер: не юр/фин совет; при угрозе выселения/насилия/суицида — местные службы
+- не сообщать коды, CVV, пароли; осторожно с предоплатами и "мгновенными списаниями"
 ## Сводка ситуации
 ## Приоритеты
 ### Сегодня (24–72 часа)
 ### На неделе
 ### В течение месяца
 ## Варианты помощи в регионе
+- 5–10 пунктов (гос/НКО/жильё/коммуналка/долги/соцслужбы). Если точных названий нет — категории.
 ## Пошаговый план
 ## Мини-бюджет на 30 дней
 ## Анти-мошенничество
 Регион: {region}
 Описание ситуации:
 {case_description}
+{web_ctx}
 """
         try:
+            return llm_text(model, textwrap.dedent(prompt), system_prompt=system)
         except Exception as e:
             return _friendly_error(e)
     # ----------------------------
+    # Multi pipeline (3 вызова модели) — медленнее на CPU
     # ----------------------------
+    triage_prompt = f"""
+Ты агент Triage. Сформируй структуру:
 - Краткое резюме (2–4 предложения)
 - Допущения (список)
+- Приоритеты по срочности: сегодня / на неделе / в течение месяца
 - Риски (выселение/отключения/штрафы/коллекторы/мошенники/перегрузка)
 - Какие данные подготовить (безопасный список)
 - Вопросы для уточнения (до 8)
 Регион: {region}
 Описание:
 {case_description}
+{web_ctx}
+"""
+    actions_prompt = """
 Ты агент Actions.
+На основе Triage дай:
+1) Список конкретных действий по 3 корзинам: urgent / short_term / mid_term.
+2) Список вариантов помощи (resources): government/ngo/debt_counseling/housing/utilities/other.
+Формат — Markdown, без Python-структур.
 """
+    writer_prompt = """
 Ты агент Writer.
+Собери финальный отчёт в Markdown по шаблону:
 # План финансовой помощи
 ## Важно
 ## Сводка ситуации
 ## Мини-бюджет на 30 дней
 ## Анти-мошенничество
 ## Что подготовить
+## Вопросы для уточнения (до 8)
+НЕ проси чувствительные данные.
 """
+    try:
+        triage = llm_text(model, textwrap.dedent(triage_prompt), system_prompt=system)
+        actions = llm_text(model, actions_prompt + "\n\nВход (Triage):\n" + triage, system_prompt=system)
+        final_report = llm_text(
+            model,
+            writer_prompt + "\n\nВход (Triage):\n" + triage + "\n\nВход (Actions):\n" + actions,
+            system_prompt=system,
+        )
+        return final_report
     except Exception as e:
         return _friendly_error(e)
+with gr.Blocks(title="Financial Aid Navigator (CPU)") as demo:
     gr.Markdown("# Financial Aid Navigator (Ollama on CPU)")
     gr.Markdown(
         f"- Model: `{MODEL_NAME}`\n"
         f"- Ollama: `{OLLAMA_BASE}`\n"
+        f"- PIPELINE: `{PIPELINE}` (single рекомендуем на CPU)\n"
+        f"- NUM_CTX: `{NUM_CTX}`, MAX_TOKENS: `{MAX_TOKENS}`, TIMEOUT: `{LITELLM_TIMEOUT}`"
     )
     region = gr.Textbox(
         ),
     )
     allow_internet = gr.Checkbox(
+        label="Разрешить поиск в интернете (DuckDuckGo через requests)",
         value=False,
     )
     output = gr.Markdown()
     run_btn.click(
+        fn=run_fin_aid,
         inputs=[case_description, region, urgency, allow_internet],
         outputs=[output],
     )
+    # В вашей версии Gradio concurrency_count не поддерживается — оставляем совместимо
     demo.queue(max_size=20)

start.sh CHANGED Viewed

@@ -36,7 +36,7 @@ else
   echo "[start.sh] Model already present. Skipping pull."
 fi
-# Warmup (чтобы первый реальный запрос был быстрее)
 echo "[start.sh] Warming up model..."
 python3 - << 'PY'
 import os, json, urllib.request

   echo "[start.sh] Model already present. Skipping pull."
 fi
+# Warmup
 echo "[start.sh] Warming up model..."
 python3 - << 'PY'
 import os, json, urllib.request