Spaces:

LevinAleksey
/

managerChat

Sleeping

App Files Files Community

LevinAleksey commited on Feb 8

Commit

19b4bfa

verified ·

1 Parent(s): 02c20bb

Update app.py

Browse files

Files changed (1) hide show

app.py +215 -112

app.py CHANGED Viewed

@@ -1,5 +1,5 @@
 import os
-from typing import List, Dict, Any, Tuple, Optional
 import chainlit as cl
 from huggingface_hub import InferenceClient
@@ -7,7 +7,10 @@ from qdrant_client import QdrantClient
 from sentence_transformers import SentenceTransformer
-# --- КОНФИГУРАЦИЯ ---
 HF_TOKEN = os.getenv("HF_TOKEN")
 QDRANT_URL = os.getenv("QDRANT_URL")
 QDRANT_API_KEY = os.getenv("QDRANT_API_KEY")
@@ -15,194 +18,294 @@ QDRANT_API_KEY = os.getenv("QDRANT_API_KEY")
 MODEL_ID = "Qwen/Qwen2.5-7B-Instruct"
 QDRANT_COLLECTION = "sales_knowledge"
-# Память (сколько сообщений держим в истории)
-HISTORY_KEEP = 20          # хранить в сессии (user+assistant = 2 сообщения за ход)
-HISTORY_SEND_LAST = 10     # отправлять в LLM последние N сообщений
-# RAG настройки
 RAG_LIMIT = 4
-# Порог релевантности: для cosine embeddings MiniLM часто рабочие значения 0.20–0.35.
-# Точный порог зависит от того, как ты индексировал коллекцию.
-RAG_SCORE_THRESHOLD = 0.25
-RAG_MAX_CHARS = 2500       # чтобы не раздувать промпт (защита по размеру)
-# --- МОЩНЫЙ ПРОМПТ ПРОДАЖНИКА ---
 SALES_SYSTEM_PROMPT = """
-Ты — ведущий эксперт по внедрению ИИ и автоматизации (n8n, RAG, Chatbots).
-Твоя задача: Квалифицировать клиента и продать услуги агентства.
-ТВОИ ПРАВИЛА:
-1. Тон: уверенный, деловой, экспертный. Не будь "роботом-слугой". Ты — партнер по бизнесу.
-2. Цель: не просто ответить, а вывести клиента на следующий шаг (звонок, аудит, КП).
-3. Если спрашивают цену: не называй цифру "в лоб" без контекста. Сначала уточни вводные, объясни ценность, потом дай вилку "от...".
-4. Возражение "дорого": объясни, какие деньги/время теряются без автоматизации.
-5. Краткость: 3–4 предложения за раз. Больше — только если попросили подробно.
-6. В конце ответа задавай вовлекающий вопрос, НО только если он уместен (нужно уточнить вводные или продвинуть сделку).
-7. Если в контексте из базы знаний НЕТ ответа — не выдумывай факты. Задай 1–2 уточняющих вопроса и предложи следующий шаг.
-""".strip()
-def _safe_env_check() -> Optional[str]:
-    """Возвращает текст ошибки конфигурации, если что-то критично не задано."""
-    if not HF_TOKEN:
-        return "Не задан HF_TOKEN (секрет токена Hugging Face)."
-    return None
-@cl.on_chat_start
-async def start():
-    # 0) Проверка env
-    err = _safe_env_check()
-    if err:
-        await cl.Message(content=f"⚠️ Конфигурация: {err}").send()
-    # 1) Приветствие
-    await cl.Message(
-        content="👋 Привет! Я AI-архитектор. Готов обсудить автоматизацию твоего бизнеса. Какую задачу решаем?"
-    ).send()
-    # 2) Инициализация клиентов
-    hf_client = InferenceClient(MODEL_ID, token=HF_TOKEN)
-    q_client = None
-    if QDRANT_URL and QDRANT_API_KEY:
-        try:
-            q_client = QdrantClient(url=QDRANT_URL, api_key=QDRANT_API_KEY)
-            print("✅ Qdrant Connected")
-        except Exception as e:
-            print(f"❌ Qdrant Error: {e}")
-    # 3) Encoder (эмбеддинги)
-    encoder = SentenceTransformer("all-MiniLM-L6-v2")
-    cl.user_session.set("hf_client", hf_client)
-    cl.user_session.set("q_client", q_client)
-    cl.user_session.set("encoder", encoder)
-    # 4) История (память)
-    cl.user_session.set("message_history", [])
 def get_context(
     query: str,
     q_client: Optional[QdrantClient],
     encoder: SentenceTransformer,
-    *,
-    limit: int = RAG_LIMIT,
-    score_threshold: float = RAG_SCORE_THRESHOLD,
-) -> Tuple[str, List[Dict[str, Any]]]:
-    """
-    Возвращает (context_text, debug_hits).
-    debug_hits можно использовать для логов/аналитики.
-    """
     if not q_client:
-        return "", []
     try:
         vector = encoder.encode(query).tolist()
         hits = q_client.search(
             collection_name=QDRANT_COLLECTION,
             query_vector=vector,
-            limit=limit,
             with_payload=True,
         )
-        # Фильтруем по score, чтобы не тащить мусор
-        good_hits = [h for h in hits if getattr(h, "score", 0.0) >= score_threshold]
-        chunks: List[str] = []
-        debug: List[Dict[str, Any]] = []
-        for h in good_hits:
-            payload = h.payload or {}
-            text = (payload.get("text") or "").strip()
             if text:
-                chunks.append(text)
-            debug.append(
-                {
-                    "score": float(getattr(h, "score", 0.0)),
-                    "payload_keys": list(payload.keys()),
-                }
-            )
-        context = "\n\n---\n\n".join(chunks).strip()
         if len(context) > RAG_MAX_CHARS:
-            context = context[:RAG_MAX_CHARS].rstrip() + "…"
-        return context, debug
     except Exception as e:
-        print(f"❌ RAG error: {e}")
-        return "", []
 @cl.on_message
 async def main(message: cl.Message):
     hf_client: InferenceClient = cl.user_session.get("hf_client")
     q_client: Optional[QdrantClient] = cl.user_session.get("q_client")
     encoder: SentenceTransformer = cl.user_session.get("encoder")
     history: List[Dict[str, str]] = cl.user_session.get("message_history") or []
     user_text = (message.content or "").strip()
     if not user_text:
-        await cl.Message(content="Напиши, пожалуйста, вопрос текстом 🙂").send()
         return
-    # 1) RAG по текущему вопросу
-    context, _debug_hits = get_context(user_text, q_client, encoder)
-    # 2) Собираем сообщения
-    messages_payload: List[Dict[str, str]] = []
-    messages_payload.append({"role": "system", "content": SALES_SYSTEM_PROMPT})
-    # Контекст отдельным сообщением (НЕ мешаем в главный system prompt)
     if context:
-        messages_payload.append(
-            {
-                "role": "system",
-                "content": (
-                    "Ниже — фрагменты из базы знаний компании. Используй их как источник фактов.\n"
-                    "Если ответ не следует из этих фрагментов — не выдумывай, задай уточняющие вопросы.\n\n"
-                    f"{context}"
-                ),
-            }
-        )
-    # История (последние N сообщений)
-    for msg in history[-HISTORY_SEND_LAST:]:
-        # защита от мусора
-        if isinstance(msg, dict) and "role" in msg and "content" in msg:
-            messages_payload.append({"role": msg["role"], "content": msg["content"]})
-    # Текущий вопрос пользователя
-    messages_payload.append({"role": "user", "content": user_text})
-    # 3) Стримим ответ
     msg = cl.Message(content="")
     await msg.send()
     full_response = ""
     try:
         stream = hf_client.chat_completion(
             messages=messages_payload,
-            max_tokens=700,        # для "3-4 предложения" 1024 часто избыточно
             stream=True,
-            temperature=0.7,
         )
         for chunk in stream:
             token = chunk.choices[0].delta.content
             if token:
                 full_response += token
                 await msg.stream_token(token)
         await msg.update()
-        # 4) Обновляем историю и обрезаем, чтобы не разрасталась
         history.append({"role": "user", "content": user_text})
         history.append({"role": "assistant", "content": full_response.strip()})
         history = history[-HISTORY_KEEP:]
         cl.user_session.set("message_history", history)
     except Exception as e:
-        await cl.Message(content=f"Ошибка: {str(e)}").send()

 import os
+from typing import List, Dict, Optional
 import chainlit as cl
 from huggingface_hub import InferenceClient
 from sentence_transformers import SentenceTransformer
+# ================================
+# CONFIG
+# ================================
 HF_TOKEN = os.getenv("HF_TOKEN")
 QDRANT_URL = os.getenv("QDRANT_URL")
 QDRANT_API_KEY = os.getenv("QDRANT_API_KEY")
 MODEL_ID = "Qwen/Qwen2.5-7B-Instruct"
 QDRANT_COLLECTION = "sales_knowledge"
+HISTORY_KEEP = 20
+HISTORY_SEND_LAST = 10
 RAG_LIMIT = 4
+RAG_SCORE_THRESHOLD = 0.27
+RAG_MAX_CHARS = 2500
+# ================================
+# ELITE SALES SYSTEM PROMPT
+# ================================
 SALES_SYSTEM_PROMPT = """
+Ты — элитный AI-архитектор и консультант по автоматизации бизнеса.
+Ты работаешь только с серьезными проектами и не продаешь "дешевые решения".
+ТВОЯ ЦЕЛЬ:
+Провести клиента через экспертный диалог → квалифицировать → показать ценность → вывести на созвон или аудит.
+СТИЛЬ:
+- Уверенный
+- Спокойный
+- Дорогой
+- Без суеты
+- Без заискивания
+Говори как senior-консультант.
+----------------------------------
+ПОЛИТИКА СТОИМОСТИ:
+Запрещено называть цену, пока не понятны:
+1) Что автоматизируем
+2) Где живут данные / интеграции
+3) Масштаб
+Если цену спросили рано:
+- не называй даже диапазон
+- объясни почему рано
+- задай ОДИН сильный вопрос
+Не устраивай допрос.
+ОДИН вопрос за сообщение.
+----------------------------------
+ANTI-HALLUCINATION:
+- не придумывай цены
+- не придумывай кейсы
+- не обещай сроки
+- не фантазируй
+Нет данных → честно скажи.
+----------------------------------
+DISCOVERY:
+Всегда оценивай:
+"Хватает ли данных для оценки?"
+Если нет → продолжай квалификацию.
+----------------------------------
+RAG:
+Используй контекст как единственный источник фактов.
+Нет в базе → не выдумывай.
+----------------------------------
+СТИЛЬ СООБЩЕНИЙ:
+- 3–5 предложений
+- без воды
+- плотный текст
+- экспертная подача
+Иногда уместен вопрос в конце — но только если он двигает сделку.
+----------------------------------
+ПОЗИЦИОНИРОВАНИЕ:
+Ты архитектор решений.
+Не бойся звучать дорого.
+""".strip()
+# ================================
+# SAFETY CHECK
+# ================================
+def check_env():
+    if not HF_TOKEN:
+        raise ValueError("HF_TOKEN is missing!")
+# ================================
+# RAG RETRIEVAL
+# ================================
 def get_context(
     query: str,
     q_client: Optional[QdrantClient],
     encoder: SentenceTransformer,
+) -> str:
     if not q_client:
+        return ""
     try:
         vector = encoder.encode(query).tolist()
         hits = q_client.search(
             collection_name=QDRANT_COLLECTION,
             query_vector=vector,
+            limit=RAG_LIMIT,
             with_payload=True,
         )
+        good_chunks = []
+        for hit in hits:
+            score = getattr(hit, "score", 0.0)
+            # агрессивная фильтрация
+            if score < RAG_SCORE_THRESHOLD:
+                continue
+            payload = hit.payload or {}
+            text = payload.get("text")
             if text:
+                good_chunks.append(text.strip())
+        if not good_chunks:
+            return ""
+        context = "\n\n---\n\n".join(good_chunks)
         if len(context) > RAG_MAX_CHARS:
+            context = context[:RAG_MAX_CHARS]
+        return context
     except Exception as e:
+        print("RAG ERROR:", e)
+        return ""
+# ================================
+# CHAT START
+# ================================
+@cl.on_chat_start
+async def start():
+    check_env()
+    await cl.Message(
+        content="👋 Привет! Я AI-архитектор. Помогаю компаниям внедрять ИИ и автоматизацию. Расскажи, какую задачу хочешь решить?"
+    ).send()
+    hf_client = InferenceClient(MODEL_ID, token=HF_TOKEN)
+    q_client = None
+    if QDRANT_URL and QDRANT_API_KEY:
+        try:
+            q_client = QdrantClient(
+                url=QDRANT_URL,
+                api_key=QDRANT_API_KEY,
+                timeout=10
+            )
+            print("✅ Qdrant connected")
+        except Exception as e:
+            print("❌ Qdrant error:", e)
+    encoder = SentenceTransformer("all-MiniLM-L6-v2")
+    cl.user_session.set("hf_client", hf_client)
+    cl.user_session.set("q_client", q_client)
+    cl.user_session.set("encoder", encoder)
+    cl.user_session.set("message_history", [])
+# ================================
+# MAIN MESSAGE HANDLER
+# ================================
 @cl.on_message
 async def main(message: cl.Message):
     hf_client: InferenceClient = cl.user_session.get("hf_client")
     q_client: Optional[QdrantClient] = cl.user_session.get("q_client")
     encoder: SentenceTransformer = cl.user_session.get("encoder")
     history: List[Dict[str, str]] = cl.user_session.get("message_history") or []
     user_text = (message.content or "").strip()
     if not user_text:
+        await cl.Message(content="Напиши вопрос 🙂").send()
         return
+    # =========================
+    # RAG
+    # =========================
+    context = get_context(user_text, q_client, encoder)
+    # =========================
+    # BUILD MESSAGES
+    # =========================
+    messages_payload = []
+    messages_payload.append({
+        "role": "system",
+        "content": SALES_SYSTEM_PROMPT
+    })
     if context:
+        messages_payload.append({
+            "role": "system",
+            "content": f"""
+КОНТЕКСТ ИЗ БАЗЫ ЗНАНИЙ.
+Используй только эти данные как факты.
+{context}
+"""
+        })
+    # memory trimming
+    history = history[-HISTORY_SEND_LAST:]
+    messages_payload.extend(history)
+    messages_payload.append({
+        "role": "user",
+        "content": user_text
+    })
+    # =========================
+    # STREAM RESPONSE
+    # =========================
     msg = cl.Message(content="")
     await msg.send()
     full_response = ""
     try:
         stream = hf_client.chat_completion(
             messages=messages_payload,
+            max_tokens=450,
+            temperature=0.5,
+            top_p=0.9,
             stream=True,
         )
         for chunk in stream:
             token = chunk.choices[0].delta.content
             if token:
                 full_response += token
                 await msg.stream_token(token)
         await msg.update()
+        # =========================
+        # SAVE MEMORY
+        # =========================
         history.append({"role": "user", "content": user_text})
         history.append({"role": "assistant", "content": full_response.strip()})
         history = history[-HISTORY_KEEP:]
         cl.user_session.set("message_history", history)
     except Exception as e:
+        await cl.Message(content=f"Ошибка LLM: {str(e)}").send()