Spaces:

NimrodDev
/

ld_lamaki_bot

Sleeping

App Files Files Community

NimrodDev commited on Nov 17, 2025

Commit

537a3fc

1 Parent(s): cefc270

phph

Browse files

Files changed (2) hide show

Dockerfile +30 -13
app.py +138 -58

Dockerfile CHANGED Viewed

@@ -1,23 +1,40 @@
-FROM python:3.11-slim
 RUN apt-get update && \
-    apt-get install -y --no-install-recommends curl ca-certificates ffmpeg procps && \
     curl -fsSL https://ollama.com/install.sh | sh && \
-    ln -sf /usr/local/bin/ollama /usr/bin/ollama && \
     apt-get clean && rm -rf /var/lib/apt/lists/*
-COPY requirements.txt /requirements.txt
-RUN pip install --no-cache-dir -r /requirements.txt
 WORKDIR /code
-COPY services.txt /code/services.txt
-COPY . /code
 ENV OLLAMA_HOST=0.0.0.0:11434
-EXPOSE 7860
-CMD ["bash","-c","\
-     ollama serve & \
-     while ! curl -s http://localhost:11434 >/dev/null; do sleep 0.5; done && \
-     ollama pull tinyllama:1.1b-chat-q4_0 && \
-     gunicorn -b 0.0.0.0:7860 --workers 1 --timeout 30 app:app"]

+# ---------- builder stage ----------
+FROM python:3.11-slim AS builder
 RUN apt-get update && \
+    apt-get install -y --no-install-recommends curl ca-certificates && \
     curl -fsSL https://ollama.com/install.sh | sh && \
     apt-get clean && rm -rf /var/lib/apt/lists/*
+# ---------- runtime stage ----------
+FROM python:3.11-slim
+# runtime utils (ffmpeg only if you really need audio transcription)
+RUN apt-get update && \
+    apt-get install -y --no-install-recommends curl ca-certificates procps && \
+    apt-get clean && rm -rf /var/lib/apt/lists/*
+# copy ollama binary from builder
+COPY --from=builder /usr/local/bin/ollama /usr/local/bin/ollama
+# python deps
+COPY requirements.txt /tmp/
+RUN pip install --no-cache-dir -U pip && \
+    pip install --no-cache-dir -r /tmp/requirements.txt
 WORKDIR /code
+COPY . .
 ENV OLLAMA_HOST=0.0.0.0:11434
+EXPOSE 7860 11434
+# health-check so Docker knows when the container is really ready
+HEALTHCHECK --interval=30s --timeout=3s --start-period=15s --retries=3 \
+  CMD curl -f http://localhost:7860/ || exit 1
+CMD bash -c "\
+    ollama serve & \
+    while ! curl -s http://localhost:11434/api/tags >/dev/null; do \
+        echo 'waiting for ollama…'; sleep 1; done; \
+    ollama pull ${OLLAMA_MODEL:-tinyllama:1.1b-chat-q4_0}; \
+    exec gunicorn -b 0.0.0.0:7860 --workers 1 --timeout 120 app:app"

app.py CHANGED Viewed

@@ -1,8 +1,14 @@
 #!/usr/bin/env python3
 import os
-import re
 import pathlib
-import logging
 from functools import lru_cache
 from typing import List, Optional
@@ -11,141 +17,215 @@ import ollama
 from flask import Flask, request, jsonify
 from langchain_core.documents import Document
 from langchain_community.vectorstores import FAISS
-from langchain_community.embeddings import HuggingFaceEmbeddings
 from rank_bm25 import BM25Okapi
 from supabase import create_client, Client
-logging.basicConfig(level=logging.INFO, format="%(asctime)s | %(message)s")
 log = logging.getLogger("wa")
-# ---------- CONFIG ----------
-VERIFY_TOKEN   = os.getenv("WEBHOOK_VERIFY", "123456")
-SUPABASE_URL   = os.getenv("SUPABASE_URL")
-SUPABASE_KEY   = os.getenv("SUPABASE_KEY")
-OLLAMA_MODEL   = os.getenv("OLLAMA_MODEL", "tinyllama:1.1b-chat-q4_0")   # 700 MB
-EMBED = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
-supabase: Optional[Client] = create_client(SUPABASE_URL, SUPABASE_KEY) if SUPABASE_URL else None
-# ---------- FAST LLM ----------
 ollama_client = ollama.Client(host="http://localhost:11434")
 @lru_cache(maxsize=512)
 def fast_llm(prompt: str, max_new: int = 60) -> str:
     try:
         resp = ollama_client.generate(
             model=OLLAMA_MODEL,
             prompt=prompt[-512:],
-            options={"temperature": 0.2, "num_predict": max_new, "stop": ["\n", "User:", "Human:"]}
         )
         return resp["response"].strip()
-    except Exception as e:
-        log.warning("ollama: %s", e)
         return "Sorry, I am having trouble thinking right now."
-# ---------- DB ----------
 def get_last(user: str, n: int = 4) -> List[str]:
     if not supabase:
         return []
     try:
-        rows = (supabase.table("chat_memory").select("role,message")
-                .eq("user_phone", user).order("created_at", desc=True).limit(n).execute().data)[::-1]
         return [f"{r['role']}: {r['message']}" for r in rows]
-    except Exception as e:
-        log.warning("db: %s", e)
         return []
-def save_msg(user: str, text: str, role: str = "assistant"):
-    if supabase:
-        try:
-            supabase.table("chat_memory").insert(
-                {"user_phone": user, "role": role.lower(), "message": text}).execute()
-        except Exception as e:
-            log.warning("db write: %s", e)
-# ---------- ATOMIC-LINE RETRIEVER ----------
 @lru_cache(maxsize=1)
 def atomic_retriever():
-    docs = []
-    file = pathlib.Path("services.txt")
-    if file.exists():
-        for line in file.read_text(encoding="utf-8").splitlines():
             line = line.strip()
-            if line and "KES" in line:          # atomic price line
                 docs.append(Document(page_content=line))
-    if not docs:
-        docs = [Document(page_content="LD Events handles events. Lamaki Designs handles interiors.")]
     dense = FAISS.from_documents(docs, EMBED).as_retriever(search_kwargs={"k": 5})
     tokenized = [re.findall(r"\w+", d.page_content.lower()) for d in docs]
     bm25 = BM25Okapi(tokenized)
-    def search(q: str) -> List[Document]:
-        dense_hits = dense.invoke(q)                       # v1 API
-        scores = bm25.get_scores(re.findall(r"\w+", q.lower()))
         top = np.argsort(scores)[-5:][::-1]
         bm25_hits = [docs[i] for i in top if scores[i] > 0]
-        seen = set()
-        return [d for d in dense_hits + bm25_hits if not (d.page_content in seen or seen.add(d.page_content))]
     return search
 search = atomic_retriever()
-# ---------- COMPANY GREETING ----------
 def company_greeting(company: str) -> str:
     if company == "ld events":
-        return "🎤 Hey there! Welcome to LD Events – your ultimate sound partner. How can we make your event unforgettable?"
     return "🛋️ Hello! Lamaki Designs here – ready to transform your space. What are you dreaming of?"
-# ---------- ZERO-HARDCODE REPLY ----------
 @lru_cache(maxsize=512)
 def smart_reply(text: str, user: str) -> str:
-    company = "ld events" if any(k in text.lower() for k in ["wedding","concert","live","stage","sound","ld events","speaker","line array","moving head","parcan","led screen","bronze","silver","gold","platinum"]) else "lamaki designs"
-    # 1. greeting
-    if any(k in text.lower() for k in ["hello","hi","hey","jambo"]):
         return company_greeting(company)
-    # 2. price / hire → atomic lines only
-    if any(k in text.lower() for k in ["price","cost","how much","hire","rate","quote"]):
         hits = search(text)
         if not hits:
             return "Which exact item or package would you like a quote for? (e.g. ‘line-array-top’ or ‘Silver-Package’)"
-        # inject live atomic lines
-        context = "\n".join(d.page_content for d in hits[:3])   # <-- FIXED
         prompt = (
             f"Using ONLY the lines below, answer in one short sentence. "
             f"Never invent prices. If the exact item is not listed, ask for clarification.\n\n"
-            f"Lines:\n{context}\n\n"
-            f"User: {text}\nAssistant:"
         )
         return fast_llm(prompt, max_new=40)
     # 3. generic chat
     prompt = (
         f"You are a lively Kenyan assistant for {company.title()}. "
-        f"Keep answers under 15 words, use emojis, no emails/phones.\n"
-        f"User: {text}\nAssistant:"
     )
     return fast_llm(prompt, max_new=30)
-# ---------- WEBHOOK ----------
 app = Flask(__name__)
 @app.post("/whatsapp")
 def whatsapp():
     if request.json.get("verify") != VERIFY_TOKEN:
         return jsonify(error="bad token"), 403
     user = request.json.get("from", "unknown")
-    msg  = request.json.get("text", "")
     save_msg(user, msg, "user")
-    ans  = smart_reply(msg, user)
     save_msg(user, ans, "assistant")
     return jsonify(reply=ans)
 @app.get("/")
 def health():
     return "ok\n"
 if __name__ == "__main__":
     app.run(host="0.0.0.0", port=7860, threaded=True)

 #!/usr/bin/env python3
+"""
+WhatsApp webhook + RAG chat-bot for LD-Events / Lamaki-Designs
+"""
+from __future__ import annotations
+import json
+import logging
 import os
 import pathlib
+import re
 from functools import lru_cache
 from typing import List, Optional
 from flask import Flask, request, jsonify
 from langchain_core.documents import Document
 from langchain_community.vectorstores import FAISS
+from langchain_huggingface import HuggingFaceEmbeddings  # <-- new package
 from rank_bm25 import BM25Okapi
 from supabase import create_client, Client
+# ---------- logging ----------
+logging.basicConfig(
+    level=logging.INFO,
+    format="%(asctime)s | %(levelname)s | %(message)s",
+    datefmt="%Y-%m-%d %H:%M:%S",
+)
 log = logging.getLogger("wa")
+# ---------- config ----------
+VERIFY_TOKEN = os.getenv("WEBHOOK_VERIFY", "123456")
+SUPABASE_URL = os.getenv("SUPABASE_URL")
+SUPABASE_KEY = os.getenv("SUPABASE_KEY")
+OLLAMA_MODEL = os.getenv("OLLAMA_MODEL", "tinyllama:1.1b-chat-q4_0")
+supabase: Optional[Client] = (
+    create_client(SUPABASE_URL, SUPABASE_KEY) if SUPABASE_URL else None
+)
+# ---------- embeddings ----------
+EMBED = HuggingFaceEmbeddings(
+    model_name="sentence-transformers/all-MiniLM-L6-v2",
+    model_kwargs={"device": "cpu"},
+    encode_kwargs={"normalize_embeddings": True},
+)
+# ---------- ollama client ----------
 ollama_client = ollama.Client(host="http://localhost:11434")
 @lru_cache(maxsize=512)
 def fast_llm(prompt: str, max_new: int = 60) -> str:
+    """Call local Ollama model with a short prompt."""
     try:
         resp = ollama_client.generate(
             model=OLLAMA_MODEL,
             prompt=prompt[-512:],
+            options={
+                "temperature": 0.2,
+                "num_predict": max_new,
+                "stop": ["\n", "User:", "Human:"],
+            },
         )
         return resp["response"].strip()
+    except Exception as exc:
+        log.warning("ollama error: %s", exc)
         return "Sorry, I am having trouble thinking right now."
+# ---------- chat memory ----------
 def get_last(user: str, n: int = 4) -> List[str]:
+    """Fetch last n messages for a user."""
     if not supabase:
         return []
     try:
+        rows = (
+            supabase.table("chat_memory")
+            .select("role,message")
+            .eq("user_phone", user)
+            .order("created_at", desc=True)
+            .limit(n)
+            .execute()
+            .data
+        )[::-1]
         return [f"{r['role']}: {r['message']}" for r in rows]
+    except Exception as exc:
+        log.warning("db read: %s", exc)
         return []
+def save_msg(user: str, text: str, role: str = "assistant") -> None:
+    """Persist a single message."""
+    if not supabase:
+        return
+    try:
+        supabase.table("chat_memory").insert(
+            {"user_phone": user, "role": role.lower(), "message": text}
+        ).execute()
+    except Exception as exc:
+        log.warning("db write: %s", exc)
+# ---------- atomic retriever ----------
 @lru_cache(maxsize=1)
 def atomic_retriever():
+    """Hybrid dense + BM25 retriever over price lines."""
+    docs: List[Document] = []
+    svc_file = pathlib.Path("services.txt")
+    if svc_file.exists():
+        for line in svc_file.read_text(encoding="utf-8").splitlines():
             line = line.strip()
+            if line and "KES" in line:
                 docs.append(Document(page_content=line))
+    if not docs:  # fallback
+        docs.append(
+            Document(page_content="LD Events handles events. Lamaki Designs handles interiors.")
+        )
     dense = FAISS.from_documents(docs, EMBED).as_retriever(search_kwargs={"k": 5})
     tokenized = [re.findall(r"\w+", d.page_content.lower()) for d in docs]
     bm25 = BM25Okapi(tokenized)
+    def search(query: str) -> List[Document]:
+        dense_hits = dense.invoke(query)
+        scores = bm25.get_scores(re.findall(r"\w+", query.lower()))
         top = np.argsort(scores)[-5:][::-1]
         bm25_hits = [docs[i] for i in top if scores[i] > 0]
+        seen, out = set(), []
+        for doc in dense_hits + bm25_hits:
+            if doc.page_content not in seen:
+                out.append(doc)
+                seen.add(doc.page_content)
+        return out
     return search
 search = atomic_retriever()
+# ---------- business logic ----------
 def company_greeting(company: str) -> str:
     if company == "ld events":
+        return (
+            "🎤 Hey there! Welcome to LD Events – your ultimate sound partner. "
+            "How can we make your event unforgettable?"
+        )
     return "🛋️ Hello! Lamaki Designs here – ready to transform your space. What are you dreaming of?"
 @lru_cache(maxsize=512)
 def smart_reply(text: str, user: str) -> str:
+    """Main reply logic."""
+    text_l = text.lower()
+    company = (
+        "ld events"
+        if any(
+            k in text_l
+            for k in [
+                "wedding",
+                "concert",
+                "live",
+                "stage",
+                "sound",
+                "ld events",
+                "speaker",
+                "line array",
+                "moving head",
+                "parcan",
+                "led screen",
+                "bronze",
+                "silver",
+                "gold",
+                "platinum",
+            ]
+        )
+        else "lamaki designs"
+    )
+    # 1. greetings
+    if any(k in text_l for k in ("hello", "hi", "hey", "jambo")):
         return company_greeting(company)
+    # 2. pricing
+    if any(k in text_l for k in ("price", "cost", "how much", "hire", "rate", "quote")):
         hits = search(text)
         if not hits:
             return "Which exact item or package would you like a quote for? (e.g. ‘line-array-top’ or ‘Silver-Package’)"
+        context = "\n".join(d.page_content for d in hits[:3])
         prompt = (
             f"Using ONLY the lines below, answer in one short sentence. "
             f"Never invent prices. If the exact item is not listed, ask for clarification.\n\n"
+            f"Lines:\n{context}\n\nUser: {text}\nAssistant:"
         )
         return fast_llm(prompt, max_new=40)
     # 3. generic chat
     prompt = (
         f"You are a lively Kenyan assistant for {company.title()}. "
+        f"Keep answers under 15 words, use emojis, no emails/phones.\nUser: {text}\nAssistant:"
     )
     return fast_llm(prompt, max_new=30)
+# ---------- web layer ----------
 app = Flask(__name__)
 @app.post("/whatsapp")
 def whatsapp():
+    """Webhook entry point."""
     if request.json.get("verify") != VERIFY_TOKEN:
         return jsonify(error="bad token"), 403
     user = request.json.get("from", "unknown")
+    msg = request.json.get("text", "").strip()
     save_msg(user, msg, "user")
+    ans = smart_reply(msg, user)
     save_msg(user, ans, "assistant")
     return jsonify(reply=ans)
 @app.get("/")
 def health():
     return "ok\n"
 if __name__ == "__main__":
+    # dev only – docker uses gunicorn
     app.run(host="0.0.0.0", port=7860, threaded=True)