Spaces:

lukedaca
/

Muj-chatbot

Sleeping

App Files Files Community

lukedaca commited on Dec 12, 2025

Commit

5efb96d

verified ·

1 Parent(s): 684c835

Update app.py

Browse files

Files changed (1) hide show

app.py +86 -48

app.py CHANGED Viewed

@@ -1,14 +1,12 @@
 import streamlit as st
 from huggingface_hub import hf_hub_download
 from llama_index.core import VectorStoreIndex, Settings
 from llama_index.core.memory import ChatMemoryBuffer
 from llama_index.llms.llama_cpp import LlamaCPP
-# Správný import pro web reader
 from llama_index.readers.web import SimpleWebPageReader
-# Lehký embedding bez torch/cuda
 from llama_index.embeddings.fastembed import FastEmbedEmbedding
@@ -16,7 +14,7 @@ from llama_index.embeddings.fastembed import FastEmbedEmbedding
 SYSTEM_PROMPT = """
 Jsi inteligentní český asistent, který pomáhá uživatelům hledat informace na zadaném webu.
 Tvé jméno je AI Rádce.
-Pokud se tě uživatel zeptá 'Co umíš?' nebo 'Kdo jsi?', odpověz:
 'Jsem AI Rádce. Umím prohledat obsah této webové stránky, najít v ní konkrétní informace a odpovědět na vaše otázky. Učím se z kontextu naší konverzace.'
 Pravidla pro tebe:
 1. Odpovídej vždy česky.
@@ -25,97 +23,137 @@ Pravidla pro tebe:
 4. Pamatuj si, co uživatel říkal v předchozích větách této konverzace.
 """.strip()
 st.set_page_config(page_title="AI Rádce s pamětí", layout="centered")
 st.title("🧠 Chytrý Chatbot (s pamětí)")
-# URL zdroje (můžete změnit)
-URLS = ["https://cs.wikipedia.org/wiki/Umělá_inteligence"]
-# HF repo s GGUF modelem
 MODEL_REPO = "QuantFactory/Meta-Llama-3-8B-Instruct-GGUF"
 MODEL_FILE = "Meta-Llama-3-8B-Instruct.Q4_K_M.gguf"
 @st.cache_resource
-def load_index_and_llm(urls_tuple: tuple[str, ...]) -> VectorStoreIndex:
-    """Načte model + vytvoří index. Cache je sdílená, ale BEZ paměti chatu."""
-    # 1) stáhnout GGUF do HF cache (rychlé při opakovaném buildu)
     model_path = hf_hub_download(repo_id=MODEL_REPO, filename=MODEL_FILE)
-    # 2) LLM (llama.cpp)
     llm = LlamaCPP(
         model_path=model_path,
         temperature=0.1,
-        max_new_tokens=512,
-        context_window=4096,
-        verbose=True,
     )
-    # 3) Nastavení pro LlamaIndex
     Settings.llm = llm
-    # FastEmbed = bez torch/cuda (důležité pro HF build)
     Settings.embed_model = FastEmbedEmbedding(model_name="BAAI/bge-small-en-v1.5")
-    # 4) Načtení dokumentů z webu + index
-    documents = SimpleWebPageReader(html_to_text=True).load_data(list(urls_tuple))
-    index = VectorStoreIndex.from_documents(documents)
     return index
-def get_chat_engine() -> object:
-    """Vytvoří ChatEngine s pamětí per session (paměť se necache-uje globálně)."""
-    index = load_index_and_llm(tuple(URLS))
-    # Paměť pro konkrétní session (nedáváme do cache_resource!)
-    memory = ChatMemoryBuffer.from_defaults(token_limit=3000)
     return index.as_chat_engine(
         chat_mode="context",
         memory=memory,
         system_prompt=SYSTEM_PROMPT,
-        verbose=True,
     )
-# Inicializace chat enginu do session_state
 if "chat_engine" not in st.session_state:
-    with st.spinner("Startuji mozek bota... (čekejte prosím)"):
         try:
-            st.session_state.chat_engine = get_chat_engine()
         except Exception as e:
             st.error(f"Chyba při inicializaci: {e}")
             st.stop()
-# Historie zpráv v UI
 if "messages" not in st.session_state:
     st.session_state.messages = []
-# Render historie
-for message in st.session_state.messages:
-    with st.chat_message(message["role"]):
-        st.markdown(message["content"])
-# Chat input
-if prompt := st.chat_input("Zeptej se (např: Co umíš?)..."):
-    # uložit user msg
     st.session_state.messages.append({"role": "user", "content": prompt})
     with st.chat_message("user"):
         st.markdown(prompt)
-    # odpověď asistenta
     with st.chat_message("assistant"):
         with st.spinner("Přemýšlím..."):
             try:
-                resp = st.session_state.chat_engine.chat(prompt)
-                # resp může být objekt; bezpečně vytáhneme text
-                answer = getattr(resp, "response", None) or str(resp)
-                st.markdown(answer)
-                st.session_state.messages.append({"role": "assistant", "content": answer})
             except Exception as e:
-                st.error(f"Chyba při generování odpovědi: {e}")

+import os
+import time
 import streamlit as st
 from huggingface_hub import hf_hub_download
 from llama_index.core import VectorStoreIndex, Settings
 from llama_index.core.memory import ChatMemoryBuffer
 from llama_index.llms.llama_cpp import LlamaCPP
 from llama_index.readers.web import SimpleWebPageReader
 from llama_index.embeddings.fastembed import FastEmbedEmbedding
 SYSTEM_PROMPT = """
 Jsi inteligentní český asistent, který pomáhá uživatelům hledat informace na zadaném webu.
 Tvé jméno je AI Rádce.
+Pokud se tě uživatel zeptá 'Co umíš?' nebo 'Kdo jsi?', odpověz:
 'Jsem AI Rádce. Umím prohledat obsah této webové stránky, najít v ní konkrétní informace a odpovědět na vaše otázky. Učím se z kontextu naší konverzace.'
 Pravidla pro tebe:
 1. Odpovídej vždy česky.
 4. Pamatuj si, co uživatel říkal v předchozích větách této konverzace.
 """.strip()
 st.set_page_config(page_title="AI Rádce s pamětí", layout="centered")
 st.title("🧠 Chytrý Chatbot (s pamětí)")
+# --- NASTAVENÍ ZDROJE DAT ---
+DEFAULT_URLS = ["https://cs.wikipedia.org/wiki/Umělá_inteligence"]
+# --- NASTAVENÍ MODELU (GGUF) ---
 MODEL_REPO = "QuantFactory/Meta-Llama-3-8B-Instruct-GGUF"
 MODEL_FILE = "Meta-Llama-3-8B-Instruct.Q4_K_M.gguf"
+# Sidebar: konfigurace
+with st.sidebar:
+    st.header("Nastavení")
+    urls_text = st.text_area(
+        "URL zdroje (1 URL na řádek)",
+        value="\n".join(DEFAULT_URLS),
+        height=110,
+    )
+    urls = [u.strip() for u in urls_text.splitlines() if u.strip()]
+    max_new_tokens = st.slider("Max nových tokenů (rychlost)", 32, 256, 128, 16)
+    context_window = st.select_slider("Context window", options=[1024, 2048, 3072, 4096], value=2048)
+    # Výkon: HF CPU typicky 2–4 jádra; víc často nepomůže
+    cpu_cnt = os.cpu_count() or 2
+    n_threads = st.slider("Počet vláken (threads)", 1, min(8, cpu_cnt), min(4, cpu_cnt), 1)
+    n_batch = st.select_slider("Batch", options=[64, 128, 256, 512], value=256)
+    if st.button("🧹 Resetovat konverzaci"):
+        st.session_state.pop("messages", None)
+        st.session_state.pop("chat_engine", None)
+        st.rerun()
 @st.cache_resource
+def load_index_and_llm(urls_tuple: tuple[str, ...], ctx_win: int, max_tok: int, threads: int, batch: int) -> VectorStoreIndex:
+    """
+    Načte model + vytvoří index. Cache je sdílená.
+    Paměť chatu NEcacheujeme (bude per-session).
+    """
+    # 1) stáhnout GGUF do HF cache
     model_path = hf_hub_download(repo_id=MODEL_REPO, filename=MODEL_FILE)
+    # 2) LLM (llama.cpp) – parametry pro rychlost na CPU
     llm = LlamaCPP(
         model_path=model_path,
         temperature=0.1,
+        max_new_tokens=max_tok,
+        context_window=ctx_win,
+        n_threads=threads,
+        n_batch=batch,
+        verbose=False,
     )
+    # 3) Nastavení LlamaIndex
     Settings.llm = llm
     Settings.embed_model = FastEmbedEmbedding(model_name="BAAI/bge-small-en-v1.5")
+    # 4) Data z webu + index
+    docs = SimpleWebPageReader(html_to_text=True).load_data(list(urls_tuple))
+    index = VectorStoreIndex.from_documents(docs)
     return index
+def make_chat_engine() -> object:
+    """Vytvoří chat engine s pamětí pro konkrétní session."""
+    index = load_index_and_llm(tuple(urls), context_window, max_new_tokens, n_threads, n_batch)
+    memory = ChatMemoryBuffer.from_defaults(token_limit=min(3000, context_window))
     return index.as_chat_engine(
         chat_mode="context",
         memory=memory,
         system_prompt=SYSTEM_PROMPT,
+        verbose=False,
     )
+# Inicializace enginu
 if "chat_engine" not in st.session_state:
+    with st.spinner("Startuji mozek bota... (načítám model a web)"):
         try:
+            st.session_state.chat_engine = make_chat_engine()
         except Exception as e:
             st.error(f"Chyba při inicializaci: {e}")
             st.stop()
+# Historie zpráv
 if "messages" not in st.session_state:
     st.session_state.messages = []
+for msg in st.session_state.messages:
+    with st.chat_message(msg["role"]):
+        st.markdown(msg["content"])
+# --- CHAT LOOP (se streamováním) ---
+prompt = st.chat_input("Zeptej se (např: Co umíš?)...")
+if prompt:
+    # user message
     st.session_state.messages.append({"role": "user", "content": prompt})
     with st.chat_message("user"):
         st.markdown(prompt)
+    # assistant streaming response
     with st.chat_message("assistant"):
+        placeholder = st.empty()
+        full = ""
+        started = time.time()
         with st.spinner("Přemýšlím..."):
             try:
+                stream = st.session_state.chat_engine.stream_chat(prompt)
+                # stream.response_gen generuje text po částech
+                for chunk in stream.response_gen:
+                    full += chunk
+                    placeholder.markdown(full)
+                # kdyby stream nevrátil nic (edge-case), aspoň něco
+                if not full.strip():
+                    full = getattr(stream, "response", None) or "Omlouvám se, nedostal jsem žádná data k odpovědi."
+                    placeholder.markdown(full)
             except Exception as e:
+                full = f"Chyba při generování odpovědi: {e}"
+                placeholder.markdown(full)
+        elapsed = time.time() - started
+        st.caption(f"Hotovo za {elapsed:.1f}s")
+    st.session_state.messages.append({"role": "assistant", "content": full})