Spaces:

lukedaca
/

Muj-chatbot

Sleeping

App Files Files Community

lukedaca commited on Dec 12, 2025

Commit

2cf03e3

verified ·

1 Parent(s): ea1c860

Update app.py

Browse files

Files changed (1) hide show

app.py +56 -40

app.py CHANGED Viewed

@@ -10,7 +10,6 @@ from llama_index.readers.web import SimpleWebPageReader
 from llama_index.embeddings.fastembed import FastEmbedEmbedding
-# --- KONFIGURACE OSOBNOSTI BOTA ---
 SYSTEM_PROMPT = """
 Jsi inteligentní český asistent, který pomáhá uživatelům hledat informace na zadaném webu.
 Tvé jméno je AI Rádce.
@@ -23,20 +22,19 @@ Pravidla pro tebe:
 4. Pamatuj si, co uživatel říkal v předchozích větách této konverzace.
 """.strip()
 st.set_page_config(page_title="AI Rádce s pamětí", layout="centered")
 st.title("🧠 Chytrý Chatbot (s pamětí)")
-# --- NASTAVENÍ ZDROJE DAT ---
 DEFAULT_URLS = ["https://cs.wikipedia.org/wiki/Umělá_inteligence"]
-# --- NASTAVENÍ MODELU (GGUF) ---
 MODEL_REPO = "QuantFactory/Meta-Llama-3-8B-Instruct-GGUF"
 MODEL_FILE = "Meta-Llama-3-8B-Instruct.Q4_K_M.gguf"
-# Sidebar: konfigurace
 with st.sidebar:
     st.header("Nastavení")
     urls_text = st.text_area(
         "URL zdroje (1 URL na řádek)",
         value="\n".join(DEFAULT_URLS),
@@ -47,10 +45,9 @@ with st.sidebar:
     max_new_tokens = st.slider("Max nových tokenů (rychlost)", 32, 256, 128, 16)
     context_window = st.select_slider("Context window", options=[1024, 2048, 3072, 4096], value=2048)
-    # Výkon: HF CPU typicky 2–4 jádra; víc často nepomůže
     cpu_cnt = os.cpu_count() or 2
-    n_threads = st.slider("Počet vláken (threads)", 1, min(8, cpu_cnt), min(4, cpu_cnt), 1)
-    n_batch = st.select_slider("Batch", options=[64, 128, 256, 512], value=256)
     if st.button("🧹 Resetovat konverzaci"):
         st.session_state.pop("messages", None)
@@ -58,39 +55,65 @@ with st.sidebar:
         st.rerun()
-@st.cache_resource
-def load_index_and_llm(urls_tuple: tuple[str, ...], ctx_win: int, max_tok: int, threads: int, batch: int) -> VectorStoreIndex:
     """
-    Načte model + vytvoří index. Cache je sdílená.
-    Paměť chatu NEcacheujeme (bude per-session).
     """
-    # 1) stáhnout GGUF do HF cache
     model_path = hf_hub_download(repo_id=MODEL_REPO, filename=MODEL_FILE)
-    # 2) LLM (llama.cpp) – parametry pro rychlost na CPU
-    llm = LlamaCPP(
-        model_path=model_path,
-        temperature=0.1,
-        max_new_tokens=max_tok,
-        context_window=ctx_win,
-        n_threads=threads,
-        n_batch=batch,
-        verbose=False,
-    )
-    # 3) Nastavení LlamaIndex
     Settings.llm = llm
     Settings.embed_model = FastEmbedEmbedding(model_name="BAAI/bge-small-en-v1.5")
-    # 4) Data z webu + index
     docs = SimpleWebPageReader(html_to_text=True).load_data(list(urls_tuple))
-    index = VectorStoreIndex.from_documents(docs)
-    return index
 def make_chat_engine() -> object:
-    """Vytvoří chat engine s pamětí pro konkrétní session."""
-    index = load_index_and_llm(tuple(urls), context_window, max_new_tokens, n_threads, n_batch)
     memory = ChatMemoryBuffer.from_defaults(token_limit=min(3000, context_window))
     return index.as_chat_engine(
@@ -101,7 +124,6 @@ def make_chat_engine() -> object:
     )
-# Inicializace enginu
 if "chat_engine" not in st.session_state:
     with st.spinner("Startuji mozek bota... (načítám model a web)"):
         try:
@@ -110,7 +132,7 @@ if "chat_engine" not in st.session_state:
             st.error(f"Chyba při inicializaci: {e}")
             st.stop()
-# Historie zpráv
 if "messages" not in st.session_state:
     st.session_state.messages = []
@@ -119,41 +141,35 @@ for msg in st.session_state.messages:
         st.markdown(msg["content"])
-# --- CHAT LOOP (se streamováním) ---
 prompt = st.chat_input("Zeptej se (např: Co umíš?)...")
 if prompt:
-    # user message
     st.session_state.messages.append({"role": "user", "content": prompt})
     with st.chat_message("user"):
         st.markdown(prompt)
-    # assistant streaming response
     with st.chat_message("assistant"):
         placeholder = st.empty()
         full = ""
-        started = time.time()
         with st.spinner("Přemýšlím..."):
             try:
                 stream = st.session_state.chat_engine.stream_chat(prompt)
-                # stream.response_gen generuje text po částech
                 for chunk in stream.response_gen:
                     full += chunk
                     placeholder.markdown(full)
-                # kdyby stream nevrátil nic (edge-case), aspoň něco
                 if not full.strip():
-                    full = getattr(stream, "response", None) or "Omlouvám se, nedostal jsem žádná data k odpovědi."
                     placeholder.markdown(full)
             except Exception as e:
                 full = f"Chyba při generování odpovědi: {e}"
                 placeholder.markdown(full)
-        elapsed = time.time() - started
-        st.caption(f"Hotovo za {elapsed:.1f}s")
     st.session_state.messages.append({"role": "assistant", "content": full})

 from llama_index.embeddings.fastembed import FastEmbedEmbedding
 SYSTEM_PROMPT = """
 Jsi inteligentní český asistent, který pomáhá uživatelům hledat informace na zadaném webu.
 Tvé jméno je AI Rádce.
 4. Pamatuj si, co uživatel říkal v předchozích větách této konverzace.
 """.strip()
 st.set_page_config(page_title="AI Rádce s pamětí", layout="centered")
 st.title("🧠 Chytrý Chatbot (s pamětí)")
 DEFAULT_URLS = ["https://cs.wikipedia.org/wiki/Umělá_inteligence"]
 MODEL_REPO = "QuantFactory/Meta-Llama-3-8B-Instruct-GGUF"
 MODEL_FILE = "Meta-Llama-3-8B-Instruct.Q4_K_M.gguf"
 with st.sidebar:
     st.header("Nastavení")
     urls_text = st.text_area(
         "URL zdroje (1 URL na řádek)",
         value="\n".join(DEFAULT_URLS),
     max_new_tokens = st.slider("Max nových tokenů (rychlost)", 32, 256, 128, 16)
     context_window = st.select_slider("Context window", options=[1024, 2048, 3072, 4096], value=2048)
     cpu_cnt = os.cpu_count() or 2
+    threads = st.slider("Počet vláken (threads)", 1, min(8, cpu_cnt), min(4, cpu_cnt), 1)
+    batch = st.select_slider("Batch", options=[64, 128, 256, 512], value=256)
     if st.button("🧹 Resetovat konverzaci"):
         st.session_state.pop("messages", None)
         st.rerun()
+def create_llm(model_path: str, ctx_win: int, max_tok: int, n_threads: int, n_batch: int) -> LlamaCPP:
     """
+    Kompatibilní konstrukce LlamaCPP napříč verzemi llama-index.
+    Některé verze nepřijímají n_threads/n_batch přímo, ale jen přes model_kwargs.
     """
+    # 1) zkusit přímé parametry (novější/verze dle wrapperu)
+    try:
+        return LlamaCPP(
+            model_path=model_path,
+            temperature=0.1,
+            max_new_tokens=max_tok,
+            context_window=ctx_win,
+            n_threads=n_threads,
+            n_batch=n_batch,
+            verbose=False,
+        )
+    except TypeError:
+        pass
+    # 2) fallback přes model_kwargs (časté u LlamaIndex wrapperu)
+    try:
+        return LlamaCPP(
+            model_path=model_path,
+            temperature=0.1,
+            max_new_tokens=max_tok,
+            context_window=ctx_win,
+            model_kwargs={"n_threads": n_threads, "n_batch": n_batch},
+            verbose=False,
+        )
+    except TypeError:
+        # 3) poslední fallback – jen threads (někdy n_batch není podporovaný)
+        return LlamaCPP(
+            model_path=model_path,
+            temperature=0.1,
+            max_new_tokens=max_tok,
+            context_window=ctx_win,
+            model_kwargs={"n_threads": n_threads},
+            verbose=False,
+        )
+@st.cache_resource
+def load_index_and_settings(urls_tuple: tuple[str, ...], ctx_win: int, max_tok: int, n_threads: int, n_batch: int) -> VectorStoreIndex:
+    # stáhnout GGUF do HF cache
     model_path = hf_hub_download(repo_id=MODEL_REPO, filename=MODEL_FILE)
+    llm = create_llm(model_path, ctx_win, max_tok, n_threads, n_batch)
     Settings.llm = llm
     Settings.embed_model = FastEmbedEmbedding(model_name="BAAI/bge-small-en-v1.5")
     docs = SimpleWebPageReader(html_to_text=True).load_data(list(urls_tuple))
+    return VectorStoreIndex.from_documents(docs)
 def make_chat_engine() -> object:
+    index = load_index_and_settings(tuple(urls), context_window, max_new_tokens, threads, batch)
+    # paměť per-session (NEcacheovat)
     memory = ChatMemoryBuffer.from_defaults(token_limit=min(3000, context_window))
     return index.as_chat_engine(
     )
 if "chat_engine" not in st.session_state:
     with st.spinner("Startuji mozek bota... (načítám model a web)"):
         try:
             st.error(f"Chyba při inicializaci: {e}")
             st.stop()
 if "messages" not in st.session_state:
     st.session_state.messages = []
         st.markdown(msg["content"])
 prompt = st.chat_input("Zeptej se (např: Co umíš?)...")
 if prompt:
     st.session_state.messages.append({"role": "user", "content": prompt})
     with st.chat_message("user"):
         st.markdown(prompt)
     with st.chat_message("assistant"):
         placeholder = st.empty()
         full = ""
+        t0 = time.time()
         with st.spinner("Přemýšlím..."):
             try:
                 stream = st.session_state.chat_engine.stream_chat(prompt)
                 for chunk in stream.response_gen:
                     full += chunk
                     placeholder.markdown(full)
                 if not full.strip():
+                    full = getattr(stream, "response", None) or "Nedostal jsem žádná data k odpovědi."
                     placeholder.markdown(full)
             except Exception as e:
                 full = f"Chyba při generování odpovědi: {e}"
                 placeholder.markdown(full)
+        st.caption(f"Hotovo za {time.time() - t0:.1f}s")
     st.session_state.messages.append({"role": "assistant", "content": full})