Spaces:

Nguyen5
/

chatbot

Sleeping

App Files Files Community

Nguyen5 commited on Dec 4, 2025

Commit

93b6370

1 Parent(s): f066900

commit

Browse files

Files changed (2) hide show

app.py +129 -172
rag_pipeline.py +91 -96

app.py CHANGED Viewed

@@ -1,212 +1,169 @@
-# app.py – Prüfungsrechts-Chatbot (RAG + Sprachmodus)
-# Version 26.11 – ohne Modi, stabil für Text + Voice
-import gradio as gr
-from gradio_pdf import PDF
-from huggingface_hub import hf_hub_download
-from load_documents import load_documents, DATASET, PDF_FILE, HTML_FILE
-from split_documents import split_documents
-from vectorstore import build_vectorstore
-from retriever import get_retriever
-from llm import load_llm
-from rag_pipeline import answer, PDF_BASE_URL, LAW_URL
-from speech_io import transcribe_audio, synthesize_speech
-# =====================================================
-# INITIALISIERUNG (global)
-# =====================================================
-print("🔹 Lade Dokumente ...")
-_docs = load_documents()
-print("🔹 Splitte Dokumente ...")
-_chunks = split_documents(_docs)
-print("🔹 Baue VectorStore (FAISS) ...")
-_vs = build_vectorstore(_chunks)
-print("🔹 Erzeuge Retriever ...")
-_retriever = get_retriever(_vs)
-print("🔹 Lade LLM ...")
-_llm = load_llm()
-print("🔹 Lade Dateien für Viewer …")
-_pdf_path = hf_hub_download(DATASET, PDF_FILE, repo_type="dataset")
-_html_path = hf_hub_download(DATASET, HTML_FILE, repo_type="dataset")
-# =====================================================
-# Quellen formatieren – Markdown für Chat
-# =====================================================
-def format_sources_markdown(sources):
-    if not sources:
-        return ""
-    lines = ["", "**📚 Quellen (genutzte Dokumentstellen):**"]
-    for s in sources:
-        sid = s["id"]
-        src = s["source"]
-        page = s["page"]
-        url = s["url"]
-        snippet = s["snippet"]
-        title = f"Quelle {sid} – {src}"
-        if url:
-            base = f"- [{title}]({url})"
-        else:
-            base = f"- {title}"
-        if page and "Prüfungsordnung" in src:
-            base += f", Seite {page}"
-        lines.append(base)
-        if snippet:
-            lines.append(f"  > {snippet}")
-    return "\n".join(lines)
-# =====================================================
-# TEXT CHATBOT
-# =====================================================
-def chatbot_text(user_message, history):
-    if not user_message:
-        return history, ""
-    answer_text, sources = answer(
-        question=user_message,
-        retriever=_retriever,
-        chat_model=_llm,
-    )
-    quellen_block = format_sources_markdown(sources)
-    history = history + [
-        {"role": "user", "content": user_message},
-        {"role": "assistant", "content": answer_text + quellen_block},
-    ]
-    return history, ""
-# =====================================================
-# VOICE CHATBOT
-# =====================================================
-def chatbot_voice(audio_path, history):
-    # 1. Speech → Text
-    text = transcribe_audio(audio_path)
-    if not text:
-        return history, None, ""
-    # Lưu vào lịch sử chat
-    history = history + [{"role": "user", "content": text}]
-    # 2. RAG trả lời
-    answer_text, sources = answer(
-        question=text,
-        retriever=_retriever,
-        chat_model=_llm,
-    )
-    quellen_block = format_sources_markdown(sources)
-    bot_msg = answer_text + quellen_block
-    history = history + [{"role": "assistant", "content": bot_msg}]
-    # 3. Text → Speech
-    audio = synthesize_speech(bot_msg)
-    return history, audio, ""
-# =====================================================
-# LAST ANSWER → TTS
-# =====================================================
-def read_last_answer(history):
-    if not history:
-        return None
-    for msg in reversed(history):
-        if msg["role"] == "assistant":
-            return synthesize_speech(msg["content"])
-    return None
-# =====================================================
-# UI – GRADIO
-# =====================================================
-with gr.Blocks(title="Prüfungsrechts-Chatbot (RAG + Sprache)") as demo:
-    gr.Markdown("# 🧑‍⚖️ Prüfungsrechts-Chatbot")
-    gr.Markdown(
-        "Dieser Chatbot beantwortet Fragen **ausschließlich** aus der "
-        "Prüfungsordnung (PDF) und dem Hochschulgesetz NRW (Website). "
-        "Du kannst Text eingeben oder direkt ins Mikrofon sprechen."
-    )
-    with gr.Row():
-        with gr.Column(scale=2):
-            chatbot = gr.Chatbot(label="Chat", height=500)
-            msg = gr.Textbox(
-                label="Frage eingeben",
-                placeholder="Stelle deine Frage zum Prüfungsrecht …",
-            )
-            # TEXT SENDEN
-            msg.submit(
-                chatbot_text,
-                [msg, chatbot],
-                [chatbot, msg]
-            )
-            send_btn = gr.Button("Senden (Text)")
-            send_btn.click(
-                chatbot_text,
-                [msg, chatbot],
-                [chatbot, msg]
-            )
-            # SPRACHEINGABE
-            gr.Markdown("### 🎙️ Spracheingabe")
-            voice_in = gr.Audio(sources=["microphone"], type="filepath")
-            voice_out = gr.Audio(label="Vorgelesene Antwort", type="numpy")
-            voice_btn = gr.Button("Sprechen & senden")
-            voice_btn.click(
-                chatbot_voice,
-                [voice_in, chatbot],
-                [chatbot, voice_out, msg]
-            )
-            read_btn = gr.Button("🔁 Antwort erneut vorlesen")
-            read_btn.click(
-                read_last_answer,
-                [chatbot],
-                [voice_out]
-            )
-            clear_btn = gr.Button("Chat zurücksetzen")
-            clear_btn.click(lambda: [], None, chatbot)
-        # =====================
-        # RECHTE SPALTE: Viewer
-        # =====================
-        with gr.Column(scale=1):
-            gr.Markdown("### 📄 Prüfungsordnung (PDF)")
-            PDF(_pdf_path, height=350)
-            gr.Markdown("### 📘 Hochschulgesetz NRW (Website)")
-            gr.HTML(
-                f'<iframe src="{LAW_URL}" style="width:100%;height:350px;border:none;"></iframe>'
-            )
 if __name__ == "__main__":
-    demo.queue().launch(ssr_mode=False, show_error=True)

+"""
+load_documents.py – Improved Clean Version
+------------------------------------------
+Lädt:
+1) Prüfungsordnung (PDF) seitenweise.
+2) Hochschulgesetz NRW aus generierter HTML-Datei
+   (hg_clean.html oder Hochschulgesetz_NRW.html)
+   und erzeugt pro Absatz (<p>) ein Document.
+Verbesserungen:
+- Keine HTML-Rohartefakte
+- Kein Abbrechen in der Mitte von Sätzen
+- Entfernt doppelte Leerzeichen
+- metadata.paragraph_id wird sauber übernommen
+"""
+from huggingface_hub import hf_hub_download, list_repo_files
+from langchain_community.document_loaders import PyPDFLoader
+from langchain_core.documents import Document
+from bs4 import BeautifulSoup
+DATASET = "Nguyen5/docs"
+PDF_FILE = "f10_bpo_ifb_tei_mif_wii_2021-01-04.pdf"
+HTML_FILE = "Hochschulgesetz_NRW.html"  # stored inside dataset
+# ================================================================
+# Hilfsfunktion: lädt HG-Absätze sauber & robust
+# ================================================================
+def _load_hg_paragraph_documents(html_path: str):
+    """
+    Liest Hochschulgesetz NRW HTML ein und erzeugt pro <p>-Tag ein Document.
+    Verbesserungen:
+    - Entfernt doppelte Leerzeichen -> " ".join(text.split())
+    - Entfernt leere Texte
+    - Übernimmt paragraph_id (id="hg_abs_12" oder id="para_12")
+    """
+    with open(html_path, "r", encoding="utf-8") as f:
+        html = f.read()
+    soup = BeautifulSoup(html, "html.parser")
+    docs = []
+    for p in soup.find_all("p"):
+        text = p.get_text(" ", strip=True)
+        if not text:
+            continue
+        # normalize whitespace
+        text = " ".join(text.split())
+        paragraph_id = p.get("id")
+        metadata = {
+            "source": "Hochschulgesetz NRW (HTML)",
+            "filename": HTML_FILE,
+        }
+        if paragraph_id:
+            metadata["paragraph_id"] = paragraph_id
+        docs.append(
+            Document(
+                page_content=text,
+                metadata=metadata
+            )
+        )
+    print(f"[HG] Loaded {len(docs)} paragraph Documents.\n")
+    return docs
+# ================================================================
+# Hauptfunktion: lädt PDF + HG-HTML
+# ================================================================
+def load_documents():
+    print("\n=== START: load_documents() ===\n")
+    docs = []
+    # ------------------------------------------------------------
+    # 1) Dateien prüfen
+    # ------------------------------------------------------------
+    print(">>> Checking dataset on HuggingFace ...")
+    files = list_repo_files(DATASET, repo_type="dataset")
+    print("Files found:", files, "\n")
+    # ------------------------------------------------------------
+    # 2) PDF laden
+    # ------------------------------------------------------------
+    print(">>> Downloading Prüfungsordnung PDF ...")
+    try:
+        pdf_path = hf_hub_download(
+            repo_id=DATASET,
+            filename=PDF_FILE,
+            repo_type="dataset",
+        )
+        print(f"PDF downloaded:\n{pdf_path}\n")
+    except Exception as e:
+        print("ERROR downloading PDF:", e)
+        return []
+    print(">>> Loading PDF pages ...")
+    try:
+        pdf_docs = PyPDFLoader(pdf_path).load()
+    except Exception as e:
+        print("ERROR loading PDF:", e)
+        return []
+    print(f"Loaded {len(pdf_docs)} PDF pages.\n")
+    # metadata ergänzen
+    for d in pdf_docs:
+        d.metadata["source"] = "Prüfungsordnung (PDF)"
+        d.metadata["filename"] = PDF_FILE
+    docs.extend(pdf_docs)
+    # ------------------------------------------------------------
+    # 3) HTML laden
+    # ------------------------------------------------------------
+    print(">>> Downloading Hochschulgesetz HTML ...")
+    try:
+        html_path = hf_hub_download(
+            repo_id=DATASET,
+            filename=HTML_FILE,
+            repo_type="dataset",
+        )
+        print(f"HTML downloaded:\n{html_path}\n")
+    except Exception as e:
+        print("ERROR downloading HTML:", e)
+        return docs  # PDF at least loaded
+    print(">>> Parsing HG HTML into paragraphs ...")
+    try:
+        html_docs = _load_hg_paragraph_documents(html_path)
+    except Exception as e:
+        print("ERROR parsing HTML:", e)
+        return docs
+    docs.extend(html_docs)
+    print(f"=== DONE: load_documents() → total {len(docs)} documents ===\n")
+    return docs
+# ================================================================
+# Debug
+# ================================================================
 if __name__ == "__main__":
+    print("\n=== Running load_documents.py ===\n")
+    documents = load_documents()
+    print(f"\n>>> TOTAL documents loaded: {len(documents)}")
+    if len(documents):
+        print("\nExample Document:")
+        print(documents[0].page_content[:300])
+        print("Metadata:", documents[0].metadata)

rag_pipeline.py CHANGED Viewed

@@ -1,22 +1,27 @@
-"""
-RAG PIPELINE – Version 26.11 (ohne Modi, stabil, juristisch korrekt)
-"""
 from typing import List, Dict, Any, Tuple
 from langchain_core.messages import SystemMessage, HumanMessage
-from load_documents import DATASET, PDF_FILE, HTML_FILE
-# -------------------------------------------------------------------
 # URLs für Quellen
-# -------------------------------------------------------------------
-# Direktes PDF im Dataset (für #page)
-PDF_BASE_URL = f"https://huggingface.co/datasets/{DATASET}/resolve/main/{PDF_FILE}"
-# Hochschulgesetz-HTML im Dataset (enthält <p id="hg_abs_X"> …)
-LAW_DATASET_URL = f"https://huggingface.co/datasets/{DATASET}/resolve/main/{HTML_FILE}"
-# Offizielle Recht.NRW-Druckversion (für Viewer im Frontend)
 LAW_URL = (
     "https://recht.nrw.de/lmi/owa/br_bes_text?"
     "print=1&anw_nr=2&gld_nr=2&ugl_nr=221&val=28364&ver=0&"
@@ -25,68 +30,70 @@ LAW_URL = (
 MAX_CHARS = 900
-# -----------------------------
-# Quellen formatieren
-# -----------------------------
 def build_sources_metadata(docs: List) -> List[Dict[str, Any]]:
     """
-    Erzeugt eine Liste strukturierter Quellen-Infos:
-    [
-      {
-        "id": 1,
-        "source": "Prüfungsordnung (PDF)" / "Hochschulgesetz NRW (HTML)",
-        "page": 3,          # nur bei PDF
-        "url": "...",       # direkter Klick-Link
-        "snippet": "Erste 300 Zeichen des Chunks..."
-      },
-      ...
-    ]
     """
     srcs = []
     for i, d in enumerate(docs):
         meta = d.metadata
-        src = meta.get("source", "")
         page = meta.get("page")
         snippet = d.page_content[:300].replace("\n", " ")
-        # PDF-Link
-        if "Prüfungsordnung" in src:
             if isinstance(page, int):
-                # PyPDFLoader: page ist 0-basiert, Anzeige 1-basiert
                 url = f"{PDF_BASE_URL}#page={page + 1}"
             else:
                 url = PDF_BASE_URL
-        # NRW-Gesetz (HTML im Dataset mit Absatz-IDs)
-        elif "Hochschulgesetz" in src:
             para_id = meta.get("paragraph_id")
             if para_id:
-                # Klick führt direkt zum Absatz im Dataset-HTML
-                url = f"{LAW_DATASET_URL}#{para_id}"
             else:
-                # Fallback: offizielle Druckversion (ohne Absatz-Anker)
                 url = LAW_URL
-            page = None  # keine Seitenangabe für Gesetz-HTML
         else:
-            url = None
         srcs.append(
             {
                 "id": i + 1,
-                "source": src,
                 "page": page + 1 if isinstance(page, int) else None,
                 "url": url,
                 "snippet": snippet,
             }
         )
     return srcs
-# -----------------------------
-# Kontext formatieren
-# -----------------------------
 def format_context(docs):
     if not docs:
@@ -94,7 +101,7 @@ def format_context(docs):
     out = []
     for i, d in enumerate(docs):
-        txt = d.page_content[:MAX_CHARS]
         src = d.metadata.get("source")
         page = d.metadata.get("page")
@@ -107,62 +114,48 @@ def format_context(docs):
     return "\n\n".join(out)
-# -----------------------------
-# Systemprompt — verschärft
-# -----------------------------
-SYSTEM_PROMPT = """
-Du bist ein hochpräziser juristischer Chatbot für Prüfungsrecht
-mit Zugriff nur auf:
-- die Prüfungsordnung (als PDF) und
-- das Hochschulgesetz NRW (als HTML aus der offiziellen Druckversion).
-Strenge Regeln:
-1. Antworte ausschließlich anhand des bereitgestellten Kontextes
-   (KONTEXT-Abschnitte). Wenn die Information nicht im Kontext steht,
-   sage ausdrücklich, dass dies aus den vorliegenden Dokumenten nicht
-   hervorgeht und du dazu nichts Sicheres sagen kannst.
-2.
-   Keine Spekulationen, keine Vermutungen.
-3. Antworte in zusammenhängenden, ganzen Sätzen. Verwende keine Mischung aus Deutsch und Englisch.
-4. Nenne, soweit aus dem Kontext erkennbar,
-   - die rechtliche Grundlage (z.B. Paragraph, Artikel),
-   - das Dokument (Prüfungsordnung / Hochschulgesetz NRW),
-   - die Seite (bei der Prüfungsordnung), wenn im Kontext vorhanden.
-5. Füge KEINE externen Informationen hinzu, z.B. aus anderen Gesetzen,
-   Webseiten oder allgemeinem Wissen. Nur das, was im Kontext steht,
-   darf in der Antwort verwendet werden.
-Wenn der Kontext keine eindeutige Antwort zulässt, erkläre klar,
-warum keine sichere Antwort möglich ist und welche Informationen
-im Dokument fehlen.
 """
-# -----------------------------
-# Hauptfunktion
-# -----------------------------
 def answer(question: str, retriever, chat_model) -> Tuple[str, List[Dict[str, Any]]]:
     """
-    Haupt-RAG-Funktion:
-    - ruft retriever.invoke(question) auf,
-    - baut einen präzisen Prompt mit KONTEXT,
-    - ruft LLM auf,
-    - gibt Antworttext + Quellenliste zurück.
     """
-    # 1. Dokumente holen
     docs = retriever.invoke(question)
     context_str = format_context(docs)
-    # 2. Prompt bauen
-    human = f"""
 FRAGE:
 {question}
@@ -170,25 +163,27 @@ NUTZE AUSSCHLIESSLICH DIESEN KONTEXT:
 {context_str}
 AUFGABE:
-Formuliere eine juristisch korrekte, gut verständliche Antwort
-ausschließlich anhand des obigen Kontextes.
-- Wenn der Kontext aus den Dokumenten eine klare Antwort erlaubt,
-  erläutere diese strukturiert und in vollständigen Sätzen.
-- Wenn der Kontext KEINE klare Antwort erlaubt oder wichtige Informationen
-  fehlen, erkläre das offen und formuliere KEINE Vermutung.
 """
     msgs = [
         SystemMessage(content=SYSTEM_PROMPT),
-        HumanMessage(content=human),
     ]
-    # 3. LLM aufrufen
     result = chat_model.invoke(msgs)
     answer_text = result.content.strip()
-    # 4. Quellenliste bauen
     sources = build_sources_metadata(docs)
     return answer_text, sources

+# rag_pipeline.py – fixed viewer-links, improved prompt, no sentence cutoff
 from typing import List, Dict, Any, Tuple
 from langchain_core.messages import SystemMessage, HumanMessage
+from load_documents import DATASET, PDF_FILE
+import os
+# ==========================================================
 # URLs für Quellen
+# ==========================================================
+SUPABASE_URL = os.environ["SUPABASE_URL"]
+# PDF direkt aus HuggingFace Dataset
+PDF_BASE_URL = (
+    f"https://huggingface.co/datasets/{DATASET}/resolve/main/{PDF_FILE}"
+)
+# Neuer HTML-Viewer aus Supabase Storage
+HG_VIEWER_BASE = (
+    f"{SUPABASE_URL}/storage/v1/object/public/hg_viewer/hg_clean.html"
+)
+# Offizielle Recht.NRW Druckversion (Fallback)
 LAW_URL = (
     "https://recht.nrw.de/lmi/owa/br_bes_text?"
     "print=1&anw_nr=2&gld_nr=2&ugl_nr=221&val=28364&ver=0&"
 MAX_CHARS = 900
+# ==========================================================
+# Quellen formatieren – NEW, CLEAN, CORRECT
+# ==========================================================
 def build_sources_metadata(docs: List) -> List[Dict[str, Any]]:
     """
+    Baut Liste aller Quellen:
+    - PDF → #page=<num>
+    - Hochschulgesetz NRW → đúng đoạn trong Supabase Viewer (#para_x)
+    - snippet 300 ký tự
     """
     srcs = []
     for i, d in enumerate(docs):
         meta = d.metadata
+        src_name = meta.get("source", "")
         page = meta.get("page")
         snippet = d.page_content[:300].replace("\n", " ")
+        # ------------------------------------------------------
+        # 1) PDF PrüFUNGSORDNUNG
+        # ------------------------------------------------------
+        if "Prüfungsordnung" in src_name:
             if isinstance(page, int):
                 url = f"{PDF_BASE_URL}#page={page + 1}"
             else:
                 url = PDF_BASE_URL
+        # ------------------------------------------------------
+        # 2) Hochschulgesetz NRW (HTML) → Supabase Viewer
+        # ------------------------------------------------------
+        elif "Hochschulgesetz" in src_name:
             para_id = meta.get("paragraph_id")
             if para_id:
+                url = f"{HG_VIEWER_BASE}#{para_id}"
             else:
                 url = LAW_URL
+            page = None  # Gesetz không có page
+        # ------------------------------------------------------
+        # 3) Unknown
+        # ------------------------------------------------------
         else:
+            url = ""
         srcs.append(
             {
                 "id": i + 1,
+                "source": src_name,
                 "page": page + 1 if isinstance(page, int) else None,
                 "url": url,
                 "snippet": snippet,
             }
         )
     return srcs
+# ==========================================================
+# Kontext formatieren – KHÔNG CẮT CÂU, KHÔNG RÁC
+# ==========================================================
 def format_context(docs):
     if not docs:
     out = []
     for i, d in enumerate(docs):
+        txt = d.page_content[:MAX_CHARS].rstrip(" .,;\n")
         src = d.metadata.get("source")
         page = d.metadata.get("page")
     return "\n\n".join(out)
+# ==========================================================
+# Neuer, professioneller, không ngắt câu SYSTEM PROMPT
+# ==========================================================
+SYSTEM_PROMPT = """
+Du bist ein präziser, professioneller juristischer Chatbot für Prüfungsrecht.
+Du beantwortest Fragen ausschließlich anhand der bereitgestellten
+Kontextstellen (KONTEXT-Abschnitte). Wenn im Kontext keine ausreichenden oder
+eindeutigen Informationen stehen, erklärst du klar, dass keine sichere
+Aussage möglich ist.
+Regeln:
+1. Antworte in vollständigen, klar formulierten und logisch strukturierten Sätzen.
+2. Keine Spekulationen und keine Vermutungen. Nutze ausschließlich den Kontext.
+3. Keine Mischung aus Deutsch und Englisch.
+4. Wenn möglich, nenne klar:
+   – Paragraph / Abschnitt,
+   – Dokument (Prüfungsordnung oder Hochschulgesetz NRW),
+   – Seitenzahl (nur beim PDF).
+5. Füge keinerlei Informationen hinzu, die nicht explizit im Kontext stehen.
+6. Wiederhole dich nicht und füge keine unnötigen Füllsätze ein.
 """
+# ==========================================================
+# Hauptfunktion: Frage → RAG → Antwort + Quellen
+# ==========================================================
 def answer(question: str, retriever, chat_model) -> Tuple[str, List[Dict[str, Any]]]:
     """
+    Ruft Retriever auf, baut Prompt, ruft LLM, erzeugt Antwort + Quellen-Infos
     """
+    # 1) Relevante Dokumente holen
     docs = retriever.invoke(question)
     context_str = format_context(docs)
+    # 2) Prompt bauen
+    human_prompt = f"""
 FRAGE:
 {question}
 {context_str}
 AUFGABE:
+Formuliere eine juristisch korrekte, verständliche und vollständig
+ausformulierte Antwort ausschließlich anhand des obigen Kontextes.
+Wenn der Kontext eine klare Aussage erlaubt:
+- Erläutere diese strukturiert.
+Wenn der Kontext NICHT eindeutig ist:
+- Erkläre präzise, warum keine sichere Antwort möglich ist,
+- mache KEINE Vermutungen.
 """
     msgs = [
         SystemMessage(content=SYSTEM_PROMPT),
+        HumanMessage(content=human_prompt),
     ]
+    # 3) LLM aufrufen
     result = chat_model.invoke(msgs)
     answer_text = result.content.strip()
+    # 4) Quellenliste bauen
     sources = build_sources_metadata(docs)
     return answer_text, sources