Spaces:

Nguyen5
/

chatbot1

Sleeping

App Files Files Community

Nguyen5 commited on Dec 8, 2025

Commit

ed2050a

1 Parent(s): 4da3e87

commit

Browse files

Files changed (1) hide show

rag_pipeline.py +99 -58

rag_pipeline.py CHANGED Viewed

@@ -2,81 +2,110 @@
 RAG PIPELINE – Version 26.11 (ohne Modi, stabil, juristisch korrekt)
 """
-# from typing import List, Dict, Any, Tuple
-# from langchain_core.messages import SystemMessage, HumanMessage
-# from load_documents import DATASET, PDF_FILE, HTML_FILE
-# from typing import List, Dict, Any, Tuple
-# import os
-# from langchain_core.messages import SystemMessage, HumanMessage
-# from load_documents import DATASET, PDF_FILE
-# 5.12_2:13
 from typing import List, Dict, Any, Tuple
 from langchain_core.messages import SystemMessage, HumanMessage
 MAX_CHARS = 900
-# ============================================================
-# Quellenaufbereitung – NUR metadata verwenden!
-# ============================================================
 def build_sources_metadata(docs: List) -> List[Dict[str, Any]]:
-    sources = []
-    for idx, d in enumerate(docs):
         meta = d.metadata
         snippet = d.page_content[:300].replace("\n", " ")
-        # PDF
-        if meta.get("type") == "pdf":
-            sources.append({
-                "id": idx + 1,
-                "source": "Prüfungsordnung (PDF)",
-                "page": meta.get("page"),
-                "url": meta.get("pdf_url"),   # KHÔNG tạo lại!
                 "snippet": snippet,
-            })
-            continue
-        # Hochschulgesetz NRW
-        if meta.get("type") == "hg":
-            sources.append({
-                "id": idx + 1,
-                "source": "Hochschulgesetz NRW",
-                "page": None,
-                "url": meta.get("viewer_url"),  # KHÔNG tạo lại!
-                "snippet": snippet,
-            })
-            continue
-    return sources
-# ============================================================
-# Kontextaufbereitung
-# ============================================================
-def format_context(docs: List) -> str:
     if not docs:
-        return "(Kein relevanter Kontext gefunden.)"
-    blocks = []
     for i, d in enumerate(docs):
-        meta = d.metadata
-        doc_type = meta.get("type")
-        label = "Prüfungsordnung" if doc_type == "pdf" else "Hochschulgesetz NRW"
-        if doc_type == "pdf":
-            page = meta.get("page")
-            label += f", Seite {page+1}" if isinstance(page, int) else ""
-        blocks.append(
-            f"[KONTEXT {i+1}] ({label})\n{d.page_content[:MAX_CHARS]}"
-        )
-    return "\n\n".join(blocks)
 # -----------------------------
 # Systemprompt — verschärft
@@ -85,23 +114,31 @@ def format_context(docs: List) -> str:
 SYSTEM_PROMPT = """
 Du bist ein hochpräziser juristischer Chatbot für Prüfungsrecht
 mit Zugriff nur auf:
 - die Prüfungsordnung (als PDF) und
 - das Hochschulgesetz NRW (als HTML aus der offiziellen Druckversion).
 Strenge Regeln:
 1. Antworte ausschließlich anhand des bereitgestellten Kontextes
    (KONTEXT-Abschnitte). Wenn die Information nicht im Kontext steht,
    sage ausdrücklich, dass dies aus den vorliegenden Dokumenten nicht
    hervorgeht und du dazu nichts Sicheres sagen kannst.
 2.
    Keine Spekulationen, keine Vermutungen.
 3. Antworte in zusammenhängenden, ganzen Sätzen. Verwende keine Mischung aus Deutsch und Englisch.
 4. Nenne, soweit aus dem Kontext erkennbar,
    - die rechtliche Grundlage (z.B. Paragraph, Artikel),
    - das Dokument (Prüfungsordnung / Hochschulgesetz NRW),
    - die Seite (bei der Prüfungsordnung), wenn im Kontext vorhanden.
 5. Füge KEINE externen Informationen hinzu, z.B. aus anderen Gesetzen,
    Webseiten oder allgemeinem Wissen. Nur das, was im Kontext steht,
    darf in der Antwort verwendet werden.
 Wenn der Kontext keine eindeutige Antwort zulässt, erkläre klar,
 warum keine sichere Antwort möglich ist und welche Informationen
 im Dokument fehlen.
@@ -114,6 +151,7 @@ im Dokument fehlen.
 def answer(question: str, retriever, chat_model) -> Tuple[str, List[Dict[str, Any]]]:
     """
     Haupt-RAG-Funktion:
     - ruft retriever.invoke(question) auf,
     - baut einen präzisen Prompt mit KONTEXT,
     - ruft LLM auf,
@@ -124,14 +162,17 @@ def answer(question: str, retriever, chat_model) -> Tuple[str, List[Dict[str, An
     context_str = format_context(docs)
     # 2. Prompt bauen
-    user_prompt = f"""
 FRAGE:
 {question}
 NUTZE AUSSCHLIESSLICH DIESEN KONTEXT:
 {context_str}
 AUFGABE:
 Formuliere eine juristisch korrekte, gut verständliche Antwort
 ausschließlich anhand des obigen Kontextes.
 - Wenn der Kontext aus den Dokumenten eine klare Antwort erlaubt,
   erläutere diese strukturiert und in vollständigen Sätzen.
 - Wenn der Kontext KEINE klare Antwort erlaubt oder wichtige Informationen
@@ -140,7 +181,7 @@ ausschließlich anhand des obigen Kontextes.
     msgs = [
         SystemMessage(content=SYSTEM_PROMPT),
-        HumanMessage(content=user_prompt),
     ]
     # 3. LLM aufrufen

 RAG PIPELINE – Version 26.11 (ohne Modi, stabil, juristisch korrekt)
 """
 from typing import List, Dict, Any, Tuple
 from langchain_core.messages import SystemMessage, HumanMessage
+from load_documents import DATASET, PDF_FILE, HTML_FILE
+# -------------------------------------------------------------------
+# URLs für Quellen
+# -------------------------------------------------------------------
+# Direktes PDF im Dataset (für #page)
+PDF_BASE_URL = f"https://huggingface.co/datasets/{DATASET}/resolve/main/{PDF_FILE}"
+# Hochschulgesetz-HTML im Dataset (enthält <p id="hg_abs_X"> …)
+LAW_DATASET_URL = f"https://huggingface.co/datasets/{DATASET}/resolve/main/{HTML_FILE}"
+# Offizielle Recht.NRW-Druckversion (für Viewer im Frontend)
+LAW_URL = (
+    "https://recht.nrw.de/lmi/owa/br_bes_text?"
+    "print=1&anw_nr=2&gld_nr=2&ugl_nr=221&val=28364&ver=0&"
+    "aufgehoben=N&keyword=&bes_id=28364&show_preview=1"
+)
 MAX_CHARS = 900
+# -----------------------------
+# Quellen formatieren
+# -----------------------------
 def build_sources_metadata(docs: List) -> List[Dict[str, Any]]:
+    """
+    Erzeugt eine Liste strukturierter Quellen-Infos:
+    [
+      {
+        "id": 1,
+        "source": "Prüfungsordnung (PDF)" / "Hochschulgesetz NRW (HTML)",
+        "page": 3,          # nur bei PDF
+        "url": "...",       # direkter Klick-Link
+        "snippet": "Erste 300 Zeichen des Chunks..."
+      },
+      ...
+    ]
+    """
+    srcs = []
+    for i, d in enumerate(docs):
         meta = d.metadata
+        src = meta.get("source", "")
+        page = meta.get("page")
         snippet = d.page_content[:300].replace("\n", " ")
+        # PDF-Link
+        if "Prüfungsordnung" in src:
+            if isinstance(page, int):
+                # PyPDFLoader: page ist 0-basiert, Anzeige 1-basiert
+                url = f"{PDF_BASE_URL}#page={page + 1}"
+            else:
+                url = PDF_BASE_URL
+        # NRW-Gesetz (HTML im Dataset mit Absatz-IDs)
+        elif "Hochschulgesetz" in src:
+            para_id = meta.get("paragraph_id")
+            if para_id:
+                # Klick führt direkt zum Absatz im Dataset-HTML
+                url = f"{LAW_DATASET_URL}#{para_id}"
+            else:
+                # Fallback: offizielle Druckversion (ohne Absatz-Anker)
+                url = LAW_URL
+            page = None  # keine Seitenangabe für Gesetz-HTML
+        else:
+            url = None
+        srcs.append(
+            {
+                "id": i + 1,
+                "source": src,
+                "page": page + 1 if isinstance(page, int) else None,
+                "url": url,
                 "snippet": snippet,
+            }
+        )
+    return srcs
+# -----------------------------
+# Kontext formatieren
+# -----------------------------
+def format_context(docs):
     if not docs:
+        return "(Kein relevanter Kontext im Dokument gefunden.)"
+    out = []
     for i, d in enumerate(docs):
+        txt = d.page_content[:MAX_CHARS]
+        src = d.metadata.get("source")
+        page = d.metadata.get("page")
+        if "Prüfungsordnung" in (src or "") and isinstance(page, int):
+            src_str = f"{src}, Seite {page + 1}"
+        else:
+            src_str = src
+        out.append(f"[KONTEXT {i+1}] ({src_str})\n{txt}")
+    return "\n\n".join(out)
 # -----------------------------
 # Systemprompt — verschärft
 SYSTEM_PROMPT = """
 Du bist ein hochpräziser juristischer Chatbot für Prüfungsrecht
 mit Zugriff nur auf:
 - die Prüfungsordnung (als PDF) und
 - das Hochschulgesetz NRW (als HTML aus der offiziellen Druckversion).
 Strenge Regeln:
 1. Antworte ausschließlich anhand des bereitgestellten Kontextes
    (KONTEXT-Abschnitte). Wenn die Information nicht im Kontext steht,
    sage ausdrücklich, dass dies aus den vorliegenden Dokumenten nicht
    hervorgeht und du dazu nichts Sicheres sagen kannst.
 2.
    Keine Spekulationen, keine Vermutungen.
 3. Antworte in zusammenhängenden, ganzen Sätzen. Verwende keine Mischung aus Deutsch und Englisch.
 4. Nenne, soweit aus dem Kontext erkennbar,
    - die rechtliche Grundlage (z.B. Paragraph, Artikel),
    - das Dokument (Prüfungsordnung / Hochschulgesetz NRW),
    - die Seite (bei der Prüfungsordnung), wenn im Kontext vorhanden.
 5. Füge KEINE externen Informationen hinzu, z.B. aus anderen Gesetzen,
    Webseiten oder allgemeinem Wissen. Nur das, was im Kontext steht,
    darf in der Antwort verwendet werden.
 Wenn der Kontext keine eindeutige Antwort zulässt, erkläre klar,
 warum keine sichere Antwort möglich ist und welche Informationen
 im Dokument fehlen.
 def answer(question: str, retriever, chat_model) -> Tuple[str, List[Dict[str, Any]]]:
     """
     Haupt-RAG-Funktion:
     - ruft retriever.invoke(question) auf,
     - baut einen präzisen Prompt mit KONTEXT,
     - ruft LLM auf,
     context_str = format_context(docs)
     # 2. Prompt bauen
+    human = f"""
 FRAGE:
 {question}
 NUTZE AUSSCHLIESSLICH DIESEN KONTEXT:
 {context_str}
 AUFGABE:
 Formuliere eine juristisch korrekte, gut verständliche Antwort
 ausschließlich anhand des obigen Kontextes.
 - Wenn der Kontext aus den Dokumenten eine klare Antwort erlaubt,
   erläutere diese strukturiert und in vollständigen Sätzen.
 - Wenn der Kontext KEINE klare Antwort erlaubt oder wichtige Informationen
     msgs = [
         SystemMessage(content=SYSTEM_PROMPT),
+        HumanMessage(content=human),
     ]
     # 3. LLM aufrufen