Spaces:

Nguyen5
/

chatbot

Sleeping

App Files Files Community

Nguyen5 commited on Dec 4, 2025

Commit

33b8aa6

1 Parent(s): 564cc72

commit

Browse files

Files changed (1) hide show

app.py +100 -82

app.py CHANGED Viewed

@@ -1,124 +1,142 @@
 # app.py
-import gradio as gr
 import os
 from openai import OpenAI
 from rag_pipeline import rag_answer
-from supabase_client import supabase
 client = OpenAI()
-# -------------------------------------------------------
-# Build viewer HTML (Prüfungsordnung + HG NRW), in SAME DOM
-# -------------------------------------------------------
-def build_viewer_html():
-    resp = supabase.table("documents").select("content, metadata").execute()
-    items = resp.data or []
-    blocks = []
-    for row in items:
-        meta = row["metadata"]
-        anchor = meta.get("anchor_id")
-        source = meta["source"]
-        page = meta.get("page", "")
-        page_info = f"(Seite {page})" if page else ""
-        content = row["content"]
-        block = (
-            f"<div id='{anchor}' style='margin:20px 0;'>"
-            f"<b>{source} {page_info}</b><br>"
-            f"{content}"
-            f"</div>"
-        )
-        blocks.append(block)
-    return "<br>".join(blocks)
-DOCUMENTS_HTML = build_viewer_html()
-# -------------------------------------------------------
-# Whisper (German only)
-# -------------------------------------------------------
-def transcribe(audio):
-    if audio is None:
-        return ""
-    try:
-        with open(audio, "rb") as f:
-            res = client.audio.transcriptions.create(
-                model="whisper-1",
-                file=f,
-                language="de",
-                temperature=0
-            )
-        return (res.text or "").strip()
-    except:
         return ""
-# -------------------------------------------------------
-# Main Chat
-# -------------------------------------------------------
-def chat_fn(text, audio, history_md):
-    text = text.strip() if text else ""
     if text:
         question = text
-    else:
         question = transcribe(audio)
     if not question:
-        return history_md, "<p>Bitte Text oder Mikrofon benutzen.</p>", gr.update(value=None)
-    answer, docs = rag_answer(question, None)
-    # Build sources with clickable links to anchors in SAME DOM
-    sources_md = "### Quellen\n"
     for i, d in enumerate(docs):
-        meta = d["metadata"]
-        anchor = meta["anchor_id"]
-        src = meta["source"]
-        page = meta.get("page")
         page_info = f"(Seite {page})" if page else ""
-        sources_md += (
-            f"- [Quelle {i+1}: {src} {page_info}](#{anchor})\n"
-        )
-    answer_md = (
-        f"### Frage\n{question}\n\n"
-        f"### Antwort\n{answer}\n\n"
-        f"{sources_md}\n"
-        f"---\n\n"
-        f"## Dokumente\n{DOCUMENTS_HTML}"
-    )
-    history_new = answer_md  # always show latest answer only
-    return history_new, answer_md, gr.update(value=None)
-# -------------------------------------------------------
-# UI Layout — chat + docs IN SAME COLUMN
-# -------------------------------------------------------
 with gr.Blocks() as demo:
     gr.Markdown("# ⚖️ Sprachbasierter Chatbot für Prüfungsrecht")
-    chat_display = gr.Markdown("")
-    text_input = gr.Textbox(label="Text Eingabe")
-    audio_input = gr.Audio(type="filepath", label="Mikrofon")
-    send_btn = gr.Button("Senden")
-    answer_preview = gr.Markdown("")
     send_btn.click(
         chat_fn,
-        inputs=[text_input, audio_input, chat_display],
-        outputs=[chat_display, answer_preview, audio_input]
     )
-demo.launch(ssr_mode=False)

 # app.py
 import os
+import base64
+import gradio as gr
 from openai import OpenAI
+from supabase_client import load_file_bytes
 from rag_pipeline import rag_answer
 client = OpenAI()
+BUCKET = os.environ["SUPABASE_BUCKET"]
+# ------------------------------------------
+# Public URLs để mở PDF/HTML khi nhấn Quelle
+# ------------------------------------------
+PDF_URL = f"{os.environ['SUPABASE_URL']}/storage/v1/object/public/{BUCKET}/pruefungsordnung.pdf"
+HG_URL  = f"{os.environ['SUPABASE_URL']}/storage/v1/object/public/{BUCKET}/hochschulgesetz.html"
+# ------------------------------------------
+# Viewer PDF base64
+# ------------------------------------------
+def encode_pdf_src():
+    pdf_bytes = load_file_bytes(BUCKET, "pruefungsordnung.pdf")
+    b64 = base64.b64encode(pdf_bytes).decode("utf-8")
+    return f"data:application/pdf;base64,{b64}"
+# ------------------------------------------
+# HTML viewer
+# ------------------------------------------
+def encode_html():
+    html_bytes = load_file_bytes(BUCKET, "hochschulgesetz.html")
+    return html_bytes.decode("utf-8", errors="ignore")
+# ------------------------------------------
+# Speech-to-text FIXED
+# ------------------------------------------
+def transcribe(audio_path):
+    if audio_path is None:
         return ""
+    with open(audio_path, "rb") as f:
+        result = client.audio.transcriptions.create(
+            model="whisper-1",
+            file=f,
+            language="de",      # ép tiếng Đức
+            temperature=0.0     # ổn định kết quả
+        )
+    return (result.text or "").strip()
+# ------------------------------------------
+# MAIN CHAT FUNCTION
+# ------------------------------------------
+def chat_fn(text, audio, history):
+    text = (text or "").strip()
+    # 1) Ưu tiên text, không dùng audio nếu text có
     if text:
         question = text
+    elif audio is not None:
         question = transcribe(audio)
+    else:
+        return history, "<p>Bitte Text oder Mikrofon benutzen.</p>", None
     if not question:
+        return history, "<p>Spracherkennung fehlgeschlagen.</p>", None
+    # 2) RAG
+    answer, docs = rag_answer(question, history or [])
+    # 3) Build Quellen (click được)
+    html = "<ol>"
     for i, d in enumerate(docs):
+        meta = d.get("metadata", {}) or {}
+        src = meta.get("source", "?")
+        if "Prüfungsordnung" in src:
+            link = PDF_URL
+        else:
+            link = HG_URL
+        page = meta.get("page", None)
         page_info = f"(Seite {page})" if page else ""
+        snippet = (d.get("content") or "")[:200]
+        html += f"""
+        <li>
+            <a href="{link}" target="_blank">
+                <b>Quelle {i+1}: {src} {page_info}</b>
+            </a><br>
+            {snippet}...
+        </li>
+        """
+    html += "</ol>"
+    # 4) Gradio message history
+    new_history = (history or []) + [
+        {"role": "user", "content": question},
+        {"role": "assistant", "content": answer},
+    ]
+    # Reset audio input
+    return new_history, html, gr.update(value=None)
+# ------------------------------------------
+# UI LAYOUT
+# ------------------------------------------
 with gr.Blocks() as demo:
     gr.Markdown("# ⚖️ Sprachbasierter Chatbot für Prüfungsrecht")
+    with gr.Row():
+        with gr.Column(scale=3):
+            chatbot = gr.Chatbot(label="Chat (RAG)")
+            text_input = gr.Textbox(label="Text Eingabe")
+            audio_input = gr.Audio(type="filepath", label="Spracheingabe (Mikrofon)")
+            send_btn = gr.Button("Senden")
+        with gr.Column(scale=2):
+            gr.Markdown("### 📄 Prüfungsordnung PDF")
+            gr.HTML(
+                f"<iframe src='{encode_pdf_src()}' width='100%' height='250'></iframe>"
+            )
+            gr.Markdown("### 📜 Hochschulgesetz NRW")
+            gr.HTML(
+                f"<div style='overflow:auto;height:250px;'>{encode_html()}</div>"
+            )
+            sources_html = gr.HTML()
     send_btn.click(
         chat_fn,
+        inputs=[text_input, audio_input, chatbot],
+        outputs=[chatbot, sources_html, audio_input],
     )
+if __name__ == "__main__":
+    demo.launch(ssr_mode=False)