Spaces:

Nguyen5
/

chatbot1

Sleeping

App Files Files Community

Nguyen5 commited on Dec 7, 2025

Commit

cedda96

1 Parent(s): ea73680

commit

Browse files

Files changed (2) hide show

app.py +12 -41
speech_io.py +0 -40

app.py CHANGED Viewed

@@ -180,17 +180,12 @@ with gr.Blocks(title="Prüfungsrechts-Chatbot (RAG + Sprache)") as demo:
         "Du kannst Text eingeben oder direkt ins Mikrofon sprechen."
     )
-    # State für nahtlose Konversation
-    state = gr.State(AppState(conversation=[], recording_state="idle", mode="Audio", last_record_path=None, status_text="Bereit"))
     # Einspaltiges Layout, alles untereinander (verhindert abgeschnittene Bereiche)
     with gr.Column(elem_id="chat-wrap"):
         chatbot = gr.Chatbot(
             label="Chat",
             height=280,
         )
-        spoken_out = gr.Textbox(label="Gesprochener Text", interactive=False)
-        status_md = gr.Markdown("Bereit")
         # Eingabezeile à la ChatGPT: Plus + Text + Mikro + Senden
         with gr.Row(elem_id="chat-input-row"):
@@ -216,55 +211,31 @@ with gr.Blocks(title="Prüfungsrechts-Chatbot (RAG + Sprache)") as demo:
                 show_label=False,
             )
             send_btn = gr.Button("➤", elem_classes=["compact-btn", "send-btn"], scale=1)
-        lang_dd = gr.Dropdown(choices=["auto","de","en","vi"], value="auto", label="Sprache")
-        mode_radio = gr.Radio(choices=["Audio","Text"], value="Audio", label="Eingabemodus")
-        record_player = gr.Audio(label="Letzte Aufnahme", type="filepath", interactive=False)
-        stop_rec_btn = gr.Button("⏹ Aufnahme löschen")
         # Senden bei Enter
         chat_text.submit(
             chat_fn,
-            [chat_text, chat_audio, chatbot, state, lang_dd],
-            [chatbot, chat_text, chat_audio, spoken_out, status_md],
         )
-        def transcribe_to_textbox(audio_path, lang, app_state: AppState):
-            if audio_path:
-                app_state.recording_state = "processing"
-                app_state.last_record_path = audio_path
-            s = transcribe_audio(audio_path, language=lang)
-            app_state.status_text = "✅ Verarbeitung abgeschlossen"
-            return s, s, audio_path, app_state.status_text
-        chat_audio.stream(
             transcribe_to_textbox,
-            [chat_audio, lang_dd, state],
-            [chat_text, spoken_out, record_player, status_md],
         )
-        chat_audio.change(
             transcribe_to_textbox,
-            [chat_audio, lang_dd, state],
-            [chat_text, spoken_out, record_player, status_md],
         )
         send_btn.click(
             chat_fn,
-            [chat_text, chat_audio, chatbot, state, lang_dd],
-            [chatbot, chat_text, chat_audio, spoken_out, status_md],
         )
-        def toggle_mode(m, app_state: AppState):
-            app_state.mode = m
-            status = "Audio-Modus aktiv" if m == "Audio" else "Text-Modus aktiv"
-            return gr.update(visible=(m == "Text")), gr.update(visible=(m == "Audio")), status
-        mode_radio.change(toggle_mode, [mode_radio, state], [chat_text, chat_audio, status_md])
-        def clear_record(p):
-            try:
-                if isinstance(p, str) and os.path.exists(p):
-                    os.remove(p)
-            except:
-                pass
-            return None
-        stop_rec_btn.click(clear_record, [record_player], [record_player])
         # Quellen & Dokumente kompakt unterhalb
         with gr.Accordion("Quellen & Dokumente", open=False):
             gr.Markdown("### 📄 Prüfungsordnung (PDF)")

         "Du kannst Text eingeben oder direkt ins Mikrofon sprechen."
     )
     # Einspaltiges Layout, alles untereinander (verhindert abgeschnittene Bereiche)
     with gr.Column(elem_id="chat-wrap"):
         chatbot = gr.Chatbot(
             label="Chat",
             height=280,
         )
         # Eingabezeile à la ChatGPT: Plus + Text + Mikro + Senden
         with gr.Row(elem_id="chat-input-row"):
                 show_label=False,
             )
             send_btn = gr.Button("➤", elem_classes=["compact-btn", "send-btn"], scale=1)
         # Senden bei Enter
         chat_text.submit(
             chat_fn,
+            [chat_text, chat_audio, chatbot],
+            [chatbot, chat_text, chat_audio],
         )
+        def transcribe_to_textbox(audio_path):
+            return transcribe_audio(audio_path, language=ASR_LANGUAGE_HINT)
+        chat_audio.change(
             transcribe_to_textbox,
+            [chat_audio],
+            [chat_text],
         )
+        chat_audio.stream(
             transcribe_to_textbox,
+            [chat_audio],
+            [chat_text],
         )
         send_btn.click(
             chat_fn,
+            [chat_text, chat_audio, chatbot],
+            [chatbot, chat_text, chat_audio],
         )
         # Quellen & Dokumente kompakt unterhalb
         with gr.Accordion("Quellen & Dokumente", open=False):
             gr.Markdown("### 📄 Prüfungsordnung (PDF)")

speech_io.py CHANGED Viewed

@@ -25,8 +25,6 @@ ASR_DEFAULT_LANGUAGE = os.getenv("ASR_LANGUAGE", "de")  # "auto" um Auto-Detect
 TTS_ENABLED = os.getenv("TTS_ENABLED", "1").lower() not in ("0", "false", "no")
 ASR_PROMPT = os.getenv("ASR_PROMPT", "Dies ist ein Diktat in deutscher Sprache.")
 ASR_MAX_DURATION_S = int(os.getenv("ASR_MAX_DURATION_S", "30"))
-ASR_BACKEND = os.getenv("ASR_BACKEND", "local")  # local | groq
-GROQ_API_KEY = os.getenv("GROQ_API_KEY")
 _asr = None
 _tts = None
@@ -102,15 +100,6 @@ def transcribe_audio(audio_path: str, language: Optional[str] = None, max_durati
         print(">>> Kein Audio gefunden.")
         return ""
-    # Groq-Backend optional
-    if ASR_BACKEND.lower() == "groq" and GROQ_API_KEY:
-        try:
-            txt = transcribe_with_groq(audio_path)
-            if isinstance(txt, str) and txt.strip():
-                return txt.strip()
-        except Exception as e:
-            print(f">>> Groq-Backend Fehler: {e}. Fallback auf lokalen Whisper.")
     # WAV einlesen (soundfile garantiert PCM korrekt)
     data, sr = sf.read(audio_path, always_2d=False)
@@ -227,35 +216,6 @@ def transcribe_audio(audio_path: str, language: Optional[str] = None, max_durati
     print("ASR:", text)
     return text
-def transcribe_with_groq(file_path: str) -> Optional[str]:
-    """Transkription via Groq Whisper large v3 turbo (verbose_json)."""
-    try:
-        import groq
-    except Exception:
-        return None
-    if not (isinstance(file_path, str) and os.path.exists(file_path) and GROQ_API_KEY):
-        return None
-    client = groq.Client(api_key=GROQ_API_KEY)
-    with open(file_path, "rb") as f:
-        try:
-            resp = client.audio.transcriptions.with_raw_response.create(
-                model="whisper-large-v3-turbo",
-                file=("audio.wav", f),
-                response_format="verbose_json",
-            )
-            data = resp.parse()
-            # verbose_json enthält segments mit no_speech_prob
-            segments = getattr(data, "segments", None) or data.get("segments") if isinstance(data, dict) else None
-            if segments and len(segments) > 0:
-                ns = segments[0].get("no_speech_prob", 0)
-                if ns and ns > 0.7:
-                    return ""
-            text = getattr(data, "text", None) or data.get("text") if isinstance(data, dict) else None
-            return (text or "").strip()
-        except Exception as e:
-            print(f">>> Groq Transkription fehlgeschlagen: {e}")
-            return None
 # ========================================================
 # TEXT-TO-SPEECH (TTS)
 # ========================================================

 TTS_ENABLED = os.getenv("TTS_ENABLED", "1").lower() not in ("0", "false", "no")
 ASR_PROMPT = os.getenv("ASR_PROMPT", "Dies ist ein Diktat in deutscher Sprache.")
 ASR_MAX_DURATION_S = int(os.getenv("ASR_MAX_DURATION_S", "30"))
 _asr = None
 _tts = None
         print(">>> Kein Audio gefunden.")
         return ""
     # WAV einlesen (soundfile garantiert PCM korrekt)
     data, sr = sf.read(audio_path, always_2d=False)
     print("ASR:", text)
     return text
 # ========================================================
 # TEXT-TO-SPEECH (TTS)
 # ========================================================