Spaces:

Nguyen5
/

chatbot1

Sleeping

App Files Files Community

Nguyen5 commited on Dec 8, 2025

Commit

fd831e8

1 Parent(s): bca3e7a

commit

Browse files

Files changed (3) hide show

app.py +7 -9
requirements.txt +0 -2
speech_io.py +16 -42

app.py CHANGED Viewed

@@ -14,12 +14,13 @@ from vectorstore import build_vectorstore
 from retriever import get_retriever
 from llm import load_llm
 from rag_pipeline import answer
-from speech_io import transcribe_audio, synthesize_speech, transcribe_with_groq, detect_voice_activity
 # Cấu hình môi trường
 ASR_LANGUAGE_HINT = os.getenv("ASR_LANGUAGE", "de")
-USE_GROQ = os.getenv("USE_GROQ", "false").lower() == "true"
-GROQ_MODEL = os.getenv("GROQ_MODEL", "whisper-large-v3-turbo")
 ENABLE_VAD = os.getenv("ENABLE_VAD", "true").lower() == "true"
 VAD_THRESHOLD = float(os.getenv("VAD_THRESHOLD", "0.3"))
@@ -141,11 +142,9 @@ def transcribe_audio_optimized(audio_path: str, language: Optional[str] = None)
     if not audio_path or not os.path.exists(audio_path):
         return ""
-    if USE_GROQ and GROQ_MODEL:
-        print("Using Groq for transcription...")
-        return transcribe_with_groq(audio_path, language=language)
-    else:
-        return transcribe_audio(audio_path, language=language)
 # =====================================================
 # CONVERSATIONAL INTELLIGENCE
@@ -730,4 +729,3 @@ with gr.Blocks(title="Prüfungsrechts-Chatbot (RAG + Sprache) - Enhanced") as de
 if __name__ == "__main__":
     demo.queue().launch(ssr_mode=False, show_error=True)

 from retriever import get_retriever
 from llm import load_llm
 from rag_pipeline import answer
+from speech_io import transcribe_audio, synthesize_speech, transcribe_with_openai, detect_voice_activity
 # Cấu hình môi trường
 ASR_LANGUAGE_HINT = os.getenv("ASR_LANGUAGE", "de")
+USE_OPENAI = os.getenv("USE_OPENAI", "false").lower() == "true"
+USE_REALTIME = os.getenv("USE_REALTIME", "false").lower() == "true"
+REALTIME_SERVER_URL = os.getenv("REALTIME_SERVER_URL", "ws://localhost:8000/ws")
 ENABLE_VAD = os.getenv("ENABLE_VAD", "true").lower() == "true"
 VAD_THRESHOLD = float(os.getenv("VAD_THRESHOLD", "0.3"))
     if not audio_path or not os.path.exists(audio_path):
         return ""
+    if USE_OPENAI:
+        return transcribe_with_openai(audio_path, language=language)
+    return transcribe_audio(audio_path, language=language)
 # =====================================================
 # CONVERSATIONAL INTELLIGENCE
 if __name__ == "__main__":
     demo.queue().launch(ssr_mode=False, show_error=True)

requirements.txt CHANGED Viewed

@@ -14,8 +14,6 @@ langchain-community
 langchain-text-splitters
 langchain-openai
 huggingface-hub
-groq
-google-generativeai
 fastapi
 uvicorn
 websockets

 langchain-text-splitters
 langchain-openai
 huggingface-hub
 fastapi
 uvicorn
 websockets

speech_io.py CHANGED Viewed

@@ -23,11 +23,7 @@ import difflib
 WHISPER_MODEL = os.getenv("WHISPER_MODEL", "base")
 ASR_MODEL_ID = f"openai/whisper-{WHISPER_MODEL}"
 TTS_MODEL_ID = os.getenv("TTS_MODEL_ID", "facebook/mms-tts-deu")
-# Groq Configuration
-USE_GROQ = os.getenv("USE_GROQ", "false").lower() == "true"
-GROQ_API_KEY = os.getenv("GROQ_API_KEY", "")
-GROQ_MODEL = os.getenv("GROQ_MODEL", "whisper-large-v3-turbo")
 # VAD Configuration
 ENABLE_VAD = os.getenv("ENABLE_VAD", "true").lower() == "true"
@@ -297,46 +293,24 @@ def get_asr_pipeline():
         )
     return _asr
-def transcribe_with_groq(audio_path: str, language: Optional[str] = None) -> str:
-    """
-    Transcribe audio sử dụng Groq Cloud API
-    """
-    if not GROQ_API_KEY:
-        print(">>> Groq API key nicht gefunden. Verwende lokales Modell.")
         return transcribe_audio(audio_path, language)
     try:
-        import requests
-        with open(audio_path, 'rb') as audio_file:
-            files = {'file': audio_file}
-            data = {'model': GROQ_MODEL}
-            if language and language != 'auto':
-                data['language'] = language
-            headers = {'Authorization': f'Bearer {GROQ_API_KEY}'}
-            print(f">>> Sende Anfrage an Groq API...")
-            response = requests.post(
-                "https://api.groq.com/openai/v1/audio/transcriptions",
-                headers=headers,
-                files=files,
-                data=data,
-                timeout=30
             )
-            if response.status_code == 200:
-                result = response.json()
-                text = result.get('text', '').strip()
-                print(f">>> Groq Transkription: {text}")
-                return text
-            else:
-                print(f">>> Groq Fehler {response.status_code}")
-                return transcribe_audio(audio_path, language)
     except Exception as e:
-        print(f">>> Groq Fehler: {e}")
         return transcribe_audio(audio_path, language)
 def transcribe_audio(
@@ -511,7 +485,7 @@ def fix_domain_terms(text: str) -> str:
 # ========================================================
 __all__ = [
     'transcribe_audio',
-    'transcribe_with_groq',
     'synthesize_speech',
     'detect_voice_activity',
     'normalize_audio',

 WHISPER_MODEL = os.getenv("WHISPER_MODEL", "base")
 ASR_MODEL_ID = f"openai/whisper-{WHISPER_MODEL}"
 TTS_MODEL_ID = os.getenv("TTS_MODEL_ID", "facebook/mms-tts-deu")
+OPENAI_API_KEY = os.getenv("OPENAI_API_KEY", "")
 # VAD Configuration
 ENABLE_VAD = os.getenv("ENABLE_VAD", "true").lower() == "true"
         )
     return _asr
+def transcribe_with_openai(audio_path: str, language: Optional[str] = None) -> str:
+    """Transcribe audio using OpenAI Whisper-1.
+    Falls back to local transcription on error. """
+    if not OPENAI_API_KEY:
         return transcribe_audio(audio_path, language)
     try:
+        from openai import OpenAI
+        client = OpenAI(api_key=OPENAI_API_KEY)
+        with open(audio_path, "rb") as f:
+            resp = client.audio.transcriptions.create(
+                model="whisper-1",
+                file=f,
+                language=language if language and language != "auto" else None,
             )
+        txt = getattr(resp, "text", "") or (resp.get("text") if isinstance(resp, dict) else "")
+        return (txt or "").strip()
     except Exception as e:
+        print(f">>> OpenAI Fehler: {e}")
         return transcribe_audio(audio_path, language)
 def transcribe_audio(
 # ========================================================
 __all__ = [
     'transcribe_audio',
+    'transcribe_with_openai',
     'synthesize_speech',
     'detect_voice_activity',
     'normalize_audio',