Spaces:

Mtkhang90
/

Speech_Text_speech_AI

Runtime error

App Files Files Community

Mtkhang90 commited on May 15, 2025

Commit

d08ab17

verified ·

1 Parent(s): 986ad2f

Update app.py

Browse files

Files changed (1) hide show

app.py +25 -15

app.py CHANGED Viewed

@@ -1,26 +1,36 @@
 import gradio as gr
-import whisper
 import requests
 import numpy as np
 import soundfile as sf
-from TTS.api import TTS
-# Load models
-whisper_model = whisper.load_model("base")
 tts = TTS(model_name="tts_models/en/ljspeech/tacotron2-DDC", progress_bar=False, gpu=False)
-# Groq API key from secrets
-import os
 GROQ_API_KEY = os.getenv("GROQ_API_KEY")
 def voice_chat(audio):
-    # Step 1: Speech to text
-    audio_array, sr = audio
-    sf.write("temp.wav", audio_array, sr)
-    result = whisper_model.transcribe("temp.wav")
-    text = result["text"]
-    # Step 2: Groq LLM call
     response = requests.post(
         "https://api.groq.com/openai/v1/chat/completions",
         headers={
@@ -34,7 +44,7 @@ def voice_chat(audio):
     )
     llm_text = response.json()["choices"][0]["message"]["content"]
-    # Step 3: Text to speech
     tts.tts_to_file(text=llm_text, file_path="response.wav")
     return llm_text, "response.wav"
@@ -43,7 +53,7 @@ demo = gr.Interface(
     fn=voice_chat,
     inputs=gr.Audio(sources=["microphone", "upload"], type="numpy", label="🎤 Speak or upload"),
     outputs=[gr.Textbox(label="Groq Response"), gr.Audio(label="AI Voice")],
-    title="📚 Speech Text Speech AI"
 )
 if __name__ == "__main__":

 import gradio as gr
+import speech_recognition as sr
 import requests
+from TTS.api import TTS
+import os
 import numpy as np
 import soundfile as sf
+# Initialize TTS model
 tts = TTS(model_name="tts_models/en/ljspeech/tacotron2-DDC", progress_bar=False, gpu=False)
+# Groq API key
 GROQ_API_KEY = os.getenv("GROQ_API_KEY")
 def voice_chat(audio):
+    if audio is None:
+        return "No audio input detected.", None
+    audio_array, sr_rate = audio
+    sf.write("temp.wav", audio_array, sr_rate)
+    # SpeechRecognition setup
+    recognizer = sr.Recognizer()
+    with sr.AudioFile("temp.wav") as source:
+        audio_data = recognizer.record(source)
+    try:
+        text = recognizer.recognize_google(audio_data)
+    except sr.UnknownValueError:
+        return "Could not understand audio.", None
+    except sr.RequestError as e:
+        return f"Speech Recognition error: {e}", None
+    # Call Groq LLM
     response = requests.post(
         "https://api.groq.com/openai/v1/chat/completions",
         headers={
     )
     llm_text = response.json()["choices"][0]["message"]["content"]
+    # Generate TTS audio file
     tts.tts_to_file(text=llm_text, file_path="response.wav")
     return llm_text, "response.wav"
     fn=voice_chat,
     inputs=gr.Audio(sources=["microphone", "upload"], type="numpy", label="🎤 Speak or upload"),
     outputs=[gr.Textbox(label="Groq Response"), gr.Audio(label="AI Voice")],
+    title="📚 Speech-to-Text-to-Speech with Groq LLM and TTS"
 )
 if __name__ == "__main__":