Spaces:

agnixcode
/

voice_chatbot

Sleeping

App Files Files Community

Dua Rajper commited on Mar 4, 2025

Commit

83de1ee

verified ·

1 Parent(s): a238dc9

Update app.py

Browse files

Files changed (1) hide show

app.py +11 -86

app.py CHANGED Viewed

@@ -1,13 +1,8 @@
 import os
 import streamlit as st
 from groq import Groq
-from transformers import AutoProcessor, AutoModelForSpeechSeq2Seq, pipeline
-from espnet2.bin.tts_inference import Text2Speech
 import soundfile as sf
-from pydub import AudioSegment
-import io
-from streamlit_webrtc import webrtc_streamer, WebRtcMode, AudioProcessorBase
-import av
 import numpy as np
 # Load Groq API key from environment variables
@@ -19,34 +14,16 @@ if not GROQ_API_KEY:
 # Initialize Groq client
 groq_client = Groq(api_key=GROQ_API_KEY)
-# Load models
 @st.cache_resource
 def load_models():
-    processor = AutoProcessor.from_pretrained("openai/whisper-small")
-    stt_model = AutoModelForSpeechSeq2Seq.from_pretrained("openai/whisper-small")
-    stt_pipe = pipeline(
-        "automatic-speech-recognition",
-        model=stt_model,
-        tokenizer=processor.tokenizer,
-        feature_extractor=processor.feature_extractor,
-        return_timestamps=True
-    )
-    tts_model = Text2Speech.from_pretrained("espnet/espnet_tts_vctk_espnet_spk_voxceleb12_rawnet")
-    return stt_pipe, tts_model
-stt_pipe, tts_model = load_models()
-# Audio recorder
-class AudioRecorder(AudioProcessorBase):
-    def __init__(self):
-        self.audio_frames = []
-    def recv(self, frame: av.AudioFrame) -> av.AudioFrame:
-        self.audio_frames.append(frame.to_ndarray())
-        return frame
 # Streamlit app
-st.title("Voice-Enabled Chatbot")
 # Audio upload
 uploaded_file = st.file_uploader("Upload a WAV file", type=["wav"])
@@ -55,78 +32,26 @@ if uploaded_file is not None:
     # Save uploaded file
     with open("uploaded_audio.wav", "wb") as f:
         f.write(uploaded_file.getbuffer())
     st.success("File uploaded successfully!")
     # Process the uploaded audio
     speech, _ = sf.read("uploaded_audio.wav")
     output = stt_pipe(speech)
     st.write("Transcribed Text:", output['text'])
-    if 'chunks' in output:
-        st.write("Transcribed Text with Timestamps:")
-        for chunk in output['chunks']:
-            st.write(f"{chunk['timestamp'][0]:.2f} - {chunk['timestamp'][1]:.2f}: {chunk['text']}")
     try:
         st.write("Input Text:", output['text'])
         chat_completion = groq_client.chat.completions.create(
             messages=[{"role": "user", "content": output['text']}],
             model="mixtral-8x7b-32768",
             temperature=0.5,
-            max_tokens=2048,  # Increased max_tokens
         )
         st.write("API Response:", chat_completion)
         response = chat_completion.choices[0].message.content
         st.write("Generated Response:", response)
-        speech, *_ = tts_model(response, spembs=tts_model.spembs[0])
-        st.write("TTS Output:", speech)
-        sf.write("response.wav", speech, 22050)
-        st.audio("response.wav")
     except Exception as e:
         st.error(f"Error generating response: {e}")
 else:
-    # Audio recorder
-    st.write("Record your voice:")
-    webrtc_ctx = webrtc_streamer(
-        key="audio-recorder",
-        mode=WebRtcMode.SENDONLY,
-        audio_processor_factory=AudioRecorder,
-        media_stream_constraints={"audio": True, "video": False},
-    )
-    if webrtc_ctx.audio_processor:
-        st.write("Recording... Press 'Stop' to finish recording.")
-        if st.button("Stop and Process Recording"):
-            audio_frames = webrtc_ctx.audio_processor.audio_frames
-            if audio_frames:
-                audio_data = np.concatenate(audio_frames)
-                sf.write("recorded_audio.wav", audio_data, samplerate=16000)
-                st.success("Recording saved as recorded_audio.wav")
-                speech, _ = sf.read("recorded_audio.wav")
-                output = stt_pipe(speech)
-                st.write("Transcribed Text:", output['text'])
-                if 'chunks' in output:
-                    st.write("Transcribed Text with Timestamps:")
-                    for chunk in output['chunks']:
-                        st.write(f"{chunk['timestamp'][0]:.2f} - {chunk['timestamp'][1]:.2f}: {chunk['text']}")
-                try:
-                    st.write("Input Text:", output['text'])
-                    chat_completion = groq_client.chat.completions.create(
-                        messages=[{"role": "user", "content": output['text']}],
-                        model="mixtral-8x7b-32768",
-                        temperature=0.5,
-                        max_tokens=2048,  # Increased max_tokens
-                    )
-                    st.write("API Response:", chat_completion)
-                    response = chat_completion.choices[0].message.content
-                    st.write("Generated Response:", response)
-                    speech, *_ = tts_model(response, spembs=tts_model.spembs[0])
-                    st.write("TTS Output:", speech)
-                    sf.write("response.wav", speech, 22050)
-                    st.audio("response.wav")
-                except Exception as e:
-                    st.error(f"Error generating response: {e}")
-            else:
-                st.error("No audio recorded. Please try again.")

 import os
 import streamlit as st
 from groq import Groq
+from transformers import pipeline
 import soundfile as sf
 import numpy as np
 # Load Groq API key from environment variables
 # Initialize Groq client
 groq_client = Groq(api_key=GROQ_API_KEY)
+# Load models (Smaller Whisper model)
 @st.cache_resource
 def load_models():
+    stt_pipe = pipeline("automatic-speech-recognition", model="distil-whisper/distil-small.en")
+    return stt_pipe
+stt_pipe = load_models()
 # Streamlit app
+st.title("Voice-Enabled Chatbot (CPU Optimized)")
 # Audio upload
 uploaded_file = st.file_uploader("Upload a WAV file", type=["wav"])
     # Save uploaded file
     with open("uploaded_audio.wav", "wb") as f:
         f.write(uploaded_file.getbuffer())
     st.success("File uploaded successfully!")
     # Process the uploaded audio
     speech, _ = sf.read("uploaded_audio.wav")
     output = stt_pipe(speech)
     st.write("Transcribed Text:", output['text'])
     try:
         st.write("Input Text:", output['text'])
         chat_completion = groq_client.chat.completions.create(
             messages=[{"role": "user", "content": output['text']}],
             model="mixtral-8x7b-32768",
             temperature=0.5,
+            max_tokens=1024,
         )
         st.write("API Response:", chat_completion)
         response = chat_completion.choices[0].message.content
         st.write("Generated Response:", response)
+        st.write("Response played via browser audio:")
+        st.write(response)
     except Exception as e:
         st.error(f"Error generating response: {e}")
 else:
+    st.write("This application currently only supports file uploads.")