Spaces:

agnixcode
/

voice_chatbot

Sleeping

App Files Files Community

Dua Rajper commited on Mar 3, 2025

Commit

6d1f45a

verified ·

1 Parent(s): f3e3e8f

Update app.py

Browse files

Files changed (1) hide show

app.py +30 -24

app.py CHANGED Viewed

@@ -1,42 +1,40 @@
 import os
 import streamlit as st
-from transformers import pipeline, AutoProcessor, AutoModelForSpeechSeq2Seq, AutoTokenizer, AutoModelForCausalLM
 from espnet2.bin.tts_inference import Text2Speech
 import soundfile as sf
 from pydub import AudioSegment
 import io
-# Load Hugging Face token from environment variable
-HUGGINGFACE_TOKEN = os.getenv("HUGGINGFACE_TOKEN")
-if not HUGGINGFACE_TOKEN:
-    st.error("Hugging Face token not found. Please set the HUGGINGFACE_TOKEN environment variable.")
     st.stop()
 # Load models
 @st.cache(allow_output_mutation=True)
 def load_models():
     # Speech-to-Text
-    processor = AutoProcessor.from_pretrained("openai/whisper-small", use_auth_token=HUGGINGFACE_TOKEN)
-    stt_model = AutoModelForSpeechSeq2Seq.from_pretrained("openai/whisper-small", use_auth_token=HUGGINGFACE_TOKEN)
     stt_pipe = pipeline(
         "automatic-speech-recognition",
         model=stt_model,
         tokenizer=processor.tokenizer,
-        feature_extractor=processor.feature_extractor,
-        use_auth_token=HUGGINGFACE_TOKEN
     )
-    # Text Generation
-    tokenizer = AutoTokenizer.from_pretrained("mistralai/Mistral-7B-Instruct-v0.1", use_auth_token=HUGGINGFACE_TOKEN)
-    text_model = AutoModelForCausalLM.from_pretrained("mistralai/Mistral-7B-Instruct-v0.1", use_auth_token=HUGGINGFACE_TOKEN)
-    text_pipe = pipeline("text-generation", model=text_model, tokenizer=tokenizer, use_auth_token=HUGGINGFACE_TOKEN)
     # Text-to-Speech
     tts_model = Text2Speech.from_pretrained("espnet/espnet_tts_vctk_espnet_spk_voxceleb12_rawnet")
-    return stt_pipe, text_pipe, tts_model
-stt_pipe, text_pipe, tts_model = load_models()
 # Streamlit app
 st.title("Voice-Enabled Chatbot")
@@ -51,12 +49,20 @@ if audio_file is not None:
     text = stt_pipe(speech)['text']
     st.write("Transcribed Text:", text)
-    # Generate response
-    messages = [{"role": "user", "content": text}]
-    response = text_pipe(messages)[0]['generated_text']
-    st.write("Generated Response:", response)
-    # Convert response to speech
-    speech, *_ = tts_model(response)
-    sf.write("response.wav", speech, 22050)
-    st.audio("response.wav")

 import os
 import streamlit as st
+from groq import Groq
+from transformers import AutoProcessor, AutoModelForSpeechSeq2Seq
 from espnet2.bin.tts_inference import Text2Speech
 import soundfile as sf
 from pydub import AudioSegment
 import io
+# Load Groq API key from environment variable
+GROQ_API_KEY = os.getenv("GROQ_API_KEY")
+if not GROQ_API_KEY:
+    st.error("Groq API key not found. Please set the GROQ_API_KEY environment variable.")
     st.stop()
+# Initialize Groq client
+groq_client = Groq(api_key=GROQ_API_KEY)
 # Load models
 @st.cache(allow_output_mutation=True)
 def load_models():
     # Speech-to-Text
+    processor = AutoProcessor.from_pretrained("openai/whisper-small")
+    stt_model = AutoModelForSpeechSeq2Seq.from_pretrained("openai/whisper-small")
     stt_pipe = pipeline(
         "automatic-speech-recognition",
         model=stt_model,
         tokenizer=processor.tokenizer,
+        feature_extractor=processor.feature_extractor
     )
     # Text-to-Speech
     tts_model = Text2Speech.from_pretrained("espnet/espnet_tts_vctk_espnet_spk_voxceleb12_rawnet")
+    return stt_pipe, tts_model
+stt_pipe, tts_model = load_models()
 # Streamlit app
 st.title("Voice-Enabled Chatbot")
     text = stt_pipe(speech)['text']
     st.write("Transcribed Text:", text)
+    # Generate response using Groq API
+    try:
+        chat_completion = groq_client.chat.completions.create(
+            messages=[{"role": "user", "content": text}],
+            model="mixtral-8x7b-32768",
+            temperature=0.5,
+            max_tokens=1024
+        )
+        response = chat_completion.choices[0].message.content
+        st.write("Generated Response:", response)
+        # Convert response to speech
+        speech, *_ = tts_model(response)
+        sf.write("response.wav", speech, 22050)
+        st.audio("response.wav")
+    except Exception as e:
+        st.error(f"Error generating response: {e}")