Spaces:

agnixcode
/

voice_chatbot

Sleeping

App Files Files Community

Dua Rajper commited on Mar 3, 2025

Commit

0d233ea

verified ·

1 Parent(s): 30f5f98

Create app.py

Browse files

Files changed (1) hide show

app.py +48 -0

app.py ADDED Viewed

	@@ -0,0 +1,48 @@

+import streamlit as st
+from transformers import pipeline, AutoProcessor, AutoModelForSpeechSeq2Seq, AutoTokenizer, AutoModelForCausalLM
+from espnet2.bin.tts_inference import Text2Speech
+import soundfile as sf
+from pydub import AudioSegment
+import io
+# Load models
+@st.cache(allow_output_mutation=True)
+def load_models():
+    # Speech-to-Text
+    processor = AutoProcessor.from_pretrained("openai/whisper-small")
+    stt_model = AutoModelForSpeechSeq2Seq.from_pretrained("openai/whisper-small")
+    stt_pipe = pipeline("automatic-speech-recognition", model=stt_model, tokenizer=processor.tokenizer, feature_extractor=processor.feature_extractor)
+    # Text Generation
+    tokenizer = AutoTokenizer.from_pretrained("mistralai/Mistral-7B-Instruct-v0.1")
+    text_model = AutoModelForCausalLM.from_pretrained("mistralai/Mistral-7B-Instruct-v0.1")
+    text_pipe = pipeline("text-generation", model=text_model, tokenizer=tokenizer)
+    # Text-to-Speech
+    tts_model = Text2Speech.from_pretrained("espnet/espnet_tts_vctk_espnet_spk_voxceleb12_rawnet")
+    return stt_pipe, text_pipe, tts_model
+stt_pipe, text_pipe, tts_model = load_models()
+st.title("Voice-Enabled Chatbot")
+# Audio input
+audio_file = st.file_uploader("Upload your voice input", type=['wav'])
+if audio_file is not None:
+    audio_bytes = audio_file.read()
+    audio = AudioSegment.from_file(io.BytesIO(audio_bytes))
+    audio.export("temp.wav", format="wav")
+    speech, _ = sf.read("temp.wav")
+    text = stt_pipe(speech)['text']
+    st.write("Transcribed Text:", text)
+    # Generate response
+    messages = [{"role": "user", "content": text}]
+    response = text_pipe(messages)[0]['generated_text']
+    st.write("Generated Response:", response)
+    # Convert response to speech
+    speech, *_ = tts_model(response)
+    sf.write("response.wav", speech, 22050)
+    st.audio("response.wav")