Spaces:

salomonsky
/

xaman

Sleeping

salomonsky commited on Jan 16, 2024

Commit

43a9475

verified ·

1 Parent(s): 518c024

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -3,6 +3,8 @@ import base64
 import io
 from huggingface_hub import InferenceClient
 from gtts import gTTS
 from audiorecorder import audiorecorder
 import speech_recognition as sr
@@ -22,6 +24,9 @@ def recognize_speech(audio_data):
         audio_text = recognizer.recognize_google(audio, language="es-ES")
 def format_prompt(message, history):
     prompt = "<s>"
@@ -63,10 +68,13 @@ def text_to_speech(text, speed=1.3):
     audio_fp = io.BytesIO()
     tts.write_to_fp(audio_fp)
     audio_fp.seek(0)
-    return audio_fp
 def main():
-    audio_data = audiorecorder("Habla para grabar", "Deteniendo la grabación...")
     if "history" not in st.session_state:
         st.session_state.history = []
@@ -75,12 +83,10 @@ def main():
         st.audio(audio_data.export().read(), format="audio/wav")
         audio_data.export("audio.wav", format="wav")
         st.write(f"Frame rate: {audio_data.frame_rate}, Frame width: {audio_data.frame_width}, Duration: {audio_data.duration_seconds} seconds")
         audio_text = recognize_speech("audio.wav")
         if audio_text:
-            output, audio_file = generate(audio_text, history=st.session_state.history)
-            st.text_area("Respuesta", height=100, value=output, key="output_text", disabled=True)
             if audio_file is not None:
                 st.markdown(

 import io
 from huggingface_hub import InferenceClient
 from gtts import gTTS
+from pydub import AudioSegment
+from pydub.playback import play
 from audiorecorder import audiorecorder
 import speech_recognition as sr
         audio_text = recognizer.recognize_google(audio, language="es-ES")
+    st.success("Reconocimiento de voz completado.")
+    return audio_text
 def format_prompt(message, history):
     prompt = "<s>"
     audio_fp = io.BytesIO()
     tts.write_to_fp(audio_fp)
     audio_fp.seek(0)
+    audio = AudioSegment.from_mp3(audio_fp)
+    audio = audio.speedup(playback_speed=speed)
+    return audio.export(format="mp3", codec="mp3")
 def main():
+    audio_data = audiorecorder("Habla para iniciar", "Procesando...")
     if "history" not in st.session_state:
         st.session_state.history = []
         st.audio(audio_data.export().read(), format="audio/wav")
         audio_data.export("audio.wav", format="wav")
         st.write(f"Frame rate: {audio_data.frame_rate}, Frame width: {audio_data.frame_width}, Duration: {audio_data.duration_seconds} seconds")
         audio_text = recognize_speech("audio.wav")
         if audio_text:
+            output, audio_file = generate(audio_text, history=st.session_state.history)
             if audio_file is not None:
                 st.markdown(