Spaces:

Dinoking
/

TestS2S

Sleeping

Dinoking commited on Jan 27

Commit

b688c52

verified ·

1 Parent(s): 5e9c08a

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,5 +1,4 @@
 import gradio as gr
-import torch
 import scipy.io.wavfile as wavfile
 from transformers import pipeline
@@ -8,27 +7,30 @@ asr = pipeline("automatic-speech-recognition", model="openai/whisper-small")
 tts = pipeline("text-to-speech", model="facebook/mms-tts-hin")
 def speech_to_speech(audio):
     # Speech → Text
-    result = asr(audio)
     text = result["text"]
     # Text → Speech (Hindi voice)
     speech = tts(text)
-    # Save audio
     wavfile.write("output.wav", speech["sampling_rate"], speech["audio"])
     return text, "output.wav"
 demo = gr.Interface(
     fn=speech_to_speech,
-    inputs=gr.Audio(type="filepath", label="Speak here"),
     outputs=[
         gr.Textbox(label="Recognized Text"),
         gr.Audio(label="Hindi Speech Output")
     ],
     title="Speech to Speech AI (Hindi)",
-    description="Speak into the mic, AI listens and replies in Hindi voice"
 )
 demo.launch()

 import gradio as gr
 import scipy.io.wavfile as wavfile
 from transformers import pipeline
 tts = pipeline("text-to-speech", model="facebook/mms-tts-hin")
 def speech_to_speech(audio):
+    # audio = (sample_rate, numpy_array)
+    sample_rate, audio_data = audio
     # Speech → Text
+    result = asr(audio_data, sampling_rate=sample_rate)
     text = result["text"]
     # Text → Speech (Hindi voice)
     speech = tts(text)
+    # Save output
     wavfile.write("output.wav", speech["sampling_rate"], speech["audio"])
     return text, "output.wav"
 demo = gr.Interface(
     fn=speech_to_speech,
+    inputs=gr.Audio(type="numpy", label="Speak here"),
     outputs=[
         gr.Textbox(label="Recognized Text"),
         gr.Audio(label="Hindi Speech Output")
     ],
     title="Speech to Speech AI (Hindi)",
+    description="Speak into the mic, AI listens and replies in Hindi"
 )
 demo.launch()