Spaces:

Dinoking
/

TestS2S

Sleeping

Dinoking commited on Jan 27

Commit

4a0144d

verified ·

1 Parent(s): b688c52

commit

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,4 +1,5 @@
 import gradio as gr
 import scipy.io.wavfile as wavfile
 from transformers import pipeline
@@ -10,6 +11,17 @@ def speech_to_speech(audio):
     # audio = (sample_rate, numpy_array)
     sample_rate, audio_data = audio
     # Speech → Text
     result = asr(audio_data, sampling_rate=sample_rate)
     text = result["text"]

 import gradio as gr
+import numpy as np
 import scipy.io.wavfile as wavfile
 from transformers import pipeline
     # audio = (sample_rate, numpy_array)
     sample_rate, audio_data = audio
+    # ---- FIX AUDIO FORMAT ----
+    # Convert stereo to mono
+    if len(audio_data.shape) > 1:
+        audio_data = np.mean(audio_data, axis=1)
+    # Convert to float32
+    audio_data = audio_data.astype(np.float32)
+    # Normalize
+    audio_data = audio_data / np.max(np.abs(audio_data) + 1e-9)
     # Speech → Text
     result = asr(audio_data, sampling_rate=sample_rate)
     text = result["text"]