Spaces:

IES-Rafael-Alberti
/

AudioToImage

Build error

Bartusito commited on Nov 6, 2023

Commit

7e4bb2d

1 Parent(s): 5d9a7ee

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -3,18 +3,22 @@ import numpy as np
 from huggingsound import SpeechRecognitionModel
 from diffusers import StableDiffusionPipeline, DPMSolverMultistepScheduler
 from transformers import pipeline
 # Función para convertir la tasa de muestreo del audio de entrada
 def modelo1(audio):
-    # Convertir la tasa de muestreo del audio
     audio_data, sample_rate = audio
     # Asegurarse de que audio_data sea un array NumPy
     if not isinstance(audio_data, np.ndarray):
         audio_data = np.array(audio_data)
     # Utilizar audio_data como entrada para el modelo
     whisper = pipeline('automatic-speech-recognition', model='openai/whisper-medium', device=-1)  # Cambia 'device' a -1 para usar la CPU
-    text = whisper(audio_data)
     return text
 def modelo2(text):

 from huggingsound import SpeechRecognitionModel
 from diffusers import StableDiffusionPipeline, DPMSolverMultistepScheduler
 from transformers import pipeline
+import librosa
 # Función para convertir la tasa de muestreo del audio de entrada
 def modelo1(audio):
     audio_data, sample_rate = audio
     # Asegurarse de que audio_data sea un array NumPy
     if not isinstance(audio_data, np.ndarray):
         audio_data = np.array(audio_data)
+    # Convertir audio estéreo a mono
+    if audio_data.shape[0] == 2:
+        audio_data = np.mean(audio_data, axis=0)
     # Utilizar audio_data como entrada para el modelo
     whisper = pipeline('automatic-speech-recognition', model='openai/whisper-medium', device=-1)  # Cambia 'device' a -1 para usar la CPU
+    text = whisper(audio_data, sample_rate)
     return text
 def modelo2(text):