Spaces:

Bmo411
/

Text-To-Speech

Sleeping

App Files Files Community

Bmo411 commited on Apr 28, 2025

Commit

b2de89e

verified ·

1 Parent(s): e5ddb46

Update app.py

Browse files

Files changed (1) hide show

app.py +25 -27

app.py CHANGED Viewed

@@ -22,10 +22,9 @@ generator = keras.models.load_model(model_path, compile=False)
 # Función para convertir texto a audio
 def text_to_audio(text):
-    # Configuraciones
-    sample_rate = 8000  # Frecuencia de muestreo
-    target_length = 1 * sample_rate  # 2 segundos a 8000 Hz = 16000 muestras
-    default_audio = np.zeros(target_length, dtype=np.float32)
     if not text or not text.strip():
         return (sample_rate, default_audio)
@@ -35,11 +34,24 @@ def text_to_audio(text):
         mel_output, _, _ = tacotron2.encode_text(text)
         mel = mel_output.detach().cpu().numpy().astype(np.float32)
         print(f"Forma original del mel: {mel.shape}")
         # Reorganizar el mel para que coincida con la forma esperada (batch, 80, frames, 1)
-        mel_input = np.expand_dims(mel, axis=0)  # (1, 80, frames)
-        mel_input = np.expand_dims(mel_input, axis=-1)  # (1, 80, frames, 1)
         print(f"Forma del mel preparado: {mel_input.shape}")
@@ -49,34 +61,20 @@ def text_to_audio(text):
         # Procesar el audio generado
         generated_audio = tf.squeeze(generated_audio).numpy()
-        print(f"Forma del audio generado: {generated_audio.shape}")
         # Asegurarse de que hay valores no cero antes de normalizar
         if np.max(np.abs(generated_audio)) > 0:
             generated_audio = generated_audio / np.max(np.abs(generated_audio))
-        # RECORTAR O RELLENAR EL AUDIO A 2 SEGUNDOS (16000 muestras)
-        current_length = len(generated_audio)
-        if current_length > target_length:
-            # Recortar si es más largo de 2 segundos
-            print(f"Recortando audio de {current_length} a {target_length} muestras")
-            final_audio = generated_audio[:target_length]
-        else:
-            # Rellenar con ceros si es más corto de 2 segundos
-            print(f"Rellenando audio de {current_length} a {target_length} muestras")
-            final_audio = np.zeros(target_length, dtype=np.float32)
-            final_audio[:current_length] = generated_audio
         # Convertir a float32 para gradio
-        final_audio = final_audio.astype(np.float32)
-        print(f"Forma final del audio: {final_audio.shape}")
-        return (sample_rate, final_audio)
     except Exception as e:
         print(f"Error en la generación de audio: {e}")
         import traceback
         traceback.print_exc()
         return (sample_rate, default_audio)
@@ -85,12 +83,12 @@ def text_to_audio(text):
 interface = gr.Interface(
     fn=text_to_audio,
     inputs=gr.Textbox(lines=2, placeholder="Escribe algo (ej. 'Hello world')"),
-    outputs=gr.Audio(label="Audio generado (2 segundos)"),
     title="Demo de TTS con Tacotron2 + Generador",
-    description="Convierte texto en audio de 2 segundos usando Tacotron2 + modelo Generator.",
     examples=[["Hello"], ["Hi there"]]
 )
 # Lanzar aplicación
-if __name__ == "__main__":
     interface.launch(debug=True)

 # Función para convertir texto a audio
 def text_to_audio(text):
+    # Crear un array vacío por defecto en caso de error
+    default_audio = np.zeros(8000, dtype=np.float32)
+    sample_rate = 8000  # Ajusta según la configuración de tu modelo
     if not text or not text.strip():
         return (sample_rate, default_audio)
         mel_output, _, _ = tacotron2.encode_text(text)
         mel = mel_output.detach().cpu().numpy().astype(np.float32)
+        # Imprimir forma original del mel para debugging
         print(f"Forma original del mel: {mel.shape}")
         # Reorganizar el mel para que coincida con la forma esperada (batch, 80, frames, 1)
+        # Si mel tiene forma (80, frames) - lo más probable
+        if len(mel.shape) == 2:
+            mel_input = np.expand_dims(mel, axis=0)  # (1, 80, frames)
+            mel_input = np.expand_dims(mel_input, axis=-1)  # (1, 80, frames, 1)
+        # Si viene con otra forma, intentamos adaptarla
+        elif len(mel.shape) == 3 and mel.shape[0] == 1:
+            # Si es (1, 80, frames) o (1, frames, 80)
+            if mel.shape[1] == 80:
+                mel_input = np.expand_dims(mel, axis=-1)  # (1, 80, frames, 1)
+            else:
+                mel_input = np.expand_dims(np.transpose(mel, (0, 2, 1)), axis=-1)  # (1, 80, frames, 1)
+        else:
+            # Intento final de reorganización
+            mel_input = np.expand_dims(np.expand_dims(mel, axis=0), axis=-1)
         print(f"Forma del mel preparado: {mel_input.shape}")
         # Procesar el audio generado
         generated_audio = tf.squeeze(generated_audio).numpy()
         # Asegurarse de que hay valores no cero antes de normalizar
         if np.max(np.abs(generated_audio)) > 0:
             generated_audio = generated_audio / np.max(np.abs(generated_audio))
         # Convertir a float32 para gradio
+        generated_audio = generated_audio.astype(np.float32)
+        print(f"Forma del audio generado: {generated_audio.shape}")
+        return (sample_rate, generated_audio)
     except Exception as e:
         print(f"Error en la generación de audio: {e}")
+        # Si hay error, imprimir un traceback completo para mejor diagnóstico
         import traceback
         traceback.print_exc()
         return (sample_rate, default_audio)
 interface = gr.Interface(
     fn=text_to_audio,
     inputs=gr.Textbox(lines=2, placeholder="Escribe algo (ej. 'Hello world')"),
+    outputs=gr.Audio(label="Audio generado"),
     title="Demo de TTS con Tacotron2 + Generador",
+    description="Convierte texto en audio usando Tacotron2 + modelo Generator entrenado.",
     examples=[["Hello"], ["Hi there"]]
 )
 # Lanzar aplicación
+if _name_ == "_main_":
     interface.launch(debug=True)