Spaces:

Kamaranis
/

ENtoES

Sleeping

App Files Files Community

Kamaranis commited on Jul 14, 2025

Commit

b21e1b5

verified ·

1 Parent(s): f3adc3b

Update app.py

Browse files

Files changed (1) hide show

app.py +22 -10

app.py CHANGED Viewed

@@ -1,9 +1,9 @@
 import gradio as gr
 from transformers import pipeline
 import numpy as np
-# 1. Cargamos el pipeline del modelo ASR (Automatic Speech Recognition)
-# Este modelo es grande y puede tardar en cargar la primera vez.
 print("Cargando el modelo de transcripción...")
 modelo_transcriptor = pipeline(
     "automatic-speech-recognition",
@@ -11,33 +11,45 @@ modelo_transcriptor = pipeline(
 )
 print("Modelo cargado.")
 # 2. Definimos la función que procesará el audio
 def transcribir_audio(audio):
     """
-    Recibe los datos del audio desde Gradio y devuelve el texto transcrito.
     """
     if audio is None:
         return "Por favor, graba algo de audio primero."
-    # La variable 'audio' es una tupla: (frecuencia_muestreo, datos_numpy)
-    # El modelo solo quiere los datos_numpy, que es el segundo elemento.
-    print("Recibido audio, iniciando transcripción...")
-    texto = modelo_transcriptor(audio[1])["text"] #solo el array de NumPy con la onda de sonido)
     print(f"Texto transcrito: {texto}")
     return texto
-# 3. Crear y lanzar la interfaz de Gradio
 demo = gr.Interface(
     fn=transcribir_audio,
     inputs=gr.Audio(
         sources=["microphone"],
-        type="numpy", # Clave: Pedimos los datos crudos, no la ruta.
         label="Graba tu voz en español"
     ),
     outputs=gr.Textbox(label="Transcripción"),
     title="Transcripción de Audio a Texto en Español",
-    description="Habla en el micrófono y el modelo Wav2Vec2 transcribirá tu voz a texto. Dale permiso al navegador para usar el micrófono."
 )
 demo.launch()

 import gradio as gr
 from transformers import pipeline
 import numpy as np
+import librosa
+# 1. Cargamos el pipeline del modelo ASR
 print("Cargando el modelo de transcripción...")
 modelo_transcriptor = pipeline(
     "automatic-speech-recognition",
 )
 print("Modelo cargado.")
+# Definimos la frecuencia de muestreo que el modelo espera
+FRECUENCIA_OBJETIVO = 16000
 # 2. Definimos la función que procesará el audio
 def transcribir_audio(audio):
     """
+    Recibe los datos del audio desde Gradio, los remuestrea a 16kHz
+    y devuelve el texto transcrito.
     """
     if audio is None:
         return "Por favor, graba algo de audio primero."
+    # La variable 'audio' es una tupla: (frecuencia_original, datos_numpy)
+    frecuencia_original, datos_audio = audio
+    print(f"Recibido audio. Frecuencia original: {frecuencia_original}, Forma de los datos: {datos_audio.shape}")
+    # Comprobamos si la frecuencia de muestreo es la correcta. Si no, la remuestreamos.
+    if frecuencia_original != FRECUENCIA_OBJETIVO:
+        print(f"Remuestreando de {frecuencia_original} Hz a {FRECUENCIA_OBJETIVO} Hz...")
+        datos_audio = librosa.resample(y=datos_audio, orig_sr=frecuencia_original, target_sr=FRECUENCIA_OBJETIVO)
+        print("Remuestreo completado.")
+    # Ahora le pasamos al modelo el audio a la velocidad correcta
+    texto = modelo_transcriptor(datos_audio)["text"]
     print(f"Texto transcrito: {texto}")
     return texto
+# 3. Creamos y lanzar la interfaz de Gradio
 demo = gr.Interface(
     fn=transcribir_audio,
     inputs=gr.Audio(
         sources=["microphone"],
+        type="numpy",
         label="Graba tu voz en español"
     ),
     outputs=gr.Textbox(label="Transcripción"),
     title="Transcripción de Audio a Texto en Español",
+    description="Habla en el micrófono y el modelo Wav2Vec2 transcribirá tu voz a texto. El audio se remuestreará a 16kHz automáticamente."
 )
 demo.launch()