Spaces:

Kamaranis
/

ENtoES

Sleeping

App Files Files Community

Kamaranis commited on Jul 14, 2025

Commit

50b663f

verified ·

1 Parent(s): 76793b3

Update app.py

Browse files

Files changed (1) hide show

app.py +38 -10

app.py CHANGED Viewed

@@ -1,14 +1,42 @@
-from transformers import pipeline
 import gradio as gr
-modelo = pipeline("automatic-speech-recognition", model="facebook/wav2vec2-large-xlsr-53-spanish")
-def transcribe(audio):
-  text = modelo(audio)["text"]
-  return text
-gr.Interface(
-    fn=transcribe,
-    inputs=[gr.Audio(source="microphone", type="filepath")],
-    outputs=["textbox"]
-).launch()

 import gradio as gr
+from transformers import pipeline
+import numpy as np
+# 1. Cargamos el pipeline del modelo ASR (Automatic Speech Recognition)
+# Este modelo es grande y puede tardar en cargar la primera vez.
+print("Cargando el modelo de transcripción...")
+modelo_transcriptor = pipeline(
+    "automatic-speech-recognition",
+    model="facebook/wav2vec2-large-xlsr-53-spanish"
+)
+print("Modelo cargado.")
+# 2. Definimos la función que procesará el audio
+def transcribir_audio(audio):
+    """
+    Recibe los datos del audio desde Gradio y devuelve el texto transcrito.
+    """
+    if audio is None:
+        return "Por favor, graba algo de audio primero."
+    # Gradio con type="numpy" devuelve una tupla: (frecuencia_muestreo, datos_numpy)
+    # El pipeline es lo suficientemente inteligente para manejar esta tupla directamente.
+    print("Recibido audio, iniciando transcripción...")
+    texto = modelo_transcriptor(audio)["text"]
+    print(f"Texto transcrito: {texto}")
+    return texto
+# 3. Crear y lanzar la interfaz de Gradio
+demo = gr.Interface(
+    fn=transcribir_audio,
+    inputs=gr.Audio(
+        sources=["microphone"],
+        type="numpy", # Clave: Pedimos los datos crudos, no la ruta.
+        label="Graba tu voz en español"
+    ),
+    outputs=gr.Textbox(label="Transcripción"),
+    title="Transcripción de Audio a Texto en Español",
+    description="Habla en el micrófono y el modelo Wav2Vec2 transcribirá tu voz a texto. Dale permiso al navegador para usar el micrófono."
+)
+demo.launch()