Spaces:

Kamaranis
/

ENtoES

Sleeping

App Files Files Community

ENtoES / app.py

Kamaranis

Update app.py

a82008f verified 6 months ago

raw

history blame contribute delete

2.18 kB

	import gradio as gr
	from transformers import pipeline
	import numpy as np
	import librosa

	# 1. Cargamos el pipeline del modelo ASR
	print("Cargando el modelo de transcripción...")
	modelo_transcriptor = pipeline(
	"automatic-speech-recognition",
	model="facebook/wav2vec2-large-xlsr-53-spanish"
	)
	print("Modelo cargado.")

	# Definimos la frecuencia de muestreo que el modelo espera
	FRECUENCIA_OBJETIVO = 16000

	# 2. Definimos la función que procesará el audio
	def transcribir_audio(audio):
	"""
	Recibe los datos del audio desde Gradio, los remuestrea a 16kHz
	y devuelve el texto transcrito.
	"""
	if audio is None:
	return "Por favor, graba algo de audio primero."

	# La variable 'audio' es una tupla: (frecuencia_original, datos_numpy)
	frecuencia_original, datos_audio = audio
	print(f"Recibido audio. Frecuencia original: {frecuencia_original}, Forma de los datos: {datos_audio.shape}")

	# Convertimos el array de audio de enteros a punto flotante de 32 bits
	datos_audio = datos_audio.astype(np.float32)
	print(f"Convertido a tipo de dato: {datos_audio.dtype}")

	# Comprobamos si la frecuencia de muestreo es la correcta. Si no, la remuestreamos.
	if frecuencia_original != FRECUENCIA_OBJETIVO:
	print(f"Remuestreando de {frecuencia_original} Hz a {FRECUENCIA_OBJETIVO} Hz...")
	datos_audio = librosa.resample(y=datos_audio, orig_sr=frecuencia_original, target_sr=FRECUENCIA_OBJETIVO)
	print("Remuestreo completado.")

	# Ahora le pasamos al modelo el audio a la velocidad correcta
	texto = modelo_transcriptor(datos_audio)["text"]

	print(f"Texto transcrito: {texto}")
	return texto

	# 3. Creamos y lanzar la interfaz de Gradio
	demo = gr.Interface(
	fn=transcribir_audio,
	inputs=gr.Audio(
	sources=["microphone"],
	type="numpy",
	label="Graba tu voz en español"
	),
	outputs=gr.Textbox(label="Transcripción"),
	title="Transcripción de Audio a Texto en Español",
	description="Habla en el micrófono y el modelo Wav2Vec2 transcribirá tu voz a texto. El audio se remuestreará a 16kHz automáticamente."
	)

	demo.launch()