Spaces:

Kamaranis
/

ASR_whisper

Running

Kamaranis commited on Jul 15, 2025

Commit

d5adb33

verified ·

1 Parent(s): ef28ba0

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -3,19 +3,19 @@ from transformers import pipeline
 import numpy as np
 import librosa
-# El modelo es Whisper. Usamos la versión "medium" que es un buen balance.
-# "large-v3" es el mejor, pero puede ser muy lento sin una GPU potente.
-MODEL_ID = "openai/whisper-medium"
 # 1. Cargamos el pipeline del modelo ASR
 print(f"Cargando el modelo de transcripción: {MODEL_ID}...")
 modelo_transcriptor = pipeline(
     "automatic-speech-recognition",
-    model=MODEL_ID
 )
 print("Modelo cargado.")
-# El resto del código es EXACTAMENTE IGUAL para otros modelos
 FRECUENCIA_OBJETIVO = 16000
 def transcribir_audio(audio):
@@ -23,12 +23,20 @@ def transcribir_audio(audio):
         return "Por favor, graba algo de audio primero."
     frecuencia_original, datos_audio = audio
     datos_audio = datos_audio.astype(np.float32)
     if frecuencia_original != FRECUENCIA_OBJETIVO:
         datos_audio = librosa.resample(y=datos_audio, orig_sr=frecuencia_original, target_sr=FRECUENCIA_OBJETIVO)
-    # Whisper puede detectar el idioma, pero vamos a forzarlo a español para más precisión
     resultado = modelo_transcriptor(datos_audio, generate_kwargs={"language": "spanish"})
     texto = resultado["text"]

 import numpy as np
 import librosa
+# Usamos el modelo Whisper "base" que es más rápido para depurar.
+MODEL_ID = "openai/whisper-base"
 # 1. Cargamos el pipeline del modelo ASR
 print(f"Cargando el modelo de transcripción: {MODEL_ID}...")
+# Especificamos el dispositivo para asegurarnos de que usa CPU o GPU de forma consistente
 modelo_transcriptor = pipeline(
     "automatic-speech-recognition",
+    model=MODEL_ID,
+    device=0 # 0 para la primera GPU, "cpu" si no hay GPU
 )
 print("Modelo cargado.")
 FRECUENCIA_OBJETIVO = 16000
 def transcribir_audio(audio):
         return "Por favor, graba algo de audio primero."
     frecuencia_original, datos_audio = audio
+    # Convertimos a float32
     datos_audio = datos_audio.astype(np.float32)
+    # Normalizamos el audio al rango [-1.0, 1.0]
+    # Esto es crucial para que Whisper genere el espectrograma correctamente.
+    datos_audio /= np.max(np.abs(datos_audio))
+    print(f"Audio normalizado. Max value: {np.max(np.abs(datos_audio))}")
+    # Remuestreamos si es necesario
     if frecuencia_original != FRECUENCIA_OBJETIVO:
         datos_audio = librosa.resample(y=datos_audio, orig_sr=frecuencia_original, target_sr=FRECUENCIA_OBJETIVO)
+    # El pipeline recibe un audio limpio, normalizado y a la frecuencia correcta.
     resultado = modelo_transcriptor(datos_audio, generate_kwargs={"language": "spanish"})
     texto = resultado["text"]