Spaces:

Andro0s
/

Texto

Sleeping

App Files Files Community

Andro0s commited on 26 days ago

Commit

acd7eaf

verified ·

1 Parent(s): 4e273b2

Update app.py

Browse files

Files changed (1) hide show

app.py +60 -63

app.py CHANGED Viewed

@@ -5,15 +5,16 @@ import tempfile
 from pydub import AudioSegment
 import subprocess
-# Cargar modelo
 print("Cargando modelo Whisper...")
-model = whisper.load_model("base")
 print("Modelo cargado.")
 def extract_audio_from_video(video_path):
     """Extrae audio de video usando ffmpeg"""
     audio_path = tempfile.mktemp(suffix='.wav')
     command = [
         'ffmpeg',
         '-i', video_path,
@@ -21,88 +22,81 @@ def extract_audio_from_video(video_path):
         '-acodec', 'pcm_s16le',
         '-ar', '16000',
         '-ac', '1',
-        '-y',  # Sobrescribir si existe
         audio_path
     ]
     result = subprocess.run(command, capture_output=True, text=True)
     if result.returncode != 0:
         raise Exception(f"Error extrayendo audio: {result.stderr}")
     return audio_path
-def split_audio(audio_path, chunk_length_ms=30000):
-    """Divide el audio en chunks"""
-    audio = AudioSegment.from_wav(audio_path)
-    chunks = []
-    for i in range(0, len(audio), chunk_length_ms):
-        chunk = audio[i:i + chunk_length_ms]
-        chunk_path = tempfile.mktemp(suffix=f'_chunk_{i}.wav')
-        chunk.export(chunk_path, format="wav")
-        chunks.append(chunk_path)
-    return chunks
 def transcribir_archivo(archivo):
     """Función principal de transcripción"""
     if archivo is None:
-        yield "Por favor sube un archivo", ""
         return
-    texto_completo = []
     archivos_temp = []
     try:
         extension = os.path.splitext(archivo)[1].lower()
         es_video = extension in ['.mp4', '.avi', '.mov', '.mkv', '.webm', '.mpg', '.mpeg']
         yield "Procesando archivo...", ""
-        # Extraer audio si es video
         if es_video:
             yield "Extrayendo audio del video...", ""
             audio_path = extract_audio_from_video(archivo)
-            archivos_temp.append(audio_path)
         else:
-            # Convertir a wav
-            yield "Convirtiendo audio...", ""
-            audio = AudioSegment.from_file(archivo)
-            audio_path = tempfile.mktemp(suffix='.wav')
-            audio.export(audio_path, format="wav", parameters=["-ar", "16000", "-ac", "1"])
-            archivos_temp.append(audio_path)
-        # Verificar duración
         audio = AudioSegment.from_wav(audio_path)
         duracion_total = len(audio) / 1000
-        if duracion_total > 30:
-            yield f"Dividiendo audio en partes (duración: {duracion_total:.1f}s)...", ""
-            chunks = split_audio(audio_path, 30000)
-            archivos_temp.extend(chunks)
-        else:
-            chunks = [audio_path]
-        # Transcribir
-        total_chunks = len(chunks)
-        for i, chunk_path in enumerate(chunks):
-            yield f"Transcribiendo parte {i+1} de {total_chunks}...", "\n\n".join(texto_completo)
-            resultado = model.transcribe(
-                chunk_path,
-                language="es",
-                task="transcribe"
-            )
-            texto_completo.append(resultado["text"])
-        texto_final = "\n\n".join(texto_completo)
         yield "¡Transcripción completada!", texto_final
     except Exception as e:
         yield f"Error: {str(e)}", ""
     finally:
-        # Limpiar
         for temp_file in archivos_temp:
             try:
                 if os.path.exists(temp_file):
@@ -110,14 +104,16 @@ def transcribir_archivo(archivo):
             except:
                 pass
 # Interfaz Gradio
 with gr.Blocks(title="Transcriptor de Video/Audio") as demo:
     gr.Markdown("""
     # 🎙️ Transcriptor de Video y Audio
-    Sube un video o archivo de audio y obtén la transcripción en texto.
     """)
     with gr.Row():
         with gr.Column():
             archivo_input = gr.File(
@@ -125,15 +121,16 @@ with gr.Blocks(title="Transcriptor de Video/Audio") as demo:
                 file_types=["video", "audio"]
             )
             btn_transcribir = gr.Button("🚀 Transcribir", variant="primary")
         with gr.Column():
             estado = gr.Textbox(label="Estado", interactive=False)
             resultado = gr.Textbox(
                 label="Transcripción",
                 lines=15,
-                interactive=True
             )
     btn_transcribir.click(
         fn=transcribir_archivo,
         inputs=archivo_input,

 from pydub import AudioSegment
 import subprocess
+# Cargar modelo - "small" funciona mucho mejor que "base" para español
 print("Cargando modelo Whisper...")
+model = whisper.load_model("small")
 print("Modelo cargado.")
 def extract_audio_from_video(video_path):
     """Extrae audio de video usando ffmpeg"""
     audio_path = tempfile.mktemp(suffix='.wav')
     command = [
         'ffmpeg',
         '-i', video_path,
         '-acodec', 'pcm_s16le',
         '-ar', '16000',
         '-ac', '1',
+        '-y',
         audio_path
     ]
     result = subprocess.run(command, capture_output=True, text=True)
     if result.returncode != 0:
         raise Exception(f"Error extrayendo audio: {result.stderr}")
+    return audio_path
+def convert_to_wav(input_path):
+    """Convierte cualquier audio a WAV 16kHz mono"""
+    audio = AudioSegment.from_file(input_path)
+    audio_path = tempfile.mktemp(suffix='.wav')
+    audio = audio.set_frame_rate(16000).set_channels(1)
+    audio.export(audio_path, format="wav")
     return audio_path
 def transcribir_archivo(archivo):
     """Función principal de transcripción"""
     if archivo is None:
+        yield "Por favor sube un archivo.", ""
         return
     archivos_temp = []
     try:
         extension = os.path.splitext(archivo)[1].lower()
         es_video = extension in ['.mp4', '.avi', '.mov', '.mkv', '.webm', '.mpg', '.mpeg']
         yield "Procesando archivo...", ""
+        # Paso 1: obtener WAV limpio
         if es_video:
             yield "Extrayendo audio del video...", ""
             audio_path = extract_audio_from_video(archivo)
         else:
+            yield "Convirtiendo audio a WAV...", ""
+            audio_path = convert_to_wav(archivo)
+        archivos_temp.append(audio_path)
+        # Paso 2: verificar duración
         audio = AudioSegment.from_wav(audio_path)
         duracion_total = len(audio) / 1000
+        yield f"Audio listo. Duración: {duracion_total:.1f}s. Iniciando transcripción...", ""
+        # Paso 3: transcribir directamente con Whisper
+        # Whisper maneja internamente audios largos (sliding window de 30s)
+        # sin necesidad de dividir manualmente, lo que mejora la coherencia
+        resultado = model.transcribe(
+            audio_path,
+            language="es",
+            task="transcribe",
+            fp16=False,        # Necesario en CPU (Hugging Face free tier)
+            temperature=0,     # Más determinista, menos alucinaciones
+            best_of=1,
+            beam_size=5,
+            verbose=False
+        )
+        texto_final = resultado["text"].strip()
+        if not texto_final:
+            yield "La transcripción quedó vacía. Verifica que el audio tenga voz clara.", ""
+            return
         yield "¡Transcripción completada!", texto_final
     except Exception as e:
         yield f"Error: {str(e)}", ""
     finally:
         for temp_file in archivos_temp:
             try:
                 if os.path.exists(temp_file):
             except:
                 pass
 # Interfaz Gradio
 with gr.Blocks(title="Transcriptor de Video/Audio") as demo:
     gr.Markdown("""
     # 🎙️ Transcriptor de Video y Audio
+    Sube un video o archivo de audio y obtén la transcripción en español.
+    **Formatos soportados:** MP4, AVI, MOV, MKV, MP3, WAV, M4A, OGG, WEBM
     """)
     with gr.Row():
         with gr.Column():
             archivo_input = gr.File(
                 file_types=["video", "audio"]
             )
             btn_transcribir = gr.Button("🚀 Transcribir", variant="primary")
         with gr.Column():
             estado = gr.Textbox(label="Estado", interactive=False)
             resultado = gr.Textbox(
                 label="Transcripción",
                 lines=15,
+                interactive=True,
+                placeholder="La transcripción aparecerá aquí..."
             )
     btn_transcribir.click(
         fn=transcribir_archivo,
         inputs=archivo_input,