Spaces:

Andro0s
/

Texto

Running

App Files Files Community

Andro0s commited on Mar 2

Commit

3b2b7d5

verified ·

1 Parent(s): f316bcf

Create app.py

Browse files

Files changed (1) hide show

app.py +155 -0

app.py ADDED Viewed

	@@ -0,0 +1,155 @@

+import gradio as gr
+import whisper
+import os
+import tempfile
+import numpy as np
+from pydub import AudioSegment
+import torch
+# Cargar modelo (usa "base" para CPU, "small" o "medium" si tienes GPU)
+print("Cargando modelo Whisper...")
+model = whisper.load_model("base")
+print("Modelo cargado.")
+def extract_audio_from_video(video_path):
+    """Extrae audio de video usando ffmpeg"""
+    import subprocess
+    audio_path = video_path.replace('.mp4', '.wav').replace('.avi', '.wav').replace('.mov', '.wav')
+    audio_path = audio_path + "_audio.wav"
+    command = [
+        'ffmpeg',
+        '-i', video_path,
+        '-vn',  # No video
+        '-acodec', 'pcm_s16le',
+        '-ar', '16000',  # Whisper necesita 16kHz
+        '-ac', '1',      # Mono
+        audio_path
+    ]
+    subprocess.run(command, capture_output=True)
+    return audio_path
+def split_audio(audio_path, chunk_length_ms=30000):  # 30 segundos por chunk
+    """Divide el audio en chunks para procesar largos"""
+    audio = AudioSegment.from_wav(audio_path)
+    chunks = []
+    for i in range(0, len(audio), chunk_length_ms):
+        chunk = audio[i:i + chunk_length_ms]
+        chunk_path = f"{audio_path}_chunk_{i}.wav"
+        chunk.export(chunk_path, format="wav")
+        chunks.append(chunk_path)
+    return chunks
+def transcribir_archivo(archivo):
+    """
+    Función principal de transcripción
+    """
+    if archivo is None:
+        return "Por favor sube un archivo"
+    archivo_path = archivo.name if hasattr(archivo, 'name') else archivo
+    texto_completo = []
+    archivos_temp = []
+    try:
+        # Determinar si es video o audio
+        extension = os.path.splitext(archivo_path)[1].lower()
+        es_video = extension in ['.mp4', '.avi', '.mov', '.mkv', '.webm']
+        yield "Procesando archivo...", ""
+        # Extraer audio si es video
+        if es_video:
+            yield "Extrayendo audio del video...", ""
+            audio_path = extract_audio_from_video(archivo_path)
+            archivos_temp.append(audio_path)
+        else:
+            # Convertir a wav si es necesario
+            audio = AudioSegment.from_file(archivo_path)
+            audio_path = tempfile.mktemp(suffix='.wav')
+            audio.export(audio_path, format="wav", parameters=["-ar", "16000", "-ac", "1"])
+            archivos_temp.append(audio_path)
+        # Dividir en chunks si es muy largo (>30 segundos)
+        audio = AudioSegment.from_wav(audio_path)
+        duracion_total = len(audio) / 1000  # segundos
+        if duracion_total > 30:
+            yield f"Dividiendo audio en partes (duración: {duracion_total:.1f}s)...", ""
+            chunks = split_audio(audio_path, 30000)  # 30s chunks
+            archivos_temp.extend(chunks)
+        else:
+            chunks = [audio_path]
+        # Transcribir cada chunk
+        total_chunks = len(chunks)
+        for i, chunk_path in enumerate(chunks):
+            yield f"Transcribiendo parte {i+1} de {total_chunks}...", "\n".join(texto_completo)
+            resultado = model.transcribe(
+                chunk_path,
+                language="es",  # Forzar español (quita esto para autodetectar)
+                task="transcribe"
+            )
+            texto_completo.append(resultado["text"])
+        texto_final = "\n\n".join(texto_completo)
+        yield "¡Transcripción completada!", texto_final
+    except Exception as e:
+        yield f"Error: {str(e)}", ""
+    finally:
+        # Limpiar archivos temporales
+        for temp_file in archivos_temp:
+            try:
+                if os.path.exists(temp_file):
+                    os.remove(temp_file)
+            except:
+                pass
+# Interfaz de Gradio
+with gr.Blocks(title="Transcriptor de Video/Audio") as demo:
+    gr.Markdown("""
+    # 🎙️ Transcriptor de Video y Audio
+    Sube un video o archivo de audio y obtén la transcripción en texto.
+    **Soporta:** MP4, AVI, MOV, MP3, WAV, M4A, etc.
+    **Idioma:** Optimizado para español (pero detecta automáticamente)
+    """)
+    with gr.Row():
+        with gr.Column():
+            archivo_input = gr.File(
+                label="Sube tu video o audio",
+                file_types=["video", "audio"]
+            )
+            btn_transcribir = gr.Button("🚀 Transcribir", variant="primary")
+        with gr.Column():
+            estado = gr.Textbox(label="Estado", interactive=False)
+            resultado = gr.Textbox(
+                label="Transcripción",
+                lines=15,
+                interactive=True
+            )
+    btn_transcribir.click(
+        fn=transcribir_archivo,
+        inputs=archivo_input,
+        outputs=[estado, resultado]
+    )
+    gr.Markdown("""
+    ### 💡 Tips:
+    - Archivos largos se dividen automáticamente en partes
+    - El procesamiento puede tomar varios minutos dependiendo la duración
+    - Máximo recomendado: 1 hora de audio (puede variar según recursos del Space)
+    """)
+if __name__ == "__main__":
+    demo.launch()