Spaces:

RenanOF
/

AudioTexto

Sleeping

App Files Files Community

RenanOF commited on Jan 3, 2025

Commit

a36023b

verified ·

1 Parent(s): 8799343

Update app.py

Browse files

Files changed (1) hide show

app.py +34 -11

app.py CHANGED Viewed

@@ -1,30 +1,52 @@
 import gradio as gr
 from transformers import pipeline
-# Inicialize o modelo de transcrição Whisper
-transcriber = pipeline("automatic-speech-recognition", model="openai/whisper-base")
 # Função para transcrever o áudio
 def transcribe(audio_file):
     try:
-        # Habilitar timestamps para áudios longos
-        transcription = transcriber(audio_file, return_timestamps=True)["text"]
-        return transcription
-    except ValueError as e:
-        return f"Erro ao processar o áudio: {str(e)}"
 # Interface gráfica com Gradio
 with gr.Blocks() as demo:
-    gr.Markdown("# 🎙️ Whisper Transcription - Upload ou Grave Áudio")
     with gr.Row():
         with gr.Column(scale=1):
-            gr.Markdown("### 1️⃣ Envie ou grave seu áudio")
-            audio_input = gr.Audio(type="filepath", label="Envie um arquivo de áudio (máx. 1 min)")
         with gr.Column(scale=1):
             gr.Markdown("### 2️⃣ Resultado da transcrição")
-            transcription_output = gr.Textbox(label="Transcrição", lines=10, interactive=False)
     transcribe_button = gr.Button("🚀 Transcrever")
@@ -33,3 +55,4 @@ with gr.Blocks() as demo:
 # Rodar a aplicação
 demo.launch(share=True)

 import gradio as gr
 from transformers import pipeline
+from pydub import AudioSegment
+from pydub.utils import make_chunks
+import tempfile
+# Inicialize o modelo Whisper com um modelo menor para CPUs
+transcriber = pipeline(
+    "automatic-speech-recognition",
+    model="openai/whisper-tiny",  # Troque para `whisper-base` se necessário
+    device="cpu"  # Garante que a CPU será usada
+)
+# Função para dividir áudios longos em trechos menores (30 segundos)
+def split_audio(audio_path, chunk_length=30_000):
+    audio = AudioSegment.from_file(audio_path)
+    chunks = make_chunks(audio, chunk_length)  # Divide em trechos de 30 segundos
+    return chunks
 # Função para transcrever o áudio
 def transcribe(audio_file):
     try:
+        # Divida o áudio em partes
+        chunks = split_audio(audio_file)
+        full_transcription = []
+        # Processar cada parte separadamente
+        for i, chunk in enumerate(chunks):
+            with tempfile.NamedTemporaryFile(suffix=".wav", delete=True) as temp_chunk:
+                chunk.export(temp_chunk.name, format="wav")
+                transcription = transcriber(temp_chunk.name, return_timestamps=False)["text"]
+                full_transcription.append(f"[Parte {i+1}]: {transcription}")
+        return "\n".join(full_transcription)
+    except Exception as e:
+        return f"Erro ao processar áudio: {str(e)}"
 # Interface gráfica com Gradio
 with gr.Blocks() as demo:
+    gr.Markdown("# 🎙️ Whisper Transcription - Suporte a CPUs e Áudios Longos")
     with gr.Row():
         with gr.Column(scale=1):
+            gr.Markdown("### 1️⃣ Envie seu áudio (máx. 5 minutos)")
+            audio_input = gr.Audio(type="filepath", label="Envie um arquivo de áudio")
         with gr.Column(scale=1):
             gr.Markdown("### 2️⃣ Resultado da transcrição")
+            transcription_output = gr.Textbox(label="Transcrição", lines=15, interactive=False)
     transcribe_button = gr.Button("🚀 Transcrever")
 # Rodar a aplicação
 demo.launch(share=True)