Spaces:

RenanOF
/

AudioTexto

Sleeping

App Files Files Community

RenanOF commited on Jan 3, 2025

Commit

f310aaf

verified ·

1 Parent(s): a36023b

Update app.py

Browse files

Files changed (1) hide show

app.py +24 -8

app.py CHANGED Viewed

@@ -3,12 +3,13 @@ from transformers import pipeline
 from pydub import AudioSegment
 from pydub.utils import make_chunks
 import tempfile
-# Inicialize o modelo Whisper com um modelo menor para CPUs
 transcriber = pipeline(
     "automatic-speech-recognition",
-    model="openai/whisper-tiny",  # Troque para `whisper-base` se necessário
-    device="cpu"  # Garante que a CPU será usada
 )
 # Função para dividir áudios longos em trechos menores (30 segundos)
@@ -17,13 +18,28 @@ def split_audio(audio_path, chunk_length=30_000):
     chunks = make_chunks(audio, chunk_length)  # Divide em trechos de 30 segundos
     return chunks
 # Função para transcrever o áudio
 def transcribe(audio_file):
     try:
         # Divida o áudio em partes
-        chunks = split_audio(audio_file)
         full_transcription = []
         # Processar cada parte separadamente
         for i, chunk in enumerate(chunks):
             with tempfile.NamedTemporaryFile(suffix=".wav", delete=True) as temp_chunk:
@@ -41,7 +57,7 @@ with gr.Blocks() as demo:
     with gr.Row():
         with gr.Column(scale=1):
-            gr.Markdown("### 1️⃣ Envie seu áudio (máx. 5 minutos)")
             audio_input = gr.Audio(type="filepath", label="Envie um arquivo de áudio")
         with gr.Column(scale=1):
@@ -53,6 +69,6 @@ with gr.Blocks() as demo:
     # Vincular ação ao botão
     transcribe_button.click(transcribe, inputs=[audio_input], outputs=[transcription_output])
-# Rodar a aplicação
-demo.launch(share=True)

 from pydub import AudioSegment
 from pydub.utils import make_chunks
 import tempfile
+import os
+# Inicialize o modelo Whisper com um modelo otimizado para CPU
 transcriber = pipeline(
     "automatic-speech-recognition",
+    model="openai/whisper-tiny",  # Use modelos menores para maior velocidade
+    device="cpu"  # Certifique-se de usar CPU, já que está na versão gratuita
 )
 # Função para dividir áudios longos em trechos menores (30 segundos)
     chunks = make_chunks(audio, chunk_length)  # Divide em trechos de 30 segundos
     return chunks
+# Função para comprimir áudio (ajustar taxa de amostragem, etc.)
+def compress_audio(audio_path):
+    audio = AudioSegment.from_file(audio_path)
+    compressed_audio = audio.set_frame_rate(16000).set_channels(1).set_sample_width(2)
+    compressed_path = tempfile.NamedTemporaryFile(suffix=".wav", delete=False).name
+    compressed_audio.export(compressed_path, format="wav")
+    return compressed_path
 # Função para transcrever o áudio
 def transcribe(audio_file):
     try:
+        # Verifique o tamanho do arquivo (máx. 5 MB)
+        if os.path.getsize(audio_file) > 5 * 1024 * 1024:
+            return "Erro: O arquivo excede o limite de 5 MB. Por favor, envie um áudio menor."
+        # Comprimir o áudio antes de processar
+        compressed_audio = compress_audio(audio_file)
         # Divida o áudio em partes
+        chunks = split_audio(compressed_audio)
         full_transcription = []
         # Processar cada parte separadamente
         for i, chunk in enumerate(chunks):
             with tempfile.NamedTemporaryFile(suffix=".wav", delete=True) as temp_chunk:
     with gr.Row():
         with gr.Column(scale=1):
+            gr.Markdown("### 1️⃣ Envie seu áudio (máx. 5 MB e 5 minutos)")
             audio_input = gr.Audio(type="filepath", label="Envie um arquivo de áudio")
         with gr.Column(scale=1):
     # Vincular ação ao botão
     transcribe_button.click(transcribe, inputs=[audio_input], outputs=[transcription_output])
+# Rodar a aplicação com tempo limite aumentado
+demo.launch(share=True, server_timeout=300)