Spaces:

Peca33
/

Audio-translator

Sleeping

App Files Files Community

Peca33 commited on Nov 25, 2024

Commit

a7a32fb

verified ·

1 Parent(s): 6f52852

....

Browse files

Files changed (1) hide show

app.py +32 -6

app.py CHANGED Viewed

@@ -6,16 +6,37 @@ import torch
 from bark import generate_audio
 from scipy.io.wavfile import write
 import tempfile
-# Cargar el modelo Whisper-small
 transcribir = pipeline("automatic-speech-recognition", model="openai/whisper-small")
 # Función para transcribir el audio y traducir el audio de entrada
 def transcribir_audio(audio):
-    # Eliminar el argumento 'task'
-    result = transcribir(audio)
     return result["text"]
 # Función para generar el audio
 def generar_audio(text):
     if not isinstance(text, str):
@@ -26,12 +47,17 @@ def generar_audio(text):
     write(temp_wav.name, 24000, (audio_array * 32767).astype(np.int16))
     return temp_wav.name
 def process_audio(audio_file):
     try:
         # Paso 1: Transcripción con Whisper
-        transcripcion_traducida = transcribir_audio(audio_file)
-        # Paso 2: Generación de audio con Bark
         audio_sintetizado = generar_audio(transcripcion_traducida)
         return transcripcion_traducida, audio_sintetizado
@@ -51,4 +77,4 @@ with gr.Blocks() as demo:
     process_button.click(process_audio, inputs=input_audio, outputs=[transcription_output, output_audio])
 # Lanzar la app
-demo.launch(share=True)

 from bark import generate_audio
 from scipy.io.wavfile import write
 import tempfile
+from transformers import MarianMTModel, MarianTokenizer
+# Cargar el modelo Whisper-small y bark
 transcribir = pipeline("automatic-speech-recognition", model="openai/whisper-small")
+"""bark = pipeline("text-to-speech", model="suno/bark")"""
+# Cargar el tokenizador y el modelo para español a inglés
+model_name = "Helsinki-NLP/opus-mt-es-en"
+tokenizer = MarianTokenizer.from_pretrained(model_name)
+model = MarianMTModel.from_pretrained(model_name)
 # Función para transcribir el audio y traducir el audio de entrada
 def transcribir_audio(audio):
+    # Usamos el pipeline de Hugging Face para la transcripción
+    result = transcribir_audio(audio_file, task="translate")
     return result["text"]
+def traducir_texto(texto):
+    # Tokenizar el texto
+    inputs = tokenizer(texto, return_tensors="pt", padding=True, truncation=True)
+    # Generar la traducción
+    translated = model.generate(**inputs)
+    # Decodificar la traducción
+    traduccion = tokenizer.batch_decode(translated, skip_special_tokens=True)[0]
+    return traduccion
 # Función para generar el audio
 def generar_audio(text):
     if not isinstance(text, str):
     write(temp_wav.name, 24000, (audio_array * 32767).astype(np.int16))
     return temp_wav.name
 def process_audio(audio_file):
     try:
         # Paso 1: Transcripción con Whisper
+        transcripcion = transcribir_audio(audio_file)
+        # Paso 2: Traducción con MarianMT
+        transcripcion_traducida = traducir_texto(transcripcion)
+        # Paso 3: Generación de audio con Bark
         audio_sintetizado = generar_audio(transcripcion_traducida)
         return transcripcion_traducida, audio_sintetizado
     process_button.click(process_audio, inputs=input_audio, outputs=[transcription_output, output_audio])
 # Lanzar la app
+demo.launch(share=True)