Spaces:

cmeyer5678
/

multilingual-speech-synthesis

Runtime error

App Files Files Community

cmeyer5678 commited on Feb 4

Commit

e4da912

verified ·

1 Parent(s): 6551dd3

Create app.py

Browse files

Files changed (1) hide show

app.py +97 -0

app.py ADDED Viewed

	@@ -0,0 +1,97 @@

+import whisper
+import os
+from TTS.api import TTS
+import torch.serialization
+import gradio as gr
+from translate import Translator
+model = whisper.load_model("base")
+def speech_to_text(audio_file):
+    result = model.transcribe(audio_file)
+    print(result["text"])
+    return result["text"]
+def translate(text, language):
+    translator = Translator(to_lang=language)
+    translated_text = translator.translate(text)
+    return translated_text
+original_load = torch.load
+def patched_load(*args, **kwargs):
+    if 'weights_only' in kwargs:
+        kwargs['weights_only'] = False
+    return original_load(*args, **kwargs)
+torch.load = patched_load
+os.environ["COQUI_TOS_AGREED"] = "1"
+tts_model = TTS("tts_models/multilingual/multi-dataset/xtts_v2", gpu=False)
+# Speech to Speech Function
+def s2s(audio, language):
+    print(audio)
+    # Load the audio file from the file path
+    result_text = speech_to_text(audio)
+    translated_text = translate(result_text, language)
+    # Generate speech using the input audio as the speaker's voice
+    tts_model.tts_to_file(text=translated_text,
+                          file_path="output.wav",
+                          # speaker_wav=tmp_path,
+                          speaker_wav=audio,
+                          language=language)
+    with open("output.wav", "rb") as audio_file:
+        audio_data = audio_file.read()
+    # # Remove the temporary file
+    # os.remove(tmp_path)
+    return [result_text, translated_text, "output.wav"]
+# List of supported language codes
+language_names = ["Arabic", "Portuguese", "Chinese", "Czech", "Dutch",
+                  "English", "French", "German", "Italian", "Polish",
+                  "Russian", "Spanish", "Turkish", "Korean",
+                  "Hungarian", "Hindi"]
+language_options = ["ar", "pt", "zh-cn", "cs", "nl", "en", "fr", "de",
+                    "it", "pl", "ru", "es", "tr", "ko", "hu", "hi"]
+language_dropdown = gr.Dropdown(choices=zip(language_names, language_options),
+                                value="es",
+                                label="Target Language",
+                                )
+translate_button = gr.Button(value="Synthesize and Translate my Voice!")
+transcribed_text = gr.Textbox(label="Transcribed Text")
+output_text = gr.Textbox(label="Translated Text")
+output_speech = gr.Audio(label="Translated Speech", type="filepath")
+# Gradio interface with the transcribe function as the main function
+demo = gr.Interface(
+    fn=s2s,
+    inputs=[gr.Audio(sources=["upload", "microphone"],
+                     type="filepath",
+                     format='wav',
+                     show_download_button=True,
+                     waveform_options=gr.WaveformOptions(
+                         waveform_color="#01C6FF",
+                         waveform_progress_color="FF69B4",
+                         skip_length=2,
+                         show_controls=False,
+                     )
+                     ),
+            language_dropdown],
+    outputs=[transcribed_text, output_text, output_speech],
+    theme=gr.themes.Soft(),
+    title="Speech-to-Speech Translation (Demo)"
+)
+demo.launch(debug=True, share=True)