Spaces:

mishiawan
/

TransLingo

Sleeping

App Files Files Community

mishiawan commited on Dec 18, 2024

Commit

4b0dd9e

verified ·

1 Parent(s): 3fe01d8

Update app.py

Browse files

Files changed (1) hide show

app.py +67 -83

app.py CHANGED Viewed

@@ -1,98 +1,82 @@
 import streamlit as st
-from transformers import pipeline
-import speech_recognition as sr
 from gtts import gTTS
-import tempfile
 import os
-import base64
-# Initialize the translation pipeline
 @st.cache_resource
-def load_translation_pipeline(model_name):
-    return pipeline("translation", model=model_name)
-# Initialize speech recognition
-recognizer = sr.Recognizer()
-def translate_text(input_text, model):
-    return model(input_text)[0]["translation_text"]
-def speech_to_text(audio_file):
-    with sr.AudioFile(audio_file) as source:
-        audio_data = recognizer.record(source)
-        return recognizer.recognize_google(audio_data)
-def text_to_speech(text, language):
-    tts = gTTS(text=text, lang=language)
-    temp_file = tempfile.NamedTemporaryFile(delete=False, suffix=".mp3")
-    tts.save(temp_file.name)
-    return temp_file.name
-# Streamlit app
-st.title("Real-Time Language Translator")
-st.write("Translate voice and text between multiple languages in real-time!")
-# Language selection
-st.sidebar.header("Settings")
-input_lang = st.sidebar.selectbox("Select Input Language", ["English", "French", "Spanish", "German", "Hindi"])
-output_lang = st.sidebar.selectbox("Select Output Language", ["English", "French", "Spanish", "German", "Hindi"])
-# Language codes mapping
-lang_codes = {
     "English": "en",
     "French": "fr",
     "Spanish": "es",
     "German": "de",
-    "Hindi": "hi"
 }
-input_code = lang_codes[input_lang]
-output_code = lang_codes[output_lang]
-# Model selection
-model_name = f"Helsinki-NLP/opus-mt-{input_code}-{output_code}"
-translation_pipeline = load_translation_pipeline(model_name)
-# Input options
-st.header("Input Options")
-input_mode = st.radio("Choose Input Mode:", ["Text", "Voice"])
-if input_mode == "Text":
-    input_text = st.text_area(f"Enter text in {input_lang}:")
-    if st.button("Translate"):
-        if input_text.strip():
-            translated_text = translate_text(input_text, translation_pipeline)
-            st.success(f"Translated Text in {output_lang}: {translated_text}")
-            # Option to download translation as audio
-            if st.checkbox("Play Translated Audio"):
-                audio_file = text_to_speech(translated_text, output_code)
-                audio_bytes = open(audio_file, "rb").read()
-                st.audio(audio_bytes, format="audio/mp3")
-                # Provide download link
-                b64 = base64.b64encode(audio_bytes).decode()
-                href = f'<a href="data:audio/mp3;base64,{b64}" download="translation.mp3">Download Translated Audio</a>'
-                st.markdown(href, unsafe_allow_html=True)
-else:
-    audio_file = st.file_uploader("Upload an audio file (WAV format)", type=["wav"])
-    if audio_file is not None:
-        if st.button("Translate"):
-            try:
-                input_text = speech_to_text(audio_file)
-                st.write(f"Recognized Text in {input_lang}: {input_text}")
-                translated_text = translate_text(input_text, translation_pipeline)
-                st.success(f"Translated Text in {output_lang}: {translated_text}")
-                # Option to download translation as audio
-                if st.checkbox("Play Translated Audio"):
-                    audio_file = text_to_speech(translated_text, output_code)
-                    audio_bytes = open(audio_file, "rb").read()
-                    st.audio(audio_bytes, format="audio/mp3")
-                    # Provide download link
-                    b64 = base64.b64encode(audio_bytes).decode()
-                    href = f'<a href="data:audio/mp3;base64,{b64}" download="translation.mp3">Download Translated Audio</a>'
-                    st.markdown(href, unsafe_allow_html=True)
-            except Exception as e:
-                st.error(f"Error: {e}")

 import streamlit as st
+from pydub import AudioSegment
+from pydub.playback import play
+import whisper
 from gtts import gTTS
 import os
+# Load Whisper model (open-source)
 @st.cache_resource
+def load_model():
+    return whisper.load_model("base")
+model = load_model()
+# Supported language options
+languages = {
     "English": "en",
     "French": "fr",
     "Spanish": "es",
     "German": "de",
+    "Chinese": "zh",
+    "Japanese": "ja",
+    "Korean": "ko",
+    "Hindi": "hi",
+    "Urdu": "ur"
 }
+# App UI
+st.title("Real-Time Voice Translator 🌍🎤")
+st.markdown(
+    """
+    This application allows you to translate spoken words between multiple languages in real-time.
+    **Steps**:
+    1. Choose input and output languages.
+    2. Upload your audio file.
+    3. Get the translated output and synthesized speech.
+    """
+)
+# Language selection
+input_language = st.selectbox("Select Input Language:", list(languages.keys()))
+output_language = st.selectbox("Select Output Language:", list(languages.keys()))
+# Audio file upload
+audio_file = st.file_uploader("Upload an audio file (in .wav format):", type=["wav"])
+if audio_file:
+    # Load audio file
+    with open("temp_audio.wav", "wb") as f:
+        f.write(audio_file.read())
+    st.audio("temp_audio.wav", format="audio/wav", start_time=0)
+    # Transcribe audio using Whisper
+    st.write("Transcribing audio...")
+    audio = whisper.load_audio("temp_audio.wav")
+    audio = whisper.pad_or_trim(audio)
+    mel = whisper.log_mel_spectrogram(audio).to(model.device)
+    options = whisper.DecodingOptions(language=languages[input_language], fp16=False)
+    transcription = whisper.decode(model, mel, options).text
+    st.write(f"Transcribed Text: **{transcription}**")
+    # Translate text
+    st.write("Translating text...")
+    translated_text = model.transcribe("temp_audio.wav", task="translate", language=languages[output_language])["text"]
+    st.write(f"Translated Text: **{translated_text}**")
+    # Convert translated text to speech
+    st.write("Generating synthesized speech...")
+    tts = gTTS(text=translated_text, lang=languages[output_language])
+    tts.save("output_audio.mp3")
+    # Play output audio
+    st.audio("output_audio.mp3", format="audio/mp3", start_time=0)
+    # Remove temporary files
+    os.remove("temp_audio.wav")
+    os.remove("output_audio.mp3")
+st.markdown("---")
+st.write("Developed using open-source models and tools. 🚀")