Spaces:

pradeep4321
/

text2speech

Sleeping

App Files Files Community

pradeep4321 commited on May 19, 2025

Commit

374b25a

verified ·

1 Parent(s): d22d3f8

Update app.py

Browse files

Files changed (1) hide show

app.py +63 -80

app.py CHANGED Viewed

@@ -1,80 +1,63 @@
-import os
-import tempfile
-import pyttsx3
-from docx import Document
-from PyPDF2 import PdfReader
-import streamlit as st
-import base64  # Add this import
-from io import BytesIO
-def text_to_speech(text, output_file):
-    engine = pyttsx3.init()
-    engine.setProperty('rate', 150)
-    voices = engine.getProperty('voices')
-    engine.setProperty('voice', voices[1].id)
-    engine.save_to_file(text, output_file)
-    engine.runAndWait()
-def convert_docx_to_text(docx_file):
-    doc = Document(docx_file)
-    text = ""
-    for paragraph in doc.paragraphs:
-        text += paragraph.text + "\n"
-    return text
-def convert_pdf_to_text(pdf_file):
-    text = ""
-    pdf_reader = PdfReader(pdf_file)
-    for page in pdf_reader.pages:
-        text += page.extract_text()
-    return text
-def main():
-    st.title("Text to Speech Converter")
-    uploaded_file = st.file_uploader("Upload a text, docx, or pdf file", type=["txt", "docx", "pdf"])
-    if uploaded_file:
-        try:
-            # Save uploaded file content to a temporary file
-            temp_file = tempfile.NamedTemporaryFile(delete=False)
-            temp_file.write(uploaded_file.read())
-            temp_file.close()
-            file_extension = uploaded_file.name.split('.')[-1]
-            if file_extension.lower() == 'txt':
-                with open(temp_file.name, 'r', encoding='utf-8') as txt_file:
-                    text = txt_file.read()
-            elif file_extension.lower() == 'docx':
-                text = convert_docx_to_text(temp_file.name)
-            elif file_extension.lower() == 'pdf':
-                text = convert_pdf_to_text(temp_file.name)
-            else:
-                st.error("Unsupported file format")
-                return
-            with st.spinner("Converting text to speech..."):
-                output_audio_file = "output.mp3"
-                text_to_speech(text, output_audio_file)
-            st.audio(output_audio_file, format="audio/mp3", start_time=0)
-            # Provide a download link for the audio file
-            with open(output_audio_file, 'rb') as audio_file:
-                audio_bytes = audio_file.read()
-            st.markdown(get_binary_file_downloader_html(audio_bytes, output_audio_file), unsafe_allow_html=True)
-        except Exception as e:
-            st.error(f"An error occurred: {str(e)}")
-# Function to create a download link
-def get_binary_file_downloader_html(bin_file, file_label='File'):
-    with st.spinner("Preparing download link..."):
-        data = bin_file
-        b64 = base64.b64encode(data).decode()
-        href = f'<a href="data:application/octet-stream;base64,{b64}" download="{file_label}" target="_blank">Download {file_label}</a>'
-        return href
-if __name__ == '__main__':
-    main()

+import streamlit as st
+from TTS.api import TTS
+import tempfile
+import os
+# Initialize TTS model (only once)
+@st.cache_resource
+def load_tts_model():
+    return TTS("tts_models/multilingual/multi-dataset/xtts_v2", gpu=True)
+tts = load_tts_model()
+# App title
+st.title("🔊 Voice Cloning with XTTS v2")
+# Text input
+text_input = st.text_area("Enter the text you want to synthesize", height=150)
+# Speaker file uploader
+speaker_file = st.file_uploader("Upload a speaker WAV file", type=["wav"])
+# Button to generate
+if st.button("Generate Speech"):
+    if not text_input:
+        st.error("Please enter text.")
+    elif not speaker_file:
+        st.error("Please upload a speaker WAV file.")
+    else:
+        try:
+            with st.spinner("Generating voice..."):
+                # Save uploaded speaker audio temporarily
+                with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as speaker_temp:
+                    speaker_temp.write(speaker_file.read())
+                    speaker_path = speaker_temp.name
+                # Temporary file to store output
+                output_path = os.path.join(tempfile.gettempdir(), "output.wav")
+                # Generate speech
+                tts.tts_to_file(
+                    text=text_input,
+                    file_path=output_path,
+                    speaker_wav=speaker_path,
+                    language="en"
+                )
+                # Playback
+                st.audio(output_path, format="audio/wav")
+                # Download link
+                with open(output_path, "rb") as f:
+                    st.download_button(
+                        label="Download Audio",
+                        data=f,
+                        file_name="cloned_voice.wav",
+                        mime="audio/wav"
+                    )
+                # Clean up
+                os.remove(speaker_path)
+        except Exception as e:
+            st.error(f"An error occurred: {e}")