Spaces:

pradeep4321
/

text2speech

Sleeping

App Files Files Community

pradeep4321 commited on May 19, 2025

Commit

b2cfb3e

verified ·

1 Parent(s): f4be530

Update src/app.py

Browse files

Files changed (1) hide show

src/app.py +27 -17

src/app.py CHANGED Viewed

@@ -2,14 +2,17 @@ import streamlit as st
 from docx import Document
 from PyPDF2 import PdfReader
 from io import BytesIO
-from TTS.api import TTS
-from scipy.io.wavfile import write
-import numpy as np
-# Load offline TTS model once
 @st.cache_resource
-def load_tts_model():
-    return TTS(model_name="tts_models/en/ljspeech/tacotron2-DDC", progress_bar=False, gpu=False)
 def convert_docx_to_text(docx_file):
     doc = Document(docx_file)
@@ -19,23 +22,26 @@ def convert_pdf_to_text(pdf_file):
     reader = PdfReader(pdf_file)
     return "\n".join([page.extract_text() or '' for page in reader.pages])
-def text_to_speech(text):
-    tts = load_tts_model()
-    wav = tts.tts(text)
     buffer = BytesIO()
-    write(buffer, 22050, np.array(wav))  # Save as WAV
     buffer.seek(0)
     return buffer
-def get_download_link(audio_data, filename="output.wav"):
-    b64 = st.base64.b64encode(audio_data.getvalue()).decode()
     href = f'<a href="data:audio/wav;base64,{b64}" download="{filename}">Download {filename}</a>'
     return href
 def main():
-    st.title("Text to Speech Converter (Offline - Hugging Face Safe)")
-    uploaded_file = st.file_uploader("Upload a text, docx, or pdf file", type=["txt", "docx", "pdf"])
     if uploaded_file:
         ext = uploaded_file.name.split('.')[-1].lower()
@@ -47,15 +53,19 @@ def main():
         elif ext == 'pdf':
             text = convert_pdf_to_text(uploaded_file)
         else:
-            st.error("Unsupported file format")
             return
         if not text.strip():
             st.warning("No readable text found.")
             return
-        with st.spinner("Generating speech..."):
-            audio_buffer = text_to_speech(text)
         st.audio(audio_buffer, format="audio/wav")
         st.markdown(get_download_link(audio_buffer), unsafe_allow_html=True)

 from docx import Document
 from PyPDF2 import PdfReader
 from io import BytesIO
+import torch
+import torchaudio
+import soundfile as sf
+from transformers import AutoProcessor, AutoModelForSpeechSeq2Seq
+# Load TTS model and processor
 @st.cache_resource
+def load_model():
+    model = AutoModelForSpeechSeq2Seq.from_pretrained("espnet/kan-bayashi_ljspeech_vits")
+    processor = AutoProcessor.from_pretrained("espnet/kan-bayashi_ljspeech_vits")
+    return model, processor
 def convert_docx_to_text(docx_file):
     doc = Document(docx_file)
     reader = PdfReader(pdf_file)
     return "\n".join([page.extract_text() or '' for page in reader.pages])
+def text_to_speech(text, model, processor):
+    inputs = processor(text, return_tensors="pt")
+    with torch.no_grad():
+        speech = model.generate(**inputs)
+    waveform = speech.squeeze().cpu().numpy()
     buffer = BytesIO()
+    sf.write(buffer, waveform, 22050, format="WAV")
     buffer.seek(0)
     return buffer
+def get_download_link(audio_buffer, filename="output.wav"):
+    b64 = st.base64.b64encode(audio_buffer.getvalue()).decode()
     href = f'<a href="data:audio/wav;base64,{b64}" download="{filename}">Download {filename}</a>'
     return href
 def main():
+    st.title("Text to Speech with Transformers (Offline Hugging Face)")
+    uploaded_file = st.file_uploader("Upload a TXT, DOCX, or PDF file", type=["txt", "docx", "pdf"])
     if uploaded_file:
         ext = uploaded_file.name.split('.')[-1].lower()
         elif ext == 'pdf':
             text = convert_pdf_to_text(uploaded_file)
         else:
+            st.error("Unsupported file type")
             return
         if not text.strip():
             st.warning("No readable text found.")
             return
+        st.subheader("Extracted Text:")
+        st.write(text[:1000] + ("..." if len(text) > 1000 else ""))
+        with st.spinner("Generating audio..."):
+            model, processor = load_model()
+            audio_buffer = text_to_speech(text, model, processor)
         st.audio(audio_buffer, format="audio/wav")
         st.markdown(get_download_link(audio_buffer), unsafe_allow_html=True)