Spaces:

SohomToom
/

DocToAudioConverted

Sleeping

App Files Files Community

SohomToom commited on May 6, 2025

Commit

235e7c7

verified ·

1 Parent(s): 59d129e

Update app.py

Browse files

Files changed (1) hide show

app.py +75 -78

app.py CHANGED Viewed

@@ -1,11 +1,14 @@
 import os
 os.environ["NUMBA_DISABLE_CACHE"] = "1"
 import gradio as gr
 from docx import Document
 from TTS.api import TTS
 import tempfile
 import zipfile
 # Voice model
 VOICE_MODEL = "tts_models/en/vctk/vits"
@@ -105,91 +108,85 @@ SPEAKER_METADATA = {
-# Return dropdown list like: "p225 - F, English"
-def get_speaker_dropdown_choices():
-    choices = []
-    for speaker_id, meta in SPEAKER_METADATA.items():
-        desc = f"p{speaker_id} - {meta['gender']}, {meta['accent']}"
-        choices.append((desc, f"p{speaker_id}"))
-    return choices
-# Cache TTS model
-MODEL_CACHE = {}
-def load_tts_model():
-    if VOICE_MODEL not in MODEL_CACHE:
-        MODEL_CACHE[VOICE_MODEL] = TTS(model_name=VOICE_MODEL, progress_bar=False, gpu=False)
-    return MODEL_CACHE[VOICE_MODEL]
-def docx_to_wav(doc_file, selected_desc):
-    speaker_id = next((sid for desc, sid in get_speaker_dropdown_choices() if desc == selected_desc), None)
-    if not speaker_id:
-        raise ValueError("Invalid speaker selection")
-    tts = load_tts_model()
-    document = Document(doc_file.name)
-    full_text = "\n".join([para.text for para in document.paragraphs if para.text.strip()])
     with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as tmp_wav:
-        wav_path = tmp_wav.name
-    tts.tts_to_file(text=full_text, file_path=wav_path, speaker=speaker_id)
-    return wav_path
-def docx_to_zipped_wavs(doc_file, selected_desc):
-    speaker_id = next((sid for desc, sid in get_speaker_dropdown_choices() if desc == selected_desc), None)
-    if not speaker_id:
-        raise ValueError("Invalid speaker selection")
-    tts = load_tts_model()
-    document = Document(doc_file.name)
-    paragraphs = [p.text.strip() for p in document.paragraphs if p.text.strip()]
-    if not paragraphs:
-        raise ValueError("No non-empty paragraphs found in the document.")
-    with tempfile.TemporaryDirectory() as temp_dir:
-        wav_paths = []
-        for i, para in enumerate(paragraphs, start=1):
-            wav_path = os.path.join(temp_dir, f"chunk_{i:02d}.wav")
-            tts.tts_to_file(text=para, file_path=wav_path, speaker=speaker_id)
-            wav_paths.append(wav_path)
-        # Create a zip file
-        zip_path = os.path.join(temp_dir, "voice_chunks.zip")
-        with zipfile.ZipFile(zip_path, "w") as zipf:
-            for wav in wav_paths:
-                zipf.write(wav, os.path.basename(wav))
-        # Copy zip to a final temp file for Gradio to return
-        final_zip = tempfile.NamedTemporaryFile(suffix=".zip", delete=False)
-        with open(zip_path, "rb") as src, open(final_zip.name, "wb") as dst:
-            dst.write(src.read())
-    return final_zip.name
-# Gradio UI
-with gr.Blocks() as interface:
-    gr.Markdown("# 🎤 English Voice Generator from DOCX")
-    gr.Markdown("Upload a `.docx` file and select a speaker to generate a WAV voiceover.")
-    doc_input = gr.File(label="Upload .docx File", type="filepath")
-    speaker_dropdown = gr.Dropdown(
-        choices=[desc for desc, _ in get_speaker_dropdown_choices()],
-        label="Select Speaker",
-        value=None
-    )
-    generate_btn = gr.Button("Generate WAV")
-    #output_audio = gr.Audio(label="Generated Audio", type="filepath")
-    generate_btn.click(
-    fn=docx_to_zipped_wavs,
-    inputs=[doc_input, speaker_dropdown],
-    outputs=gr.File(label="Download ZIP of Audio Files")
-)
 if __name__ == "__main__":
     interface.launch()

 import os
 os.environ["NUMBA_DISABLE_CACHE"] = "1"
+import os
 import gradio as gr
 from docx import Document
 from TTS.api import TTS
 import tempfile
 import zipfile
+from io import BytesIO
+import re
 # Voice model
 VOICE_MODEL = "tts_models/en/vctk/vits"
+# Static list of speakers for dropdown
+SPEAKER_CHOICES = [
+    f"{sid} - {data['gender']} - {data['accent']} (Age {data['age']})"
+    for sid, data in SPEAKER_METADATA.items()
+]
+# VCTK model (multi-speaker)
+MODEL_NAME = "tts_models/en/vctk/vits"
+tts = TTS(model_name=MODEL_NAME, progress_bar=False, gpu=False)
+# Extract plain text from docx, ignoring hyperlinks
+def extract_text_ignoring_hyperlinks(docx_file):
+    doc = Document(docx_file.name)
+    text_blocks = []
+    for para in doc.paragraphs:
+        # Remove hyperlinks using regex or by inspecting runs
+        if para.text.strip():
+            clean_text = re.sub(r'https?://\S+', '', para.text)
+            text_blocks.append(clean_text.strip())
+    return text_blocks
+# Generate sample audio for preview
+def generate_sample_audio(sample_text, selected_speaker):
+    if not sample_text.strip():
+        raise gr.Error("Sample text cannot be empty.")
+    sid = selected_speaker.split(" ")[0]  # Extract speaker ID
     with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as tmp_wav:
+        tts.tts_to_file(text=sample_text, speaker=sid, file_path=tmp_wav.name)
+        return tmp_wav.name
+# Main conversion function
+def docx_to_zipped_wavs(doc_file, selected_speaker):
+    sid = selected_speaker.split(" ")[0]
+    paragraphs = extract_text_ignoring_hyperlinks(doc_file)
+    audio_files = []
+    try:
+        for i, para in enumerate(paragraphs):
+            if not para:
+                continue
+            with tempfile.NamedTemporaryFile(suffix=f"_{i}.wav", delete=False) as tmp_wav:
+                tts.tts_to_file(text=para, speaker=sid, file_path=tmp_wav.name)
+                audio_files.append(tmp_wav.name)
+    except Exception as e:
+        print("Connection interrupted, returning partial result.", str(e))
+    # Zip the results
+    zip_buffer = BytesIO()
+    with zipfile.ZipFile(zip_buffer, "w") as zipf:
+        for wav_path in audio_files:
+            zipf.write(wav_path, arcname=os.path.basename(wav_path))
+    zip_buffer.seek(0)
+    # Save the zip temporarily for download
+    final_zip = tempfile.NamedTemporaryFile(delete=False, suffix=".zip")
+    final_zip.write(zip_buffer.read())
+    final_zip.close()
+    return final_zip.name
+# Gradio UI
+with gr.Blocks() as interface:
+    gr.Markdown("""# Multi-Paragraph Voiceover Generator
+Upload a `.docx` file and convert each paragraph to audio. You can also try a short sample first.
+""")
+    with gr.Row():
+        sample_text = gr.Textbox(label="Sample Text (Max 500 chars)", max_lines=4, lines=3, max_length=500)
+        speaker_dropdown = gr.Dropdown(label="Select Speaker", choices=SPEAKER_CHOICES, value=SPEAKER_CHOICES[0])
+    sample_button = gr.Button("Generate Sample Audio")
+    sample_audio = gr.Audio(label="Sample Audio", type="filepath")
+    with gr.Row():
+        docx_input = gr.File(label="Upload .docx File", type="filepath")
+        convert_button = gr.Button("Generate WAV Zip")
+    final_output = gr.File(label="Download ZIP of WAVs")
+    sample_button.click(fn=generate_sample_audio, inputs=[sample_text, speaker_dropdown], outputs=sample_audio)
+    convert_button.click(fn=docx_to_zipped_wavs, inputs=[docx_input, speaker_dropdown], outputs=final_output)
 if __name__ == "__main__":
     interface.launch()