Spaces:

SohomToom
/

DocToAudioConverted

Sleeping

App Files Files Community

SohomToom commited on May 6, 2025

Commit

b9d2659

verified ·

1 Parent(s): c16247c

Update app.py

Browse files

Files changed (1) hide show

app.py +39 -4

app.py CHANGED Viewed

@@ -5,6 +5,7 @@ import gradio as gr
 from docx import Document
 from TTS.api import TTS
 import tempfile
 # Voice model
 VOICE_MODEL = "tts_models/en/vctk/vits"
@@ -135,6 +136,40 @@ def docx_to_wav(doc_file, selected_desc):
     tts.tts_to_file(text=full_text, file_path=wav_path, speaker=speaker_id)
     return wav_path
 # Gradio UI
 with gr.Blocks() as interface:
     gr.Markdown("# 🎤 English Voice Generator from DOCX")
@@ -151,10 +186,10 @@ with gr.Blocks() as interface:
     output_audio = gr.Audio(label="Generated Audio", type="filepath")
     generate_btn.click(
-        fn=docx_to_wav,
-        inputs=[doc_input, speaker_dropdown],
-        outputs=output_audio
-    )
 if __name__ == "__main__":
     interface.launch()

 from docx import Document
 from TTS.api import TTS
 import tempfile
+import zipfile
 # Voice model
 VOICE_MODEL = "tts_models/en/vctk/vits"
     tts.tts_to_file(text=full_text, file_path=wav_path, speaker=speaker_id)
     return wav_path
+def docx_to_zipped_wavs(doc_file, selected_desc):
+    speaker_id = next((sid for desc, sid in get_speaker_dropdown_choices() if desc == selected_desc), None)
+    if not speaker_id:
+        raise ValueError("Invalid speaker selection")
+    tts = load_tts_model()
+    document = Document(doc_file.name)
+    paragraphs = [p.text.strip() for p in document.paragraphs if p.text.strip()]
+    if not paragraphs:
+        raise ValueError("No non-empty paragraphs found in the document.")
+    with tempfile.TemporaryDirectory() as temp_dir:
+        wav_paths = []
+        for i, para in enumerate(paragraphs, start=1):
+            wav_path = os.path.join(temp_dir, f"chunk_{i:02d}.wav")
+            tts.tts_to_file(text=para, file_path=wav_path, speaker=speaker_id)
+            wav_paths.append(wav_path)
+        # Create a zip file
+        zip_path = os.path.join(temp_dir, "voice_chunks.zip")
+        with zipfile.ZipFile(zip_path, "w") as zipf:
+            for wav in wav_paths:
+                zipf.write(wav, os.path.basename(wav))
+        # Copy zip to a final temp file for Gradio to return
+        final_zip = tempfile.NamedTemporaryFile(suffix=".zip", delete=False)
+        with open(zip_path, "rb") as src, open(final_zip.name, "wb") as dst:
+            dst.write(src.read())
+    return final_zip.name
 # Gradio UI
 with gr.Blocks() as interface:
     gr.Markdown("# 🎤 English Voice Generator from DOCX")
     output_audio = gr.Audio(label="Generated Audio", type="filepath")
     generate_btn.click(
+    fn=docx_to_zipped_wavs,
+    inputs=[doc_input, speaker_dropdown],
+    outputs=gr.File(label="Download ZIP of Audio Files")
+)
 if __name__ == "__main__":
     interface.launch()