Spaces:

WAQASCHANNA
/

Presentation_Slides_VoiceOver_Maker

Running

App Files Files Community

WAQASCHANNA commited on Feb 24, 2025

Commit

89860f7

verified ·

1 Parent(s): 1ebf05f

Update app.py

Browse files

Files changed (1) hide show

app.py +96 -56

app.py CHANGED Viewed

@@ -1,57 +1,68 @@
 import os
 import streamlit as st
 from gtts import gTTS
 from pydub import AudioSegment
 from moviepy.editor import ImageClip, concatenate_videoclips, AudioFileClip
 # ==================================================================
 # Core Functions
 # ==================================================================
-def text_to_speech(slide_texts):
-    """Convert scripts to voice-over audio"""
     audio_clips = []
     durations = []
     for i, text in enumerate(slide_texts):
-        tts = gTTS(text=text, lang='en', slow=False)
-        tts.save(f"temp_voice_{i}.mp3")
-        clip = AudioSegment.from_mp3(f"temp_voice_{i}.mp3")
-        audio_clips.append(clip)
-        durations.append(len(clip))  # Duration in milliseconds
-        os.remove(f"temp_voice_{i}.mp3")  # Cleanup
     combined_audio = sum(audio_clips)
-    combined_audio.export("voiceover.mp3", format="mp3")
-    return durations
-def add_background_music(voice_file, music_file):
     """Mix voice-over with background music"""
-    voice = AudioSegment.from_mp3(voice_file)
-    if music_file:
-        music = AudioSegment.from_file(music_file)
-        music = music[:len(voice)].fade_out(2000)
-        music = music - 25  # Reduce volume by 25dB
-        final_audio = voice.overlay(music)
     else:
         final_audio = voice  # No music
-    final_audio.export("final_audio.mp3", format="mp3")
-    return len(final_audio) / 1000  # Duration in seconds
-def create_video(img_paths, durations):
     """Generate video from images and audio"""
     clips = []
     for img_path, duration in zip(img_paths, durations):
-        # Duration in seconds (convert from milliseconds)
         clip = ImageClip(img_path).set_duration(duration / 1000)
         clips.append(clip)
     video = concatenate_videoclips(clips, method="compose")
-    video = video.set_audio(AudioFileClip("final_audio.mp3"))
-    video.write_videofile("output.mp4", fps=24)
-    return video
 # ==================================================================
 # Streamlit UI
@@ -59,6 +70,10 @@ def create_video(img_paths, durations):
 st.title("PNG Slides to Video Maker 🖼️➡️🎥")
 st.markdown("Upload PNG slides, add scripts, and generate a video!")
 # Step 1: Upload PNG slides
 uploaded_images = st.file_uploader(
     "Upload PNG Slides (in order)",
@@ -66,61 +81,86 @@ uploaded_images = st.file_uploader(
     accept_multiple_files=True
 )
 # Step 2: Upload background music (optional)
 uploaded_music = st.file_uploader("Background Music (optional)", type=["mp3"])
-# Step 3: Add scripts for each slide
 slide_texts = []
 if uploaded_images:
-    # Sort images by filename (assuming filenames are in order)
-    uploaded_images.sort(key=lambda x: x.name)
-    num_slides = len(uploaded_images)
-    with st.expander(f"Add Scripts for {num_slides} Slides"):
-        for i in range(num_slides):
             text = st.text_area(f"Slide {i+1} Text", key=f"slide_{i}")
-            slide_texts.append(text)
-# Step 4: Generate video
 if st.button("Generate Video") and uploaded_images:
-    if len(slide_texts) != num_slides:
-        st.error(f"Please add scripts for all {num_slides} slides!")
         st.stop()
     with st.spinner("Creating your video..."):
         try:
-            # 1. Save uploaded images to disk
-            img_paths = []
             for img in uploaded_images:
-                img_path = img.name
-                with open(img_path, "wb") as f:
                     f.write(img.getbuffer())
-                img_paths.append(img_path)
             # 2. Generate voice-over
-            durations = text_to_speech(slide_texts)
             # 3. Add background music
-            music_path = "background_music.mp3" if uploaded_music else None
             if uploaded_music:
-                with open(music_path, "wb") as f:
                     f.write(uploaded_music.getbuffer())
-            total_duration = add_background_music("voiceover.mp3", music_path)
             # 4. Create video
-            create_video(img_paths, durations)
             # 5. Display video
             st.success("Video Ready! 🎉")
-            st.video("output.mp4")
             # 6. Cleanup temporary files
-            os.remove("voiceover.mp3")
-            os.remove("final_audio.mp3")
-            if uploaded_music:
-                os.remove(music_path)
-            for img_path in img_paths:
-                os.remove(img_path)
         except Exception as e:
-            st.error(f"Error: {str(e)}")

 import os
+import tempfile
 import streamlit as st
 from gtts import gTTS
 from pydub import AudioSegment
 from moviepy.editor import ImageClip, concatenate_videoclips, AudioFileClip
+from pydub.exceptions import CouldntDecodeError
 # ==================================================================
 # Core Functions
 # ==================================================================
+def text_to_speech(slide_texts, lang='en'):
+    """Convert scripts to voice-over audio using temp files"""
     audio_clips = []
     durations = []
     for i, text in enumerate(slide_texts):
+        with tempfile.NamedTemporaryFile(suffix=".mp3", delete=False) as fp:
+            try:
+                tts = gTTS(text=text, lang=lang, slow=False)
+                tts.save(fp.name)
+                clip = AudioSegment.from_mp3(fp.name)
+                audio_clips.append(clip)
+                durations.append(len(clip))  # Duration in milliseconds
+            finally:
+                os.unlink(fp.name)  # Cleanup temp file
     combined_audio = sum(audio_clips)
+    with tempfile.NamedTemporaryFile(suffix=".mp3", delete=False) as fp:
+        combined_audio.export(fp.name, format="mp3")
+        return durations, fp.name
+def add_background_music(voice_path, music_path, volume_reduction=25):
     """Mix voice-over with background music"""
+    voice = AudioSegment.from_mp3(voice_path)
+    if music_path:
+        try:
+            music = AudioSegment.from_file(music_path)
+            music = music[:len(voice)].fade_out(2000)
+            music = music - volume_reduction
+            final_audio = voice.overlay(music)
+        except CouldntDecodeError:
+            raise ValueError("Invalid music file format")
     else:
         final_audio = voice  # No music
+    with tempfile.NamedTemporaryFile(suffix=".mp3", delete=False) as fp:
+        final_audio.export(fp.name, format="mp3")
+        return len(final_audio) / 1000, fp.name  # Duration in seconds
+def create_video(img_paths, durations, audio_path):
     """Generate video from images and audio"""
     clips = []
     for img_path, duration in zip(img_paths, durations):
         clip = ImageClip(img_path).set_duration(duration / 1000)
         clips.append(clip)
     video = concatenate_videoclips(clips, method="compose")
+    video = video.set_audio(AudioFileClip(audio_path))
+    with tempfile.NamedTemporaryFile(suffix=".mp4", delete=False) as fp:
+        video.write_videofile(fp.name, fps=24)
+        return fp.name
 # ==================================================================
 # Streamlit UI
 st.title("PNG Slides to Video Maker 🖼️➡️🎥")
 st.markdown("Upload PNG slides, add scripts, and generate a video!")
+# Initialize session state for slide order
+if 'slide_order' not in st.session_state:
+    st.session_state.slide_order = []
 # Step 1: Upload PNG slides
 uploaded_images = st.file_uploader(
     "Upload PNG Slides (in order)",
     accept_multiple_files=True
 )
+# Step 1a: Reorder slides
+if uploaded_images:
+    st.subheader("Arrange Slide Order")
+    filenames = [img.name for img in uploaded_images]
+    st.session_state.slide_order = st.multiselect(
+        "Drag to reorder slides:",
+        filenames,
+        default=filenames
+    )
+    uploaded_images = [img for name in st.session_state.slide_order
+                      for img in uploaded_images if img.name == name]
 # Step 2: Upload background music (optional)
 uploaded_music = st.file_uploader("Background Music (optional)", type=["mp3"])
+music_volume = st.slider("Music Volume Reduction (dB)", 0, 30, 25) if uploaded_music else 0
+# Step 3: Language selection
+lang = st.selectbox(
+    "Voiceover Language",
+    options=['en', 'es', 'fr', 'de', 'ja', 'zh-CN', 'hi'],
+    index=0
+)
+# Step 4: Add scripts for each slide
 slide_texts = []
 if uploaded_images:
+    with st.expander(f"Add Scripts for {len(uploaded_images)} Slides"):
+        for i, img in enumerate(uploaded_images):
             text = st.text_area(f"Slide {i+1} Text", key=f"slide_{i}")
+            slide_texts.append(text.strip())
+# Step 5: Generate video
 if st.button("Generate Video") and uploaded_images:
+    # Input validation
+    if len(slide_texts) != len(uploaded_images):
+        st.error(f"Please add scripts for all {len(uploaded_images)} slides!")
         st.stop()
+    if any(not text for text in slide_texts):
+        st.error("All slides must have non-empty text!")
+        st.stop()
     with st.spinner("Creating your video..."):
         try:
+            # 1. Save uploaded images to temp files
+            img_temp_files = []
             for img in uploaded_images:
+                with tempfile.NamedTemporaryFile(suffix=".png", delete=False) as f:
                     f.write(img.getbuffer())
+                    img_temp_files.append(f.name)
             # 2. Generate voice-over
+            durations, voice_path = text_to_speech(slide_texts, lang)
             # 3. Add background music
+            music_path = None
             if uploaded_music:
+                with tempfile.NamedTemporaryFile(suffix=".mp3", delete=False) as f:
                     f.write(uploaded_music.getbuffer())
+                    music_path = f.name
+            audio_duration, final_audio_path = add_background_music(
+                voice_path,
+                music_path,
+                music_volume
+            )
             # 4. Create video
+            video_path = create_video(img_temp_files, durations, final_audio_path)
             # 5. Display video
             st.success("Video Ready! 🎉")
+            st.video(video_path)
             # 6. Cleanup temporary files
+            for f in img_temp_files + [voice_path, final_audio_path] + ([music_path] if music_path else []):
+                os.unlink(f)
+            os.unlink(video_path)
+        except ValueError as e:
+            st.error(f"Audio Error: {str(e)}")
         except Exception as e:
+            st.error(f"Unexpected Error: {str(e)}")