video-ffmpeg

Sleeping

App Files Files Community

Tim13ekd commited on Dec 14, 2025

Commit

ad4cab5

verified ·

1 Parent(s): fd9d93c

Update app.py

Browse files

Files changed (1) hide show

app.py +43 -22

app.py CHANGED Viewed

@@ -35,7 +35,7 @@ def save_temp_audio(audio_file):
     else:
         raise ValueError("Das übergebene Audio ist kein gültiges Dateiformat oder NamedString.")
-def generate_slideshow_with_audio(images, input_text, duration_per_image=3, y_pos=0.5, fade_duration=0.7, font_size=60, speed=1.0):
     if not images:
         return None, "❌ Keine Bilder ausgewählt"
@@ -43,22 +43,19 @@ def generate_slideshow_with_audio(images, input_text, duration_per_image=3, y_po
     temp_dir = tempfile.mkdtemp()
     clips = []
-    # Text in Segmente aufteilen
     words = input_text.split()
     total_words = len(words)
-    segments_per_image = max(1, total_words // len(images))  # Sicherstellen, dass mindestens 1 Segment pro Bild
-    texts = []
-    for i in range(len(images)):
-        start = i * segments_per_image
-        end = min((i + 1) * segments_per_image, total_words)
-        texts.append(" ".join(words[start:end]))
-    temp_audio_file = None  # Wir gehen davon aus, dass das Audio optional ist.
-    for i, img_path in enumerate(images):
-        img_path = Path(img_path.name)  # Gradio liefert temporäre Dateipfade
         clip_path = Path(temp_dir) / f"clip_{i}.mp4"
-        text = texts[i] if i < len(texts) else ""
         vf_filters = (
             "scale=w=1280:h=720:force_original_aspect_ratio=decrease,"
@@ -71,23 +68,23 @@ def generate_slideshow_with_audio(images, input_text, duration_per_image=3, y_po
             drawtext_filter = (
                 f",drawtext=text={safe_text}:fontcolor=white:fontsize={font_size}:borderw=2:"
                 f"x=(w-text_w)/2:y=(h-text_h)*{y_pos}:"
-                f"alpha='if(lt(t,{fade_duration}), t/{fade_duration}, if(lt(t,{duration_per_image}-{fade_duration}), 1, ({duration_per_image}-t)/{fade_duration}))'"
             )
             vf_filters += drawtext_filter
         cmd = [
             "ffmpeg",
             "-y",
-            "-loop", "1",
-            "-i", str(img_path),
-            "-t", str(duration_per_image),
             "-vf", vf_filters,
             str(clip_path)
         ]
         try:
             subprocess.run(cmd, check=True, capture_output=True, text=True)
         except subprocess.CalledProcessError as e:
-            return None, f"❌ FFmpeg Fehler bei Bild {i+1}:\n{e.stderr}"
         clips.append(clip_path)
@@ -113,31 +110,55 @@ def generate_slideshow_with_audio(images, input_text, duration_per_image=3, y_po
     except subprocess.CalledProcessError as e:
         return None, f"❌ FFmpeg Concat Fehler:\n{e.stderr}"
-    return str(output_file), "✅ Slideshow mit Text erstellt"
 # Gradio UI
 with gr.Blocks() as demo:
-    gr.Markdown("# Slideshow mit Manuellem Text")
     img_input = gr.Files(label="Bilder auswählen (mehrere)", file_types=allowed_medias)
     text_input = gr.Textbox(
         label="Text eingeben",
-        placeholder="Gib hier den Text ein, der in den Bildern angezeigt werden soll",
         lines=5
     )
-    duration_input = gr.Number(value=3, label="Dauer pro Bild in Sekunden", precision=1)
     fade_input = gr.Number(value=0.7, label="Fade Dauer in Sekunden", precision=1)
     ypos_input = gr.Slider(minimum=0.0, maximum=0.9, step=0.01, value=0.5, label="Y-Position für alle Texte (0=oben, 0.5=mitte, 0.9=unten)")
     font_size_input = gr.Number(value=60, label="Textgröße (px)")
     speed_input = gr.Slider(minimum=0.1, maximum=3.0, value=1.0, label="Geschwindigkeit der Texteinblendung")
     out_video = gr.Video(interactive=False, label="Generiertes Video")
     status = gr.Textbox(interactive=False, label="Status")
     btn = gr.Button("Video erstellen")
     btn.click(
         fn=generate_slideshow_with_audio,
-        inputs=[img_input, text_input, duration_input, ypos_input, fade_input, font_size_input, speed_input],
         outputs=[out_video, status]
     )

     else:
         raise ValueError("Das übergebene Audio ist kein gültiges Dateiformat oder NamedString.")
+def generate_slideshow_with_audio(images, input_text, duration_per_word=0.5, y_pos=0.5, fade_duration=0.7, font_size=60, speed=1.0, audio_file=None):
     if not images:
         return None, "❌ Keine Bilder ausgewählt"
     temp_dir = tempfile.mkdtemp()
     clips = []
+    # Text in Wörter aufteilen
     words = input_text.split()
     total_words = len(words)
+    # Wenn Audio vorhanden ist, die Dauer an die Länge des Audios anpassen (optional)
+    temp_audio_file = None
+    if audio_file:
+        temp_audio_file = save_temp_audio(audio_file)
+    # Einzelne Clips für jedes Wort erstellen
+    for i, word in enumerate(words):
         clip_path = Path(temp_dir) / f"clip_{i}.mp4"
+        text = word
         vf_filters = (
             "scale=w=1280:h=720:force_original_aspect_ratio=decrease,"
             drawtext_filter = (
                 f",drawtext=text={safe_text}:fontcolor=white:fontsize={font_size}:borderw=2:"
                 f"x=(w-text_w)/2:y=(h-text_h)*{y_pos}:"
+                f"alpha='if(lt(t,{fade_duration}), t/{fade_duration}, if(lt(t,{duration_per_word}-{fade_duration}), 1, ({duration_per_word}-t)/{fade_duration}))'"
             )
             vf_filters += drawtext_filter
         cmd = [
             "ffmpeg",
             "-y",
+            "-f", "lavfi",
+            "-t", str(duration_per_word),
+            "-i", "color=c=black:s=1280x720",
             "-vf", vf_filters,
             str(clip_path)
         ]
         try:
             subprocess.run(cmd, check=True, capture_output=True, text=True)
         except subprocess.CalledProcessError as e:
+            return None, f"❌ FFmpeg Fehler bei Wort {i+1}:\n{e.stderr}"
         clips.append(clip_path)
     except subprocess.CalledProcessError as e:
         return None, f"❌ FFmpeg Concat Fehler:\n{e.stderr}"
+    # Audio hinzufügen, falls vorhanden
+    if temp_audio_file:
+        final_output = Path(temp_dir) / f"slideshow_audio_{uuid.uuid4().hex}.mp4"
+        cmd_audio = [
+            "ffmpeg",
+            "-y",
+            "-i", str(output_file),
+            "-i", str(temp_audio_file),
+            "-c:v", "copy",
+            "-c:a", "aac",
+            "-shortest",
+            str(final_output)
+        ]
+        try:
+            subprocess.run(cmd_audio, check=True, capture_output=True, text=True)
+            return str(final_output), "✅ Slideshow mit Audio und Text erstellt"
+        except subprocess.CalledProcessError as e:
+            return None, f"❌ FFmpeg Audio Merge Fehler:\n{e.stderr}"
+    return str(output_file), "✅ Slideshow erstellt (ohne Audio)"
 # Gradio UI
 with gr.Blocks() as demo:
+    gr.Markdown("# Slideshow mit Audio und Wort-Text")
     img_input = gr.Files(label="Bilder auswählen (mehrere)", file_types=allowed_medias)
     text_input = gr.Textbox(
         label="Text eingeben",
+        placeholder="Gib hier den Text ein, der Wort für Wort eingeblendet werden soll",
         lines=5
     )
+    duration_input = gr.Number(value=0.5, label="Dauer pro Wort in Sekunden", precision=1)
     fade_input = gr.Number(value=0.7, label="Fade Dauer in Sekunden", precision=1)
     ypos_input = gr.Slider(minimum=0.0, maximum=0.9, step=0.01, value=0.5, label="Y-Position für alle Texte (0=oben, 0.5=mitte, 0.9=unten)")
     font_size_input = gr.Number(value=60, label="Textgröße (px)")
     speed_input = gr.Slider(minimum=0.1, maximum=3.0, value=1.0, label="Geschwindigkeit der Texteinblendung")
+    audio_input = gr.File(
+        label="Audio hinzufügen (optional)",
+        file_types=allowed_audios
+    )
     out_video = gr.Video(interactive=False, label="Generiertes Video")
     status = gr.Textbox(interactive=False, label="Status")
     btn = gr.Button("Video erstellen")
     btn.click(
         fn=generate_slideshow_with_audio,
+        inputs=[img_input, text_input, duration_input, ypos_input, fade_input, font_size_input, speed_input, audio_input],
         outputs=[out_video, status]
     )