Spaces:

fizzarif7
/

voice2comic

Sleeping

App Files Files Community

fizzarif7 commited on Jul 3, 2025

Commit

ca4cae7

verified ·

1 Parent(s): 2b3fd90

Update app.py

Browse files

Files changed (1) hide show

app.py +89 -71

app.py CHANGED Viewed

@@ -6,7 +6,6 @@ from dotenv import load_dotenv
 from gtts import gTTS
 import tempfile
 import traceback
-from moviepy.editor import ImageClip, concatenate_videoclips, AudioFileClip
 from reportlab.platypus import SimpleDocTemplate, Paragraph, Spacer, Image as RLImage
 from reportlab.lib.pagesizes import letter
@@ -32,7 +31,8 @@ image_model = genai.GenerativeModel(
 )
 hf_client = InferenceClient(token=hf_token)
-# Utilities
 def generate_image_from_text(prompt):
     try:
         response = image_model.generate_content(prompt)
@@ -40,14 +40,15 @@ def generate_image_from_text(prompt):
             if hasattr(part, 'inline_data') and part.inline_data.mime_type.startswith("image/"):
                 return Image.open(BytesIO(part.inline_data.data))
     except Exception as e:
-        print("Image gen error:", e)
     return None
 def summarize_scene(scene_text):
     try:
         response = text_model.generate_content(f"Summarize this scene in one sentence: {scene_text}")
         return response.text.strip()
-    except:
         return "Summary unavailable."
 def explain_scene(image):
@@ -59,8 +60,10 @@ def explain_scene(image):
             buffered = BytesIO()
             image.save(buffered, format="PNG")
             buffered.seek(0)
-            return hf_client.image_to_text("Salesforce/blip-image-captioning-base", image=buffered).strip()
         except:
             return "Explanation unavailable."
 def text_to_speech(text):
@@ -69,7 +72,8 @@ def text_to_speech(text):
         tmp = tempfile.NamedTemporaryFile(delete=False, suffix=".mp3")
         tts.save(tmp.name)
         return tmp.name
-    except:
         return None
 def generate_pdf(images, explanations):
@@ -85,95 +89,109 @@ def generate_pdf(images, explanations):
                     story += [
                         RLImage(img_tmp.name, width=400, height=300),
                         Spacer(1, 12),
-                        Paragraph(f"Scene {i+1} Explanation", styles["Heading3"]),
                         Paragraph(explanations[i], styles["BodyText"]),
                         Spacer(1, 24),
                     ]
         doc.build(story)
         return tmp.name
-def generate_video(images, explanations):
-    clips = []
-    for img, explanation in zip(images, explanations):
-        if img and explanation:
-            audio_path = text_to_speech(explanation)
-            if audio_path:
-                audio = AudioFileClip(audio_path)
-                img_path = tempfile.NamedTemporaryFile(delete=False, suffix=".png").name
-                img.save(img_path)
-                clip = ImageClip(img_path).set_duration(audio.duration).set_audio(audio)
-                clips.append(clip)
-    if clips:
-        final_video = concatenate_videoclips(clips)
-        out_path = tempfile.NamedTemporaryFile(delete=False, suffix=".mp4").name
-        final_video.write_videofile(out_path, codec="libx264", audio_codec="aac")
-        return out_path
-    return None
-def remove_scene(index, images, summaries, explanations):
-    try:
-        index = int(index)
-        if 0 <= index < len(images):
-            del images[index]
-            del summaries[index]
-            del explanations[index]
-    except:
-        pass
     return images, summaries, explanations
-def get_thumbnails(images):
-    return images
-# UI Placeholder
-with gr.Blocks() as demo:
-    gr.Markdown("## 🎬 AI Story Builder with Scene Editing & Video Export")
-    theme = gr.Textbox(label="Theme")
-    characters = gr.Textbox(label="Characters")
     dialogue = gr.Textbox(label="Dialogue")
     generate_btn = gr.Button("Generate Scene")
-    delete_index = gr.Number(label="Delete Scene Index (0-based)")
-    delete_btn = gr.Button("Delete Scene")
-    images_state = gr.State([])
-    summaries_state = gr.State([])
-    explanations_state = gr.State([])
-    thumbnails = gr.Gallery(label="Scene Previews").style(grid=[4], height="auto")
-    explanation_box = gr.Textbox(label="Last Scene Explanation", lines=5)
-    summary_box = gr.Textbox(label="Last Scene Summary")
-    pdf_file = gr.File(label="Download PDF")
-    video_file = gr.File(label="Download Video")
-    export_btn = gr.Button("Export PDF and Video")
     generate_btn.click(
-        fn=lambda theme, characters, dialogue, images, summaries, explanations: (
-            img := generate_image_from_text(f"Theme: {theme}, Characters: {characters}, Dialogue: {dialogue}"),
-            summ := summarize_scene(theme),
-            expl := explain_scene(img),
-            images + [img], summaries + [summ], explanations + [expl],
-            f"{expl}", f"{summ}", get_thumbnails(images + [img])
         ),
-        inputs=[theme, characters, dialogue, images_state, summaries_state, explanations_state],
-        outputs=[images_state, summaries_state, explanations_state, explanation_box, summary_box, thumbnails]
     )
     delete_btn.click(
-        fn=remove_scene,
-        inputs=[delete_index, images_state, summaries_state, explanations_state],
-        outputs=[images_state, summaries_state, explanations_state]
-    ).then(
-        fn=get_thumbnails,
-        inputs=images_state,
-        outputs=thumbnails
     )
-    export_btn.click(
-        fn=lambda images, explanations: (generate_pdf(images, explanations), generate_video(images, explanations)),
-        inputs=[images_state, explanations_state],
-        outputs=[pdf_file, video_file]
     )
-demo.launch()

 from gtts import gTTS
 import tempfile
 import traceback
 from reportlab.platypus import SimpleDocTemplate, Paragraph, Spacer, Image as RLImage
 from reportlab.lib.pagesizes import letter
 )
 hf_client = InferenceClient(token=hf_token)
+# -------------------- Utility Functions --------------------
 def generate_image_from_text(prompt):
     try:
         response = image_model.generate_content(prompt)
             if hasattr(part, 'inline_data') and part.inline_data.mime_type.startswith("image/"):
                 return Image.open(BytesIO(part.inline_data.data))
     except Exception as e:
+        print("Image generation error:", e)
     return None
 def summarize_scene(scene_text):
     try:
         response = text_model.generate_content(f"Summarize this scene in one sentence: {scene_text}")
         return response.text.strip()
+    except Exception as e:
+        print("Summary error:", e)
         return "Summary unavailable."
 def explain_scene(image):
             buffered = BytesIO()
             image.save(buffered, format="PNG")
             buffered.seek(0)
+            result = hf_client.image_to_text("Salesforce/blip-image-captioning-base", image=buffered)
+            return result.strip()
         except:
+            traceback.print_exc()
             return "Explanation unavailable."
 def text_to_speech(text):
         tmp = tempfile.NamedTemporaryFile(delete=False, suffix=".mp3")
         tts.save(tmp.name)
         return tmp.name
+    except Exception as e:
+        print("TTS error:", e)
         return None
 def generate_pdf(images, explanations):
                     story += [
                         RLImage(img_tmp.name, width=400, height=300),
                         Spacer(1, 12),
+                        Paragraph(f"Scene {i + 1} Explanation", styles["Heading3"]),
                         Paragraph(explanations[i], styles["BodyText"]),
                         Spacer(1, 24),
                     ]
         doc.build(story)
         return tmp.name
+# -------------------- Scene Management --------------------
+def generate_scene(prompt, images, summaries, explanations):
+    image = generate_image_from_text(prompt)
+    summary = summarize_scene(prompt)
+    explanation = explain_scene(image) if image else "Explanation unavailable."
+    images.append(image)
+    summaries.append(summary)
+    explanations.append(explanation)
     return images, summaries, explanations
+def edit_scene(index, theme, char_count, character_names, dialogue, images, summaries, explanations):
+    prompt = f"Scene {index+1} set in {theme}. Characters: {character_names}. Dialogue: '{dialogue}'"
+    image = generate_image_from_text(prompt)
+    summary = summarize_scene(prompt)
+    explanation = explain_scene(image)
+    images[index] = image
+    summaries[index] = summary
+    explanations[index] = explanation
+    return images, summaries, explanations
+def delete_scene(index, images, summaries, explanations):
+    if 0 <= index < len(images):
+        del images[index]
+        del summaries[index]
+        del explanations[index]
+    return images, summaries, explanations
+def finalize_story(images, explanations):
+    if not images or not explanations:
+        return None, None
+    pdf = generate_pdf(images, explanations)
+    with tempfile.NamedTemporaryFile(delete=False, suffix=".txt", mode="w", encoding="utf-8") as txt:
+        for i, exp in enumerate(explanations):
+            txt.write(f"Scene {i+1}:\n{exp}\n\n")
+        txt_path = txt.name
+    return txt_path, pdf
+# -------------------- UI Logic --------------------
+with gr.Blocks(title="AI Scene Builder with Preview & Editing") as demo:
+    gr.Markdown("## 🎬 AI Story Scene Generator with Editing and Previews")
+    scene_count = gr.Number(label="Number of Scenes", precision=0)
+    theme = gr.Textbox(label="Global Theme")
+    char_count = gr.Number(label="Number of Characters", precision=0)
+    character_names = gr.Textbox(label="Character Names")
     dialogue = gr.Textbox(label="Dialogue")
     generate_btn = gr.Button("Generate Scene")
+    index_to_edit = gr.Number(label="Scene Index to Edit/Delete (0-based)", value=0)
+    edit_btn = gr.Button("✏️ Edit Scene")
+    delete_btn = gr.Button("🗑️ Delete Scene")
+    thumbnail_gallery = gr.Gallery(label="Scene Previews").style(grid=[4], height="auto")
+    finalize_btn = gr.Button("✅ Finalize & Export")
+    txt_file = gr.File()
+    pdf_file = gr.File()
+    scene_images = gr.State([])
+    scene_explanations = gr.State([])
+    scene_summaries = gr.State([])
+    def build_prompt(index, theme, character_names, dialogue):
+        return f"Scene {index+1} set in {theme}. Characters: {character_names}. Dialogue: '{dialogue}'"
     generate_btn.click(
+        lambda sc, th, cc, names, dlg, imgs, sums, expls: generate_scene(
+            build_prompt(len(imgs), th, names, dlg), imgs, sums, expls
         ),
+        inputs=[scene_count, theme, char_count, character_names, dialogue, scene_images, scene_summaries, scene_explanations],
+        outputs=[scene_images, scene_summaries, scene_explanations, thumbnail_gallery]
+    )
+    edit_btn.click(
+        edit_scene,
+        inputs=[index_to_edit, theme, char_count, character_names, dialogue, scene_images, scene_summaries, scene_explanations],
+        outputs=[scene_images, scene_summaries, scene_explanations, thumbnail_gallery]
     )
     delete_btn.click(
+        delete_scene,
+        inputs=[index_to_edit, scene_images, scene_summaries, scene_explanations],
+        outputs=[scene_images, scene_summaries, scene_explanations, thumbnail_gallery]
     )
+    finalize_btn.click(
+        finalize_story,
+        inputs=[scene_images, scene_explanations],
+        outputs=[txt_file, pdf_file]
     )
+demo.launch()