Spaces:

fizzarif7
/

voice2comic

Sleeping

App Files Files Community

fizzarif7 commited on Jul 3, 2025

Commit

19b0461

verified ·

1 Parent(s): 8e59407

Upload app.py

Browse files

Files changed (1) hide show

app.py +186 -0

app.py ADDED Viewed

	@@ -0,0 +1,186 @@

+import os
+import re
+import math
+import gradio as gr
+from dotenv import load_dotenv
+from PIL import Image
+from io import BytesIO
+from gtts import gTTS
+import tempfile
+import traceback
+from reportlab.platypus import SimpleDocTemplate, Paragraph, Spacer, Image as RLImage
+from reportlab.lib.pagesizes import letter
+from reportlab.lib.styles import getSampleStyleSheet
+import google.generativeai as genai
+from huggingface_hub import InferenceClient
+# Load environment variables
+load_dotenv()
+api_key = os.getenv("GOOGLE_API_KEY")
+hf_token = os.getenv("HF_token")
+if api_key is None or hf_token is None:
+    raise ValueError("Missing API keys: Check GOOGLE_API_KEY and HF_TOKEN in secrets.")
+# Configure APIs
+genai.configure(api_key=api_key)
+text_model = genai.GenerativeModel(model_name="gemini-1.5-flash")
+image_model = genai.GenerativeModel(
+    model_name="gemini-2.0-flash-preview-image-generation",
+    generation_config={"response_modalities": ["TEXT", "IMAGE"]}
+)
+hf_client = InferenceClient(token=hf_token)
+# Utility Functions
+def simple_sentence_tokenize(text):
+    return [s for s in re.split(r'(?<=[.!?])\s+', text.strip()) if s]
+def divide_into_scenes(paragraph):
+    sentences = simple_sentence_tokenize(paragraph)
+    count = len(sentences)
+    per_scene = math.ceil(count / 4)
+    return [' '.join(sentences[i:i + per_scene]) for i in range(0, count, per_scene)]
+def generate_image_from_text(prompt):
+    try:
+        response = image_model.generate_content(prompt)
+        for part in response.candidates[0].content.parts:
+            if hasattr(part, 'inline_data') and part.inline_data.mime_type.startswith("image/"):
+                return Image.open(BytesIO(part.inline_data.data))
+    except Exception as e:
+        print(f"Image gen error: {e}")
+    return None
+def summarize_scene(scene_text):
+    try:
+        response = text_model.generate_content(f"Summarize this scene in one sentence: {scene_text}")
+        return response.text.strip()
+    except Exception as e:
+        print(f"Summary error: {e}")
+        return "Scene summary unavailable."
+def explain_scene(image):
+    try:
+        response = text_model.generate_content([image, "Explain this image scene in detail."])
+        return response.text.strip()
+    except Exception:
+        try:
+            buffered = BytesIO()
+            image.save(buffered, format="PNG")
+            buffered.seek(0)
+            result = hf_client.image_to_text(
+                model="Salesforce/blip-image-captioning-base",
+                image=buffered
+            )
+            return result.strip()
+        except Exception:
+            traceback.print_exc()
+            return "Explanation unavailable."
+def text_to_speech(text):
+    try:
+        tts = gTTS(text)
+        tmp = tempfile.NamedTemporaryFile(delete=False, suffix=".mp3")
+        tts.save(tmp.name)
+        return tmp.name
+    except Exception as e:
+        print(f"TTS error: {e}")
+        return None
+def generate_pdf(images, explanations):
+    with tempfile.NamedTemporaryFile(delete=False, suffix=".pdf") as tmp:
+        doc = SimpleDocTemplate(tmp.name, pagesize=letter)
+        styles = getSampleStyleSheet()
+        story = [Paragraph("AI Story Scenes", styles["Title"]), Spacer(1, 12)]
+        for i, img in enumerate(images):
+            if img:
+                with tempfile.NamedTemporaryFile(delete=False, suffix=".png") as img_tmp:
+                    img.save(img_tmp.name)
+                    story.extend([
+                        RLImage(img_tmp.name, width=400, height=300),
+                        Spacer(1, 12),
+                        Paragraph(f"Scene {i+1} Explanation", styles["Heading3"]),
+                        Paragraph(explanations[i], styles["BodyText"]),
+                        Spacer(1, 24),
+                    ])
+        doc.build(story)
+        return tmp.name
+def generate_story_outputs(story_text):
+    scenes = divide_into_scenes(story_text)
+    results = []
+    for i, scene in enumerate(scenes):
+        print(f"Generating Scene {i+1}")
+        image = generate_image_from_text(f"Scene {i+1}: {scene}")
+        caption = summarize_scene(scene)
+        explanation = explain_scene(image) if image else "Explanation unavailable."
+        results.append((image, caption, explanation))
+    return results
+# Gradio Interface
+def generate_for_gradio(story_text):
+    results = generate_story_outputs(story_text)
+    all_images, all_captions, all_explanations = [], [], []
+    for img, cap, expl in results:
+        all_images.append(img)
+        all_captions.append(cap)
+        all_explanations.append(expl)
+    # Save explanations as TXT
+    with tempfile.NamedTemporaryFile(delete=False, suffix=".txt", mode="w", encoding="utf-8") as txtfile:
+        for i, expl in enumerate(all_explanations):
+            txtfile.write(f"Scene {i+1}:\n{expl}\n\n")
+        txt_path = txtfile.name
+    # Create PDF with images and explanations
+    pdf_path = generate_pdf(all_images, all_explanations)
+    return all_images + all_captions + all_explanations + [txt_path, pdf_path]
+def play_tts(text):
+    audio_path = text_to_speech(text)
+    return audio_path
+with gr.Blocks(title="Story to AI Scene Images") as demo:
+    gr.Markdown("## 📖🖼️ AI Story Scene Generator\nEnter a short story and get AI-generated scenes, captions, explanations, audio, and downloads.")
+    input_text = gr.Textbox(lines=10, label="Enter your story")
+    generate_btn = gr.Button("🚀 Generate Scenes")
+    image_blocks = []
+    captions, explanations, tts_buttons, tts_outputs = [], [], [], []
+    with gr.Row():
+        for i in range(4):
+            with gr.Column():
+                img = gr.Image(label=f"Scene {i+1}", show_label=False, type="pil")
+                cap = gr.Markdown()
+                expl = gr.Textbox(label="Detailed Explanation", lines=8, interactive=False)
+                tts_btn = gr.Button("🔊 Read Aloud")
+                tts_audio = gr.Audio(label="Audio", autoplay=False)
+                image_blocks.append(img)
+                captions.append(cap)
+                explanations.append(expl)
+                tts_buttons.append(tts_btn)
+                tts_outputs.append(tts_audio)
+    txt_download = gr.File(label="📄 Download Explanations (.txt)")
+    pdf_download = gr.File(label="📘 Download Story PDF")
+    generate_btn.click(
+        fn=generate_for_gradio,
+        inputs=[input_text],
+        outputs=image_blocks + captions + explanations + [txt_download, pdf_download]
+    )
+    for btn, txt, audio in zip(tts_buttons, explanations, tts_outputs):
+        btn.click(fn=play_tts, inputs=[txt], outputs=[audio])
+demo.launch()