Spaces:

arshad1234321
/

Text_to_Multimedia

Sleeping

App Files Files Community

arshad1234321 commited on Apr 15, 2025

Commit

35cfc08

verified ·

1 Parent(s): 2895c13

Update app.py

Browse files

Files changed (1) hide show

app.py +48 -33

app.py CHANGED Viewed

@@ -1,3 +1,4 @@
 import torch
 from audiocraft.models import MusicGen
 from transformers import GPT2LMHeadModel, GPT2Tokenizer
@@ -10,41 +11,52 @@ from diffusers import StableDiffusionPipeline
 import matplotlib.pyplot as plt
 import librosa.display
 import librosa
-import soundfile as sf
 from PIL import Image
 import os
-# Ensure CPU-only
 device = torch.device("cpu")
-# Load MusicGen (small) on CPU
 music_model = MusicGen.get_pretrained("small", device=device)
-# Load GPT-2 on CPU
 tokenizer = GPT2Tokenizer.from_pretrained("gpt2")
 gpt2_model = GPT2LMHeadModel.from_pretrained("gpt2").to(device)
-# Load Stable Diffusion CPU-only
 pipe = StableDiffusionPipeline.from_pretrained(
-    "runwayml/stable-diffusion-v1-5",
-    torch_dtype=torch.float32
 ).to(device)
-# Initialize pyttsx3 TTS
 tts_engine = pyttsx3.init()
 tts_engine.setProperty("rate", 150)
 tts_engine.setProperty("volume", 0.8)
 def get_emotion_tone(text):
     txt = text.lower()
-    if any(w in txt for w in ["happy", "joy", "excited"]):
-        return "happy"
-    if any(w in txt for w in ["sad", "down", "melancholy"]):
-        return "sad"
-    if any(w in txt for w in ["angry", "frustrated"]):
-        return "angry"
     return "neutral"
 def generate_image(prompt, style="realistic"):
     styled = f"{style} style {prompt}"
     try:
@@ -56,21 +68,22 @@ def generate_image(prompt, style="realistic"):
         print("Image error:", e)
         return None
 def text_to_audio(text):
     tone = get_emotion_tone(text)
-    # adjust rate/volume by tone
-    rate = {"neutral":150, "happy":180, "sad":100, "angry":200}[tone]
-    vol  = {"neutral":0.8,   "happy":1.0,   "sad":0.5,   "angry":1.0}[tone]
-    tts_engine.setProperty("rate", rate)
-    tts_engine.setProperty("volume", vol)
     tmp = NamedTemporaryFile(delete=False, suffix=".mp3")
     tts_engine.save_to_file(text, tmp.name)
     tts_engine.runAndWait()
     return tmp.name
 def generate_music(prompt):
     try:
-        wav = music_model.generate([prompt])  # shape [1, 1, T]
         data = wav.cpu().numpy()[0,0]
         tmp = NamedTemporaryFile(delete=False, suffix=".wav")
         wavfile.write(tmp.name, music_model.sample_rate, data)
@@ -79,14 +92,14 @@ def generate_music(prompt):
         print("Music error:", e)
         return None
 def generate_spectrogram(audio_path):
     try:
-        y, sr = librosa.load(audio_path, sr=None)
         S = librosa.feature.melspectrogram(y, sr=sr)
         S_db = librosa.power_to_db(S, ref=np.max)
         plt.figure(figsize=(6,3))
         librosa.display.specshow(S_db, sr=sr, x_axis='time', y_axis='mel')
-        plt.title("Mel Spectrogram")
         tmp = NamedTemporaryFile(delete=False, suffix=".png")
         plt.savefig(tmp.name, bbox_inches="tight")
         plt.close()
@@ -95,6 +108,7 @@ def generate_spectrogram(audio_path):
         print("Spectrogram error:", e)
         return None
 def chat_with_ai(text):
     try:
         tok = tokenizer.encode(text, return_tensors="pt").to(device)
@@ -104,25 +118,25 @@ def chat_with_ai(text):
         print("Chat error:", e)
         return "Error generating response."
 def generate_video(prompt):
-    frames = []
     for i in range(5):
-        path = generate_image(f"{prompt} frame {i+1}")
-        if path:
-            frames.append(Image.open(path))
-    if not frames:
-        return None
     tmp = NamedTemporaryFile(delete=False, suffix=".gif")
     frames[0].save(tmp.name, save_all=True, append_images=frames[1:], duration=400, loop=0)
     return tmp.name
 def main(input_text, task, style):
     if task=="Conversation":
         resp = chat_with_ai(input_text)
         img  = generate_image(f"conversation about {input_text}", style)
         return resp, None, img
     if task=="Music":
-        mus = generate_music(input_text)
         spec = generate_spectrogram(mus) if mus else None
         return "Music ready", mus, spec
     if task=="Text to Audio":
@@ -134,20 +148,21 @@ def main(input_text, task, style):
         aud = generate_music(input_text)
         return "Video ready", aud, vid
 iface = gr.Interface(
     fn=main,
     inputs=[
         gr.Textbox(label="Enter Prompt"),
         gr.Radio(["Conversation","Music","Text to Audio","Video Generation"], label="Task"),
-        gr.Dropdown(["realistic","abstract","comic"], label="Style")
     ],
     outputs=[
         gr.Textbox(label="Output Text"),
         gr.Audio(label="Audio File", type="filepath"),
-        gr.Image(label="Image/GIF", type="filepath")
     ],
-    live=False
 )
 if __name__=="__main__":
-    iface.launch()

+import sys
 import torch
 from audiocraft.models import MusicGen
 from transformers import GPT2LMHeadModel, GPT2Tokenizer
 import matplotlib.pyplot as plt
 import librosa.display
 import librosa
 from PIL import Image
 import os
+# 1) Startup logs
+print("=== STARTUP ===")
+print("Python:", sys.version.replace("\n", " "))
+print("Torch:", torch.__version__)
+print("Device:", torch.device("cpu"))
+# 2) Force CPU
 device = torch.device("cpu")
+# 3) Load MusicGen
+print("Loading MusicGen…")
 music_model = MusicGen.get_pretrained("small", device=device)
+print("MusicGen loaded.")
+# 4) Load GPT-2
+print("Loading GPT-2…")
 tokenizer = GPT2Tokenizer.from_pretrained("gpt2")
 gpt2_model = GPT2LMHeadModel.from_pretrained("gpt2").to(device)
+print("GPT-2 loaded.")
+# 5) Load Stable Diffusion (CPU-safe)
+print("Loading Stable Diffusion…")
 pipe = StableDiffusionPipeline.from_pretrained(
+    "runwayml/stable-diffusion-v1-5", torch_dtype=torch.float32
 ).to(device)
+print("Stable Diffusion loaded.")
+# 6) Init pyttsx3
+print("Initializing TTS engine…")
 tts_engine = pyttsx3.init()
 tts_engine.setProperty("rate", 150)
 tts_engine.setProperty("volume", 0.8)
+print("TTS engine ready.")
+# Emotion helper
 def get_emotion_tone(text):
     txt = text.lower()
+    if any(w in txt for w in ["happy","joy","excited"]): return "happy"
+    if any(w in txt for w in ["sad","down","melancholy"]): return "sad"
+    if any(w in txt for w in ["angry","frustrated"]): return "angry"
     return "neutral"
+# Image generation
 def generate_image(prompt, style="realistic"):
     styled = f"{style} style {prompt}"
     try:
         print("Image error:", e)
         return None
+# Text-to-audio
 def text_to_audio(text):
     tone = get_emotion_tone(text)
+    rate_map = {"neutral":150,"happy":180,"sad":100,"angry":200}
+    vol_map  = {"neutral":0.8,"happy":1.0,"sad":0.5,"angry":1.0}
+    tts_engine.setProperty("rate", rate_map[tone])
+    tts_engine.setProperty("volume", vol_map[tone])
     tmp = NamedTemporaryFile(delete=False, suffix=".mp3")
     tts_engine.save_to_file(text, tmp.name)
     tts_engine.runAndWait()
     return tmp.name
+# Music generation
 def generate_music(prompt):
     try:
+        wav = music_model.generate([prompt])
         data = wav.cpu().numpy()[0,0]
         tmp = NamedTemporaryFile(delete=False, suffix=".wav")
         wavfile.write(tmp.name, music_model.sample_rate, data)
         print("Music error:", e)
         return None
+# Spectrogram
 def generate_spectrogram(audio_path):
     try:
+        y,sr = librosa.load(audio_path, sr=None)
         S = librosa.feature.melspectrogram(y, sr=sr)
         S_db = librosa.power_to_db(S, ref=np.max)
         plt.figure(figsize=(6,3))
         librosa.display.specshow(S_db, sr=sr, x_axis='time', y_axis='mel')
         tmp = NamedTemporaryFile(delete=False, suffix=".png")
         plt.savefig(tmp.name, bbox_inches="tight")
         plt.close()
         print("Spectrogram error:", e)
         return None
+# GPT-2 chat
 def chat_with_ai(text):
     try:
         tok = tokenizer.encode(text, return_tensors="pt").to(device)
         print("Chat error:", e)
         return "Error generating response."
+# GIF video
 def generate_video(prompt):
+    frames=[]
     for i in range(5):
+        p = generate_image(f"{prompt} frame {i+1}")
+        if p: frames.append(Image.open(p))
+    if not frames: return None
     tmp = NamedTemporaryFile(delete=False, suffix=".gif")
     frames[0].save(tmp.name, save_all=True, append_images=frames[1:], duration=400, loop=0)
     return tmp.name
+# Main interface
 def main(input_text, task, style):
     if task=="Conversation":
         resp = chat_with_ai(input_text)
         img  = generate_image(f"conversation about {input_text}", style)
         return resp, None, img
     if task=="Music":
+        mus  = generate_music(input_text)
         spec = generate_spectrogram(mus) if mus else None
         return "Music ready", mus, spec
     if task=="Text to Audio":
         aud = generate_music(input_text)
         return "Video ready", aud, vid
+# Launch with debug logging
 iface = gr.Interface(
     fn=main,
     inputs=[
         gr.Textbox(label="Enter Prompt"),
         gr.Radio(["Conversation","Music","Text to Audio","Video Generation"], label="Task"),
+        gr.Dropdown(["realistic","abstract","comic"], label="Style"),
     ],
     outputs=[
         gr.Textbox(label="Output Text"),
         gr.Audio(label="Audio File", type="filepath"),
+        gr.Image(label="Image/GIF", type="filepath"),
     ],
 )
 if __name__=="__main__":
+    print("Launching Gradio…")
+    iface.launch(server_name="0.0.0.0", server_port=7860, debug=True)