Spaces:

arshad1234321
/

Text_to_Multimedia

Sleeping

App Files Files Community

arshad1234321 commited on Apr 15, 2025

Commit

e7886b2

verified ·

1 Parent(s): 35cfc08

Update app.py

Browse files

Files changed (1) hide show

app.py +16 -24

app.py CHANGED Viewed

@@ -1,8 +1,8 @@
-import sys
 import torch
 from audiocraft.models import MusicGen
 from transformers import GPT2LMHeadModel, GPT2Tokenizer
-import pyttsx3
 import gradio as gr
 from tempfile import NamedTemporaryFile
 import numpy as np
@@ -12,13 +12,12 @@ import matplotlib.pyplot as plt
 import librosa.display
 import librosa
 from PIL import Image
-import os
 # 1) Startup logs
 print("=== STARTUP ===")
-print("Python:", sys.version.replace("\n", " "))
 print("Torch:", torch.__version__)
-print("Device:", torch.device("cpu"))
 # 2) Force CPU
 device = torch.device("cpu")
@@ -37,17 +36,11 @@ print("GPT-2 loaded.")
 # 5) Load Stable Diffusion (CPU-safe)
 print("Loading Stable Diffusion…")
 pipe = StableDiffusionPipeline.from_pretrained(
-    "runwayml/stable-diffusion-v1-5", torch_dtype=torch.float32
 ).to(device)
 print("Stable Diffusion loaded.")
-# 6) Init pyttsx3
-print("Initializing TTS engine…")
-tts_engine = pyttsx3.init()
-tts_engine.setProperty("rate", 150)
-tts_engine.setProperty("volume", 0.8)
-print("TTS engine ready.")
 # Emotion helper
 def get_emotion_tone(text):
     txt = text.lower()
@@ -68,22 +61,21 @@ def generate_image(prompt, style="realistic"):
         print("Image error:", e)
         return None
-# Text-to-audio
 def text_to_audio(text):
-    tone = get_emotion_tone(text)
-    rate_map = {"neutral":150,"happy":180,"sad":100,"angry":200}
-    vol_map  = {"neutral":0.8,"happy":1.0,"sad":0.5,"angry":1.0}
-    tts_engine.setProperty("rate", rate_map[tone])
-    tts_engine.setProperty("volume", vol_map[tone])
-    tmp = NamedTemporaryFile(delete=False, suffix=".mp3")
-    tts_engine.save_to_file(text, tmp.name)
-    tts_engine.runAndWait()
-    return tmp.name
 # Music generation
 def generate_music(prompt):
     try:
-        wav = music_model.generate([prompt])
         data = wav.cpu().numpy()[0,0]
         tmp = NamedTemporaryFile(delete=False, suffix=".wav")
         wavfile.write(tmp.name, music_model.sample_rate, data)

+import sys, os
 import torch
 from audiocraft.models import MusicGen
 from transformers import GPT2LMHeadModel, GPT2Tokenizer
+from gtts import gTTS
 import gradio as gr
 from tempfile import NamedTemporaryFile
 import numpy as np
 import librosa.display
 import librosa
 from PIL import Image
 # 1) Startup logs
 print("=== STARTUP ===")
+print("Python:", sys.version.replace('\n',' '))
 print("Torch:", torch.__version__)
+print("Device: CPU")
 # 2) Force CPU
 device = torch.device("cpu")
 # 5) Load Stable Diffusion (CPU-safe)
 print("Loading Stable Diffusion…")
 pipe = StableDiffusionPipeline.from_pretrained(
+    "runwayml/stable-diffusion-v1-5",
+    torch_dtype=torch.float32
 ).to(device)
 print("Stable Diffusion loaded.")
 # Emotion helper
 def get_emotion_tone(text):
     txt = text.lower()
         print("Image error:", e)
         return None
+# Text-to-audio via gTTS
 def text_to_audio(text):
+    try:
+        tts = gTTS(text=text, lang="en")
+        tmp = NamedTemporaryFile(delete=False, suffix=".mp3")
+        tts.save(tmp.name)
+        return tmp.name
+    except Exception as e:
+        print("TTS error:", e)
+        return None
 # Music generation
 def generate_music(prompt):
     try:
+        wav = music_model.generate([prompt])  # [1,1,T]
         data = wav.cpu().numpy()[0,0]
         tmp = NamedTemporaryFile(delete=False, suffix=".wav")
         wavfile.write(tmp.name, music_model.sample_rate, data)