Spaces:

Lambeckkk
/

Musicappp

Build error

App Files Files Community

Lambeckkk commited on Apr 16, 2025

Commit

e8008da

verified ·

1 Parent(s): 4091abf

Update app.py

Browse files

Files changed (1) hide show

app.py +40 -119

app.py CHANGED Viewed

@@ -1,128 +1,49 @@
-import os
-import uuid
-import numpy as np
-import torch
 import gradio as gr
-from scipy.io import wavfile
-# Ensure folders exist
-os.makedirs("bark_voices", exist_ok=True)
-# Try model imports
-try:
-    from TTS.api import TTS
-except ImportError:
-    raise RuntimeError("Coqui TTS not installed. Add 'TTS' to requirements.")
-try:
-    from audiocraft.models.musicgen import MusicGen
-except ImportError:
-    raise RuntimeError("MusicGen not installed. Add audiocraft from GitHub to requirements.")
-# Lazy loading
-tts_model = None
-music_model = None
-USE_GPU = torch.cuda.is_available()
-def load_tts_model():
-    global tts_model
-    if tts_model is None:
-        tts_model = TTS("tts_models/multilingual/multi-dataset/bark", gpu=USE_GPU)
-    return tts_model
-def load_music_model():
-    global music_model
-    if music_model is None:
-        device = "cuda" if USE_GPU else "cpu"
-        music_model = MusicGen.get_pretrained(model_name="facebook/musicgen-small", device=device)
-        music_model.set_generation_params(duration=15)
-    return music_model
-def generate_voice(text, voice_sample):
-    if not text.strip():
-        raise gr.Error("Please enter lyrics or speech text.")
-    tts = load_tts_model()
-    output_path = "voice_output.wav"
-    speaker_name = None
-    try:
-        if voice_sample:
-            orig_sr, audio_data = voice_sample
-            if audio_data.ndim > 1:
-                audio_data = audio_data.mean(axis=1)
-            audio_data = audio_data.astype(np.float32)
-            if orig_sr != 24000:
-                import torch.nn.functional as F
-                audio_tensor = torch.tensor(audio_data).unsqueeze(0)
-                resampled_len = int(audio_tensor.shape[1] * 24000 / orig_sr)
-                resampled = F.interpolate(audio_tensor.unsqueeze(1), size=resampled_len, mode="linear", align_corners=False)
-                audio_data = resampled.squeeze().numpy()
-                orig_sr = 24000
-            max_val = np.max(np.abs(audio_data))
-            if max_val > 0:
-                audio_data /= max_val
-            audio_data = (audio_data * 32767).astype(np.int16)
-            speaker_id = f"user_{uuid.uuid4().hex[:8]}"
-            speaker_dir = os.path.join("bark_voices", speaker_id)
-            os.makedirs(speaker_dir, exist_ok=True)
-            sample_path = os.path.join(speaker_dir, "speaker.wav")
-            wavfile.write(sample_path, orig_sr, audio_data)
-            speaker_name = speaker_id
-        with torch.no_grad():
-            if speaker_name:
-                tts.tts_to_file(text=text, file_path=output_path, speaker=speaker_name, voice_dir="bark_voices/")
-            else:
-                tts.tts_to_file(text=text, file_path=output_path)
-        return output_path
-    except Exception as e:
-        print(f"Voice generation error: {e}")
-        raise gr.Error("Voice generation failed. Try again.")
 def generate_music(prompt):
-    if not prompt.strip():
-        raise gr.Error("Please enter a music description.")
-    model = load_music_model()
-    output_path = "music_output.wav"
-    try:
-        with torch.no_grad():
-            wavs = model.generate([prompt])
-        sr = model.sample_rate
-        audio_tensor = wavs[0].cpu().numpy()
-        if audio_tensor.ndim == 2:
-            audio_np = audio_tensor.T
-        else:
-            audio_np = audio_tensor
-        wavfile.write(output_path, sr, (audio_np * 32767).astype(np.int16))
-        return output_path
-    except Exception as e:
-        print(f"Music generation error: {e}")
-        raise gr.Error("Music generation failed. Try a different prompt.")
-with gr.Blocks(css=".gradio-container {background-color: #121212; color: white;}") as app:
-    gr.Markdown("# LarynxLab – AI Music & Voice Generator")
-    with gr.Tabs():
-        with gr.Tab("Lyrics → Voice"):
-            gr.Markdown("Upload an optional voice sample (max 20 sec) and enter lyrics.")
-            voice_input = gr.Audio(label="Voice Sample (optional)", type="numpy")
-            text_input = gr.Textbox(label="Lyrics / Speech", lines=3)
             voice_btn = gr.Button("Generate Voice")
-            voice_output = gr.Audio(label="Output Voice", type="filepath")
-            voice_btn.click(generate_voice, inputs=[text_input, voice_input], outputs=voice_output)
-        with gr.Tab("Text → Music"):
-            gr.Markdown("Describe the music: genre, vibe, instruments, etc.")
-            music_prompt = gr.Textbox(label="Music Prompt", lines=3)
             music_btn = gr.Button("Generate Music")
-            music_output = gr.Audio(label="Music Output", type="filepath")
-            music_btn.click(generate_music, inputs=music_prompt, outputs=music_output)
-app.queue(concurrency_count=1).launch()

 import gradio as gr
+from transformers import pipeline, set_seed
+from audiocraft.models import MusicGen
+from TTS.api import TTS
+import torch
+# Load models
+set_seed(42)
+lyrics_generator = pipeline("text-generation", model="gpt2")
+music_model = MusicGen.get_pretrained('facebook/musicgen-small')
+tts_model = TTS(model_name="tts_models/multilingual/multi-dataset/bark", progress_bar=False, gpu=torch.cuda.is_available())
+# Lyric generation
+def generate_lyrics(prompt):
+    result = lyrics_generator(prompt, max_length=100, num_return_sequences=1)
+    return result[0]['generated_text']
+# Music generation
 def generate_music(prompt):
+    music_model.set_generation_params(duration=10)
+    output = music_model.generate([prompt])
+    return (16000, output[0].cpu().numpy())
+# Voice generation
+def generate_voice(text):
+    output_path = "bark_output.wav"
+    tts_model.tts_to_file(text=text, file_path=output_path)
+    return output_path
+# Unified UI
+with gr.Blocks(theme=gr.themes.Base(), css="body {background-color: #121212; color: white;}") as demo:
+    with gr.Row():
+        with gr.Column():
+            desc_input = gr.Textbox(label="Describe your idea", placeholder="A sad lo-fi song about lost love...")
+            generate_btn = gr.Button("Generate Lyrics")
+            lyrics_output = gr.Textbox(label="Generated Lyrics")
             voice_btn = gr.Button("Generate Voice")
+            voice_audio = gr.Audio(label="Vocal Output", type="filepath")
+        with gr.Column():
+            music_prompt = gr.Textbox(label="Music Prompt", placeholder="lo-fi sad beat with piano")
             music_btn = gr.Button("Generate Music")
+            music_audio = gr.Audio(label="Music Output", type="numpy")
+    generate_btn.click(generate_lyrics, inputs=desc_input, outputs=lyrics_output)
+    voice_btn.click(generate_voice, inputs=lyrics_output, outputs=voice_audio)
+    music_btn.click(generate_music, inputs=music_prompt, outputs=music_audio)
+demo.launch()