Spaces:

OnyxMunk
/

Stable-Audio-Open

Runtime error

App Files Files Community

Stable-Audio-Open / app.py

OnyxMunk

Update environment example and Dockerfile health check

f3c8dbf about 2 months ago

raw

history blame contribute delete

16.1 kB

	import gradio as gr
	import numpy as np
	import torch
	import os
	import warnings
	from dotenv import load_dotenv
	from huggingface_hub import login

	# Try to import AudioLDM2 pipeline
	try:
	from diffusers import AudioLDM2Pipeline
	AUDIO_LDM_AVAILABLE = True
	except ImportError:
	try:
	# Alternative import path
	from diffusers import DiffusionPipeline
	AUDIO_LDM_AVAILABLE = True
	AudioLDM2Pipeline = None # Will use DiffusionPipeline instead
	except ImportError:
	AUDIO_LDM_AVAILABLE = False
	AudioLDM2Pipeline = None

	# Suppress warnings for cleaner output
	warnings.filterwarnings("ignore", category=UserWarning)

	# Load environment variables
	load_dotenv()

	# Set up Hugging Face authentication
	hf_token = os.getenv("HF_TOKEN")
	if hf_token:
	try:
	login(token=hf_token)
	print("✅ Hugging Face authentication successful")
	except Exception as e:
	print(f"⚠️ Hugging Face authentication failed: {e}")
	print(" Continuing without authentication...")
	else:
	print("ℹ️ No Hugging Face token found. Some models may have rate limits.")

	# Model configuration
	MODEL_ID = "cvssp/audioldm2"
	DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
	DTYPE = torch.float16 if DEVICE == "cuda" else torch.float32

	# Global model cache
	model_cache = {
	"pipeline": None,
	"loaded": False
	}

	def load_model():
	"""
	Load the AudioLDM2 model with caching to avoid reloading on every request
	"""
	if not AUDIO_LDM_AVAILABLE:
	raise ImportError("diffusers library not available. Please install: pip install diffusers transformers accelerate")

	if model_cache["loaded"] and model_cache["pipeline"] is not None:
	print("Using cached model")
	return model_cache["pipeline"]

	try:
	print(f"Loading AudioLDM2 model: {MODEL_ID}")
	print(f"Device: {DEVICE}, Dtype: {DTYPE}")

	# Try AudioLDM2Pipeline first, fallback to DiffusionPipeline
	if AudioLDM2Pipeline is not None:
	pipeline = AudioLDM2Pipeline.from_pretrained(
	MODEL_ID,
	torch_dtype=DTYPE,
	)
	else:
	from diffusers import DiffusionPipeline
	pipeline = DiffusionPipeline.from_pretrained(
	MODEL_ID,
	torch_dtype=DTYPE,
	)

	pipeline = pipeline.to(DEVICE)

	# Enable memory efficient attention if available
	if hasattr(pipeline, "enable_attention_slicing"):
	pipeline.enable_attention_slicing()
	if hasattr(pipeline, "enable_vae_slicing"):
	pipeline.enable_vae_slicing()

	# Cache the model
	model_cache["pipeline"] = pipeline
	model_cache["loaded"] = True

	print("Model loaded successfully!")
	return pipeline

	except Exception as e:
	print(f"Error loading model: {e}")
	import traceback
	traceback.print_exc()
	model_cache["loaded"] = False
	raise

	def generate_audio_with_model(prompt, duration, seed):
	"""
	Generate audio using the AudioLDM2 model
	"""
	try:
	# Load model (will use cache if already loaded)
	pipeline = load_model()

	# Prepare seed
	generator = None
	if seed is not None:
	try:
	seed_int = int(seed)
	generator = torch.Generator(device=DEVICE).manual_seed(seed_int)
	except (ValueError, TypeError, OverflowError):
	generator = None

	# Generate audio
	print(f"Generating audio: prompt='{prompt}', duration={duration}s, seed={seed}")

	# Stable Audio expects duration in seconds
	# Note: The model may have limits on duration, so we clamp it
	audio_duration = float(max(1.0, min(30.0, duration)))

	# Generate audio using the AudioLDM2 pipeline
	# AudioLDM2 API - uses different parameters than Stable Audio
	output = None
	try:
	# AudioLDM2 standard API
	output = pipeline(
	prompt=prompt,
	num_inference_steps=50, # Balance between quality and speed
	audio_length_in_s=audio_duration,
	generator=generator,
	)
	except TypeError as e1:
	try:
	# Try alternative parameter name (some models use 'duration' instead of 'audio_length_in_s')
	output = pipeline(
	prompt=prompt,
	num_inference_steps=50,
	duration=audio_duration,
	guidance_scale=3.5, # Add guidance for better quality
	generator=generator,
	)
	except TypeError as e2:
	try:
	# Try without duration parameter
	output = pipeline(
	prompt=prompt,
	num_inference_steps=50,
	generator=generator,
	)
	print(f"Warning: Duration parameter not supported, using model default")
	except Exception as e3:
	raise RuntimeError(f"Failed to generate audio with any parameter combination: {e1}, {e2}, {e3}")

	if output is None:
	raise RuntimeError("Pipeline returned None")

	# Extract audio array and sample rate
	# Handle different output formats from diffusers
	audio = None
	sample_rate = 44100 # Default

	# Try different output attribute names
	if hasattr(output, 'audios'):
	audio_data = output.audios
	if isinstance(audio_data, (list, tuple)) and len(audio_data) > 0:
	audio = audio_data[0]
	else:
	audio = audio_data
	elif hasattr(output, 'audio'):
	audio_data = output.audio
	if isinstance(audio_data, (list, tuple)) and len(audio_data) > 0:
	audio = audio_data[0]
	else:
	audio = audio_data
	elif isinstance(output, dict):
	audio = output.get('audios', output.get('audio', None))
	if isinstance(audio, (list, tuple)) and len(audio) > 0:
	audio = audio[0]
	elif isinstance(output, (list, tuple)) and len(output) > 0:
	audio = output[0]
	elif isinstance(output, np.ndarray):
	audio = output
	elif isinstance(output, torch.Tensor):
	audio = output

	# Get sample rate
	if hasattr(output, 'sample_rate'):
	sample_rate = output.sample_rate
	elif isinstance(output, dict):
	sample_rate = output.get('sample_rate', 44100)

	if audio is None:
	raise ValueError("Could not extract audio from pipeline output")

	# Handle different audio shapes
	if len(audio.shape) > 1:
	# If multi-channel, convert to mono by averaging
	if audio.shape[0] > audio.shape[1]:
	audio = audio.mean(axis=0)
	else:
	audio = audio.mean(axis=1)

	# Ensure audio is numpy array and float32
	if isinstance(audio, torch.Tensor):
	audio = audio.cpu().numpy()
	audio = audio.astype(np.float32)

	# Normalize to prevent clipping
	max_val = np.abs(audio).max()
	if max_val > 0:
	audio = audio / max_val * 0.95

	print(f"Audio generated: shape={audio.shape}, dtype={audio.dtype}, sample_rate={sample_rate}")

	return sample_rate, audio

	except Exception as e:
	print(f"Error in model generation: {e}")
	raise

	def generate_audio_fallback(prompt, duration, seed):
	"""
	Fallback audio generation using simple synthesis
	"""
	# Input validation and sanitization
	if prompt is None:
	prompt = "gentle melody"
	if not isinstance(prompt, str):
	prompt = str(prompt)
	if duration is None or not isinstance(duration, (int, float)) or duration <= 0:
	duration = 10.0
	duration = min(max(duration, 1.0), 30.0)

	sample_rate = 44100
	duration_samples = int(duration * sample_rate)

	# Set seed for reproducibility
	if seed is not None:
	try:
	seed_int = int(seed)
	np.random.seed(seed_int)
	except (ValueError, TypeError, OverflowError):
	pass

	# Extract features from prompt to influence audio
	prompt_lower = prompt.lower()
	base_freq = 220 # A3 note

	if 'high' in prompt_lower or 'bright' in prompt_lower:
	base_freq *= 2
	elif 'low' in prompt_lower or 'deep' in prompt_lower:
	base_freq /= 2

	if 'fast' in prompt_lower or 'quick' in prompt_lower:
	vibrato_freq = 5
	vibrato_depth = 0.1
	else:
	vibrato_freq = 0
	vibrato_depth = 0

	# Generate time array
	t = np.linspace(0, duration, duration_samples, endpoint=False)

	# Create base waveform
	if 'noise' in prompt_lower or 'wind' in prompt_lower or 'rain' in prompt_lower:
	audio = np.random.normal(0, 0.3, duration_samples)
	elif 'pulse' in prompt_lower or 'beep' in prompt_lower:
	audio = 0.3 * np.sign(np.sin(2 * np.pi * base_freq * t))
	else:
	if vibrato_freq > 0:
	phase_modulation = vibrato_depth * np.sin(2 * np.pi * vibrato_freq * t)
	audio = 0.3 * np.sin(2 * np.pi * base_freq * t + phase_modulation)
	else:
	audio = 0.3 * np.sin(2 * np.pi * base_freq * t)

	# Add harmonics
	if 'rich' in prompt_lower or 'full' in prompt_lower or 'warm' in prompt_lower:
	harmonic = 0.2 * np.sin(2 * np.pi * (base_freq * 2) * t)
	audio += harmonic

	# Add natural variation
	if 'natural' in prompt_lower or 'organic' in prompt_lower:
	variation = np.random.normal(0, 0.05, duration_samples)
	audio += variation

	# Normalize
	audio = np.clip(audio, -0.95, 0.95)
	audio = audio.astype(np.float32)

	return sample_rate, audio

	def create_audio_generation_interface():
	"""
	Create a Gradio interface for Stable Audio generation
	"""

	def generate_audio(prompt, duration, seed):
	"""
	Generate audio based on text prompt using AudioLDM2 model
	"""
	try:
	# Input validation
	if prompt is None or prompt.strip() == "":
	prompt = "gentle melody"
	if not isinstance(prompt, str):
	prompt = str(prompt)
	if duration is None or not isinstance(duration, (int, float)):
	duration = 10.0
	duration = float(max(1.0, min(30.0, duration)))

	print(f"Generating audio for prompt: '{prompt}', duration: {duration}s, seed: {seed}")

	# Try to use the model first
	try:
	sample_rate, audio = generate_audio_with_model(prompt, duration, seed)
	status_msg = f"✅ Audio generated successfully using AudioLDM2! ({len(audio)/sample_rate:.1f}s)"
	except Exception as model_error:
	print(f"Model generation failed: {model_error}")
	print("Falling back to simple synthesis...")
	# Fallback to simple synthesis
	sample_rate, audio = generate_audio_fallback(prompt, duration, seed)
	status_msg = f"⚠️ Model unavailable, using fallback synthesis. Error: {str(model_error)[:100]}"

	# Verify audio was generated correctly
	if audio is None or len(audio) == 0:
	raise ValueError("Generated audio is empty")

	print(f"Audio generated: shape={audio.shape}, dtype={audio.dtype}, sample_rate={sample_rate}")

	return (sample_rate, audio), status_msg

	except Exception as e:
	print(f"Error generating audio: {e}")
	import traceback
	traceback.print_exc()

	# Ultimate fallback
	try:
	safe_duration = float(max(1.0, min(30.0, duration if isinstance(duration, (int, float)) else 10.0)))
	sample_rate = 44100
	duration_samples = int(safe_duration * sample_rate)
	t = np.linspace(0, safe_duration, duration_samples, endpoint=False)
	audio = 0.3 * np.sin(2 * np.pi * 440 * t)
	audio = audio.astype(np.float32)

	return (sample_rate, audio), f"❌ Error: {str(e)[:100]}. Using emergency fallback."
	except Exception as fallback_error:
	print(f"Fallback also failed: {fallback_error}")
	# Absolute minimum fallback
	sample_rate = 44100
	duration_samples = 441000 # 10 seconds
	t = np.linspace(0, 10.0, duration_samples, endpoint=False)
	audio = 0.3 * np.sin(2 * np.pi * 440 * t)
	audio = audio.astype(np.float32)

	return (sample_rate, audio), "❌ Critical error occurred. Using emergency fallback."

	# Create the Gradio interface
	device_info = "GPU" if DEVICE == "cuda" else "CPU"
	with gr.Blocks(title="AudioLDM2 Audio Generation", theme=gr.themes.Soft()) as interface:
	gr.Markdown(f"""
	# 🎵 AudioLDM2 Audio Generation
	Generate high-quality audio from text prompts using AudioLDM2 technology.

	Device: {device_info} \| Model: {MODEL_ID}
	""")

	with gr.Row():
	with gr.Column():
	prompt_input = gr.Textbox(
	label="Text Prompt",
	placeholder="Describe the audio you want to generate...",
	lines=3,
	value="A gentle piano melody playing in a cozy room"
	)

	duration_input = gr.Slider(
	label="Duration (seconds)",
	minimum=1,
	maximum=30,
	value=10,
	step=1
	)

	seed_input = gr.Number(
	label="Random Seed (optional)",
	value=None,
	precision=0,
	minimum=0,
	maximum=999999
	)

	generate_btn = gr.Button("🎵 Generate Audio", variant="primary")

	with gr.Column():
	audio_output = gr.Audio(label="Generated Audio")
	status_output = gr.Textbox(label="Status", interactive=False)

	# Connect the generate button to the function
	generate_btn.click(
	fn=generate_audio,
	inputs=[prompt_input, duration_input, seed_input],
	outputs=[audio_output, status_output],
	show_progress=True
	)

	# Add some example prompts
	examples = gr.Examples(
	examples=[
	["A calming ocean wave sound with seagulls", 15, 42],
	["Upbeat electronic dance music", 20, 123],
	["Classical violin concerto", 25, 999],
	["Rain falling on a tin roof", 10, 777]
	],
	inputs=[prompt_input, duration_input, seed_input],
	outputs=[audio_output, status_output],
	fn=generate_audio,
	cache_examples=False
	)

	return interface

	# Application is ready for health monitoring

	# Launch the interface
	if __name__ == "__main__":
	print(f"Starting AudioLDM2 Audio Generation application...")
	print(f"PyTorch version: {torch.__version__}")
	print(f"CUDA available: {torch.cuda.is_available()}")
	if torch.cuda.is_available():
	print(f"CUDA device: {torch.cuda.get_device_name(0)}")

	interface = create_audio_generation_interface()

	# Health check available via Gradio's built-in endpoints
	print("Application ready at: http://localhost:7860/")
	print("Health status: System is operational")

	interface.launch(server_name="0.0.0.0", server_port=7860)