Spaces:

frascuchon
/

music-mcp

Running on CPU Upgrade

App Files Files Community

music-mcp / tools /audio_cutting.py

frascuchon HF Staff

fixing tools

f62bfdb 12 days ago

raw

history blame contribute delete

21.3 kB

	import os
	from pathlib import Path
	from typing import List, Optional, Tuple, Union

	import librosa
	import numpy as np
	import soundfile as sf

	try:
	from .audio_info import validate_audio_path
	except ImportError:
	from audio_info import validate_audio_path


	def cut_audio(
	audio_path: str,
	start_time: float,
	end_time: float,
	output_path: Optional[str] = None,
	output_format: str = "wav",
	) -> str:
	"""
	Cut a segment from an audio file between specified start and end times.

	Args:
	audio_path: Path to input audio file or URL
	start_time: Start time in seconds
	end_time: End time in seconds
	output_path: Optional output directory (default: None, uses current directory)
	output_format: Output format ('wav' or 'mp3', default: 'wav')

	Returns:
	Path to the cut audio file

	Raises:
	ValueError: If start_time >= end_time or times are out of range
	FileNotFoundError: If audio file doesn't exist
	"""
	try:
	# Validate audio path
	validated_path = validate_audio_path(audio_path)

	# Load audio
	y, sr = librosa.load(validated_path, sr=None, mono=False)

	# Get audio duration
	duration = len(y) / sr if y.ndim == 1 else len(y[0]) / sr

	if start_time >= end_time:
	raise ValueError(
	f"Start time ({start_time}s) must be less than end time ({end_time}s)"
	)

	if start_time < 0:
	raise ValueError(f"Start time ({start_time}s) cannot be negative")

	if end_time > duration:
	raise ValueError(
	f"End time ({end_time}s) exceeds audio duration ({duration:.2f}s)"
	)

	# Convert time to sample indices
	start_sample = int(start_time * sr)
	end_sample = int(end_time * sr)

	# Cut the audio segment
	if y.ndim == 1:
	# Mono audio
	y_cut = y[start_sample:end_sample]
	else:
	# Multi-channel audio
	y_cut = y[:, start_sample:end_sample]

	# Generate output filename
	if not output_path:
	output_path = "."
	os.makedirs(output_path, exist_ok=True)

	original_filename = Path(validated_path).stem
	output_filename = f"{original_filename}_cut_{start_time:.1f}s_to_{end_time:.1f}s.{output_format.lower()}"
	output_file_path = os.path.join(output_path, output_filename)

	# Save the cut audio
	if y_cut.ndim == 2:
	y_cut = y_cut.T # Transpose for soundfile

	if output_format.lower() == "mp3":
	# For MP3, use ffmpeg through subprocess
	import tempfile
	import subprocess

	with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as temp_wav:
	sf.write(temp_wav.name, y_cut, sr)

	cmd = [
	"ffmpeg",
	"-y",
	"-i",
	temp_wav.name,
	"-c:a",
	"libmp3lame",
	"-b:a",
	"192k",
	output_file_path,
	]
	subprocess.run(cmd, capture_output=True, check=True)
	os.unlink(temp_wav.name)
	else:
	sf.write(output_file_path, y_cut, sr)

	return output_file_path

	except Exception as e:
	raise RuntimeError(f"Error cutting audio: {str(e)}")


	def mute_time_windows(
	audio_path: str,
	mute_windows: List[Tuple[float, float]],
	output_path: Optional[str] = None,
	output_format: str = "wav",
	fade_duration: float = 0.1,
	) -> str:
	"""
	Mute specific time windows in an audio file.

	Args:
	audio_path: Path to input audio file or URL
	mute_windows: List of (start_time, end_time) tuples in seconds
	output_path: Optional output directory (default: None, uses current directory)
	output_format: Output format ('wav' or 'mp3', default: 'wav')
	fade_duration: Fade in/out duration in seconds for smooth transitions (default: 0.1s)

	Returns:
	Path to the processed audio file with muted sections

	Raises:
	ValueError: If mute windows are invalid or overlapping
	"""
	try:
	# Validate audio path
	validated_path = validate_audio_path(audio_path)

	# Load audio
	y, sr = librosa.load(validated_path, sr=None, mono=False)

	# Get audio duration
	duration = len(y) / sr if y.ndim == 1 else len(y[0]) / sr

	# Validate and sort mute windows
	sorted_windows = sorted(mute_windows, key=lambda x: x[0])

	for i, (start, end) in enumerate(sorted_windows):
	if start >= end:
	raise ValueError(
	f"Window {i}: start time ({start}s) must be less than end time ({end}s)"
	)
	if start < 0 or end > duration:
	raise ValueError(
	f"Window {i}: time range ({start}s-{end}s) outside audio duration (0-{duration:.2f}s)"
	)

	# Check for overlaps
	if i > 0:
	prev_start, prev_end = sorted_windows[i - 1]
	if start < prev_end:
	raise ValueError(f"Window {i} overlaps with previous window")

	# Create a copy of the audio for processing
	y_processed = y.copy()

	# Apply muting with fade in/out
	for start_time, end_time in sorted_windows:
	start_sample = int(start_time * sr)
	end_sample = int(end_time * sr)
	fade_samples = int(fade_duration * sr)

	if y_processed.ndim == 1:
	# Mono audio
	# Apply fade out before mute
	fade_start = max(0, start_sample - fade_samples)
	if fade_start < start_sample:
	fade_out = np.linspace(1, 0, start_sample - fade_start)
	y_processed[fade_start:start_sample] *= fade_out

	# Apply mute
	y_processed[start_sample:end_sample] = 0

	# Apply fade in after mute
	fade_end = min(len(y_processed), end_sample + fade_samples)
	if end_sample < fade_end:
	fade_in = np.linspace(0, 1, fade_end - end_sample)
	y_processed[end_sample:fade_end] *= fade_in
	else:
	# Multi-channel audio
	# Apply fade out before mute
	fade_start = max(0, start_sample - fade_samples)
	if fade_start < start_sample:
	fade_out = np.linspace(1, 0, start_sample - fade_start)
	y_processed[:, fade_start:start_sample] *= fade_out[np.newaxis, :]

	# Apply mute
	y_processed[:, start_sample:end_sample] = 0

	# Apply fade in after mute
	fade_end = min(y_processed.shape[1], end_sample + fade_samples)
	if end_sample < fade_end:
	fade_in = np.linspace(0, 1, fade_end - end_sample)
	y_processed[:, end_sample:fade_end] *= fade_in[np.newaxis, :]

	# Generate output filename
	if not output_path:
	output_path = "."
	os.makedirs(output_path, exist_ok=True)

	original_filename = Path(validated_path).stem
	windows_str = "_".join([f"{s:.1f}-{e:.1f}" for s, e in sorted_windows[:3]])
	if len(sorted_windows) > 3:
	windows_str += f"_and_{len(sorted_windows) - 3}_more"

	output_filename = (
	f"{original_filename}_muted_{windows_str}.{output_format.lower()}"
	)
	output_file_path = os.path.join(output_path, output_filename)

	# Save the processed audio
	if y_processed.ndim == 2:
	y_processed = y_processed.T # Transpose for soundfile

	if output_format.lower() == "mp3":
	# For MP3, use ffmpeg through subprocess
	import tempfile
	import subprocess

	with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as temp_wav:
	sf.write(temp_wav.name, y_processed, sr)

	cmd = [
	"ffmpeg",
	"-y",
	"-i",
	temp_wav.name,
	"-c:a",
	"libmp3lame",
	"-b:a",
	"192k",
	output_file_path,
	]
	subprocess.run(cmd, capture_output=True, check=True)
	os.unlink(temp_wav.name)
	else:
	sf.write(output_file_path, y_processed, sr)

	return output_file_path

	except Exception as e:
	raise RuntimeError(f"Error muting audio windows: {str(e)}")


	def extract_segments(
	audio_path: str,
	segments: List[Tuple[float, float]],
	output_path: Optional[str] = None,
	output_format: str = "wav",
	join_segments: bool = False,
	) -> Union[str, List[str]]:
	"""
	Extract multiple segments from an audio file.

	Args:
	audio_path: Path to input audio file or URL
	segments: List of (start_time, end_time) tuples in seconds
	output_path: Optional output directory (default: None, uses current directory)
	output_format: Output format ('wav' or 'mp3', default: 'wav')
	join_segments: If True, join all segments into one file; if False, save separately

	Returns:
	If join_segments=True: Path to joined audio file
	If join_segments=False: List of paths to individual segment files

	Raises:
	ValueError: If segments are invalid
	"""
	try:
	# Validate audio path
	validated_path = validate_audio_path(audio_path)

	# Load audio
	y, sr = librosa.load(validated_path, sr=None, mono=False)

	# Get audio duration
	duration = len(y) / sr if y.ndim == 1 else len(y[0]) / sr

	# Validate segments
	for i, (start, end) in enumerate(segments):
	if start >= end:
	raise ValueError(
	f"Segment {i}: start time ({start}s) must be less than end time ({end}s)"
	)
	if start < 0 or end > duration:
	raise ValueError(
	f"Segment {i}: time range ({start}s-{end}s) outside audio duration"
	)

	if not output_path:
	output_path = "."
	os.makedirs(output_path, exist_ok=True)

	original_filename = Path(validated_path).stem

	if join_segments:
	# Join all segments into one file
	segments_audio = []

	for start_time, end_time in segments:
	start_sample = int(start_time * sr)
	end_sample = int(end_time * sr)

	if y.ndim == 1:
	segment = y[start_sample:end_sample]
	else:
	segment = y[:, start_sample:end_sample]

	segments_audio.append(segment)

	# Concatenate all segments
	if y.ndim == 1:
	y_joined = np.concatenate(segments_audio)
	else:
	y_joined = np.concatenate(segments_audio, axis=1)

	# Save joined audio
	output_filename = (
	f"{original_filename}_segments_joined.{output_format.lower()}"
	)
	output_file_path = os.path.join(output_path, output_filename)

	if y_joined.ndim == 2:
	y_joined = y_joined.T

	if output_format.lower() == "mp3":
	import tempfile
	import subprocess

	with tempfile.NamedTemporaryFile(
	suffix=".wav", delete=False
	) as temp_wav:
	sf.write(temp_wav.name, y_joined, sr)

	cmd = [
	"ffmpeg",
	"-y",
	"-i",
	temp_wav.name,
	"-c:a",
	"libmp3lame",
	"-b:a",
	"192k",
	output_file_path,
	]
	subprocess.run(cmd, capture_output=True, check=True)
	os.unlink(temp_wav.name)
	else:
	sf.write(output_file_path, y_joined, sr)

	return output_file_path
	else:
	# Save segments separately
	segment_files = []

	for i, (start_time, end_time) in enumerate(segments):
	start_sample = int(start_time * sr)
	end_sample = int(end_time * sr)

	if y.ndim == 1:
	segment = y[start_sample:end_sample]
	else:
	segment = y[:, start_sample:end_sample]

	output_filename = f"{original_filename}_segment_{i + 1}_{start_time:.1f}s_to_{end_time:.1f}s.{output_format.lower()}"
	output_file_path = os.path.join(output_path, output_filename)

	if segment.ndim == 2:
	segment = segment.T

	if output_format.lower() == "mp3":
	import tempfile
	import subprocess

	with tempfile.NamedTemporaryFile(
	suffix=".wav", delete=False
	) as temp_wav:
	sf.write(temp_wav.name, segment, sr)

	cmd = [
	"ffmpeg",
	"-y",
	"-i",
	temp_wav.name,
	"-c:a",
	"libmp3lame",
	"-b:a",
	"192k",
	output_file_path,
	]
	subprocess.run(cmd, capture_output=True, check=True)
	os.unlink(temp_wav.name)
	else:
	sf.write(output_file_path, segment, sr)

	segment_files.append(output_file_path)

	return segment_files

	except Exception as e:
	raise RuntimeError(f"Error extracting segments: {str(e)}")


	def trim_audio(
	audio_path: str,
	trim_start: Optional[float] = None,
	trim_end: Optional[float] = None,
	output_path: Optional[str] = None,
	output_format: str = "wav",
	) -> str:
	"""
	Trim audio from the beginning and/or end.

	Args:
	audio_path: Path to input audio file or URL
	trim_start: Amount to trim from start in seconds (None = no trim from start)
	trim_end: Amount to trim from end in seconds (None = no trim from end)
	output_path: Optional output directory (default: None, uses current directory)
	output_format: Output format ('wav' or 'mp3', default: 'wav')

	Returns:
	Path to the trimmed audio file

	Raises:
	ValueError: If trim amounts are invalid or exceed audio duration
	"""
	try:
	# Validate audio path
	validated_path = validate_audio_path(audio_path)

	# Load audio
	y, sr = librosa.load(validated_path, sr=None, mono=False)

	# Get audio duration
	duration = len(y) / sr if y.ndim == 1 else len(y[0]) / sr

	# Validate trim amounts
	if trim_start is not None and trim_start < 0:
	raise ValueError("Trim start amount cannot be negative")

	if trim_end is not None and trim_end < 0:
	raise ValueError("Trim end amount cannot be negative")

	if trim_start is None:
	trim_start = 0.0
	if trim_end is None:
	trim_end = 0.0

	total_trim = trim_start + trim_end
	if total_trim >= duration:
	raise ValueError(
	f"Total trim ({total_trim}s) exceeds or equals audio duration ({duration:.2f}s)"
	)

	# Calculate trim boundaries
	start_sample = int(trim_start * sr)
	if trim_end > 0:
	end_sample = int((duration - trim_end) * sr)
	else:
	end_sample = len(y) if y.ndim == 1 else y.shape[1]

	# Trim the audio
	if y.ndim == 1:
	y_trimmed = y[start_sample:end_sample]
	else:
	y_trimmed = y[:, start_sample:end_sample]

	# Generate output filename
	if not output_path:
	output_path = "."
	os.makedirs(output_path, exist_ok=True)

	original_filename = Path(validated_path).stem
	trim_parts = []
	if trim_start > 0:
	trim_parts.append(f"start_{trim_start:.1f}s")
	if trim_end > 0:
	trim_parts.append(f"end_{trim_end:.1f}s")

	trim_str = "_".join(trim_parts) if trim_parts else "trimmed"
	output_filename = f"{original_filename}_{trim_str}.{output_format.lower()}"
	output_file_path = os.path.join(output_path, output_filename)

	# Save the trimmed audio
	if y_trimmed.ndim == 2:
	y_trimmed = y_trimmed.T # Transpose for soundfile

	if output_format.lower() == "mp3":
	# For MP3, use ffmpeg through subprocess
	import tempfile
	import subprocess

	with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as temp_wav:
	sf.write(temp_wav.name, y_trimmed, sr)

	cmd = [
	"ffmpeg",
	"-y",
	"-i",
	temp_wav.name,
	"-c:a",
	"libmp3lame",
	"-b:a",
	"192k",
	output_file_path,
	]
	subprocess.run(cmd, capture_output=True, check=True)
	os.unlink(temp_wav.name)
	else:
	sf.write(output_file_path, y_trimmed, sr)

	return output_file_path

	except Exception as e:
	raise RuntimeError(f"Error trimming audio: {str(e)}")


	if __name__ == "__main__":
	import argparse
	import json

	parser = argparse.ArgumentParser(description="Audio cutting and editing tools")
	subparsers = parser.add_subparsers(dest="command", help="Available commands")

	# Cut audio
	cut_parser = subparsers.add_parser("cut", help="Cut audio segment")
	cut_parser.add_argument("audio", help="Path to audio file")
	cut_parser.add_argument("start", type=float, help="Start time in seconds")
	cut_parser.add_argument("end", type=float, help="End time in seconds")
	cut_parser.add_argument(
	"--format", default="wav", choices=["wav", "mp3"], help="Output format"
	)

	# Mute windows
	mute_parser = subparsers.add_parser("mute", help="Mute time windows")
	mute_parser.add_argument("audio", help="Path to audio file")
	mute_parser.add_argument("windows", help="JSON array of [start, end] pairs")
	mute_parser.add_argument(
	"--format", default="wav", choices=["wav", "mp3"], help="Output format"
	)

	# Extract segments
	extract_parser = subparsers.add_parser("extract", help="Extract segments")
	extract_parser.add_argument("audio", help="Path to audio file")
	extract_parser.add_argument("segments", help="JSON array of [start, end] pairs")
	extract_parser.add_argument(
	"--join", action="store_true", help="Join segments into one file"
	)
	extract_parser.add_argument(
	"--format", default="wav", choices=["wav", "mp3"], help="Output format"
	)

	# Trim audio
	trim_parser = subparsers.add_parser("trim", help="Trim audio from start/end")
	trim_parser.add_argument("audio", help="Path to audio file")
	trim_parser.add_argument(
	"--start", type=float, help="Trim amount from start in seconds"
	)
	trim_parser.add_argument(
	"--end", type=float, help="Trim amount from end in seconds"
	)
	trim_parser.add_argument(
	"--format", default="wav", choices=["wav", "mp3"], help="Output format"
	)

	args = parser.parse_args()

	try:
	if args.command == "cut":
	output = cut_audio(
	args.audio, args.start, args.end, output_format=args.format
	)
	print(f"Cut audio saved to: {output}")

	elif args.command == "mute":
	windows = json.loads(args.windows)
	output = mute_time_windows(args.audio, windows, output_format=args.format)
	print(f"Muted audio saved to: {output}")

	elif args.command == "extract":
	segments = json.loads(args.segments)
	result = extract_segments(
	args.audio, segments, join_segments=args.join, output_format=args.format
	)
	if args.join:
	print(f"Joined segments saved to: {result}")
	else:
	print("Extracted segments:")
	for i, segment_file in enumerate(result):
	print(f" {i + 1}. {segment_file}")

	elif args.command == "trim":
	output = trim_audio(
	args.audio, args.start, args.end, output_format=args.format
	)
	print(f"Trimmed audio saved to: {output}")

	else:
	parser.print_help()

	except Exception as e:
	print(f"Error: {e}")
	exit(1)