rikhoffbauer2
/

lyric-sync

ml-intern

Model card Files Files and versions

xet

Community

rikhoffbauer2 commited on 26 days ago

Commit

4b10521

verified ·

1 Parent(s): 8041e59

Upload lyric_sync/separate.py

Browse files

Files changed (1) hide show

lyric_sync/separate.py +189 -0

lyric_sync/separate.py ADDED Viewed

	@@ -0,0 +1,189 @@

+"""
+Vocal stem separation using Demucs (HTDemucs).
+Extracts clean vocals from a mixed audio track for downstream transcription.
+Uses htdemucs_ft (fine-tuned) for best quality (~9.2 dB SDR on MUSDB18-HQ).
+"""
+import logging
+from pathlib import Path
+from typing import Optional
+import numpy as np
+import torch
+import torchaudio
+logger = logging.getLogger(__name__)
+class VocalSeparator:
+    """
+    Separate vocals from mixed audio using Demucs HTDemucs model.
+    The separated vocals are significantly cleaner for ASR than the original mix,
+    reducing transcription WER by ~3-5% (per arxiv:2506.15514).
+    """
+    def __init__(
+        self,
+        model_name: str = "htdemucs_ft",
+        device: Optional[str] = None,
+        segment_seconds: float = 7.8,
+        overlap: float = 0.25,
+        shifts: int = 1,
+    ):
+        """
+        Args:
+            model_name: Demucs model to use. Options:
+                - "htdemucs_ft": Best quality, per-source fine-tuned (~9.2 dB SDR)
+                - "htdemucs": Base model, slightly faster download (~8.7 dB SDR)
+                - "htdemucs_6s": 6-stem (adds guitar, piano)
+            device: "cuda", "cpu", or "mps". Auto-detected if None.
+            segment_seconds: Processing chunk size. Lower = less VRAM.
+                - 7.8: Default (matches training), ~4-6 GB VRAM
+                - 4.0: For 8 GB GPUs
+                - 2.0: For CPU processing
+            overlap: Overlap ratio between chunks (0.25 = 25%, matches paper).
+            shifts: Test-time shift augmentation. 1=disabled, 5-10=better quality but N× slower.
+        """
+        self.model_name = model_name
+        self.segment_seconds = segment_seconds
+        self.overlap = overlap
+        self.shifts = shifts
+        if device is None:
+            if torch.cuda.is_available():
+                self.device = "cuda"
+            elif hasattr(torch.backends, "mps") and torch.backends.mps.is_available():
+                self.device = "mps"
+            else:
+                self.device = "cpu"
+        else:
+            self.device = device
+        self._model = None
+        self._separator = None
+    def _load_model(self):
+        """Lazy-load model on first use."""
+        if self._model is not None:
+            return
+        try:
+            # Try high-level Separator API first (demucs >= 4.1)
+            from demucs.api import Separator
+            self._separator = Separator(
+                model=self.model_name,
+                device=self.device,
+                segment=self.segment_seconds,
+                overlap=self.overlap,
+            )
+            logger.info(f"Loaded Demucs via Separator API: {self.model_name} on {self.device}")
+        except ImportError:
+            # Fallback to low-level API
+            from demucs.pretrained import get_model
+            self._model = get_model(self.model_name)
+            self._model.eval()
+            self._model.to(self.device)
+            logger.info(f"Loaded Demucs via low-level API: {self.model_name} on {self.device}")
+    @property
+    def sample_rate(self) -> int:
+        """Demucs native sample rate (always 44100)."""
+        return 44100
+    def separate(self, audio_path: str) -> dict[str, torch.Tensor]:
+        """
+        Separate audio into stems.
+        Args:
+            audio_path: Path to audio file (any format supported by torchaudio)
+        Returns:
+            Dict mapping stem name → tensor [channels, samples] at 44100 Hz.
+            Keys: "drums", "bass", "other", "vocals"
+        """
+        self._load_model()
+        # Load audio
+        wav, sr = torchaudio.load(audio_path)
+        # Resample to model's native 44100 Hz
+        if sr != self.sample_rate:
+            wav = torchaudio.functional.resample(wav, sr, self.sample_rate)
+        # Ensure stereo (Demucs expects 2-channel)
+        if wav.shape[0] == 1:
+            wav = wav.repeat(2, 1)
+        elif wav.shape[0] > 2:
+            wav = wav[:2]  # Take first 2 channels
+        if self._separator is not None:
+            # High-level API
+            _, stems = self._separator.separate_tensor(wav.to(self.device))
+            return stems
+        else:
+            # Low-level API
+            from demucs.apply import apply_model
+            wav_batch = wav.unsqueeze(0).to(self.device)  # [1, 2, N]
+            with torch.no_grad():
+                sources = apply_model(
+                    self._model,
+                    wav_batch,
+                    device=self.device,
+                    shifts=self.shifts,
+                    split=True,
+                    overlap=self.overlap,
+                    progress=False,
+                )
+            # sources: [1, num_sources, 2, N]
+            stems = {}
+            for idx, name in enumerate(self._model.sources):
+                stems[name] = sources[0, idx].cpu()  # [2, N]
+            return stems
+    def extract_vocals(
+        self,
+        audio_path: str,
+        target_sr: int = 16000,
+        mono: bool = True,
+    ) -> tuple[np.ndarray, int]:
+        """
+        Extract vocals and prepare for ASR.
+        Args:
+            audio_path: Path to audio file
+            target_sr: Target sample rate for ASR (16000 for Whisper)
+            mono: Convert to mono (required by most ASR models)
+        Returns:
+            (vocals_array, sample_rate) — numpy float32 array ready for ASR
+        """
+        stems = self.separate(audio_path)
+        vocals = stems["vocals"]  # [2, N] at 44100 Hz
+        if mono:
+            vocals = vocals.mean(dim=0)  # [N]
+        # Resample to target SR
+        if self.sample_rate != target_sr:
+            if vocals.dim() == 1:
+                vocals = vocals.unsqueeze(0)
+            vocals = torchaudio.functional.resample(vocals, self.sample_rate, target_sr)
+            if mono:
+                vocals = vocals.squeeze(0)
+        return vocals.numpy().astype(np.float32), target_sr
+    def extract_vocals_full_rate(self, audio_path: str) -> tuple[np.ndarray, int]:
+        """
+        Extract vocals at full 44100 Hz for onset/offset analysis.
+        Returns:
+            (vocals_mono_array, 44100) — numpy float32 at native rate
+        """
+        stems = self.separate(audio_path)
+        vocals = stems["vocals"].mean(dim=0)  # [N] mono at 44100
+        return vocals.numpy().astype(np.float32), self.sample_rate