DeepFilterNet2

Running

App Files Files Community

ongudidan commited on Oct 3, 2025

Commit

16d8efc

verified ·

1 Parent(s): abeff4e

Update app.py

Browse files

Files changed (1) hide show

app.py +28 -6

app.py CHANGED Viewed

@@ -103,16 +103,31 @@ def load_audio_gradio(
     return audio, meta
 def demo_fn(speech_upl: str, noise_type: str, snr: int, mic_input: Optional[str] = None):
     if mic_input:
         speech_upl = mic_input
     sr = config("sr", 48000, int, section="df")
     logger.info(f"Got parameters speech_upl: {speech_upl}, noise: {noise_type}, snr: {snr}")
     snr = int(snr)
     noise_fn = NOISES[noise_type]
     meta = AudioMetaData(-1, -1, -1, -1, "")
-    max_s = 10  # limit to 10 seconds
     if speech_upl is not None:
         sample, meta = load_audio(speech_upl, sr)
         max_len = max_s * sr
         if sample.shape[-1] > max_len:
@@ -121,42 +136,49 @@ def demo_fn(speech_upl: str, noise_type: str, snr: int, mic_input: Optional[str]
     else:
         sample, meta = load_audio("samples/p232_013_clean.wav", sr)
         sample = sample[..., : max_s * sr]
     if sample.dim() > 1 and sample.shape[0] > 1:
-        assert (
-            sample.shape[1] > sample.shape[0]
-        ), f"Expecting channels first, but got {sample.shape}"
         sample = sample.mean(dim=0, keepdim=True)
     logger.info(f"Loaded sample with shape {sample.shape}")
     if noise_fn is not None:
         noise, _ = load_audio(noise_fn, sr)  # type: ignore
         logger.info(f"Loaded noise with shape {noise.shape}")
         _, _, sample = mix_at_snr(sample, noise, snr)
     logger.info("Start denoising audio")
     enhanced = enhance(model, df, sample)
     logger.info("Denoising finished")
     lim = torch.linspace(0.0, 1.0, int(sr * 0.15)).unsqueeze(0)
     lim = torch.cat((lim, torch.ones(1, enhanced.shape[1] - lim.shape[1])), dim=1)
     enhanced = enhanced * lim
     if meta.sample_rate != sr:
         enhanced = resample(enhanced, sr, meta.sample_rate)
         sample = resample(sample, sr, meta.sample_rate)
         sr = meta.sample_rate
     noisy_wav = tempfile.NamedTemporaryFile(suffix="noisy.wav", delete=False).name
     save_audio(noisy_wav, sample, sr)
     enhanced_wav = tempfile.NamedTemporaryFile(suffix="enhanced.wav", delete=False).name
     save_audio(enhanced_wav, enhanced, sr)
     logger.info(f"saved audios: {noisy_wav}, {enhanced_wav}")
     ax_noisy.clear()
     ax_enh.clear()
     noisy_im = spec_im(sample, sr=sr, figure=fig_noisy, ax=ax_noisy)
     enh_im = spec_im(enhanced, sr=sr, figure=fig_enh, ax=ax_enh)
     filter = [speech_upl, noisy_wav, enhanced_wav]
     if mic_input is not None and mic_input != "":
         filter.append(mic_input)
     cleanup_tmp(filter)
-    return noisy_wav, noisy_im, enhanced_wav, enh_im
 def specshow(
     spec,

     return audio, meta
+def ensure_wav(filepath: str) -> str:
+    """Convert MP3 (or other formats) to WAV using ffmpeg if needed."""
+    if filepath.lower().endswith(".mp3"):
+        wav_path = filepath.rsplit(".", 1)[0] + ".wav"
+        subprocess.run(["ffmpeg", "-y", "-i", filepath, wav_path], check=True)
+        return wav_path
+    return filepath
 def demo_fn(speech_upl: str, noise_type: str, snr: int, mic_input: Optional[str] = None):
     if mic_input:
         speech_upl = mic_input
     sr = config("sr", 48000, int, section="df")
     logger.info(f"Got parameters speech_upl: {speech_upl}, noise: {noise_type}, snr: {snr}")
     snr = int(snr)
     noise_fn = NOISES[noise_type]
     meta = AudioMetaData(-1, -1, -1, -1, "")
+    max_s = 3600  # allow up to 1 hour (3600 seconds)
     if speech_upl is not None:
+        # ✅ Ensure compatible WAV input
+        speech_upl = ensure_wav(speech_upl)
         sample, meta = load_audio(speech_upl, sr)
         max_len = max_s * sr
         if sample.shape[-1] > max_len:
     else:
         sample, meta = load_audio("samples/p232_013_clean.wav", sr)
         sample = sample[..., : max_s * sr]
     if sample.dim() > 1 and sample.shape[0] > 1:
+        assert sample.shape[1] > sample.shape[0], f"Expecting channels first, but got {sample.shape}"
         sample = sample.mean(dim=0, keepdim=True)
     logger.info(f"Loaded sample with shape {sample.shape}")
     if noise_fn is not None:
         noise, _ = load_audio(noise_fn, sr)  # type: ignore
         logger.info(f"Loaded noise with shape {noise.shape}")
         _, _, sample = mix_at_snr(sample, noise, snr)
     logger.info("Start denoising audio")
     enhanced = enhance(model, df, sample)
     logger.info("Denoising finished")
     lim = torch.linspace(0.0, 1.0, int(sr * 0.15)).unsqueeze(0)
     lim = torch.cat((lim, torch.ones(1, enhanced.shape[1] - lim.shape[1])), dim=1)
     enhanced = enhanced * lim
     if meta.sample_rate != sr:
         enhanced = resample(enhanced, sr, meta.sample_rate)
         sample = resample(sample, sr, meta.sample_rate)
         sr = meta.sample_rate
     noisy_wav = tempfile.NamedTemporaryFile(suffix="noisy.wav", delete=False).name
     save_audio(noisy_wav, sample, sr)
     enhanced_wav = tempfile.NamedTemporaryFile(suffix="enhanced.wav", delete=False).name
     save_audio(enhanced_wav, enhanced, sr)
     logger.info(f"saved audios: {noisy_wav}, {enhanced_wav}")
     ax_noisy.clear()
     ax_enh.clear()
     noisy_im = spec_im(sample, sr=sr, figure=fig_noisy, ax=ax_noisy)
     enh_im = spec_im(enhanced, sr=sr, figure=fig_enh, ax=ax_enh)
     filter = [speech_upl, noisy_wav, enhanced_wav]
     if mic_input is not None and mic_input != "":
         filter.append(mic_input)
     cleanup_tmp(filter)
+    return noisy_wav, noisy_im, enhanced_wav, enh_im
 def specshow(
     spec,