DeepFilterNet2

Running

App Files Files Community

ongudidan commited on Oct 3, 2025

Commit

a2adea6

verified ·

1 Parent(s): d67897c

Update app.py

Browse files

Files changed (1) hide show

app.py +31 -34

app.py CHANGED Viewed

@@ -5,6 +5,9 @@ import tempfile
 import time
 from typing import List, Optional, Tuple, Union
 import gradio as gr
 import matplotlib.pyplot as plt
 import numpy as np
@@ -100,81 +103,76 @@ def load_audio_gradio(
     return audio, meta
 def demo_fn(speech_upl: str, noise_type: str, snr: int, mic_input: Optional[str] = None):
     if mic_input:
         speech_upl = mic_input
     sr = config("sr", 48000, int, section="df")
     logger.info(f"Got parameters speech_upl: {speech_upl}, noise: {noise_type}, snr: {snr}")
     snr = int(snr)
     noise_fn = NOISES[noise_type]
     meta = AudioMetaData(-1, -1, -1, -1, "")
-    # --- Load audio (full file, no hard 10s crop) ---
     if speech_upl is not None:
         sample, meta = load_audio(speech_upl, sr)
     else:
         sample, meta = load_audio("samples/p232_013_clean.wav", sr)
-    # Mix to mono if multi-channel
     if sample.dim() > 1 and sample.shape[0] > 1:
-        assert (
-            sample.shape[1] > sample.shape[0]
-        ), f"Expecting channels first, but got {sample.shape}"
         sample = sample.mean(dim=0, keepdim=True)
     logger.info(f"Loaded sample with shape {sample.shape}")
-    # Add noise if requested
     if noise_fn is not None:
         noise, _ = load_audio(noise_fn, sr)  # type: ignore
         logger.info(f"Loaded noise with shape {noise.shape}")
         _, _, sample = mix_at_snr(sample, noise, snr)
     logger.info("Start denoising audio")
-    # --- Process in chunks instead of single forward pass ---
-    chunk_size = sr * 10   # 10 seconds per chunk
-    enhanced_chunks = []
-    for i in range(0, sample.shape[-1], chunk_size):
-        chunk = sample[..., i:i + chunk_size]
-        if chunk.shape[-1] == 0:
-            continue
-        logger.info(f"Enhancing chunk {i//chunk_size + 1}")
-        enhanced_chunk = enhance(model, df, chunk)
-        # Apply short fade-in to smooth first chunk
-        if i == 0:
-            lim = torch.linspace(0.0, 1.0, int(sr * 0.15)).unsqueeze(0)
-            lim = torch.cat((lim, torch.ones(1, enhanced_chunk.shape[1] - lim.shape[1])), dim=1)
-            enhanced_chunk = enhanced_chunk * lim
-        enhanced_chunks.append(enhanced_chunk)
-    # Concatenate all enhanced chunks into one
-    enhanced = torch.cat(enhanced_chunks, dim=-1)
     logger.info("Denoising finished")
-    # Resample back if needed
     if meta.sample_rate != sr:
         enhanced = resample(enhanced, sr, meta.sample_rate)
         sample = resample(sample, sr, meta.sample_rate)
         sr = meta.sample_rate
-    # Save noisy & enhanced wavs
     noisy_wav = tempfile.NamedTemporaryFile(suffix="noisy.wav", delete=False).name
     save_audio(noisy_wav, sample, sr)
     enhanced_wav = tempfile.NamedTemporaryFile(suffix="enhanced.wav", delete=False).name
     save_audio(enhanced_wav, enhanced, sr)
-    logger.info(f"Saved audios: {noisy_wav}, {enhanced_wav}")
-    # Plot spectrograms
     ax_noisy.clear()
     ax_enh.clear()
     noisy_im = spec_im(sample, sr=sr, figure=fig_noisy, ax=ax_noisy)
     enh_im = spec_im(enhanced, sr=sr, figure=fig_enh, ax=ax_enh)
-    # Cleanup temp files
     filter = [speech_upl, noisy_wav, enhanced_wav]
     if mic_input is not None and mic_input != "":
         filter.append(mic_input)
@@ -182,7 +180,6 @@ def demo_fn(speech_upl: str, noise_type: str, snr: int, mic_input: Optional[str]
     return noisy_wav, noisy_im, enhanced_wav, enh_im
 def specshow(
     spec,
     ax=None,

 import time
 from typing import List, Optional, Tuple, Union
+import subprocess
+# import os
 import gradio as gr
 import matplotlib.pyplot as plt
 import numpy as np
     return audio, meta
+def ensure_wav(filepath: str) -> str:
+    """Convert MP3 (or other formats) to WAV using ffmpeg if needed."""
+    if filepath.lower().endswith(".mp3"):
+        wav_path = filepath.rsplit(".", 1)[0] + ".wav"
+        subprocess.run(["ffmpeg", "-y", "-i", filepath, wav_path], check=True)
+        return wav_path
+    return filepath
 def demo_fn(speech_upl: str, noise_type: str, snr: int, mic_input: Optional[str] = None):
     if mic_input:
         speech_upl = mic_input
     sr = config("sr", 48000, int, section="df")
     logger.info(f"Got parameters speech_upl: {speech_upl}, noise: {noise_type}, snr: {snr}")
     snr = int(snr)
     noise_fn = NOISES[noise_type]
     meta = AudioMetaData(-1, -1, -1, -1, "")
+    max_s = 3600  # allow up to 1 hour (3600 seconds)
     if speech_upl is not None:
+        # ✅ Ensure compatible WAV input
+        speech_upl = ensure_wav(speech_upl)
         sample, meta = load_audio(speech_upl, sr)
+        max_len = max_s * sr
+        if sample.shape[-1] > max_len:
+            start = torch.randint(0, sample.shape[-1] - max_len, ()).item()
+            sample = sample[..., start : start + max_len]
     else:
         sample, meta = load_audio("samples/p232_013_clean.wav", sr)
+        sample = sample[..., : max_s * sr]
     if sample.dim() > 1 and sample.shape[0] > 1:
+        assert sample.shape[1] > sample.shape[0], f"Expecting channels first, but got {sample.shape}"
         sample = sample.mean(dim=0, keepdim=True)
     logger.info(f"Loaded sample with shape {sample.shape}")
     if noise_fn is not None:
         noise, _ = load_audio(noise_fn, sr)  # type: ignore
         logger.info(f"Loaded noise with shape {noise.shape}")
         _, _, sample = mix_at_snr(sample, noise, snr)
     logger.info("Start denoising audio")
+    enhanced = enhance(model, df, sample)
     logger.info("Denoising finished")
+    lim = torch.linspace(0.0, 1.0, int(sr * 0.15)).unsqueeze(0)
+    lim = torch.cat((lim, torch.ones(1, enhanced.shape[1] - lim.shape[1])), dim=1)
+    enhanced = enhanced * lim
     if meta.sample_rate != sr:
         enhanced = resample(enhanced, sr, meta.sample_rate)
         sample = resample(sample, sr, meta.sample_rate)
         sr = meta.sample_rate
     noisy_wav = tempfile.NamedTemporaryFile(suffix="noisy.wav", delete=False).name
     save_audio(noisy_wav, sample, sr)
     enhanced_wav = tempfile.NamedTemporaryFile(suffix="enhanced.wav", delete=False).name
     save_audio(enhanced_wav, enhanced, sr)
+    logger.info(f"saved audios: {noisy_wav}, {enhanced_wav}")
     ax_noisy.clear()
     ax_enh.clear()
     noisy_im = spec_im(sample, sr=sr, figure=fig_noisy, ax=ax_noisy)
     enh_im = spec_im(enhanced, sr=sr, figure=fig_enh, ax=ax_enh)
     filter = [speech_upl, noisy_wav, enhanced_wav]
     if mic_input is not None and mic_input != "":
         filter.append(mic_input)
     return noisy_wav, noisy_im, enhanced_wav, enh_im
 def specshow(
     spec,
     ax=None,