Numberblocks1Voice

Sleeping

ayf3 commited on Apr 2

Commit

58fd207

verified ·

1 Parent(s): b48d117

Upload app.py with huggingface_hub

Files changed (1) hide show

app.py CHANGED Viewed

@@ -227,13 +227,27 @@ def compute_mel(y, sr=SAMPLE_RATE):
     return mel
-def mel_to_audio_griffinlim(mel, sr=SAMPLE_RATE, n_iter=60):
-    inverse_mel = torchaudio.transforms.InverseMelScale(
-        n_stft=1024 // 2 + 1, n_mels=N_MELS,
-        sample_rate=sr, f_min=0, f_max=float(sr // 2), mel_scale="htk",
     )
     mel_power = torch.exp(mel)
-    spec = inverse_mel(mel_power)
     gl = torchaudio.transforms.GriffinLim(n_fft=1024, hop_length=256, n_iter=n_iter)
     audio = gl(spec)
     return audio.detach().cpu().numpy() if np is not None else audio.detach().cpu().tolist()

     return mel
+def _get_mel_fb_pinv(sr=SAMPLE_RATE, n_mels=N_MELS):
+    """Compute pseudo-inverse of mel filterbank (cached)."""
+    fb = torchaudio.functional.melscale_filterbanks(
+        n_freqs=513, f_min=0, f_max=float(sr // 2),
+        n_mels=n_mels, sample_rate=sr, norm=None, mel_scale="htk",
     )
+    return torch.linalg.pinv(fb)  # (513, n_mels)
+_FB_PINV_CACHE = {}
+def mel_to_audio_griffinlim(mel, sr=SAMPLE_RATE, n_iter=60):
+    key = (sr, mel.shape[0])
+    if key not in _FB_PINV_CACHE:
+        _FB_PINV_CACHE[key] = _get_mel_fb_pinv(sr=sr, n_mels=mel.shape[0])
+    fb_pinv = _FB_PINV_CACHE[key]
     mel_power = torch.exp(mel)
+    spec = fb_pinv @ mel_power
+    spec = torch.clamp(spec, min=0)
     gl = torchaudio.transforms.GriffinLim(n_fft=1024, hop_length=256, n_iter=n_iter)
     audio = gl(spec)
     return audio.detach().cpu().numpy() if np is not None else audio.detach().cpu().tolist()