Spaces:

chenxie95
/

MeanAudio

Running on Zero

AndreasXi commited on Aug 18, 2025

Commit

dd97a96

1 Parent(s): 0fe93da

update

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,6 +1,6 @@
 import warnings
 import spaces
-warnings.filterwarnings("ignore", category=FutureWarning)
 import logging
 from argparse import ArgumentParser
 from pathlib import Path
@@ -16,7 +16,6 @@ from meanaudio.eval_utils import (
     generate_fm,
     setup_eval_logging,
 )
 from meanaudio.model.flow_matching import FlowMatching
 from meanaudio.model.mean_flow import MeanFlow
 from meanaudio.model.networks import MeanAudio, get_mean_audio
@@ -26,6 +25,7 @@ torch.backends.cudnn.allow_tf32 = True
 import gc
 from datetime import datetime
 from huggingface_hub import snapshot_download
 log = logging.getLogger()
 device = "cpu"
@@ -137,6 +137,17 @@ def generate_audio_gradio(
         **{sampler_arg_name: sampler},
     )
     audio = audios[0].float().cpu()
     # text_embed = laion_clap_model.get_text_embedding(prompt, use_tensor=True).squeeze()
     # audio_embed = laion_clap_model.get_audio_embedding_from_data(audios[:,0,:].float().cpu(), use_tensor=True).squeeze()
     # scores = torch.cosine_similarity(text_embed.expand(audio_embed.shape[0], -1),

 import warnings
 import spaces
+warnings.filterwarnings("ignore")
 import logging
 from argparse import ArgumentParser
 from pathlib import Path
     generate_fm,
     setup_eval_logging,
 )
 from meanaudio.model.flow_matching import FlowMatching
 from meanaudio.model.mean_flow import MeanFlow
 from meanaudio.model.networks import MeanAudio, get_mean_audio
 import gc
 from datetime import datetime
 from huggingface_hub import snapshot_download
+import numpy as np
 log = logging.getLogger()
 device = "cpu"
         **{sampler_arg_name: sampler},
     )
     audio = audios[0].float().cpu()
+    def fade_out(x, sr, fade_ms=30):
+        n = len(x)
+        k = int(sr * fade_ms / 1000)
+        if k <= 0 or k >= n:
+            return x
+        w = np.linspace(1.0, 0.0, k)
+        x[-k:] = x[-k:] * w
+        return x
+    audio = fade_out(audio, seq_cfg.sampling_rate)
     # text_embed = laion_clap_model.get_text_embedding(prompt, use_tensor=True).squeeze()
     # audio_embed = laion_clap_model.get_audio_embedding_from_data(audios[:,0,:].float().cpu(), use_tensor=True).squeeze()
     # scores = torch.cosine_similarity(text_embed.expand(audio_embed.shape[0], -1),