Spaces:

SaoYear
/

CleanMel

Running

App Files Files Community

SaoYear commited on Jun 18, 2025

Commit

2547be7

1 Parent(s): 785ef15

add demo page application

Browse files

Files changed (1) hide show

app.py +51 -15

app.py CHANGED Viewed

@@ -23,13 +23,16 @@ import librosa as lb
 import yaml
 import numpy as np
 import matplotlib.pyplot as plt
 from model.cleanmel import CleanMel
 from model.vocos.pretrained import Vocos
 from model.stft import InputSTFT, TargetMel
 DEVICE = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
 def read_audio(file_path):
     audio, sample_rate = sf.read(file_path)
     if audio.ndim > 1:
         # select the loudest channel if stereo
         audio = audio[:, np.argmax(np.abs(audio).mean(axis=0))]
@@ -176,29 +179,39 @@ def reset_everything():
 demo = gr.Blocks()
 with gr.Blocks(title="CleanMel Demo") as demo:
     gr.Markdown("## CleanMel Demo")
-    gr.Markdown("This demo showcases the CleanMel model for speech enhancement. \n \
-        Since the model is running on CPU, it may take a while to process the audio. \n \
-        Please be patient and wait for the result. \n")
     with gr.Row():
-        audio_input = gr.Audio(label="Input Audio", type="filepath", sources="upload")
         with gr.Column():
-            enhance_button_map_S = gr.Button("Enhance Audio (offline CleanMel_S_map), 4 mins for 10-second audio")
-            enhance_button_mask_S = gr.Button("Enhance Audio (offline CleanMel_S_mask), 4 mins for 10-second audio")
-            enhance_button_map_L = gr.Button("Enhance Audio (offline CleanMel_L_map), 10 mins for 10-second audio")
-            enhance_button_mask_L = gr.Button("Enhance Audio (offline CleanMel_L_mask), 10 mins for 10-second audio")
             clear_btn = gr.Button(
                 "🗑️ Clear All",
                 variant="secondary",
                 size="lg"
-            )
     output_audio = gr.Audio(label="Enhanced Audio", type="filepath")
     output_mel = gr.Image(label="Output LogMel Spectrogram", type="filepath", visible=True)
     output_np = gr.File(label="Enhanced LogMel Spec. (.npy)", type="filepath")
     enhance_button_map_L.click(
         enhance_cleanmel_L_map,
         inputs=audio_input,
@@ -212,14 +225,37 @@ with gr.Blocks(title="CleanMel Demo") as demo:
     )
     enhance_button_map_S.click(
-        enhance_cleanmel_S_map,
-        inputs=audio_input,
         outputs=[output_audio, output_mel, output_np]
     )
     enhance_button_mask_S.click(
         enhance_cleanmel_S_mask,
-        inputs=audio_input,
         outputs=[output_audio, output_mel, output_np]
     )

 import yaml
 import numpy as np
 import matplotlib.pyplot as plt
+from pydub import AudioSegment
 from model.cleanmel import CleanMel
 from model.vocos.pretrained import Vocos
 from model.stft import InputSTFT, TargetMel
 DEVICE = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
 def read_audio(file_path):
+    assert file_path.endswith(('.wav', '.flac')), "Unsupported audio format. Please upload a .wav, .flac file."
     audio, sample_rate = sf.read(file_path)
     if audio.ndim > 1:
         # select the loudest channel if stereo
         audio = audio[:, np.argmax(np.abs(audio).mean(axis=0))]
 demo = gr.Blocks()
 with gr.Blocks(title="CleanMel Demo") as demo:
     gr.Markdown("## CleanMel Demo")
+    gr.Markdown("This demo showcases the CleanMel model for speech enhancement. <br>  \
+        Only **.wav** and **.flac** files are supported. <br>  \
+        --- <br> \
+        The model is running on CPU. Please be patient and wait for the result. <br> \
+        Inference time reference: <br> \
+            - CleanMel_L: **10 mins** for **10-second** audio <br> \
+            - CleanMel_S: **4 mins** for **10-second** audio <br> ")
     with gr.Row():
         with gr.Column():
+            audio_input = gr.Audio(label="Input Audio", type="filepath", sources="upload")
+            audio_input_record = gr.Audio(label="Input Audio (Record)", type="filepath", sources="microphone")
+    with gr.Row():
+        with gr.Column():
+            enhance_button_map_S = gr.Button("Enhance File (offline CleanMel_S_map)")
+            enhance_button_mask_S = gr.Button("Enhance File (offline CleanMel_S_mask)")
+            enhance_button_map_L = gr.Button("Enhance File (offline CleanMel_L_map)")
+            enhance_button_mask_L = gr.Button("Enhance File (offline CleanMel_L_mask)")
+        with gr.Column():
+            enhance_button_map_Sr = gr.Button("Enhance Recorded Audio (offline CleanMel_S_map)")
+            enhance_button_mask_Sr = gr.Button("Enhance Recorded Audio (offline CleanMel_S_mask)")
+            enhance_button_map_Lr = gr.Button("Enhance Recorded Audio (offline CleanMel_L_map)")
+            enhance_button_mask_Lr = gr.Button("Enhance Recorded Audio (offline CleanMel_L_mask)")
+    with gr.Row():
             clear_btn = gr.Button(
                 "🗑️ Clear All",
                 variant="secondary",
                 size="lg"
+            )
     output_audio = gr.Audio(label="Enhanced Audio", type="filepath")
     output_mel = gr.Image(label="Output LogMel Spectrogram", type="filepath", visible=True)
     output_np = gr.File(label="Enhanced LogMel Spec. (.npy)", type="filepath")
     enhance_button_map_L.click(
         enhance_cleanmel_L_map,
         inputs=audio_input,
     )
     enhance_button_map_S.click(
+        enhance_cleanmel_S_map,
+        inputs=audio_input,
         outputs=[output_audio, output_mel, output_np]
     )
     enhance_button_mask_S.click(
+        enhance_cleanmel_S_mask,
+        inputs=audio_input,
+        outputs=[output_audio, output_mel, output_np]
+    )
+    enhance_button_map_Lr.click(
+        enhance_cleanmel_L_map,
+        inputs=audio_input_record,
+        outputs=[output_audio, output_mel, output_np]
+    )
+    enhance_button_mask_Lr.click(
+        enhance_cleanmel_L_mask,
+        inputs=audio_input_record,
+        outputs=[output_audio, output_mel, output_np]
+    )
+    enhance_button_map_Sr.click(
+        enhance_cleanmel_S_map,
+        inputs=audio_input_record,
+        outputs=[output_audio, output_mel, output_np]
+    )
+    enhance_button_mask_Sr.click(
         enhance_cleanmel_S_mask,
+        inputs=audio_input_record,
         outputs=[output_audio, output_mel, output_np]
     )