Spaces:

qgyd2021
/

cc_vad

Paused

App Files Files Community

HoneyTian commited on Aug 4, 2025

Commit

5dd7349

1 Parent(s): bebc2b8

update

Browse files

Files changed (1) hide show

main.py +29 -0

main.py CHANGED Viewed

@@ -10,12 +10,15 @@ import shutil
 import tempfile
 import time
 from typing import Dict, Tuple
 import zipfile
 import gradio as gr
 from huggingface_hub import snapshot_download
 import matplotlib.pyplot as plt
 import numpy as np
 import log
 from project_settings import environment, project_path, log_directory, time_zone_info
@@ -63,6 +66,28 @@ def get_args():
     return args
 def shell(cmd: str):
     return Command.popen(cmd)
@@ -113,6 +138,10 @@ def when_click_vad_button(audio_file_t = None, audio_microphone_t = None,
     audio_t: Tuple = audio_file_t or audio_microphone_t
     sample_rate, signal = audio_t
     audio_duration = signal.shape[-1] // sample_rate
     audio = np.array(signal / (1 << 15), dtype=np.float32)

 import tempfile
 import time
 from typing import Dict, Tuple
+import uuid
 import zipfile
 import gradio as gr
+import librosa
 from huggingface_hub import snapshot_download
 import matplotlib.pyplot as plt
 import numpy as np
+from scipy.io import wavfile
 import log
 from project_settings import environment, project_path, log_directory, time_zone_info
     return args
+def save_input_audio(sample_rate: int, signal: np.ndarray) -> str:
+    if signal.dtype != np.int16:
+        raise AssertionError(f"only support dtype np.int16, however: {signal.dtype}")
+    temp_audio_dir = Path(tempfile.gettempdir()) / "input_audio"
+    temp_audio_dir.mkdir(parents=True, exist_ok=True)
+    filename = temp_audio_dir / f"{uuid.uuid4()}.wav"
+    filename = filename.as_posix()
+    wavfile.write(
+        filename,
+        sample_rate, signal
+    )
+    return filename
+def convert_sample_rate(signal: np.ndarray, sample_rate: int, target_sample_rate: int):
+    filename = save_input_audio(sample_rate, signal)
+    signal, _ = librosa.load(filename, sr=target_sample_rate)
+    signal = np.array(signal * (1 << 15), dtype=np.int16)
+    return signal
 def shell(cmd: str):
     return Command.popen(cmd)
     audio_t: Tuple = audio_file_t or audio_microphone_t
     sample_rate, signal = audio_t
+    if sample_rate != 8000:
+        signal = convert_sample_rate(signal, sample_rate, 8000)
+        sample_rate = 8000
     audio_duration = signal.shape[-1] // sample_rate
     audio = np.array(signal / (1 << 15), dtype=np.float32)