Spaces:

danarcat
/

PronunciationChecker

Sleeping

ahk-d commited on Feb 2

Commit

20ee97d

verified ·

1 Parent(s): a68ae9c

Update src/audio_preprocessing.py

Files changed (1) hide show

src/audio_preprocessing.py CHANGED Viewed

@@ -155,28 +155,20 @@ def denoise_audio(input_audio_path):
     assert isinstance(input_audio_path, str), "Input path must be a string"
     output_audio_path = input_audio_path.replace(".wav", "_denoised.wav")
-    from pydub import AudioSegment
-    import numpy as np
-    from scipy.io import wavfile
     try:
-        # Read using scipy to get raw samples
-        sample_rate, data = wavfile.read(input_audio_path)
-        # Convert to mono if stereo
-        if len(data.shape) > 1:
-            data = data.mean(axis=1)
-        # Convert to float32 and normalize
-        data = data.astype(np.float32) / np.iinfo(np.int16).max
-        # Write temporary wav file
-        temp_path = 'temp_float32.wav'
-        wavfile.write(temp_path, sample_rate, data)
-        # Run denoising
         result = subprocess.run(
-            ["denoise", temp_path, output_audio_path, "--plot"],
             check=True,
             capture_output=True,
             text=True
@@ -184,8 +176,7 @@ def denoise_audio(input_audio_path):
         print(result.stdout)
         # Clean up
-        import os
-        os.remove(temp_path)
     except subprocess.CalledProcessError as e:
         print(f"Error: {e}")

     assert isinstance(input_audio_path, str), "Input path must be a string"
     output_audio_path = input_audio_path.replace(".wav", "_denoised.wav")
     try:
+        # Load audio and convert to required format
+        audio = AudioSegment.from_wav(input_audio_path)
+        audio = audio.set_frame_rate(48000)  # Set to 48 kHz
+        audio = audio.set_channels(1)        # Convert to mono
+        audio = audio.set_sample_width(2)    # Set to 16-bit
+        # Export as RAW PCM
+        temp_raw = "temp_audio.raw"
+        audio.export(temp_raw, format="raw")
+        # Run denoising on the RAW PCM data
         result = subprocess.run(
+            ["denoise", temp_raw, output_audio_path, "--plot"],
             check=True,
             capture_output=True,
             text=True
         print(result.stdout)
         # Clean up
+        os.remove(temp_raw)
     except subprocess.CalledProcessError as e:
         print(f"Error: {e}")