Spaces:

throgletworld
/

MultiModalSpeechDisfluencyDetectionSystem

Running

App Files Files Community

throgletworld commited on Jan 28

Commit

47a6dd6

·

verified ·

1 Parent(s): bad0ace

Upload 2 files

Files changed (1) hide show

app.py +14 -3

app.py CHANGED Viewed

@@ -16,6 +16,7 @@ import torchaudio
 import tempfile
 import os
 import json
 from datetime import datetime
 from transformers import WavLMModel
 import torch.nn as nn
@@ -111,10 +112,20 @@ def load_models():
 # ============================================================================
 def preprocess_audio(audio_path):
-    """Convert audio to 16kHz mono"""
-    # Use soundfile backend to avoid torchcodec dependency
-    waveform, sr = torchaudio.load(audio_path, backend="soundfile")
     # Convert to mono
     if waveform.shape[0] > 1:
         waveform = waveform.mean(dim=0, keepdim=True)

 import tempfile
 import os
 import json
+import soundfile as sf
 from datetime import datetime
 from transformers import WavLMModel
 import torch.nn as nn
 # ============================================================================
 def preprocess_audio(audio_path):
+    """Convert audio to 16kHz mono using soundfile to avoid torchcodec."""
+    # Read audio file with soundfile
+    waveform_np, sr = sf.read(audio_path, dtype='float32')
+    # Convert numpy array to torch tensor
+    waveform = torch.from_numpy(waveform_np).float()
+    # Add channel dimension if it's mono
+    if waveform.dim() == 1:
+        waveform = waveform.unsqueeze(0)
+    # Transpose if it's (samples, channels)
+    elif waveform.shape[1] < waveform.shape[0]:
+         waveform = waveform.T
     # Convert to mono
     if waveform.shape[0] > 1:
         waveform = waveform.mean(dim=0, keepdim=True)