Spaces:

changelinglab
/

PhoneticXeus

Running

Shikhar commited on 21 days ago

Commit

1a1b90c

1 Parent(s): c2c9a4c

Use soundfile for audio loading (no torchcodec/ffmpeg needed)

Files changed (2) hide show

app.py CHANGED Viewed

@@ -7,6 +7,7 @@ sys.path.insert(0, os.path.dirname(os.path.abspath(__file__)))
 import gradio as gr
 import torch
 import torchaudio
 from huggingface_hub import hf_hub_download
 from src.model.xeusphoneme.builders import build_xeus_pr_inference
@@ -43,10 +44,12 @@ def transcribe(audio_path):
     if inference is None:
         inference = load_model()
-    waveform, sr = torchaudio.load(audio_path)
     if sr != SAMPLE_RATE:
         waveform = torchaudio.functional.resample(waveform, sr, SAMPLE_RATE)
-    waveform = waveform.mean(dim=0)  # mono
     waveform = waveform[: SAMPLE_RATE * MAX_SECONDS]
     if waveform.numel() == 0:

 import gradio as gr
 import torch
 import torchaudio
+import soundfile as sf
 from huggingface_hub import hf_hub_download
 from src.model.xeusphoneme.builders import build_xeus_pr_inference
     if inference is None:
         inference = load_model()
+    data, sr = sf.read(audio_path, dtype="float32")
+    waveform = torch.from_numpy(data)
+    if waveform.dim() == 2:
+        waveform = waveform.mean(dim=1)
     if sr != SAMPLE_RATE:
         waveform = torchaudio.functional.resample(waveform, sr, SAMPLE_RATE)
     waveform = waveform[: SAMPLE_RATE * MAX_SECONDS]
     if waveform.numel() == 0:

requirements.txt CHANGED Viewed

@@ -1,5 +1,6 @@
 torch
 torchaudio
 huggingface_hub
 pyyaml
 typeguard

 torch
 torchaudio
+soundfile
 huggingface_hub
 pyyaml
 typeguard