Spaces:

finalyear226
/

urtox-api

Sleeping

inayatarshad commited on 22 days ago

Commit

249e156

1 Parent(s): bc14aa5

Use soundfile for audio waveform loading

Files changed (2) hide show

app.py CHANGED Viewed

@@ -8,13 +8,13 @@ from pathlib import Path
 from typing import Optional
 import numpy as np
 from fastapi import FastAPI
 from fastapi.middleware.cors import CORSMiddleware
 from huggingface_hub import hf_hub_download
 from pydantic import BaseModel
 import torch
 import torch.nn as nn
-import torchaudio
 from transformers import AutoModelForTokenClassification, AutoTokenizer, Wav2Vec2Model, Wav2Vec2Processor, pipeline
@@ -388,20 +388,15 @@ def predict_audio(audio_payload: str) -> dict:
             },
         }
-        waveform, sample_rate = torchaudio.load(wav_path)
-        if waveform.shape[0] > 1:
-            waveform = waveform.mean(dim=0, keepdim=True)
-        if sample_rate != 16000:
-            resampler = torchaudio.transforms.Resample(sample_rate, 16000)
-            waveform = resampler(waveform)
-        waveform = waveform.squeeze()
-        if waveform.numel() > MAX_AUDIO_LENGTH:
             waveform = waveform[:MAX_AUDIO_LENGTH]
         inputs = processor(
-            waveform.cpu().numpy(),
             sampling_rate=16000,
             return_tensors="pt",
             padding=True,

 from typing import Optional
 import numpy as np
+import soundfile as sf
 from fastapi import FastAPI
 from fastapi.middleware.cors import CORSMiddleware
 from huggingface_hub import hf_hub_download
 from pydantic import BaseModel
 import torch
 import torch.nn as nn
 from transformers import AutoModelForTokenClassification, AutoTokenizer, Wav2Vec2Model, Wav2Vec2Processor, pipeline
             },
         }
+        waveform, sample_rate = sf.read(wav_path, dtype="float32")
+        if waveform.ndim > 1:
+            waveform = waveform.mean(axis=1)
+        if waveform.shape[0] > MAX_AUDIO_LENGTH:
             waveform = waveform[:MAX_AUDIO_LENGTH]
         inputs = processor(
+            waveform,
             sampling_rate=16000,
             return_tensors="pt",
             padding=True,

requirements.txt CHANGED Viewed

@@ -5,3 +5,4 @@ huggingface_hub==0.30.2
 transformers==4.51.3
 safetensors==0.5.3
 numpy==2.2.6

 transformers==4.51.3
 safetensors==0.5.3
 numpy==2.2.6
+soundfile==0.13.1