Spaces:

finalyear226
/

urtox-api

Sleeping

App Files Files Community

inayatarshad commited on 22 days ago

Commit

bc14aa5

1 Parent(s): a1de44a

Convert browser audio before inference

Browse files

Files changed (1) hide show

app.py +31 -3

app.py CHANGED Viewed

@@ -1,6 +1,7 @@
 import base64
 import re
 import shutil
 import tempfile
 import zipfile
 from pathlib import Path
@@ -332,6 +333,26 @@ def decode_audio_to_tempfile(audio_payload: str) -> str:
     return temp_file.name
 def transcribe_audio(temp_path: str) -> str:
     asr = load_asr_pipeline()
     result = asr(
@@ -347,9 +368,11 @@ def transcribe_audio(temp_path: str) -> str:
 def predict_audio(audio_payload: str) -> dict:
     processor, wav2vec_model, audio_classifier, labels = load_audio_model()
     temp_path = decode_audio_to_tempfile(audio_payload)
     try:
-        transcript = transcribe_audio(temp_path)
         span_result = predict_text(transcript) if transcript else {
             "isToxic": False,
             "confidence": 0.0,
@@ -365,7 +388,7 @@ def predict_audio(audio_payload: str) -> dict:
             },
         }
-        waveform, sample_rate = torchaudio.load(temp_path)
         if waveform.shape[0] > 1:
             waveform = waveform.mean(dim=0, keepdim=True)
@@ -423,6 +446,8 @@ def predict_audio(audio_payload: str) -> dict:
         }
     finally:
         Path(temp_path).unlink(missing_ok=True)
 def audio_fallback_prediction(message: str = "Audio inference could not run.") -> dict:
@@ -461,7 +486,10 @@ def detect(payload: DetectRequest):
     if payload.mode == "audio":
         if not payload.audio:
             return audio_fallback_prediction("No audio payload was provided.")
-        return predict_audio(payload.audio)
     text = payload.text or "yeh toxic span detection result hai"
     return predict_text(text)

 import base64
 import re
 import shutil
+import subprocess
 import tempfile
 import zipfile
 from pathlib import Path
     return temp_file.name
+def convert_audio_to_wav(input_path: str) -> str:
+    output_file = tempfile.NamedTemporaryFile(delete=False, suffix=".wav")
+    output_file.close()
+    command = [
+        "ffmpeg",
+        "-y",
+        "-i",
+        input_path,
+        "-ac",
+        "1",
+        "-ar",
+        "16000",
+        "-t",
+        "10",
+        output_file.name,
+    ]
+    subprocess.run(command, check=True, stdout=subprocess.PIPE, stderr=subprocess.PIPE)
+    return output_file.name
 def transcribe_audio(temp_path: str) -> str:
     asr = load_asr_pipeline()
     result = asr(
 def predict_audio(audio_payload: str) -> dict:
     processor, wav2vec_model, audio_classifier, labels = load_audio_model()
     temp_path = decode_audio_to_tempfile(audio_payload)
+    wav_path = None
     try:
+        wav_path = convert_audio_to_wav(temp_path)
+        transcript = transcribe_audio(wav_path)
         span_result = predict_text(transcript) if transcript else {
             "isToxic": False,
             "confidence": 0.0,
             },
         }
+        waveform, sample_rate = torchaudio.load(wav_path)
         if waveform.shape[0] > 1:
             waveform = waveform.mean(dim=0, keepdim=True)
         }
     finally:
         Path(temp_path).unlink(missing_ok=True)
+        if wav_path:
+            Path(wav_path).unlink(missing_ok=True)
 def audio_fallback_prediction(message: str = "Audio inference could not run.") -> dict:
     if payload.mode == "audio":
         if not payload.audio:
             return audio_fallback_prediction("No audio payload was provided.")
+        try:
+            return predict_audio(payload.audio)
+        except Exception as exc:
+            return audio_fallback_prediction(f"Audio inference failed: {exc}")
     text = payload.text or "yeh toxic span detection result hai"
     return predict_text(text)