Spaces:

Jabrave
/

deepfake-api

Running

Jabrave commited on 13 days ago

Commit

6495d4e

verified ·

1 Parent(s): fa9a9ce

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,6 +1,6 @@
 from transformers import AutoFeatureExtractor
 from transformers import AutoModelForAudioClassification
-import torchaudio
 from detect_face import detect_face
 from transformers import AutoModelForImageClassification
 from transformers import AutoImageProcessor
@@ -71,18 +71,14 @@ def predict_with_model(image, model, processor):
         "confidence": round(confidence * 100, 2)
     }
-def predict_audio(audio_path):
-    torchaudio.set_audio_backend("soundfile")
-    waveform, sample_rate = torchaudio.load(
-    audio_path,
-    backend="soundfile"
-    )
     inputs = voice_processor(
-        waveform.squeeze().numpy(),
-        sampling_rate=sample_rate,
         return_tensors="pt"
     )
@@ -90,13 +86,9 @@ def predict_audio(audio_path):
         outputs = voice_model(**inputs)
     logits = outputs.logits
     predicted_class = logits.argmax(-1).item()
-    confidence = torch.softmax(
-        logits,
-        dim=1
-    )[0][predicted_class].item()
     label = voice_model.config.id2label[predicted_class]

 from transformers import AutoFeatureExtractor
 from transformers import AutoModelForAudioClassification
+import librosa
 from detect_face import detect_face
 from transformers import AutoModelForImageClassification
 from transformers import AutoImageProcessor
         "confidence": round(confidence * 100, 2)
     }
+def predict_audio(audio_path):
+    waveform, sr = librosa.load(audio_path, sr=16000)
     inputs = voice_processor(
+        waveform,
+        sampling_rate=16000,
         return_tensors="pt"
     )
         outputs = voice_model(**inputs)
     logits = outputs.logits
     predicted_class = logits.argmax(-1).item()
+    confidence = torch.softmax(logits, dim=1)[0][predicted_class].item()
     label = voice_model.config.id2label[predicted_class]