Spaces:

Vansh180
/

deepfake-audio-detector

Sleeping

App Files Files Community

Vansh180 commited on Mar 17

Commit

93f625f

verified ·

1 Parent(s): 9e541f4

Upload folder using huggingface_hub

Browse files

Files changed (3) hide show

README.md +5 -4
app.py +80 -0
requirements.txt +6 -0

README.md CHANGED Viewed

@@ -1,12 +1,13 @@
 ---
 title: Deepfake Audio Detector
-emoji: 📊
-colorFrom: pink
 colorTo: blue
 sdk: gradio
-sdk_version: 6.9.0
 app_file: app.py
 pinned: false
 ---
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

 ---
 title: Deepfake Audio Detector
+emoji: 🎙️
+colorFrom: red
 colorTo: blue
 sdk: gradio
 app_file: app.py
 pinned: false
 ---
+# Deepfake Audio Detector
+Upload an audio clip and classify it as bonafide or spoof.

app.py ADDED Viewed

	@@ -0,0 +1,80 @@

+import os
+import numpy as np
+import torch
+import torchaudio
+import gradio as gr
+from transformers import AutoFeatureExtractor, AutoModelForAudioClassification
+MODEL_REPO_ID = "Vansh180/deepfake-audio-wav2vec2"
+HF_TOKEN = os.getenv("HF_TOKEN")
+device = "cuda" if torch.cuda.is_available() else "cpu"
+feature_extractor = AutoFeatureExtractor.from_pretrained(MODEL_REPO_ID, token=HF_TOKEN)
+model = AutoModelForAudioClassification.from_pretrained(MODEL_REPO_ID, token=HF_TOKEN)
+model.to(device)
+model.eval()
+TARGET_SR = feature_extractor.sampling_rate if hasattr(feature_extractor, "sampling_rate") else 16000
+MAX_SECONDS = 5
+MAX_LEN = TARGET_SR * MAX_SECONDS
+def predict_audio(audio_file):
+    if audio_file is None:
+        return {"error": "No audio uploaded"}
+    wav, sr = torchaudio.load(audio_file)
+    if wav.shape[0] > 1:
+        wav = wav.mean(dim=0, keepdim=True)
+    if sr != TARGET_SR:
+        wav = torchaudio.functional.resample(wav, sr, TARGET_SR)
+    wav = wav.squeeze(0)
+    if wav.numel() < MAX_LEN:
+        wav = torch.nn.functional.pad(wav, (0, MAX_LEN - wav.numel()))
+    else:
+        wav = wav[:MAX_LEN]
+    inputs = feature_extractor(
+        wav.numpy().astype(np.float32),
+        sampling_rate=TARGET_SR,
+        return_tensors="pt",
+        padding=True,
+        truncation=True,
+        max_length=MAX_LEN
+    )
+    input_values = inputs["input_values"].to(device)
+    attention_mask = inputs.get("attention_mask")
+    if attention_mask is not None:
+        attention_mask = attention_mask.to(device)
+    with torch.no_grad():
+        outputs = model(input_values=input_values, attention_mask=attention_mask)
+        probs = torch.softmax(outputs.logits, dim=1)[0].cpu().numpy()
+    pred_id = int(np.argmax(probs))
+    pred_label = model.config.id2label[pred_id]
+    return {
+        "predicted_label": pred_label,
+        "confidence": float(probs[pred_id]),
+        "scores": {
+            model.config.id2label[i]: float(probs[i]) for i in range(len(probs))
+        }
+    }
+demo = gr.Interface(
+    fn=predict_audio,
+    inputs=gr.Audio(type="filepath", label="Upload audio"),
+    outputs=gr.JSON(label="Prediction"),
+    title="Deepfake Audio Detector",
+    description="Upload an audio clip to classify it as bonafide or spoof."
+)
+if __name__ == "__main__":
+    demo.launch(server_name="0.0.0.0", server_port=7860)

requirements.txt ADDED Viewed

	@@ -0,0 +1,6 @@

+gradio
+transformers
+torch
+torchaudio
+numpy
+huggingface_hub