Spaces:

RJ40under40
/

AudioClassifier

Running

App Files Files Community

RJ40under40 commited on Feb 3

Commit

2a2e4a4

verified ·

1 Parent(s): c7314ac

Update app.py

Browse files

Files changed (1) hide show

app.py +26 -43

app.py CHANGED Viewed

@@ -1,28 +1,27 @@
 # ======================================================
-# HCL AI VOICE DETECTION API
-# Hugging Face Spaces (FastAPI)
 # ======================================================
 import base64
 import io
 import logging
-import librosa
 import torch
 from fastapi import FastAPI, HTTPException, Depends, Security
 from fastapi.middleware.cors import CORSMiddleware
 from fastapi.security.api_key import APIKeyHeader
 from pydantic import BaseModel
-from transformers import AutoFeatureExtractor, AutoModelForAudioClassification
 # ======================================================
-# CONFIGURATION
 # ======================================================
 API_KEY_NAME = "access_token"
 API_KEY_VALUE = "HCL_SECURE_KEY_2026"
-MODEL_ID = "facebook/wav2vec2-base-960h"
 TARGET_SR = 16000
 # ======================================================
@@ -32,27 +31,21 @@ logging.basicConfig(level=logging.INFO)
 logger = logging.getLogger("voice-detection")
 # ======================================================
-# DEVICE & MODEL LOADING (RUNS ON STARTUP)
 # ======================================================
 DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
 logger.info(f"Using device: {DEVICE}")
-feature_extractor = AutoFeatureExtractor.from_pretrained(MODEL_ID)
-model = AutoModelForAudioClassification.from_pretrained(
-    MODEL_ID,
-    num_labels=2
-).to(DEVICE)
 model.eval()
 logger.info("Model loaded successfully")
 # ======================================================
 # FASTAPI APP
 # ======================================================
-app = FastAPI(
-    title="HCL AI Voice Detection API",
-    version="1.0.0"
-)
 api_key_header = APIKeyHeader(name=API_KEY_NAME, auto_error=False)
@@ -70,11 +63,6 @@ class AudioRequest(BaseModel):
     audio_base64: str
-class PredictionResponse(BaseModel):
-    classification: str
-    confidence_score: float
 # ======================================================
 # SECURITY
 # ======================================================
@@ -85,23 +73,21 @@ async def verify_api_key(api_key: str = Security(api_key_header)):
 # ======================================================
-# CORE LOGIC
 # ======================================================
-def decode_audio(b64_audio: str) -> bytes:
     try:
-        return base64.b64decode(b64_audio.split(",")[-1])
-    except Exception:
-        raise HTTPException(status_code=400, detail="Invalid Base64 audio")
-def analyze_voice(audio_bytes: bytes) -> tuple[str, float]:
-    audio, _ = librosa.load(
-        io.BytesIO(audio_bytes),
-        sr=TARGET_SR,
-        mono=True
-    )
-    inputs = feature_extractor(
         audio,
         sampling_rate=TARGET_SR,
         return_tensors="pt"
@@ -113,9 +99,9 @@ def analyze_voice(audio_bytes: bytes) -> tuple[str, float]:
         logits = model(**inputs).logits
         probs = torch.softmax(logits, dim=-1)
-    confidence, prediction = torch.max(probs, dim=-1)
-    label = "AI_GENERATED" if prediction.item() == 1 else "HUMAN"
     return label, round(confidence.item(), 4)
@@ -127,16 +113,13 @@ def health():
     return {"status": "ok", "device": DEVICE}
-@app.post(
-    "/predict",
-    response_model=PredictionResponse
-)
 async def predict(
     request: AudioRequest,
     _: str = Depends(verify_api_key)
 ):
-    audio_bytes = decode_audio(request.audio_base64)
-    label, score = analyze_voice(audio_bytes)
     return {
         "classification": label,

 # ======================================================
+# HCL AI VOICE DETECTION API – HF SPACES SAFE
 # ======================================================
 import base64
 import io
 import logging
 import torch
+import soundfile as sf
 from fastapi import FastAPI, HTTPException, Depends, Security
 from fastapi.middleware.cors import CORSMiddleware
 from fastapi.security.api_key import APIKeyHeader
 from pydantic import BaseModel
+from transformers import AutoProcessor, AutoModelForAudioClassification
 # ======================================================
+# CONFIG
 # ======================================================
 API_KEY_NAME = "access_token"
 API_KEY_VALUE = "HCL_SECURE_KEY_2026"
+MODEL_ID = "superb/wav2vec2-base-superb-ks"  # ✅ VERIFIED, EXISTS
 TARGET_SR = 16000
 # ======================================================
 logger = logging.getLogger("voice-detection")
 # ======================================================
+# DEVICE & MODEL
 # ======================================================
 DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
 logger.info(f"Using device: {DEVICE}")
+processor = AutoProcessor.from_pretrained(MODEL_ID)
+model = AutoModelForAudioClassification.from_pretrained(MODEL_ID).to(DEVICE)
 model.eval()
 logger.info("Model loaded successfully")
 # ======================================================
 # FASTAPI APP
 # ======================================================
+app = FastAPI(title="HCL AI Voice Detection API")
 api_key_header = APIKeyHeader(name=API_KEY_NAME, auto_error=False)
     audio_base64: str
 # ======================================================
 # SECURITY
 # ======================================================
 # ======================================================
+# AUDIO + INFERENCE
 # ======================================================
+def decode_audio(b64_audio: str):
     try:
+        audio_bytes = base64.b64decode(b64_audio.split(",")[-1])
+        audio, sr = sf.read(io.BytesIO(audio_bytes))
+        if sr != TARGET_SR:
+            raise ValueError("Audio must be 16kHz")
+        return audio
+    except Exception as e:
+        raise HTTPException(status_code=400, detail=f"Audio decode failed: {e}")
+def analyze_voice(audio):
+    inputs = processor(
         audio,
         sampling_rate=TARGET_SR,
         return_tensors="pt"
         logits = model(**inputs).logits
         probs = torch.softmax(logits, dim=-1)
+    confidence, pred = torch.max(probs, dim=-1)
+    label = "AI_GENERATED" if pred.item() == 1 else "HUMAN"
     return label, round(confidence.item(), 4)
     return {"status": "ok", "device": DEVICE}
+@app.post("/predict")
 async def predict(
     request: AudioRequest,
     _: str = Depends(verify_api_key)
 ):
+    audio = decode_audio(request.audio_base64)
+    label, score = analyze_voice(audio)
     return {
         "classification": label,