Spaces:

Pandaisop
/

voice-detection-api

Sleeping

voice-detection-api / app /core /model.py

vineetshukla.work@gmail.com

final commit

c5c9261 3 months ago

8.76 kB


	import torch
	import torch.nn.functional as F
	import numpy as np
	from transformers import AutoFeatureExtractor, AutoModelForAudioClassification
	from app.config import settings
	from app.core.forensics import forensic_engine
	from app.core.audio import segment_audio
	import logging
	import gc
	import time

	# Setup logging
	logging.basicConfig(level=logging.INFO)
	logger = logging.getLogger(__name__)


	class VoiceDetector:
	"""
	World-class voice detection engine.
	Combines neural model inference with forensic analysis for maximum accuracy.
	"""
	_instance = None

	def __new__(cls):
	if cls._instance is None:
	cls._instance = super(VoiceDetector, cls).__new__(cls)
	cls._instance.model = None
	cls._instance.feature_extractor = None
	cls._instance.device = "cpu"
	cls._instance.load_model()
	return cls._instance

	def load_model(self):
	try:
	logger.info(f"Loading model {settings.MODEL_NAME} on {self.device}...")
	gc.collect()
	if torch.cuda.is_available():
	torch.cuda.empty_cache()

	self.feature_extractor = AutoFeatureExtractor.from_pretrained(
	settings.MODEL_NAME
	)
	self.model = AutoModelForAudioClassification.from_pretrained(
	settings.MODEL_NAME,
	low_cpu_mem_usage=True,
	torch_dtype=torch.float32
	)
	self.model.to(self.device)
	self.model.eval()
	gc.collect()
	logger.info("Model loaded successfully.")
	except Exception as e:
	logger.error(f"Failed to load model: {e}")
	raise RuntimeError(f"Failed to load model: {e}")

	def _infer_single(self, audio_array: np.ndarray) -> tuple:
	"""Run model inference on a single audio segment."""
	inputs = self.feature_extractor(
	audio_array,
	sampling_rate=settings.SAMPLE_RATE,
	return_tensors="pt",
	padding=True
	)
	inputs = {key: val.to(self.device) for key, val in inputs.items()}

	with torch.no_grad():
	logits = self.model(**inputs).logits

	probs = F.softmax(logits, dim=-1)
	pred_idx = torch.argmax(probs, dim=-1).item()
	confidence = probs[0][pred_idx].item()

	# Get model label
	id2label = self.model.config.id2label
	label = str(id2label[pred_idx]).lower()

	# Map to binary: is it AI?
	is_ai = False
	if "fake" in label or "spoof" in label:
	is_ai = True
	elif "real" in label or "bonafide" in label:
	is_ai = False
	else:
	is_ai = (pred_idx == 1)

	# Return P(AI) score (0=human, 1=AI)
	if is_ai:
	ai_score = confidence
	else:
	ai_score = 1.0 - confidence

	return ai_score, confidence, is_ai

	def predict(self, audio_array: np.ndarray, audio_profile: dict = None,
	detailed: bool = False) -> dict:
	"""
	Full detection pipeline:
	1. Multi-segment neural model inference
	2. Forensic analysis (spectral, temporal, formant, artifact)
	3. Score fusion for final verdict

	Returns a rich result dict.
	"""
	if self.model is None:
	self.load_model()

	start_time = time.time()

	try:
	sr = settings.SAMPLE_RATE

	# ====== Stage 1: Multi-Segment Neural Inference ======
	# Optimization: No overlap, max 3 segments (first 15s is substantial for detection)
	segments = segment_audio(audio_array, sr, segment_sec=5.0, overlap_sec=0.0)
	if len(segments) > 3:
	segments = segments[:3]

	segment_scores = []

	for seg in segments:
	ai_score, conf, is_ai = self._infer_single(seg)
	segment_scores.append(ai_score)

	# Aggregate: use mean
	neural_score = float(np.mean(segment_scores))
	neural_confidence = max(neural_score, 1.0 - neural_score)
	neural_verdict = "AI_GENERATED" if neural_score >= 0.5 else "HUMAN"

	logger.info(
	f"Neural: {neural_verdict} (score={neural_score:.4f}, "
	f"segments={len(segments)}, per-seg={[round(s, 3) for s in segment_scores]})"
	)

	# ====== Stage 2: Forensic Analysis ======
	# Optimization: Skip forensics if model is extremely confident (> 99%)
	# This saves ~1-1.5s of processing time for clear-cut cases.

	SKIP_FORENSICS_THRESHOLD = 0.99

	if neural_confidence > SKIP_FORENSICS_THRESHOLD:
	logger.info(f"Skipping forensics (neural confidence {neural_confidence:.4f} > {SKIP_FORENSICS_THRESHOLD})")
	forensic_score = neural_score # Assume agreement
	all_artifacts = []
	forensic_results = {}
	fused_score = neural_score # No fusion, trust neural

	# Logic for "Analyzers agree" mock
	agreement = True
	final_verdict = neural_verdict
	final_confidence = neural_confidence

	else:
	forensic_results = forensic_engine.analyze(audio_array, sr)
	forensic_score = forensic_engine.compute_forensic_score(forensic_results)
	all_artifacts = forensic_engine.get_all_artifacts(forensic_results)

	logger.info(
	f"Forensics: score={forensic_score:.4f}, "
	f"artifacts={len(all_artifacts)} found"
	)

	# ====== Stage 3: Score Fusion ======
	# Neural model gets higher weight (it's trained on actual data)
	# Forensics provide supporting evidence and catch edge cases
	NEURAL_WEIGHT = 0.75
	FORENSIC_WEIGHT = 0.25

	fused_score = (neural_score * NEURAL_WEIGHT) + (forensic_score * FORENSIC_WEIGHT)

	# Boost confidence if neural and forensics agree
	neural_says_ai = neural_score >= 0.5
	forensic_says_ai = forensic_score >= 0.4
	agreement = (neural_says_ai == forensic_says_ai)

	if agreement:
	# Both agree → push score further from 0.5
	fused_score = fused_score * 1.1 if fused_score >= 0.5 else fused_score * 0.9
	fused_score = max(0.0, min(1.0, fused_score))

	# Final verdict
	final_verdict = "AI_GENERATED" if fused_score >= 0.5 else "HUMAN"

	if final_verdict == "AI_GENERATED":
	# Boost AI confidence per user request
	boosted_score = fused_score + 0.18
	# Cap at 0.94
	fused_score = min(0.94, boosted_score)
	final_confidence = fused_score
	else:
	final_confidence = 1.0 - fused_score

	# Ensure minimum confidence floor
	final_confidence = max(final_confidence, 0.51)

	inference_time = round((time.time() - start_time) * 1000, 1)

	logger.info(
	f"FINAL: {final_verdict} (confidence={final_confidence:.4f}, "
	f"fused={fused_score:.4f}, neural={neural_score:.4f}, "
	f"forensic={forensic_score:.4f}, time={inference_time}ms)"
	)

	# ====== Build Response ======
	result = {
	"classification": final_verdict,
	"confidence": round(final_confidence, 4),
	"fused_score": round(fused_score, 4),
	"inference_time_ms": inference_time,
	"analyzers_agree": agreement,
	}

	if detailed:
	result["forensics"] = {
	"neural_model": {
	"score": round(neural_score, 4),
	"verdict": neural_verdict,
	"segments_analyzed": len(segments),
	"per_segment_scores": [round(s, 4) for s in segment_scores],
	},
	**forensic_results,
	}
	result["artifacts_summary"] = all_artifacts

	if audio_profile:
	result["audio_profile"] = audio_profile

	return result

	except Exception as e:
	logger.error(f"Prediction error: {e}")
	raise RuntimeError(f"Prediction failed: {e}")


	voice_detector = VoiceDetector()