Spaces:

bhoumik12
/

AI_DeepFake_Detection_System

Running

AI_DeepFake_Detection_System / audio_utils.py

Upload 5 files

960b635 verified 5 days ago

896 Bytes

	import librosa
	import numpy as np
	import cv2

	SR = 16000
	DURATION = 4.0
	N_MELS = 192
	N_FFT = 2048
	HOP_LENGTH = 160
	IMG_SIZE = 224


	def audio_to_spectrogram(wav_path):

	y, _ = librosa.load(wav_path, sr=SR)
	y, _ = librosa.effects.trim(y, top_db=30)

	target = int(SR * DURATION)

	if len(y) < target:
	pad = target - len(y)
	y = np.pad(y, (pad // 2, pad - pad // 2))
	else:
	y = y[:target]

	mel = librosa.feature.melspectrogram(
	y=y,
	sr=SR,
	n_fft=N_FFT,
	hop_length=HOP_LENGTH,
	n_mels=N_MELS
	)

	logmel = librosa.power_to_db(mel, ref=np.max)

	logmel = (logmel - logmel.min()) / (logmel.max() - logmel.min())

	img = (logmel * 255).astype(np.uint8)
	img = cv2.resize(img, (IMG_SIZE, IMG_SIZE))
	img = cv2.cvtColor(img, cv2.COLOR_GRAY2BGR)

	return img