Spaces:

Hamzah-ALQadasi
/

Video_Authenticity.Anamoly_Detection.Temporal_Modeling

Sleeping

Video_Authenticity.Anamoly_Detection.Temporal_Modeling / outliers_removal_algorithm.py

halqadasi

Added automatic reshaping and rename the app

10c8a38 3 months ago

7.95 kB

	#!/usr/bin/env python3
	"""
	Outlier removal algorithm for video frame embeddings using DBSCAN.

	Reads embeddings, detects outliers, and exports predictions to CSV files.
	GPU acceleration is automatically detected and used if available.

	Usage:
	# Process CLIP embeddings from outlier_artifacts
	python outliers_removal_algorithm.py --embeddings-dir ./outlier_artifacts/embeddings --output-dir ./outlier_artifacts/cleaned_CSVs --model-type clip

	# Process DINOv2 embeddings
	python outliers_removal_algorithm.py --embeddings-dir ./outlier_artifacts/embeddings --output-dir ./outlier_artifacts/cleaned_CSVs --model-type dinov2

	# Process ResNet18 embeddings
	python outliers_removal_algorithm.py --embeddings-dir ./outlier_artifacts/embeddings --output-dir ./outlier_artifacts/cleaned_CSVs --model-type resnet18

	# Custom DBSCAN parameters with CLIP embeddings
	python outliers_removal_algorithm.py --embeddings-dir ./outlier_artifacts/embeddings --output-dir ./outlier_artifacts/cleaned_CSVs --model-type clip --eps 0.45 --min-samples 50

	# Filter to specific action category
	python outliers_removal_algorithm.py --embeddings-dir ./outlier_artifacts/embeddings --output-dir ./outlier_artifacts/cleaned_CSVs --model-type clip --action-filter Crawling

	# Limit processing to first 10 videos
	python outliers_removal_algorithm.py --embeddings-dir ./outlier_artifacts/embeddings --output-dir ./outlier_artifacts/cleaned_CSVs --model-type clip --max-videos 10

	Note: To generate cleaned videos from predictions, use generate_cleaned_videos_from_predictions.py
	"""

	import os
	import glob
	import csv
	import argparse
	import numpy as np
	import torch
	from pathlib import Path

	try:
	import cupy as cp
	from cuml.cluster import DBSCAN as cuDBSCAN
	CUML_AVAILABLE = True
	except ImportError:
	CUML_AVAILABLE = False

	from sklearn.cluster import DBSCAN as skDBSCAN

	# Automatically detect GPU availability
	USE_GPU = CUML_AVAILABLE and torch.cuda.is_available()


	def to_numpy(x):
	"""Convert tensor or array to numpy float32."""
	if isinstance(x, torch.Tensor):
	x = x.detach().cpu().numpy()
	return np.asarray(x, dtype=np.float32)


	def dbscan_outliers(X, eps=0.55, min_samples=10):
	"""
	Detect outliers using DBSCAN (noise points).

	Args:
	X: Feature matrix (N, D)
	eps: DBSCAN epsilon parameter
	min_samples: DBSCAN minimum samples parameter

	Returns:
	Boolean array of shape (N,) where True = outlier
	"""
	X = to_numpy(X)

	# Ensure X is 2D: (n_samples, n_features)
	if X.ndim > 2:
	X = X.reshape(X.shape[0], -1)

	if USE_GPU:
	labels = cuDBSCAN(eps=eps, min_samples=min_samples).fit_predict(cp.asarray(X)).get()
	else:
	labels = skDBSCAN(eps=eps, min_samples=min_samples, n_jobs=-1).fit_predict(X)
	return labels == -1


	def extract_action_name(filename, model_type):
	"""Extract action category from embedding filename based on model type."""
	name = os.path.basename(filename)
	suffix = f'_{model_type}_embeddings'
	name = name.replace(suffix + '.pt', '').replace(suffix + '.pth', '')
	return name


	def process_all_embeddings(emb_dir, eps, min_samples, output_dir, model_type='clip',
	max_videos=None, action_filter=None):
	"""
	Process all embeddings and export predictions to CSV files.

	Args:
	emb_dir: Directory containing embedding .pt files
	eps: DBSCAN epsilon parameter
	min_samples: DBSCAN minimum samples parameter
	output_dir: Directory to save CSV predictions
	model_type: Model type to load ('clip', 'dinov2', or 'resnet18')
	max_videos: Limit processing to first N videos
	action_filter: Filter to specific action category
	"""
	# Filter files by model type (e.g., _clip_embeddings.pt, _dinov2_embeddings.pt, or *_resnet18_embeddings.pt)
	pattern = f"*_{model_type}_embeddings.pt"
	pt_files = sorted(glob.glob(os.path.join(emb_dir, pattern)))

	if action_filter:
	pt_files = [f for f in pt_files if action_filter.lower() in os.path.basename(f).lower()]
	print(f"Filtering to action: {action_filter}")
	print(f"Found {len(pt_files)} matching file(s)")

	# Create output directory
	output_path = Path(output_dir)
	output_path.mkdir(exist_ok=True, parents=True)

	print("=" * 80)
	print("OUTLIER REMOVAL ALGORITHM - DBSCAN")
	print("=" * 80)
	print(f"Model type: {model_type.upper()}")
	print(f"GPU Acceleration: {'Enabled (cuML)' if USE_GPU else 'Disabled (CPU/sklearn)'}")
	print(f"Embeddings dir: {emb_dir}")
	print(f"Output dir: {output_dir}")
	print(f"DBSCAN parameters: eps={eps}, min_samples={min_samples}")
	print(f"Total embedding files: {len(pt_files)}")
	print("=" * 80)

	total_videos = 0

	for pt_path in pt_files:
	data = torch.load(pt_path, map_location="cpu")
	action_name = extract_action_name(pt_path, model_type)
	print(f"Processing action: {action_name}")

	# Create CSV for this action
	csv_path = output_path / f"{action_name}.csv"

	with open(csv_path, 'w', newline='') as csvfile:
	writer = csv.writer(csvfile)
	writer.writerow(['video_id', 'predicted_outliers_list'])

	for video_name, video_data in data.items():
	if max_videos and total_videos >= max_videos:
	break

	total_videos += 1
	embeddings = video_data["embeddings"]

	# Run DBSCAN outlier detection
	predictions = dbscan_outliers(embeddings, eps=eps, min_samples=min_samples)

	# Convert boolean array to list of outlier indices
	outlier_indices = np.where(predictions)[0].tolist()
	outliers_str = ",".join(map(str, outlier_indices))

	# Write to CSV
	writer.writerow([video_name, outliers_str])

	num_outliers = predictions.sum()
	num_frames = len(embeddings)

	if max_videos and total_videos >= max_videos:
	break

	print("\n" + "=" * 80)
	print("PROCESSING COMPLETE")
	print("=" * 80)
	print(f"Total videos processed: {total_videos}")
	print(f"CSV files saved to: {output_path.absolute()}")
	print("\nNext step: Use generate_cleaned_videos_from_predictions.py to create cleaned videos")
	print("=" * 80)


	def main():
	parser = argparse.ArgumentParser(
	description="Outlier removal algorithm using DBSCAN: detect outliers and export predictions to CSV"
	)

	parser.add_argument("--embeddings-dir", required=True,
	help="Directory containing embedding .pt files")
	parser.add_argument("--output-dir", default="./outlier_artifacts/cleaned_CSVs",
	help="Directory to save prediction CSV files")
	parser.add_argument("--model-type", type=str, choices=['clip', 'dinov2', 'resnet18'], default='clip',
	help="Model type to load: 'clip', 'dinov2', or 'resnet18' (default: clip)")
	parser.add_argument("--max-videos", type=int,
	help="Limit processing to first N videos")
	parser.add_argument("--action-filter",
	help="Filter to specific action category (e.g., 'Crawling')")

	# DBSCAN parameters
	parser.add_argument("--eps", type=float, default=0.5,
	help="DBSCAN: Epsilon parameter")
	parser.add_argument("--min-samples", type=int, default=40,
	help="DBSCAN: Minimum samples parameter")

	args = parser.parse_args()

	process_all_embeddings(
	emb_dir=args.embeddings_dir,
	eps=args.eps,
	min_samples=args.min_samples,
	output_dir=args.output_dir,
	model_type=args.model_type,
	max_videos=args.max_videos,
	action_filter=args.action_filter
	)


	if __name__ == "__main__":
	main()