Spaces:

ACA050
/

ALM-2

Running

App Files Files Community

ALM-2 / backend /experiments /comparison_validator.py

ACA050

Upload 520 files

2ed8996 verified 3 months ago

raw

history blame contribute delete

25.8 kB

	"""
	Comparison Validator for AegisLM Framework

	Production-grade validation for experiment comparison results with
	statistical significance testing, accuracy verification, and comprehensive reporting.
	"""

	import numpy as np
	from scipy import stats
	from typing import Dict, Any, List, Optional, Tuple
	from datetime import datetime
	from dataclasses import dataclass
	from pathlib import Path
	import sys
	import logging

	# Add parent directory to path for imports
	current_dir = Path(__file__).parent
	backend_dir = current_dir.parent
	if str(backend_dir) not in sys.path:
	sys.path.insert(0, str(backend_dir))

	logger = logging.getLogger(__name__)


	@dataclass
	class ValidationWarning:
	"""Validation warning information."""
	message: str
	severity: str # "low", "medium", "high"
	metric_name: Optional[str] = None
	recommendation: Optional[str] = None


	@dataclass
	class ValidationError:
	"""Validation error information."""
	message: str
	error_type: str # "data_error", "statistical_error", "logic_error"
	metric_name: Optional[str] = None
	fix_required: bool = True


	@dataclass
	class StatisticalTest:
	"""Statistical test result."""
	test_name: str
	statistic: float
	p_value: float
	is_significant: bool
	confidence_level: float
	effect_size: Optional[float] = None


	@dataclass
	class MetricComparison:
	"""Metric comparison result."""
	metric_name: str
	baseline_value: float
	comparison_value: float
	absolute_difference: float
	relative_difference: float
	statistical_test: Optional[StatisticalTest] = None
	is_significant: bool = False
	confidence_interval: Optional[Tuple[float, float]] = None


	@dataclass
	class ComparisonValidationReport:
	"""Comprehensive comparison validation report."""
	is_valid: bool
	overall_confidence: float
	validation_errors: List[ValidationError]
	validation_warnings: List[ValidationWarning]
	metric_comparisons: List[MetricComparison]
	statistical_tests: List[StatisticalTest]
	validation_timestamp: datetime
	recommendations: List[str]


	class ComparisonValidator:
	"""
	Validate experiment comparison results for accuracy and statistical significance.

	Provides comprehensive validation including statistical testing,
	accuracy verification, and actionable recommendations.
	"""

	def __init__(self, significance_threshold: float = 0.05, confidence_level: float = 0.95):
	"""
	Initialize comparison validator.

	Args:
	significance_threshold: P-value threshold for statistical significance
	confidence_level: Confidence level for statistical tests
	"""
	self.significance_threshold = significance_threshold
	self.confidence_level = confidence_level

	async def validate_comparison(self, baseline_results: Dict[str, Any],
	comparison_results: Dict[str, Any]) -> ComparisonValidationReport:
	"""
	Validate comparison results for statistical significance and accuracy.

	Args:
	baseline_results: Baseline experiment results
	comparison_results: Comparison experiment results

	Returns:
	ComparisonValidationReport: Comprehensive validation report
	"""
	validation_errors = []
	validation_warnings = []
	metric_comparisons = []
	statistical_tests = []

	try:
	# Validate result completeness
	completeness_errors = self._validate_result_completeness(baseline_results, comparison_results)
	validation_errors.extend(completeness_errors)

	# Perform metric comparisons
	baseline_metrics = baseline_results.get('metrics', {})
	comparison_metrics = comparison_results.get('metrics', {})

	for metric_name in baseline_metrics:
	if metric_name in comparison_metrics:
	comparison_result = await self._compare_metric(
	metric_name,
	baseline_metrics[metric_name],
	comparison_metrics[metric_name]
	)
	metric_comparisons.append(comparison_result)

	if comparison_result.statistical_test:
	statistical_tests.append(comparison_result.statistical_test)
	else:
	validation_errors.append(ValidationError(
	message=f"Missing metric in comparison: {metric_name}",
	error_type="data_error",
	metric_name=metric_name
	))

	# Validate overall comparison logic
	logic_errors = self._validate_comparison_logic(baseline_results, comparison_results)
	validation_errors.extend(logic_errors)

	# Generate warnings based on results
	warnings = self._generate_warnings(metric_comparisons)
	validation_warnings.extend(warnings)

	# Calculate overall confidence
	overall_confidence = self._calculate_overall_confidence(metric_comparisons, validation_errors)

	# Generate recommendations
	recommendations = self._generate_recommendations(metric_comparisons, validation_errors, validation_warnings)

	# Determine overall validity
	is_valid = len(validation_errors) == 0 and overall_confidence >= 0.7

	return ComparisonValidationReport(
	is_valid=is_valid,
	overall_confidence=overall_confidence,
	validation_errors=validation_errors,
	validation_warnings=validation_warnings,
	metric_comparisons=metric_comparisons,
	statistical_tests=statistical_tests,
	validation_timestamp=datetime.utcnow(),
	recommendations=recommendations
	)

	except Exception as e:
	logger.error(f"Comparison validation failed: {e}")
	return ComparisonValidationReport(
	is_valid=False,
	overall_confidence=0.0,
	validation_errors=[ValidationError(
	message=f"Validation failed: {str(e)}",
	error_type="statistical_error",
	fix_required=True
	)],
	validation_warnings=[],
	metric_comparisons=[],
	statistical_tests=[],
	validation_timestamp=datetime.utcnow(),
	recommendations=["Fix validation errors before proceeding"]
	)

	async def validate_trend_analysis(self, trend_data: List[Dict[str, Any]]) -> ComparisonValidationReport:
	"""
	Validate trend analysis results.

	Args:
	trend_data: List of trend data points

	Returns:
	ComparisonValidationReport: Trend validation report
	"""
	validation_errors = []
	validation_warnings = []
	metric_comparisons = []
	statistical_tests = []

	try:
	# Validate trend data completeness
	if len(trend_data) < 3:
	validation_errors.append(ValidationError(
	message="Insufficient data points for trend analysis (minimum 3 required)",
	error_type="data_error",
	fix_required=True
	))

	# Analyze each metric's trend
	if trend_data:
	metrics = trend_data[0].get('metrics', {})

	for metric_name in metrics:
	trend_result = await self._analyze_metric_trend(metric_name, trend_data)
	metric_comparisons.append(trend_result)

	if trend_result.statistical_test:
	statistical_tests.append(trend_result.statistical_test)

	# Generate trend-specific warnings
	trend_warnings = self._generate_trend_warnings(metric_comparisons)
	validation_warnings.extend(trend_warnings)

	# Calculate overall confidence
	overall_confidence = self._calculate_overall_confidence(metric_comparisons, validation_errors)

	# Generate recommendations
	recommendations = self._generate_trend_recommendations(metric_comparisons, validation_errors)

	# Determine overall validity
	is_valid = len(validation_errors) == 0 and overall_confidence >= 0.6

	return ComparisonValidationReport(
	is_valid=is_valid,
	overall_confidence=overall_confidence,
	validation_errors=validation_errors,
	validation_warnings=validation_warnings,
	metric_comparisons=metric_comparisons,
	statistical_tests=statistical_tests,
	validation_timestamp=datetime.utcnow(),
	recommendations=recommendations
	)

	except Exception as e:
	logger.error(f"Trend validation failed: {e}")
	return ComparisonValidationReport(
	is_valid=False,
	overall_confidence=0.0,
	validation_errors=[ValidationError(
	message=f"Trend validation failed: {str(e)}",
	error_type="statistical_error",
	fix_required=True
	)],
	validation_warnings=[],
	metric_comparisons=[],
	statistical_tests=[],
	validation_timestamp=datetime.utcnow(),
	recommendations=["Fix validation errors before proceeding"]
	)

	async def _compare_metric(self, metric_name: str, baseline_data: Dict[str, Any],
	comparison_data: Dict[str, Any]) -> MetricComparison:
	"""
	Compare a single metric between baseline and comparison.

	Args:
	metric_name: Name of the metric
	baseline_data: Baseline metric data
	comparison_data: Comparison metric data

	Returns:
	MetricComparison: Comparison result
	"""
	# Extract values
	baseline_vals = baseline_data.get('values', [])
	comparison_vals = comparison_data.get('values', [])

	# Handle single values
	if not baseline_vals and 'value' in baseline_data:
	baseline_vals = [baseline_data['value']]
	if not comparison_vals and 'value' in comparison_data:
	comparison_vals = [comparison_data['value']]

	# Calculate basic statistics
	baseline_mean = np.mean(baseline_vals) if baseline_vals else 0
	comparison_mean = np.mean(comparison_vals) if comparison_vals else 0

	absolute_diff = comparison_mean - baseline_mean
	relative_diff = (absolute_diff / baseline_mean * 100) if baseline_mean != 0 else 0

	# Statistical test
	statistical_test = None
	is_significant = False
	confidence_interval = None

	if len(baseline_vals) > 1 and len(comparison_vals) > 1:
	try:
	# Perform t-test
	t_stat, p_value = stats.ttest_ind(baseline_vals, comparison_vals)

	is_significant = p_value < self.significance_threshold

	# Calculate confidence interval
	pooled_std = np.sqrt(
	((len(baseline_vals) - 1) * np.var(baseline_vals, ddof=1) +
	(len(comparison_vals) - 1) * np.var(comparison_vals, ddof=1)) /
	(len(baseline_vals) + len(comparison_vals) - 2)
	)
	se = pooled_std * np.sqrt(1/len(baseline_vals) + 1/len(comparison_vals))
	t_critical = stats.t.ppf(1 - (1 - self.confidence_level) / 2, len(baseline_vals) + len(comparison_vals) - 2)
	margin_error = t_critical * se
	confidence_interval = (absolute_diff - margin_error, absolute_diff + margin_error)

	# Calculate effect size (Cohen's d)
	pooled_std_effect = np.sqrt(((len(baseline_vals) - 1) * np.var(baseline_vals, ddof=1) +
	(len(comparison_vals) - 1) * np.var(comparison_vals, ddof=1)) /
	(len(baseline_vals) + len(comparison_vals) - 2))
	effect_size = absolute_diff / pooled_std_effect if pooled_std_effect != 0 else 0

	statistical_test = StatisticalTest(
	test_name="independent_t_test",
	statistic=t_stat,
	p_value=p_value,
	is_significant=is_significant,
	confidence_level=self.confidence_level,
	effect_size=effect_size
	)

	except Exception as e:
	logger.warning(f"Statistical test failed for {metric_name}: {e}")

	return MetricComparison(
	metric_name=metric_name,
	baseline_value=baseline_mean,
	comparison_value=comparison_mean,
	absolute_difference=absolute_diff,
	relative_difference=relative_diff,
	statistical_test=statistical_test,
	is_significant=is_significant,
	confidence_interval=confidence_interval
	)

	async def _analyze_metric_trend(self, metric_name: str, trend_data: List[Dict[str, Any]]) -> MetricComparison:
	"""
	Analyze trend for a specific metric.

	Args:
	metric_name: Name of the metric
	trend_data: Trend data points

	Returns:
	MetricComparison: Trend analysis result
	"""
	# Extract values over time
	values = []
	for point in trend_data:
	metric_data = point.get('metrics', {}).get(metric_name, {})
	if 'value' in metric_data:
	values.append(metric_data['value'])
	elif 'values' in metric_data:
	values.append(np.mean(metric_data['values']))

	if len(values) < 2:
	return MetricComparison(
	metric_name=metric_name,
	baseline_value=values[0] if values else 0,
	comparison_value=values[-1] if values else 0,
	absolute_difference=0,
	relative_difference=0,
	is_significant=False
	)

	# Calculate trend
	baseline_value = values[0]
	comparison_value = values[-1]
	absolute_diff = comparison_value - baseline_value
	relative_diff = (absolute_diff / baseline_value * 100) if baseline_value != 0 else 0

	# Linear regression for trend significance
	x = np.arange(len(values))
	y = np.array(values)

	statistical_test = None
	is_significant = False

	try:
	slope, intercept, r_value, p_value, std_err = stats.linregress(x, y)

	# Test if slope is significantly different from zero
	t_stat = slope / std_err if std_err != 0 else 0
	p_val = 2 * (1 - stats.t.cdf(abs(t_stat), len(values) - 2))
	is_significant = p_val < self.significance_threshold

	statistical_test = StatisticalTest(
	test_name="linear_regression",
	statistic=t_stat,
	p_value=p_val,
	is_significant=is_significant,
	confidence_level=self.confidence_level,
	effect_size=r_value ** 2
	)

	except Exception as e:
	logger.warning(f"Trend analysis failed for {metric_name}: {e}")

	return MetricComparison(
	metric_name=metric_name,
	baseline_value=baseline_value,
	comparison_value=comparison_value,
	absolute_difference=absolute_diff,
	relative_difference=relative_diff,
	statistical_test=statistical_test,
	is_significant=is_significant
	)

	def _validate_result_completeness(self, baseline_results: Dict[str, Any],
	comparison_results: Dict[str, Any]) -> List[ValidationError]:
	"""Validate completeness of comparison results."""
	errors = []

	# Check required fields
	required_fields = ['metrics', 'timestamp', 'experiment_id']
	for field in required_fields:
	if field not in baseline_results:
	errors.append(ValidationError(
	message=f"Missing required field in baseline: {field}",
	error_type="data_error",
	fix_required=True
	))
	if field not in comparison_results:
	errors.append(ValidationError(
	message=f"Missing required field in comparison: {field}",
	error_type="data_error",
	fix_required=True
	))

	return errors

	def _validate_comparison_logic(self, baseline_results: Dict[str, Any],
	comparison_results: Dict[str, Any]) -> List[ValidationError]:
	"""Validate logical consistency of comparison."""
	errors = []

	# Check if experiments are comparable
	baseline_config = baseline_results.get('config', {})
	comparison_config = comparison_results.get('config', {})

	# Check model compatibility
	if baseline_config.get('model_name') != comparison_config.get('model_name'):
	errors.append(ValidationError(
	message="Models are different - comparison may not be valid",
	error_type="logic_error",
	fix_required=False
	))

	# Check dataset compatibility
	if (baseline_config.get('dataset_name') != comparison_config.get('dataset_name') or
	baseline_config.get('dataset_version') != comparison_config.get('dataset_version')):
	errors.append(ValidationError(
	message="Datasets are different - comparison may not be valid",
	error_type="logic_error",
	fix_required=False
	))

	return errors

	def _generate_warnings(self, metric_comparisons: List[MetricComparison]) -> List[ValidationWarning]:
	"""Generate warnings based on comparison results."""
	warnings = []

	for comparison in metric_comparisons:
	# Check for small differences
	if abs(comparison.relative_difference) < 1.0:
	warnings.append(ValidationWarning(
	message=f"Very small difference detected for {comparison.metric_name}",
	severity="low",
	metric_name=comparison.metric_name,
	recommendation="Consider if this difference is practically significant"
	))

	# Check for non-significant results
	if comparison.statistical_test and not comparison.is_significant:
	warnings.append(ValidationWarning(
	message=f"No significant difference for {comparison.metric_name} (p={comparison.statistical_test.p_value:.3f})",
	severity="medium",
	metric_name=comparison.metric_name,
	recommendation="Consider increasing sample size or effect size"
	))

	# Check for large effect sizes
	if (comparison.statistical_test and
	comparison.statistical_test.effect_size and
	abs(comparison.statistical_test.effect_size) > 0.8):
	warnings.append(ValidationWarning(
	message=f"Large effect size for {comparison.metric_name}",
	severity="medium",
	metric_name=comparison.metric_name,
	recommendation="Verify results are not due to outliers or data issues"
	))

	return warnings

	def _generate_trend_warnings(self, metric_comparisons: List[MetricComparison]) -> List[ValidationWarning]:
	"""Generate trend-specific warnings."""
	warnings = []

	for comparison in metric_comparisons:
	# Check for weak trend correlation
	if (comparison.statistical_test and
	comparison.statistical_test.effect_size and
	comparison.statistical_test.effect_size < 0.3):
	warnings.append(ValidationWarning(
	message=f"Weak trend correlation for {comparison.metric_name} (R² = {comparison.statistical_test.effect_size:.3f})",
	severity="medium",
	metric_name=comparison.metric_name,
	recommendation="Consider if trend is meaningful or due to noise"
	))

	return warnings

	def _calculate_overall_confidence(self, metric_comparisons: List[MetricComparison],
	validation_errors: List[ValidationError]) -> float:
	"""Calculate overall confidence in comparison results."""
	if validation_errors:
	return 0.0

	if not metric_comparisons:
	return 0.5 # Neutral confidence

	# Calculate confidence based on statistical significance
	significant_count = sum(1 for comp in metric_comparisons if comp.is_significant)
	total_count = len(metric_comparisons)

	if total_count == 0:
	return 0.5

	# Base confidence from significance ratio
	significance_ratio = significant_count / total_count

	# Adjust for effect sizes
	avg_effect_size = 0
	effect_sizes = [comp.statistical_test.effect_size for comp in metric_comparisons
	if comp.statistical_test and comp.statistical_test.effect_size is not None]

	if effect_sizes:
	avg_effect_size = np.mean(effect_sizes)

	# Calculate overall confidence
	overall_confidence = (significance_ratio * 0.7) + (min(avg_effect_size, 1.0) * 0.3)

	return min(overall_confidence, 1.0)

	def _generate_recommendations(self, metric_comparisons: List[MetricComparison],
	validation_errors: List[ValidationError],
	validation_warnings: List[ValidationWarning]) -> List[str]:
	"""Generate actionable recommendations."""
	recommendations = []

	if validation_errors:
	recommendations.append("Fix validation errors before proceeding with analysis")

	# Statistical recommendations
	non_significant_metrics = [comp for comp in metric_comparisons
	if comp.statistical_test and not comp.is_significant]

	if non_significant_metrics:
	recommendations.append("Consider increasing sample size for metrics with non-significant results")

	# Effect size recommendations
	large_effect_metrics = [comp for comp in metric_comparisons
	if comp.statistical_test and comp.statistical_test.effect_size and
	abs(comp.statistical_test.effect_size) > 0.8]

	if large_effect_metrics:
	recommendations.append("Verify large effect sizes are not due to data anomalies")

	# General recommendations
	if len(metric_comparisons) > 0:
	avg_confidence = self._calculate_overall_confidence(metric_comparisons, validation_errors)
	if avg_confidence < 0.7:
	recommendations.append("Consider collecting more data to improve statistical power")

	return recommendations

	def _generate_trend_recommendations(self, metric_comparisons: List[MetricComparison],
	validation_errors: List[ValidationError]) -> List[str]:
	"""Generate trend-specific recommendations."""
	recommendations = []

	if validation_errors:
	recommendations.append("Fix validation errors before proceeding with trend analysis")

	# Trend strength recommendations
	weak_trends = [comp for comp in metric_comparisons
	if comp.statistical_test and comp.statistical_test.effect_size and
	comp.statistical_test.effect_size < 0.3]

	if weak_trends:
	recommendations.append("Consider collecting more data points to strengthen trend analysis")

	return recommendations


	# Factory function
	def create_comparison_validator(significance_threshold: float = 0.05, confidence_level: float = 0.95) -> ComparisonValidator:
	"""
	Create a comparison validator instance.

	Args:
	significance_threshold: P-value threshold for significance
	confidence_level: Confidence level for tests

	Returns:
	ComparisonValidator: Configured validator
	"""
	return ComparisonValidator(significance_threshold, confidence_level)