Spaces:

Hoecat
/

paper-trail-api

Runtime error

paper-trail-api / scripts /legislator_crosswalk /validators.py

Hoe

Deploying Backend API

b339b93 about 2 months ago

6.66 kB

	"""Validation suite for legislator crosswalk extraction.

	Validates:
	- Tier 1: Basic counts and non-null requirements
	- Tier 2: Uniqueness of (icpsr, bonica_rid) pairs
	- Tier 3: Sample verification against source
	"""

	from __future__ import annotations

	from dataclasses import dataclass
	from pathlib import Path
	from typing import TYPE_CHECKING

	if TYPE_CHECKING:
	import duckdb

	from .exceptions import DuplicateKeyError, ValidationError
	from .schema import YEAR_SUFFIX_LENGTH


	@dataclass
	class ValidationResult:
	"""Results from validation suite."""

	counts_valid: bool = False
	source_count: int = 0
	output_count: int = 0

	uniqueness_valid: bool = False
	unique_icpsr_count: int = 0
	unique_bonica_rid_count: int = 0

	sample_valid: bool = False
	sample_size: int = 0

	@property
	def all_valid(self) -> bool:
	"""Check if all validation tiers passed."""
	return self.counts_valid and self.uniqueness_valid and self.sample_valid


	def validate_counts(
	source_url: str,
	output_path: Path,
	conn: duckdb.DuckDBPyConnection,
	) -> ValidationResult:
	"""
	Tier 1: Verify basic counts and non-null requirements.

	Checks:
	- Output has rows
	- All icpsr values are non-null
	- All bonica_rid values are non-null
	"""
	result = ValidationResult()

	# Count source rows matching our filter
	# Note: DIME stores ICPSR as "{icpsr}{year}", we extract just the ICPSR portion
	source_count = conn.execute(f"""
	SELECT COUNT(DISTINCT (
	SUBSTRING(CAST("ICPSR" AS VARCHAR), 1, LENGTH(CAST("ICPSR" AS VARCHAR))-{YEAR_SUFFIX_LENGTH}),
	"bonica.rid"
	))
	FROM read_parquet('{source_url}')
	WHERE "ICPSR" IS NOT NULL
	AND "ICPSR" != ''
	AND LENGTH(CAST("ICPSR" AS VARCHAR)) > {YEAR_SUFFIX_LENGTH}
	AND "bonica.rid" IS NOT NULL
	AND "bonica.rid" != ''
	""").fetchone()[0]
	result.source_count = source_count

	# Count output rows
	output_count = conn.execute(f"""
	SELECT COUNT(*) FROM read_parquet('{output_path}')
	""").fetchone()[0]
	result.output_count = output_count

	if output_count == 0:
	raise ValidationError(
	message="Output file has no rows",
	expected_count=source_count,
	actual_count=0,
	)

	# Check for null icpsr values
	null_icpsr = conn.execute(f"""
	SELECT COUNT(*)
	FROM read_parquet('{output_path}')
	WHERE icpsr IS NULL OR icpsr = ''
	""").fetchone()[0]

	if null_icpsr > 0:
	raise ValidationError(
	message=f"Found {null_icpsr} rows with null/empty icpsr",
	expected_count=0,
	actual_count=null_icpsr,
	)

	# Check for null bonica_rid values
	null_bonica_rid = conn.execute(f"""
	SELECT COUNT(*)
	FROM read_parquet('{output_path}')
	WHERE bonica_rid IS NULL OR bonica_rid = ''
	""").fetchone()[0]

	if null_bonica_rid > 0:
	raise ValidationError(
	message=f"Found {null_bonica_rid} rows with null/empty bonica_rid",
	expected_count=0,
	actual_count=null_bonica_rid,
	)

	# Verify counts match
	if output_count != source_count:
	raise ValidationError(
	message="Row count mismatch between source and output",
	expected_count=source_count,
	actual_count=output_count,
	)

	result.counts_valid = True
	return result


	def validate_uniqueness(
	output_path: Path,
	conn: duckdb.DuckDBPyConnection,
	result: ValidationResult,
	) -> ValidationResult:
	"""
	Tier 2: Verify uniqueness of key pairs.

	Checks:
	- No duplicate (icpsr, bonica_rid) pairs exist
	"""
	# Check for duplicate key pairs
	duplicates = conn.execute(f"""
	SELECT icpsr, bonica_rid, COUNT(*) as cnt
	FROM read_parquet('{output_path}')
	GROUP BY icpsr, bonica_rid
	HAVING cnt > 1
	LIMIT 10
	""").fetchall()

	if duplicates:
	sample_dups = [(r[0], r[1]) for r in duplicates]
	raise DuplicateKeyError(
	message="Found duplicate (icpsr, bonica_rid) pairs",
	duplicate_count=len(duplicates),
	sample_duplicates=sample_dups,
	)

	# Get unique counts for reporting
	result.unique_icpsr_count = conn.execute(f"""
	SELECT COUNT(DISTINCT icpsr) FROM read_parquet('{output_path}')
	""").fetchone()[0]

	result.unique_bonica_rid_count = conn.execute(f"""
	SELECT COUNT(DISTINCT bonica_rid) FROM read_parquet('{output_path}')
	""").fetchone()[0]

	result.uniqueness_valid = True
	return result


	def validate_sample(
	source_url: str,
	output_path: Path,
	conn: duckdb.DuckDBPyConnection,
	result: ValidationResult,
	sample_size: int = 100,
	) -> ValidationResult:
	"""
	Tier 3: Sample verification against source.

	For randomly sampled rows, verifies:
	- The (icpsr, bonica_rid) mapping exists in source data

	Note: We don't compare metadata columns exactly because our extraction
	uses MAX() aggregation when multiple rows have the same (icpsr, bonica_rid).
	"""
	# Get random sample of output rows
	sample = conn.execute(f"""
	SELECT icpsr, bonica_rid
	FROM read_parquet('{output_path}')
	USING SAMPLE {sample_size}
	""").fetchall()

	actual_sample_size = len(sample)
	result.sample_size = actual_sample_size

	verified = 0
	for icpsr, bonica_rid in sample:
	# Verify this mapping exists in source
	# Note: DIME stores ICPSR as "{icpsr}{year}", so we compare the extracted portion
	# Use parameterized query to prevent SQL injection from malicious parquet data
	source_exists = conn.execute(
	f"""
	SELECT 1
	FROM read_parquet('{source_url}')
	WHERE SUBSTRING(CAST("ICPSR" AS VARCHAR), 1, LENGTH(CAST("ICPSR" AS VARCHAR))-{YEAR_SUFFIX_LENGTH}) = ?
	AND "bonica.rid" = ?
	LIMIT 1
	""",
	[icpsr, bonica_rid],
	).fetchone()

	if source_exists is None:
	raise ValidationError(
	message=f"Mapping (icpsr={icpsr}, bonica_rid={bonica_rid}) not found in source",
	expected_count=1,
	actual_count=0,
	)

	verified += 1

	result.sample_valid = True
	return result