Spaces:

Hoecat
/

paper-trail-api

Runtime error

File size: 10,672 Bytes

b339b93

"""Three-tier validation suite for distinct legislators extraction.



Unlike CSV→Parquet converters which validate lossless conversion,

this validates correct aggregation/transformation:



- Tier 1: Completeness - every source bioguide_id appears exactly once

- Tier 2: Aggregation Integrity - MIN/MAX/LIST operations are correct

- Tier 3: Sample Verification - deep validation of random legislators

"""

from __future__ import annotations

import random
from dataclasses import dataclass
from pathlib import Path
from typing import TYPE_CHECKING

if TYPE_CHECKING:
    import duckdb

from .exceptions import (
    AggregationError,
    CompletenessError,
    SampleValidationError,
)


@dataclass
class ValidationResult:
    """Results from validation suite."""

    completeness_valid: bool = False
    source_distinct_count: int = 0
    output_count: int = 0

    aggregation_valid: bool = False
    aggregation_checks_passed: int = 0

    sample_valid: bool = False
    sample_size: int = 0

    @property
    def all_valid(self) -> bool:
        """Check if all validation tiers passed."""
        return self.completeness_valid and self.aggregation_valid and self.sample_valid


def validate_completeness(

    source_url: str,

    output_path: Path,

    conn: duckdb.DuckDBPyConnection,

    min_congress: int,

) -> ValidationResult:
    """

    Tier 1: Verify all source bioguide_ids appear exactly once in output.



    Checks:

    - Output count matches distinct source count

    - No missing bioguide_ids

    - No extra bioguide_ids

    - No duplicates in output

    """
    result = ValidationResult()

    # Count distinct legislators in source
    source_count = conn.execute(f"""

        SELECT COUNT(DISTINCT bioguide_id)

        FROM read_parquet('{source_url}')

        WHERE congress >= {min_congress}

          AND bioguide_id IS NOT NULL

    """).fetchone()[0]
    result.source_distinct_count = source_count

    # Count rows in output
    output_count = conn.execute(f"""

        SELECT COUNT(*) FROM read_parquet('{output_path}')

    """).fetchone()[0]
    result.output_count = output_count

    # Check for duplicates in output
    duplicate_count = conn.execute(f"""

        SELECT COUNT(*) FROM (

            SELECT bioguide_id, COUNT(*) as cnt

            FROM read_parquet('{output_path}')

            GROUP BY bioguide_id

            HAVING cnt > 1

        )

    """).fetchone()[0]

    if duplicate_count > 0:
        raise CompletenessError(
            message=f"Found {duplicate_count} duplicate bioguide_ids in output",
            expected_count=source_count,
            actual_count=output_count,
        )

    # Check counts match
    if output_count != source_count:
        # Find missing or extra IDs
        missing = conn.execute(f"""

            SELECT bioguide_id FROM (

                SELECT DISTINCT bioguide_id

                FROM read_parquet('{source_url}')

                WHERE congress >= {min_congress}

                  AND bioguide_id IS NOT NULL

            ) source

            WHERE bioguide_id NOT IN (

                SELECT bioguide_id FROM read_parquet('{output_path}')

            )

            LIMIT 10

        """).fetchall()
        missing_ids = [r[0] for r in missing]

        extra = conn.execute(f"""

            SELECT bioguide_id FROM read_parquet('{output_path}')

            WHERE bioguide_id NOT IN (

                SELECT DISTINCT bioguide_id

                FROM read_parquet('{source_url}')

                WHERE congress >= {min_congress}

                  AND bioguide_id IS NOT NULL

            )

            LIMIT 10

        """).fetchall()
        extra_ids = [r[0] for r in extra]

        raise CompletenessError(
            message="Count mismatch between source and output",
            expected_count=source_count,
            actual_count=output_count,
            missing_ids=missing_ids if missing_ids else None,
            extra_ids=extra_ids if extra_ids else None,
        )

    result.completeness_valid = True
    return result


def validate_aggregation(

    source_url: str,

    output_path: Path,

    conn: duckdb.DuckDBPyConnection,

    result: ValidationResult,

    min_congress: int,

    sample_size: int = 100,

) -> ValidationResult:
    """

    Tier 2: Verify aggregation operations (MIN/MAX/LIST) are correct.



    Randomly samples legislators and verifies:

    - first_congress = MIN(congress) from source

    - last_congress = MAX(congress) from source

    - congresses_served array length matches source count

    """
    # Get random sample of bioguide_ids
    all_ids = conn.execute(f"""

        SELECT bioguide_id FROM read_parquet('{output_path}')

    """).fetchall()
    all_ids = [r[0] for r in all_ids]

    actual_sample_size = min(sample_size, len(all_ids))
    sample_ids = random.sample(all_ids, actual_sample_size)

    checks_passed = 0

    for bioguide_id in sample_ids:
        # Get source data for this legislator
        source_data = conn.execute(f"""

            SELECT

                MIN(congress) as expected_first,

                MAX(congress) as expected_last,

                COUNT(*) as expected_count

            FROM read_parquet('{source_url}')

            WHERE bioguide_id = '{bioguide_id}'

              AND congress >= {min_congress}

        """).fetchone()

        expected_first, expected_last, expected_count = source_data

        # Get output data
        output_data = conn.execute(f"""

            SELECT

                first_congress,

                last_congress,

                LENGTH(congresses_served) as actual_count

            FROM read_parquet('{output_path}')

            WHERE bioguide_id = '{bioguide_id}'

        """).fetchone()

        actual_first, actual_last, actual_count = output_data

        # Validate first_congress
        if actual_first != expected_first:
            raise AggregationError(
                message="first_congress mismatch",
                bioguide_id=bioguide_id,
                field_name="first_congress",
                expected_value=str(expected_first),
                actual_value=str(actual_first),
            )

        # Validate last_congress
        if actual_last != expected_last:
            raise AggregationError(
                message="last_congress mismatch",
                bioguide_id=bioguide_id,
                field_name="last_congress",
                expected_value=str(expected_last),
                actual_value=str(actual_last),
            )

        # Validate congress count
        if actual_count != expected_count:
            raise AggregationError(
                message="congresses_served count mismatch",
                bioguide_id=bioguide_id,
                field_name="congresses_served (length)",
                expected_value=str(expected_count),
                actual_value=str(actual_count),
            )

        checks_passed += 1

    result.aggregation_checks_passed = checks_passed
    result.aggregation_valid = True
    return result


def validate_sample(

    source_url: str,

    output_path: Path,

    conn: duckdb.DuckDBPyConnection,

    result: ValidationResult,

    min_congress: int,

    sample_size: int = 50,

) -> ValidationResult:
    """

    Tier 3: Deep validation of random legislators.



    For each sampled legislator, verifies:

    - congresses_served array contains exactly the right congress numbers

    - bioname matches the most recent congress entry

    - state_abbrev matches the most recent congress entry

    """
    # Get random sample
    all_ids = conn.execute(f"""

        SELECT bioguide_id FROM read_parquet('{output_path}')

    """).fetchall()
    all_ids = [r[0] for r in all_ids]

    actual_sample_size = min(sample_size, len(all_ids))
    sample_ids = random.sample(all_ids, actual_sample_size)
    result.sample_size = actual_sample_size

    for i, bioguide_id in enumerate(sample_ids):
        # Get expected congresses from source
        expected_congresses = conn.execute(f"""

            SELECT LIST(congress ORDER BY congress)

            FROM read_parquet('{source_url}')

            WHERE bioguide_id = '{bioguide_id}'

              AND congress >= {min_congress}

        """).fetchone()[0]

        # Get actual congresses from output
        actual_congresses = conn.execute(f"""

            SELECT congresses_served

            FROM read_parquet('{output_path}')

            WHERE bioguide_id = '{bioguide_id}'

        """).fetchone()[0]

        # Compare congress arrays
        if list(expected_congresses) != list(actual_congresses):
            raise SampleValidationError(
                message="congresses_served array mismatch",
                bioguide_id=bioguide_id,
                field_name="congresses_served",
                expected_value=str(expected_congresses),
                actual_value=str(actual_congresses),
                sample_index=i,
            )

        # Verify most recent values (bioname, state_abbrev)
        expected_latest = conn.execute(f"""

            SELECT bioname, state_abbrev

            FROM read_parquet('{source_url}')

            WHERE bioguide_id = '{bioguide_id}'

              AND congress >= {min_congress}

            ORDER BY congress DESC

            LIMIT 1

        """).fetchone()

        actual_latest = conn.execute(f"""

            SELECT bioname, state_abbrev

            FROM read_parquet('{output_path}')

            WHERE bioguide_id = '{bioguide_id}'

        """).fetchone()

        if expected_latest[0] != actual_latest[0]:
            raise SampleValidationError(
                message="bioname mismatch (should be from most recent congress)",
                bioguide_id=bioguide_id,
                field_name="bioname",
                expected_value=str(expected_latest[0]),
                actual_value=str(actual_latest[0]),
                sample_index=i,
            )

        if expected_latest[1] != actual_latest[1]:
            raise SampleValidationError(
                message="state_abbrev mismatch (should be from most recent congress)",
                bioguide_id=bioguide_id,
                field_name="state_abbrev",
                expected_value=str(expected_latest[1]),
                actual_value=str(actual_latest[1]),
                sample_index=i,
            )

    result.sample_valid = True
    return result