Spaces:

puji4ml
/

RAG-Pipeline-Optimizer

Sleeping

File size: 14,203 Bytes

2b22a59

"""

utils/database.py - Database Schema Management (Phase 4A)

========================================================



Extends the evaluation_results database with quality scoring tables:

- evaluation_scores: Multi-dimensional quality scores from LLM judge

- error_analysis: Categorized failure patterns



"""

import sqlite3
from pathlib import Path
from typing import Optional
import json
from datetime import datetime


class EvaluationDatabase:
    """

    Manages SQLite database schema for RAG evaluation results

    

    Phase 3 Tables:

    - evaluation_results: Basic evaluation metrics (accuracy, time, cost)

    

    Phase 4A Tables (NEW):

    - evaluation_scores: Quality scores from LLM judge

    - error_analysis: Error categorization and patterns

    """
    
    def __init__(self, db_path: str = "data/evaluation_results.db"):
        """

        Initialize database connection

        

        Args:

            db_path: Path to SQLite database file

        """
        self.db_path = Path(db_path)
        self.db_path.parent.mkdir(parents=True, exist_ok=True)
        self.conn = sqlite3.connect(str(self.db_path))
        self.conn.row_factory = sqlite3.Row  # Access columns by name
        
    def create_phase4_tables(self):
        """

        Create Phase 4A tables for quality evaluation

        

        These tables extend evaluation_results with judge scores and error analysis.

        """
        cursor = self.conn.cursor()
        
        # ===================================================================
        # Table 1: evaluation_scores
        # ===================================================================
        cursor.execute("""

            CREATE TABLE IF NOT EXISTS evaluation_scores (

                id INTEGER PRIMARY KEY AUTOINCREMENT,

                evaluation_result_id INTEGER NOT NULL,

                

                -- Multi-dimensional scores (0-10)

                correctness_score REAL NOT NULL,

                relevance_score REAL NOT NULL,

                completeness_score REAL NOT NULL,

                clarity_score REAL NOT NULL,

                conciseness_score REAL NOT NULL,

                overall_score REAL NOT NULL,

                

                -- Judge metadata

                confidence REAL NOT NULL,

                explanation TEXT NOT NULL,

                issues TEXT NOT NULL,  -- JSON array of issue types

                

                -- Evaluation metadata

                evaluator_model TEXT NOT NULL,

                evaluation_cost_usd REAL NOT NULL,

                evaluation_time_ms REAL NOT NULL,

                timestamp TEXT NOT NULL,

                

                -- Foreign key to evaluation_results

                FOREIGN KEY (evaluation_result_id) REFERENCES evaluation_results(id)

                    ON DELETE CASCADE

            )

        """)
        
        # Index for fast lookups by evaluation_result_id
        cursor.execute("""

            CREATE INDEX IF NOT EXISTS idx_scores_result_id

            ON evaluation_scores(evaluation_result_id)

        """)
        
        # Index for filtering by overall score
        cursor.execute("""

            CREATE INDEX IF NOT EXISTS idx_scores_overall

            ON evaluation_scores(overall_score)

        """)
        
        # ===================================================================
        # Table 2: error_analysis
        # ===================================================================
        cursor.execute("""

            CREATE TABLE IF NOT EXISTS error_analysis (

                id INTEGER PRIMARY KEY AUTOINCREMENT,

                evaluation_result_id INTEGER NOT NULL,

                

                -- Error classification

                error_type TEXT NOT NULL,  -- 'retrieval_failure', 'generation_error', 'hallucination', etc.

                error_description TEXT NOT NULL,

                severity TEXT NOT NULL,  -- 'low', 'medium', 'high', 'critical'

                

                -- Diagnostics

                suggested_fix TEXT,

                affected_component TEXT,  -- 'retriever', 'generator', 'embedder', 'reranker'

                

                -- Metadata

                timestamp TEXT NOT NULL,

                

                -- Foreign key to evaluation_results

                FOREIGN KEY (evaluation_result_id) REFERENCES evaluation_results(id)

                    ON DELETE CASCADE

            )

        """)
        
        # Index for error type analysis
        cursor.execute("""

            CREATE INDEX IF NOT EXISTS idx_error_type

            ON error_analysis(error_type)

        """)
        
        # Index for severity filtering
        cursor.execute("""

            CREATE INDEX IF NOT EXISTS idx_error_severity

            ON error_analysis(severity)

        """)
        
        self.conn.commit()
        print(f"✅ Phase 4A tables created in: {self.db_path}")
        
    def insert_evaluation_score(

        self,

        evaluation_result_id: int,

        correctness_score: float,

        relevance_score: float,

        completeness_score: float,

        clarity_score: float,

        conciseness_score: float,

        overall_score: float,

        confidence: float,

        explanation: str,

        issues: list,

        evaluator_model: str,

        evaluation_cost_usd: float,

        evaluation_time_ms: float

    ) -> int:
        """

        Insert quality scores from LLM judge

        

        Args:

            evaluation_result_id: FK to evaluation_results table

            correctness_score: 0-10

            relevance_score: 0-10

            completeness_score: 0-10

            clarity_score: 0-10

            conciseness_score: 0-10

            overall_score: 0-10 weighted average

            confidence: 0-1

            explanation: Judge's reasoning

            issues: List of issue types

            evaluator_model: Judge model name

            evaluation_cost_usd: Cost of evaluation

            evaluation_time_ms: Evaluation latency

            

        Returns:

            ID of inserted record

        """
        cursor = self.conn.cursor()
        
        cursor.execute("""

            INSERT INTO evaluation_scores (

                evaluation_result_id,

                correctness_score, relevance_score, completeness_score,

                clarity_score, conciseness_score, overall_score,

                confidence, explanation, issues,

                evaluator_model, evaluation_cost_usd, evaluation_time_ms,

                timestamp

            ) VALUES (?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?)

        """, (
            evaluation_result_id,
            correctness_score, relevance_score, completeness_score,
            clarity_score, conciseness_score, overall_score,
            confidence, explanation, json.dumps(issues),
            evaluator_model, evaluation_cost_usd, evaluation_time_ms,
            datetime.now().isoformat()
        ))
        
        self.conn.commit()
        return cursor.lastrowid
    
    def insert_error_analysis(

        self,

        evaluation_result_id: int,

        error_type: str,

        error_description: str,

        severity: str = "medium",

        suggested_fix: Optional[str] = None,

        affected_component: Optional[str] = None

    ) -> int:
        """

        Insert error analysis record

        

        Args:

            evaluation_result_id: FK to evaluation_results table

            error_type: 'retrieval_failure', 'generation_error', 'hallucination', etc.

            error_description: Human-readable description

            severity: 'low', 'medium', 'high', 'critical'

            suggested_fix: Recommended solution

            affected_component: 'retriever', 'generator', 'embedder', 'reranker'

            

        Returns:

            ID of inserted record

        """
        cursor = self.conn.cursor()
        
        cursor.execute("""

            INSERT INTO error_analysis (

                evaluation_result_id,

                error_type, error_description, severity,

                suggested_fix, affected_component,

                timestamp

            ) VALUES (?, ?, ?, ?, ?, ?, ?)

        """, (
            evaluation_result_id,
            error_type, error_description, severity,
            suggested_fix, affected_component,
            datetime.now().isoformat()
        ))
        
        self.conn.commit()
        return cursor.lastrowid
    
    def get_evaluation_with_scores(self, evaluation_result_id: int) -> Optional[dict]:
        """

        Get evaluation result with quality scores

        

        Args:

            evaluation_result_id: ID from evaluation_results table

            

        Returns:

            Dict with evaluation data + scores, or None if not found

        """
        cursor = self.conn.cursor()
        
        # Join evaluation_results with evaluation_scores
        cursor.execute("""

            SELECT 

                er.*,

                es.correctness_score,

                es.relevance_score,

                es.completeness_score,

                es.clarity_score,

                es.conciseness_score,

                es.overall_score,

                es.confidence,

                es.explanation,

                es.issues,

                es.evaluator_model

            FROM evaluation_results er

            LEFT JOIN evaluation_scores es ON er.id = es.evaluation_result_id

            WHERE er.id = ?

        """, (evaluation_result_id,))
        
        row = cursor.fetchone()
        
        if row:
            return dict(row)
        return None
    
    def get_quality_summary_by_pipeline(self, run_id: str) -> list:
        """

        Get quality score summary for each pipeline in a run

        

        Args:

            run_id: Evaluation run ID

            

        Returns:

            List of dicts with pipeline quality metrics

        """
        cursor = self.conn.cursor()
        
        cursor.execute("""

            SELECT

                er.pipeline_name,

                COUNT(es.id) as evaluated_count,

                ROUND(AVG(es.correctness_score), 2) as avg_correctness,

                ROUND(AVG(es.relevance_score), 2) as avg_relevance,

                ROUND(AVG(es.completeness_score), 2) as avg_completeness,

                ROUND(AVG(es.clarity_score), 2) as avg_clarity,

                ROUND(AVG(es.conciseness_score), 2) as avg_conciseness,

                ROUND(AVG(es.overall_score), 2) as avg_overall,

                ROUND(AVG(es.confidence), 3) as avg_confidence,

                SUM(es.evaluation_cost_usd) as total_eval_cost

            FROM evaluation_results er

            INNER JOIN evaluation_scores es ON er.id = es.evaluation_result_id

            WHERE er.run_id = ?

            GROUP BY er.pipeline_name

            ORDER BY avg_overall DESC

        """, (run_id,))
        
        return [dict(row) for row in cursor.fetchall()]
    
    def get_error_summary(self, run_id: Optional[str] = None) -> list:
        """

        Get error analysis summary

        

        Args:

            run_id: Optional run ID filter

            

        Returns:

            List of error type counts and severity distribution

        """
        cursor = self.conn.cursor()
        
        if run_id:
            cursor.execute("""

                SELECT

                    ea.error_type,

                    ea.severity,

                    COUNT(*) as count,

                    GROUP_CONCAT(DISTINCT ea.affected_component) as components

                FROM error_analysis ea

                INNER JOIN evaluation_results er ON ea.evaluation_result_id = er.id

                WHERE er.run_id = ?

                GROUP BY ea.error_type, ea.severity

                ORDER BY count DESC

            """, (run_id,))
        else:
            cursor.execute("""

                SELECT

                    error_type,

                    severity,

                    COUNT(*) as count,

                    GROUP_CONCAT(DISTINCT affected_component) as components

                FROM error_analysis

                GROUP BY error_type, severity

                ORDER BY count DESC

            """)
        
        return [dict(row) for row in cursor.fetchall()]
    
    def close(self):
        """Close database connection"""
        if self.conn:
            self.conn.close()


# ============================================================================
# MIGRATION SCRIPT - Run this to update existing database
# ============================================================================

def migrate_database(db_path: str = "data/evaluation_results.db"):
    """

    Migrate existing Phase 3 database to Phase 4A schema

    

    Args:

        db_path: Path to evaluation_results.db

    """
    print("🔄 Migrating database to Phase 4A schema...")
    print("=" * 80)
    
    db = EvaluationDatabase(db_path)
    
    # Create new tables
    db.create_phase4_tables()
    
    # Check existing data
    cursor = db.conn.cursor()
    cursor.execute("SELECT COUNT(*) FROM evaluation_results")
    result_count = cursor.fetchone()[0]
    
    cursor.execute("""

        SELECT COUNT(*) FROM sqlite_master 

        WHERE type='table' AND name='evaluation_scores'

    """)
    scores_table_exists = cursor.fetchone()[0] > 0
    
    print(f"\n📊 Database Status:")
    print(f"  - Evaluation results: {result_count} records")
    print(f"  - Quality scores table: {'✅ Created' if scores_table_exists else '❌ Missing'}")
    
    db.close()
    
    print("\n" + "=" * 80)
    print("✅ Migration complete!")
    print("\n🚀 Next: Run scripts/evaluate_with_judge.py to populate scores")


if __name__ == "__main__":
    # Run migration
    migrate_database()