Spaces:

puji4ml
/

RAG-Pipeline-Optimizer

Sleeping

App Files Files Community

RAG-Pipeline-Optimizer / utils /database.py

puji4ml

Upload 30 files

2b22a59 verified 12 days ago

raw

history blame contribute delete

14.2 kB

	"""
	utils/database.py - Database Schema Management (Phase 4A)
	========================================================

	Extends the evaluation_results database with quality scoring tables:
	- evaluation_scores: Multi-dimensional quality scores from LLM judge
	- error_analysis: Categorized failure patterns

	"""

	import sqlite3
	from pathlib import Path
	from typing import Optional
	import json
	from datetime import datetime


	class EvaluationDatabase:
	"""
	Manages SQLite database schema for RAG evaluation results

	Phase 3 Tables:
	- evaluation_results: Basic evaluation metrics (accuracy, time, cost)

	Phase 4A Tables (NEW):
	- evaluation_scores: Quality scores from LLM judge
	- error_analysis: Error categorization and patterns
	"""

	def __init__(self, db_path: str = "data/evaluation_results.db"):
	"""
	Initialize database connection

	Args:
	db_path: Path to SQLite database file
	"""
	self.db_path = Path(db_path)
	self.db_path.parent.mkdir(parents=True, exist_ok=True)
	self.conn = sqlite3.connect(str(self.db_path))
	self.conn.row_factory = sqlite3.Row # Access columns by name

	def create_phase4_tables(self):
	"""
	Create Phase 4A tables for quality evaluation

	These tables extend evaluation_results with judge scores and error analysis.
	"""
	cursor = self.conn.cursor()

	# ===================================================================
	# Table 1: evaluation_scores
	# ===================================================================
	cursor.execute("""
	CREATE TABLE IF NOT EXISTS evaluation_scores (
	id INTEGER PRIMARY KEY AUTOINCREMENT,
	evaluation_result_id INTEGER NOT NULL,

	-- Multi-dimensional scores (0-10)
	correctness_score REAL NOT NULL,
	relevance_score REAL NOT NULL,
	completeness_score REAL NOT NULL,
	clarity_score REAL NOT NULL,
	conciseness_score REAL NOT NULL,
	overall_score REAL NOT NULL,

	-- Judge metadata
	confidence REAL NOT NULL,
	explanation TEXT NOT NULL,
	issues TEXT NOT NULL, -- JSON array of issue types

	-- Evaluation metadata
	evaluator_model TEXT NOT NULL,
	evaluation_cost_usd REAL NOT NULL,
	evaluation_time_ms REAL NOT NULL,
	timestamp TEXT NOT NULL,

	-- Foreign key to evaluation_results
	FOREIGN KEY (evaluation_result_id) REFERENCES evaluation_results(id)
	ON DELETE CASCADE
	)
	""")

	# Index for fast lookups by evaluation_result_id
	cursor.execute("""
	CREATE INDEX IF NOT EXISTS idx_scores_result_id
	ON evaluation_scores(evaluation_result_id)
	""")

	# Index for filtering by overall score
	cursor.execute("""
	CREATE INDEX IF NOT EXISTS idx_scores_overall
	ON evaluation_scores(overall_score)
	""")

	# ===================================================================
	# Table 2: error_analysis
	# ===================================================================
	cursor.execute("""
	CREATE TABLE IF NOT EXISTS error_analysis (
	id INTEGER PRIMARY KEY AUTOINCREMENT,
	evaluation_result_id INTEGER NOT NULL,

	-- Error classification
	error_type TEXT NOT NULL, -- 'retrieval_failure', 'generation_error', 'hallucination', etc.
	error_description TEXT NOT NULL,
	severity TEXT NOT NULL, -- 'low', 'medium', 'high', 'critical'

	-- Diagnostics
	suggested_fix TEXT,
	affected_component TEXT, -- 'retriever', 'generator', 'embedder', 'reranker'

	-- Metadata
	timestamp TEXT NOT NULL,

	-- Foreign key to evaluation_results
	FOREIGN KEY (evaluation_result_id) REFERENCES evaluation_results(id)
	ON DELETE CASCADE
	)
	""")

	# Index for error type analysis
	cursor.execute("""
	CREATE INDEX IF NOT EXISTS idx_error_type
	ON error_analysis(error_type)
	""")

	# Index for severity filtering
	cursor.execute("""
	CREATE INDEX IF NOT EXISTS idx_error_severity
	ON error_analysis(severity)
	""")

	self.conn.commit()
	print(f"✅ Phase 4A tables created in: {self.db_path}")

	def insert_evaluation_score(
	self,
	evaluation_result_id: int,
	correctness_score: float,
	relevance_score: float,
	completeness_score: float,
	clarity_score: float,
	conciseness_score: float,
	overall_score: float,
	confidence: float,
	explanation: str,
	issues: list,
	evaluator_model: str,
	evaluation_cost_usd: float,
	evaluation_time_ms: float
	) -> int:
	"""
	Insert quality scores from LLM judge

	Args:
	evaluation_result_id: FK to evaluation_results table
	correctness_score: 0-10
	relevance_score: 0-10
	completeness_score: 0-10
	clarity_score: 0-10
	conciseness_score: 0-10
	overall_score: 0-10 weighted average
	confidence: 0-1
	explanation: Judge's reasoning
	issues: List of issue types
	evaluator_model: Judge model name
	evaluation_cost_usd: Cost of evaluation
	evaluation_time_ms: Evaluation latency

	Returns:
	ID of inserted record
	"""
	cursor = self.conn.cursor()

	cursor.execute("""
	INSERT INTO evaluation_scores (
	evaluation_result_id,
	correctness_score, relevance_score, completeness_score,
	clarity_score, conciseness_score, overall_score,
	confidence, explanation, issues,
	evaluator_model, evaluation_cost_usd, evaluation_time_ms,
	timestamp
	) VALUES (?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?)
	""", (
	evaluation_result_id,
	correctness_score, relevance_score, completeness_score,
	clarity_score, conciseness_score, overall_score,
	confidence, explanation, json.dumps(issues),
	evaluator_model, evaluation_cost_usd, evaluation_time_ms,
	datetime.now().isoformat()
	))

	self.conn.commit()
	return cursor.lastrowid

	def insert_error_analysis(
	self,
	evaluation_result_id: int,
	error_type: str,
	error_description: str,
	severity: str = "medium",
	suggested_fix: Optional[str] = None,
	affected_component: Optional[str] = None
	) -> int:
	"""
	Insert error analysis record

	Args:
	evaluation_result_id: FK to evaluation_results table
	error_type: 'retrieval_failure', 'generation_error', 'hallucination', etc.
	error_description: Human-readable description
	severity: 'low', 'medium', 'high', 'critical'
	suggested_fix: Recommended solution
	affected_component: 'retriever', 'generator', 'embedder', 'reranker'

	Returns:
	ID of inserted record
	"""
	cursor = self.conn.cursor()

	cursor.execute("""
	INSERT INTO error_analysis (
	evaluation_result_id,
	error_type, error_description, severity,
	suggested_fix, affected_component,
	timestamp
	) VALUES (?, ?, ?, ?, ?, ?, ?)
	""", (
	evaluation_result_id,
	error_type, error_description, severity,
	suggested_fix, affected_component,
	datetime.now().isoformat()
	))

	self.conn.commit()
	return cursor.lastrowid

	def get_evaluation_with_scores(self, evaluation_result_id: int) -> Optional[dict]:
	"""
	Get evaluation result with quality scores

	Args:
	evaluation_result_id: ID from evaluation_results table

	Returns:
	Dict with evaluation data + scores, or None if not found
	"""
	cursor = self.conn.cursor()

	# Join evaluation_results with evaluation_scores
	cursor.execute("""
	SELECT
	er.*,
	es.correctness_score,
	es.relevance_score,
	es.completeness_score,
	es.clarity_score,
	es.conciseness_score,
	es.overall_score,
	es.confidence,
	es.explanation,
	es.issues,
	es.evaluator_model
	FROM evaluation_results er
	LEFT JOIN evaluation_scores es ON er.id = es.evaluation_result_id
	WHERE er.id = ?
	""", (evaluation_result_id,))

	row = cursor.fetchone()

	if row:
	return dict(row)
	return None

	def get_quality_summary_by_pipeline(self, run_id: str) -> list:
	"""
	Get quality score summary for each pipeline in a run

	Args:
	run_id: Evaluation run ID

	Returns:
	List of dicts with pipeline quality metrics
	"""
	cursor = self.conn.cursor()

	cursor.execute("""
	SELECT
	er.pipeline_name,
	COUNT(es.id) as evaluated_count,
	ROUND(AVG(es.correctness_score), 2) as avg_correctness,
	ROUND(AVG(es.relevance_score), 2) as avg_relevance,
	ROUND(AVG(es.completeness_score), 2) as avg_completeness,
	ROUND(AVG(es.clarity_score), 2) as avg_clarity,
	ROUND(AVG(es.conciseness_score), 2) as avg_conciseness,
	ROUND(AVG(es.overall_score), 2) as avg_overall,
	ROUND(AVG(es.confidence), 3) as avg_confidence,
	SUM(es.evaluation_cost_usd) as total_eval_cost
	FROM evaluation_results er
	INNER JOIN evaluation_scores es ON er.id = es.evaluation_result_id
	WHERE er.run_id = ?
	GROUP BY er.pipeline_name
	ORDER BY avg_overall DESC
	""", (run_id,))

	return [dict(row) for row in cursor.fetchall()]

	def get_error_summary(self, run_id: Optional[str] = None) -> list:
	"""
	Get error analysis summary

	Args:
	run_id: Optional run ID filter

	Returns:
	List of error type counts and severity distribution
	"""
	cursor = self.conn.cursor()

	if run_id:
	cursor.execute("""
	SELECT
	ea.error_type,
	ea.severity,
	COUNT(*) as count,
	GROUP_CONCAT(DISTINCT ea.affected_component) as components
	FROM error_analysis ea
	INNER JOIN evaluation_results er ON ea.evaluation_result_id = er.id
	WHERE er.run_id = ?
	GROUP BY ea.error_type, ea.severity
	ORDER BY count DESC
	""", (run_id,))
	else:
	cursor.execute("""
	SELECT
	error_type,
	severity,
	COUNT(*) as count,
	GROUP_CONCAT(DISTINCT affected_component) as components
	FROM error_analysis
	GROUP BY error_type, severity
	ORDER BY count DESC
	""")

	return [dict(row) for row in cursor.fetchall()]

	def close(self):
	"""Close database connection"""
	if self.conn:
	self.conn.close()


	# ============================================================================
	# MIGRATION SCRIPT - Run this to update existing database
	# ============================================================================

	def migrate_database(db_path: str = "data/evaluation_results.db"):
	"""
	Migrate existing Phase 3 database to Phase 4A schema

	Args:
	db_path: Path to evaluation_results.db
	"""
	print("🔄 Migrating database to Phase 4A schema...")
	print("=" * 80)

	db = EvaluationDatabase(db_path)

	# Create new tables
	db.create_phase4_tables()

	# Check existing data
	cursor = db.conn.cursor()
	cursor.execute("SELECT COUNT(*) FROM evaluation_results")
	result_count = cursor.fetchone()[0]

	cursor.execute("""
	SELECT COUNT(*) FROM sqlite_master
	WHERE type='table' AND name='evaluation_scores'
	""")
	scores_table_exists = cursor.fetchone()[0] > 0

	print(f"\n📊 Database Status:")
	print(f" - Evaluation results: {result_count} records")
	print(f" - Quality scores table: {'✅ Created' if scores_table_exists else '❌ Missing'}")

	db.close()

	print("\n" + "=" * 80)
	print("✅ Migration complete!")
	print("\n🚀 Next: Run scripts/evaluate_with_judge.py to populate scores")


	if __name__ == "__main__":
	# Run migration
	migrate_database()