Spaces:

Pushkya
/

Financial_bot

Running

App Files Files Community

Financial_bot / src /evaluator.py

Pushkya

Upload 30 files

8299003 verified 1 day ago

Raw

History Blame Contribute Delete

33.9 kB

	"""
	evaluator.py
	============
	Phase 8 – RAG Pipeline Evaluation

	Measures pipeline quality with four RAGAS-inspired metrics, all computed
	locally without any external API or LLM judge.

	Metrics
	-------
	Faithfulness Are answer sentences entailed by the retrieved context?
	(NLI via AnswerVerifier — reuses Phase 7)

	Answer Relevancy Is the answer on-topic for the question?
	(cosine sim between question embedding and answer embedding)

	Context Precision What fraction of retrieved chunks are actually useful?
	(NLI: does the chunk entail any reference-answer sentence?)

	Context Recall What fraction of reference-answer claims are covered by
	the retrieved context?
	(NLI: is each reference sentence supported by any chunk?)

	Reference-based metrics (require ground-truth answers):
	Answer F1 Token-overlap F1 between generated and reference answer
	(SQuAD-style, normalised)
	Exact Match 1 if normalised strings match, else 0
	Retrieval Hit Rate Fraction of known-relevant chunk IDs actually retrieved

	Grade thresholds
	----------------
	PASS : metric ≥ upper threshold
	REVIEW : metric ≥ lower threshold
	FAIL : metric < lower threshold

	Usage
	-----
	from src.evaluator import RAGEvaluator, AppleFinanceTestSet
	from src.retriever import FinancialRetriever
	from src.rag_chain import build_rag_chain, get_llm

	retriever = FinancialRetriever(vectorstore_dir=..., rerank=True)
	chain = build_rag_chain(llm=get_llm(), rerank=True)

	evaluator = RAGEvaluator(retriever=retriever, chain=chain)

	samples = AppleFinanceTestSet.get_samples()
	results = evaluator.evaluate_dataset(samples)
	print(evaluator.report(results))
	"""

	import re
	import time
	import logging
	from dataclasses import dataclass, field
	from typing import Optional

	from src.retriever import _table_to_labelled_text

	log = logging.getLogger(__name__)

	# ── Grade thresholds (upper=PASS, lower=REVIEW, below=FAIL) ────────────────
	GRADE_THRESHOLDS: dict[str, tuple[float, float]] = {
	"faithfulness" : (0.80, 0.60),
	"answer_relevancy" : (0.75, 0.50),
	"context_precision" : (0.70, 0.50),
	"context_recall" : (0.70, 0.50),
	"answer_f1" : (0.50, 0.30),
	"retrieval_hit_rate": (0.80, 0.50),
	}

	# NLI threshold for deciding a chunk/sentence is "supported"
	_PRECISION_RECALL_ENTAIL_THRESHOLD = 0.40 # slightly lower than runtime gate


	def _chunk_text_for_nli(chunk: dict) -> str:
	"""
	Prepare a chunk's text for NLI premise/recall scoring.

	Two transformations are applied:
	1. Table markdown → labelled text (e.g. "Total net sales: 2024=$391,035")
	so the cross-encoder can match numbers without being confused by pipe
	characters (same logic used in retriever.build_context).

	2. Company name prefix for table chunks (e.g. "Apple Inc. — ")
	SEC HTML tables have no company name in their cell text; the NLI model
	requires "Apple" in the premise to entail hypotheses about "Apple's net
	sales". Without this prefix, entailment scores are ~0 even when the table
	contains the exact figure.
	"""
	meta = chunk.get("metadata", {})
	chunk_type = meta.get("chunk_type", "text")

	if chunk_type != "table":
	return chunk["text"]

	company = meta.get("company", "")
	labelled = _table_to_labelled_text(chunk["text"])
	return f"{company} — {labelled}" if company else labelled


	# ══════════════════════════════════════════════════════════════════════════════
	# DATA CLASSES
	# ══════════════════════════════════════════════════════════════════════════════

	@dataclass
	class EvalSample:
	"""One evaluation example with question, reference answer, and optional metadata."""
	question : str
	reference_answer : str
	filters : dict = field(default_factory=dict)
	relevant_chunk_ids : list[str] = field(default_factory=list)
	category : str = "general" # e.g. revenue, risk, segment


	@dataclass
	class EvalMetrics:
	"""All evaluation metrics for a single sample."""
	faithfulness : float = 0.0 # NLI grounding: generated vs context
	answer_relevancy : float = 0.0 # cosine sim: question ↔ answer
	context_precision : float = 0.0 # fraction of chunks useful for answering
	context_recall : float = 0.0 # fraction of reference claims in context
	answer_f1 : float = 0.0 # token F1 vs reference answer
	exact_match : float = 0.0 # 1.0 if normalised strings match
	retrieval_hit_rate : float = 0.0 # fraction of relevant IDs retrieved

	def aggregate_score(self) -> float:
	"""
	Weighted average of core metrics.
	Weights: faithfulness 30 %, answer_relevancy 25 %,
	context_precision 20 %, context_recall 15 %, answer_f1 10 %.
	"""
	return (
	0.30 * self.faithfulness +
	0.25 * self.answer_relevancy +
	0.20 * self.context_precision +
	0.15 * self.context_recall +
	0.10 * self.answer_f1
	)


	@dataclass
	class EvalResult:
	"""Evaluation outcome for one sample."""
	sample : EvalSample
	generated_answer : str
	retrieved_chunks : list[dict]
	metrics : EvalMetrics
	latency_ms : float = 0.0
	error : str = ""


	# ══════════════════════════════════════════════════════════════════════════════
	# EVALUATOR
	# ══════════════════════════════════════════════════════════════════════════════

	class RAGEvaluator:
	"""
	Evaluates the full RAG pipeline with RAGAS-inspired metrics, all local.

	Parameters
	----------
	retriever : FinancialRetriever instance
	chain : LangChain LCEL chain built by build_rag_chain()
	nli_model : NLI CrossEncoder model name
	embed_model : HuggingFaceEmbeddings instance (for answer relevancy)
	Pass None to skip answer-relevancy computation.
	entail_threshold : Threshold for faithfulness (SUPPORTED verdict)
	"""

	def __init__(
	self,
	retriever,
	chain,
	nli_model : str = "cross-encoder/nli-deberta-v3-small",
	embed_model = None,
	entail_threshold : float = 0.50,
	):
	from sentence_transformers import CrossEncoder
	from src.verifier import AnswerVerifier

	self.retriever = retriever
	self.chain = chain
	self._embed = embed_model

	log.info(f"Loading NLI model: {nli_model}")
	self._nli = CrossEncoder(nli_model, max_length=512)
	self._verifier = AnswerVerifier(
	nli_model = nli_model,
	entail_threshold = entail_threshold,
	)

	# Confirm label indices from model config
	id2label = self._nli.model.config.id2label
	self._entail_idx = [k for k, v in id2label.items() if "entail" in v.lower()][0]
	self._contra_idx = [k for k, v in id2label.items() if "contra" in v.lower()][0]

	log.info("RAGEvaluator ready.")

	# ── Faithfulness ─────────────────────────────────────────────────────────

	def compute_faithfulness(self, answer: str, chunks: list[dict]) -> float:
	"""
	Fraction of answer sentences entailed by the retrieved context.
	Delegates to AnswerVerifier (Phase 7 reuse).
	Returns 0.0 if answer or chunks are empty.
	"""
	if not answer.strip() or not chunks:
	return 0.0
	result = self._verifier.verify(answer, chunks)
	return result["grounding_score"]

	# ── Answer Relevancy ─────────────────────────────────────────────────────

	def compute_answer_relevancy(self, question: str, answer: str) -> float:
	"""
	Cosine similarity between question and answer embeddings.
	Proxy for 'does the answer actually address the question?'
	Returns 0.0 if embed_model not provided or answer is empty.
	"""
	if not self._embed or not answer.strip():
	return 0.0
	import numpy as np

	q_vec = np.array(self._embed.embed_query(question))
	a_vec = np.array(self._embed.embed_query(answer))
	denom = np.linalg.norm(q_vec) * np.linalg.norm(a_vec)
	if denom == 0:
	return 0.0
	return float(np.clip(np.dot(q_vec, a_vec) / denom, 0.0, 1.0))

	# ── Context Precision ────────────────────────────────────────────────────

	def compute_context_precision(
	self,
	chunks : list[dict],
	reference_answer : str,
	) -> float:
	"""
	Fraction of retrieved chunks that are useful for answering the question.

	A chunk is 'useful' if it entails at least one sentence from the
	reference answer (NLI entailment ≥ threshold).
	"""
	if not chunks or not reference_answer.strip():
	return 0.0
	ref_sentences = self._verifier.split_sentences(reference_answer)
	if not ref_sentences:
	return 0.0

	useful = 0
	for chunk in chunks:
	text = _chunk_text_for_nli(chunk)
	pairs = [(text, s) for s in ref_sentences]
	scores = self._nli.predict(pairs, apply_softmax=True)
	best_e = max(float(s[self._entail_idx]) for s in scores)
	if best_e >= _PRECISION_RECALL_ENTAIL_THRESHOLD:
	useful += 1

	return useful / len(chunks)

	# ── Context Recall ───────────────────────────────────────────────────────

	def compute_context_recall(
	self,
	chunks : list[dict],
	reference_answer : str,
	) -> float:
	"""
	Fraction of reference-answer claims covered by the retrieved context.

	A claim is 'covered' if at least one retrieved chunk entails it
	(NLI entailment ≥ threshold).
	"""
	if not chunks or not reference_answer.strip():
	return 0.0
	ref_sentences = self._verifier.split_sentences(reference_answer)
	if not ref_sentences:
	return 0.0

	context_texts = [_chunk_text_for_nli(c) for c in chunks]
	covered = 0
	for sent in ref_sentences:
	pairs = [(ctx, sent) for ctx in context_texts]
	scores = self._nli.predict(pairs, apply_softmax=True)
	best_e = max(float(s[self._entail_idx]) for s in scores)
	if best_e >= _PRECISION_RECALL_ENTAIL_THRESHOLD:
	covered += 1

	return covered / len(ref_sentences)

	# ── Answer F1 ────────────────────────────────────────────────────────────

	@staticmethod
	def _normalise(text: str) -> str:
	"""Lowercase, strip punctuation, collapse whitespace."""
	text = text.lower()
	text = re.sub(r"[^a-z0-9\s]", " ", text)
	return " ".join(text.split())

	def compute_answer_f1(self, generated: str, reference: str) -> float:
	"""
	Token-level F1 between generated and reference answer (SQuAD-style).
	F1 = 2 * precision * recall / (precision + recall)
	where precision = \|common\| / \|generated tokens\|
	recall = \|common\| / \|reference tokens\|
	"""
	gen_tokens = set(self._normalise(generated).split())
	ref_tokens = set(self._normalise(reference).split())
	if not gen_tokens or not ref_tokens:
	return 0.0
	common = gen_tokens & ref_tokens
	if not common:
	return 0.0
	precision = len(common) / len(gen_tokens)
	recall = len(common) / len(ref_tokens)
	return 2 * precision * recall / (precision + recall)

	def compute_exact_match(self, generated: str, reference: str) -> float:
	"""1.0 if normalised strings are identical, else 0.0."""
	return float(self._normalise(generated) == self._normalise(reference))

	# ── Retrieval Hit Rate ───────────────────────────────────────────────────

	def compute_retrieval_hit_rate(
	self,
	retrieved_chunks : list[dict],
	relevant_chunk_ids : list[str],
	) -> float:
	"""
	Fraction of known-relevant chunk IDs that appear in retrieved chunks.
	Returns 1.0 if relevant_chunk_ids is empty (undefined → treat as pass).
	"""
	if not relevant_chunk_ids:
	return 1.0
	retrieved_ids = {c["id"] for c in retrieved_chunks}
	hits = sum(1 for rid in relevant_chunk_ids if rid in retrieved_ids)
	return hits / len(relevant_chunk_ids)

	# ── Single-sample evaluation ─────────────────────────────────────────────

	def evaluate_sample(
	self,
	sample : "EvalSample",
	n_results : int = 8,
	) -> "EvalResult":
	"""
	Run the full pipeline on one sample and compute all metrics.

	Steps:
	1. Retrieve chunks
	2. Generate answer via chain
	3. Compute all six metrics
	"""
	t0 = time.time()
	try:
	# 1. Retrieve
	chunks = self.retriever.retrieve(
	sample.question,
	n_results = n_results,
	filters = sample.filters or None,
	)

	# 2. Generate
	answer = self.chain.invoke({
	"query" : sample.question,
	"filters": sample.filters or None,
	})

	# 3. Metrics
	metrics = EvalMetrics(
	faithfulness = self.compute_faithfulness(answer, chunks),
	answer_relevancy = self.compute_answer_relevancy(
	sample.question, answer),
	context_precision = self.compute_context_precision(
	chunks, sample.reference_answer),
	context_recall = self.compute_context_recall(
	chunks, sample.reference_answer),
	answer_f1 = self.compute_answer_f1(
	answer, sample.reference_answer),
	exact_match = self.compute_exact_match(
	answer, sample.reference_answer),
	retrieval_hit_rate = self.compute_retrieval_hit_rate(
	chunks, sample.relevant_chunk_ids),
	)

	return EvalResult(
	sample = sample,
	generated_answer = answer,
	retrieved_chunks = chunks,
	metrics = metrics,
	latency_ms = (time.time() - t0) * 1000,
	)

	except Exception as exc:
	log.error(f"Error evaluating '{sample.question[:60]}': {exc}")
	return EvalResult(
	sample = sample,
	generated_answer = "",
	retrieved_chunks = [],
	metrics = EvalMetrics(),
	latency_ms = (time.time() - t0) * 1000,
	error = str(exc),
	)

	# ── Dataset evaluation ────────────────────────────────────────────────────

	def evaluate_dataset(
	self,
	samples : list["EvalSample"],
	n_results : int = 8,
	verbose : bool = True,
	) -> list["EvalResult"]:
	"""Evaluate all samples. Logs progress and returns list of EvalResult."""
	results = []
	for i, sample in enumerate(samples, 1):
	if verbose:
	log.info(f"[{i:>2}/{len(samples)}] {sample.question[:70]}")
	result = self.evaluate_sample(sample, n_results=n_results)
	results.append(result)
	if verbose and result.error:
	log.warning(f" → Error: {result.error}")
	return results

	# ── Aggregation ──────────────────────────────────────────────────────────

	def scorecard(self, results: list["EvalResult"]) -> dict:
	"""
	Compute mean scores across all valid samples.

	Returns a dict with metric averages, aggregate_score, avg_latency_ms,
	n_samples, and n_errors.
	"""
	if not results:
	return {}
	valid = [r for r in results if not r.error]
	if not valid:
	return {"error": "All samples failed", "n_errors": len(results)}

	def avg(metric: str) -> float:
	return sum(getattr(r.metrics, metric) for r in valid) / len(valid)

	metric_keys = [
	"faithfulness", "answer_relevancy", "context_precision",
	"context_recall", "answer_f1", "exact_match", "retrieval_hit_rate",
	]
	scores = {m: round(avg(m), 3) for m in metric_keys}
	scores["aggregate_score"] = round(
	sum(r.metrics.aggregate_score() for r in valid) / len(valid), 3
	)
	scores["avg_latency_ms"] = round(
	sum(r.latency_ms for r in valid) / len(valid), 1
	)
	scores["n_samples"] = len(valid)
	scores["n_errors"] = len(results) - len(valid)
	return scores

	# ── Category breakdown ────────────────────────────────────────────────────

	def category_breakdown(self, results: list["EvalResult"]) -> dict[str, dict]:
	"""
	Scorecard split by sample category (revenue, risk, segment, etc.).
	Returns {category: scorecard_dict}.
	"""
	from collections import defaultdict
	by_cat: dict[str, list["EvalResult"]] = defaultdict(list)
	for r in results:
	by_cat[r.sample.category].append(r)
	return {cat: self.scorecard(rs) for cat, rs in sorted(by_cat.items())}

	# ── Report ───────────────────────────────────────────────────────────────

	def report(self, results: list["EvalResult"]) -> str:
	"""Formatted evaluation report with per-metric grades and per-sample table."""
	scores = self.scorecard(results)
	lines = [
	"=" * 75,
	" RAG Pipeline Evaluation Report",
	"=" * 75,
	f" Samples : {scores.get('n_samples', 0)} "
	f"(errors: {scores.get('n_errors', 0)})",
	f" Avg latency : {scores.get('avg_latency_ms', 0):.0f} ms/query",
	"-" * 75,
	f" {'Metric':<28} {'Score':>7} Grade",
	"-" * 75,
	]

	metric_labels = {
	"faithfulness" : "Faithfulness (NLI)",
	"answer_relevancy" : "Answer Relevancy (cosine)",
	"context_precision" : "Context Precision",
	"context_recall" : "Context Recall",
	"answer_f1" : "Answer F1 (vs reference)",
	"retrieval_hit_rate": "Retrieval Hit Rate",
	}

	for key, label in metric_labels.items():
	score = scores.get(key, 0.0)
	hi, lo = GRADE_THRESHOLDS.get(key, (0.75, 0.50))
	if score >= hi:
	grade, icon = "PASS", "✓"
	elif score >= lo:
	grade, icon = "REVIEW", "⚠"
	else:
	grade, icon = "FAIL", "✗"
	lines.append(f" {icon} {label:<28} {score:>6.1%} {grade}")

	agg = scores.get("aggregate_score", 0.0)
	lines += [
	"-" * 75,
	f" {'Aggregate Score':<28} {agg:>6.1%}",
	"=" * 75,
	"",
	" Per-sample breakdown:",
	"-" * 75,
	f" {'#':>3} {'Faith':>5} {'Relev':>5} {'CPrec':>5} "
	f"{'CRec':>5} {'F1':>5} {'Agg':>5} Question",
	"-" * 75,
	]

	for i, r in enumerate(results, 1):
	m = r.metrics
	agg_s = m.aggregate_score()
	err = " [ERR]" if r.error else ""
	lines.append(
	f" {i:>3} {m.faithfulness:>5.2f} {m.answer_relevancy:>5.2f} "
	f"{m.context_precision:>5.2f} {m.context_recall:>5.2f} "
	f"{m.answer_f1:>5.2f} {agg_s:>5.2f} "
	f"{r.sample.question[:40]}{err}"
	)

	lines.append("=" * 75)
	return "\n".join(lines)

	# ── Configuration comparison ─────────────────────────────────────────────

	def compare_configs(
	self,
	configs : list[dict],
	samples : list["EvalSample"],
	n_results: int = 8,
	) -> str:
	"""
	Compare multiple pipeline configurations on the same test set.

	Each config dict must have:
	label : str — display name
	chain : LCEL chain — built by build_rag_chain()
	retriever : retriever — FinancialRetriever instance

	Returns a formatted comparison table.
	"""
	config_scores: dict[str, dict] = {}
	for cfg in configs:
	label = cfg["label"]
	self.chain = cfg["chain"]
	self.retriever = cfg["retriever"]
	log.info(f"Evaluating config: {label}")
	results = self.evaluate_dataset(samples, n_results=n_results, verbose=False)
	config_scores[label] = self.scorecard(results)

	metrics = [
	"faithfulness", "answer_relevancy", "context_precision",
	"context_recall", "answer_f1", "aggregate_score",
	]
	col_w = max(len(k) for k in config_scores) + 4
	width = 28 + col_w * len(config_scores)

	lines = [
	"=" * width,
	" Configuration Comparison",
	"=" * width,
	f" {'Metric':<26}" + "".join(f" {k:>{col_w-2}}" for k in config_scores),
	"-" * width,
	]
	for m in metrics:
	label = m.replace("_", " ").title()
	row = f" {label:<26}"
	for k in config_scores:
	v = config_scores[k].get(m, 0.0)
	row += f" {v:>{col_w-2}.3f}"
	lines.append(row)
	lines.append("=" * width)
	return "\n".join(lines)


	# ══════════════════════════════════════════════════════════════════════════════
	# BUILT-IN TEST SET — Apple Finance
	# ══════════════════════════════════════════════════════════════════════════════

	class AppleFinanceTestSet:
	"""
	15 evaluation questions covering Apple SEC filings (FY2024 10-K) and
	Morningstar research reports.

	Reference answers are based on published FY2024 10-K figures (fiscal year
	ending September 2024) and Apple's Q1 FY2025 10-Q.

	All dollar amounts are in millions unless otherwise noted.
	"""

	SAMPLES: list[EvalSample] = [

	# ── Revenue ──────────────────────────────────────────────────────────
	EvalSample(
	question="What were Apple's total net sales for fiscal year 2024?",
	reference_answer=(
	"Apple's total net sales for fiscal year 2024 were $391,035 million."
	),
	filters={"$and": [{"doc_type": "10-K"}, {"fiscal_year": "2024"}]},
	category="revenue",
	),

	# ── Profitability ─────────────────────────────────────────────────────
	EvalSample(
	question="What was Apple's total gross margin in fiscal year 2024?",
	reference_answer=(
	"Apple's total gross margin for fiscal year 2024 was $180,683 million, "
	"compared to $169,148 million in fiscal year 2023."
	),
	filters={"$and": [{"doc_type": "10-K"}, {"fiscal_year": "2024"}]},
	category="profitability",
	),

	EvalSample(
	question="What was Apple's net income for fiscal year 2024?",
	reference_answer=(
	"Apple's net income for fiscal year 2024 was $93,736 million."
	),
	filters={"$and": [{"doc_type": "10-K"}, {"fiscal_year": "2024"}]},
	category="profitability",
	),

	EvalSample(
	question="What was Apple's diluted earnings per share for FY2024?",
	reference_answer=(
	"Apple's diluted earnings per share for fiscal year 2024 was $6.11, "
	"compared to $6.13 in fiscal year 2023."
	),
	filters={"$and": [{"doc_type": "10-K"}, {"fiscal_year": "2024"}]},
	category="profitability",
	),

	EvalSample(
	question="What was Apple's operating income for fiscal year 2024?",
	reference_answer=(
	"Apple's operating income was $123,216 million for fiscal year 2024."
	),
	filters={"$and": [{"doc_type": "10-K"}, {"fiscal_year": "2024"}]},
	category="profitability",
	),

	# ── Product segments ──────────────────────────────────────────────────
	EvalSample(
	question="What was iPhone revenue for fiscal year 2024?",
	reference_answer=(
	"iPhone net sales were $201,183 million in fiscal year 2024, "
	"a slight increase from $200,583 million in fiscal year 2023."
	),
	filters={"$and": [{"doc_type": "10-K"}, {"fiscal_year": "2024"}]},
	category="segment",
	),

	EvalSample(
	question="How much did Apple's Services segment generate in FY2024?",
	reference_answer=(
	"Apple's Services segment generated net sales of $96,169 million "
	"in fiscal year 2024, compared to $85,200 million in fiscal year 2023."
	),
	filters={"$and": [{"doc_type": "10-K"}, {"fiscal_year": "2024"}]},
	category="segment",
	),

	EvalSample(
	question="What was Apple's Mac revenue for fiscal year 2024?",
	reference_answer=(
	"Mac net sales were $29,984 million in fiscal year 2024, "
	"up from $29,357 million in fiscal year 2023."
	),
	filters={"$and": [{"doc_type": "10-K"}, {"fiscal_year": "2024"}]},
	category="segment",
	),

	EvalSample(
	question="What were Apple's Wearables, Home and Accessories net sales in FY2024?",
	reference_answer=(
	"Wearables, Home and Accessories net sales were $37,005 million "
	"in fiscal year 2024, a decrease from $39,845 million in fiscal year 2023."
	),
	filters={"$and": [{"doc_type": "10-K"}, {"fiscal_year": "2024"}]},
	category="segment",
	),

	EvalSample(
	question="What was Apple's iPad revenue for fiscal year 2024?",
	reference_answer=(
	"iPad net sales were $26,694 million in fiscal year 2024, "
	"compared to $28,300 million in fiscal year 2023."
	),
	filters={"$and": [{"doc_type": "10-K"}, {"fiscal_year": "2024"}]},
	category="segment",
	),

	# ── Geographic ───────────────────────────────────────────────────────
	EvalSample(
	question="What was Apple's revenue in the Americas geographic segment in FY2024?",
	reference_answer=(
	"Apple's Americas net sales were $167,045 million in fiscal year 2024, "
	"up from $162,560 million in fiscal year 2023."
	),
	filters={"$and": [{"doc_type": "10-K"}, {"fiscal_year": "2024"}]},
	category="geographic",
	),

	EvalSample(
	question="What was Apple's Greater China revenue in FY2024?",
	reference_answer=(
	"Apple's Greater China net sales were $66,952 million in fiscal year 2024, "
	"compared to $72,559 million in fiscal year 2023."
	),
	filters={"$and": [{"doc_type": "10-K"}, {"fiscal_year": "2024"}]},
	category="geographic",
	),

	# ── Expenses ─────────────────────────────────────────────────────────
	EvalSample(
	question="What were Apple's research and development expenses in FY2024?",
	reference_answer=(
	"Apple's research and development expenses were $31,370 million "
	"in fiscal year 2024, up from $29,915 million in fiscal year 2023."
	),
	filters={"$and": [{"doc_type": "10-K"}, {"fiscal_year": "2024"}]},
	category="expense",
	),

	# ── Balance sheet ─────────────────────────────────────────────────────
	EvalSample(
	question="How much cash and marketable securities did Apple hold at the end of FY2024?",
	reference_answer=(
	"At the end of fiscal year 2024, Apple held $29,943 million in cash and "
	"cash equivalents."
	),
	filters={"$and": [{"doc_type": "10-K"}, {"fiscal_year": "2024"}]},
	category="balance_sheet",
	),

	# ── Risk ─────────────────────────────────────────────────────────────
	EvalSample(
	question="What supply chain risk factors does Apple cite in its 10-K?",
	reference_answer=(
	"Apple cites several supply chain risks in its 10-K: dependence on "
	"single-source or limited-source suppliers for certain components, "
	"concentration of manufacturing in Asia particularly China, exposure "
	"to geopolitical tensions and trade disputes, potential disruptions "
	"from natural disasters or public health events, and risks related "
	"to component shortages and price volatility."
	),
	filters={"doc_type": "10-K"},
	category="risk",
	),
	]

	@classmethod
	def get_samples(cls, category: str = None) -> list[EvalSample]:
	"""
	Return all samples, or filter by category.
	Categories: revenue, profitability, segment, geographic, expense,
	balance_sheet, risk.
	"""
	if category:
	return [s for s in cls.SAMPLES if s.category == category]
	return list(cls.SAMPLES)

	@classmethod
	def categories(cls) -> list[str]:
	"""List all available categories."""
	return sorted(set(s.category for s in cls.SAMPLES))

	@classmethod
	def summary(cls) -> str:
	"""Human-readable summary of the test set."""
	from collections import Counter
	counts = Counter(s.category for s in cls.SAMPLES)
	lines = [
	f"Apple Finance Test Set — {len(cls.SAMPLES)} samples",
	"-" * 40,
	]
	for cat, n in sorted(counts.items()):
	lines.append(f" {cat:<15} {n} sample{'s' if n > 1 else ''}")
	return "\n".join(lines)