Spaces:

Israelbliz
/

Recommendation-Agent

Running

App Files Files Community

Recommendation-Agent / scripts /run_eval.py

Israelbliz

Upload scripts

a971a56 verified 3 days ago

raw

history blame contribute delete

31.7 kB

	"""Full evaluation harness — measures everything the rubric measures.

	Runs Task A and Task B (warm, cold-start, cross-domain) across N users,
	computes all automated metrics (RMSE, ROUGE-L, BERTScore, Hit Rate, NDCG)
	plus LLM-as-judge proxies for the human-eval dimensions (behavioral
	fidelity, contextual relevance, bridge quality), and prints a structured
	report.

	This is the baseline. Run it before any experimental change to lock the
	current numbers; re-run after to see what moved.

	Usage:
	# Default — 30/30/10/15 users
	python -m scripts.run_eval

	# Quick smoke test — 5/5/3/5 users (~3 min)
	python -m scripts.run_eval --smoke

	# Custom sample sizes
	python -m scripts.run_eval --n-task-a 50 --n-warm 50 --n-cold 20 --n-cross 25

	# Skip BERTScore (slow first-time, downloads ~400MB)
	python -m scripts.run_eval --no-bertscore

	# Skip LLM-judge calls (faster, automated metrics only)
	python -m scripts.run_eval --no-judges

	# Save the report to a file (markdown)
	python -m scripts.run_eval --out reports/baseline_stage2b.md
	"""
	from __future__ import annotations

	import argparse
	import json
	import logging
	import time
	from dataclasses import dataclass, field
	from datetime import datetime
	from pathlib import Path
	from typing import Optional

	import pandas as pd

	from core.config import settings
	from core.llm import LLMClient
	from core.nigerian import naija_persona_examples
	from core.persona import PersonaEngine, UserPersona
	from eval.metrics import (
	rmse, mae, rouge_l, bertscore_f1,
	ndcg_at_k, hit_rate_at_k, mean_skipping_nan,
	)
	from eval.judges import (
	judge_behavioral_fidelity, judge_contextual_relevance,
	judge_bridge_quality, title_quality_rate, domain_coverage,
	)
	from task_a_user_modeling.agent import ImpersonationAgent, ItemInput
	from task_b_recommender.agent import RecommendationAgent

	logging.basicConfig(level=logging.INFO, format="%(asctime)s [%(levelname)s] %(message)s")
	log = logging.getLogger(__name__)


	# ──────────────────────────────────────────────────────────────────────────────
	# Result containers
	# ──────────────────────────────────────────────────────────────────────────────

	@dataclass
	class TaskAResult:
	n_users: int = 0
	rmse: float = float("nan")
	mae: float = float("nan")
	rouge_l: float = float("nan")
	bertscore_f1: float = float("nan")
	behavioral_fidelity: float = float("nan")
	n_failed: int = 0
	raw: list[dict] = field(default_factory=list)


	@dataclass
	class TaskBModeResult:
	mode: str = ""
	n_users: int = 0
	hit_rate_at_10: float = float("nan")
	ndcg_at_10: float = float("nan")
	title_quality: float = float("nan")
	domain_coverage_avg: float = float("nan")
	contextual_relevance: float = float("nan")
	bridge_quality: float = float("nan") # cross-domain only
	n_failed: int = 0
	raw: list[dict] = field(default_factory=list)


	@dataclass
	class FullEvalReport:
	provider: str = ""
	started_at: str = ""
	completed_at: str = ""
	elapsed_seconds: float = 0.0
	task_a: TaskAResult = field(default_factory=TaskAResult)
	task_b_warm: TaskBModeResult = field(default_factory=TaskBModeResult)
	task_b_cold_start: TaskBModeResult = field(default_factory=TaskBModeResult)
	task_b_cross_domain: TaskBModeResult = field(default_factory=TaskBModeResult)


	# ──────────────────────────────────────────────────────────────────────────────
	# User sampling
	# ──────────────────────────────────────────────────────────────────────────────

	def _load_reviews() -> pd.DataFrame:
	path = settings.processed_dir / "reviews.parquet"
	if not path.exists():
	raise SystemExit(f"Reviews file not found at {path}. Run prepare_data.py first.")
	df = pd.read_parquet(path)
	log.info(f"Loaded {len(df):,} reviews")
	return df


	def _sample_users_with_test_reviews(reviews: pd.DataFrame, n: int,
	require_min_train: int = 3,
	require_min_domains: int = 1,
	seed: int = 42) -> list[str]:
	"""Sample N users who have both train history and test items.

	Constraints applied per user:
	- At least `require_min_train` training reviews (enough for a persona)
	- At least `require_min_domains` distinct domains in training
	- At least 1 held-out test item
	"""
	train = reviews[reviews["split"] == "train"]
	test = reviews[reviews["split"] == "test"]
	users_with_test = set(test["user_id"].unique())

	counts = (train.groupby("user_id")
	.agg(n_train=("rating", "size"),
	n_domains=("domain", "nunique"))
	.reset_index())
	eligible = counts[
	(counts["user_id"].isin(users_with_test))
	& (counts["n_train"] >= require_min_train)
	& (counts["n_domains"] >= require_min_domains)
	]
	if len(eligible) == 0:
	raise SystemExit("No eligible users found.")
	if len(eligible) < n:
	log.warning(f"Only {len(eligible)} eligible users (requested {n}); using all")
	n = len(eligible)
	sample = eligible.sample(n=n, random_state=seed)
	return sample["user_id"].tolist()


	def _sample_cross_domain_users(reviews: pd.DataFrame, n: int, seed: int = 43) -> list[str]:
	"""Sample N users with single-domain training history (cross-domain test targets).

	For cross-domain mode we want users whose training history is in 1 domain so
	we can recommend in the OTHER domains and measure if anything they engaged
	with in those other domains shows up.
	"""
	train = reviews[reviews["split"] == "train"]
	test = reviews[reviews["split"] == "test"]
	users_with_test = set(test["user_id"].unique())

	counts = (train.groupby("user_id")
	.agg(n_train=("rating", "size"),
	n_domains=("domain", "nunique"))
	.reset_index())
	# users with single-domain training, at least 3 train reviews, with test items
	eligible = counts[
	(counts["user_id"].isin(users_with_test))
	& (counts["n_train"] >= 3)
	& (counts["n_domains"] == 1)
	]
	if len(eligible) == 0:
	raise SystemExit("No eligible cross-domain users found.")
	if len(eligible) < n:
	log.warning(f"Only {len(eligible)} cross-domain users (requested {n})")
	n = len(eligible)
	return eligible.sample(n=n, random_state=seed)["user_id"].tolist()


	# ──────────────────────────────────────────────────────────────────────────────
	# Task A evaluation
	# ──────────────────────────────────────────────────────────────────────────────

	def run_task_a(reviews: pd.DataFrame, n_users: int, *,
	with_bertscore: bool, with_judges: bool,
	persona_engine: PersonaEngine, agent: ImpersonationAgent,
	judge_llm: LLMClient) -> TaskAResult:
	log.info(f"════ Task A evaluation: {n_users} users ════")
	user_ids = _sample_users_with_test_reviews(reviews, n_users)
	train = reviews[reviews["split"] == "train"]
	test = reviews[reviews["split"] == "test"]

	result = TaskAResult(n_users=0)
	predicted_ratings, actual_ratings = [], []
	predicted_reviews, actual_reviews = [], []
	fidelity_scores = []

	for i, user_id in enumerate(user_ids, 1):
	log.info(f" [{i}/{len(user_ids)}] Task A user={user_id[:12]}...")
	try:
	persona = persona_engine.from_dataframe(user_id, train)
	persona = persona_engine.enrich(persona)
	except Exception as e:
	log.warning(f" Persona build failed: {e}; skipping user")
	result.n_failed += 1
	continue

	user_test = test[test["user_id"] == user_id]
	if user_test.empty:
	result.n_failed += 1
	continue
	# Pick the first test review as the target
	target_row = user_test.iloc[0]
	target_item_id = target_row["parent_asin"]
	target_title = target_row["title"] if "title" in target_row else "(unknown)"
	target_domain = target_row["domain"]
	actual_rating = float(target_row["rating"])
	actual_review = str(target_row["text"])

	# Try to look up real item metadata (description) for the agent
	items_path = settings.processed_dir / "items.parquet"
	item_description = ""
	item_categories = ""
	if items_path.exists():
	items_df = pd.read_parquet(items_path)
	match = items_df[items_df["parent_asin"] == target_item_id]
	if not match.empty:
	row = match.iloc[0]
	target_title = str(row.get("title") or target_title)
	item_description = str(row.get("description") or "")
	item_categories = str(row.get("categories") or "")

	item_input = ItemInput(
	parent_asin=target_item_id,
	title=target_title,
	description=item_description,
	categories=item_categories,
	domain=target_domain,
	)

	try:
	output = agent.run(persona, item=item_input)
	pred_rating = float(output.rating)
	pred_review = str(output.review)
	except Exception as e:
	log.warning(f" Generation failed: {e}; skipping user")
	result.n_failed += 1
	continue

	# Auto metrics
	predicted_ratings.append(pred_rating)
	actual_ratings.append(actual_rating)
	predicted_reviews.append(pred_review)
	actual_reviews.append(actual_review)

	# LLM-judge
	fidelity = None
	if with_judges:
	try:
	score = judge_behavioral_fidelity(
	judge_llm, persona.to_prompt_block(),
	target_title, target_domain,
	pred_rating, pred_review,
	actual_rating, actual_review,
	)
	fidelity_scores.append(score.score)
	fidelity = score.score
	except Exception as e:
	log.warning(f" Judge failed: {e}")

	result.raw.append({
	"user_id": user_id,
	"item_id": target_item_id,
	"domain": target_domain,
	"actual_rating": actual_rating,
	"predicted_rating": pred_rating,
	"rouge_l": rouge_l(pred_review, actual_review),
	"fidelity": fidelity,
	})
	result.n_users += 1

	# Aggregate
	if predicted_ratings:
	result.rmse = rmse(predicted_ratings, actual_ratings)
	result.mae = mae(predicted_ratings, actual_ratings)
	result.rouge_l = float(
	sum(rouge_l(c, r) for c, r in zip(predicted_reviews, actual_reviews))
	/ len(predicted_reviews)
	)

	if with_bertscore and predicted_reviews:
	log.info(" Computing BERTScore (may download model on first use)...")
	try:
	result.bertscore_f1 = bertscore_f1(predicted_reviews, actual_reviews)
	except Exception as e:
	log.warning(f" BERTScore failed: {e}")

	if fidelity_scores:
	result.behavioral_fidelity = float(sum(fidelity_scores) / len(fidelity_scores))

	return result


	# ──────────────────────────────────────────────────────────────────────────────
	# Task B evaluation
	# ──────────────────────────────────────────────────────────────────────────────

	def run_task_b_warm(reviews: pd.DataFrame, n_users: int, *,
	with_judges: bool, persona_engine: PersonaEngine,
	agent: RecommendationAgent, judge_llm: LLMClient) -> TaskBModeResult:
	log.info(f"════ Task B warm evaluation: {n_users} users ════")
	user_ids = _sample_users_with_test_reviews(reviews, n_users, require_min_domains=1)
	train = reviews[reviews["split"] == "train"]
	test = reviews[reviews["split"] == "test"]

	result = TaskBModeResult(mode="warm", n_users=0)
	hit_rates, ndcgs, title_qualities = [], [], []
	coverages, relevance_scores = [], []

	for i, user_id in enumerate(user_ids, 1):
	log.info(f" [{i}/{len(user_ids)}] Task B warm user={user_id[:12]}...")
	try:
	persona = persona_engine.from_dataframe(user_id, train)
	persona = persona_engine.enrich(persona)
	recs = agent.run(persona, k=10, cross_domain=False)
	except Exception as e:
	log.warning(f" Failed: {e}")
	result.n_failed += 1
	continue
	if not recs:
	result.n_failed += 1
	continue

	recs_dicts = [r.as_dict() for r in recs]
	user_test = test[test["user_id"] == user_id]
	gt_ids = list(user_test["parent_asin"].unique())
	pred_ids = [r.item_id for r in recs]

	hr = hit_rate_at_k(pred_ids, gt_ids, k=10)
	nd = ndcg_at_k(pred_ids, gt_ids, k=10)
	tq = title_quality_rate(recs_dicts)
	# Domain coverage: did we span the user's known domains?
	known_domains = list(persona.domains) if persona.domains else []
	dc = domain_coverage(recs_dicts, known_domains) if known_domains else 0.0
	normalized_dc = dc / max(1, len(known_domains))

	hit_rates.append(hr)
	ndcgs.append(nd)
	title_qualities.append(tq)
	coverages.append(normalized_dc)

	relevance = None
	if with_judges:
	try:
	score = judge_contextual_relevance(
	judge_llm, persona.to_prompt_block(), recs_dicts, mode="warm",
	)
	relevance_scores.append(score.score)
	relevance = score.score
	except Exception as e:
	log.warning(f" Judge failed: {e}")

	result.raw.append({
	"user_id": user_id,
	"hit_rate": hr,
	"ndcg": nd,
	"title_quality": tq,
	"domain_coverage": normalized_dc,
	"relevance": relevance,
	})
	result.n_users += 1

	if hit_rates:
	result.hit_rate_at_10 = float(sum(hit_rates) / len(hit_rates))
	result.ndcg_at_10 = float(sum(ndcgs) / len(ndcgs))
	result.title_quality = float(sum(title_qualities) / len(title_qualities))
	result.domain_coverage_avg = float(sum(coverages) / len(coverages))
	if relevance_scores:
	result.contextual_relevance = float(sum(relevance_scores) / len(relevance_scores))

	return result


	def run_task_b_cold_start(n_personas: int, *,
	with_judges: bool, agent: RecommendationAgent,
	judge_llm: LLMClient) -> TaskBModeResult:
	"""Cold-start eval uses synthetic Naija personas (no history).

	No held-out test items exist for synthetic personas, so we can't compute
	Hit Rate or NDCG — only title quality, domain coverage, and contextual
	relevance (LLM-judge).
	"""
	log.info(f"════ Task B cold-start evaluation: {n_personas} personas ════")
	naija = naija_persona_examples()
	# Cycle through naija personas if n_personas > len
	personas_to_test = (naija * ((n_personas // len(naija)) + 1))[:n_personas]

	result = TaskBModeResult(mode="cold_start", n_users=0)
	title_qualities, coverages, relevance_scores = [], [], []

	for i, demo in enumerate(personas_to_test, 1):
	log.info(f" [{i}/{len(personas_to_test)}] Cold-start persona={demo['name']}")
	persona = UserPersona(
	user_id=f"cold_start_{i}",
	n_reviews=0, avg_rating=4.0, std_rating=0.5,
	avg_review_length=80.0, std_review_length=20.0,
	verified_rate=1.0, domains=["Books"], n_domains=1,
	rating_distribution={4: 0.6, 5: 0.3, 3: 0.1},
	top_terms=[],
	tone="", preferred_themes=demo["stated_preferences"],
	common_complaints=demo["deal_breakers"],
	voice_one_liner=demo["description"],
	history_samples=[],
	)
	try:
	recs = agent.run(persona, k=10, cross_domain=False)
	except Exception as e:
	log.warning(f" Generation failed: {e}")
	result.n_failed += 1
	continue
	if not recs:
	result.n_failed += 1
	continue

	recs_dicts = [r.as_dict() for r in recs]
	tq = title_quality_rate(recs_dicts)
	# Expect coverage across the 3 domains since cold-start often spans interests
	all_domains = ["Books", "Kindle_Store", "Movies_and_TV"]
	dc = domain_coverage(recs_dicts, all_domains)

	title_qualities.append(tq)
	coverages.append(dc)

	relevance = None
	if with_judges:
	try:
	score = judge_contextual_relevance(
	judge_llm, persona.to_prompt_block(), recs_dicts, mode="cold_start",
	)
	relevance_scores.append(score.score)
	relevance = score.score
	except Exception as e:
	log.warning(f" Judge failed: {e}")

	result.raw.append({
	"persona_name": demo["name"],
	"title_quality": tq,
	"domain_coverage": dc,
	"relevance": relevance,
	})
	result.n_users += 1

	if title_qualities:
	result.title_quality = float(sum(title_qualities) / len(title_qualities))
	result.domain_coverage_avg = float(sum(coverages) / len(coverages))
	if relevance_scores:
	result.contextual_relevance = float(sum(relevance_scores) / len(relevance_scores))

	return result


	def run_task_b_cross_domain(reviews: pd.DataFrame, n_users: int, *,
	with_judges: bool, persona_engine: PersonaEngine,
	agent: RecommendationAgent,
	judge_llm: LLMClient) -> TaskBModeResult:
	log.info(f"════ Task B cross-domain evaluation: {n_users} users ════")
	user_ids = _sample_cross_domain_users(reviews, n_users)
	train = reviews[reviews["split"] == "train"]
	test = reviews[reviews["split"] == "test"]

	result = TaskBModeResult(mode="cross_domain", n_users=0)
	cross_hit_rates, title_qualities, coverages = [], [], []
	relevance_scores, bridge_scores = [], []

	for i, user_id in enumerate(user_ids, 1):
	log.info(f" [{i}/{len(user_ids)}] Task B cross-domain user={user_id[:12]}...")
	try:
	persona = persona_engine.from_dataframe(user_id, train)
	persona = persona_engine.enrich(persona)
	recs = agent.run(persona, k=10, cross_domain=True)
	except Exception as e:
	log.warning(f" Failed: {e}")
	result.n_failed += 1
	continue
	if not recs:
	result.n_failed += 1
	continue

	recs_dicts = [r.as_dict() for r in recs]
	# Cross-domain hit rate: test items in NEW domains (not in user's training)
	user_test = test[test["user_id"] == user_id]
	known = set(persona.domains)
	cross_gt = user_test[~user_test["domain"].isin(known)]
	if cross_gt.empty:
	# User has no test items in unknown domains; can't measure HR
	hr = float("nan")
	else:
	gt_ids = list(cross_gt["parent_asin"].unique())
	pred_ids = [r.item_id for r in recs]
	hr = hit_rate_at_k(pred_ids, gt_ids, k=10)

	tq = title_quality_rate(recs_dicts)
	all_domains = {"Books", "Kindle_Store", "Movies_and_TV"}
	expected_unknown = list(all_domains - known)
	dc = domain_coverage(recs_dicts, expected_unknown)
	normalized_dc = dc / max(1, len(expected_unknown))

	cross_hit_rates.append(hr)
	title_qualities.append(tq)
	coverages.append(normalized_dc)

	relevance = None
	bridge = None
	if with_judges:
	try:
	rscore = judge_contextual_relevance(
	judge_llm, persona.to_prompt_block(), recs_dicts,
	mode="cross_domain",
	)
	relevance_scores.append(rscore.score)
	relevance = rscore.score
	except Exception as e:
	log.warning(f" Relevance judge failed: {e}")
	try:
	bscore = judge_bridge_quality(
	judge_llm, persona.to_prompt_block(),
	list(persona.domains), recs_dicts,
	)
	bridge_scores.append(bscore.score)
	bridge = bscore.score
	except Exception as e:
	log.warning(f" Bridge judge failed: {e}")

	result.raw.append({
	"user_id": user_id,
	"known_domains": list(known),
	"cross_hit_rate": hr,
	"title_quality": tq,
	"domain_coverage": normalized_dc,
	"relevance": relevance,
	"bridge_quality": bridge,
	})
	result.n_users += 1

	if cross_hit_rates:
	result.hit_rate_at_10 = mean_skipping_nan(cross_hit_rates)
	if title_qualities:
	result.title_quality = float(sum(title_qualities) / len(title_qualities))
	result.domain_coverage_avg = float(sum(coverages) / len(coverages))
	if relevance_scores:
	result.contextual_relevance = float(sum(relevance_scores) / len(relevance_scores))
	if bridge_scores:
	result.bridge_quality = float(sum(bridge_scores) / len(bridge_scores))

	return result


	# ──────────────────────────────────────────────────────────────────────────────
	# Report formatting
	# ──────────────────────────────────────────────────────────────────────────────

	def _f(v: float, fmt: str = ".3f") -> str:
	"""Format a metric — return 'n/a' for NaN."""
	import math
	if v is None or (isinstance(v, float) and math.isnan(v)):
	return " n/a"
	return f"{v:{fmt}}"


	def format_report(report: FullEvalReport) -> str:
	lines = [
	"═" * 65,
	"NaijaTaste AI — Full Evaluation Report",
	f"Provider: {report.provider}",
	f"Started: {report.started_at}",
	f"Completed: {report.completed_at}",
	f"Elapsed: {report.elapsed_seconds:.1f}s ({report.elapsed_seconds/60:.1f} min)",
	"═" * 65,
	"",
	f"TASK A — User Modeling (N={report.task_a.n_users}, failed={report.task_a.n_failed})",
	f" Rating accuracy (RMSE): {_f(report.task_a.rmse)}",
	f" Rating accuracy (MAE): {_f(report.task_a.mae)}",
	f" Review text (ROUGE-L F1): {_f(report.task_a.rouge_l)}",
	f" Review text (BERTScore F1): {_f(report.task_a.bertscore_f1)}",
	f" Behavioral fidelity (judge 1-5): {_f(report.task_a.behavioral_fidelity, '.2f')}",
	"",
	"TASK B — Recommendation",
	"",
	f" Warm mode (N={report.task_b_warm.n_users}, failed={report.task_b_warm.n_failed})",
	f" Hit Rate@10: {_f(report.task_b_warm.hit_rate_at_10)}",
	f" NDCG@10: {_f(report.task_b_warm.ndcg_at_10)}",
	f" Title quality (real titles %): {_f(report.task_b_warm.title_quality)}",
	f" Domain coverage (known): {_f(report.task_b_warm.domain_coverage_avg)}",
	f" Contextual relevance (judge): {_f(report.task_b_warm.contextual_relevance, '.2f')}",
	"",
	f" Cold-start (N={report.task_b_cold_start.n_users}, failed={report.task_b_cold_start.n_failed})",
	f" Title quality (real titles %): {_f(report.task_b_cold_start.title_quality)}",
	f" Domain coverage (of 3): {_f(report.task_b_cold_start.domain_coverage_avg, '.1f')}",
	f" Contextual relevance (judge): {_f(report.task_b_cold_start.contextual_relevance, '.2f')}",
	"",
	f" Cross-domain (N={report.task_b_cross_domain.n_users}, failed={report.task_b_cross_domain.n_failed})",
	f" Cross-domain Hit Rate@10: {_f(report.task_b_cross_domain.hit_rate_at_10)}",
	f" Title quality (real titles %): {_f(report.task_b_cross_domain.title_quality)}",
	f" Domain coverage (unknown): {_f(report.task_b_cross_domain.domain_coverage_avg)}",
	f" Contextual relevance (judge): {_f(report.task_b_cross_domain.contextual_relevance, '.2f')}",
	f" Bridge quality (judge): {_f(report.task_b_cross_domain.bridge_quality, '.2f')}",
	"",
	"═" * 65,
	"Higher is better for: ROUGE-L, BERTScore, Hit Rate, NDCG,",
	" Title quality, Domain coverage, all judge scores.",
	"Lower is better for: RMSE, MAE.",
	"═" * 65,
	]
	return "\n".join(lines)


	# ──────────────────────────────────────────────────────────────────────────────
	# Main
	# ──────────────────────────────────────────────────────────────────────────────

	def main():
	ap = argparse.ArgumentParser()
	ap.add_argument("--smoke", action="store_true",
	help="Quick smoke test: 5/5/3/5 users (~3 min)")
	ap.add_argument("--n-task-a", type=int, default=30)
	ap.add_argument("--n-warm", type=int, default=30)
	ap.add_argument("--n-cold", type=int, default=10)
	ap.add_argument("--n-cross", type=int, default=15)
	ap.add_argument("--no-bertscore", action="store_true",
	help="Skip BERTScore (first run downloads ~400MB)")
	ap.add_argument("--no-judges", action="store_true",
	help="Skip LLM-judge calls (faster, automated metrics only)")
	ap.add_argument("--out", type=str, default=None,
	help="Save report markdown to this file path")
	ap.add_argument("--json-out", type=str, default=None,
	help="Save raw per-user results as JSON to this path")
	args = ap.parse_args()

	if args.smoke:
	args.n_task_a, args.n_warm, args.n_cold, args.n_cross = 5, 5, 3, 5

	started = time.time()
	started_dt = datetime.now()

	reviews = _load_reviews()
	log.info(f"Provider: {settings.llm_provider}")
	log.info(f"Sample sizes: Task A={args.n_task_a}, "
	f"Warm={args.n_warm}, Cold={args.n_cold}, Cross={args.n_cross}")
	log.info(f"BERTScore: {'OFF' if args.no_bertscore else 'ON'}, "
	f"Judges: {'OFF' if args.no_judges else 'ON'}")

	# Build shared resources (load once, reuse across tasks)
	persona_engine = PersonaEngine()
	task_a_agent = ImpersonationAgent()
	task_b_agent = RecommendationAgent()
	judge_llm = LLMClient()

	report = FullEvalReport(
	provider=settings.llm_provider,
	started_at=started_dt.strftime("%Y-%m-%d %H:%M:%S"),
	)

	# ── Task A ───────────────────────────────────────────────────────────
	if args.n_task_a > 0:
	report.task_a = run_task_a(
	reviews, args.n_task_a,
	with_bertscore=not args.no_bertscore,
	with_judges=not args.no_judges,
	persona_engine=persona_engine,
	agent=task_a_agent,
	judge_llm=judge_llm,
	)

	# ── Task B warm ──────────────────────────────────────────────────────
	if args.n_warm > 0:
	report.task_b_warm = run_task_b_warm(
	reviews, args.n_warm,
	with_judges=not args.no_judges,
	persona_engine=persona_engine,
	agent=task_b_agent,
	judge_llm=judge_llm,
	)

	# ── Task B cold-start ────────────────────────────────────────────────
	if args.n_cold > 0:
	report.task_b_cold_start = run_task_b_cold_start(
	args.n_cold,
	with_judges=not args.no_judges,
	agent=task_b_agent,
	judge_llm=judge_llm,
	)

	# ── Task B cross-domain ──────────────────────────────────────────────
	if args.n_cross > 0:
	report.task_b_cross_domain = run_task_b_cross_domain(
	reviews, args.n_cross,
	with_judges=not args.no_judges,
	persona_engine=persona_engine,
	agent=task_b_agent,
	judge_llm=judge_llm,
	)

	completed = time.time()
	report.completed_at = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
	report.elapsed_seconds = completed - started

	# ── Print + save ─────────────────────────────────────────────────────
	text = format_report(report)
	print("\n" + text + "\n")

	if args.out:
	out_path = Path(args.out)
	out_path.parent.mkdir(parents=True, exist_ok=True)
	out_path.write_text(text)
	log.info(f"Report saved to {out_path}")

	if args.json_out:
	json_path = Path(args.json_out)
	json_path.parent.mkdir(parents=True, exist_ok=True)
	json_blob = {
	"provider": report.provider,
	"started_at": report.started_at,
	"completed_at": report.completed_at,
	"elapsed_seconds": report.elapsed_seconds,
	"task_a": {**report.task_a.__dict__},
	"task_b_warm": {**report.task_b_warm.__dict__},
	"task_b_cold_start": {**report.task_b_cold_start.__dict__},
	"task_b_cross_domain": {**report.task_b_cross_domain.__dict__},
	}
	json_path.write_text(json.dumps(json_blob, indent=2, default=str))
	log.info(f"Raw results saved to {json_path}")


	if __name__ == "__main__":
	main()