evaluation · metrics

Live view of eval/run_eval.py output + current corpus state. All numbers are real — re-run the harness and refresh to see new values.

per-query metrics (latest run)

top-5 source mix per query

latency per query (retrieval vs generation)

corpus by source

top sections