Spaces:

theodabos
/

varientlens

Sleeping

Codex Claude Opus 4.7 commited on 18 days ago

Commit

175e882

1 Parent(s): 226dec6

Add per-gene / per-variant-type validation breakdown script

scripts/per_gene_breakdown.py slices any validation report (P/VUS/B
adjacent-tier) by gene, variant type (missense/splice/indel/synonymous
inferred from HGVS), and review status. This is the stratification
analysis a lab director / reviewer demands after seeing a headline
concordance number.

Output for the deterministic 87.4% run, saved to
docs/per_gene_breakdown_1000.json:

Per-variant-type — missense is the weakest at 83.1% (658 variants),
everything else is 92-97%. The missense gap accounts for almost the
entire overall headline drop; it's also where literature criteria
(PS3, PP1, PM3) matter most.

Worst-performing genes (n ≥ 3): ZBTB20 0%, COL1A1 0%, GRIN2B 0%, MYH7
33%. Inspection reveals the common pattern: PM2_supporting + PP5_strong
totals +5 Bayesian points, just below the LP threshold of +6. This is a
systematic miscalibration of PM2 strength — Richards 2015 specified
MODERATE; the codebase has the constant set to moderate but hardcodes
"supporting" in the score_population path. Fix pending after the RAG
validation completes (avoiding invalidating the in-progress run).

Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>

Files changed (2) hide show

docs/per_gene_breakdown_1000.json +1137 -0
scripts/per_gene_breakdown.py +186 -0

docs/per_gene_breakdown_1000.json ADDED Viewed

	@@ -0,0 +1,1137 @@

+{
+  "source_report": "docs/clinical_validation_results_1000.json",
+  "headline_concordance": 0.8741188318227593,
+  "total_scored": 993,
+  "per_gene": [
+    {
+      "key": "ATP6V1B1",
+      "n": 4,
+      "correct": 4,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Likely Pathogenic": 3,
+        "Pathogenic": 1
+      }
+    },
+    {
+      "key": "ABCC6",
+      "n": 3,
+      "correct": 2,
+      "concordance": 0.6666666666666666,
+      "tier_distribution": {
+        "Likely Benign": 1,
+        "Pathogenic": 1,
+        "Likely Pathogenic": 1
+      }
+    },
+    {
+      "key": "TCF12",
+      "n": 3,
+      "correct": 2,
+      "concordance": 0.6666666666666666,
+      "tier_distribution": {
+        "Pathogenic": 2,
+        "Uncertain Significance": 1
+      }
+    },
+    {
+      "key": "MYH7",
+      "n": 3,
+      "correct": 1,
+      "concordance": 0.3333333333333333,
+      "tier_distribution": {
+        "Pathogenic": 2,
+        "Likely Pathogenic": 1
+      }
+    },
+    {
+      "key": "ZBTB20",
+      "n": 3,
+      "correct": 0,
+      "concordance": 0.0,
+      "tier_distribution": {
+        "Likely Pathogenic": 2,
+        "Pathogenic": 1
+      }
+    },
+    {
+      "key": "BCKDHB",
+      "n": 3,
+      "correct": 3,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Likely Benign": 1,
+        "Likely Pathogenic": 1,
+        "Pathogenic": 1
+      }
+    },
+    {
+      "key": "COL1A1",
+      "n": 3,
+      "correct": 0,
+      "concordance": 0.0,
+      "tier_distribution": {
+        "Pathogenic": 1,
+        "Likely Pathogenic": 2
+      }
+    },
+    {
+      "key": "PHF6",
+      "n": 3,
+      "correct": 3,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Pathogenic": 2,
+        "Uncertain Significance": 1
+      }
+    },
+    {
+      "key": "PALB2",
+      "n": 3,
+      "correct": 2,
+      "concordance": 0.6666666666666666,
+      "tier_distribution": {
+        "Likely Benign": 1,
+        "Pathogenic": 1,
+        "Likely Pathogenic": 1
+      }
+    },
+    {
+      "key": "AMN",
+      "n": 3,
+      "correct": 3,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Likely Pathogenic": 1,
+        "Benign": 1,
+        "Pathogenic": 1
+      }
+    },
+    {
+      "key": "HOGA1",
+      "n": 3,
+      "correct": 2,
+      "concordance": 0.6666666666666666,
+      "tier_distribution": {
+        "Likely Pathogenic": 1,
+        "Pathogenic": 1,
+        "Uncertain Significance": 1
+      }
+    },
+    {
+      "key": "LAMP2",
+      "n": 3,
+      "correct": 3,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Benign": 1,
+        "Pathogenic": 2
+      }
+    },
+    {
+      "key": "HNF1A",
+      "n": 3,
+      "correct": 3,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Likely Pathogenic": 2,
+        "Pathogenic": 1
+      }
+    },
+    {
+      "key": "ERCC4",
+      "n": 3,
+      "correct": 3,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Benign": 1,
+        "Pathogenic": 1,
+        "Likely Pathogenic": 1
+      }
+    },
+    {
+      "key": "SCN5A",
+      "n": 3,
+      "correct": 2,
+      "concordance": 0.6666666666666666,
+      "tier_distribution": {
+        "Likely Pathogenic": 1,
+        "Pathogenic": 1,
+        "Likely Benign": 1
+      }
+    },
+    {
+      "key": "FANCA",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Likely Pathogenic": 1,
+        "Pathogenic": 1
+      }
+    },
+    {
+      "key": "CDKN1B",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Likely Benign": 1,
+        "Uncertain Significance": 1
+      }
+    },
+    {
+      "key": "PKP2",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Likely Pathogenic": 2
+      }
+    },
+    {
+      "key": "GATA5",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Uncertain Significance": 2
+      }
+    },
+    {
+      "key": "CDKN1C",
+      "n": 2,
+      "correct": 1,
+      "concordance": 0.5,
+      "tier_distribution": {
+        "Benign": 1,
+        "Likely Pathogenic": 1
+      }
+    },
+    {
+      "key": "RNF14",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Benign": 1,
+        "Uncertain Significance": 1
+      }
+    },
+    {
+      "key": "AMT",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Likely Pathogenic": 1,
+        "Pathogenic": 1
+      }
+    },
+    {
+      "key": "HMGCL",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Likely Pathogenic": 2
+      }
+    },
+    {
+      "key": "GAMT",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Pathogenic": 2
+      }
+    },
+    {
+      "key": "GRIN2B",
+      "n": 2,
+      "correct": 0,
+      "concordance": 0.0,
+      "tier_distribution": {
+        "Likely Pathogenic": 1,
+        "Pathogenic": 1
+      }
+    },
+    {
+      "key": "ABCA4",
+      "n": 2,
+      "correct": 1,
+      "concordance": 0.5,
+      "tier_distribution": {
+        "Benign": 1,
+        "Likely Pathogenic": 1
+      }
+    },
+    {
+      "key": "SKIC3",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Uncertain Significance": 1,
+        "Pathogenic": 1
+      }
+    },
+    {
+      "key": "CLCN1",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Likely Pathogenic": 2
+      }
+    },
+    {
+      "key": "CREBBP",
+      "n": 2,
+      "correct": 1,
+      "concordance": 0.5,
+      "tier_distribution": {
+        "Likely Pathogenic": 1,
+        "Uncertain Significance": 1
+      }
+    },
+    {
+      "key": "MKS1",
+      "n": 2,
+      "correct": 1,
+      "concordance": 0.5,
+      "tier_distribution": {
+        "Pathogenic": 2
+      }
+    },
+    {
+      "key": "ACADM",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Pathogenic": 1,
+        "Uncertain Significance": 1
+      }
+    },
+    {
+      "key": "SUCLA2",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Uncertain Significance": 1,
+        "Likely Pathogenic": 1
+      }
+    },
+    {
+      "key": "APC",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Likely Pathogenic": 1,
+        "Benign": 1
+      }
+    },
+    {
+      "key": "SYDE2",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Uncertain Significance": 1,
+        "Benign": 1
+      }
+    },
+    {
+      "key": "KCNJ1",
+      "n": 2,
+      "correct": 1,
+      "concordance": 0.5,
+      "tier_distribution": {
+        "Uncertain Significance": 1,
+        "Likely Pathogenic": 1
+      }
+    },
+    {
+      "key": "PRKCSH",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Likely Pathogenic": 1,
+        "Uncertain Significance": 1
+      }
+    },
+    {
+      "key": "MTRR",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Uncertain Significance": 2
+      }
+    },
+    {
+      "key": "KDM6A",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Pathogenic": 2
+      }
+    },
+    {
+      "key": "RBCK1",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Benign": 1,
+        "Likely Benign": 1
+      }
+    },
+    {
+      "key": "MYH11",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Likely Benign": 1,
+        "Likely Pathogenic": 1
+      }
+    },
+    {
+      "key": "NLRC4",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Uncertain Significance": 1,
+        "Benign": 1
+      }
+    },
+    {
+      "key": "MACF1",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Likely Benign": 2
+      }
+    },
+    {
+      "key": "APP",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Uncertain Significance": 2
+      }
+    },
+    {
+      "key": "COL4A1",
+      "n": 2,
+      "correct": 1,
+      "concordance": 0.5,
+      "tier_distribution": {
+        "Likely Pathogenic": 1,
+        "Uncertain Significance": 1
+      }
+    },
+    {
+      "key": "NECTIN4",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Uncertain Significance": 2
+      }
+    },
+    {
+      "key": "CPAP",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Uncertain Significance": 1,
+        "Pathogenic": 1
+      }
+    },
+    {
+      "key": "EOGT",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Benign": 2
+      }
+    },
+    {
+      "key": "FANCG",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Likely Pathogenic": 2
+      }
+    },
+    {
+      "key": "HSD3B7",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Benign": 1,
+        "Pathogenic": 1
+      }
+    },
+    {
+      "key": "ANO5",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Likely Pathogenic": 1,
+        "Pathogenic": 1
+      }
+    },
+    {
+      "key": "SLC37A4",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Pathogenic": 2
+      }
+    },
+    {
+      "key": "STAT1",
+      "n": 2,
+      "correct": 1,
+      "concordance": 0.5,
+      "tier_distribution": {
+        "Likely Pathogenic": 1,
+        "Benign": 1
+      }
+    },
+    {
+      "key": "NHS",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Benign": 1,
+        "Likely Benign": 1
+      }
+    },
+    {
+      "key": "STAT3",
+      "n": 2,
+      "correct": 1,
+      "concordance": 0.5,
+      "tier_distribution": {
+        "Pathogenic": 1,
+        "Likely Benign": 1
+      }
+    },
+    {
+      "key": "GPR143",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Pathogenic": 1,
+        "Benign": 1
+      }
+    },
+    {
+      "key": "BSCL2",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Benign": 1,
+        "Likely Benign": 1
+      }
+    },
+    {
+      "key": "NPHS2",
+      "n": 2,
+      "correct": 1,
+      "concordance": 0.5,
+      "tier_distribution": {
+        "Likely Pathogenic": 2
+      }
+    },
+    {
+      "key": "SGCE",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Pathogenic": 1,
+        "Likely Benign": 1
+      }
+    },
+    {
+      "key": "ATM",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Pathogenic": 1,
+        "Likely Benign": 1
+      }
+    },
+    {
+      "key": "COCH",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Likely Benign": 1,
+        "Likely Pathogenic": 1
+      }
+    },
+    {
+      "key": "GLI3",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Pathogenic": 1,
+        "Benign": 1
+      }
+    },
+    {
+      "key": "MYO1E",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Likely Benign": 1,
+        "Pathogenic": 1
+      }
+    },
+    {
+      "key": "CAMK2B",
+      "n": 2,
+      "correct": 1,
+      "concordance": 0.5,
+      "tier_distribution": {
+        "Likely Benign": 1,
+        "Pathogenic": 1
+      }
+    },
+    {
+      "key": "DOLK",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Likely Benign": 2
+      }
+    },
+    {
+      "key": "ATIC",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Likely Benign": 2
+      }
+    },
+    {
+      "key": "PHYH",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Likely Pathogenic": 1,
+        "Benign": 1
+      }
+    },
+    {
+      "key": "AQP2",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Pathogenic": 1,
+        "Likely Pathogenic": 1
+      }
+    },
+    {
+      "key": "SPTB",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Pathogenic": 1,
+        "Likely Pathogenic": 1
+      }
+    },
+    {
+      "key": "MAGI2",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Likely Benign": 2
+      }
+    },
+    {
+      "key": "TBC1D24",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Pathogenic": 1,
+        "Likely Benign": 1
+      }
+    },
+    {
+      "key": "LAMA1",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Pathogenic": 1,
+        "Likely Benign": 1
+      }
+    },
+    {
+      "key": "SOS1",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Likely Pathogenic": 2
+      }
+    },
+    {
+      "key": "EVC",
+      "n": 2,
+      "correct": 0,
+      "concordance": 0.0,
+      "tier_distribution": {
+        "Likely Pathogenic": 2
+      }
+    },
+    {
+      "key": "PHEX",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Likely Benign": 2
+      }
+    },
+    {
+      "key": "GAN",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Likely Benign": 2
+      }
+    },
+    {
+      "key": "ARSB",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Pathogenic": 1,
+        "Likely Pathogenic": 1
+      }
+    },
+    {
+      "key": "AGXT",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Likely Pathogenic": 1,
+        "Uncertain Significance": 1
+      }
+    },
+    {
+      "key": "DNAJC13",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Uncertain Significance": 1,
+        "Benign": 1
+      }
+    },
+    {
+      "key": "ABCC8",
+      "n": 2,
+      "correct": 1,
+      "concordance": 0.5,
+      "tier_distribution": {
+        "Likely Pathogenic": 1,
+        "Likely Benign": 1
+      }
+    },
+    {
+      "key": "EDA",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Likely Pathogenic": 2
+      }
+    },
+    {
+      "key": "ABCC9",
+      "n": 2,
+      "correct": 1,
+      "concordance": 0.5,
+      "tier_distribution": {
+        "Likely Benign": 1,
+        "Pathogenic": 1
+      }
+    },
+    {
+      "key": "ATP7A",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Benign": 2
+      }
+    },
+    {
+      "key": "P2RY12",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Benign": 1,
+        "Likely Benign": 1
+      }
+    },
+    {
+      "key": "CHD2",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Pathogenic": 2
+      }
+    },
+    {
+      "key": "AKAP9",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Likely Benign": 2
+      }
+    },
+    {
+      "key": "B9D1",
+      "n": 2,
+      "correct": 1,
+      "concordance": 0.5,
+      "tier_distribution": {
+        "Uncertain Significance": 1,
+        "Benign": 1
+      }
+    },
+    {
+      "key": "PSAP",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Likely Pathogenic": 1,
+        "Pathogenic": 1
+      }
+    },
+    {
+      "key": "BBS2",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Pathogenic": 1,
+        "Likely Pathogenic": 1
+      }
+    },
+    {
+      "key": "NPHS1",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Benign": 1,
+        "Pathogenic": 1
+      }
+    },
+    {
+      "key": "ECHS1",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Uncertain Significance": 1,
+        "Benign": 1
+      }
+    },
+    {
+      "key": "MRE11",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Likely Pathogenic": 1,
+        "Uncertain Significance": 1
+      }
+    },
+    {
+      "key": "SMARCC2",
+      "n": 2,
+      "correct": 1,
+      "concordance": 0.5,
+      "tier_distribution": {
+        "Uncertain Significance": 1,
+        "Pathogenic": 1
+      }
+    },
+    {
+      "key": "PARN",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Likely Pathogenic": 1,
+        "Benign": 1
+      }
+    },
+    {
+      "key": "SMAD2",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Likely Benign": 1,
+        "Benign": 1
+      }
+    },
+    {
+      "key": "VPS4A",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Likely Pathogenic": 1,
+        "Benign": 1
+      }
+    },
+    {
+      "key": "AEBP1",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Likely Pathogenic": 1,
+        "Benign": 1
+      }
+    },
+    {
+      "key": "SLC25A13",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Likely Pathogenic": 1,
+        "Pathogenic": 1
+      }
+    },
+    {
+      "key": "ROBO1",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Likely Pathogenic": 1,
+        "Likely Benign": 1
+      }
+    },
+    {
+      "key": "TRIOBP",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Pathogenic": 2
+      }
+    },
+    {
+      "key": "FANCF",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Benign": 1,
+        "Pathogenic": 1
+      }
+    },
+    {
+      "key": "MAG",
+      "n": 2,
+      "correct": 1,
+      "concordance": 0.5,
+      "tier_distribution": {
+        "Benign": 1,
+        "Uncertain Significance": 1
+      }
+    },
+    {
+      "key": "MAX",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Likely Benign": 1,
+        "Pathogenic": 1
+      }
+    },
+    {
+      "key": "MED25",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Uncertain Significance": 1,
+        "Benign": 1
+      }
+    },
+    {
+      "key": "ETFDH",
+      "n": 2,
+      "correct": 1,
+      "concordance": 0.5,
+      "tier_distribution": {
+        "Likely Pathogenic": 1,
+        "Uncertain Significance": 1
+      }
+    },
+    {
+      "key": "BMPR2",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Pathogenic": 2
+      }
+    },
+    {
+      "key": "MPDZ",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Uncertain Significance": 1,
+        "Pathogenic": 1
+      }
+    }
+  ],
+  "per_variant_type": [
+    {
+      "key": "missense_or_silent",
+      "n": 658,
+      "correct": 547,
+      "concordance": 0.831306990881459,
+      "tier_distribution": {
+        "Likely Benign": 151,
+        "Uncertain Significance": 185,
+        "Benign": 105,
+        "Likely Pathogenic": 101,
+        "Pathogenic": 116
+      }
+    },
+    {
+      "key": "splice_region",
+      "n": 182,
+      "correct": 177,
+      "concordance": 0.9725274725274725,
+      "tier_distribution": {
+        "Likely Pathogenic": 69,
+        "Likely Benign": 38,
+        "Benign": 60,
+        "Pathogenic": 13,
+        "Uncertain Significance": 2
+      }
+    },
+    {
+      "key": "inframe_del",
+      "n": 69,
+      "correct": 64,
+      "concordance": 0.927536231884058,
+      "tier_distribution": {
+        "Pathogenic": 46,
+        "Likely Pathogenic": 20,
+        "Likely Benign": 1,
+        "Uncertain Significance": 1,
+        "Benign": 1
+      }
+    },
+    {
+      "key": "other",
+      "n": 51,
+      "correct": 48,
+      "concordance": 0.9411764705882353,
+      "tier_distribution": {
+        "Benign": 26,
+        "Likely Pathogenic": 4,
+        "Likely Benign": 8,
+        "Uncertain Significance": 11,
+        "Pathogenic": 2
+      }
+    },
+    {
+      "key": "inframe_ins",
+      "n": 31,
+      "correct": 30,
+      "concordance": 0.967741935483871,
+      "tier_distribution": {
+        "Pathogenic": 22,
+        "Likely Pathogenic": 6,
+        "Benign": 2,
+        "Likely Benign": 1
+      }
+    },
+    {
+      "key": "synonymous",
+      "n": 2,
+      "correct": 2,
+      "concordance": 1.0,
+      "tier_distribution": {
+        "Benign": 2
+      }
+    }
+  ],
+  "per_review_status": [
+    {
+      "key": "?",
+      "n": 993,
+      "correct": 868,
+      "concordance": 0.8741188318227593,
+      "tier_distribution": {
+        "Likely Benign": 199,
+        "Uncertain Significance": 199,
+        "Pathogenic": 199,
+        "Benign": 196,
+        "Likely Pathogenic": 200
+      }
+    }
+  ],
+  "per_gene_per_tier": []
+}

scripts/per_gene_breakdown.py ADDED Viewed

	@@ -0,0 +1,186 @@

+"""Slice a validation report by gene and other axes for stratified analysis.
+Reads docs/clinical_validation_results_1000.json (or any structurally-
+identical report) and emits per-gene, per-variant-type, and per-tier
+breakdowns. This is what a reviewer / lab director will ask for after
+seeing the headline number — "great, but how does it do on BRCA1?"
+Usage
+-----
+    python -m scripts.per_gene_breakdown \\
+        --in docs/clinical_validation_results_1000.json \\
+        --out docs/per_gene_breakdown_1000.json \\
+        --top 25
+Outputs both:
+- A JSON file with the full per-gene/per-type/per-tier slice
+- A human-readable table on stdout for quick inspection
+"""
+from __future__ import annotations
+import argparse
+import json
+import re
+import sys
+from collections import Counter, defaultdict
+from pathlib import Path
+from typing import Any
+def _class(label: str) -> str:
+    """Collapse 5-tier to P/VUS/B class for adjacent-tier metric."""
+    if label in ("Pathogenic", "Likely Pathogenic"):
+        return "P"
+    if label in ("Benign", "Likely Benign"):
+        return "B"
+    return "VUS"
+def _variant_type(hgvs: str) -> str:
+    """Heuristic categorization from the HGVS string."""
+    h = hgvs.lower()
+    if "del" in h and "_" in h:
+        return "inframe_del"
+    if "dup" in h or ("ins" in h and "_" in h):
+        return "inframe_ins"
+    if h.endswith("=") or "p.=" in h:
+        return "synonymous"
+    if re.search(r"c\.\d+[+-]\d+", h):
+        return "splice_region"
+    if re.search(r"c\.\d+[acgt]>[acgt]", h):
+        return "missense_or_silent"
+    return "other"
+def per_axis_table(
+    results: list[dict[str, Any]],
+    key_fn,
+    min_n: int = 2,
+) -> list[dict[str, Any]]:
+    """Group results by key_fn(row), compute class-level concordance per group."""
+    groups: dict[str, list[dict[str, Any]]] = defaultdict(list)
+    for r in results:
+        if r.get("got") == "ERROR":
+            continue
+        groups[key_fn(r)].append(r)
+    rows: list[dict[str, Any]] = []
+    for key, items in groups.items():
+        if len(items) < min_n:
+            continue
+        correct = sum(1 for r in items if _class(r["expected"]) == _class(r["got"]))
+        # Per-class breakdown within the group
+        per_tier = Counter(r["expected"] for r in items)
+        rows.append({
+            "key": key,
+            "n": len(items),
+            "correct": correct,
+            "concordance": correct / len(items) if items else 0.0,
+            "tier_distribution": dict(per_tier),
+        })
+    return sorted(rows, key=lambda r: -r["n"])
+def per_gene_per_tier_table(results: list[dict[str, Any]], min_n: int = 5) -> list[dict[str, Any]]:
+    """For each (gene, expected_tier) combo, report concordance. Lets the
+    operator see *"how does BRCA1 do on its pathogenic variants specifically?"*"""
+    groups: dict[tuple[str, str], list[dict[str, Any]]] = defaultdict(list)
+    for r in results:
+        if r.get("got") == "ERROR":
+            continue
+        groups[(r.get("gene") or "?", r["expected"])].append(r)
+    rows = []
+    for (gene, tier), items in groups.items():
+        if len(items) < min_n:
+            continue
+        correct = sum(1 for r in items if _class(r["expected"]) == _class(r["got"]))
+        rows.append({
+            "gene": gene,
+            "tier": tier,
+            "n": len(items),
+            "correct": correct,
+            "concordance": correct / len(items),
+        })
+    return sorted(rows, key=lambda r: (r["gene"], r["tier"]))
+def main() -> int:
+    parser = argparse.ArgumentParser()
+    parser.add_argument(
+        "--in",
+        dest="in_path",
+        type=Path,
+        default=Path("docs/clinical_validation_results_1000.json"),
+    )
+    parser.add_argument(
+        "--out",
+        type=Path,
+        default=Path("docs/per_gene_breakdown_1000.json"),
+    )
+    parser.add_argument(
+        "--top", type=int, default=25,
+        help="How many top-N rows to print per table (full output goes to JSON).",
+    )
+    parser.add_argument(
+        "--min-n", type=int, default=2,
+        help="Minimum variants per group to include (avoids noise from 1-variant groups).",
+    )
+    args = parser.parse_args()
+    data = json.loads(args.in_path.read_text())
+    results = data.get("results", [])
+    print(f"Loaded {len(results)} results from {args.in_path}")
+    print(f"Headline concordance: {data.get('concordance', 0):.1%}")
+    print()
+    by_gene = per_axis_table(results, lambda r: r.get("gene") or "?", min_n=args.min_n)
+    by_type = per_axis_table(results, lambda r: _variant_type(r.get("hgvs") or ""))
+    by_review = per_axis_table(
+        results, lambda r: r.get("review_status") or "?",
+    )
+    # --- print top genes ---
+    print(f"Per-gene concordance (top {args.top} by variant count):")
+    print(f"  {'gene':12s} {'n':>4s} {'correct':>8s} {'concordance':>13s}")
+    for row in by_gene[: args.top]:
+        marker = "!" if row["concordance"] < 0.80 else " "
+        print(f"{marker} {row['key']:12s} {row['n']:4d} {row['correct']:8d} "
+              f"{row['concordance']:13.1%}")
+    weak = [r for r in by_gene if r["concordance"] < 0.80 and r["n"] >= 5]
+    if weak:
+        print(f"\nGenes with concordance < 80% (n ≥ 5) — investigate first:")
+        for row in weak:
+            print(f"  {row['key']:12s} {row['n']:4d} variants  {row['concordance']:6.1%}")
+    print()
+    print("Per-variant-type concordance:")
+    print(f"  {'type':22s} {'n':>4s} {'correct':>8s} {'concordance':>13s}")
+    for row in by_type:
+        print(f"  {row['key']:22s} {row['n']:4d} {row['correct']:8d} "
+              f"{row['concordance']:13.1%}")
+    print()
+    print("Per-review-status concordance:")
+    print(f"  {'review':55s} {'n':>4s} {'concordance':>13s}")
+    for row in by_review:
+        print(f"  {row['key']:55s} {row['n']:4d} {row['concordance']:13.1%}")
+    # --- write full JSON ---
+    out_payload = {
+        "source_report": str(args.in_path),
+        "headline_concordance": data.get("concordance"),
+        "total_scored": data.get("total_scored"),
+        "per_gene": by_gene,
+        "per_variant_type": by_type,
+        "per_review_status": by_review,
+        "per_gene_per_tier": per_gene_per_tier_table(results, min_n=5),
+    }
+    args.out.parent.mkdir(parents=True, exist_ok=True)
+    args.out.write_text(json.dumps(out_payload, indent=2) + "\n")
+    print(f"\nFull breakdown written to {args.out}")
+    return 0
+if __name__ == "__main__":
+    sys.exit(main())