Spaces:

Ma-Ri-Ba-Ku
/

Picarones

Sleeping

Claude commited on 25 days ago

Commit

71f166b

unverified ·

1 Parent(s): 5c1dfb1

feat(migration): Phase 0 du retrait legacy — foundation

Plan complet de retrait du legacy en 11 phases livré dans
docs/migration/legacy-retirement-plan.md. Phase 0 = poser les
garde-fous qui rendent les phases 1-11 vérifiables sans introduire
de régression invisible.

Livrables Phase 0
=================

P0.1 — Test architectural anti-imports legacy.
tests/architecture/test_no_legacy_imports_in_rewrite.py scanne
via AST tous les fichiers des paquets rewrite (domain, formats,
evaluation, pipeline, adapters, app, reports_v2, interfaces) et
rejette tout import depuis un paquet legacy (core, measurements,
engines, llm, pipelines, report, web, cli, extras, modules).
État initial : VERT — le rewrite est déjà clean.

P0.2 — Doc des tolérances de régression.
docs/migration/regression-tolerances.md définit les ε par
métrique : CER 0, Wilcoxon p-value 1e-9, HTML diff sémantique,
narrative facts égalité ensembliste, JSON sort_keys. Politique
d'aléatoire (seed=42). Stratégie cloud (fixtures figées).
Procédure d'exception pour régressions intentionnelles.

P0.3 — Harness regression legacy ↔ rewrite.
tests/regression/legacy_vs_rewrite/ avec conftest fixtures
corpus synthétique (3 docs / 30 docs, gitignore corpora) +
helpers golden (assert_golden_match avec flag --regen-golden) +
comparateurs sémantiques (floats, sets, JSON). Marker regression
enregistré et exclu de addopts (opt-in via pytest -m regression).
16 smoke tests valident le harness lui-même.

P0.4 — Tracker statue Phase 0 done.

Validation : pytest archi (3 passed), regression (16 passed), suite
défaut (5018 passed), ruff clean.

Phase 1 (foundation conceptuelle, core/results → domain/run_result)
peut démarrer sans risque.

Files changed (11) hide show

CLAUDE.md +2 -2
README.md +1 -1
docs/migration/legacy-retirement-plan.md +30 -20
docs/migration/regression-tolerances.md +178 -0
pyproject.toml +9 -5
tests/architecture/test_no_legacy_imports_in_rewrite.py +196 -0
tests/regression/__init__.py +0 -0
tests/regression/legacy_vs_rewrite/__init__.py +19 -0
tests/regression/legacy_vs_rewrite/conftest.py +273 -0
tests/regression/legacy_vs_rewrite/corpora/.gitignore +8 -0
tests/regression/legacy_vs_rewrite/test_phase0_harness_smoke.py +172 -0

CLAUDE.md CHANGED Viewed

@@ -101,7 +101,7 @@ picarones/
 ## État des tests et bugs historiques
-`pytest tests/` → **5040 passed, 12 skipped, 8 deselected, 0 failed**
 (post-S59).  Les deselected sont les markers `live` (5 tests d'intégration
 contre vraie API/binaire) + `network` (3 tests qui hit le réseau réel),
 opt-in en local via `pytest -m live` ou `pytest -m network`.  Le
@@ -242,7 +242,7 @@ détecte, arbitre, rend.
 ## Contexte développement
 - **Environnement** : GitHub Codespaces, Python 3.11+
-- **Tests** : `pytest tests/ -q` → ~5040 passed, 2 skipped, 0 failed.
 - **Plan d'évolution actif** : [`docs/roadmap/evolution-2026.md`](docs/roadmap/evolution-2026.md).
 - **Manifeste architecture** : [`docs/explanation/architecture.md`](docs/explanation/architecture.md).
 - **API publique stable** : [`docs/reference/api-stable.md`](docs/reference/api-stable.md).

 ## État des tests et bugs historiques
+`pytest tests/` → **5050 passed, 12 skipped, 8 deselected, 0 failed**
 (post-S59).  Les deselected sont les markers `live` (5 tests d'intégration
 contre vraie API/binaire) + `network` (3 tests qui hit le réseau réel),
 opt-in en local via `pytest -m live` ou `pytest -m network`.  Le
 ## Contexte développement
 - **Environnement** : GitHub Codespaces, Python 3.11+
+- **Tests** : `pytest tests/ -q` → ~5050 passed, 2 skipped, 0 failed.
 - **Plan d'évolution actif** : [`docs/roadmap/evolution-2026.md`](docs/roadmap/evolution-2026.md).
 - **Manifeste architecture** : [`docs/explanation/architecture.md`](docs/explanation/architecture.md).
 - **API publique stable** : [`docs/reference/api-stable.md`](docs/reference/api-stable.md).

README.md CHANGED Viewed

@@ -396,7 +396,7 @@ ruff check picarones/ tests/
 python -m mypy picarones/core/
 ```
-**Test suite**: ~5040 tests, ~3 min on a modern laptop. Coverage
 floor at 85% (currently ~87%). The `network` marker excludes tests
 requiring live HTTP. A handful of tests depend on optional engines
 (`pero-ocr`, `pytesseract`) and are skipped/fail gracefully when

 python -m mypy picarones/core/
 ```
+**Test suite**: ~5050 tests, ~3 min on a modern laptop. Coverage
 floor at 85% (currently ~87%). The `network` marker excludes tests
 requiring live HTTP. A handful of tests depend on optional engines
 (`pero-ocr`, `pytesseract`) and are skipped/fail gracefully when

docs/migration/legacy-retirement-plan.md CHANGED Viewed

@@ -38,7 +38,7 @@ remplis :
 ## Phases
-### Phase 0 — Foundation (en cours)
 **Objectif** : poser les garde-fous qui rendent les 11 phases
 suivantes **vérifiables** sans introduire de régression invisible.
@@ -47,20 +47,29 @@ suivantes **vérifiables** sans introduire de régression invisible.
 - [x] `docs/migration/legacy-retirement-plan.md` (ce document) —
   inventaire complet, phases, acceptance criteria.
-- [ ] `tests/regression/legacy_vs_rewrite/` — harness qui exécute
-  legacy + rewrite sur 3 corpus de référence et compare bit-for-bit
-  (avec ε explicite par métrique).
-- [ ] `docs/migration/regression-tolerances.md` — table des
-  tolérances acceptables par métrique (ex : CER ε = 0, narrative
-  templates ε = 0 mais ordre des facts non-significatif, etc.).
-- [ ] Test architectural `test_no_legacy_imports_in_rewrite.py` qui
-  garantit qu'un module rewrite ne réintroduit jamais d'import
-  legacy.
-**Critère de fin** : harness vert sur 3 corpus de référence pour
-les fonctionnalités déjà migrées (5 OCR, 4 LLM, 4 VLM, vues
-canoniques).  Toute migration future doit ajouter son corpus de
-régression.
 ### Phase 1 — Foundation conceptuelle (`core/`, `domain/`)
@@ -224,8 +233,8 @@ over_normalization.detect_over_normalization`.
 **Module** : `modules/alto_text_to_mono_region.TextToAltoMonoRegion`
 (310 LOC) — baseline TEXT → ALTO.
-**Cible** : `picarones/formats/alto/baseline_reconstruction.py` ou
-`picarones/evaluation/projectors/text_to_alto.py` (selon où la
 sémantique colle le mieux).
 **Effort** : 1 jour.
@@ -347,7 +356,8 @@ mais le CER a glissé de 0,002 par doc »*.
 | Phase | Statut |
 |-------|--------|
-| 0 | 🟡 En cours |
-| 1-11 | ⚪ À démarrer |
-**Dernière mise à jour** : 2026-05.

 ## Phases
+### Phase 0 — Foundation ✅ terminée
 **Objectif** : poser les garde-fous qui rendent les 11 phases
 suivantes **vérifiables** sans introduire de régression invisible.
 - [x] `docs/migration/legacy-retirement-plan.md` (ce document) —
   inventaire complet, phases, acceptance criteria.
+- [x] `docs/migration/regression-tolerances.md` — table des
+  tolérances acceptables par métrique et type d'output (CER ε=0,
+  Wilcoxon ε=1e-9, HTML diff sémantique, narrative facts égalité
+  ensembliste, etc.).
+- [x] `tests/regression/legacy_vs_rewrite/` — harness scaffolding :
+  fixtures de corpus synthétique (small=3 docs, medium=30 docs,
+  large laissé pour ajout opportuniste) + gestion golden snapshot
+  avec flag `--regen-golden` + comparateurs sémantiques (floats,
+  sets, JSON).  Marker `regression` enregistré et exclu de
+  ``addopts`` par défaut (opt-in via `pytest -m regression`).
+  Smoke test couvre les 16 invariants du harness lui-même.
+- [x] `tests/architecture/test_no_legacy_imports_in_rewrite.py` —
+  garantit qu'aucun fichier des paquets `domain/`, `formats/`,
+  `evaluation/`, `pipeline/`, `adapters/`, `app/`, `reports_v2/`,
+  `interfaces/` n'importe depuis un paquet legacy.  AST-based,
+  pas regex syntaxique.  État initial : **vert** — le rewrite est
+  déjà clean.
+**Acceptance** : ✅ remplie.  Le harness est prêt à recevoir les
+tests de régression de chaque phase suivante (`test_phase1_*.py`,
+`test_phase2_*.py`, etc.).  Toute fonctionnalité migrée DOIT
+avoir son test de régression ajouté ici en même temps que le
+code.
 ### Phase 1 — Foundation conceptuelle (`core/`, `domain/`)
 **Module** : `modules/alto_text_to_mono_region.TextToAltoMonoRegion`
 (310 LOC) — baseline TEXT → ALTO.
+**Cible** : `picarones.formats.alto.baseline_reconstruction` ou
+`picarones.evaluation.projectors.text_to_alto` (selon où la
 sémantique colle le mieux).
 **Effort** : 1 jour.
 | Phase | Statut |
 |-------|--------|
+| 0 | ✅ Terminée |
+| 1 | ⚪ À démarrer |
+| 2-11 | ⚪ À démarrer |
+**Dernière mise à jour** : 2026-05 (Phase 0 livrée).

docs/migration/regression-tolerances.md ADDED Viewed

	@@ -0,0 +1,178 @@

+# Tolérances de régression — legacy ↔ rewrite
+> **Audience** : développeur qui migre une fonctionnalité legacy
+> vers le rewrite, reviewer qui relit la PR.
+>
+> **Référence** : [`legacy-retirement-plan.md`](legacy-retirement-plan.md).
+>
+> **Contrat** : le harness `tests/regression/legacy_vs_rewrite/`
+> exécute legacy + rewrite sur les mêmes corpus de référence et
+> compare leurs sorties.  Toute divergence au-delà de la tolérance
+> ε définie ici est une **régression à corriger avant merge**.
+>
+> Une régression peut être :
+>
+> - **Intentionnelle** : la phase de migration corrige un bug
+>   historique → la tolérance est temporairement relâchée AVEC
+>   commentaire pointant vers l'issue.
+> - **Inattendue** : c'est ce que ce document est censé empêcher.
+## Principe général
+Pour une fonctionnalité donnée, la sortie du rewrite **doit être
+égale** à celle du legacy à la tolérance ε près.  L'égalité est :
+- **Bit-for-bit** quand l'output est déterministe (texte, hash, JSON).
+- **Sémantique** quand l'output structurel a des libertés (ordre des
+  éléments d'un set, indentation HTML, ordre des facts narratifs
+  équivalents).
+## Table des tolérances par type d'output
+### Métriques numériques
+| Métrique | ε | Justification |
+|----------|---|---------------|
+| `cer_raw`, `cer_nfc`, `cer_caseless`, `cer_diplomatic` | **0** (bit-for-bit) | jiwer est déterministe ; toute différence = changement de pré/post-processing |
+| `wer`, `mer`, `wil` | **0** | idem |
+| `bleu`, `chrf` | **1e-9** | flottants — réordonnancements internes acceptables |
+| `precision`, `recall`, `f1` (NER) | **1e-9** | flottants |
+| `mufi_coverage`, `abbreviation_expansion_score` | **0** | comptage entier sur ensembles fermés |
+| `roman_numerals_accuracy` | **0** | parsing déterministe |
+| `unicode_blocks_accuracy` | **0** | tables Unicode déterministes |
+| `reading_order_f1` (ICDAR 2015) | **1e-9** | algorithme déterministe, flottants |
+| `layout_f1` | **1e-9** | flottants |
+| `confusion_matrix.entries` | **0** | comptage entier |
+| `taxonomy.error_class_*` | **0** | classification déterministe sur règles |
+### Tests statistiques
+| Test | ε | Justification |
+|------|---|---------------|
+| Wilcoxon `p_value` | **1e-9** | scipy `wilcoxon` est déterministe à entrée constante |
+| Friedman `chi2`, `p_value` | **1e-9** | idem |
+| Nemenyi (matrice p-values) | **1e-9** | dérivé de Friedman |
+| Bootstrap CI 95 % | **1e-3** | random seed FIXÉ explicitement (cf. `bootstrap.py` du legacy : `seed=42`) ; la tolérance laisse une marge minuscule pour les ré-implémentations qui itéreraient dans un ordre différent à seed identique |
+| Pareto front (set d'engines dominants) | **0** (bit-for-bit en tant qu'ensemble) | dominance Pareto stable sur entrées identiques |
+| CDD (Critical Difference Diagram) coordonnées SVG | **1e-3** sur les positions (px) | rendu Matplotlib peut varier sur des sub-pixels selon backend |
+| Clustering (labels) | **0** sur l'**ensemble** des classes (l'étiquetage interne 0/1/2 peut différer mais la partition doit être identique) | un test custom compare les partitions, pas les labels |
+| Corrélation Spearman / Pearson | **1e-9** | flottants |
+### Calibration
+| Output | ε | Justification |
+|--------|---|---------------|
+| ECE, MCE | **1e-9** | flottants, pas d'aléatoire |
+| Reliability diagram (bins, freq, conf) | **0** sur les bins, **1e-9** sur les valeurs | binning déterministe |
+### Confidences sidecar (S50 sur Tesseract)
+| Output | ε |
+|--------|---|
+| `tokens[].text` | **0** (string identique) |
+| `tokens[].confidence` | **0** | Tesseract retourne un entier 0-100 ; division exacte par 100 → flottant binairement identique en IEEE-754 |
+| `extractor`, `model_version` | **0** |
+### HTML (rapport `reports_v2/html/render.py`)
+Le diff HTML est **structurel**, pas lexical :
+- Mêmes éléments DOM avec mêmes attributs sémantiques (`data-*`,
+  `aria-*`, `id`, `class`).
+- Mêmes valeurs textuelles dans les nœuds de texte.
+- L'**ordre** des sections doit être identique.
+- L'indentation et le whitespace inter-éléments sont **ignorés**.
+- Le contenu d'un `<script>` est comparé après normalisation
+  d'espace blanc.
+Implémenté via une fonction `assert_html_semantically_equal(a, b)`
+qui parse les deux HTML avec `lxml` (ou `html.parser` fallback) et
+compare l'arbre.
+### CSV (`reports_v2/csv/render.py`)
+| Output | ε |
+|--------|---|
+| Header row | **0** (identique exact) |
+| Data rows (set non ordonné) | **0** sur l'ensemble |
+| Ordre des lignes | autorisé à différer | les renderers triaient parfois différemment ; seule l'égalité ensembliste est exigée |
+| Format des nombres | **0** (le rewrite formate à 6 décimales `f"{v:.6f}"`) | déterministe |
+### JSON (`reports_v2/json/render.py`)
+| Output | ε |
+|--------|---|
+| Bit-for-bit identique | **0** | le rewrite utilise `model_dump(mode="json")` Pydantic + `json.dumps(sort_keys=True, indent=2, ensure_ascii=False)` ; le legacy doit être amené au même contrat dans la phase concernée |
+### Narrative facts (Phase 3)
+| Aspect | ε |
+|--------|---|
+| Ensemble des `Fact` produits (par `FactType`) | **0** sur l'ensemble | l'arbitre peut réordonner mais pas inventer ni rater un fact |
+| Payload de chaque fact (les valeurs numériques citées) | **0** (bit-for-bit) | garde-fou anti-hallucination |
+| Templates rendus FR + EN | **0** sur le texte | déterministe par `str.format_map` |
+| Ordre final des facts dans la synthèse | **autorisé à différer** | l'arbitre du rewrite peut choisir un ordre différent si la priorité est respectée — un test custom valide « les facts HIGH apparaissent avant les MEDIUM » plutôt que l'ordre exact |
+### Rapport HTML — sections legacy spécifiques (Phase 5)
+Pour chaque renderer migré (calibration, NER, Pareto, narrative,
+philological, etc.), un cas-test de régression dédié vit dans
+`tests/regression/legacy_vs_rewrite/test_phase5_<renderer>.py`.
+Le snapshot legacy est figé en début de phase.
+## Aléatoire — politique
+Tout module qui utilise `random` doit :
+1. Accepter un argument `seed: int` ou utiliser une seed fixée
+   explicitement.
+2. Documenter la seed dans son docstring.
+3. Le harness de régression utilise toujours **seed=42**.
+Modules concernés au legacy :
+- `measurements/statistics/bootstrap.py` (seed=42)
+- `measurements/runner/workers.py` (pas d'aléatoire — confirmé)
+- `core/results.py` (pas d'aléatoire — confirmé)
+## Adaptateurs cloud (Mistral, OpenAI, Anthropic, Google, Azure)
+Les appels réseau ne sont **pas** rejoués pendant la régression —
+le test serait non-déterministe et coûteux.  Stratégie :
+1. Le harness utilise des **fixtures de réponses figées** (JSON
+   capturé en local lors de la création du corpus de référence).
+2. Le legacy et le rewrite reçoivent **la même fixture** ; le test
+   vérifie que tous deux produisent le même output structurel.
+3. Si une dépendance SDK change la sérialisation (rare), le test
+   pète bruyamment et la PR doit re-frigorifier la fixture.
+Aucune tolérance non triviale n'est nécessaire — l'égalité
+bit-for-bit est tenable parce que l'aléatoire vient du cloud, pas
+du parser.
+## Procédure d'exception (régression intentionnelle)
+Quand une migration corrige un bug historique légitime :
+1. Ouvrir une issue GitHub avec le label `regression-intentional`.
+2. Référencer le numéro d'issue dans le commit qui modifie la
+   tolérance.
+3. Ajouter une entrée dans la section *« Régressions intentionnelles
+   acceptées »* ci-dessous, **avant** le merge.
+4. La tolérance peut être relâchée temporairement ; au merge, soit
+   le snapshot legacy est mis à jour pour refléter le nouveau
+   comportement (correct), soit la tolérance reste serrée pour les
+   prochaines migrations.
+## Régressions intentionnelles acceptées
+| Date | Issue | Phase | Module | Description |
+|------|-------|-------|--------|-------------|
+| (aucune à ce jour) |  |  |  |  |
+## Révisions
+| Version | Date | Changements |
+|---------|------|-------------|
+| 1.0 | 2026-05 | Création initiale (Phase 0 du plan de retrait legacy) |

pyproject.toml CHANGED Viewed

@@ -165,11 +165,14 @@ testpaths = ["tests"]
 # Windows) — utilisé par les tests CLI E2E qui résolvent leurs mock
 # adapters via dotted path (``importlib.import_module("tests.fixtures.…")``).
 pythonpath = ["."]
-# Exclusion par défaut : markers ``network`` et ``live`` non
-# sélectionnés.  Override en local via ``pytest -m network`` ou
-# ``pytest -m live`` (avec env vars / binaires correctement
-# configurés).  ``-m ""`` pour tout exécuter.
-addopts = "-v --tb=short -m 'not network and not live'"
 # Sprint A1 (M-15) : aucun test individuel ne doit dépasser 5 minutes.
 # Mode "thread" car certains tests utilisent ProcessPoolExecutor qui est
 # incompatible avec le timeout en mode "signal" sur certaines plateformes.
@@ -188,6 +191,7 @@ markers = [
     "slow: tests longs (corpus de référence, intégration cloud) ; non bloquants en dev local",
     "network: tests qui hit le réseau réel ; exclus par défaut",
     "live: tests d'intégration contre vraie API/binaire (Tesseract, Anthropic, OpenAI, Mistral) ; exclus par défaut, opt-in en local via 'pytest -m live'",
 ]
 # ──────────────────────────────────────────────────────────────────

 # Windows) — utilisé par les tests CLI E2E qui résolvent leurs mock
 # adapters via dotted path (``importlib.import_module("tests.fixtures.…")``).
 pythonpath = ["."]
+# Exclusion par défaut : markers ``network``, ``live`` et
+# ``regression`` non sélectionnés.  Override en local via
+# ``pytest -m network`` ou ``pytest -m live`` (avec env vars /
+# binaires correctement configurés).  Le marker ``regression``
+# (harness legacy ↔ rewrite) est lent ; opt-in via
+# ``pytest -m regression`` ou run dédié en CI.  ``-m ""`` pour
+# tout exécuter.
+addopts = "-v --tb=short -m 'not network and not live and not regression'"
 # Sprint A1 (M-15) : aucun test individuel ne doit dépasser 5 minutes.
 # Mode "thread" car certains tests utilisent ProcessPoolExecutor qui est
 # incompatible avec le timeout en mode "signal" sur certaines plateformes.
     "slow: tests longs (corpus de référence, intégration cloud) ; non bloquants en dev local",
     "network: tests qui hit le réseau réel ; exclus par défaut",
     "live: tests d'intégration contre vraie API/binaire (Tesseract, Anthropic, OpenAI, Mistral) ; exclus par défaut, opt-in en local via 'pytest -m live'",
+    "regression: harness de régression legacy ↔ rewrite (tests/regression/legacy_vs_rewrite/) ; exclus par défaut, opt-in via 'pytest -m regression' ou job CI dédié",
 ]
 # ──────────────────────────────────────────────────────────────────

tests/architecture/test_no_legacy_imports_in_rewrite.py ADDED Viewed

	@@ -0,0 +1,196 @@

+"""Garde-fou : aucun module du rewrite n'importe depuis le legacy.
+L'arborescence post-rewrite (``domain → formats → evaluation →
+pipeline → adapters → app → reports_v2 → interfaces``) doit être
+**autonome**.  Le legacy peut s'appuyer sur le rewrite (re-exports),
+mais l'inverse romprait l'invariant — chaque retrait de paquet
+legacy au cours des phases 1-11 ferait planter le rewrite.
+Ce test scanne tous les fichiers Python des paquets rewrite et
+rejette toute déclaration d'import qui pointe vers un paquet
+legacy.
+Listes de référence
+-------------------
+Les paquets sont déclarés ici de manière explicite — un nouveau
+paquet rewrite ou legacy doit être inscrit consciemment, pas
+auto-détecté.  Cela évite qu'une erreur de structure (un paquet
+posé au mauvais endroit) ne soit silencieusement classée par
+heuristique.
+"""
+from __future__ import annotations
+import ast
+import re
+from pathlib import Path
+REPO_ROOT = Path(__file__).resolve().parents[2]
+#: Paquets de l'arborescence rewrite (cible 2.0).  Ne doivent
+#: jamais importer depuis :data:`LEGACY_PACKAGES`.
+REWRITE_PACKAGES: tuple[str, ...] = (
+    "domain",
+    "formats",
+    "evaluation",
+    "pipeline",
+    "adapters",
+    "app",
+    "reports_v2",
+    "interfaces",
+)
+#: Paquets legacy.  Importables uniquement depuis l'intérieur du
+#: legacy lui-même (ou depuis les tests, qui valident la migration
+#: en cours).
+LEGACY_PACKAGES: tuple[str, ...] = (
+    "core",
+    "measurements",
+    "engines",
+    "llm",
+    "pipelines",
+    "report",
+    "web",
+    "cli",
+    "extras",
+    "modules",
+)
+#: Pattern qui matche un import déclaré dans le code source.
+#:
+#: Couvre :
+#:
+#: - ``from picarones.X import ...``
+#: - ``import picarones.X``
+#: - ``import picarones.X as Y``
+#:
+#: Ne couvre PAS les imports différés via ``importlib.import_module``
+#: ou ``__import__`` — le test architectural cible la déclaration
+#: statique, pas la résolution dynamique.
+_IMPORT_RE = re.compile(
+    r"^\s*(?:from|import)\s+picarones\.([a-z_][a-z_0-9]*)",
+    re.MULTILINE,
+)
+def _rewrite_modules() -> list[Path]:
+    """Liste tous les fichiers ``.py`` des paquets rewrite."""
+    out: list[Path] = []
+    for pkg in REWRITE_PACKAGES:
+        root = REPO_ROOT / "picarones" / pkg
+        if not root.exists():
+            continue
+        out.extend(p for p in root.rglob("*.py") if "__pycache__" not in p.parts)
+    return sorted(out)
+def _scan_legacy_imports(path: Path) -> list[tuple[int, str]]:
+    """Retourne la liste des ``(numéro_de_ligne, import_legacy)``
+    trouvés dans ``path``.
+    Utilise l'AST pour capturer les imports indentés (à l'intérieur
+    de fonctions, ``TYPE_CHECKING``, etc.) — un grep simple raterait
+    ces cas.
+    """
+    try:
+        text = path.read_text(encoding="utf-8")
+    except (OSError, UnicodeDecodeError):
+        return []
+    offenders: list[tuple[int, str]] = []
+    try:
+        tree = ast.parse(text, filename=str(path))
+    except SyntaxError:
+        # On laisse les autres tests d'archi attraper les fichiers
+        # cassés.
+        return []
+    legacy_set = set(LEGACY_PACKAGES)
+    for node in ast.walk(tree):
+        if isinstance(node, ast.ImportFrom):
+            mod = node.module or ""
+            parts = mod.split(".")
+            if len(parts) >= 2 and parts[0] == "picarones" and parts[1] in legacy_set:
+                offenders.append((node.lineno, f"from {mod} import ..."))
+        elif isinstance(node, ast.Import):
+            for alias in node.names:
+                parts = alias.name.split(".")
+                if (
+                    len(parts) >= 2
+                    and parts[0] == "picarones"
+                    and parts[1] in legacy_set
+                ):
+                    offenders.append((node.lineno, f"import {alias.name}"))
+    return offenders
+def test_rewrite_modules_dont_import_from_legacy() -> None:
+    """Aucun fichier des paquets rewrite n'a d'import legacy.
+    Si ce test échoue, le rewrite a une dépendance qui empêchera
+    le retrait du paquet legacy concerné.  Deux fixes possibles :
+    1. Le code legacy importé existe en équivalent dans le rewrite
+       → migrer l'import.
+    2. Il n'existe pas encore → la fonctionnalité doit être inscrite
+       au plan ``docs/migration/legacy-retirement-plan.md`` comme
+       bloquante avant le retrait du paquet legacy concerné.
+    """
+    offenders: list[tuple[str, int, str]] = []
+    for path in _rewrite_modules():
+        rel = path.relative_to(REPO_ROOT).as_posix()
+        for lineno, import_text in _scan_legacy_imports(path):
+            offenders.append((rel, lineno, import_text))
+    if offenders:
+        sample = "\n".join(
+            f"  {p}:{n} → {s}" for p, n, s in offenders[:30]
+        )
+        more = (
+            f"\n  ... ({len(offenders) - 30} de plus)"
+            if len(offenders) > 30
+            else ""
+        )
+        raise AssertionError(
+            f"\n{len(offenders)} import(s) legacy détecté(s) dans le "
+            "rewrite.  Le retrait du legacy en sera bloqué.\n\n"
+            f"{sample}{more}\n\n"
+            "Soit migrer l'import vers l'équivalent rewrite, soit "
+            "inscrire la fonctionnalité manquante dans "
+            "``docs/migration/legacy-retirement-plan.md`` comme "
+            "bloquante.",
+        )
+def test_legacy_packages_match_directory_structure() -> None:
+    """Cohérence : les noms déclarés dans :data:`LEGACY_PACKAGES`
+    correspondent à des dossiers réels.
+    Quand un paquet legacy est supprimé (au fil des phases), il faut
+    le retirer aussi de cette liste — sinon le test ci-dessus ne
+    refusera plus les imports vers ce paquet désormais inexistant
+    (ce serait quand même un import cassé, pris par d'autres tests,
+    mais incohérent).
+    """
+    missing = []
+    for pkg in LEGACY_PACKAGES:
+        if not (REPO_ROOT / "picarones" / pkg).is_dir():
+            missing.append(pkg)
+    assert not missing, (
+        f"Paquet(s) déclaré(s) dans LEGACY_PACKAGES mais sans "
+        f"dossier correspondant : {missing}.  Si ces paquets ont été "
+        "retirés au cours d'une phase de migration, mettre à jour "
+        "LEGACY_PACKAGES ici."
+    )
+def test_rewrite_packages_match_directory_structure() -> None:
+    """Cohérence : les paquets cibles existent."""
+    missing = []
+    for pkg in REWRITE_PACKAGES:
+        if not (REPO_ROOT / "picarones" / pkg).is_dir():
+            missing.append(pkg)
+    assert not missing, (
+        f"Paquet(s) du rewrite déclaré(s) mais absent(s) du "
+        f"filesystem : {missing}."
+    )

tests/regression/__init__.py ADDED Viewed

File without changes

tests/regression/legacy_vs_rewrite/__init__.py ADDED Viewed

	@@ -0,0 +1,19 @@

+"""Harness de régression legacy ↔ rewrite.
+Ce package est l'**invariant** qui rend le retrait du legacy
+vérifiable.  À chaque phase du plan de retrait
+(`docs/migration/legacy-retirement-plan.md`), un fichier
+``test_phase<N>_<module>.py`` est ajouté ici qui :
+1. Exécute le legacy sur un corpus de référence et capture la sortie
+   (la première fois — snapshot golden).
+2. Exécute le rewrite sur le même corpus.
+3. Compare la sortie rewrite à la golden, à la tolérance ε définie
+   dans ``docs/migration/regression-tolerances.md``.
+Le harness est **autonome** : pas de dépendance réseau, pas de
+binaire système non installable via pip.  Les corpus de référence
+vivent dans ``corpora/`` et sont versionnés (synthétiques pour
+les small/medium, échantillons figés du domaine public pour large
+si jamais ajouté).
+"""

tests/regression/legacy_vs_rewrite/conftest.py ADDED Viewed

	@@ -0,0 +1,273 @@

+"""Fixtures partagées du harness de régression.
+Trois axes :
+1. **Corpus de référence** : 3 tailles (small / medium / large) ;
+   les images sont générées synthétiquement à la première
+   utilisation pour rester reproductibles cross-OS sans déposer de
+   blob binaire dans git.
+2. **Golden snapshots** : sortie capturée du legacy, mise en cache
+   sous ``golden/<phase>/<corpus>/<module>.<ext>``.  Régénérée à
+   l'usage avec ``pytest --regen-golden``.
+3. **Comparateurs** : helpers d'égalité bit-for-bit, sémantique
+   HTML, ensemble de Facts.  Vivent dans ``_helpers/``.
+Le harness est exclu du run pytest par défaut via le marker
+``regression`` (cf. ``pyproject.toml``) — il s'exécute en CI
+dédié pour ne pas ralentir la boucle de dev locale.
+"""
+from __future__ import annotations
+import json
+from pathlib import Path
+from typing import Any, Iterable
+import pytest
+HARNESS_ROOT = Path(__file__).resolve().parent
+CORPORA_DIR = HARNESS_ROOT / "corpora"
+GOLDEN_DIR = HARNESS_ROOT / "golden"
+def pytest_addoption(parser: pytest.Parser) -> None:
+    """Ajoute ``--regen-golden`` pour régénérer les snapshots."""
+    parser.addoption(
+        "--regen-golden",
+        action="store_true",
+        default=False,
+        help=(
+            "Régénère les golden snapshots du harness de régression "
+            "depuis l'état legacy actuel.  À utiliser quand on accepte "
+            "explicitement une régression intentionnelle (cf. "
+            "docs/migration/regression-tolerances.md)."
+        ),
+    )
+def pytest_configure(config: pytest.Config) -> None:
+    """Enregistre le marker ``regression``."""
+    config.addinivalue_line(
+        "markers",
+        "regression: tests de régression legacy ↔ rewrite ; exclus "
+        "par défaut, opt-in via ``pytest -m regression``.",
+    )
+# ──────────────────────────────────────────────────────────────────
+# Corpus
+# ──────────────────────────────────────────────────────────────────
+@pytest.fixture(scope="session")
+def small_corpus_dir() -> Path:
+    """Corpus *small* : 3 documents synthétiques.
+    Génération unique à la première utilisation par session.  Les
+    images sont des PNG noir-sur-blanc avec une chaîne lisible
+    figée par document, ce qui garantit la reproductibilité de
+    Tesseract cross-OS (à version de binaire constante, le rendu
+    PIL est identique).
+    """
+    out = CORPORA_DIR / "small"
+    out.mkdir(parents=True, exist_ok=True)
+    _generate_synthetic_corpus(
+        out,
+        documents=[
+            ("doc01", "BENEDICTUS DEUS"),
+            ("doc02", "Anno Domini MCMXVII"),
+            ("doc03", "Folio 23 recto"),
+        ],
+    )
+    return out
+@pytest.fixture(scope="session")
+def medium_corpus_dir() -> Path:
+    """Corpus *medium* : 30 documents synthétiques.
+    Mêmes contraintes que ``small_corpus_dir`` ; le contenu varie
+    pour exercer les statistiques sur un échantillon plus large.
+    """
+    out = CORPORA_DIR / "medium"
+    out.mkdir(parents=True, exist_ok=True)
+    docs = [
+        (f"doc{i:03d}", f"Sample text number {i:03d}")
+        for i in range(1, 31)
+    ]
+    _generate_synthetic_corpus(out, documents=docs)
+    return out
+# ──────────────────────────────────────────────────────────────────
+# Golden snapshots
+# ──────────────────────────────────────────────────────────────────
+@pytest.fixture
+def golden_path(request: pytest.FixtureRequest):
+    """Factory de chemins de snapshot.
+    Usage ::
+        def test_phaseN_xxx(golden_path):
+            path = golden_path("phase1", "small", "tesseract.txt")
+            # path est garanti dans GOLDEN_DIR ; le caller doit
+            # l'écrire (au régen) ou le lire (en assertion).
+    Le chemin retourné est ``golden/<phase>/<corpus>/<filename>``.
+    Le répertoire parent est créé si nécessaire.
+    """
+    def _make(phase: str, corpus: str, filename: str) -> Path:
+        path = GOLDEN_DIR / phase / corpus / filename
+        path.parent.mkdir(parents=True, exist_ok=True)
+        return path
+    return _make
+@pytest.fixture
+def regen_golden(request: pytest.FixtureRequest) -> bool:
+    """``True`` si l'utilisateur a passé ``--regen-golden``."""
+    return bool(request.config.getoption("--regen-golden"))
+def assert_golden_match(
+    actual: str | bytes,
+    golden_path: Path,
+    *,
+    regen: bool,
+    encoding: str = "utf-8",
+) -> None:
+    """Compare ``actual`` au contenu de ``golden_path``.
+    Si ``regen=True`` ou si le fichier golden n'existe pas, écrit
+    ``actual`` au lieu de comparer.  Échoue sinon en cas de
+    divergence.
+    """
+    if isinstance(actual, str):
+        if regen or not golden_path.exists():
+            golden_path.write_text(actual, encoding=encoding)
+            return
+        expected = golden_path.read_text(encoding=encoding)
+        assert actual == expected, (
+            f"Golden mismatch sur {golden_path}.\n"
+            f"--- expected ---\n{expected[:500]}\n"
+            f"--- actual ---\n{actual[:500]}\n"
+            f"\nRégénérer avec ``pytest --regen-golden`` si la "
+            "régression est intentionnelle (cf. "
+            "regression-tolerances.md)."
+        )
+    else:
+        if regen or not golden_path.exists():
+            golden_path.write_bytes(actual)
+            return
+        expected_b = golden_path.read_bytes()
+        assert actual == expected_b, (
+            f"Golden mismatch (bytes) sur {golden_path}.\n"
+            "Régénérer avec ``pytest --regen-golden`` si "
+            "intentionnel."
+        )
+# ──────────────────────────────────────────────────────────────────
+# Comparateurs sémantiques
+# ──────────────────────────────────────────────────────────────────
+def assert_floats_equal(
+    actual: float,
+    expected: float,
+    *,
+    eps: float = 1e-9,
+    label: str = "value",
+) -> None:
+    """Égalité flottante au ε près (cf. regression-tolerances.md)."""
+    assert abs(actual - expected) <= eps, (
+        f"{label}: actual={actual!r} expected={expected!r} "
+        f"diff={abs(actual - expected):.3e} > eps={eps:.0e}"
+    )
+def assert_set_equal(
+    actual: Iterable[Any],
+    expected: Iterable[Any],
+    *,
+    label: str = "set",
+) -> None:
+    """Égalité ensembliste (ordre ignoré).
+    Utilisé typiquement pour les `Pareto front`, l'ensemble des
+    Facts narratifs, l'ensemble des lignes CSV.
+    """
+    a = set(actual)
+    e = set(expected)
+    missing = e - a
+    extra = a - e
+    assert not (missing or extra), (
+        f"{label}: ensembles différents.\n"
+        f"  manquants ({len(missing)}): {sorted(missing)[:10]}\n"
+        f"  en trop  ({len(extra)}): {sorted(extra)[:10]}"
+    )
+def assert_json_semantic_equal(
+    actual: dict | list,
+    expected: dict | list,
+    *,
+    label: str = "json",
+) -> None:
+    """Égalité JSON : sérialisation déterministe puis diff.
+    Les deux structures sont sérialisées via
+    ``json.dumps(sort_keys=True, ensure_ascii=False, indent=2)``
+    avant comparaison — l'ordre des clés ne compte pas, le
+    whitespace non plus.
+    """
+    a = json.dumps(actual, sort_keys=True, ensure_ascii=False, indent=2)
+    e = json.dumps(expected, sort_keys=True, ensure_ascii=False, indent=2)
+    assert a == e, (
+        f"{label}: JSON différents.\n--- expected ---\n{e[:500]}\n"
+        f"--- actual ---\n{a[:500]}"
+    )
+# ──────────────────────────────────────────────────────────────────
+# Corpus generation (synthetic)
+# ──────────────────────────────────────────────────────────────────
+def _generate_synthetic_corpus(
+    out_dir: Path,
+    *,
+    documents: list[tuple[str, str]],
+) -> None:
+    """Génère un corpus synthétique : pour chaque ``(doc_id, text)``,
+    écrit ``out_dir/<doc_id>.png`` (image avec le texte rendu) et
+    ``out_dir/<doc_id>.gt.txt`` (la GT).
+    Idempotent : si tous les fichiers existent, ne fait rien.
+    """
+    pytest.importorskip("PIL")
+    # Pillow expose ``Image``, ``ImageDraw``, ``ImageFont`` comme
+    # **sous-modules**, pas comme attributs du package ``PIL`` ;
+    # ``import PIL`` seul ne les attache pas.  Imports explicites
+    # ici (Pillow est une dep optionnelle du harness — d'où le
+    # ``importorskip`` et le déport en local).
+    from PIL import Image, ImageDraw, ImageFont
+    for doc_id, text in documents:
+        png = out_dir / f"{doc_id}.png"
+        gt = out_dir / f"{doc_id}.gt.txt"
+        if png.exists() and gt.exists():
+            continue
+        img = Image.new("RGB", (600, 100), color="white")
+        draw = ImageDraw.Draw(img)
+        try:
+            font = ImageFont.truetype("DejaVuSans-Bold.ttf", size=32)
+        except OSError:
+            font = ImageFont.load_default()
+        draw.text((20, 30), text, fill="black", font=font)
+        img.save(png)
+        gt.write_text(text, encoding="utf-8")

tests/regression/legacy_vs_rewrite/corpora/.gitignore ADDED Viewed

	@@ -0,0 +1,8 @@

+# Corpus synthétiques générés par le harness à chaque run.
+# Reproductibles : même contenu, même rendu PIL → mêmes octets.
+# On ne versionne pas pour garder le repo léger ; le test
+# ``test_corpus_generation_is_idempotent`` garantit qu'on ne
+# régénère pas si les fichiers existent déjà (utile pour les
+# runs CI avec cache).
+*.png
+*.gt.txt

tests/regression/legacy_vs_rewrite/test_phase0_harness_smoke.py ADDED Viewed

	@@ -0,0 +1,172 @@

+"""Smoke tests du harness lui-même.
+Phase 0 : avant que la moindre comparaison legacy ↔ rewrite ne soit
+faite, il faut prouver que le harness :
+1. Génère des corpus de référence reproductibles cross-OS.
+2. Sait écrire et relire un golden snapshot.
+3. Ses comparateurs sémantiques rejettent les vraies différences et
+   acceptent les non-significatives.
+Ces tests sont marqués ``regression`` mais ne font pas de
+comparaison legacy ↔ rewrite — ils valident l'infrastructure
+elle-même.
+Aux phases suivantes, des fichiers ``test_phaseN_<module>.py``
+viendront s'ajouter à côté de celui-ci pour vérifier chaque
+fonctionnalité migrée.
+"""
+from __future__ import annotations
+from pathlib import Path
+import pytest
+from tests.regression.legacy_vs_rewrite.conftest import (
+    assert_floats_equal,
+    assert_golden_match,
+    assert_json_semantic_equal,
+    assert_set_equal,
+)
+pytestmark = pytest.mark.regression
+# ──────────────────────────────────────────────────────────────────
+# Corpus
+# ──────────────────────────────────────────────────────────────────
+def test_small_corpus_has_three_documents(small_corpus_dir: Path) -> None:
+    """``small_corpus_dir`` produit 3 paires (image + GT)."""
+    pngs = sorted(small_corpus_dir.glob("*.png"))
+    gts = sorted(small_corpus_dir.glob("*.gt.txt"))
+    assert len(pngs) == 3, f"3 PNG attendus, {len(pngs)} trouvés."
+    assert len(gts) == 3, f"3 GT attendues, {len(gts)} trouvées."
+    for png in pngs:
+        gt = png.with_suffix("").with_suffix(".gt.txt")
+        assert gt.exists(), f"GT manquante pour {png.name}."
+def test_medium_corpus_has_thirty_documents(medium_corpus_dir: Path) -> None:
+    """``medium_corpus_dir`` produit 30 paires."""
+    pngs = sorted(medium_corpus_dir.glob("*.png"))
+    assert len(pngs) == 30
+def test_corpus_generation_is_idempotent(small_corpus_dir: Path) -> None:
+    """Re-générer le corpus ne réécrit pas les fichiers existants."""
+    pngs_before = {p: p.stat().st_mtime for p in small_corpus_dir.glob("*.png")}
+    # Re-déclencher la génération en réimportant la fixture (ici on
+    # appelle directement la primitive — le test n'est pas sale, c'est
+    # le contrat d'idempotence qui est vérifié).
+    from tests.regression.legacy_vs_rewrite.conftest import (
+        _generate_synthetic_corpus,
+    )
+    _generate_synthetic_corpus(
+        small_corpus_dir,
+        documents=[
+            ("doc01", "BENEDICTUS DEUS"),
+            ("doc02", "Anno Domini MCMXVII"),
+            ("doc03", "Folio 23 recto"),
+        ],
+    )
+    pngs_after = {p: p.stat().st_mtime for p in small_corpus_dir.glob("*.png")}
+    for path, mtime_before in pngs_before.items():
+        assert pngs_after[path] == mtime_before, (
+            f"{path.name} a été ré-écrit alors qu'il existait déjà."
+        )
+# ──────────────────────────────────────────────────────────────────
+# Golden snapshots
+# ──────────────────────────────────────────────────────────────────
+def test_golden_path_creates_directories(golden_path, tmp_path) -> None:
+    """``golden_path('phase', 'corpus', 'file')`` crée le dossier."""
+    p = golden_path("phase0", "smoke", "tmp.txt")
+    assert p.parent.exists()
+    # Cleanup pour ne pas polluer.
+    if p.exists():
+        p.unlink()
+def test_golden_match_writes_on_first_run(
+    tmp_path: Path,
+    regen_golden: bool,
+) -> None:
+    """Quand le fichier golden n'existe pas, on l'écrit (premier run)."""
+    target = tmp_path / "first.txt"
+    assert_golden_match("hello", target, regen=False)  # écrit
+    assert target.read_text() == "hello"
+def test_golden_match_passes_when_identical(tmp_path: Path) -> None:
+    """Quand actual == golden, le test passe silencieusement."""
+    target = tmp_path / "id.txt"
+    target.write_text("identical content")
+    assert_golden_match("identical content", target, regen=False)
+def test_golden_match_fails_when_different(tmp_path: Path) -> None:
+    """Quand actual != golden, AssertionError."""
+    target = tmp_path / "diff.txt"
+    target.write_text("expected text")
+    with pytest.raises(AssertionError, match="Golden mismatch"):
+        assert_golden_match("actual text", target, regen=False)
+def test_golden_match_regen_overwrites(tmp_path: Path) -> None:
+    """En mode regen, le fichier est ré-écrit même si différent."""
+    target = tmp_path / "regen.txt"
+    target.write_text("old")
+    assert_golden_match("new", target, regen=True)
+    assert target.read_text() == "new"
+# ──────────────────────────────────────────────────────────────────
+# Comparateurs sémantiques
+# ──────────────────────────────────────────────────────────────────
+def test_assert_floats_equal_within_eps() -> None:
+    assert_floats_equal(1.0000000001, 1.0, eps=1e-9)
+def test_assert_floats_equal_rejects_outside_eps() -> None:
+    with pytest.raises(AssertionError, match="diff="):
+        assert_floats_equal(1.001, 1.0, eps=1e-9)
+def test_assert_set_equal_accepts_reorder() -> None:
+    assert_set_equal([3, 1, 2], [1, 2, 3])
+def test_assert_set_equal_rejects_missing() -> None:
+    with pytest.raises(AssertionError, match="manquants"):
+        assert_set_equal([1, 2], [1, 2, 3])
+def test_assert_set_equal_rejects_extra() -> None:
+    with pytest.raises(AssertionError, match="en trop"):
+        assert_set_equal([1, 2, 3, 4], [1, 2, 3])
+def test_assert_json_semantic_ignores_key_order() -> None:
+    a = {"b": 2, "a": 1}
+    e = {"a": 1, "b": 2}
+    assert_json_semantic_equal(a, e)
+def test_assert_json_semantic_detects_real_diff() -> None:
+    with pytest.raises(AssertionError, match="JSON différents"):
+        assert_json_semantic_equal({"a": 1}, {"a": 2})
+def test_assert_json_semantic_handles_lists() -> None:
+    """Les listes gardent l'ordre — c'est le contrat JSON."""
+    with pytest.raises(AssertionError):
+        assert_json_semantic_equal([1, 2], [2, 1])