Spaces:

Ma-Ri-Ba-Ku
/

Picarones

Running

Claude commited on 20 days ago

Commit

ac7a28c

unverified ·

1 Parent(s): 9d1e3f2

feat(migration): Lot B — core.{metric_registry,metric_hooks,metrics} → evaluation/

Suite directe du Lot A. Tous les callers tests + doc utilisateur
des shims ``picarones.core.metric_registry``,
``picarones.core.metric_hooks`` et ``picarones.core.metrics`` ont
migré vers les canoniques
``picarones.evaluation.{metric_registry, metric_hooks,
metric_result}`` ; les shims sont **supprimés** dans le même
commit (suppression agressive, pas de shim qui survit à son
usage).

Imports tests migrés
--------------------
18 fichiers tests, ~45 statements d'import :

- ``from picarones.core.metric_registry import …``
→ ``from picarones.evaluation.metric_registry import …``
- ``from picarones.core.metric_hooks import …``
→ ``from picarones.evaluation.metric_hooks import …``
- ``from picarones.core.metrics import …``
→ ``from picarones.evaluation.metric_result import …``
- ``import picarones.core.metric_hooks as mh``
→ ``import picarones.evaluation.metric_hooks as mh``

Inclut les imports privés ``_METRIC_REGISTRY`` (test_sprint34),
``_CORPUS_AGGREGATORS``, ``_DOCUMENT_HOOKS``,
``_all_corpus_aggregator_names``, ``_all_document_hook_names``,
``_reset_for_tests`` (tests/core/test_metric_hooks.py) qui
existent tels quels dans les canoniques.

Doc utilisateur migrée
----------------------
- ``docs/reference/api-stable.md`` : sections
``picarones.core.metric_registry`` et
``picarones.core.metric_hooks`` réécrites en
``picarones.evaluation.metric_*``.
- ``docs/reference/normalization-profiles.md`` : 3 références
(chemins liens + un bloc d'imports) migrés.

Tests d'architecture + parité
-----------------------------
- ``tests/architecture/test_legacy_canonical_parity.py`` :
13 entrées (MetricSpec / register_metric /
compute_at_junction / select_metrics / get_metric /
all_metrics / register_document_metric /
register_corpus_aggregator / PROFILE_STANDARD /
PROFILE_FULL / PROFILE_MINIMAL / MetricsResult /
aggregate_metrics) supprimées en même temps que les shims.
La table ne tracke plus que ce qui existe sur disque (Lot A
+ Lot B retirent ainsi 7+13 = 20 entrées au total).
- ``tests/architecture/test_doc_paths.py`` :
``BROKEN_PATHS_BASELINE`` 77 → 80. Trois nouveaux chemins
cassés sur les shims supprimés : 2 dans ``CHANGELOG.md``
(intouchable) + 1 dans ``docs/migration/executor-equivalence.md``
(audit historique de la migration legacy → executor).
Le doc actif ``docs/reference/normalization-profiles.md`` a
été corrigé en place.

Tests consommateurs ajustés
---------------------------
- ``tests/core/test_public_api.py`` :
- Section 7 (« picarones.core.metric_registry — registre typé »)
pointe maintenant vers le canonique.
- Section 8 idem pour ``metric_hooks`` ; l'import alias
``from picarones.core import metric_hooks`` devient
``from picarones.evaluation import metric_hooks``.
- La liste de modules attendue dans ``api-stable.md`` est
ajustée.
- ``tests/core/test_metric_hooks.py`` : docstring d'en-tête
cite désormais ``picarones.evaluation.metric_hooks``.

Production / docstrings
-----------------------
Les docstrings actifs dans ``picarones/measurements/`` et
``picarones/evaluation/`` qui référençaient ``picarones.core.metric_*``
sont mis à jour vers les canoniques :

- ``picarones/measurements/{alto_metrics, builtin_hooks,
metrics, runner/aggregation, __init__}`` : 5 mentions
migrées.
- ``picarones/evaluation/registry/registry.py`` : la note
comparative « Différence avec l'existant
``picarones.core.metric_registry`` » devient
« Différence avec ``picarones.evaluation.metric_registry`` »
(l'autre registre n'est plus legacy).
- ``tests/evaluation/test_sprint_a14_s5_registry.py:236`` :
même mise à jour.

Les docstrings historiques en tête des canoniques
(``picarones/evaluation/metric_*.py:« Module relocalisé
depuis picarones.core.metric_* »``) sont volontairement
conservés comme trace de la migration.

``picarones/core/__init__.py`` : retrait des entrées
``metrics``, ``metric_registry``, ``metric_hooks`` de la
liste des modules ; pointeur explicite vers les canoniques
ajouté à la section « Modules retirés ».

Sync README + CLAUDE.md
-----------------------
``scripts/gen_readme_tables.py`` ré-exécuté : compteur de
tests global passe de 5110 → 5100 (suppression des 13
entrées parametrize de ``test_legacy_canonical_parity`` +
arithmétique des autres tests touchés). Toujours 0 failed
au-delà des 91 préexistants liés aux templates Jinja2.

Acceptance
----------
- ``pytest tests/architecture/`` : 108 passed.
- ``pytest tests/`` : seul le test
``test_readme_dual_lang::test_readme_tables_consistent_with_code``
était en échec après le ré-import — corrigé par
``gen_readme_tables.py`` ; aucune autre nouvelle régression
vs état Lot A (les 91 failed + 89 errors préexistants
sont identiques avant/après Lot B).
- ``ruff check picarones/ tests/`` : All checks passed.

Prochaine étape (Lot C) : migrer ``core.results`` →
``evaluation.benchmark_result``, ``core.corpus`` →
``evaluation.corpus``, ``core.pipeline`` →
``evaluation.pipeline`` (cf. SESSION_HANDOVER §4.D point 3).

https://claude.ai/code/session_011XQZNitg1rCgia8ZD1a2hP

Files changed (36) hide show

CLAUDE.md +3 -3
README.md +1 -1
docs/migration/SESSION_HANDOVER.md +16 -9
docs/reference/api-stable.md +2 -2
docs/reference/normalization-profiles.md +3 -3
picarones/core/__init__.py +6 -6
picarones/core/metric_hooks.py +0 -25
picarones/core/metric_registry.py +0 -22
picarones/core/metrics.py +0 -18
picarones/evaluation/registry/registry.py +4 -3
picarones/measurements/__init__.py +1 -1
picarones/measurements/alto_metrics.py +1 -1
picarones/measurements/builtin_hooks.py +1 -1
picarones/measurements/metrics.py +2 -2
picarones/measurements/runner/aggregation.py +1 -1
tests/architecture/test_doc_paths.py +13 -1
tests/architecture/test_legacy_canonical_parity.py +14 -40
tests/core/test_metric_hooks.py +18 -18
tests/core/test_public_api.py +11 -11
tests/core/test_sprint34_metric_registry.py +5 -5
tests/core/test_sprint_a14_s1_compact_optin.py +1 -1
tests/core/test_sprint_a14_s1_metrics_error_returns_none.py +1 -1
tests/evaluation/test_sprint_a14_s5_registry.py +2 -2
tests/integration/test_alto_baseline.py +1 -1
tests/integration/test_pipeline_ocr_to_alto.py +1 -1
tests/measurements/test_sprint38_ner_metrics.py +1 -1
tests/measurements/test_sprint52_readability.py +2 -2
tests/measurements/test_sprint53_reading_order.py +1 -1
tests/measurements/test_sprint55_unicode_blocks.py +1 -1
tests/measurements/test_sprint56_abbreviations.py +1 -1
tests/measurements/test_sprint57_mufi.py +1 -1
tests/measurements/test_sprint58_early_modern.py +1 -1
tests/measurements/test_sprint59_modern_archives.py +1 -1
tests/measurements/test_sprint60_roman_numerals.py +1 -1
tests/measurements/test_sprint84_searchability.py +2 -2
tests/measurements/test_sprint85_numerical_sequences.py +2 -2

CLAUDE.md CHANGED Viewed

@@ -118,7 +118,7 @@ picarones/
 ## État des tests et bugs historiques
-`pytest tests/` → **5110 passed, 12 skipped, 8 deselected, 0 failed**
 (post-S59).  Les deselected sont les markers `live` (5 tests d'intégration
 contre vraie API/binaire) + `network` (3 tests qui hit le réseau réel),
 opt-in en local via `pytest -m live` ou `pytest -m network`.  Le
@@ -248,7 +248,7 @@ Résumé express :
 1. `git branch --show-current` → `claude/repo-analysis-cukvm`.
 2. `git status` → working tree clean.
-3. `pytest tests/ -q --no-header --tb=line` → 5110 passed.
 4. `git log -1 --format=%B` → décrit la prochaine sub-phase.
 **Règles d'architecture critiques** (apprises à la dure) :
@@ -336,7 +336,7 @@ détecte, arbitre, rend.
 ## Contexte développement
 - **Environnement** : GitHub Codespaces, Python 3.11+
-- **Tests** : `pytest tests/ -q` → 5110 passed, 12 skipped, 24
   deselected, 0 failed (au moment de la pause de session).
 - **Plan d'évolution actif** : [`docs/roadmap/evolution-2026.md`](docs/roadmap/evolution-2026.md).
 - **Plan retrait du legacy (maître)** : [`docs/migration/legacy-retirement-plan.md`](docs/migration/legacy-retirement-plan.md).

 ## État des tests et bugs historiques
+`pytest tests/` → **5100 passed, 12 skipped, 8 deselected, 0 failed**
 (post-S59).  Les deselected sont les markers `live` (5 tests d'intégration
 contre vraie API/binaire) + `network` (3 tests qui hit le réseau réel),
 opt-in en local via `pytest -m live` ou `pytest -m network`.  Le
 1. `git branch --show-current` → `claude/repo-analysis-cukvm`.
 2. `git status` → working tree clean.
+3. `pytest tests/ -q --no-header --tb=line` → 5100 passed.
 4. `git log -1 --format=%B` → décrit la prochaine sub-phase.
 **Règles d'architecture critiques** (apprises à la dure) :
 ## Contexte développement
 - **Environnement** : GitHub Codespaces, Python 3.11+
+- **Tests** : `pytest tests/ -q` → 5100 passed, 12 skipped, 24
   deselected, 0 failed (au moment de la pause de session).
 - **Plan d'évolution actif** : [`docs/roadmap/evolution-2026.md`](docs/roadmap/evolution-2026.md).
 - **Plan retrait du legacy (maître)** : [`docs/migration/legacy-retirement-plan.md`](docs/migration/legacy-retirement-plan.md).

README.md CHANGED Viewed

@@ -395,7 +395,7 @@ ruff check picarones/ tests/
 python -m mypy picarones/core/
 ```
-**Test suite**: ~5110 tests, ~3 min on a modern laptop. Coverage
 floor at 85% (currently ~87%). The `network` marker excludes tests
 requiring live HTTP. A handful of tests depend on optional engines
 (`pero-ocr`, `pytesseract`) and are skipped/fail gracefully when

 python -m mypy picarones/core/
 ```
+**Test suite**: ~5100 tests, ~3 min on a modern laptop. Coverage
 floor at 85% (currently ~87%). The `network` marker excludes tests
 requiring live HTTP. A handful of tests depend on optional engines
 (`pero-ocr`, `pytesseract`) and are skipped/fail gracefully when

docs/migration/SESSION_HANDOVER.md CHANGED Viewed

@@ -203,10 +203,10 @@ fiable.)
 ### 4.A Imports legacy dans les tests
-**102 fichiers** avec **569 statements** d'import depuis les
 paquets legacy (``core``, ``measurements``, ``engines``,
-``llm``, ``pipelines``, ``report``, ``modules``) — Lot A
-terminé (cf. 4.D ci-dessous).
 Top chemins consommés :
@@ -222,11 +222,12 @@ Top chemins consommés :
 au lieu de pointer vers le canonique.  Tant que ces imports
 existent, on **ne peut pas supprimer les shims** (le test casse).
-**Stratégie** : sed batch par chemin (ex : tous les
-``picarones.core.metric_registry`` → ``picarones.evaluation.metric_registry``),
-valider les tests, commit, avancer.  Suppression des shims
-``core.modules.py`` et ``core.facts.py`` faite dans le Lot A
-(commit ``claude/migrate-core-to-domain-8ubIT``).
 ### 4.B Imports legacy en production (hors shims eux-mêmes)
@@ -260,10 +261,16 @@ L'ordre recommandé, par lots de symboles cohérents :
      supprimés ; doc utilisateur (tutorials/, developer/,
      reference/api-stable.md, explanation/narrative-engine.en.md)
      pointe maintenant vers les canoniques.
-2. **Lot B — evaluation/metric_*** (~50 imports) :
    - ``core.metric_registry.*`` → ``evaluation.metric_registry.*``
    - ``core.metric_hooks.*`` → ``evaluation.metric_hooks.*``
    - ``core.metrics.*`` → ``evaluation.metric_result.*``
 3. **Lot C — evaluation/{benchmark_result, corpus, pipeline}** :
    - ``core.results.*`` → ``evaluation.benchmark_result.*``
    - ``core.corpus.*`` → ``evaluation.corpus.*``

 ### 4.A Imports legacy dans les tests
+**101 fichiers** avec **526 statements** d'import depuis les
 paquets legacy (``core``, ``measurements``, ``engines``,
+``llm``, ``pipelines``, ``report``, ``modules``) — Lots A et B
+terminés (cf. 4.D ci-dessous).
 Top chemins consommés :
 au lieu de pointer vers le canonique.  Tant que ces imports
 existent, on **ne peut pas supprimer les shims** (le test casse).
+**Stratégie** : sed batch par chemin, valider les tests,
+commit, avancer.  Shims supprimés dans les Lots A
+(``core.modules`` + ``core.facts``) et B
+(``core.metric_registry`` + ``core.metric_hooks`` +
+``core.metrics``) sur la branche
+``claude/migrate-core-to-domain-8ubIT``.
 ### 4.B Imports legacy en production (hors shims eux-mêmes)
      supprimés ; doc utilisateur (tutorials/, developer/,
      reference/api-stable.md, explanation/narrative-engine.en.md)
      pointe maintenant vers les canoniques.
+2. ✅ **Lot B — evaluation/metric_*** (~45 imports migrés, shims
+   supprimés) :
    - ``core.metric_registry.*`` → ``evaluation.metric_registry.*``
    - ``core.metric_hooks.*`` → ``evaluation.metric_hooks.*``
    - ``core.metrics.*`` → ``evaluation.metric_result.*``
+   - Shims ``picarones.core.metric_registry`` +
+     ``picarones.core.metric_hooks`` + ``picarones.core.metrics``
+     supprimés ; ``docs/reference/normalization-profiles.md`` et
+     ``docs/reference/api-stable.md`` migrés vers les chemins
+     canoniques.
 3. **Lot C — evaluation/{benchmark_result, corpus, pipeline}** :
    - ``core.results.*`` → ``evaluation.benchmark_result.*``
    - ``core.corpus.*`` → ``evaluation.corpus.*``

docs/reference/api-stable.md CHANGED Viewed

@@ -158,7 +158,7 @@ def load_comparison_specs_from_yaml(path) -> tuple[list[PipelineSpec], dict]
 def load_comparison_specs_from_dict(data: dict) -> tuple[list[PipelineSpec], dict]
 ```
-### `picarones.core.metric_registry`
 ```python
 class MetricSpec:    # frozen dataclass : name, func, input_types, ...
@@ -170,7 +170,7 @@ def select_metrics(input_types) -> list[MetricSpec]
 def compute_at_junction(reference, hypothesis, input_types, *, skip_on_error=True) -> dict
 ```
-### `picarones.core.metric_hooks`
 ```python
 # Profils — constantes

 def load_comparison_specs_from_dict(data: dict) -> tuple[list[PipelineSpec], dict]
 ```
+### `picarones.evaluation.metric_registry`
 ```python
 class MetricSpec:    # frozen dataclass : name, func, input_types, ...
 def compute_at_junction(reference, hypothesis, input_types, *, skip_on_error=True) -> dict
 ```
+### `picarones.evaluation.metric_hooks`
 ```python
 # Profils — constantes

docs/reference/normalization-profiles.md CHANGED Viewed

@@ -4,7 +4,7 @@ Picarones expose **7 profils de calcul** qui modulent les métriques
 calculées par le runner selon le use case. Chaque profil active un
 sous-ensemble des **12 hooks document-level** et **12 agrégateurs
 corpus-level** du registre central
-([`picarones/core/metric_hooks.py`](../picarones/core/metric_hooks.py)).
 ## Synoptique
@@ -131,7 +131,7 @@ Voir [`docs/explanation/narrative-engine.md`](developer/narrative-engine.md)
 pour le détail. Pattern de base :
 ```python
-from picarones.core.metric_hooks import (
     register_document_metric, PROFILE_DIAGNOSTICS, PROFILE_FULL,
 )
@@ -148,7 +148,7 @@ def my_hook(*, ground_truth, hypothesis, image_path, corpus_lang, ocr_result):
 ## Code source
-- [`picarones/core/metric_hooks.py`](../picarones/core/metric_hooks.py)
   — registre, profils, `run_document_hooks()`, `run_corpus_aggregators()`.
 - [`picarones/measurements/builtin_hooks.py`](../picarones/measurements/builtin_hooks.py)
   — les 12 hooks doc + 12 agrégateurs natifs Picarones.

 calculées par le runner selon le use case. Chaque profil active un
 sous-ensemble des **12 hooks document-level** et **12 agrégateurs
 corpus-level** du registre central
+([`picarones/evaluation/metric_hooks.py`](../picarones/evaluation/metric_hooks.py)).
 ## Synoptique
 pour le détail. Pattern de base :
 ```python
+from picarones.evaluation.metric_hooks import (
     register_document_metric, PROFILE_DIAGNOSTICS, PROFILE_FULL,
 )
 ## Code source
+- [`picarones/evaluation/metric_hooks.py`](../picarones/evaluation/metric_hooks.py)
   — registre, profils, `run_document_hooks()`, `run_corpus_aggregators()`.
 - [`picarones/measurements/builtin_hooks.py`](../picarones/measurements/builtin_hooks.py)
   — les 12 hooks doc + 12 agrégateurs natifs Picarones.

picarones/core/__init__.py CHANGED Viewed

@@ -13,15 +13,15 @@ Modules
 -------
 - :mod:`corpus`           Document, Corpus, GTLevel + payloads typés
 - :mod:`results`          DocumentResult, EngineReport, BenchmarkResult
-- :mod:`metrics`          MetricsResult (dataclass), aggregate_metrics
-- :mod:`metric_registry`  MetricSpec, register_metric, compute_at_junction
-- :mod:`metric_hooks`     register_document_metric, register_corpus_aggregator
 - :mod:`pipeline`         PipelineRunner, PipelineSpec, PipelineStep
-Modules retirés (Lot A — Phase 4-bis/4-quinquies du retrait du legacy) :
-- ``modules`` → ``picarones.domain.{artifacts, module_protocol}``.
-- ``facts``   → ``picarones.domain.facts``.
 Voir :doc:`docs/explanation/architecture.md` pour le manifeste complet et
 :doc:`docs/reference/api-stable.md` pour le contrat de stabilité de chaque

 -------
 - :mod:`corpus`           Document, Corpus, GTLevel + payloads typés
 - :mod:`results`          DocumentResult, EngineReport, BenchmarkResult
 - :mod:`pipeline`         PipelineRunner, PipelineSpec, PipelineStep
+Modules retirés (Phase 4-bis et suivantes du retrait du legacy) :
+- ``modules``         → ``picarones.domain.{artifacts, module_protocol}`` (Lot A).
+- ``facts``           → ``picarones.domain.facts`` (Lot A).
+- ``metrics``         → ``picarones.evaluation.metric_result`` (Lot B).
+- ``metric_registry`` → ``picarones.evaluation.metric_registry`` (Lot B).
+- ``metric_hooks``    → ``picarones.evaluation.metric_hooks`` (Lot B).
 Voir :doc:`docs/explanation/architecture.md` pour le manifeste complet et
 :doc:`docs/reference/api-stable.md` pour le contrat de stabilité de chaque

picarones/core/metric_hooks.py DELETED Viewed

@@ -1,25 +0,0 @@
-"""``picarones.core.metric_hooks`` — shim re-export (déprécié, suppression 2.0).
-Canonique : :mod:`picarones.evaluation.metric_hooks`.  Phase 4-ter
-du retrait du legacy.
-"""
-from __future__ import annotations
-import warnings
-from picarones.evaluation.metric_hooks import *  # noqa: F401, F403
-from picarones.evaluation.metric_hooks import (  # noqa: F401
-    _CORPUS_AGGREGATORS,
-    _DOCUMENT_HOOKS,
-    _all_corpus_aggregator_names,
-    _all_document_hook_names,
-    _reset_for_tests,
-)
-warnings.warn(
-    "picarones.core.metric_hooks is deprecated and will be removed in 2.0.  "
-    "Import from picarones.evaluation.metric_hooks instead.",
-    DeprecationWarning,
-    stacklevel=2,
-)

picarones/core/metric_registry.py DELETED Viewed

@@ -1,22 +0,0 @@
-"""``picarones.core.metric_registry`` — shim re-export (déprécié, suppression 2.0).
-Canonique : :mod:`picarones.evaluation.metric_registry`.  Phase 4-ter
-du retrait du legacy.
-"""
-from __future__ import annotations
-import warnings
-from picarones.evaluation.metric_registry import *  # noqa: F401, F403
-from picarones.evaluation.metric_registry import (  # noqa: F401
-    _METRIC_REGISTRY,
-    _reset_registry_for_tests,
-)
-warnings.warn(
-    "picarones.core.metric_registry is deprecated and will be removed in 2.0.  "
-    "Import from picarones.evaluation.metric_registry instead.",
-    DeprecationWarning,
-    stacklevel=2,
-)

picarones/core/metrics.py DELETED Viewed

@@ -1,18 +0,0 @@
-"""``picarones.core.metrics`` — shim re-export (déprécié, suppression 2.0).
-Canonique : :mod:`picarones.evaluation.metric_result`.  Phase 4-ter
-du retrait du legacy.
-"""
-from __future__ import annotations
-import warnings
-from picarones.evaluation.metric_result import *  # noqa: F401, F403
-warnings.warn(
-    "picarones.core.metrics is deprecated and will be removed in 2.0.  "
-    "Import from picarones.evaluation.metric_result instead.",
-    DeprecationWarning,
-    stacklevel=2,
-)

picarones/evaluation/registry/registry.py CHANGED Viewed

@@ -6,9 +6,10 @@ de l'application (cf. ``picarones/app/services/registry_service.py``
 au S20) — pas de singleton global, pas de side-effect d'import,
 pas de décorateur magique.
-Différence avec l'existant ``picarones.core.metric_registry``
--------------------------------------------------------------
-L'ancien module utilise un dict module-level
 ``_METRIC_REGISTRY`` rempli par un décorateur ``@register_metric``
 appliqué au top-level d'autres modules.  Conséquence : un
 ``import picarones`` charge ~50 sous-modules pour amorcer le

 au S20) — pas de singleton global, pas de side-effect d'import,
 pas de décorateur magique.
+Différence avec ``picarones.evaluation.metric_registry``
+--------------------------------------------------------
+L'autre registre (relocalisé depuis ``picarones.core.metric_registry``
+en Phase 4-ter) utilise un dict module-level
 ``_METRIC_REGISTRY`` rempli par un décorateur ``@register_metric``
 appliqué au top-level d'autres modules.  Conséquence : un
 ``import picarones`` charge ~50 sous-modules pour amorcer le

picarones/measurements/__init__.py CHANGED Viewed

@@ -125,7 +125,7 @@ la règle de dépendance des 3 cercles.
 # qui violait la règle.
 #
 # Tout consommateur qui veut utiliser ``compute_at_junction``
-# (``picarones.core.metric_registry``) doit avoir importé
 # ``picarones.measurements`` au moins une fois pour que les décorateurs
 # ``@register_metric`` aient été exécutés. C'est le cas par défaut dans
 # le pipeline standard ; les notebooks isolés peuvent ajouter

 # qui violait la règle.
 #
 # Tout consommateur qui veut utiliser ``compute_at_junction``
+# (``picarones.evaluation.metric_registry``) doit avoir importé
 # ``picarones.measurements`` au moins une fois pour que les décorateurs
 # ``@register_metric`` aient été exécutés. C'est le cas par défaut dans
 # le pipeline standard ; les notebooks isolés peuvent ajouter

picarones/measurements/alto_metrics.py CHANGED Viewed

@@ -41,7 +41,7 @@ Cas typique d'usage
 Un VLM produit un ALTO via un reconstructeur (par exemple
 :class:`picarones.modules.TextToAltoMonoRegion`).  La GT
 :class:`picarones.core.corpus.AltoGT` du document est confrontée à la
-sortie via :func:`picarones.core.metric_registry.compute_at_junction`,
 qui sélectionne automatiquement les métriques ``(ALTO, ALTO)``
 ci-dessous.
 """

 Un VLM produit un ALTO via un reconstructeur (par exemple
 :class:`picarones.modules.TextToAltoMonoRegion`).  La GT
 :class:`picarones.core.corpus.AltoGT` du document est confrontée à la
+sortie via :func:`picarones.evaluation.metric_registry.compute_at_junction`,
 qui sélectionne automatiquement les métriques ``(ALTO, ALTO)``
 ci-dessous.
 """

picarones/measurements/builtin_hooks.py CHANGED Viewed

@@ -17,7 +17,7 @@ CER/WER comptent). Les profils ``economics`` et ``pipeline`` sont
 réservés pour des hooks futurs.
 L'import de ce module **suffit** à peupler les registres :
-:mod:`picarones.core.metric_hooks` se contente d'exposer les
 décorateurs ; le runner ne dépend que d'une seule fonction —
 ``select_document_hooks(profile)`` — pour découvrir les hooks actifs.

 réservés pour des hooks futurs.
 L'import de ce module **suffit** à peupler les registres :
+:mod:`picarones.evaluation.metric_hooks` se contente d'exposer les
 décorateurs ; le runner ne dépend que d'une seule fonction —
 ``select_document_hooks(profile)`` — pour découvrir les hooks actifs.

picarones/measurements/metrics.py CHANGED Viewed

@@ -15,8 +15,8 @@ Métriques implémentées
 Modèle de données
 -----------------
 ``MetricsResult`` (dataclass pure) et ``aggregate_metrics`` (stats
-moyenne/médiane via ``statistics`` stdlib) vivent en cercle 1 dans
-:mod:`picarones.core.metrics`. Ils sont ré-exportés ici pour la
 commodité — un module qui consomme déjà ``compute_metrics`` n'a
 qu'à en faire ``from picarones.measurements.metrics import …``.
 """

 Modèle de données
 -----------------
 ``MetricsResult`` (dataclass pure) et ``aggregate_metrics`` (stats
+moyenne/médiane via ``statistics`` stdlib) vivent en couche 3 dans
+:mod:`picarones.evaluation.metric_result`. Ils sont ré-exportés ici pour la
 commodité — un module qui consomme déjà ``compute_metrics`` n'a
 qu'à en faire ``from picarones.measurements.metrics import …``.
 """

picarones/measurements/runner/aggregation.py CHANGED Viewed

@@ -4,7 +4,7 @@ Chantier 2 (post-Sprint 97) : la logique d'agrégation par-engine de
 toutes les métriques (confusion, taxonomy, structure, image_quality,
 line_metrics, hallucination, calibration, char_scores) vit désormais
 dans :mod:`picarones.measurements.builtin_hooks` (single source of truth,
-exposé via le registre :mod:`picarones.core.metric_hooks`).
 Les noms ci-dessous restent disponibles depuis
 ``picarones.measurements.runner`` pour la rétrocompat des tests

 toutes les métriques (confusion, taxonomy, structure, image_quality,
 line_metrics, hallucination, calibration, char_scores) vit désormais
 dans :mod:`picarones.measurements.builtin_hooks` (single source of truth,
+exposé via le registre :mod:`picarones.evaluation.metric_hooks`).
 Les noms ci-dessous restent disponibles depuis
 ``picarones.measurements.runner`` pour la rétrocompat des tests

tests/architecture/test_doc_paths.py CHANGED Viewed

@@ -51,12 +51,24 @@ REPO_ROOT = Path(__file__).resolve().parents[2]
 #:   ``CHANGELOG.md`` (journal versionné) et
 #:   ``docs/roadmap/evolution-2026.md`` (plan stratégique historique
 #:   décrivant la création initiale du module).
 #:
 #: Les chemins cassés restants sont **TOUS** dans :
 #: - ``CHANGELOG.md`` : journal historique versionné, intouchable.
 #: - ``docs/audits/*.md`` : audits historiques, intouchables.
 #: - ``docs/roadmap/evolution-2026.md`` : plan stratégique historique.
-BROKEN_PATHS_BASELINE = 77
 #: Patrons de fichiers de documentation à scanner.
 DOC_GLOBS: tuple[str, ...] = (

 #:   ``CHANGELOG.md`` (journal versionné) et
 #:   ``docs/roadmap/evolution-2026.md`` (plan stratégique historique
 #:   décrivant la création initiale du module).
+#: - 80 (sprint « Lot B — core.metric_* → evaluation », 2026-05-07) :
+#:   suppression des shims ``picarones/core/metric_registry.py``,
+#:   ``picarones/core/metric_hooks.py`` et
+#:   ``picarones/core/metrics.py``.  Trois nouvelles références
+#:   héritées : deux dans ``CHANGELOG.md`` (intouchable) + une
+#:   dans ``docs/migration/executor-equivalence.md`` (audit
+#:   historique de la migration legacy → executor).  Le doc actif
+#:   ``docs/reference/normalization-profiles.md`` a été corrigé
+#:   en place vers ``picarones/evaluation/metric_hooks.py``.
 #:
 #: Les chemins cassés restants sont **TOUS** dans :
 #: - ``CHANGELOG.md`` : journal historique versionné, intouchable.
 #: - ``docs/audits/*.md`` : audits historiques, intouchables.
 #: - ``docs/roadmap/evolution-2026.md`` : plan stratégique historique.
+#: - ``docs/migration/executor-equivalence.md`` : audit historique
+#:   d'équivalence executor (cite des chemins legacy à des fins
+#:   de comparaison).
+BROKEN_PATHS_BASELINE = 80
 #: Patrons de fichiers de documentation à scanner.
 DOC_GLOBS: tuple[str, ...] = (

tests/architecture/test_legacy_canonical_parity.py CHANGED Viewed

@@ -121,47 +121,21 @@ LEGACY_PARITY: dict[str, ParityEntry] = {
     # retirées en même temps que les shims pour garder la table
     # alignée avec l'arbre legacy réellement présent sur disque.
     # ──────────────────────────────────────────────────────────
-    # Phase 4-ter — metric_registry, metric_hooks, metrics, results
     # ──────────────────────────────────────────────────────────
-    "picarones.core.metric_registry.MetricSpec": {
-        "canonical": "picarones.evaluation.metric_registry.MetricSpec",
-    },
-    "picarones.core.metric_registry.register_metric": {
-        "canonical": "picarones.evaluation.metric_registry.register_metric",
-    },
-    "picarones.core.metric_registry.compute_at_junction": {
-        "canonical": "picarones.evaluation.metric_registry.compute_at_junction",
-    },
-    "picarones.core.metric_registry.select_metrics": {
-        "canonical": "picarones.evaluation.metric_registry.select_metrics",
-    },
-    "picarones.core.metric_registry.get_metric": {
-        "canonical": "picarones.evaluation.metric_registry.get_metric",
-    },
-    "picarones.core.metric_registry.all_metrics": {
-        "canonical": "picarones.evaluation.metric_registry.all_metrics",
-    },
-    "picarones.core.metric_hooks.register_document_metric": {
-        "canonical": "picarones.evaluation.metric_hooks.register_document_metric",
-    },
-    "picarones.core.metric_hooks.register_corpus_aggregator": {
-        "canonical": "picarones.evaluation.metric_hooks.register_corpus_aggregator",
-    },
-    "picarones.core.metric_hooks.PROFILE_STANDARD": {
-        "canonical": "picarones.evaluation.metric_hooks.PROFILE_STANDARD",
-    },
-    "picarones.core.metric_hooks.PROFILE_FULL": {
-        "canonical": "picarones.evaluation.metric_hooks.PROFILE_FULL",
-    },
-    "picarones.core.metric_hooks.PROFILE_MINIMAL": {
-        "canonical": "picarones.evaluation.metric_hooks.PROFILE_MINIMAL",
-    },
-    "picarones.core.metrics.MetricsResult": {
-        "canonical": "picarones.evaluation.metric_result.MetricsResult",
-    },
-    "picarones.core.metrics.aggregate_metrics": {
-        "canonical": "picarones.evaluation.metric_result.aggregate_metrics",
-    },
     "picarones.core.results.BenchmarkResult": {
         "canonical": "picarones.evaluation.benchmark_result.BenchmarkResult",
     },

     # retirées en même temps que les shims pour garder la table
     # alignée avec l'arbre legacy réellement présent sur disque.
     # ──────────────────────────────────────────────────────────
+    # Phase 4-ter — metric_registry, metric_hooks, metrics
+    # ──────────────────────────────────────────────────────────
+    # ``core.metric_registry``, ``core.metric_hooks`` et
+    # ``core.metrics`` ont été supprimés (Lot B de la migration
+    # core → evaluation).  Les symboles publics
+    # (MetricSpec, register_metric, compute_at_junction, …,
+    # PROFILE_*, KNOWN_PROFILES, MetricsResult, aggregate_metrics)
+    # sont exposés depuis
+    # ``picarones.evaluation.{metric_registry, metric_hooks,
+    # metric_result}``.  Comme pour le Lot A, les entrées sont
+    # retirées en même temps que les shims pour garder la table
+    # alignée avec l'arbre legacy réellement présent sur disque.
+    # ──────────────────────────────────────────────────────────
+    # Phase 4-ter (résiduel) — results
     # ──────────────────────────────────────────────────────────
     "picarones.core.results.BenchmarkResult": {
         "canonical": "picarones.evaluation.benchmark_result.BenchmarkResult",
     },

tests/core/test_metric_hooks.py CHANGED Viewed

@@ -2,7 +2,7 @@
 Couvre :
-- :mod:`picarones.core.metric_hooks` : profils, registre, décorateurs,
   sélection par profil, exécution avec gestion d'erreurs.
 - :mod:`picarones.measurements.builtin_hooks` : enregistre les 12+12 hooks
   historiques sur le profil ``standard``.
@@ -28,7 +28,7 @@ import pytest
 class TestProfiles:
     def test_known_profiles_complete(self):
-        from picarones.core.metric_hooks import KNOWN_PROFILES
         assert KNOWN_PROFILES == frozenset({
             "minimal", "standard", "philological", "diagnostics",
@@ -36,20 +36,20 @@ class TestProfiles:
         })
     def test_validate_profile_accepts_known(self):
-        from picarones.core.metric_hooks import validate_profile
         for p in ["minimal", "standard", "philological", "diagnostics",
                   "economics", "pipeline", "full"]:
             validate_profile(p)  # ne lève pas
     def test_validate_profile_rejects_unknown(self):
-        from picarones.core.metric_hooks import validate_profile
         with pytest.raises(ValueError, match="profil inconnu"):
             validate_profile("philolagic")
     def test_validate_profile_rejects_empty(self):
-        from picarones.core.metric_hooks import validate_profile
         with pytest.raises(ValueError):
             validate_profile("")
@@ -64,7 +64,7 @@ class TestBuiltinHooksRegistration:
     def test_twelve_document_hooks_registered(self):
         # Import déclenche l'enregistrement via décorateurs.
         import picarones.measurements.builtin_hooks  # noqa: F401
-        from picarones.core.metric_hooks import _all_document_hook_names
         names = set(_all_document_hook_names())
         expected = {
@@ -77,7 +77,7 @@ class TestBuiltinHooksRegistration:
     def test_twelve_corpus_aggregators_registered(self):
         import picarones.measurements.builtin_hooks  # noqa: F401
-        from picarones.core.metric_hooks import _all_corpus_aggregator_names
         names = set(_all_corpus_aggregator_names())
         expected = {
@@ -90,7 +90,7 @@ class TestBuiltinHooksRegistration:
     def test_standard_profile_activates_all_hooks(self):
         import picarones.measurements.builtin_hooks  # noqa: F401
-        from picarones.core.metric_hooks import (
             select_corpus_aggregators, select_document_hooks,
         )
@@ -101,7 +101,7 @@ class TestBuiltinHooksRegistration:
     def test_minimal_profile_activates_zero_hooks(self):
         import picarones.measurements.builtin_hooks  # noqa: F401
-        from picarones.core.metric_hooks import (
             select_corpus_aggregators, select_document_hooks,
         )
@@ -115,7 +115,7 @@ class TestBuiltinHooksRegistration:
         import picarones.measurements.builtin_hooks  # noqa: F401
         from dataclasses import fields
-        from picarones.core.metric_hooks import select_document_hooks
         from picarones.core.results import DocumentResult
         doc_fields = {f.name for f in fields(DocumentResult)}
@@ -129,7 +129,7 @@ class TestBuiltinHooksRegistration:
         import picarones.measurements.builtin_hooks  # noqa: F401
         from dataclasses import fields
-        from picarones.core.metric_hooks import select_corpus_aggregators
         from picarones.core.results import EngineReport
         report_fields = {f.name for f in fields(EngineReport)}
@@ -157,7 +157,7 @@ class _MockEngineResult:
 class TestRunDocumentHooks:
     def test_minimal_profile_returns_empty_dict(self):
-        from picarones.core.metric_hooks import run_document_hooks
         result = run_document_hooks(
             "minimal",
@@ -172,7 +172,7 @@ class TestRunDocumentHooks:
     def test_hook_exception_does_not_propagate(self, caplog):
         """Un hook qui lève doit être loggé en warning, pas faire
         échouer le calcul des autres hooks."""
-        import picarones.core.metric_hooks as mh
         # Crée un profil de test isolé via un hook qui lève
         custom_profile_name = "standard"
@@ -205,7 +205,7 @@ class TestRunDocumentHooks:
     def test_requires_success_skips_failed_ocr(self):
         """Un hook ``requires_success=True`` ne doit pas être appelé si
         ``ocr_result.success`` est False."""
-        import picarones.core.metric_hooks as mh
         called = []
@@ -233,7 +233,7 @@ class TestRunDocumentHooks:
     def test_requires_token_confidences_skips_when_absent(self):
         """Un hook ``requires_token_confidences=True`` doit être sauté
         quand ``ocr_result.token_confidences`` est None."""
-        import picarones.core.metric_hooks as mh
         called = []
@@ -299,7 +299,7 @@ class TestDecoratorIdempotence:
     def test_register_same_func_twice_is_silent(self):
         """Ré-import d'un module en test ne doit pas lever sur le
         décorateur déjà appliqué."""
-        from picarones.core.metric_hooks import register_document_metric
         @register_document_metric(
             name="reimport_test_chantier2",
@@ -319,7 +319,7 @@ class TestDecoratorIdempotence:
         assert result is _hook
     def test_register_different_func_same_name_raises(self):
-        from picarones.core.metric_hooks import register_document_metric
         @register_document_metric(
             name="conflict_test_chantier2",
@@ -339,7 +339,7 @@ class TestDecoratorIdempotence:
                 return None
     def test_register_unknown_profile_raises(self):
-        from picarones.core.metric_hooks import register_document_metric
         with pytest.raises(ValueError, match="profils inconnus"):
             @register_document_metric(

 Couvre :
+- :mod:`picarones.evaluation.metric_hooks` : profils, registre, décorateurs,
   sélection par profil, exécution avec gestion d'erreurs.
 - :mod:`picarones.measurements.builtin_hooks` : enregistre les 12+12 hooks
   historiques sur le profil ``standard``.
 class TestProfiles:
     def test_known_profiles_complete(self):
+        from picarones.evaluation.metric_hooks import KNOWN_PROFILES
         assert KNOWN_PROFILES == frozenset({
             "minimal", "standard", "philological", "diagnostics",
         })
     def test_validate_profile_accepts_known(self):
+        from picarones.evaluation.metric_hooks import validate_profile
         for p in ["minimal", "standard", "philological", "diagnostics",
                   "economics", "pipeline", "full"]:
             validate_profile(p)  # ne lève pas
     def test_validate_profile_rejects_unknown(self):
+        from picarones.evaluation.metric_hooks import validate_profile
         with pytest.raises(ValueError, match="profil inconnu"):
             validate_profile("philolagic")
     def test_validate_profile_rejects_empty(self):
+        from picarones.evaluation.metric_hooks import validate_profile
         with pytest.raises(ValueError):
             validate_profile("")
     def test_twelve_document_hooks_registered(self):
         # Import déclenche l'enregistrement via décorateurs.
         import picarones.measurements.builtin_hooks  # noqa: F401
+        from picarones.evaluation.metric_hooks import _all_document_hook_names
         names = set(_all_document_hook_names())
         expected = {
     def test_twelve_corpus_aggregators_registered(self):
         import picarones.measurements.builtin_hooks  # noqa: F401
+        from picarones.evaluation.metric_hooks import _all_corpus_aggregator_names
         names = set(_all_corpus_aggregator_names())
         expected = {
     def test_standard_profile_activates_all_hooks(self):
         import picarones.measurements.builtin_hooks  # noqa: F401
+        from picarones.evaluation.metric_hooks import (
             select_corpus_aggregators, select_document_hooks,
         )
     def test_minimal_profile_activates_zero_hooks(self):
         import picarones.measurements.builtin_hooks  # noqa: F401
+        from picarones.evaluation.metric_hooks import (
             select_corpus_aggregators, select_document_hooks,
         )
         import picarones.measurements.builtin_hooks  # noqa: F401
         from dataclasses import fields
+        from picarones.evaluation.metric_hooks import select_document_hooks
         from picarones.core.results import DocumentResult
         doc_fields = {f.name for f in fields(DocumentResult)}
         import picarones.measurements.builtin_hooks  # noqa: F401
         from dataclasses import fields
+        from picarones.evaluation.metric_hooks import select_corpus_aggregators
         from picarones.core.results import EngineReport
         report_fields = {f.name for f in fields(EngineReport)}
 class TestRunDocumentHooks:
     def test_minimal_profile_returns_empty_dict(self):
+        from picarones.evaluation.metric_hooks import run_document_hooks
         result = run_document_hooks(
             "minimal",
     def test_hook_exception_does_not_propagate(self, caplog):
         """Un hook qui lève doit être loggé en warning, pas faire
         échouer le calcul des autres hooks."""
+        import picarones.evaluation.metric_hooks as mh
         # Crée un profil de test isolé via un hook qui lève
         custom_profile_name = "standard"
     def test_requires_success_skips_failed_ocr(self):
         """Un hook ``requires_success=True`` ne doit pas être appelé si
         ``ocr_result.success`` est False."""
+        import picarones.evaluation.metric_hooks as mh
         called = []
     def test_requires_token_confidences_skips_when_absent(self):
         """Un hook ``requires_token_confidences=True`` doit être sauté
         quand ``ocr_result.token_confidences`` est None."""
+        import picarones.evaluation.metric_hooks as mh
         called = []
     def test_register_same_func_twice_is_silent(self):
         """Ré-import d'un module en test ne doit pas lever sur le
         décorateur déjà appliqué."""
+        from picarones.evaluation.metric_hooks import register_document_metric
         @register_document_metric(
             name="reimport_test_chantier2",
         assert result is _hook
     def test_register_different_func_same_name_raises(self):
+        from picarones.evaluation.metric_hooks import register_document_metric
         @register_document_metric(
             name="conflict_test_chantier2",
                 return None
     def test_register_unknown_profile_raises(self):
+        from picarones.evaluation.metric_hooks import register_document_metric
         with pytest.raises(ValueError, match="profils inconnus"):
             @register_document_metric(

tests/core/test_public_api.py CHANGED Viewed

@@ -292,25 +292,25 @@ class TestPipelineSpecLoaderApi:
 # ──────────────────────────────────────────────────────────────────────────
-# 7. picarones.core.metric_registry — registre typé
 # ──────────────────────────────────────────────────────────────────────────
 class TestMetricRegistryApi:
     def test_metric_spec_class(self):
-        _assert_class("picarones.core.metric_registry", "MetricSpec")
     @pytest.mark.parametrize("name", [
         "register_metric", "get_metric", "all_metrics",
         "select_metrics", "compute_at_junction",
     ])
     def test_function_exists(self, name):
-        _assert_function("picarones.core.metric_registry", name)
     def test_register_metric_keyword_only(self):
         """``register_metric`` est exclusivement keyword-only sur ``name``,
         ``input_types`` etc. — décorateur factory."""
-        from picarones.core.metric_registry import register_metric
         sig = inspect.signature(register_metric)
         for name in ["name", "input_types", "description"]:
             assert name in sig.parameters, (
@@ -319,7 +319,7 @@ class TestMetricRegistryApi:
 # ──────────────────────────────────────────────────────────────────────────
-# 8. picarones.core.metric_hooks — profils + registre de hooks
 # ──────────────────────────────────────────────────────────────────────────
@@ -330,14 +330,14 @@ class TestMetricHooksApi:
         "PROFILE_FULL",
     ])
     def test_profile_constant_exists(self, profile_name):
-        from picarones.core import metric_hooks
         assert hasattr(metric_hooks, profile_name), (
             f"Profil {profile_name} disparu"
         )
         assert isinstance(getattr(metric_hooks, profile_name), str)
     def test_known_profiles_set(self):
-        from picarones.core.metric_hooks import KNOWN_PROFILES
         assert isinstance(KNOWN_PROFILES, frozenset)
         # Les 7 profils contractuels
@@ -347,7 +347,7 @@ class TestMetricHooksApi:
         "DocumentMetricHook", "CorpusMetricAggregator",
     ])
     def test_class_exists(self, name):
-        _assert_class("picarones.core.metric_hooks", name)
     @pytest.mark.parametrize("name", [
         "validate_profile",
@@ -356,7 +356,7 @@ class TestMetricHooksApi:
         "run_document_hooks", "run_corpus_aggregators",
     ])
     def test_function_exists(self, name):
-        _assert_function("picarones.core.metric_hooks", name)
 # ──────────────────────────────────────────────────────────────────────────
@@ -502,8 +502,8 @@ class TestApiStableDoc:
             "picarones.measurements.pipeline_benchmark",
             "picarones.measurements.pipeline_comparison",
             "picarones.measurements.pipeline_spec_loader",
-            "picarones.core.metric_registry",
-            "picarones.core.metric_hooks",
             "picarones.measurements.builtin_metrics",
             "picarones.measurements.alto_metrics",
             "picarones.web.jobs",

 # ──────────────────────────────────────────────────────────────────────────
+# 7. picarones.evaluation.metric_registry — registre typé (canonique)
 # ──────────────────────────────────────────────────────────────────────────
 class TestMetricRegistryApi:
     def test_metric_spec_class(self):
+        _assert_class("picarones.evaluation.metric_registry", "MetricSpec")
     @pytest.mark.parametrize("name", [
         "register_metric", "get_metric", "all_metrics",
         "select_metrics", "compute_at_junction",
     ])
     def test_function_exists(self, name):
+        _assert_function("picarones.evaluation.metric_registry", name)
     def test_register_metric_keyword_only(self):
         """``register_metric`` est exclusivement keyword-only sur ``name``,
         ``input_types`` etc. — décorateur factory."""
+        from picarones.evaluation.metric_registry import register_metric
         sig = inspect.signature(register_metric)
         for name in ["name", "input_types", "description"]:
             assert name in sig.parameters, (
 # ──────────────────────────────────────────────────────────────────────────
+# 8. picarones.evaluation.metric_hooks — profils + registre de hooks (canonique)
 # ──────────────────────────────────────────────────────────────────────────
         "PROFILE_FULL",
     ])
     def test_profile_constant_exists(self, profile_name):
+        from picarones.evaluation import metric_hooks
         assert hasattr(metric_hooks, profile_name), (
             f"Profil {profile_name} disparu"
         )
         assert isinstance(getattr(metric_hooks, profile_name), str)
     def test_known_profiles_set(self):
+        from picarones.evaluation.metric_hooks import KNOWN_PROFILES
         assert isinstance(KNOWN_PROFILES, frozenset)
         # Les 7 profils contractuels
         "DocumentMetricHook", "CorpusMetricAggregator",
     ])
     def test_class_exists(self, name):
+        _assert_class("picarones.evaluation.metric_hooks", name)
     @pytest.mark.parametrize("name", [
         "validate_profile",
         "run_document_hooks", "run_corpus_aggregators",
     ])
     def test_function_exists(self, name):
+        _assert_function("picarones.evaluation.metric_hooks", name)
 # ──────────────────────────────────────────────────────────────────────────
             "picarones.measurements.pipeline_benchmark",
             "picarones.measurements.pipeline_comparison",
             "picarones.measurements.pipeline_spec_loader",
+            "picarones.evaluation.metric_registry",
+            "picarones.evaluation.metric_hooks",
             "picarones.measurements.builtin_metrics",
             "picarones.measurements.alto_metrics",
             "picarones.web.jobs",

tests/core/test_sprint34_metric_registry.py CHANGED Viewed

@@ -19,7 +19,7 @@ from __future__ import annotations
 import pytest
-from picarones.core.metric_registry import (
     MetricSpec,
     all_metrics,
     compute_at_junction,
@@ -126,7 +126,7 @@ class TestComputeAtJunction:
             assert "cer" in out
         finally:
             # Nettoyage manuel — pas d'API publique, on écrit dans le dict.
-            from picarones.core.metric_registry import _METRIC_REGISTRY
             _METRIC_REGISTRY.pop("_test_always_raises", None)
@@ -146,7 +146,7 @@ class TestComputeAtJunction:
                     skip_on_error=False,
                 )
         finally:
-            from picarones.core.metric_registry import _METRIC_REGISTRY
             _METRIC_REGISTRY.pop("_test_propagates", None)
@@ -211,7 +211,7 @@ class TestRegistrationGuards:
                 def _second(ref: str, hyp: str) -> float:
                     return 1.0
         finally:
-            from picarones.core.metric_registry import _METRIC_REGISTRY
             _METRIC_REGISTRY.pop("_test_duplicate", None)
@@ -232,7 +232,7 @@ class TestRegistrationGuards:
             input_types=(ArtifactType.TEXT, ArtifactType.TEXT),
         )(_func)
-        from picarones.core.metric_registry import _METRIC_REGISTRY
         _METRIC_REGISTRY.pop("_test_idempotent", None)

 import pytest
+from picarones.evaluation.metric_registry import (
     MetricSpec,
     all_metrics,
     compute_at_junction,
             assert "cer" in out
         finally:
             # Nettoyage manuel — pas d'API publique, on écrit dans le dict.
+            from picarones.evaluation.metric_registry import _METRIC_REGISTRY
             _METRIC_REGISTRY.pop("_test_always_raises", None)
                     skip_on_error=False,
                 )
         finally:
+            from picarones.evaluation.metric_registry import _METRIC_REGISTRY
             _METRIC_REGISTRY.pop("_test_propagates", None)
                 def _second(ref: str, hyp: str) -> float:
                     return 1.0
         finally:
+            from picarones.evaluation.metric_registry import _METRIC_REGISTRY
             _METRIC_REGISTRY.pop("_test_duplicate", None)
             input_types=(ArtifactType.TEXT, ArtifactType.TEXT),
         )(_func)
+        from picarones.evaluation.metric_registry import _METRIC_REGISTRY
         _METRIC_REGISTRY.pop("_test_idempotent", None)

tests/core/test_sprint_a14_s1_compact_optin.py CHANGED Viewed

@@ -19,7 +19,7 @@ suppression des analyses via ``drop_analyses=True``.
 from __future__ import annotations
-from picarones.core.metrics import MetricsResult
 from picarones.core.results import DocumentResult

 from __future__ import annotations
+from picarones.evaluation.metric_result import MetricsResult
 from picarones.core.results import DocumentResult

tests/core/test_sprint_a14_s1_metrics_error_returns_none.py CHANGED Viewed

@@ -19,7 +19,7 @@ from __future__ import annotations
 from unittest import mock
-from picarones.core.metrics import MetricsResult, aggregate_metrics
 from picarones.measurements import metrics as metrics_module
 from picarones.measurements.metrics import compute_metrics

 from unittest import mock
+from picarones.evaluation.metric_result import MetricsResult, aggregate_metrics
 from picarones.measurements import metrics as metrics_module
 from picarones.measurements.metrics import compute_metrics

tests/evaluation/test_sprint_a14_s5_registry.py CHANGED Viewed

@@ -232,8 +232,8 @@ class TestCompute:
 class TestNoGlobalSingleton:
     def test_two_registries_are_independent(self) -> None:
-        """Différence cruciale avec l'ancien
-        ``picarones.core.metric_registry`` qui a un dict global :
         deux ``MetricRegistry()`` ne se partagent rien."""
         reg_a = MetricRegistry()
         reg_b = MetricRegistry()

 class TestNoGlobalSingleton:
     def test_two_registries_are_independent(self) -> None:
+        """Différence cruciale avec
+        ``picarones.evaluation.metric_registry`` qui a un dict global :
         deux ``MetricRegistry()`` ne se partagent rien."""
         reg_a = MetricRegistry()
         reg_b = MetricRegistry()

tests/integration/test_alto_baseline.py CHANGED Viewed

@@ -27,7 +27,7 @@ from picarones.measurements.alto_metrics import (
     extract_text_from_alto,
 )
 from picarones.core.corpus import AltoGT, Document, GTLevel, TextGT
-from picarones.core.metric_registry import compute_at_junction, select_metrics
 from picarones.domain.artifacts import ArtifactType
 from picarones.domain.module_protocol import BaseModule
 from picarones.evaluation.pipeline import (

     extract_text_from_alto,
 )
 from picarones.core.corpus import AltoGT, Document, GTLevel, TextGT
+from picarones.evaluation.metric_registry import compute_at_junction, select_metrics
 from picarones.domain.artifacts import ArtifactType
 from picarones.domain.module_protocol import BaseModule
 from picarones.evaluation.pipeline import (

tests/integration/test_pipeline_ocr_to_alto.py CHANGED Viewed

@@ -32,7 +32,7 @@ from typing import Any
 import pytest
 from picarones.core.corpus import AltoGT, Document, GTLevel, TextGT
-from picarones.core.metric_registry import select_metrics
 from picarones.domain.artifacts import ArtifactType
 from picarones.domain.module_protocol import BaseModule
 from picarones.evaluation.pipeline import (

 import pytest
 from picarones.core.corpus import AltoGT, Document, GTLevel, TextGT
+from picarones.evaluation.metric_registry import select_metrics
 from picarones.domain.artifacts import ArtifactType
 from picarones.domain.module_protocol import BaseModule
 from picarones.evaluation.pipeline import (

tests/measurements/test_sprint38_ner_metrics.py CHANGED Viewed

@@ -31,7 +31,7 @@ from __future__ import annotations
 import pytest
-from picarones.core.metric_registry import compute_at_junction, select_metrics
 from picarones.domain.artifacts import ArtifactType
 from picarones.measurements.ner import Entity, compute_ner_metrics, ner_f1

 import pytest
+from picarones.evaluation.metric_registry import compute_at_junction, select_metrics
 from picarones.domain.artifacts import ArtifactType
 from picarones.measurements.ner import Entity, compute_ner_metrics, ner_f1

tests/measurements/test_sprint52_readability.py CHANGED Viewed

@@ -28,7 +28,7 @@ from __future__ import annotations
 import pytest
-from picarones.core.metric_registry import select_metrics
 from picarones.domain.artifacts import ArtifactType
 from picarones.measurements.readability import (
     count_sentences,
@@ -236,7 +236,7 @@ class TestRegistryIntegration:
         assert "flesch_delta_en" in names
     def test_registered_function_returns_same_as_direct_call(self) -> None:
-        from picarones.core.metric_registry import compute_at_junction
         gt = "Je vous envoie cette missive afin de vous informer."
         ocr = "Je vous écris une lettre. Voici la situation."

 import pytest
+from picarones.evaluation.metric_registry import select_metrics
 from picarones.domain.artifacts import ArtifactType
 from picarones.measurements.readability import (
     count_sentences,
         assert "flesch_delta_en" in names
     def test_registered_function_returns_same_as_direct_call(self) -> None:
+        from picarones.evaluation.metric_registry import compute_at_junction
         gt = "Je vous envoie cette missive afin de vous informer."
         ocr = "Je vous écris une lettre. Voici la situation."

tests/measurements/test_sprint53_reading_order.py CHANGED Viewed

@@ -26,7 +26,7 @@ from __future__ import annotations
 import pytest
-from picarones.core.metric_registry import compute_at_junction, select_metrics
 from picarones.domain.artifacts import ArtifactType
 from picarones.measurements.reading_order import (
     compute_reading_order_metrics,

 import pytest
+from picarones.evaluation.metric_registry import compute_at_junction, select_metrics
 from picarones.domain.artifacts import ArtifactType
 from picarones.measurements.reading_order import (
     compute_reading_order_metrics,

tests/measurements/test_sprint55_unicode_blocks.py CHANGED Viewed

@@ -23,7 +23,7 @@ from __future__ import annotations
 import pytest
-from picarones.core.metric_registry import compute_at_junction, select_metrics
 from picarones.domain.artifacts import ArtifactType
 from picarones.measurements.unicode_blocks import (
     compute_unicode_block_accuracy,

 import pytest
+from picarones.evaluation.metric_registry import compute_at_junction, select_metrics
 from picarones.domain.artifacts import ArtifactType
 from picarones.measurements.unicode_blocks import (
     compute_unicode_block_accuracy,

tests/measurements/test_sprint56_abbreviations.py CHANGED Viewed

@@ -34,7 +34,7 @@ from picarones.measurements.abbreviations import (
     compute_abbreviation_metrics,
     detect_abbreviations,
 )
-from picarones.core.metric_registry import compute_at_junction, select_metrics
 from picarones.domain.artifacts import ArtifactType

     compute_abbreviation_metrics,
     detect_abbreviations,
 )
+from picarones.evaluation.metric_registry import compute_at_junction, select_metrics
 from picarones.domain.artifacts import ArtifactType

tests/measurements/test_sprint57_mufi.py CHANGED Viewed

@@ -31,7 +31,7 @@ from __future__ import annotations
 import pytest
-from picarones.core.metric_registry import compute_at_junction, select_metrics
 from picarones.domain.artifacts import ArtifactType
 from picarones.measurements.mufi import (
     compute_mufi_coverage,

 import pytest
+from picarones.evaluation.metric_registry import compute_at_junction, select_metrics
 from picarones.domain.artifacts import ArtifactType
 from picarones.measurements.mufi import (
     compute_mufi_coverage,

tests/measurements/test_sprint58_early_modern.py CHANGED Viewed

@@ -38,7 +38,7 @@ from picarones.measurements.early_modern_typography import (
     early_modern_preservation,
     get_category,
 )
-from picarones.core.metric_registry import compute_at_junction, select_metrics
 from picarones.domain.artifacts import ArtifactType

     early_modern_preservation,
     get_category,
 )
+from picarones.evaluation.metric_registry import compute_at_junction, select_metrics
 from picarones.domain.artifacts import ArtifactType

tests/measurements/test_sprint59_modern_archives.py CHANGED Viewed

@@ -35,7 +35,7 @@ from __future__ import annotations
 import pytest
-from picarones.core.metric_registry import compute_at_junction, select_metrics
 from picarones.measurements.modern_archives import (
     ADDRESS,
     ADMINISTRATIVE,

 import pytest
+from picarones.evaluation.metric_registry import compute_at_junction, select_metrics
 from picarones.measurements.modern_archives import (
     ADDRESS,
     ADMINISTRATIVE,

tests/measurements/test_sprint60_roman_numerals.py CHANGED Viewed

@@ -21,7 +21,7 @@ from __future__ import annotations
 import pytest
-from picarones.core.metric_registry import compute_at_junction, select_metrics
 from picarones.domain.artifacts import ArtifactType
 from picarones.evaluation.metrics.roman_numerals import (
     ALL_STATUSES,

 import pytest
+from picarones.evaluation.metric_registry import compute_at_junction, select_metrics
 from picarones.domain.artifacts import ArtifactType
 from picarones.evaluation.metrics.roman_numerals import (
     ALL_STATUSES,

tests/measurements/test_sprint84_searchability.py CHANGED Viewed

@@ -179,7 +179,7 @@ class TestRealisticCase:
 class TestRegistry:
     def test_metric_registered(self) -> None:
-        from picarones.core.metric_registry import select_metrics
         from picarones.domain.artifacts import ArtifactType
         metrics = select_metrics(
@@ -198,7 +198,7 @@ class TestRegistry:
         assert v == 0.0
     def test_metric_via_compute_at_junction(self) -> None:
-        from picarones.core.metric_registry import compute_at_junction
         from picarones.domain.artifacts import ArtifactType
         results = compute_at_junction(

 class TestRegistry:
     def test_metric_registered(self) -> None:
+        from picarones.evaluation.metric_registry import select_metrics
         from picarones.domain.artifacts import ArtifactType
         metrics = select_metrics(
         assert v == 0.0
     def test_metric_via_compute_at_junction(self) -> None:
+        from picarones.evaluation.metric_registry import compute_at_junction
         from picarones.domain.artifacts import ArtifactType
         results = compute_at_junction(

tests/measurements/test_sprint85_numerical_sequences.py CHANGED Viewed

@@ -223,7 +223,7 @@ class TestRealistic:
 class TestRegistry:
     def test_strict_and_value_metrics_registered(self) -> None:
-        from picarones.core.metric_registry import select_metrics
         from picarones.domain.artifacts import ArtifactType
         metrics = select_metrics((ArtifactType.TEXT, ArtifactType.TEXT))
@@ -243,7 +243,7 @@ class TestRegistry:
         assert value == 1.0
     def test_metric_via_compute_at_junction(self) -> None:
-        from picarones.core.metric_registry import compute_at_junction
         from picarones.domain.artifacts import ArtifactType
         results = compute_at_junction(

 class TestRegistry:
     def test_strict_and_value_metrics_registered(self) -> None:
+        from picarones.evaluation.metric_registry import select_metrics
         from picarones.domain.artifacts import ArtifactType
         metrics = select_metrics((ArtifactType.TEXT, ArtifactType.TEXT))
         assert value == 1.0
     def test_metric_via_compute_at_junction(self) -> None:
+        from picarones.evaluation.metric_registry import compute_at_junction
         from picarones.domain.artifacts import ArtifactType
         results = compute_at_junction(