Spaces:

expAg
/

jdmagent

Running

expAge Claude Opus 4.7 commited on 1 day ago

Commit

f6b8585

1 Parent(s): 31eca78

fix(.enrich): SKIP les triplets non-inférés au lieu d'écrire un placeholder

Énorme bug logique de la version précédente : écrire un triplet
dans un .enrich avec « non inférable depuis JDM » comme explication
= soumettre du garbage à JDM ! Le triplet aurait quand même atterri
dans le fichier de soumission.

Maintenant : pour un fichier .enrich, si le triplet n'est PAS dans le
registry de consolidation (= pas passé par consolidate_candidate ou
pas inféré), on le SKIP entièrement. Pas d'écriture, pas de garbage.

Les skipped sont remontés à l'agent via `skipped_no_inference_proof`
+ `skipped_count` + `skipped_note` (« re-passe par consolidate_candidate
avant »). L'agent peut soit ré-inférer, soit retirer ces triplets.

Tests : passé de .enrich à .txt pour les tests d'upload qui ne sont
pas dans un contexte agent (pas de registry peuplé).

183 tests verts.

Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>

Files changed (2) hide show

src/jdm_agent/tools/jdm_tools.py +37 -26
tests/test_tools.py +3 -3

src/jdm_agent/tools/jdm_tools.py CHANGED Viewed

@@ -1792,35 +1792,39 @@ def write_submission_file(
         # Mode TRIPLETS canonique (que des dicts).
         # Pour .enrich : l'explication DOIT venir du registry de
         # consolidation (mise là par consolidate_candidate après inférence).
-        # Toute formulation libre du LLM est REJETÉE — on n'écrit que
-        # ce qui a été PROUVÉ par le moteur d'inférence. Si le triplet
-        # n'est pas dans le registry, on met « non inférable depuis JDM »
-        # (explicite, ne laisse pas croire à une preuve).
-        # Pour les autres extensions (.audit, .err, .stat) qui utiliseraient
-        # quand même le schéma triplet : le texte libre du LLM est accepté
-        # (fallback registry → LLM text).
         from jdm_agent.enrich.validators import get_consolidation
         is_enrich_file = str(path).lower().endswith(".enrich")
-        def _resolve_explanation(t: dict) -> str:
-            from_registry = get_consolidation(
-                str(t["term"]), str(t["relation"]), str(t["target"])
-            )
             if from_registry and from_registry.get("explanation"):
-                return from_registry["explanation"]
-            # Pas dans le registry.
-            if is_enrich_file:
-                # STRICT : pas de texte libre LLM pour .enrich.
-                return "non inférable depuis JDM"
-            # Autres extensions : le texte libre LLM est OK.
-            return str(t.get("explanation") or "")
-        cands = [Candidate(
-            term=str(t["term"]), relation=str(t["relation"]), target=str(t["target"]),
-            annotation=str(t.get("annotation") or ""),
-            consolidation_explanation=_resolve_explanation(t),
-            confidence=0.7, source="agent",
-            validation_status="ok", consolidation_status="consolidated",
-        ) for t in dict_items]
-        n = _write_sub(path, cands, client=c)
         out = {
             "path": path, "count": n,
             "lines": [
@@ -1830,6 +1834,13 @@ def write_submission_file(
             ],
             "mode": "triplets",
         }
     if upload:
         from jdm_agent.enrich.uploader import submit_to_jdm

         # Mode TRIPLETS canonique (que des dicts).
         # Pour .enrich : l'explication DOIT venir du registry de
         # consolidation (mise là par consolidate_candidate après inférence).
+        # Si le triplet N'EST PAS dans le registry → on le SKIP entièrement.
+        # Un .enrich ne doit contenir QUE des triplets prouvés par
+        # inférence — pas de garbage à JDM. Les skipped sont remontés
+        # dans `skipped_no_inference_proof` pour que l'agent les voie
+        # et puisse soit les ré-inférer, soit les retirer de sa pile.
+        # Pour .audit / .err / .stat (si schéma triplet) : texte libre OK.
         from jdm_agent.enrich.validators import get_consolidation
         is_enrich_file = str(path).lower().endswith(".enrich")
+        cands: list[Candidate] = []
+        skipped_no_proof: list[dict] = []
+        for t in dict_items:
+            term_v = str(t.get("term") or "")
+            rel_v = str(t.get("relation") or "")
+            tgt_v = str(t.get("target") or "")
+            from_registry = get_consolidation(term_v, rel_v, tgt_v)
             if from_registry and from_registry.get("explanation"):
+                explanation = from_registry["explanation"]
+            elif is_enrich_file:
+                # Pas de preuve d'inférence pour un .enrich → SKIP.
+                skipped_no_proof.append({
+                    "term": term_v, "relation": rel_v, "target": tgt_v,
+                })
+                continue
+            else:
+                explanation = str(t.get("explanation") or "")
+            cands.append(Candidate(
+                term=term_v, relation=rel_v, target=tgt_v,
+                annotation=str(t.get("annotation") or ""),
+                consolidation_explanation=explanation,
+                confidence=0.7, source="agent",
+                validation_status="ok", consolidation_status="consolidated",
+            ))
+        n = _write_sub(path, cands, client=c) if cands else 0
         out = {
             "path": path, "count": n,
             "lines": [
             ],
             "mode": "triplets",
         }
+        if skipped_no_proof:
+            out["skipped_no_inference_proof"] = skipped_no_proof
+            out["skipped_count"] = len(skipped_no_proof)
+            out["skipped_note"] = (
+                "Triplets non écrits car absents du registry d'inférence. "
+                "Re-passe-les par consolidate_candidate avant write_submission_file."
+            )
     if upload:
         from jdm_agent.enrich.uploader import submit_to_jdm

tests/test_tools.py CHANGED Viewed

@@ -381,7 +381,7 @@ def test_write_submission_file_local_only_default(tmp_path, monkeypatch):
             "term": "chat", "relation": "r_isa", "target": "mammifère",
             "annotation": "constitutif", "explanation": "trivialement",
         }],
-        "path": str(tmp_path / "sub.enrich"),
     })
     assert out["count"] == 1
     assert "upload" not in out  # pas tenté
@@ -402,7 +402,7 @@ def test_write_submission_file_with_upload_success(tmp_path, monkeypatch):
             "term": "chat", "relation": "r_isa", "target": "mammifère",
             "annotation": "", "explanation": "trivialement",
         }],
-        "path": str(tmp_path / "sub.enrich"),
         "upload": True,
         "model_name": "claude-sonnet-4-7",
         "api_key": "explicit-key",
@@ -426,7 +426,7 @@ def test_write_submission_file_upload_without_api_key(tmp_path, monkeypatch):
             "term": "chat", "relation": "r_isa", "target": "mammifère",
             "annotation": "", "explanation": "trivialement",
         }],
-        "path": str(tmp_path / "sub.enrich"),
         "upload": True,
         "model_name": "claude-haiku",
     })

             "term": "chat", "relation": "r_isa", "target": "mammifère",
             "annotation": "constitutif", "explanation": "trivialement",
         }],
+        "path": str(tmp_path / "sub.txt"),
     })
     assert out["count"] == 1
     assert "upload" not in out  # pas tenté
             "term": "chat", "relation": "r_isa", "target": "mammifère",
             "annotation": "", "explanation": "trivialement",
         }],
+        "path": str(tmp_path / "sub.txt"),
         "upload": True,
         "model_name": "claude-sonnet-4-7",
         "api_key": "explicit-key",
             "term": "chat", "relation": "r_isa", "target": "mammifère",
             "annotation": "", "explanation": "trivialement",
         }],
+        "path": str(tmp_path / "sub.txt"),
         "upload": True,
         "model_name": "claude-haiku",
     })