Spaces:

Marylene
/

OpenFoodFactsAgent_POC

Sleeping

App Files Files Community

Marylene commited on Sep 23, 2025

Commit

d768331

verified ·

1 Parent(s): 895eacc

Ajout web_search et web_get

Browse files

Files changed (1) hide show

quick_deploy_agent.py +103 -11

quick_deploy_agent.py CHANGED Viewed

@@ -142,7 +142,7 @@ class RegexCOICOP(Tool):
     output_type = "object"
     import re as _re
-    SOFT = _re.compile(r"(?:\b|^)(?:CAMEMB(?:ERT)?|BRIE|COULOMMI(?:ERS?)?|BLEU|ROQUEFORT|GORGONZ(?:OLA)?|REBLOCHON|MUNSTER)(?:\b|$)")
     PRESS = _re.compile(r"(?:\b|^)(EMMENTAL|COMTE|CANTAL|MIMOLETTE|GOUDA|EDAM|BEAUFORT|ABONDANCE|SALERS|TOMME|TOME)(?:\b|$)")
     GOAT  = _re.compile(r"(?:\b|^)(CHEVRE|STE MAURE|CROTTIN|BUCHE|PICODON|PELARDON|BANON)(?:\b|$)")
     PROC  = _re.compile(r"(?:\b|^)(FONDU(?:ES?)?|FROMAGE FONDU|TOASTINETTES?|VACHE QUI RIT|KIRI|CARRE FRAIS|CARR[ÉE] FRAIS|PORTIONS?)(?:\b|$)|\bRAP[ÉE]?\b")
@@ -262,6 +262,74 @@ class SemSim(Tool):
         )
         return {"candidates": ranked[:max(1,int(topk))]}
 # ---- Resolve ----
 class Resolve(Tool):
     name, description = "resolve_coicop_candidates", "Fusionne candidats → choix final + alternatives + explication."
@@ -312,10 +380,19 @@ def build_agent(model_id: str | None = None) -> CodeAgent:
         top_p=0.95,
     )
     agent = CodeAgent(
-        tools=[ValidateEANTool(), OFFByEAN(), RegexCOICOP(), OFFtoCOICOP(), SemSim(), Resolve()],
         model=model,
         add_base_tools=False,
-        max_steps=6,
         verbosity_level=2,
     )
     return agent
@@ -334,16 +411,31 @@ if __name__ == "__main__":
     Classe ce produit en COICOP:
     EAN: {ean}
     Libellé: {label}
-    Outils autorisés UNIQUEMENT : validate_ean, openfoodfacts_product_by_ean, map_off_to_coicop, coicop_regex_rules, coicop_semantic_similarity, resolve_coicop_candidates.
-    N'UTILISE PAS python_interpreter. N'ÉCRIS PAS DE CODE. N'INDEXE JAMAIS la sortie d'un tool.
     Pipeline :
-    1) validate_ean(ean)
-    2) openfoodfacts_product_by_ean(ean)
-    3) map_off_to_coicop(off_payload=<sortie brute de (2)>) ou, si nécessaire, map_off_to_coicop(product_name, categories_tags, ingredients_text)
-    4) coicop_regex_rules(text=LIBELLÉ UTILISATEUR)
-    5) coicop_semantic_similarity(text=LIBELLÉ UTILISATEUR, topk=5)
-    6) resolve_coicop_candidates(json_lists=[...], topn=3)
     Retourne uniquement un JSON valide (objet), sans backticks.
     """

     output_type = "object"
     import re as _re
+    SOFT = _re.compile(r"(?:\b|^)(?:CAMEMB(?:ERT)?|BRIE|COULOMMI(?:ERS?)?|BLEU|ROQUEFORT|GORGONZOLA|REBLOCHON|MUNSTER)(?:\b|$)")
     PRESS = _re.compile(r"(?:\b|^)(EMMENTAL|COMTE|CANTAL|MIMOLETTE|GOUDA|EDAM|BEAUFORT|ABONDANCE|SALERS|TOMME|TOME)(?:\b|$)")
     GOAT  = _re.compile(r"(?:\b|^)(CHEVRE|STE MAURE|CROTTIN|BUCHE|PICODON|PELARDON|BANON)(?:\b|$)")
     PROC  = _re.compile(r"(?:\b|^)(FONDU(?:ES?)?|FROMAGE FONDU|TOASTINETTES?|VACHE QUI RIT|KIRI|CARRE FRAIS|CARR[ÉE] FRAIS|PORTIONS?)(?:\b|$)|\bRAP[ÉE]?\b")
         )
         return {"candidates": ranked[:max(1,int(topk))]}
+# ---- Web tools (recherche & lecture) ----
+class WebSearch(Tool):
+    name = "web_search"
+    description = "Recherche web légère (DuckDuckGo HTML). Entrée: query (fr/en). Retour: top résultats avec titre, url, snippet."
+    inputs = {"query": {"type":"string","description":"Requête de recherche web."}}
+    output_type = "object"
+    requirements = ["requests"]
+    def forward(self, query: str):
+        import html
+        sess = requests.Session()
+        sess.headers.update({"User-Agent":"insee-coicop-agent/1.0"})
+        try:
+            r = sess.get("https://duckduckgo.com/html/", params={"q": query, "kl":"fr-fr"}, timeout=15)
+            r.raise_for_status()
+        except Exception as e:
+            return {"ok": False, "error": str(e), "results": []}
+        # parsing très simple, sans dépendance lourde
+        text = r.text
+        # Résultats sous <a class="result__a" href="...">Titre</a>
+        results = []
+        for m in re.finditer(r'<a[^>]+class="result__a"[^>]+href="([^"]+)"[^>]*>(.*?)</a>', text, re.I|re.S):
+            url = html.unescape(m.group(1))
+            title = re.sub("<.*?>", "", html.unescape(m.group(2))).strip()
+            # Snippet
+            snip_m = re.search(r'<a[^>]+class="result__a"[^>]+href="{}"[^>]*>.*?</a>.*?<a[^>]+class="result__snippet"[^>]*>(.*?)</a>'.format(re.escape(m.group(1))), text, re.I|re.S)
+            snippet = ""
+            if snip_m:
+                snippet = re.sub("<.*?>", "", html.unescape(snip_m.group(1))).strip()
+            if title and url:
+                results.append({"title": title, "url": url, "snippet": snippet})
+            if len(results) >= 8:
+                break
+        return {"ok": True, "query": query, "results": results}
+class WebGet(Tool):
+    name = "web_get"
+    description = "Télécharge une page web et renvoie un texte brut nettoyé (limité à ~50k chars)."
+    inputs = {"url": {"type":"string","description":"URL http(s) à lire."}}
+    output_type = "object"
+    requirements = ["requests", "beautifulsoup4"]
+    def forward(self, url: str):
+        import html
+        text_out = ""
+        try:
+            r = requests.get(url, headers={"User-Agent":"insee-coicop-agent/1.0"}, timeout=20)
+            if not r.ok:
+                return {"ok": False, "status": r.status_code, "url": url, "text": ""}
+            content = r.text
+            try:
+                from bs4 import BeautifulSoup
+                soup = BeautifulSoup(content, "html.parser")
+                # retirer scripts/styles/nav
+                for tag in soup(["script","style","noscript","header","footer","nav","form","aside"]):
+                    tag.decompose()
+                text_out = soup.get_text(separator=" ")
+            except Exception:
+                # fallback brut: retire les tags
+                text_out = re.sub(r"<script.*?</script>|<style.*?</style>", " ", content, flags=re.S|re.I)
+                text_out = re.sub(r"<[^>]+>", " ", text_out)
+            text_out = re.sub(r"\s+", " ", text_out).strip()
+            if len(text_out) > 50000:
+                text_out = text_out[:50000]
+            return {"ok": True, "url": url, "text": text_out}
+        except Exception as e:
+            return {"ok": False, "url": url, "error": str(e), "text": ""}
 # ---- Resolve ----
 class Resolve(Tool):
     name, description = "resolve_coicop_candidates", "Fusionne candidats → choix final + alternatives + explication."
         top_p=0.95,
     )
     agent = CodeAgent(
+        tools=[
+            ValidateEANTool(),
+            OFFByEAN(),
+            RegexCOICOP(),
+            OFFtoCOICOP(),
+            SemSim(),
+            WebSearch(),     # <-- autorise recherche web
+            WebGet(),        # <-- autorise lecture de pages
+            Resolve(),
+        ],
         model=model,
         add_base_tools=False,
+        max_steps=8,        # un peu plus de marge si web utilisé
         verbosity_level=2,
     )
     return agent
     Classe ce produit en COICOP:
     EAN: {ean}
     Libellé: {label}
+    Outils autorisés UNIQUEMENT :
+      - validate_ean
+      - openfoodfacts_product_by_ean
+      - map_off_to_coicop
+      - coicop_regex_rules
+      - coicop_semantic_similarity
+      - web_search
+      - web_get
+      - resolve_coicop_candidates
+    RÈGLES:
+      - TU PEUX interroger Internet via web_search puis web_get pour récupérer infos produit (fiche marque, page drive, comparateurs, etc.).
+      - N'UTILISE PAS python_interpreter. N'ÉCRIS PAS DE CODE.
+      - N'INDEXE JAMAIS la sortie d'un tool (copie-colle uniquement ce qui est utile).
     Pipeline :
+      1) validate_ean(ean)
+      2) openfoodfacts_product_by_ean(ean)
+      3) map_off_to_coicop(off_payload=<sortie brute de (2)>) ou, si nécessaire, map_off_to_coicop(product_name, categories_tags, ingredients_text)
+      3bis) SI doute (peu d'infos ou contradictions), web_search(query = "EAN + libellé + marque" ou libellé seul) → choisir 1–2 urls pertinentes → web_get(url)
+      4) coicop_regex_rules(text = LIBELLÉ UTILISATEUR)
+      4bis) coicop_regex_rules(text = TEXTE DES PAGES WEB RÉCUPÉRÉES)  # pour capter des mots-clés comme camembert/brie/emmental/etc.
+      5) coicop_semantic_similarity(text = LIBELLÉ UTILISATEUR, topk = 5)
+      6) resolve_coicop_candidates(json_lists = [candidats de 3, 4, 4bis, 5], topn = 3)
     Retourne uniquement un JSON valide (objet), sans backticks.
     """