Spaces:

Marylene
/

OpenFoodFactsAgent_POC

Sleeping

App Files Files Community

OpenFoodFactsAgent_POC / quick_deploy_agent.py

Marylene

Update quick_deploy_agent.py

2e2371e verified 4 months ago

raw

history blame contribute delete

37.5 kB

	from __future__ import annotations
	import json, re, unicodedata, ast, os
	from typing import List, Dict, Any, Optional
	import requests
	from smolagents import Tool, CodeAgent, InferenceClientModel
	from sentence_transformers import SentenceTransformer, util

	# --- Config runtime via env (avec valeurs par défaut sûres sur Space) ---
	HF_TIMEOUT = int(os.getenv("HF_TIMEOUT", "180")) # 180s au lieu de 60s
	HF_MAX_TOKENS = int(os.getenv("HF_MAX_TOKENS", "384")) # réduire un peu la génération
	AGENT_MAX_STEPS = int(os.getenv("AGENT_MAX_STEPS", "6"))
	# Ordre: un modèle préféré, puis 2 replis rapides et dispo publique
	FALLBACK_MODELS = [
	os.getenv("HF_MODEL_ID") or "meta-llama/Meta-Llama-3.1-8B-Instruct",
	"Qwen/Qwen2.5-7B-Instruct",
	"HuggingFaceH4/zephyr-7b-beta",
	]


	# ---- Mini référentiel COICOP (démo) ----
	# ---- Mini référentiel COICOP (démo) ----
	COICOP_ITEMS = [
	{"code": "01.1.4.5.1", "label": "Laits caillés, fromage blanc, petites crèmes fromagères"},
	{"code": "01.1.4.5.2", "label": "Fromage à pâte molle et à pâte persillée"},
	{"code": "01.1.4.5.3", "label": "Fromage à pâte pressée"},
	{"code": "01.1.4.5.4", "label": "Fromage de chèvre"},
	{"code": "01.1.4.5.5", "label": "Fromages fondus, râpés, portions"},
	{"code": "01.1.1.4", "label": "Pain"},
	{"code": "01.1.1.1", "label": "Riz"},
	{"code": "01.1.1.3", "label": "Pâtes, couscous et produits similaires"},
	]

	# ✅ Map code -> libellé (avec un libellé pour le code générique)
	CODE_TO_LABEL = {it["code"]: it["label"] for it in COICOP_ITEMS}
	CODE_TO_LABEL.setdefault("01.1.4.5", "Fromages (générique)")


	def normalize_txt(s: str) -> str:
	if not s: return ""
	s = s.upper()
	s = "".join(c for c in unicodedata.normalize("NFD", s) if unicodedata.category(c) != "Mn")
	s = re.sub(r"[^A-Z0-9% ]+", " ", s)
	s = re.sub(r"\s+", " ", s).strip()
	return s

	def ean_check_digit_ok(ean: str) -> bool:
	digits = re.sub(r"\D", "", ean)
	if len(digits) not in (8, 12, 13, 14): return False
	total = 0
	for i, ch in enumerate(reversed(digits[:-1]), start=1):
	n = int(ch); total += n * (3 if i % 2 == 1 else 1)
	check = (10 - (total % 10)) % 10
	return check == int(digits[-1])

	# ---- ValidateEANTool ----
	class ValidateEANTool(Tool):
	name, description = "validate_ean", "Valide un EAN/GTIN (clé GS1)."
	inputs = {"ean": {"type": "string", "description": "Code EAN/GTIN (8/12/13/14 chiffres)."}}
	output_type = "object"

	def forward(self, ean: str):
	digits = re.sub(r"\D", "", ean or "")
	if len(digits) not in (8, 12, 13, 14):
	return {"valid": False, "normalized": digits}
	total = 0
	for i, ch in enumerate(reversed(digits[:-1]), start=1):
	n = int(ch); total += n * (3 if i % 2 == 1 else 1)
	check = (10 - (total % 10)) % 10
	return {"valid": check == int(digits[-1]), "normalized": digits}

	# ---- OFFByEAN ----
	class OFFByEAN(Tool):
	name = "openfoodfacts_product_by_ean"
	description = "Open Food Facts /api/v0\|v2/product/{ean} (name, brands, categories...)."
	inputs = {"ean": {"type": "string", "description": "EAN à interroger sur l'API OFF."}}
	output_type = "object"
	requirements = ["requests"]

	def forward(self, ean: str):
	import re, json
	from requests.adapters import HTTPAdapter
	try:
	from urllib3.util.retry import Retry
	except Exception:
	Retry = None

	def _to_list(x):
	if x is None: return []
	if isinstance(x, list): return [str(t).strip() for t in x if str(t).strip()]
	if isinstance(x, str):
	return [p.strip() for p in re.split(r"[,\\|;]", x) if p.strip()]
	return [str(x).strip()]

	def _first(*vals):
	for v in vals:
	if isinstance(v, str) and v.strip(): return v.strip()
	return ""

	code = re.sub(r"\D", "", ean or "")
	if not code:
	return {"ok": False, "status": 0, "code": "", "error": "EAN vide"}

	sess = requests.Session()
	sess.headers.update({"User-Agent":"insee-coicop-agent/1.0","Accept":"application/json"})
	if Retry:
	retry = Retry(total=3, backoff_factor=0.5, status_forcelist=[429,500,502,503,504],
	allowed_methods=frozenset(["GET"]), raise_on_status=False)
	sess.mount("https://", HTTPAdapter(max_retries=retry))

	urls = [
	f"https://world.openfoodfacts.org/api/v0/product/{code}.json",
	"https://world.openfoodfacts.org/api/v2/product/"
	f"{code}?lc=fr&fields=code,product_name,product_name_fr,brands,labels_tags,"
	"categories_tags,categories_tags_fr,categories_hierarchy,ingredients,ingredients_text,"
	"ingredients_text_fr,ingredients_text_en,allergens,allergens_tags,traces,traces_tags,"
	"stores,status,status_verbose",
	f"https://world.openfoodfacts.net/api/v0/product/{code}.json",
	]

	last_err = None
	for u in urls:
	try:
	r = sess.get(u, timeout=15)
	if not r.ok:
	last_err = f"HTTP {r.status_code}"
	continue
	data = r.json()
	product = data.get("product")
	status = data.get("status", 1 if product else 0)
	if status == 1 or product:
	p = product or {}
	product_name = _first(p.get("product_name_fr"), p.get("product_name"))

	categories_tags = p.get("categories_tags_fr") or p.get("categories_tags") or p.get("categories")
	categories_tags = _to_list(categories_tags)
	categories_hierarchy = _to_list(p.get("categories_hierarchy"))

	# Ingrédients : texte + liste structurée
	ingredients_text = _first(p.get("ingredients_text_fr"), p.get("ingredients_text_en"), p.get("ingredients_text"))
	ingredients_list = []
	if isinstance(p.get("ingredients"), list):
	for it in p["ingredients"]:
	txt = it.get("text") or it.get("id") or ""
	if txt: ingredients_list.append(str(txt).strip())

	allergens = _first(p.get("allergens"), None)
	allergens_tags = _to_list(p.get("allergens_tags"))
	traces = _first(p.get("traces"), None) # ex: "lait, noisettes"
	traces_tags = _to_list(p.get("traces_tags"))
	labels_tags = _to_list(p.get("labels_tags"))

	brands = _first(p.get("brands"), None)
	stores = _first(p.get("stores"), None)

	return {
	"ok": True, "status": status, "status_verbose": data.get("status_verbose"),
	"code": code, "used_url": u,
	"product_name": product_name,
	"categories_tags": categories_tags,
	"categories_hierarchy": categories_hierarchy,
	"ingredients_text": ingredients_text,
	"ingredients_list": ingredients_list,
	"allergens": allergens,
	"allergens_tags": allergens_tags,
	"traces": traces,
	"traces_tags": traces_tags,
	"labels_tags": labels_tags,
	"brands": brands, "brands_list": _to_list(brands),
	"stores": stores, "stores_list": _to_list(stores),
	# Entrées déjà prêtes pour l’étape 3
	"step3_inputs": {
	"product_name": product_name,
	"categories_tags": categories_tags,
	"ingredients_text": ingredients_text,
	"ingredients_list": ingredients_list,
	"traces": traces,
	"traces_tags": traces_tags,
	},
	}
	except Exception as e:
	last_err = str(e)

	return {"ok": False, "status": 0, "code": code, "error": last_err or "not found"}


	# ---- RegexCOICOP ----
	class RegexCOICOP(Tool):
	name, description = "coicop_regex_rules", "Règles regex → candidats COICOP."
	inputs = {"text": {"type": "string", "description": "Libellé produit (texte libre) à analyser."}}
	output_type = "object"

	import re as _re
	SOFT = _re.compile(r"(?:\b\|^)(?:CAMEMB(?:ERT)?\|BRIE\|COULOMMI(?:ERS?)?\|BLEU\|ROQUEFORT\|GORGONZOLA\|REBLOCHON\|MUNSTER)(?:\b\|$)")
	PRESS = _re.compile(r"(?:\b\|^)(EMMENTAL\|COMTE\|CANTAL\|MIMOLETTE\|GOUDA\|EDAM\|BEAUFORT\|ABONDANCE\|SALERS\|TOMME\|TOME)(?:\b\|$)")
	GOAT = _re.compile(r"(?:\b\|^)(CHEVRE\|STE MAURE\|CROTTIN\|BUCHE\|PICODON\|PELARDON\|BANON)(?:\b\|$)")
	PROC = _re.compile(r"(?:\b\|^)(FONDU(?:ES?)?\|FROMAGE FONDU\|TOASTINETTES?\|VACHE QUI RIT\|KIRI\|CARRE FRAIS\|CARR[ÉE] FRAIS\|PORTIONS?)(?:\b\|$)\|\bRAP[ÉE]?\b")

	@staticmethod
	def _normalize_txt(s: str) -> str:
	import unicodedata, re
	if not s: return ""
	s = s.upper()
	s = "".join(c for c in unicodedata.normalize("NFD", s) if unicodedata.category(c) != "Mn")
	s = re.sub(r"[^A-Z0-9% ]+", " ", s)
	return re.sub(r"\s+", " ", s).strip()

	def forward(self, text: str):
	import re
	s = self._normalize_txt(text); c=[]
	if self.SOFT.search(s): c.append({"code":"01.1.4.5.2","why":"pâte molle/persillée","score":0.95})
	if self.PRESS.search(s): c.append({"code":"01.1.4.5.3","why":"pâte pressée","score":0.90})
	if self.GOAT.search(s): c.append({"code":"01.1.4.5.4","why":"chèvre","score":0.90})
	if self.PROC.search(s): c.append({"code":"01.1.4.5.5","why":"fondu/râpé/portions","score":0.85})
	if not c and re.search(r"\bFROMAGE\b", s): c.append({"code":"01.1.4.5","why":"générique fromage/laits caillés","score":0.6})
	if not c and re.search(r"\bCR[ÉE]MEUX\b", s): c.append({"code":"01.1.4.5.1","why":"mot-clé 'crémeux' (laits caillés/crèmes fromagères)","score":0.55})
	return {"candidates": c}

	# ---- OFFtoCOICOP ----
	class OFFtoCOICOP(Tool):
	name, description = "map_off_to_coicop", "Mappe catégories OFF vers COICOP (off_payload ou champs séparés)."
	inputs = {
	"product_name": {"type":"string", "description":"Nom produit OFF (fr/en).", "nullable": True},
	"categories_tags": {"type":"array", "description":"Liste OFF categories_tags.", "nullable": True},
	"ingredients_text":{"type":"string","description":"Texte ingrédients.", "nullable": True},
	"ingredients_list":{"type":"array", "description":"Liste structurée des ingrédients (strings).", "nullable": True},
	"traces": {"type":"string","description":"Champ traces (fr).", "nullable": True},
	"traces_tags": {"type":"array", "description":"Tags de traces.", "nullable": True},
	# 🔧 IMPORTANT: on autorise un objet ici (dict ou string)
	"off_payload": {"type":"object","description":"Sortie brute de l'étape 2 (dict OU string).", "nullable": True},
	}
	output_type="object"

	import re as _re, json as _json, ast as _ast
	def _normalize_txt(self, s: str) -> str:
	import unicodedata, re
	if not s: return ""
	s = s.upper()
	s = "".join(c for c in unicodedata.normalize("NFD", s) if unicodedata.category(c) != "Mn")
	s = re.sub(r"[^A-Z0-9% ]+", " ", s)
	return re.sub(r"\s+", " ", s).strip()

	def _to_list(self, x):
	import re
	if x is None: return []
	if isinstance(x, list): return [str(t).strip() for t in x if str(t).strip()]
	if isinstance(x, str): return [p.strip() for p in re.split(r"[,\\|;]", x) if p.strip()]
	return [str(x).strip()]

	def _safe_parse(self, x):
	# Accepte déjà un dict ; sinon essaie JSON puis literal_eval
	if isinstance(x, dict): return x
	if not isinstance(x, str): return {}
	try: return self._json.loads(x)
	except Exception:
	try: return self._ast.literal_eval(x)
	except Exception: return {}

	# --- mots-clés par familles
	SOFT = _re.compile(r"\b(CAMEMBERT\|BRIE\|COULOMMIERS\|BLUE CHEESE\|ROQUEFORT\|GORGONZOLA\|MUNSTER\|REBLOCHON)\b")
	PRESS = _re.compile(r"\b(EMMENTAL\|COMTE\|CANTAL\|MIMOLETTE\|GOUDA\|EDAM\|BEAUFORT\|ABONDANCE\|SALERS\|TOMME\|TOME)\b")
	GOAT = _re.compile(r"\b(CHEVRE\|CH[ÈE]VRE\|STE MAURE\|CROTTIN\|BUCHE\|BUCHETTE\|PICODON\|PELARDON\|BANON)\b")
	PROC = _re.compile(r"\b(FONDU\|FONDUES?\|RAPE\|RÂPE\|PORTIONS?\|KIRI\|VACHE QUI RIT\|CARRE FRAIS\|CARR[ÉE] FRAIS\|TOASTINETTES?)\b")
	GENERIC_FROMAGE = _re.compile(r"\bFROMAGE[S]?\b")
	CREMEUX = _re.compile(r"\bCR[ÉE]MEUX\b")
	EN_CHEESE = _re.compile(r"\bCHEESE(S)?\b")

	# --- suppression des clauses "traces"
	_TRACES_BLOCK = _re.compile(
	r"(PEUT\s+CONTENIR\s+DES\s+TRACES\s+DE\s+[^.;\)\]]+)\|"
	r"(MAY\s+CONTAIN\s+TRACES\s+OF\s+[^.;\)\]]+)\|"
	r"(\bTRACES?\s+DE\s+[^.;\)\]]+)",
	_re.I
	)

	def _without_traces(self, s: str) -> str:
	if not s: return ""
	return self._TRACES_BLOCK.sub(" ", s)

	def _mk(self, code, base, why, source):
	boost = {"name":0.05, "cat":0.04, "ing_no_traces":0.03, "ing":0.01}.get(source, 0.0)
	return {"code": code, "score": round(base+boost, 4), "why": f"{why} (source:{source})"}

	def _pad_min3(self, ranked, hint_is_cheese=False):
	# Padding déterministe pour garantir >=3 candidats sans dupliquer
	fallback_order = ["01.1.4.5.2","01.1.4.5.3","01.1.4.5.5","01.1.4.5.1","01.1.4.5"]
	present = {r["code"] for r in ranked}
	for code in fallback_order:
	if len(ranked) >= 3: break
	if code in present: continue
	why = "fallback générique fromage" if hint_is_cheese else "fallback faible (peu d'indices)"
	base = 0.52 if hint_is_cheese else 0.48
	ranked.append({"code": code, "score": base, "why": why})
	present.add(code)
	return ranked[:3]

	def forward(self, product_name=None, categories_tags=None, ingredients_text=None,
	ingredients_list=None, traces=None, traces_tags=None, off_payload=None):

	# Hydrate depuis off_payload si besoin (dict OU string), y compris step3_inputs
	if off_payload and not (product_name or categories_tags or ingredients_text or ingredients_list or traces or traces_tags):
	data = self._safe_parse(off_payload) or {}
	step3 = data.get("step3_inputs") or {}
	product_name = data.get("product_name") or step3.get("product_name") or ""
	categories_tags = self._to_list(data.get("categories_tags") or step3.get("categories_tags"))
	ingredients_text= data.get("ingredients_text") or step3.get("ingredients_text") or ""
	ingredients_list= self._to_list(data.get("ingredients_list"))
	traces = data.get("traces") or step3.get("traces") or ""
	traces_tags = self._to_list(data.get("traces_tags") or step3.get("traces_tags"))

	# Normalisations
	name = self._normalize_txt(product_name or "")
	cats_raw = " ".join(self._to_list(categories_tags))
	cats = self._normalize_txt(cats_raw)
	ingt = self._normalize_txt(ingredients_text or "")
	ingt_no_tr = self._normalize_txt(self._without_traces(ingredients_text or ""))
	ing_list = [self._normalize_txt(x) for x in self._to_list(ingredients_list)]
	ing_join = " ".join(ing_list)
	ing_join_no_tr = self._normalize_txt(self._without_traces(ing_join))

	# Indice large "fromage"
	hint_is_cheese = (
	bool(self.GENERIC_FROMAGE.search(name) or self.GENERIC_FROMAGE.search(cats) or self.EN_CHEESE.search(cats))
	or ("EN:CHEESES" in cats or "FR:FROMAGES" in cats or "FROMAGES" in cats)
	)

	c=[]

	# 1) Nom produit & catégories (fort)
	if self.SOFT.search(name) or self.SOFT.search(cats):
	c.append(self._mk("01.1.4.5.2", 0.90, "OFF: pâte molle/persillée", "name" if self.SOFT.search(name) else "cat"))
	if self.PRESS.search(name) or self.PRESS.search(cats):
	c.append(self._mk("01.1.4.5.3", 0.87, "OFF: pâte pressée", "name" if self.PRESS.search(name) else "cat"))
	if self.GOAT.search(name) or self.GOAT.search(cats):
	c.append(self._mk("01.1.4.5.4", 0.88, "OFF: chèvre", "name" if self.GOAT.search(name) else "cat"))
	if self.PROC.search(name) or self.PROC.search(cats):
	c.append(self._mk("01.1.4.5.5", 0.86, "OFF: fondu/râpé/portions", "name" if self.PROC.search(name) else "cat"))

	# 2) Ingrédients – SANS "traces" (moyen)
	if self.SOFT.search(ingt_no_tr) or self.SOFT.search(ing_join_no_tr):
	c.append(self._mk("01.1.4.5.2", 0.84, "Ingrédients (sans traces): pâte molle/persillée", "ing_no_traces"))
	if self.PRESS.search(ingt_no_tr) or self.PRESS.search(ing_join_no_tr):
	c.append(self._mk("01.1.4.5.3", 0.82, "Ingrédients (sans traces): pâte pressée", "ing_no_traces"))
	if self.GOAT.search(ingt_no_tr) or self.GOAT.search(ing_join_no_tr):
	c.append(self._mk("01.1.4.5.4", 0.83, "Ingrédients (sans traces): chèvre", "ing_no_traces"))
	if self.PROC.search(ingt_no_tr) or self.PROC.search(ing_join_no_tr):
	c.append(self._mk("01.1.4.5.5", 0.80, "Ingrédients (sans traces): fondu/râpé/portions", "ing_no_traces"))

	# 3) Ingrédients bruts (faible — pas de déclencheur chèvre ici)
	if self.SOFT.search(ingt) or self.SOFT.search(ing_join):
	c.append(self._mk("01.1.4.5.2", 0.78, "Ingrédients: pâte molle/persillée", "ing"))
	if self.PRESS.search(ingt) or self.PRESS.search(ing_join):
	c.append(self._mk("01.1.4.5.3", 0.76, "Ingrédients: pâte pressée", "ing"))
	if self.PROC.search(ingt) or self.PROC.search(ing_join):
	c.append(self._mk("01.1.4.5.5", 0.74, "Ingrédients: fondu/râpé/portions", "ing"))

	# 4) Génériques si rien d'évident
	if not c and (hint_is_cheese or self.GENERIC_FROMAGE.search(name) or self.GENERIC_FROMAGE.search(cats) or self.CREMEUX.search(name)):
	# proposer générique fromage + 2 familles probables
	c.extend([
	{"code":"01.1.4.5", "score":0.62, "why":"OFF: générique fromage"},
	{"code":"01.1.4.5.2","score":0.60, "why":"fallback fromage (molle/persillée)"},
	{"code":"01.1.4.5.3","score":0.59, "why":"fallback fromage (pressée)"},
	])

	# Dédupliquer / agréger
	bucket={}
	for ci in c:
	code=ci["code"]
	if code not in bucket:
	bucket[code] = {**ci, "why_list":[ci.get("why","")]}
	else:
	if ci["score"]>bucket[code]["score"]:
	bucket[code].update({"score":ci["score"], "why":ci.get("why","")})
	bucket[code]["why_list"].append(ci.get("why",""))

	ranked = sorted(bucket.values(), key=lambda x: x["score"], reverse=True)

	# 🎯 Toujours AU MOINS 3 candidats (avec padding si nécessaire)
	if len(ranked) < 3:
	ranked = self._pad_min3(ranked, hint_is_cheese=hint_is_cheese)

	return {"candidates": ranked[:3]}


	# ---- SemSim ----
	class SemSim(Tool):
	name, description = "coicop_semantic_similarity", "Embeddings → top-k COICOP."
	inputs = {"text":{"type":"string","description":"Texte libellé"},
	"topk":{"type":"integer","description":"Nombre de candidats (défaut 5)","nullable":True}}
	output_type = "object"
	requirements = ["sentence_transformers", "torch"]

	COICOP_ITEMS = COICOP_ITEMS

	@staticmethod
	def _normalize_txt(s: str) -> str:
	import unicodedata, re
	if not s: return ""
	s = s.upper()
	s = "".join(c for c in unicodedata.normalize("NFD", s) if unicodedata.category(c) != "Mn")
	s = re.sub(r"[^A-Z0-9% ]+", " ", s)
	return re.sub(r"\s+", " ", s).strip()

	def forward(self, text: str, topk: int = 5):
	if not hasattr(self, "_model"):
	self._model = SentenceTransformer("sentence-transformers/all-MiniLM-L6-v2")
	q = self._normalize_txt(text)
	q_emb = self._model.encode([q], normalize_embeddings=True)
	labels = [f"{it['code']} {it['label']}" for it in self.COICOP_ITEMS]
	L = self._model.encode(labels, normalize_embeddings=True)
	sims = util.cos_sim(q_emb, L).tolist()[0]
	ranked = sorted(
	[{"code": self.COICOP_ITEMS[i]["code"], "label": self.COICOP_ITEMS[i]["label"], "score": float(sims[i])}
	for i in range(len(self.COICOP_ITEMS))],
	key=lambda x: x["score"], reverse=True
	)
	return {"candidates": ranked[:max(1,int(topk))]}

	# ---- Web tools (recherche & lecture) ----
	class WebSearch(Tool):
	name = "web_search"
	description = "Recherche web légère (DuckDuckGo HTML). Entrée: query (fr/en). Retour: top résultats avec titre, url, snippet."
	inputs = {"query": {"type":"string","description":"Requête de recherche web."}}
	output_type = "object"
	requirements = ["requests"]

	def forward(self, query: str):
	import html
	sess = requests.Session()
	sess.headers.update({"User-Agent":"insee-coicop-agent/1.0"})
	try:
	r = sess.get("https://duckduckgo.com/html/", params={"q": query, "kl":"fr-fr"}, timeout=15)
	r.raise_for_status()
	except Exception as e:
	return {"ok": False, "error": str(e), "results": []}
	# parsing très simple, sans dépendance lourde
	text = r.text
	# Résultats sous <a class="result__a" href="...">Titre</a>
	results = []
	for m in re.finditer(r'<a[^>]+class="result__a"[^>]+href="([^"]+)"[^>]>(.?)</a>', text, re.I\|re.S):
	url = html.unescape(m.group(1))
	title = re.sub("<.*?>", "", html.unescape(m.group(2))).strip()
	# Snippet
	snip_m = re.search(r'<a[^>]+class="result__a"[^>]+href="{}"[^>]>.?</a>.?<a[^>]+class="result__snippet"[^>]>(.*?)</a>'.format(re.escape(m.group(1))), text, re.I\|re.S)
	snippet = ""
	if snip_m:
	snippet = re.sub("<.*?>", "", html.unescape(snip_m.group(1))).strip()
	if title and url:
	results.append({"title": title, "url": url, "snippet": snippet})
	if len(results) >= 8:
	break
	return {"ok": True, "query": query, "results": results}

	class WebGet(Tool):
	name = "web_get"
	description = "Télécharge une page web et renvoie un texte brut nettoyé (limité à ~50k chars)."
	inputs = {"url": {"type":"string","description":"URL http(s) à lire."}}
	output_type = "object"
	requirements = ["requests", "beautifulsoup4"]

	def forward(self, url: str):
	import html
	text_out = ""
	try:
	r = requests.get(url, headers={"User-Agent":"insee-coicop-agent/1.0"}, timeout=20)
	if not r.ok:
	return {"ok": False, "status": r.status_code, "url": url, "text": ""}
	content = r.text
	try:
	from bs4 import BeautifulSoup
	soup = BeautifulSoup(content, "html.parser")
	# retirer scripts/styles/nav
	for tag in soup(["script","style","noscript","header","footer","nav","form","aside"]):
	tag.decompose()
	text_out = soup.get_text(separator=" ")
	except Exception:
	# fallback brut: retire les tags
	text_out = re.sub(r"<script.?</script>\|<style.?</style>", " ", content, flags=re.S\|re.I)
	text_out = re.sub(r"<[^>]+>", " ", text_out)
	text_out = re.sub(r"\s+", " ", text_out).strip()
	if len(text_out) > 50000:
	text_out = text_out[:50000]
	return {"ok": True, "url": url, "text": text_out}
	except Exception as e:
	return {"ok": False, "url": url, "error": str(e), "text": ""}

	# ---- MergeCandidatesTool ----

	class MergeCandidatesTool(Tool):
	name = "merge_candidates"
	description = ("Fusionne des listes de candidats COICOP (dédupe par code, prend le score max, "
	"agrège les justifs) et garantit min_k éléments avec padding neutre.")
	inputs = {
	"candidates_lists": {"type": "array", "description": "Liste de dicts {'candidates':[...]} venant d'autres outils."},
	"min_k": {"type": "integer", "description": "Taille minimale de la liste fusionnée (défaut 3).", "nullable": True},
	"fallback_bias": {"type": "string", "description": "Indice métier pour le padding (ex: 'cheese' ou '').", "nullable": True},
	"score_cap": {"type": "number", "description": "Clip des scores à [0, score_cap] (défaut 1.0).", "nullable": True},
	}
	output_type = "object"

	def forward(self, candidates_lists, min_k: int = 3, fallback_bias: str = "", score_cap: float = 1.0):
	# 1) Collecte
	if not isinstance(candidates_lists, list):
	return {"candidates": []}

	bucket = {} # code -> {code, score, votes, why_list}
	for obj in candidates_lists:
	if not isinstance(obj, dict):
	continue
	for c in obj.get("candidates", []):
	code = c.get("code")
	if not code:
	continue
	score = float(c.get("score", c.get("score_final", 0.0)))
	if score_cap is not None:
	score = max(0.0, min(float(score_cap), score))
	why = c.get("why", "") or c.get("label", "")
	if code not in bucket:
	bucket[code] = {"code": code, "score": score, "votes": 1, "why_list": [why] if why else []}
	else:
	# Garde le meilleur score, incrémente les votes, agrège les raisons
	if score > bucket[code]["score"]:
	bucket[code]["score"] = score
	bucket[code]["votes"] += 1
	if why:
	bucket[code]["why_list"].append(why)

	merged = list(bucket.values())

	# 2) Tri primaire par score puis par votes
	merged.sort(key=lambda x: (x["score"], x["votes"]), reverse=True)

	# 3) Padding si < min_k
	def _fallback_order(bias: str):
	# Ordre neutre mais raisonnable pour les fromages
	base = ["01.1.4.5.2", "01.1.4.5.3", "01.1.4.5.5", "01.1.4.5.1", "01.1.4.5"]
	return base if (bias or "").lower() == "cheese" else base

	if len(merged) < max(1, int(min_k or 3)):
	present = {m["code"] for m in merged}
	for code in _fallback_order(fallback_bias):
	if len(merged) >= min_k:
	break
	if code in present:
	continue
	merged.append({
	"code": code,
	"score": 0.5 if (fallback_bias or "").lower() == "cheese" else 0.48,
	"votes": 0,
	"why_list": ["padding fallback"]
	})
	present.add(code)

	# 4) Normalisation finale de forme (why synthétique)
	out = []
	for m in merged[:max(1, int(min_k or 3))]:
	why = ", ".join(sorted(set([w for w in m.get("why_list", []) if w])))
	if not why:
	why = "fusion (pas d'explications)"
	out.append({"code": m["code"], "score": m["score"], "votes": m["votes"], "why": why})

	return {"candidates": out}


	# ---- Resolve ----
	class Resolve(Tool):
	name, description = "resolve_coicop_candidates", "Fusionne candidats → choix final + alternatives + explication."
	inputs = {"json_lists": {"type":"array","description":"Liste de JSON (str/dict) d'autres tools."},
	"topn":{"type":"integer","description":"Nb d'alternatives (défaut 3)","nullable":True}}
	output_type = "object"

	def _fallback_min3(self):
	# ordre neutre et scores modestes (avec libellés)
	base = [
	{"code":"01.1.4.5.2","label": CODE_TO_LABEL.get("01.1.4.5.2",""),
	"score_final":0.50,"votes":0,"evidences":["fallback (aucune évidence)"]},
	{"code":"01.1.4.5.3","label": CODE_TO_LABEL.get("01.1.4.5.3",""),
	"score_final":0.49,"votes":0,"evidences":["fallback (aucune évidence)"]},
	{"code":"01.1.4.5.5","label": CODE_TO_LABEL.get("01.1.4.5.5",""),
	"score_final":0.48,"votes":0,"evidences":["fallback (aucune évidence)"]},
	]
	return base

	def forward(self, json_lists, topn: int = 3):
	import json
	from typing import Dict, Any
	bucket: Dict[str, Dict[str, Any]] = {}

	# Tolérance liste directe
	if isinstance(json_lists, list) and json_lists and isinstance(json_lists[0], dict) and "code" in json_lists[0]:
	json_lists = [{"candidates": json_lists}]

	for s in json_lists:
	data = s
	if isinstance(s, str):
	try: data = json.loads(s)
	except Exception: data = {}
	if not isinstance(data, dict):
	continue
	for c in data.get("candidates", []):
	code = c.get("code")
	if not code:
	continue
	score = float(c.get("score", c.get("score_final", 0.0)))
	why = c.get("why", "") or c.get("label", "")
	# ✅ libellé via le mapping (fallback sur un éventuel label déjà présent)
	label = CODE_TO_LABEL.get(code, c.get("label", ""))

	if code not in bucket:
	bucket[code] = {
	"code": code,
	"label": label, # <-- ajouté
	"score": score,
	"votes": 1,
	"evidences": [why] if why else []
	}
	else:
	bucket[code]["score"] = max(bucket[code]["score"], score)
	bucket[code]["votes"] += 1
	if why:
	bucket[code]["evidences"].append(why)
	# garde un label si absent
	if not bucket[code].get("label"):
	bucket[code]["label"] = label

	if not bucket:
	# 🔁 Fallback global si VRAIMENT rien n'a pu être agrégé (avec labels)
	ranked = self._fallback_min3()
	final = ranked[0]
	alts = ranked[1:]
	exp = "Aucun candidat issu des outils; retour d’un fallback générique (aucune évidence trouvée)."
	return {"final": final, "alternatives": alts, "candidates_top": ranked, "explanation": exp}

	for v in bucket.values():
	v["score_final"] = v["score"] + 0.05*(v["votes"]-1)

	ranked = sorted(bucket.values(), key=lambda x: x["score_final"], reverse=True)

	# Top fusionné : au moins 3
	min_top = max(3, topn if isinstance(topn, int) and topn>0 else 3)
	if len(ranked) < min_top:
	# compléter avec un petit fallback sans dupliquer (avec labels)
	already = {r["code"] for r in ranked}
	for fb in self._fallback_min3():
	if len(ranked) >= min_top:
	break
	if fb["code"] in already:
	continue
	ranked.append(fb)

	# Sélection finale
	final = ranked[0]
	alts = ranked[1:1+min_top-1]

	# Sécurise le label si jamais manquant (ne change rien au scoring)
	final.setdefault("label", CODE_TO_LABEL.get(final["code"], ""))
	for a in alts:
	a.setdefault("label", CODE_TO_LABEL.get(a["code"], ""))

	ev = final.get("evidences", [])
	exp = (
	f"Choix {final['code']} (score {final['score_final']:.2f}) – votes={final.get('votes',0)} – raisons: {', '.join(sorted(set(ev)))}"
	if ev else
	f"Choix {final['code']} (score {final['score_final']:.2f}) – fallback partiel."
	)

	# candidates_top avec labels assurés
	candidates_top = []
	for r in ranked[:min_top]:
	r.setdefault("label", CODE_TO_LABEL.get(r["code"], ""))
	candidates_top.append(r)

	return {"final": final, "alternatives": alts, "candidates_top": candidates_top, "explanation": exp}




	# ---- build_agent ----
	def build_agent(model_id: str \| None = None) -> CodeAgent:
	mid = model_id or FALLBACK_MODELS[0]
	model = InferenceClientModel(
	model_id=mid,
	temperature=0.2,
	max_tokens=HF_MAX_TOKENS,
	timeout=HF_TIMEOUT, # ⬅️ timeout augmenté
	top_p=0.95,
	)
	agent = CodeAgent(
	tools=[ValidateEANTool(), OFFByEAN(), RegexCOICOP(), OFFtoCOICOP(), SemSim(),
	WebSearch(), WebGet(),
	MergeCandidatesTool(), Resolve()],
	model=model,
	add_base_tools=False,
	max_steps=AGENT_MAX_STEPS, # ⬅️ moins d’étapes = moins de tokens/latence
	verbosity_level=1, # ⬅️ logs plus courts = moins de tokens sortants
	)
	return agent

	# ---- run task with fallback ----
	def run_task_with_fallback(task: str):
	errors = []
	for mid in [m for m in FALLBACK_MODELS if m]:
	try:
	agent = build_agent(mid)
	return agent.run(task)
	except Exception as e:
	errors.append(f"{mid}: {type(e).__name__}: {e}")
	# on tente le modèle suivant
	continue
	# Si TOUT a échoué, renvoyer un JSON propre plutôt qu’un crash
	return {
	"final": None,
	"alternatives": [],
	"candidates_top": [],
	"explanation": "LLM backend indisponible (timeouts).",
	"errors": errors,
	}


	def parse_result(res):
	if isinstance(res, dict): return res
	try: return ast.literal_eval(res)
	except Exception: return {"raw": res}

	if __name__ == "__main__":
	ean = "3256221112345" # EAN fictif
	label = "Les p'tits crémeux – Aldi – 216 g"

	agent = build_agent()
	task = f"""\
	Classe ce produit en COICOP:
	EAN: {ean}
	Libellé: {label}

	Outils autorisés :
	- validate_ean
	- openfoodfacts_product_by_ean
	- map_off_to_coicop
	- coicop_regex_rules
	- coicop_semantic_similarity
	- merge_candidates
	- resolve_coicop_candidates
	- python_interpreter # UNIQUEMENT pour lignes simples d’assignation ou d’appel d’outil

	Règles STRICTES d’écriture de code :
	- Aucune structure de contrôle Python : pas de if, else, for, while, try, with, def, class.
	- Aucun print, aucun logging, aucune concaténation multi-ligne.
	- Chaque bloc de code contient une seule instruction Python, sur une seule ligne.
	- Commencer par définir deux variables :
	1) EAN_STR = "{ean}"
	2) LBL = \"\"\"{label}\"\"\"
	- Pour tous les outils qui prennent le libellé, utiliser LBL.
	- La fonction validate_ean renvoie un dictionnaire avec les clés 'valid' et 'normalized'. Ne pas la traiter comme un booléen directement.

	Règles STRICTES de sortie :
	- Terminer par un unique objet JSON valide en appelant final_answer avec cet objet.
	- Ne pas ajouter de texte en dehors de l’objet JSON final.
	- Ne pas utiliser de backticks.
	- Le JSON final doit contenir les clés : final, alternatives, candidates_top, explanation.

	Branchements (décision prise sans écrire de if en code) :
	- MODE AVEC EAN si EAN_STR n’est pas "N/A" ET si validate_ean(EAN_STR) renvoie valid = True ET si l’appel OpenFoodFacts renvoie ok = True.
	- Sinon, MODE SANS EAN.

	Pipeline — MODE AVEC EAN :
	1) v = validate_ean(EAN_STR)
	2) off = openfoodfacts_product_by_ean(EAN_STR)
	3) offmap = map_off_to_coicop(off_payload=off)
	4) rx = coicop_regex_rules(text=LBL)
	5) sem = coicop_semantic_similarity(text=LBL, topk=5)
	6) merged = merge_candidates(candidates_lists=[offmap, rx, sem], min_k=3, fallback_bias="cheese")
	7) res = resolve_coicop_candidates(json_lists=[merged], topn=3)
	→ Appeler immédiatement final_answer avec res.

	Pipeline — MODE SANS EAN :
	1) rx = coicop_regex_rules(text=LBL)
	2) sem = coicop_semantic_similarity(text=LBL, topk=5)
	3) merged = merge_candidates(candidates_lists=[rx, sem], min_k=3, fallback_bias="cheese")
	4) res = resolve_coicop_candidates(json_lists=[merged], topn=3)
	→ Appeler immédiatement final_answer avec res.

	Contraintes d’usage :
	- Utiliser python_interpreter uniquement pour des lignes uniques d’assignation ou d’appel d’outil (ex: var = tool(args) ou tool(args)).
	- Ne créer aucun fichier et ne faire aucune entrée/sortie externe.
	"""


	# out = agent.run(task)
	out = run_task_with_fallback(task)
	print(parse_result(out))