Spaces:

AChierici84
/

GreenAssistent

Sleeping

outshine84

aggiunta fallback riocnoscimento in caso incerto

5d06145 23 days ago

9.41 kB

	import os
	import pickle
	import torch
	import open_clip
	import faiss
	import logging
	from PIL import Image
	from collections import defaultdict

	logger = logging.getLogger("ai_green_assistant.plentclef")


	def _load_plantclef_cache(cache_path):
	"""Load PlantCLEF cache across PyTorch versions.

	PyTorch >=2.6 defaults torch.load(..., weights_only=True), which may fail
	for legacy cache files serialized with pickle opcodes.
	"""
	try:
	return torch.load(cache_path, map_location="cpu", weights_only=True)
	except TypeError:
	# Older PyTorch versions don't support weights_only argument.
	return torch.load(cache_path, map_location="cpu")
	except Exception:
	try:
	# Legacy trusted cache fallback for PyTorch >=2.6 behavior change.
	return torch.load(cache_path, map_location="cpu", weights_only=False)
	except Exception:
	# Some historical cache files are plain pickle dictionaries.
	with open(cache_path, "rb") as f:
	return pickle.load(f)

	def _rrf_merge(results_list: list[list], k: int = 60, debug_log: bool = False) -> list[tuple]:
	"""Reciprocal Rank Fusion across multiple ranked result lists.

	Each element of results_list is a list of (species, score, image_paths)
	tuples already sorted by descending score. Returns a merged list sorted
	by descending RRF score, same tuple format (image_paths will be empty).

	If debug_log=True, logs detailed RRF calculations for each species.
	"""
	combined: dict[str, float] = defaultdict(float)
	species_sources: dict[str, list] = defaultdict(list) # Track which index found each species

	for index_idx, ranked in enumerate(results_list):
	index_name = ["PlantCLEF", "LeafSnap"][index_idx] if index_idx < 2 else f"Index_{index_idx}"
	if debug_log:
	logger.info(f" {index_name} results (top {len(ranked)}):")

	for rank, (species, _score, _paths) in enumerate(ranked):
	rrf_contribution = 1.0 / (k + rank + 1)
	combined[species] += rrf_contribution
	species_sources[species].append({
	"index": index_name,
	"rank": rank,
	"score": _score,
	"rrf_contribution": rrf_contribution
	})

	if debug_log and rank < 10: # Log top 10 from each index
	logger.info(f" Rank {rank:2d}: {species:40s} \| raw_score: {_score:7.4f} \| RRF += {rrf_contribution:.6f}")

	final_results = sorted(
	[(species, rrf_score, []) for species, rrf_score in combined.items()],
	key=lambda x: x[1],
	reverse=True,
	)

	if debug_log:
	logger.info(f"\n RRF Final Results (merged):")
	for final_rank, (species, rrf_score, _) in enumerate(final_results[:20]):
	sources_str = ", ".join(
	f"{s['index']}(rank={s['rank']}, contrib={s['rrf_contribution']:.6f})"
	for s in species_sources.get(species, [])
	)
	logger.info(f" Rank {final_rank:2d}: {species:40s} \| RRF_score: {rrf_score:.6f} \| sources: {sources_str}")

	return final_results


	class PlentClefIndex():
	def __init__(self, model_name, index_path, index_cache,
	leafsnap_index_path=None, leafsnap_cache_path=None,
	leafsnap_aliases: dict \| None = None):
	self.model, self.preprocess, self.tokenizer = open_clip.create_model_and_transforms(
	model_name=model_name,
	pretrained="laion2b_s34b_b79k"
	)
	self.index = faiss.read_index(index_path)
	self.model.eval()
	data = _load_plantclef_cache(index_cache)
	if not isinstance(data, dict):
	raise TypeError("PlantCLEF cache must be a dict-like object")
	self.plantclef_image_embeddings = data.get("embeddings")
	if "labels" not in data:
	raise KeyError("Missing 'labels' in PlantCLEF cache")
	self.plantclef_labels = data["labels"]
	logger.info(f"PlantCLEF loaded: {len(self.plantclef_labels)} species")

	# Optional LeafSnap index (leaf-only images, same embedding space)
	self.leafsnap_index = None
	self.leafsnap_labels: list = []

	logger.info(f"Attempting to load LeafSnap from: {leafsnap_index_path}")

	if leafsnap_index_path and os.path.exists(leafsnap_index_path):
	logger.info(f" ✓ LeafSnap index found at {leafsnap_index_path}")
	try:
	self.leafsnap_index = faiss.read_index(leafsnap_index_path)
	logger.info(f" ✓ LeafSnap index loaded successfully")
	except Exception as e:
	logger.warning(f" ✗ Failed to load LeafSnap index: {e}")
	self.leafsnap_index = None

	if leafsnap_cache_path and os.path.exists(leafsnap_cache_path):
	logger.info(f" ✓ LeafSnap cache found at {leafsnap_cache_path}")
	try:
	ls_data = _load_plantclef_cache(leafsnap_cache_path)
	if not isinstance(ls_data, dict) or "labels" not in ls_data:
	raise KeyError("Missing 'labels' in LeafSnap cache")
	self.leafsnap_labels = ls_data["labels"]
	logger.info(f" ✓ LeafSnap cache loaded: {len(self.leafsnap_labels)} species")
	except Exception as e:
	logger.warning(f" ✗ Failed to load LeafSnap cache: {e}")
	self.leafsnap_index = None
	self.leafsnap_labels = []
	else:
	logger.warning(f" ✗ LeafSnap cache not found at {leafsnap_cache_path}")
	else:
	logger.info(f" ✗ LeafSnap index not found at {leafsnap_index_path}")

	if self.leafsnap_index and self.leafsnap_labels:
	logger.info(f"✓ LeafSnap enabled for search")
	else:
	logger.info(f"✗ LeafSnap disabled - search will use PlantCLEF only")

	# Dict mapping LeafSnap label -> canonical DB species name
	self.leafsnap_aliases: dict[str, str] = leafsnap_aliases or {}

	def embed_image(self, path):
	img = self.preprocess(Image.open(path).convert("RGB")).unsqueeze(0)
	with torch.no_grad():
	e = self.model.encode_image(img)
	e = e / e.norm(dim=-1, keepdim=True)
	return e.cpu().numpy().astype("float32")

	def _search_index(self, q, index, labels, k, index_name="Index"):
	"""Search a single FAISS index and aggregate scores by species."""
	sims, idxs = index.search(q, k)
	aggregated: dict = defaultdict(lambda: {'score_sum': 0.0, 'count': 0, 'image_paths': []})

	for score, idx in zip(sims[0], idxs[0]):
	species_label = labels[idx]
	species_label = self.leafsnap_aliases.get(species_label, species_label)
	aggregated[species_label]['score_sum'] += score
	aggregated[species_label]['count'] += 1

	results = [
	(cat, d['score_sum'] / d['count'], d['image_paths'])
	for cat, d in aggregated.items()
	]
	results.sort(key=lambda x: x[1], reverse=True)
	return results

	def search(self, path, labels, k=5, debug=False, search_k=None, return_scores=False):
	q = self.embed_image(path)
	effective_k = max(int(search_k or k), int(k))

	planclef_results = self._search_index(q, self.index, labels, effective_k, "PlantCLEF")
	top_planclef_score = planclef_results[0][1] if planclef_results else 0.0

	if self.leafsnap_index is not None and self.leafsnap_labels:
	leafsnap_results = self._search_index(q, self.leafsnap_index, self.leafsnap_labels, effective_k, "LeafSnap")
	merged_all = _rrf_merge([planclef_results, leafsnap_results], debug_log=debug)
	merged = merged_all[:k]

	if debug:
	logger.info(f"\n=== SEARCH SUMMARY (RRF Merged) ===")
	logger.info(f"PlantCLEF found {len(planclef_results)} species, top 10:")
	for rank, (sp, score, _) in enumerate(planclef_results[:10]):
	logger.info(f" {rank}: {sp} ({score:.4f})")
	logger.info(f"LeafSnap found {len(leafsnap_results)} species, top 10:")
	for rank, (sp, score, _) in enumerate(leafsnap_results[:10]):
	logger.info(f" {rank}: {sp} ({score:.4f})")
	logger.info(f"\nFinal RRF merged ranking (top 50, requested k={k}, search_k={effective_k}):")
	for rank, (sp, score, _) in enumerate(merged_all[:50]):
	logger.info(f" {rank}: {sp} (RRF: {score:.6f})")

	if return_scores:
	return merged, top_planclef_score
	return merged

	if debug:
	logger.info(f"\n=== SEARCH SUMMARY (PlantCLEF only) ===")
	logger.info(f"Found {len(planclef_results)} species, showing top 50 (requested k={k}, search_k={effective_k}):")
	for rank, (sp, score, _) in enumerate(planclef_results[:50]):
	logger.info(f" {rank}: {sp} ({score:.6f})")

	if return_scores:
	return planclef_results[:k], top_planclef_score
	return planclef_results[:k]