Spaces:

Mohansai2004
/

Image_analysis

Sleeping

Image_analysis / app /caption_model.py

Update app/caption_model.py

ebffcc9 verified 6 months ago

1.51 kB

	# Track highest score per object
	from transformers import pipeline
	from PIL import Image

	# Load object detection model
	MODEL_NAME = "facebook/detr-resnet-50"
	detector = pipeline("object-detection", model=MODEL_NAME)

	def caption_image(image: Image.Image):
	# Validate input
	if not isinstance(image, Image.Image) or image.mode not in ('RGB', 'L'):
	raise ValueError("Input must be a valid PIL Image in RGB or grayscale format")

	# Run object detection
	results = detector(image)

	# Track highest score per object
	objects_dict = {}
	for result in results:
	label = result['label']
	score = result['score']
	if label in objects_dict:
	objects_dict[label] = max(objects_dict[label], score)
	else:
	objects_dict[label] = score

	# Build structured list of objects
	objects_list = [
	{"label": label, "score": round(score, 2)}
	for label, score in sorted(objects_dict.items(), key=lambda x: x[1], reverse=True)
	]

	# Create readable caption
	detected_objects = [f"{obj['label']} ({obj['score']:.2f})" for obj in objects_list]
	caption = "Detected objects: " + ", ".join(detected_objects) if detected_objects else "No objects detected."

	# Highest confidence score
	max_confidence = max(objects_dict.values()) if objects_dict else 0.0

	return {
	"caption": caption,
	"objects": objects_list,
	"confidence": round(max_confidence, 2)
	}