from transformers import DetrImageProcessor, DetrForObjectDetection import torch from PIL import Image import gradio as gr # Cargar el procesador y el modelo processor = DetrImageProcessor.from_pretrained("facebook/detr-resnet-50") model = DetrForObjectDetection.from_pretrained("facebook/detr-resnet-50") # Función para procesar la imagen def detect_objects(image): # Preprocesamiento inputs = processor(images=image, return_tensors="pt") # Detectar objetos with torch.no_grad(): outputs = model(**inputs) # Filtrar resultados target_sizes = torch.tensor([image.size[::-1]]) # (alto, ancho) results = processor.post_process_object_detection(outputs, target_sizes=target_sizes, threshold=0.9)[0] # Crear una lista de los resultados con nombre y puntuación labels = results["labels"] scores = results["scores"] boxes = results["boxes"] # Mostrar los objetos detectados detected_objects = [] id2label = model.config.id2label # Diccionario ID -> Nombre for score, label, box in zip(scores, labels, boxes): label_name = id2label[int(label)] detected_objects.append( f"Objeto: {label_name}, Score: {score:.2f}, Box: {box.tolist()}" ) return "\n".join(detected_objects) # Crear la interfaz Gradio def create_interface(): interface = gr.Interface( fn=detect_objects, inputs=gr.Image(type="pil"), outputs=gr.Textbox(), live=True, title="Detección de Objetos con Transformers", description="Sube una imagen y descubre qué objetos se pueden detectar." ) interface.launch() if __name__ == "__main__": create_interface()