Spaces:

Agacy
/

PDI

Running

App Files Files Community

PDI / app.py

Agacy

Update app.py

1004e6e verified 19 days ago

Raw

History Blame Contribute Delete

10.8 kB

	"""
	Segmentação Panóptica de Cenas Urbanas — Araguatins/TO
	Projeto PDI — Antonio Agacy & Maria Divina · IFTO · 2026
	HuggingFace Spaces · Gradio · OneFormer (fine-tuned)
	"""

	import io
	import time

	import gradio as gr
	import numpy as np
	import torch
	from PIL import Image
	import matplotlib

	matplotlib.use("Agg")
	import matplotlib.pyplot as plt
	import matplotlib.patches as mpatches

	from transformers import (
	OneFormerProcessor,
	OneFormerForUniversalSegmentation,
	)

	# ─── Configuração ────────────────────────────────────────────
	MODEL_NAME = "Agacy/PDI"
	DEVICE = "cuda" if torch.cuda.is_available() else "cpu"

	# ─── Carrega modelo uma vez ──────────────────────────────────
	print(f"Carregando OneFormer ({MODEL_NAME}) no dispositivo: {DEVICE}")
	processor = OneFormerProcessor.from_pretrained(MODEL_NAME)
	model = OneFormerForUniversalSegmentation.from_pretrained(
	MODEL_NAME, is_training=False
	)
	model = model.to(DEVICE).eval()
	ID2LABEL = {int(k): v for k, v in model.config.id2label.items()}
	NUM_CLASSES = len(ID2LABEL)
	print(f"✅ Modelo pronto! {NUM_CLASSES} classes: {list(ID2LABEL.values())}")

	# ─── Paleta FIXA POR CLASSE (cor consistente entre imagens) ──
	PALETTE = [
	[228, 26, 28], [55, 126, 184], [77, 175, 74], [152, 78, 163],
	[255, 127, 0], [255, 255, 51], [166, 86, 40], [247, 129, 191],
	[153, 153, 153], [0, 206, 209], [124, 252, 0], [138, 43, 226],
	[255, 99, 71], [70, 130, 180], [240, 230, 140], [219, 112, 147],
	]


	def cor_da_classe(label_id: int) -> np.ndarray:
	return np.array(PALETTE[label_id % len(PALETTE)], dtype=float)


	# Nomes em português para exibição
	PT_LABELS = {
	"building": "edifício", "bus": "ônibus", "car": "carro",
	"motorcycle": "moto", "person": "pessoa", "river": "rio",
	"road": "rua", "sidewalk": "calçada", "sky": "céu",
	"terrain": "terreno", "truck": "caminhão", "vegetation": "vegetação",
	}


	def nome_pt(label: str) -> str:
	return PT_LABELS.get(label, label)


	# ─── Função principal ────────────────────────────────────────
	def segmentar(imagem_pil, tarefa: str, opacidade: float, progress=gr.Progress()):
	if imagem_pil is None:
	return None, "⚠️ Envie uma imagem primeiro."

	t0 = time.time()
	progress(0.1, desc="Pré-processando…")

	task_map = {
	"🔀 Panóptico (things + stuff)": "panoptic",
	"🎨 Semântico (regiões)": "semantic",
	"📦 Instâncias (objetos)": "instance",
	}
	task_token = task_map.get(tarefa, "panoptic")

	imagem_pil = imagem_pil.convert("RGB")

	# Reduz imagens muito grandes (CPU do Space agradece)
	MAX_SIDE = 1024
	if max(imagem_pil.size) > MAX_SIDE:
	ratio = MAX_SIDE / max(imagem_pil.size)
	novo = (int(imagem_pil.width * ratio), int(imagem_pil.height * ratio))
	imagem_pil = imagem_pil.resize(novo, Image.BILINEAR)

	inputs = processor(
	images=imagem_pil, task_inputs=[task_token], return_tensors="pt"
	)
	inputs = {
	k: v.to(DEVICE) if isinstance(v, torch.Tensor) else v
	for k, v in inputs.items()
	}

	progress(0.3, desc="Rodando o OneFormer… (CPU pode levar ~1 min)")
	with torch.no_grad():
	outputs = model(**inputs)

	progress(0.8, desc="Gerando máscaras…")
	img_size = [imagem_pil.size[::-1]] # (H, W)
	img_np = np.array(imagem_pil)
	overlay = img_np.copy().astype(float)
	total_px = img_np.shape[0] * img_np.shape[1]

	handles_por_classe = {}
	linhas_resumo = []

	if task_token == "panoptic":
	resultado = processor.post_process_panoptic_segmentation(
	outputs, target_sizes=img_size
	)[0]
	seg_map = resultado["segmentation"].cpu().numpy()
	seg_info = resultado["segments_info"]

	for seg in seg_info:
	cls = seg.get("label_id", 0)
	cor = cor_da_classe(cls)
	mask = seg_map == seg["id"]
	overlay[mask] = overlay[mask] * (1 - opacidade) + cor * opacidade

	label = nome_pt(ID2LABEL.get(cls, "?"))
	pct = 100 * mask.sum() / total_px
	score = seg.get("score", 0)
	linhas_resumo.append(
	f"\| {label} \| {pct:.1f}% \| {score:.0%} \|"
	)
	if cls not in handles_por_classe:
	handles_por_classe[cls] = mpatches.Patch(
	color=cor / 255.0, label=label
	)
	n_seg = len(seg_info)

	elif task_token == "semantic":
	resultado = processor.post_process_semantic_segmentation(
	outputs, target_sizes=img_size
	)[0]
	seg_map = resultado.cpu().numpy()
	ids_presentes = np.unique(seg_map)

	for cid in ids_presentes:
	cls = int(cid)
	cor = cor_da_classe(cls)
	mask = seg_map == cid
	overlay[mask] = overlay[mask] * (1 - opacidade) + cor * opacidade

	label = nome_pt(ID2LABEL.get(cls, "?"))
	pct = 100 * mask.sum() / total_px
	linhas_resumo.append(f"\| {label} \| {pct:.1f}% \| — \|")
	handles_por_classe[cls] = mpatches.Patch(
	color=cor / 255.0, label=label
	)
	n_seg = len(ids_presentes)

	else: # instance
	resultado = processor.post_process_instance_segmentation(
	outputs, target_sizes=img_size
	)[0]
	seg_map = resultado["segmentation"].cpu().numpy()
	seg_info = resultado["segments_info"]

	for i, seg in enumerate(seg_info):
	cls = seg.get("label_id", 0)
	cor = cor_da_classe(cls)
	mask = seg_map == seg["id"]
	overlay[mask] = overlay[mask] * (1 - opacidade) + cor * opacidade

	label = nome_pt(ID2LABEL.get(cls, "?"))
	pct = 100 * mask.sum() / total_px
	score = seg.get("score", 0)
	linhas_resumo.append(
	f"\| {label} #{i + 1} \| {pct:.1f}% \| {score:.0%} \|"
	)
	if cls not in handles_por_classe:
	handles_por_classe[cls] = mpatches.Patch(
	color=cor / 255.0, label=label
	)
	n_seg = len(seg_info)

	# ─── Figura lado a lado ──────────────────────────────────
	fig, axes = plt.subplots(1, 2, figsize=(14, 6))
	axes[0].imshow(img_np)
	axes[0].set_title("Original", fontsize=13)
	axes[0].axis("off")

	axes[1].imshow(overlay.astype(np.uint8))
	axes[1].set_title(
	f"Segmentação — modo {task_token}", fontsize=13
	)
	axes[1].axis("off")

	handles = list(handles_por_classe.values())
	if handles:
	axes[1].legend(
	handles=handles,
	loc="upper left",
	bbox_to_anchor=(1.01, 1.0),
	fontsize=9,
	framealpha=0.9,
	)

	plt.tight_layout()
	buf = io.BytesIO()
	plt.savefig(buf, format="png", dpi=120, bbox_inches="tight")
	plt.close(fig)
	buf.seek(0)
	img_resultado = Image.open(buf).copy()
	buf.close()

	# ─── Resumo em tabela Markdown ──────────────────────────
	dt = time.time() - t0
	resumo = (
	f"### {n_seg} segmento(s) · modo {task_token} · {dt:.1f}s\n\n"
	"\| Classe \| Área da imagem \| Confiança \|\n"
	"\|---\|---\|---\|\n"
	+ "\n".join(linhas_resumo[:25])
	)
	if len(linhas_resumo) > 25:
	resumo += f"\n\n…e mais {len(linhas_resumo) - 25} segmento(s)."

	return img_resultado, resumo


	# ─── Interface Gradio ────────────────────────────────────────
	DESCRICAO = """
	# 🏙️ Segmentação Panóptica de Cenas Urbanas — Araguatins/TO

	Projeto PDI — Antonio Agacy Silva Lima Júnior & Maria Divina · Instituto Federal do Tocantins (IFTO) · 2026

	Modelo [OneFormer](https://arxiv.org/abs/2211.06220) (Jain et al., CVPR 2023), pré-treinado no Cityscapes
	e ajustado (fine-tuned) com fotos reais de Araguatins-TO anotadas pela equipe — 12 classes,
	incluindo cenas do rio Araguaia, ruas de bloquete e vegetação do cerrado.

	⏱️ Rodando em CPU gratuita: a inferência leva de 30 a 90 segundos.
	"""

	RODAPE = """
	---
	Classes do modelo: edifício · ônibus · carro · moto · pessoa · rio · rua · calçada · céu · terreno · caminhão · vegetação

	Pipeline: anotação no Roboflow → fine-tuning no Kaggle (T4) → publicação no 🤗 Hub → demo neste Space

	Referências: Kirillov et al. (2019) — Panoptic Segmentation · Jain et al. (2023) — OneFormer ·
	Ren et al. (2024) · Ravi et al. (2024)
	"""

	with gr.Blocks(title="Segmentação Panóptica — PDI IFTO") as demo:
	gr.Markdown(DESCRICAO)

	with gr.Row():
	with gr.Column(scale=1):
	img_input = gr.Image(
	type="pil",
	label="📷 Imagem de entrada",
	sources=["upload", "clipboard", "webcam"],
	)
	tarefa = gr.Radio(
	choices=[
	"🔀 Panóptico (things + stuff)",
	"🎨 Semântico (regiões)",
	"📦 Instâncias (objetos)",
	],
	value="🔀 Panóptico (things + stuff)",
	label="Modo de segmentação",
	)
	opacidade = gr.Slider(
	minimum=0.3, maximum=0.9, value=0.55, step=0.05,
	label="Opacidade das máscaras",
	)
	btn = gr.Button("🚀 Segmentar", variant="primary", size="lg")

	gr.Markdown(
	"Como usar: envie uma foto de rua/trânsito, "
	"escolha o modo e clique em Segmentar."
	)

	with gr.Column(scale=2):
	img_output = gr.Image(type="pil", label="Resultado")
	texto_output = gr.Markdown()

	# Exemplos prontos (adicione os arquivos na pasta examples/ do Space)
	gr.Examples(
	examples=[
	["examples/ifto_estacionamento.jpg"],
	["examples/rio_araguaia.jpg"],
	["examples/rua_centro.jpg"],
	],
	inputs=[img_input],
	label="📁 Exemplos de Araguatins (clique para carregar)",
	)

	btn.click(
	fn=segmentar,
	inputs=[img_input, tarefa, opacidade],
	outputs=[img_output, texto_output],
	)

	gr.Markdown(RODAPE)

	if __name__ == "__main__":
	demo.launch(theme=gr.themes.Soft(primary_hue="violet"))