PDI / app.py
Agacy's picture
Update app.py
1004e6e verified
Raw
History Blame Contribute Delete
10.8 kB
"""
Segmentação Panóptica de Cenas Urbanas — Araguatins/TO
Projeto PDI — Antonio Agacy & Maria Divina · IFTO · 2026
HuggingFace Spaces · Gradio · OneFormer (fine-tuned)
"""
import io
import time
import gradio as gr
import numpy as np
import torch
from PIL import Image
import matplotlib
matplotlib.use("Agg")
import matplotlib.pyplot as plt
import matplotlib.patches as mpatches
from transformers import (
OneFormerProcessor,
OneFormerForUniversalSegmentation,
)
# ─── Configuração ────────────────────────────────────────────
MODEL_NAME = "Agacy/PDI"
DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
# ─── Carrega modelo uma vez ──────────────────────────────────
print(f"Carregando OneFormer ({MODEL_NAME}) no dispositivo: {DEVICE}")
processor = OneFormerProcessor.from_pretrained(MODEL_NAME)
model = OneFormerForUniversalSegmentation.from_pretrained(
MODEL_NAME, is_training=False
)
model = model.to(DEVICE).eval()
ID2LABEL = {int(k): v for k, v in model.config.id2label.items()}
NUM_CLASSES = len(ID2LABEL)
print(f"✅ Modelo pronto! {NUM_CLASSES} classes: {list(ID2LABEL.values())}")
# ─── Paleta FIXA POR CLASSE (cor consistente entre imagens) ──
PALETTE = [
[228, 26, 28], [55, 126, 184], [77, 175, 74], [152, 78, 163],
[255, 127, 0], [255, 255, 51], [166, 86, 40], [247, 129, 191],
[153, 153, 153], [0, 206, 209], [124, 252, 0], [138, 43, 226],
[255, 99, 71], [70, 130, 180], [240, 230, 140], [219, 112, 147],
]
def cor_da_classe(label_id: int) -> np.ndarray:
return np.array(PALETTE[label_id % len(PALETTE)], dtype=float)
# Nomes em português para exibição
PT_LABELS = {
"building": "edifício", "bus": "ônibus", "car": "carro",
"motorcycle": "moto", "person": "pessoa", "river": "rio",
"road": "rua", "sidewalk": "calçada", "sky": "céu",
"terrain": "terreno", "truck": "caminhão", "vegetation": "vegetação",
}
def nome_pt(label: str) -> str:
return PT_LABELS.get(label, label)
# ─── Função principal ────────────────────────────────────────
def segmentar(imagem_pil, tarefa: str, opacidade: float, progress=gr.Progress()):
if imagem_pil is None:
return None, "⚠️ Envie uma imagem primeiro."
t0 = time.time()
progress(0.1, desc="Pré-processando…")
task_map = {
"🔀 Panóptico (things + stuff)": "panoptic",
"🎨 Semântico (regiões)": "semantic",
"📦 Instâncias (objetos)": "instance",
}
task_token = task_map.get(tarefa, "panoptic")
imagem_pil = imagem_pil.convert("RGB")
# Reduz imagens muito grandes (CPU do Space agradece)
MAX_SIDE = 1024
if max(imagem_pil.size) > MAX_SIDE:
ratio = MAX_SIDE / max(imagem_pil.size)
novo = (int(imagem_pil.width * ratio), int(imagem_pil.height * ratio))
imagem_pil = imagem_pil.resize(novo, Image.BILINEAR)
inputs = processor(
images=imagem_pil, task_inputs=[task_token], return_tensors="pt"
)
inputs = {
k: v.to(DEVICE) if isinstance(v, torch.Tensor) else v
for k, v in inputs.items()
}
progress(0.3, desc="Rodando o OneFormer… (CPU pode levar ~1 min)")
with torch.no_grad():
outputs = model(**inputs)
progress(0.8, desc="Gerando máscaras…")
img_size = [imagem_pil.size[::-1]] # (H, W)
img_np = np.array(imagem_pil)
overlay = img_np.copy().astype(float)
total_px = img_np.shape[0] * img_np.shape[1]
handles_por_classe = {}
linhas_resumo = []
if task_token == "panoptic":
resultado = processor.post_process_panoptic_segmentation(
outputs, target_sizes=img_size
)[0]
seg_map = resultado["segmentation"].cpu().numpy()
seg_info = resultado["segments_info"]
for seg in seg_info:
cls = seg.get("label_id", 0)
cor = cor_da_classe(cls)
mask = seg_map == seg["id"]
overlay[mask] = overlay[mask] * (1 - opacidade) + cor * opacidade
label = nome_pt(ID2LABEL.get(cls, "?"))
pct = 100 * mask.sum() / total_px
score = seg.get("score", 0)
linhas_resumo.append(
f"| {label} | {pct:.1f}% | {score:.0%} |"
)
if cls not in handles_por_classe:
handles_por_classe[cls] = mpatches.Patch(
color=cor / 255.0, label=label
)
n_seg = len(seg_info)
elif task_token == "semantic":
resultado = processor.post_process_semantic_segmentation(
outputs, target_sizes=img_size
)[0]
seg_map = resultado.cpu().numpy()
ids_presentes = np.unique(seg_map)
for cid in ids_presentes:
cls = int(cid)
cor = cor_da_classe(cls)
mask = seg_map == cid
overlay[mask] = overlay[mask] * (1 - opacidade) + cor * opacidade
label = nome_pt(ID2LABEL.get(cls, "?"))
pct = 100 * mask.sum() / total_px
linhas_resumo.append(f"| {label} | {pct:.1f}% | — |")
handles_por_classe[cls] = mpatches.Patch(
color=cor / 255.0, label=label
)
n_seg = len(ids_presentes)
else: # instance
resultado = processor.post_process_instance_segmentation(
outputs, target_sizes=img_size
)[0]
seg_map = resultado["segmentation"].cpu().numpy()
seg_info = resultado["segments_info"]
for i, seg in enumerate(seg_info):
cls = seg.get("label_id", 0)
cor = cor_da_classe(cls)
mask = seg_map == seg["id"]
overlay[mask] = overlay[mask] * (1 - opacidade) + cor * opacidade
label = nome_pt(ID2LABEL.get(cls, "?"))
pct = 100 * mask.sum() / total_px
score = seg.get("score", 0)
linhas_resumo.append(
f"| {label} #{i + 1} | {pct:.1f}% | {score:.0%} |"
)
if cls not in handles_por_classe:
handles_por_classe[cls] = mpatches.Patch(
color=cor / 255.0, label=label
)
n_seg = len(seg_info)
# ─── Figura lado a lado ──────────────────────────────────
fig, axes = plt.subplots(1, 2, figsize=(14, 6))
axes[0].imshow(img_np)
axes[0].set_title("Original", fontsize=13)
axes[0].axis("off")
axes[1].imshow(overlay.astype(np.uint8))
axes[1].set_title(
f"Segmentação — modo {task_token}", fontsize=13
)
axes[1].axis("off")
handles = list(handles_por_classe.values())
if handles:
axes[1].legend(
handles=handles,
loc="upper left",
bbox_to_anchor=(1.01, 1.0),
fontsize=9,
framealpha=0.9,
)
plt.tight_layout()
buf = io.BytesIO()
plt.savefig(buf, format="png", dpi=120, bbox_inches="tight")
plt.close(fig)
buf.seek(0)
img_resultado = Image.open(buf).copy()
buf.close()
# ─── Resumo em tabela Markdown ──────────────────────────
dt = time.time() - t0
resumo = (
f"### {n_seg} segmento(s) · modo **{task_token}** · {dt:.1f}s\n\n"
"| Classe | Área da imagem | Confiança |\n"
"|---|---|---|\n"
+ "\n".join(linhas_resumo[:25])
)
if len(linhas_resumo) > 25:
resumo += f"\n\n*…e mais {len(linhas_resumo) - 25} segmento(s).*"
return img_resultado, resumo
# ─── Interface Gradio ────────────────────────────────────────
DESCRICAO = """
# 🏙️ Segmentação Panóptica de Cenas Urbanas — Araguatins/TO
**Projeto PDI — Antonio Agacy Silva Lima Júnior & Maria Divina** · Instituto Federal do Tocantins (IFTO) · 2026
Modelo [OneFormer](https://arxiv.org/abs/2211.06220) (Jain et al., CVPR 2023), pré-treinado no **Cityscapes**
e **ajustado (fine-tuned) com fotos reais de Araguatins-TO** anotadas pela equipe — 12 classes,
incluindo cenas do rio Araguaia, ruas de bloquete e vegetação do cerrado.
⏱️ *Rodando em CPU gratuita: a inferência leva de 30 a 90 segundos.*
"""
RODAPE = """
---
**Classes do modelo:** edifício · ônibus · carro · moto · pessoa · rio · rua · calçada · céu · terreno · caminhão · vegetação
**Pipeline:** anotação no Roboflow → fine-tuning no Kaggle (T4) → publicação no 🤗 Hub → demo neste Space
**Referências:** Kirillov et al. (2019) — *Panoptic Segmentation* · Jain et al. (2023) — *OneFormer* ·
Ren et al. (2024) · Ravi et al. (2024)
"""
with gr.Blocks(title="Segmentação Panóptica — PDI IFTO") as demo:
gr.Markdown(DESCRICAO)
with gr.Row():
with gr.Column(scale=1):
img_input = gr.Image(
type="pil",
label="📷 Imagem de entrada",
sources=["upload", "clipboard", "webcam"],
)
tarefa = gr.Radio(
choices=[
"🔀 Panóptico (things + stuff)",
"🎨 Semântico (regiões)",
"📦 Instâncias (objetos)",
],
value="🔀 Panóptico (things + stuff)",
label="Modo de segmentação",
)
opacidade = gr.Slider(
minimum=0.3, maximum=0.9, value=0.55, step=0.05,
label="Opacidade das máscaras",
)
btn = gr.Button("🚀 Segmentar", variant="primary", size="lg")
gr.Markdown(
"**Como usar:** envie uma foto de rua/trânsito, "
"escolha o modo e clique em Segmentar."
)
with gr.Column(scale=2):
img_output = gr.Image(type="pil", label="Resultado")
texto_output = gr.Markdown()
# Exemplos prontos (adicione os arquivos na pasta examples/ do Space)
gr.Examples(
examples=[
["examples/ifto_estacionamento.jpg"],
["examples/rio_araguaia.jpg"],
["examples/rua_centro.jpg"],
],
inputs=[img_input],
label="📁 Exemplos de Araguatins (clique para carregar)",
)
btn.click(
fn=segmentar,
inputs=[img_input, tarefa, opacidade],
outputs=[img_output, texto_output],
)
gr.Markdown(RODAPE)
if __name__ == "__main__":
demo.launch(theme=gr.themes.Soft(primary_hue="violet"))