File size: 1,390 Bytes
7ba22ff 9a27875 60ffae8 7ba22ff 60ffae8 4dd5085 7ba22ff 60ffae8 4dd5085 60ffae8 4dd5085 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 |
---
library_name: transformers
license: mit
language: pt
pipeline_tag: image-classification
tags:
- vision-transformer
- vit
- framenet
- image-classification
widget:
- src: https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/pipeline-cat-chonk.jpeg
example_title: "Gato (Exemplo)"
---
# 🖼️ ReINVenTA: ViT Entity Classifier (Stage 2)
> **Modelo de Classificação de Entidades Visuais (Fine-Tuned ViT-Base)**
Este modelo representa o **Estágio 2 (Refinamento)** do projeto **ReINVenTA** (FrameNet Brasil). Ele é responsável por classificar recortes de objetos (*crops*) detectados nas imagens, atribuindo-lhes categorias semânticas da hierarquia FrameNet.
## 📊 Performance
O modelo foi treinado no dataset **Flickr30k Entities**, lidando com **600+ classes** desbalanceadas.
- **Acurácia Global:** 47.5%
- **Top-20 Accuracy:** 55.9%
*Nota: O modelo aprendeu a distinguir classes visuais complexas, embora apresente confusão esperada entre classes semanticamente próximas na hierarquia da FrameNet (ex: `Person` vs `Person_by_age`).*
## 🧠 Contexto do Projeto
Este classificador atua como um refinador para o **Estágio 1 (YOLO)**. Enquanto o YOLO detecta *onde* estão os objetos, o ViT confirma *o que* eles são com maior granularidade, alimentando o vetor simbólico para a fusão Neuro-Simbólica final.
---
**FrameNet Brasil - UFJF** |