|
|
--- |
|
|
library_name: transformers |
|
|
license: mit |
|
|
language: pt |
|
|
pipeline_tag: image-classification |
|
|
tags: |
|
|
- vision-transformer |
|
|
- vit |
|
|
- framenet |
|
|
- image-classification |
|
|
widget: |
|
|
- src: https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/pipeline-cat-chonk.jpeg |
|
|
example_title: "Gato (Exemplo)" |
|
|
--- |
|
|
|
|
|
# 🖼️ ReINVenTA: ViT Entity Classifier (Stage 2) |
|
|
|
|
|
> **Modelo de Classificação de Entidades Visuais (Fine-Tuned ViT-Base)** |
|
|
|
|
|
Este modelo representa o **Estágio 2 (Refinamento)** do projeto **ReINVenTA** (FrameNet Brasil). Ele é responsável por classificar recortes de objetos (*crops*) detectados nas imagens, atribuindo-lhes categorias semânticas da hierarquia FrameNet. |
|
|
|
|
|
## 📊 Performance |
|
|
O modelo foi treinado no dataset **Flickr30k Entities**, lidando com **600+ classes** desbalanceadas. |
|
|
- **Acurácia Global:** 47.5% |
|
|
- **Top-20 Accuracy:** 55.9% |
|
|
|
|
|
*Nota: O modelo aprendeu a distinguir classes visuais complexas, embora apresente confusão esperada entre classes semanticamente próximas na hierarquia da FrameNet (ex: `Person` vs `Person_by_age`).* |
|
|
|
|
|
## 🧠 Contexto do Projeto |
|
|
Este classificador atua como um refinador para o **Estágio 1 (YOLO)**. Enquanto o YOLO detecta *onde* estão os objetos, o ViT confirma *o que* eles são com maior granularidade, alimentando o vetor simbólico para a fusão Neuro-Simbólica final. |
|
|
|
|
|
--- |
|
|
**FrameNet Brasil - UFJF** |