FrameNetBrasil
/

reinventa-vit-entity-classifier

Image Classification

vision-transformer

Model card Files Files and versions

reinventa-vit-entity-classifier / README.md

YanCotta's picture

Update README.md

4dd5085 verified about 1 month ago

|

history blame contribute delete

1.39 kB

	---
	library_name: transformers
	license: mit
	language: pt
	pipeline_tag: image-classification
	tags:
	- vision-transformer
	- vit
	- framenet
	- image-classification
	widget:
	- src: https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/pipeline-cat-chonk.jpeg
	example_title: "Gato (Exemplo)"
	---

	# 🖼️ ReINVenTA: ViT Entity Classifier (Stage 2)

	> Modelo de Classificação de Entidades Visuais (Fine-Tuned ViT-Base)

	Este modelo representa o Estágio 2 (Refinamento) do projeto ReINVenTA (FrameNet Brasil). Ele é responsável por classificar recortes de objetos (crops) detectados nas imagens, atribuindo-lhes categorias semânticas da hierarquia FrameNet.

	## 📊 Performance
	O modelo foi treinado no dataset Flickr30k Entities, lidando com 600+ classes desbalanceadas.
	- Acurácia Global: 47.5%
	- Top-20 Accuracy: 55.9%

	Nota: O modelo aprendeu a distinguir classes visuais complexas, embora apresente confusão esperada entre classes semanticamente próximas na hierarquia da FrameNet (ex: `Person` vs `Person_by_age`).

	## 🧠 Contexto do Projeto
	Este classificador atua como um refinador para o Estágio 1 (YOLO). Enquanto o YOLO detecta onde estão os objetos, o ViT confirma o que eles são com maior granularidade, alimentando o vetor simbólico para a fusão Neuro-Simbólica final.

	---
	FrameNet Brasil - UFJF