FrameNetBrasil
/

reinventa-vit-entity-classifier

Image Classification

vision-transformer

Model card Files Files and versions

YanCotta commited on Jan 6

Commit

4dd5085

·

verified ·

1 Parent(s): 60ffae8

Update README.md

Files changed (1) hide show

README.md +5 -25

README.md CHANGED Viewed

@@ -7,11 +7,10 @@ tags:
 - vision-transformer
 - vit
 - framenet
-- multimodal
 - image-classification
 widget:
 - src: https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/pipeline-cat-chonk.jpeg
-  example_title: "Exemplo Genérico"
 ---
 # 🖼️ ReINVenTA: ViT Entity Classifier (Stage 2)
@@ -27,27 +26,8 @@ O modelo foi treinado no dataset **Flickr30k Entities**, lidando com **600+ clas
 *Nota: O modelo aprendeu a distinguir classes visuais complexas, embora apresente confusão esperada entre classes semanticamente próximas na hierarquia da FrameNet (ex: `Person` vs `Person_by_age`).*
-## 🛠️ Como Usar (Python)
-```python
-from transformers import ViTForImageClassification, ViTImageProcessor
-from PIL import Image
-import requests
-# 1. Carregar Modelo
-model_id = "FrameNetBrasil/reinventa-vit-entity-classifier"
-model = ViTForImageClassification.from_pretrained(model_id)
-processor = ViTImageProcessor.from_pretrained("google/vit-base-patch16-224-in21k")
-# 2. Carregar Imagem
-url = "[http://images.cocodataset.org/val2017/000000039769.jpg](http://images.cocodataset.org/val2017/000000039769.jpg)"
-image = Image.open(requests.get(url, stream=True).raw)
-# 3. Inferência
-inputs = processor(images=image, return_tensors="pt")
-outputs = model(**inputs)
-logits = outputs.logits
-# 4. Predição
-predicted_class_idx = logits.argmax(-1).item()
-print("Predicted class:", model.config.id2label[predicted_class_idx])

 - vision-transformer
 - vit
 - framenet
 - image-classification
 widget:
 - src: https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/pipeline-cat-chonk.jpeg
+  example_title: "Gato (Exemplo)"
 ---
 # 🖼️ ReINVenTA: ViT Entity Classifier (Stage 2)
 *Nota: O modelo aprendeu a distinguir classes visuais complexas, embora apresente confusão esperada entre classes semanticamente próximas na hierarquia da FrameNet (ex: `Person` vs `Person_by_age`).*
+## 🧠 Contexto do Projeto
+Este classificador atua como um refinador para o **Estágio 1 (YOLO)**. Enquanto o YOLO detecta *onde* estão os objetos, o ViT confirma *o que* eles são com maior granularidade, alimentando o vetor simbólico para a fusão Neuro-Simbólica final.
+---
+**FrameNet Brasil - UFJF**