FrameNetBrasil
/

reinventa-vit-entity-classifier

Image Classification

vision-transformer

Model card Files Files and versions

YanCotta commited on Jan 6

Commit

60ffae8

·

verified ·

1 Parent(s): 9a27875

Update README.md

Files changed (1) hide show

README.md +48 -8

README.md CHANGED Viewed

@@ -1,13 +1,53 @@
 ---
-language: pt
----
 library_name: transformers
 tags:
-- image-classification
 - vision-transformer
-pipeline_tag: image-classification
----
 ---
-# ReINVenTA: ViT Entity Classifier
-Este é o Estágio 2 do pipeline ReINVenTA. Um ViT-Base treinado para classificar recortes (crops) de imagens em categorias da FrameNet Brasil.
-**Performance:** 47.5% Accuracy / 55.9% Top-20 Accuracy.

 ---
 library_name: transformers
+license: mit
+language: pt
+pipeline_tag: image-classification
 tags:
 - vision-transformer
+- vit
+- framenet
+- multimodal
+- image-classification
+widget:
+- src: https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/pipeline-cat-chonk.jpeg
+  example_title: "Exemplo Genérico"
 ---
+# 🖼️ ReINVenTA: ViT Entity Classifier (Stage 2)
+> **Modelo de Classificação de Entidades Visuais (Fine-Tuned ViT-Base)**
+Este modelo representa o **Estágio 2 (Refinamento)** do projeto **ReINVenTA** (FrameNet Brasil). Ele é responsável por classificar recortes de objetos (*crops*) detectados nas imagens, atribuindo-lhes categorias semânticas da hierarquia FrameNet.
+## 📊 Performance
+O modelo foi treinado no dataset **Flickr30k Entities**, lidando com **600+ classes** desbalanceadas.
+- **Acurácia Global:** 47.5%
+- **Top-20 Accuracy:** 55.9%
+*Nota: O modelo aprendeu a distinguir classes visuais complexas, embora apresente confusão esperada entre classes semanticamente próximas na hierarquia da FrameNet (ex: `Person` vs `Person_by_age`).*
+## 🛠️ Como Usar (Python)
+```python
+from transformers import ViTForImageClassification, ViTImageProcessor
+from PIL import Image
+import requests
+# 1. Carregar Modelo
+model_id = "FrameNetBrasil/reinventa-vit-entity-classifier"
+model = ViTForImageClassification.from_pretrained(model_id)
+processor = ViTImageProcessor.from_pretrained("google/vit-base-patch16-224-in21k")
+# 2. Carregar Imagem
+url = "[http://images.cocodataset.org/val2017/000000039769.jpg](http://images.cocodataset.org/val2017/000000039769.jpg)"
+image = Image.open(requests.get(url, stream=True).raw)
+# 3. Inferência
+inputs = processor(images=image, return_tensors="pt")
+outputs = model(**inputs)
+logits = outputs.logits
+# 4. Predição
+predicted_class_idx = logits.argmax(-1).item()
+print("Predicted class:", model.config.id2label[predicted_class_idx])