YanCotta commited on
Commit
60ffae8
·
verified ·
1 Parent(s): 9a27875

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +48 -8
README.md CHANGED
@@ -1,13 +1,53 @@
1
  ---
2
- language: pt
3
- ---
4
  library_name: transformers
 
 
 
5
  tags:
6
- - image-classification
7
  - vision-transformer
8
- pipeline_tag: image-classification
9
- ---
 
 
 
 
 
10
  ---
11
- # ReINVenTA: ViT Entity Classifier
12
- Este é o Estágio 2 do pipeline ReINVenTA. Um ViT-Base treinado para classificar recortes (crops) de imagens em categorias da FrameNet Brasil.
13
- **Performance:** 47.5% Accuracy / 55.9% Top-20 Accuracy.
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
  ---
 
 
2
  library_name: transformers
3
+ license: mit
4
+ language: pt
5
+ pipeline_tag: image-classification
6
  tags:
 
7
  - vision-transformer
8
+ - vit
9
+ - framenet
10
+ - multimodal
11
+ - image-classification
12
+ widget:
13
+ - src: https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/pipeline-cat-chonk.jpeg
14
+ example_title: "Exemplo Genérico"
15
  ---
16
+
17
+ # 🖼️ ReINVenTA: ViT Entity Classifier (Stage 2)
18
+
19
+ > **Modelo de Classificação de Entidades Visuais (Fine-Tuned ViT-Base)**
20
+
21
+ Este modelo representa o **Estágio 2 (Refinamento)** do projeto **ReINVenTA** (FrameNet Brasil). Ele é responsável por classificar recortes de objetos (*crops*) detectados nas imagens, atribuindo-lhes categorias semânticas da hierarquia FrameNet.
22
+
23
+ ## 📊 Performance
24
+ O modelo foi treinado no dataset **Flickr30k Entities**, lidando com **600+ classes** desbalanceadas.
25
+ - **Acurácia Global:** 47.5%
26
+ - **Top-20 Accuracy:** 55.9%
27
+
28
+ *Nota: O modelo aprendeu a distinguir classes visuais complexas, embora apresente confusão esperada entre classes semanticamente próximas na hierarquia da FrameNet (ex: `Person` vs `Person_by_age`).*
29
+
30
+ ## 🛠️ Como Usar (Python)
31
+
32
+ ```python
33
+ from transformers import ViTForImageClassification, ViTImageProcessor
34
+ from PIL import Image
35
+ import requests
36
+
37
+ # 1. Carregar Modelo
38
+ model_id = "FrameNetBrasil/reinventa-vit-entity-classifier"
39
+ model = ViTForImageClassification.from_pretrained(model_id)
40
+ processor = ViTImageProcessor.from_pretrained("google/vit-base-patch16-224-in21k")
41
+
42
+ # 2. Carregar Imagem
43
+ url = "[http://images.cocodataset.org/val2017/000000039769.jpg](http://images.cocodataset.org/val2017/000000039769.jpg)"
44
+ image = Image.open(requests.get(url, stream=True).raw)
45
+
46
+ # 3. Inferência
47
+ inputs = processor(images=image, return_tensors="pt")
48
+ outputs = model(**inputs)
49
+ logits = outputs.logits
50
+
51
+ # 4. Predição
52
+ predicted_class_idx = logits.argmax(-1).item()
53
+ print("Predicted class:", model.config.id2label[predicted_class_idx])