YanCotta commited on
Commit
4dd5085
·
verified ·
1 Parent(s): 60ffae8

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +5 -25
README.md CHANGED
@@ -7,11 +7,10 @@ tags:
7
  - vision-transformer
8
  - vit
9
  - framenet
10
- - multimodal
11
  - image-classification
12
  widget:
13
  - src: https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/pipeline-cat-chonk.jpeg
14
- example_title: "Exemplo Genérico"
15
  ---
16
 
17
  # 🖼️ ReINVenTA: ViT Entity Classifier (Stage 2)
@@ -27,27 +26,8 @@ O modelo foi treinado no dataset **Flickr30k Entities**, lidando com **600+ clas
27
 
28
  *Nota: O modelo aprendeu a distinguir classes visuais complexas, embora apresente confusão esperada entre classes semanticamente próximas na hierarquia da FrameNet (ex: `Person` vs `Person_by_age`).*
29
 
30
- ## 🛠️ Como Usar (Python)
 
31
 
32
- ```python
33
- from transformers import ViTForImageClassification, ViTImageProcessor
34
- from PIL import Image
35
- import requests
36
-
37
- # 1. Carregar Modelo
38
- model_id = "FrameNetBrasil/reinventa-vit-entity-classifier"
39
- model = ViTForImageClassification.from_pretrained(model_id)
40
- processor = ViTImageProcessor.from_pretrained("google/vit-base-patch16-224-in21k")
41
-
42
- # 2. Carregar Imagem
43
- url = "[http://images.cocodataset.org/val2017/000000039769.jpg](http://images.cocodataset.org/val2017/000000039769.jpg)"
44
- image = Image.open(requests.get(url, stream=True).raw)
45
-
46
- # 3. Inferência
47
- inputs = processor(images=image, return_tensors="pt")
48
- outputs = model(**inputs)
49
- logits = outputs.logits
50
-
51
- # 4. Predição
52
- predicted_class_idx = logits.argmax(-1).item()
53
- print("Predicted class:", model.config.id2label[predicted_class_idx])
 
7
  - vision-transformer
8
  - vit
9
  - framenet
 
10
  - image-classification
11
  widget:
12
  - src: https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/pipeline-cat-chonk.jpeg
13
+ example_title: "Gato (Exemplo)"
14
  ---
15
 
16
  # 🖼️ ReINVenTA: ViT Entity Classifier (Stage 2)
 
26
 
27
  *Nota: O modelo aprendeu a distinguir classes visuais complexas, embora apresente confusão esperada entre classes semanticamente próximas na hierarquia da FrameNet (ex: `Person` vs `Person_by_age`).*
28
 
29
+ ## 🧠 Contexto do Projeto
30
+ Este classificador atua como um refinador para o **Estágio 1 (YOLO)**. Enquanto o YOLO detecta *onde* estão os objetos, o ViT confirma *o que* eles são com maior granularidade, alimentando o vetor simbólico para a fusão Neuro-Simbólica final.
31
 
32
+ ---
33
+ **FrameNet Brasil - UFJF**