🖼️ Mô hình Phân loại Ảnh - ViT Fine-tuned trên CIFAR-100

📝 Mô tả

Đây là mô hình Vision Transformer (ViT) được fine-tuned từ mô hình gốc google/vit-base-patch16-224-in21k trên tập dữ liệu CIFAR-100. Mô hình được huấn luyện để phân loại ảnh vào 100 lớp khác nhau, mỗi lớp đại diện cho một danh mục đối tượng cụ thể.

📌 Nhiệm vụ

Loại bài toán: Phân loại ảnh (Image Classification) Số lớp: 100 Tập dữ liệu: CIFAR-100

📥 Đầu vào

Định dạng: Ảnh màu RGB Kích thước ảnh: 224x224

📤 Đầu ra

Định dạng: Xác suất cho mỗi lớp (logits) Kiểu dữ liệu: Tensor có kích thước [batch_size, 100] Ý nghĩa: Xác suất dự đoán cho từng lớp trong 100 lớp của CIFAR-100

🛠 Yêu cầu thư viện

Cài đặt các thư viện cần thiết bằng:

pip install transformers torch torchvision

🧪 Cách sử dụng mô hình

Dưới đây là ví dụ về cách sử dụng mô hình để phân loại một ảnh:

import torch
from transformers import ViTForImageClassification, ViTImageProcessor
from PIL import Image

# Tải ảnh cần phân loại
image = Image.open("path_to_your_image.jpg")

# Tải processor và mô hình từ Hugging Face
processor = ViTImageProcessor.from_pretrained("zhaospei/Model_6")
model = ViTForImageClassification.from_pretrained("zhaospei/Model_6")

# Xử lý đầu vào
inputs = processor(images=image, return_tensors="pt")

# Dự đoán với mô hình
with torch.no_grad():
    outputs = model(**inputs)
    logits = outputs.logits
    predicted_label = logits.argmax(-1).item()

print(f"Nhãn dự đoán: {model.config.id2label[predicted_label]}")