🖼️ Mô hình Phân loại Ảnh - ViT Fine-tuned trên CIFAR-10

📝 Mô tả

Đây là mô hình Vision Transformer (ViT) được fine-tuned từ mô hình khác trên tập dữ liệu CIFAR-10. Mô hình được huấn luyện để phân loại ảnh vào 10 lớp khác nhau, mỗi lớp đại diện cho một danh mục đối tượng cụ thể.

📌 Nhiệm vụ

Loại bài toán: Phân loại ảnh (Image Classification) Số lớp: 10 (Tương ứng nhãn) CIFAR-10

📥 Đầu vào

Định dạng: Ảnh màu RGB Kích thước ảnh: 224x224 pixels

📤 Đầu ra

Định dạng: Xác suất cho mỗi lớp (logits) Kiểu dữ liệu: Tensor có kích thước [batch_size, 10] Ý nghĩa: Xác suất dự đoán cho từng lớp trong 10 lớp của CIFAR-10

🛠 Yêu cầu thư viện Cài đặt các thư viện cần thiết bằng:

pip install transformers torch torchvision

🧪 Cách sử dụng mô hình

Dưới đây là ví dụ về cách sử dụng mô hình để phân loại một ảnh:

import torch
from transformers import ViTForImageClassification, ViTImageProcessor
from PIL import Image

# Tải ảnh cần phân loại
image = Image.open("path_to_your_image.jpg")

# Tải processor và mô hình từ Hugging Face
processor = ViTImageProcessor.from_pretrained("zhaospei/Model_7")
model = ViTForImageClassification.from_pretrained("zhaospei/Model_7")

# Xử lý đầu vào
inputs = processor(images=image, return_tensors="pt")

# Dự đoán với mô hình
with torch.no_grad():
    outputs = model(**inputs)
    logits = outputs.logits
    predicted_label = logits.argmax(-1).item()

print(f"Nhãn dự đoán: {model.config.id2label[predicted_label]}")