File size: 1,762 Bytes

691abb1

# 🖼️ Mô hình Phân loại Ảnh - ViT Fine-tuned trên CIFAR-10

## 📝 Mô tả
Đây là mô hình Vision Transformer (ViT) được fine-tuned từ mô hình khác trên tập dữ liệu CIFAR-10. Mô hình được huấn luyện để phân loại ảnh vào 10 lớp khác nhau, mỗi lớp đại diện cho một danh mục đối tượng cụ thể.

## 📌 Nhiệm vụ
Loại bài toán: Phân loại ảnh (Image Classification)
Số lớp: 10 (Tương ứng nhãn) CIFAR-10

## 📥 Đầu vào
Định dạng: Ảnh màu RGB
Kích thước ảnh: 224x224 pixels

## 📤 Đầu ra
Định dạng: Xác suất cho mỗi lớp (logits)
Kiểu dữ liệu: Tensor có kích thước [batch_size, 10]
Ý nghĩa: Xác suất dự đoán cho từng lớp trong 10 lớp của CIFAR-10

🛠 Yêu cầu thư viện
Cài đặt các thư viện cần thiết bằng:

```bash
pip install transformers torch torchvision
```

## 🧪 Cách sử dụng mô hình

Dưới đây là ví dụ về cách sử dụng mô hình để phân loại một ảnh:

```python
import torch
from transformers import ViTForImageClassification, ViTImageProcessor
from PIL import Image

# Tải ảnh cần phân loại
image = Image.open("path_to_your_image.jpg")

# Tải processor và mô hình từ Hugging Face
processor = ViTImageProcessor.from_pretrained("zhaospei/Model_7")
model = ViTForImageClassification.from_pretrained("zhaospei/Model_7")

# Xử lý đầu vào
inputs = processor(images=image, return_tensors="pt")

# Dự đoán với mô hình
with torch.no_grad():
    outputs = model(**inputs)
    logits = outputs.logits
    predicted_label = logits.argmax(-1).item()

print(f"Nhãn dự đoán: {model.config.id2label[predicted_label]}")
```