# 🖼️ Mô hình Phân loại Ảnh - ViT Fine-tuned trên CIFAR-10 ## 📝 Mô tả Đây là mô hình Vision Transformer (ViT) được fine-tuned từ mô hình khác trên tập dữ liệu CIFAR-10. Mô hình được huấn luyện để phân loại ảnh vào 10 lớp khác nhau, mỗi lớp đại diện cho một danh mục đối tượng cụ thể. ## 📌 Nhiệm vụ Loại bài toán: Phân loại ảnh (Image Classification) Số lớp: 10 (Tương ứng nhãn) CIFAR-10 ## 📥 Đầu vào Định dạng: Ảnh màu RGB Kích thước ảnh: 224x224 pixels ## 📤 Đầu ra Định dạng: Xác suất cho mỗi lớp (logits) Kiểu dữ liệu: Tensor có kích thước [batch_size, 10] Ý nghĩa: Xác suất dự đoán cho từng lớp trong 10 lớp của CIFAR-10 🛠 Yêu cầu thư viện Cài đặt các thư viện cần thiết bằng: ```bash pip install transformers torch torchvision ``` ## 🧪 Cách sử dụng mô hình Dưới đây là ví dụ về cách sử dụng mô hình để phân loại một ảnh: ```python import torch from transformers import ViTForImageClassification, ViTImageProcessor from PIL import Image # Tải ảnh cần phân loại image = Image.open("path_to_your_image.jpg") # Tải processor và mô hình từ Hugging Face processor = ViTImageProcessor.from_pretrained("zhaospei/Model_7") model = ViTForImageClassification.from_pretrained("zhaospei/Model_7") # Xử lý đầu vào inputs = processor(images=image, return_tensors="pt") # Dự đoán với mô hình with torch.no_grad(): outputs = model(**inputs) logits = outputs.logits predicted_label = logits.argmax(-1).item() print(f"Nhãn dự đoán: {model.config.id2label[predicted_label]}") ```