| # 🖼️ Mô hình Phân loại Ảnh - ViT Fine-tuned trên CIFAR-10 | |
| ## 📝 Mô tả | |
| Đây là mô hình Vision Transformer (ViT) được fine-tuned từ mô hình khác trên tập dữ liệu CIFAR-10. Mô hình được huấn luyện để phân loại ảnh vào 10 lớp khác nhau, mỗi lớp đại diện cho một danh mục đối tượng cụ thể. | |
| ## 📌 Nhiệm vụ | |
| Loại bài toán: Phân loại ảnh (Image Classification) | |
| Số lớp: 10 (Tương ứng nhãn) CIFAR-10 | |
| ## 📥 Đầu vào | |
| Định dạng: Ảnh màu RGB | |
| Kích thước ảnh: 224x224 pixels | |
| ## 📤 Đầu ra | |
| Định dạng: Xác suất cho mỗi lớp (logits) | |
| Kiểu dữ liệu: Tensor có kích thước [batch_size, 10] | |
| Ý nghĩa: Xác suất dự đoán cho từng lớp trong 10 lớp của CIFAR-10 | |
| 🛠 Yêu cầu thư viện | |
| Cài đặt các thư viện cần thiết bằng: | |
| ```bash | |
| pip install transformers torch torchvision | |
| ``` | |
| ## 🧪 Cách sử dụng mô hình | |
| Dưới đây là ví dụ về cách sử dụng mô hình để phân loại một ảnh: | |
| ```python | |
| import torch | |
| from transformers import ViTForImageClassification, ViTImageProcessor | |
| from PIL import Image | |
| # Tải ảnh cần phân loại | |
| image = Image.open("path_to_your_image.jpg") | |
| # Tải processor và mô hình từ Hugging Face | |
| processor = ViTImageProcessor.from_pretrained("zhaospei/Model_7") | |
| model = ViTForImageClassification.from_pretrained("zhaospei/Model_7") | |
| # Xử lý đầu vào | |
| inputs = processor(images=image, return_tensors="pt") | |
| # Dự đoán với mô hình | |
| with torch.no_grad(): | |
| outputs = model(**inputs) | |
| logits = outputs.logits | |
| predicted_label = logits.argmax(-1).item() | |
| print(f"Nhãn dự đoán: {model.config.id2label[predicted_label]}") | |
| ``` |