Model_7 / README.md
zhaospei's picture
Upload 5 files
691abb1 verified
# 🖼️ Mô hình Phân loại Ảnh - ViT Fine-tuned trên CIFAR-10
## 📝 Mô tả
Đây là mô hình Vision Transformer (ViT) được fine-tuned từ mô hình khác trên tập dữ liệu CIFAR-10. Mô hình được huấn luyện để phân loại ảnh vào 10 lớp khác nhau, mỗi lớp đại diện cho một danh mục đối tượng cụ thể.
## 📌 Nhiệm vụ
Loại bài toán: Phân loại ảnh (Image Classification)
Số lớp: 10 (Tương ứng nhãn) CIFAR-10
## 📥 Đầu vào
Định dạng: Ảnh màu RGB
Kích thước ảnh: 224x224 pixels
## 📤 Đầu ra
Định dạng: Xác suất cho mỗi lớp (logits)
Kiểu dữ liệu: Tensor có kích thước [batch_size, 10]
Ý nghĩa: Xác suất dự đoán cho từng lớp trong 10 lớp của CIFAR-10
🛠 Yêu cầu thư viện
Cài đặt các thư viện cần thiết bằng:
```bash
pip install transformers torch torchvision
```
## 🧪 Cách sử dụng mô hình
Dưới đây là ví dụ về cách sử dụng mô hình để phân loại một ảnh:
```python
import torch
from transformers import ViTForImageClassification, ViTImageProcessor
from PIL import Image
# Tải ảnh cần phân loại
image = Image.open("path_to_your_image.jpg")
# Tải processor và mô hình từ Hugging Face
processor = ViTImageProcessor.from_pretrained("zhaospei/Model_7")
model = ViTForImageClassification.from_pretrained("zhaospei/Model_7")
# Xử lý đầu vào
inputs = processor(images=image, return_tensors="pt")
# Dự đoán với mô hình
with torch.no_grad():
outputs = model(**inputs)
logits = outputs.logits
predicted_label = logits.argmax(-1).item()
print(f"Nhãn dự đoán: {model.config.id2label[predicted_label]}")
```