zhaospei
/

Model_11

clip_vision_model

Model card Files Files and versions

Model_11 / README.md

zhaospei's picture

Upload folder using huggingface_hub

6d9fd27 verified 8 months ago

|

history blame contribute delete

2.88 kB

	# 🖼️ Mô hình dự đoán chữ số viết tay
	## 📝 Mô tả
	Đây là mô hình Vision Transformer (ViT‑Base với patch size 32) được fine-tuned từ openai/clip-vit-base-patch32 để thực hiện phân loại chữ số viết tay (MNIST). Chỉ phần vision encoder được training lại, giữ nguyên text encoder để giữ khả năng zero-shot của CLIP.

	## 📌 Nhiệm vụ
	Dự đoán chữ số (0–9) từ ảnh MNIST, dưới dạng phân loại đơn giản gồm 10 lớp.

	## 📥 Đầu vào
	Ảnh xám (grayscale) kích thước 28×28, mô hình sẽ tự xử lý chuẩn hóa/chuyển sang 3 kênh nếu cần (qua processor của CLIP).
	Đầu vào sẽ được đưa vào dưới dạng tensor [batch_size, 3, 224, 224] sau khi qua CLIPProcessor.

	## 📤 Đầu ra
	logits có kích thước [batch_size, 10], đại diện xác suất tương ứng với mỗi chữ số từ 0 đến 9.

	## 🧪 Kết quả đánh giá
	Giai đoạn Accuracy
	Pre-trained (chưa fine-tune) 47.6%
	Sau fine-tune 99.57%

	## 🛠 Yêu cầu thư viện
	Cài đặt các thư viện cần thiết:

	```bash
	pip install torch transformers datasets pillow
	```

	## 🚀 Cách sử dụng
	### 🎯 Sử dụng encoder đã fine-tuned
	```python
	import torch
	from transformers import CLIPVisionModel, CLIPProcessor
	from PIL import Image

	# Tải vision encoder và CLIP processor
	vision_model = CLIPVisionModel.from_pretrained("zhaospei/Model_11")
	processor = CLIPProcessor.from_pretrained("zhaospei/Model_10")

	# Chuẩn bị ảnh MNIST (28×28)
	img = Image.open("path_to_mnist_digit.png").convert("L") # ảnh xám
	img = img.resize((224, 224)).convert("RGB") # mở rộng thành RGB 3 kênh

	inputs = processor(images=img, return_tensors="pt")

	# Lấy embedding từ ảnh
	with torch.no_grad():
	vision_outputs = vision_model(**inputs)

	image_embeds = vision_outputs.last_hidden_state[:, 0, :] # CLS token embedding
	print("Image embedding shape:", image_embeds.shape)
	```

	### 🔄 Kết hợp với CLIP để trên nền zero-shot

	```python
	from transformers import CLIPModel

	# Tải CLIP đầy đủ
	clip = CLIPModel.from_pretrained("zhaospei/Model_11")
	# Thay thành encoder đã fine-tune
	clip.vision_model.load_state_dict(vision_model.vision_model.state_dict())

	# Ví dụ zero-shot MNIST
	from PIL import Image
	img = Image.open("path_to_mnist_digit.png").convert("L").resize((224, 224)).convert("RGB")
	texts = [str(i) for i in range(10)]

	inputs = processor(text=texts, images=img, return_tensors="pt", padding=True)
	with torch.no_grad():
	outputs = clip(**inputs)

	probs = outputs.logits_per_image.softmax(dim=1)[0]
	print({texts[i]: float(probs[i]) for i in range(10)})
	```

	## ⚙️ Thông tin huấn luyện
	Optimizer: Adam, learning rate = 1e-5
	Batch size: 32
	Số bước huấn luyện: 4000
	Chỉ fine-tune vision encode