ArchitRastogi
/

vit-food-classifier-3class

+# ViT-Chef — Fine-tuned Vision Transformer for Food Classification
+A fine-tuned [Vision Transformer (ViT)](https://huggingface.co/google/vit-base-patch16-224-in21k) model trained to classify **pizza**, **steak**, and **sushi** images.
+Achieves **96% accuracy** on the test set, demonstrating the strong performance of transfer learning for visual food recognition.
+---
+## 🧠 Model Details
+* **Base model**: `google/vit-base-patch16-224-in21k`
+* **Input size**: 224 × 224
+* **Classes**: `["pizza", "steak", "sushi"]`
+* **Accuracy**: 96% (Test set)
+* **Training**: 5-fold cross-validation with AdamW optimizer and early stopping
+* **Dataset**: Custom curated set (225 train, 75 test)
+---
+## 🚀 Usage
+```python
+from transformers import ViTImageProcessor, ViTForImageClassification
+from PIL import Image
+import torch
+model = ViTForImageClassification.from_pretrained("archit/vit-chef")
+processor = ViTImageProcessor.from_pretrained("archit/vit-chef")
+image = Image.open("example.jpg")
+inputs = processor(images=image, return_tensors="pt")
+with torch.no_grad():
+    logits = model(**inputs).logits
+pred = logits.argmax(-1).item()
+print(model.config.id2label[pred])
+```
+---
+## 📊 Results
+| Metric          | Baseline | Fine-tuned | Improvement |
+| :-------------- | :------- | :--------- | :---------- |
+| Accuracy        | 46.67%   | **96.00%** | +49.33 pp   |
+| Error Reduction | —        | **92.5%**  | —           |
+---

README.md ADDED Viewed

+# ViT-Chef — Fine-tuned Vision Transformer for Food Classification
+A fine-tuned [Vision Transformer (ViT)](https://huggingface.co/google/vit-base-patch16-224-in21k) model trained to classify **pizza**, **steak**, and **sushi** images.
+Achieves **96% accuracy** on the test set, demonstrating the strong performance of transfer learning for visual food recognition.
+---
+## 🧠 Model Details
+* **Base model**: `google/vit-base-patch16-224-in21k`
+* **Input size**: 224 × 224
+* **Classes**: `["pizza", "steak", "sushi"]`
+* **Accuracy**: 96% (Test set)
+* **Training**: 5-fold cross-validation with AdamW optimizer and early stopping
+* **Dataset**: Custom curated set (225 train, 75 test)
+---
+## 🚀 Usage
+```python
+from transformers import ViTImageProcessor, ViTForImageClassification
+from PIL import Image
+import torch
+model = ViTForImageClassification.from_pretrained("archit/vit-chef")
+processor = ViTImageProcessor.from_pretrained("archit/vit-chef")
+image = Image.open("example.jpg")
+inputs = processor(images=image, return_tensors="pt")
+with torch.no_grad():
+    logits = model(**inputs).logits
+pred = logits.argmax(-1).item()
+print(model.config.id2label[pred])
+```
+---
+## 📊 Results
+| Metric          | Baseline | Fine-tuned | Improvement |
+| :-------------- | :------- | :--------- | :---------- |
+| Accuracy        | 46.67%   | **96.00%** | +49.33 pp   |
+| Error Reduction | —        | **92.5%**  | —           |
+---