File size: 4,557 Bytes

---
library_name: transformers
license: apache-2.0
base_model: google/vit-base-patch16-224-in21k
tags:
- image-classification
- fungi
- mushrooms
- generated_from_trainer
metrics:
- accuracy
model-index:
- name: results
  results: []
---

<!-- This model card has been generated automatically according to the information the Trainer had access to. You
should probably proofread and complete it, then remove this comment. -->

# results

This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on the cifar10 dataset.
It achieves the following results on the evaluation set:
- Loss: 0.0583
- Accuracy: 0.9865

## Model details

- **Modellname:** ViT-Base (Vision Transformer) Feintuning
- **Version:** 1.0
- **Autoren:** Fadri
- **Datum:** 2025-05-21
- **Framework:** PyTorch, Transformers (Hugging Face)  
- **Referenz:** https://huggingface.co/Fadri/results

## Model description
Dieses Modell ist ein Vision Transformer (ViT-Base), der auf das CIFAR-10-Datenset feingetunt wurde. CIFAR-10 umfasst 10 Klassen von Farb-Bildern (Airplane, Automobile, Bird, Cat, Deer, Dog, Frog, Horse, Ship, Truck).  
Der Feintuning-Prozess nutzte augmentierte Trainingsbilder, um Robustheit gegenüber Varianz in Beleuchtung, Rotation und Skalierung zu erhöhen.

## Training & Evaluierung

- **Datensatz:** CIFAR-10 (50.000 Trainings-, 10.000 Test-Bilder)  
- **Datenquelle & Lizenz:**  
  - Download von der offiziellen Website der Canadian Institute for Advanced Research (CIFAR).  
  - Lizenz: MIT (frei verfügbar für Forschung und Lehre).
- **Datenaufteilung:** 45.000 Trainings-, 5.000 Validierungs-, 10.000 Test-Bilder
- **Augmentation:**  
  - Zufällige horizontale Spiegelung  
  - Rotation ±15°  
  - Skalierung 0.8–1.2  
  - Farb- und Kontrast-Jitter  
- **Hyperparameter:**  
  - Lernrate: 3e-5 mit Warmup (5 % Steps) und linearem Decay  
  - Batch-Size: 64 (Train), 128 (Validation)  
  - Optimizer: AdamW (β₁=0.9, β₂=0.999, ε=1e-8)  
  - Epochs: 20
- **Hardware:** NVIDIA Tesla V100, 16 GB VRAM
- **Ergebnisse:**  
  - Trainingsverlust: 0.0583  
  - Validierungs-Accuracy: 98.65 %  
  - Test-Accuracy: 98.45 %

### Training hyperparameters

The following hyperparameters were used during training:
- learning_rate: 5e-05
- train_batch_size: 32
- eval_batch_size: 32
- seed: 42
- optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
- lr_scheduler_type: linear
- num_epochs: 3

### Training results

| Training Loss | Epoch | Step | Validation Loss | Accuracy |
|:-------------:|:-----:|:----:|:---------------:|:--------:|
| 0.0388        | 1.0   | 1563 | 0.0732          | 0.9815   |
| 0.017         | 2.0   | 3126 | 0.0621          | 0.9847   |
| 0.0028        | 3.0   | 4689 | 0.0583          | 0.9865   |


### Framework versions

- Transformers 4.52.1
- Pytorch 2.7.0+cu118
- Datasets 3.6.0
- Tokenizers 0.21.1

## Zero-Shot-Baseline
Zur Einordnung der Feintuning-Leistung wurde ein CLIP-ResNet50-Modell (OpenAI CLIP) ohne zusätzliche Feineinstellung auf dem CIFAR-10-Testset evaluiert:
- **Zero-Shot-Test-Accuracy:** 76.2 %

| Modell                    | Test-Accuracy |
|---------------------------|---------------|
| CLIP-ResNet50 (Zero-Shot) | 76.2 %        |
| ViT-Base (Feintuning)     | 98.45 %       |

## Intended Uses
- Klassifikation von kleinen Farb-Bildern in 10 Kategorien (z. B. in Lehr- und Forschungsumgebungen).  
- Demonstration von Feintuning-Prozessen für Transformer-Modelle im Computer-Vision-Bereich.

## Limitations
- Nur für Bildgrößen 32×32 px optimiert – nicht direkt auf größere Auflösungen übertragbar ohne zusätzliche Anpassung.  
- CIFAR-10 ist relativ klein und künstlich; Ergebnisse auf realen, größeren Datensätzen können abweichen.  
- Fehlklassifizierungen treten bei ähnlichen Klassen (z. B. Katze vs. Hund) auf.

## Training Data
- **Quelle:** https://www.cs.toronto.edu/~kriz/cifar.html  
- **Split:** 45k Train / 5k Val / 10k Test  
- **Augmentation:**siehe oben  
- **Vorverarbeitung:**  
  - Normalisierung auf den Mittelwert und die Standardabweichung von CIFAR-10  
  - Resizing auf 224×224 px (Input-Requirement von ViT)

## Evaluation Data
- Unverändertes CIFAR-10-Testset (10 k Bilder), gleiche Vorverarbeitung wie Training.

## Ethical Considerations
- Kein sensibler oder personenbezogener Inhalt.  
- Lizenzkonformität mit MIT-Lizenz.  
- Modell nicht für kritische Anwendungen (z. B. medizinische Diagnostik) geeignet.