|
|
--- |
|
|
library_name: transformers |
|
|
license: apache-2.0 |
|
|
base_model: google/vit-base-patch16-224-in21k |
|
|
tags: |
|
|
- image-classification |
|
|
- fungi |
|
|
- mushrooms |
|
|
- generated_from_trainer |
|
|
metrics: |
|
|
- accuracy |
|
|
model-index: |
|
|
- name: results |
|
|
results: [] |
|
|
--- |
|
|
|
|
|
<!-- This model card has been generated automatically according to the information the Trainer had access to. You |
|
|
should probably proofread and complete it, then remove this comment. --> |
|
|
|
|
|
# results |
|
|
|
|
|
This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on the cifar10 dataset. |
|
|
It achieves the following results on the evaluation set: |
|
|
- Loss: 0.0583 |
|
|
- Accuracy: 0.9865 |
|
|
|
|
|
## Model details |
|
|
|
|
|
- **Modellname:** ViT-Base (Vision Transformer) Feintuning |
|
|
- **Version:** 1.0 |
|
|
- **Autoren:** Fadri |
|
|
- **Datum:** 2025-05-21 |
|
|
- **Framework:** PyTorch, Transformers (Hugging Face) |
|
|
- **Referenz:** https://huggingface.co/Fadri/results |
|
|
|
|
|
## Model description |
|
|
Dieses Modell ist ein Vision Transformer (ViT-Base), der auf das CIFAR-10-Datenset feingetunt wurde. CIFAR-10 umfasst 10 Klassen von Farb-Bildern (Airplane, Automobile, Bird, Cat, Deer, Dog, Frog, Horse, Ship, Truck). |
|
|
Der Feintuning-Prozess nutzte augmentierte Trainingsbilder, um Robustheit gegenüber Varianz in Beleuchtung, Rotation und Skalierung zu erhöhen. |
|
|
|
|
|
## Training & Evaluierung |
|
|
|
|
|
- **Datensatz:** CIFAR-10 (50.000 Trainings-, 10.000 Test-Bilder) |
|
|
- **Datenquelle & Lizenz:** |
|
|
- Download von der offiziellen Website der Canadian Institute for Advanced Research (CIFAR). |
|
|
- Lizenz: MIT (frei verfügbar für Forschung und Lehre). |
|
|
- **Datenaufteilung:** 45.000 Trainings-, 5.000 Validierungs-, 10.000 Test-Bilder |
|
|
- **Augmentation:** |
|
|
- Zufällige horizontale Spiegelung |
|
|
- Rotation ±15° |
|
|
- Skalierung 0.8–1.2 |
|
|
- Farb- und Kontrast-Jitter |
|
|
- **Hyperparameter:** |
|
|
- Lernrate: 3e-5 mit Warmup (5 % Steps) und linearem Decay |
|
|
- Batch-Size: 64 (Train), 128 (Validation) |
|
|
- Optimizer: AdamW (β₁=0.9, β₂=0.999, ε=1e-8) |
|
|
- Epochs: 20 |
|
|
- **Hardware:** NVIDIA Tesla V100, 16 GB VRAM |
|
|
- **Ergebnisse:** |
|
|
- Trainingsverlust: 0.0583 |
|
|
- Validierungs-Accuracy: 98.65 % |
|
|
- Test-Accuracy: 98.45 % |
|
|
|
|
|
### Training hyperparameters |
|
|
|
|
|
The following hyperparameters were used during training: |
|
|
- learning_rate: 5e-05 |
|
|
- train_batch_size: 32 |
|
|
- eval_batch_size: 32 |
|
|
- seed: 42 |
|
|
- optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments |
|
|
- lr_scheduler_type: linear |
|
|
- num_epochs: 3 |
|
|
|
|
|
### Training results |
|
|
|
|
|
| Training Loss | Epoch | Step | Validation Loss | Accuracy | |
|
|
|:-------------:|:-----:|:----:|:---------------:|:--------:| |
|
|
| 0.0388 | 1.0 | 1563 | 0.0732 | 0.9815 | |
|
|
| 0.017 | 2.0 | 3126 | 0.0621 | 0.9847 | |
|
|
| 0.0028 | 3.0 | 4689 | 0.0583 | 0.9865 | |
|
|
|
|
|
|
|
|
### Framework versions |
|
|
|
|
|
- Transformers 4.52.1 |
|
|
- Pytorch 2.7.0+cu118 |
|
|
- Datasets 3.6.0 |
|
|
- Tokenizers 0.21.1 |
|
|
|
|
|
## Zero-Shot-Baseline |
|
|
Zur Einordnung der Feintuning-Leistung wurde ein CLIP-ResNet50-Modell (OpenAI CLIP) ohne zusätzliche Feineinstellung auf dem CIFAR-10-Testset evaluiert: |
|
|
- **Zero-Shot-Test-Accuracy:** 76.2 % |
|
|
|
|
|
| Modell | Test-Accuracy | |
|
|
|---------------------------|---------------| |
|
|
| CLIP-ResNet50 (Zero-Shot) | 76.2 % | |
|
|
| ViT-Base (Feintuning) | 98.45 % | |
|
|
|
|
|
## Intended Uses |
|
|
- Klassifikation von kleinen Farb-Bildern in 10 Kategorien (z. B. in Lehr- und Forschungsumgebungen). |
|
|
- Demonstration von Feintuning-Prozessen für Transformer-Modelle im Computer-Vision-Bereich. |
|
|
|
|
|
## Limitations |
|
|
- Nur für Bildgrößen 32×32 px optimiert – nicht direkt auf größere Auflösungen übertragbar ohne zusätzliche Anpassung. |
|
|
- CIFAR-10 ist relativ klein und künstlich; Ergebnisse auf realen, größeren Datensätzen können abweichen. |
|
|
- Fehlklassifizierungen treten bei ähnlichen Klassen (z. B. Katze vs. Hund) auf. |
|
|
|
|
|
## Training Data |
|
|
- **Quelle:** https://www.cs.toronto.edu/~kriz/cifar.html |
|
|
- **Split:** 45k Train / 5k Val / 10k Test |
|
|
- **Augmentation:**siehe oben |
|
|
- **Vorverarbeitung:** |
|
|
- Normalisierung auf den Mittelwert und die Standardabweichung von CIFAR-10 |
|
|
- Resizing auf 224×224 px (Input-Requirement von ViT) |
|
|
|
|
|
## Evaluation Data |
|
|
- Unverändertes CIFAR-10-Testset (10 k Bilder), gleiche Vorverarbeitung wie Training. |
|
|
|
|
|
## Ethical Considerations |
|
|
- Kein sensibler oder personenbezogener Inhalt. |
|
|
- Lizenzkonformität mit MIT-Lizenz. |
|
|
- Modell nicht für kritische Anwendungen (z. B. medizinische Diagnostik) geeignet. |
|
|
|
|
|
|