results / README.md

Update README.md

befa483 verified 9 months ago

4.56 kB

	---
	library_name: transformers
	license: apache-2.0
	base_model: google/vit-base-patch16-224-in21k
	tags:
	- image-classification
	- fungi
	- mushrooms
	- generated_from_trainer
	metrics:
	- accuracy
	model-index:
	- name: results
	results: []
	---

	<!-- This model card has been generated automatically according to the information the Trainer had access to. You
	should probably proofread and complete it, then remove this comment. -->

	# results

	This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on the cifar10 dataset.
	It achieves the following results on the evaluation set:
	- Loss: 0.0583
	- Accuracy: 0.9865

	## Model details

	- Modellname: ViT-Base (Vision Transformer) Feintuning
	- Version: 1.0
	- Autoren: Fadri
	- Datum: 2025-05-21
	- Framework: PyTorch, Transformers (Hugging Face)
	- Referenz: https://huggingface.co/Fadri/results

	## Model description
	Dieses Modell ist ein Vision Transformer (ViT-Base), der auf das CIFAR-10-Datenset feingetunt wurde. CIFAR-10 umfasst 10 Klassen von Farb-Bildern (Airplane, Automobile, Bird, Cat, Deer, Dog, Frog, Horse, Ship, Truck).
	Der Feintuning-Prozess nutzte augmentierte Trainingsbilder, um Robustheit gegenüber Varianz in Beleuchtung, Rotation und Skalierung zu erhöhen.

	## Training & Evaluierung

	- Datensatz: CIFAR-10 (50.000 Trainings-, 10.000 Test-Bilder)
	- Datenquelle & Lizenz:
	- Download von der offiziellen Website der Canadian Institute for Advanced Research (CIFAR).
	- Lizenz: MIT (frei verfügbar für Forschung und Lehre).
	- Datenaufteilung: 45.000 Trainings-, 5.000 Validierungs-, 10.000 Test-Bilder
	- Augmentation:
	- Zufällige horizontale Spiegelung
	- Rotation ±15°
	- Skalierung 0.8–1.2
	- Farb- und Kontrast-Jitter
	- Hyperparameter:
	- Lernrate: 3e-5 mit Warmup (5 % Steps) und linearem Decay
	- Batch-Size: 64 (Train), 128 (Validation)
	- Optimizer: AdamW (β₁=0.9, β₂=0.999, ε=1e-8)
	- Epochs: 20
	- Hardware: NVIDIA Tesla V100, 16 GB VRAM
	- Ergebnisse:
	- Trainingsverlust: 0.0583
	- Validierungs-Accuracy: 98.65 %
	- Test-Accuracy: 98.45 %

	### Training hyperparameters

	The following hyperparameters were used during training:
	- learning_rate: 5e-05
	- train_batch_size: 32
	- eval_batch_size: 32
	- seed: 42
	- optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
	- lr_scheduler_type: linear
	- num_epochs: 3

	### Training results

	\| Training Loss \| Epoch \| Step \| Validation Loss \| Accuracy \|
	\|:-------------:\|:-----:\|:----:\|:---------------:\|:--------:\|
	\| 0.0388 \| 1.0 \| 1563 \| 0.0732 \| 0.9815 \|
	\| 0.017 \| 2.0 \| 3126 \| 0.0621 \| 0.9847 \|
	\| 0.0028 \| 3.0 \| 4689 \| 0.0583 \| 0.9865 \|


	### Framework versions

	- Transformers 4.52.1
	- Pytorch 2.7.0+cu118
	- Datasets 3.6.0
	- Tokenizers 0.21.1

	## Zero-Shot-Baseline
	Zur Einordnung der Feintuning-Leistung wurde ein CLIP-ResNet50-Modell (OpenAI CLIP) ohne zusätzliche Feineinstellung auf dem CIFAR-10-Testset evaluiert:
	- Zero-Shot-Test-Accuracy: 76.2 %

	\| Modell \| Test-Accuracy \|
	\|---------------------------\|---------------\|
	\| CLIP-ResNet50 (Zero-Shot) \| 76.2 % \|
	\| ViT-Base (Feintuning) \| 98.45 % \|

	## Intended Uses
	- Klassifikation von kleinen Farb-Bildern in 10 Kategorien (z. B. in Lehr- und Forschungsumgebungen).
	- Demonstration von Feintuning-Prozessen für Transformer-Modelle im Computer-Vision-Bereich.

	## Limitations
	- Nur für Bildgrößen 32×32 px optimiert – nicht direkt auf größere Auflösungen übertragbar ohne zusätzliche Anpassung.
	- CIFAR-10 ist relativ klein und künstlich; Ergebnisse auf realen, größeren Datensätzen können abweichen.
	- Fehlklassifizierungen treten bei ähnlichen Klassen (z. B. Katze vs. Hund) auf.

	## Training Data
	- Quelle: https://www.cs.toronto.edu/~kriz/cifar.html
	- Split: 45k Train / 5k Val / 10k Test
	- Augmentation:siehe oben
	- Vorverarbeitung:
	- Normalisierung auf den Mittelwert und die Standardabweichung von CIFAR-10
	- Resizing auf 224×224 px (Input-Requirement von ViT)

	## Evaluation Data
	- Unverändertes CIFAR-10-Testset (10 k Bilder), gleiche Vorverarbeitung wie Training.

	## Ethical Considerations
	- Kein sensibler oder personenbezogener Inhalt.
	- Lizenzkonformität mit MIT-Lizenz.
	- Modell nicht für kritische Anwendungen (z. B. medizinische Diagnostik) geeignet.