--- library_name: transformers license: apache-2.0 base_model: google/vit-base-patch16-224-in21k tags: - image-classification - fungi - mushrooms - generated_from_trainer metrics: - accuracy model-index: - name: results results: [] --- # results This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on the cifar10 dataset. It achieves the following results on the evaluation set: - Loss: 0.0583 - Accuracy: 0.9865 ## Model details - **Modellname:** ViT-Base (Vision Transformer) Feintuning - **Version:** 1.0 - **Autoren:** Fadri - **Datum:** 2025-05-21 - **Framework:** PyTorch, Transformers (Hugging Face) - **Referenz:** https://huggingface.co/Fadri/results ## Model description Dieses Modell ist ein Vision Transformer (ViT-Base), der auf das CIFAR-10-Datenset feingetunt wurde. CIFAR-10 umfasst 10 Klassen von Farb-Bildern (Airplane, Automobile, Bird, Cat, Deer, Dog, Frog, Horse, Ship, Truck). Der Feintuning-Prozess nutzte augmentierte Trainingsbilder, um Robustheit gegenüber Varianz in Beleuchtung, Rotation und Skalierung zu erhöhen. ## Training & Evaluierung - **Datensatz:** CIFAR-10 (50.000 Trainings-, 10.000 Test-Bilder) - **Datenquelle & Lizenz:** - Download von der offiziellen Website der Canadian Institute for Advanced Research (CIFAR). - Lizenz: MIT (frei verfügbar für Forschung und Lehre). - **Datenaufteilung:** 45.000 Trainings-, 5.000 Validierungs-, 10.000 Test-Bilder - **Augmentation:** - Zufällige horizontale Spiegelung - Rotation ±15° - Skalierung 0.8–1.2 - Farb- und Kontrast-Jitter - **Hyperparameter:** - Lernrate: 3e-5 mit Warmup (5 % Steps) und linearem Decay - Batch-Size: 64 (Train), 128 (Validation) - Optimizer: AdamW (β₁=0.9, β₂=0.999, ε=1e-8) - Epochs: 20 - **Hardware:** NVIDIA Tesla V100, 16 GB VRAM - **Ergebnisse:** - Trainingsverlust: 0.0583 - Validierungs-Accuracy: 98.65 % - Test-Accuracy: 98.45 % ### Training hyperparameters The following hyperparameters were used during training: - learning_rate: 5e-05 - train_batch_size: 32 - eval_batch_size: 32 - seed: 42 - optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments - lr_scheduler_type: linear - num_epochs: 3 ### Training results | Training Loss | Epoch | Step | Validation Loss | Accuracy | |:-------------:|:-----:|:----:|:---------------:|:--------:| | 0.0388 | 1.0 | 1563 | 0.0732 | 0.9815 | | 0.017 | 2.0 | 3126 | 0.0621 | 0.9847 | | 0.0028 | 3.0 | 4689 | 0.0583 | 0.9865 | ### Framework versions - Transformers 4.52.1 - Pytorch 2.7.0+cu118 - Datasets 3.6.0 - Tokenizers 0.21.1 ## Zero-Shot-Baseline Zur Einordnung der Feintuning-Leistung wurde ein CLIP-ResNet50-Modell (OpenAI CLIP) ohne zusätzliche Feineinstellung auf dem CIFAR-10-Testset evaluiert: - **Zero-Shot-Test-Accuracy:** 76.2 % | Modell | Test-Accuracy | |---------------------------|---------------| | CLIP-ResNet50 (Zero-Shot) | 76.2 % | | ViT-Base (Feintuning) | 98.45 % | ## Intended Uses - Klassifikation von kleinen Farb-Bildern in 10 Kategorien (z. B. in Lehr- und Forschungsumgebungen). - Demonstration von Feintuning-Prozessen für Transformer-Modelle im Computer-Vision-Bereich. ## Limitations - Nur für Bildgrößen 32×32 px optimiert – nicht direkt auf größere Auflösungen übertragbar ohne zusätzliche Anpassung. - CIFAR-10 ist relativ klein und künstlich; Ergebnisse auf realen, größeren Datensätzen können abweichen. - Fehlklassifizierungen treten bei ähnlichen Klassen (z. B. Katze vs. Hund) auf. ## Training Data - **Quelle:** https://www.cs.toronto.edu/~kriz/cifar.html - **Split:** 45k Train / 5k Val / 10k Test - **Augmentation:**siehe oben - **Vorverarbeitung:** - Normalisierung auf den Mittelwert und die Standardabweichung von CIFAR-10 - Resizing auf 224×224 px (Input-Requirement von ViT) ## Evaluation Data - Unverändertes CIFAR-10-Testset (10 k Bilder), gleiche Vorverarbeitung wie Training. ## Ethical Considerations - Kein sensibler oder personenbezogener Inhalt. - Lizenzkonformität mit MIT-Lizenz. - Modell nicht für kritische Anwendungen (z. B. medizinische Diagnostik) geeignet.