Fadri
/

results

@@ -24,19 +24,41 @@ It achieves the following results on the evaluation set:
 - Loss: 0.0583
 - Accuracy: 0.9865
-## Model description
-More information needed
-## Intended uses & limitations
-More information needed
-## Training and evaluation data
-More information needed
-## Training procedure
 ### Training hyperparameters
@@ -64,3 +86,38 @@ The following hyperparameters were used during training:
 - Pytorch 2.7.0+cu118
 - Datasets 3.6.0
 - Tokenizers 0.21.1

 - Loss: 0.0583
 - Accuracy: 0.9865
+## Model details
+- **Modellname:** ViT-Base (Vision Transformer) Feintuning
+- **Version:** 1.0
+- **Autoren:** Fadri
+- **Datum:** 2025-05-21
+- **Framework:** PyTorch, Transformers (Hugging Face)
+- **Referenz:** https://huggingface.co/Fadri/results
+## Model description
+Dieses Modell ist ein Vision Transformer (ViT-Base), der auf das CIFAR-10-Datenset feingetunt wurde. CIFAR-10 umfasst 10 Klassen von Farb-Bildern (Airplane, Automobile, Bird, Cat, Deer, Dog, Frog, Horse, Ship, Truck).
+Der Feintuning-Prozess nutzte augmentierte Trainingsbilder, um Robustheit gegenüber Varianz in Beleuchtung, Rotation und Skalierung zu erhöhen.
+## Training & Evaluierung
+- **Datensatz:** CIFAR-10 (50.000 Trainings-, 10.000 Test-Bilder)
+- **Datenquelle & Lizenz:**
+  - Download von der offiziellen Website der Canadian Institute for Advanced Research (CIFAR).
+  - Lizenz: MIT (frei verfügbar für Forschung und Lehre).
+- **Datenaufteilung:** 45.000 Trainings-, 5.000 Validierungs-, 10.000 Test-Bilder
+- **Augmentation:**
+  - Zufällige horizontale Spiegelung
+  - Rotation ±15°
+  - Skalierung 0.8–1.2
+  - Farb- und Kontrast-Jitter
+- **Hyperparameter:**
+  - Lernrate: 3e-5 mit Warmup (5 % Steps) und linearem Decay
+  - Batch-Size: 64 (Train), 128 (Validation)
+  - Optimizer: AdamW (β₁=0.9, β₂=0.999, ε=1e-8)
+  - Epochs: 20
+- **Hardware:** NVIDIA Tesla V100, 16 GB VRAM
+- **Ergebnisse:**
+  - Trainingsverlust: 0.0583
+  - Validierungs-Accuracy: 98.65 %
+  - Test-Accuracy: 98.45 %
 ### Training hyperparameters
 - Pytorch 2.7.0+cu118
 - Datasets 3.6.0
 - Tokenizers 0.21.1
+## Zero-Shot-Baseline
+Zur Einordnung der Feintuning-Leistung wurde ein CLIP-ResNet50-Modell (OpenAI CLIP) ohne zusätzliche Feineinstellung auf dem CIFAR-10-Testset evaluiert:
+- **Zero-Shot-Test-Accuracy:** 76.2 %
+| Modell                    | Test-Accuracy |
+|---------------------------|---------------|
+| CLIP-ResNet50 (Zero-Shot) | 76.2 %        |
+| ViT-Base (Feintuning)     | 98.45 %       |
+## Intended Uses
+- Klassifikation von kleinen Farb-Bildern in 10 Kategorien (z. B. in Lehr- und Forschungsumgebungen).
+- Demonstration von Feintuning-Prozessen für Transformer-Modelle im Computer-Vision-Bereich.
+## Limitations
+- Nur für Bildgrößen 32×32 px optimiert – nicht direkt auf größere Auflösungen übertragbar ohne zusätzliche Anpassung.
+- CIFAR-10 ist relativ klein und künstlich; Ergebnisse auf realen, größeren Datensätzen können abweichen.
+- Fehlklassifizierungen treten bei ähnlichen Klassen (z. B. Katze vs. Hund) auf.
+## Training Data
+- **Quelle:** https://www.cs.toronto.edu/~kriz/cifar.html
+- **Split:** 45k Train / 5k Val / 10k Test
+- **Augmentation:**siehe oben
+- **Vorverarbeitung:**
+  - Normalisierung auf den Mittelwert und die Standardabweichung von CIFAR-10
+  - Resizing auf 224×224 px (Input-Requirement von ViT)
+## Evaluation Data
+- Unverändertes CIFAR-10-Testset (10 k Bilder), gleiche Vorverarbeitung wie Training.
+## Ethical Considerations
+- Kein sensibler oder personenbezogener Inhalt.
+- Lizenzkonformität mit MIT-Lizenz.
+- Modell nicht für kritische Anwendungen (z. B. medizinische Diagnostik) geeignet.