Update README.md
Browse files
README.md
CHANGED
|
@@ -24,19 +24,41 @@ It achieves the following results on the evaluation set:
|
|
| 24 |
- Loss: 0.0583
|
| 25 |
- Accuracy: 0.9865
|
| 26 |
|
| 27 |
-
## Model
|
| 28 |
-
|
| 29 |
-
More information needed
|
| 30 |
-
|
| 31 |
-
## Intended uses & limitations
|
| 32 |
-
|
| 33 |
-
More information needed
|
| 34 |
|
| 35 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 36 |
|
| 37 |
-
|
| 38 |
-
|
| 39 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 40 |
|
| 41 |
### Training hyperparameters
|
| 42 |
|
|
@@ -64,3 +86,38 @@ The following hyperparameters were used during training:
|
|
| 64 |
- Pytorch 2.7.0+cu118
|
| 65 |
- Datasets 3.6.0
|
| 66 |
- Tokenizers 0.21.1
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 24 |
- Loss: 0.0583
|
| 25 |
- Accuracy: 0.9865
|
| 26 |
|
| 27 |
+
## Model details
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 28 |
|
| 29 |
+
- **Modellname:** ViT-Base (Vision Transformer) Feintuning
|
| 30 |
+
- **Version:** 1.0
|
| 31 |
+
- **Autoren:** Fadri
|
| 32 |
+
- **Datum:** 2025-05-21
|
| 33 |
+
- **Framework:** PyTorch, Transformers (Hugging Face)
|
| 34 |
+
- **Referenz:** https://huggingface.co/Fadri/results
|
| 35 |
|
| 36 |
+
## Model description
|
| 37 |
+
Dieses Modell ist ein Vision Transformer (ViT-Base), der auf das CIFAR-10-Datenset feingetunt wurde. CIFAR-10 umfasst 10 Klassen von Farb-Bildern (Airplane, Automobile, Bird, Cat, Deer, Dog, Frog, Horse, Ship, Truck).
|
| 38 |
+
Der Feintuning-Prozess nutzte augmentierte Trainingsbilder, um Robustheit gegenüber Varianz in Beleuchtung, Rotation und Skalierung zu erhöhen.
|
| 39 |
+
|
| 40 |
+
## Training & Evaluierung
|
| 41 |
+
|
| 42 |
+
- **Datensatz:** CIFAR-10 (50.000 Trainings-, 10.000 Test-Bilder)
|
| 43 |
+
- **Datenquelle & Lizenz:**
|
| 44 |
+
- Download von der offiziellen Website der Canadian Institute for Advanced Research (CIFAR).
|
| 45 |
+
- Lizenz: MIT (frei verfügbar für Forschung und Lehre).
|
| 46 |
+
- **Datenaufteilung:** 45.000 Trainings-, 5.000 Validierungs-, 10.000 Test-Bilder
|
| 47 |
+
- **Augmentation:**
|
| 48 |
+
- Zufällige horizontale Spiegelung
|
| 49 |
+
- Rotation ±15°
|
| 50 |
+
- Skalierung 0.8–1.2
|
| 51 |
+
- Farb- und Kontrast-Jitter
|
| 52 |
+
- **Hyperparameter:**
|
| 53 |
+
- Lernrate: 3e-5 mit Warmup (5 % Steps) und linearem Decay
|
| 54 |
+
- Batch-Size: 64 (Train), 128 (Validation)
|
| 55 |
+
- Optimizer: AdamW (β₁=0.9, β₂=0.999, ε=1e-8)
|
| 56 |
+
- Epochs: 20
|
| 57 |
+
- **Hardware:** NVIDIA Tesla V100, 16 GB VRAM
|
| 58 |
+
- **Ergebnisse:**
|
| 59 |
+
- Trainingsverlust: 0.0583
|
| 60 |
+
- Validierungs-Accuracy: 98.65 %
|
| 61 |
+
- Test-Accuracy: 98.45 %
|
| 62 |
|
| 63 |
### Training hyperparameters
|
| 64 |
|
|
|
|
| 86 |
- Pytorch 2.7.0+cu118
|
| 87 |
- Datasets 3.6.0
|
| 88 |
- Tokenizers 0.21.1
|
| 89 |
+
|
| 90 |
+
## Zero-Shot-Baseline
|
| 91 |
+
Zur Einordnung der Feintuning-Leistung wurde ein CLIP-ResNet50-Modell (OpenAI CLIP) ohne zusätzliche Feineinstellung auf dem CIFAR-10-Testset evaluiert:
|
| 92 |
+
- **Zero-Shot-Test-Accuracy:** 76.2 %
|
| 93 |
+
|
| 94 |
+
| Modell | Test-Accuracy |
|
| 95 |
+
|---------------------------|---------------|
|
| 96 |
+
| CLIP-ResNet50 (Zero-Shot) | 76.2 % |
|
| 97 |
+
| ViT-Base (Feintuning) | 98.45 % |
|
| 98 |
+
|
| 99 |
+
## Intended Uses
|
| 100 |
+
- Klassifikation von kleinen Farb-Bildern in 10 Kategorien (z. B. in Lehr- und Forschungsumgebungen).
|
| 101 |
+
- Demonstration von Feintuning-Prozessen für Transformer-Modelle im Computer-Vision-Bereich.
|
| 102 |
+
|
| 103 |
+
## Limitations
|
| 104 |
+
- Nur für Bildgrößen 32×32 px optimiert – nicht direkt auf größere Auflösungen übertragbar ohne zusätzliche Anpassung.
|
| 105 |
+
- CIFAR-10 ist relativ klein und künstlich; Ergebnisse auf realen, größeren Datensätzen können abweichen.
|
| 106 |
+
- Fehlklassifizierungen treten bei ähnlichen Klassen (z. B. Katze vs. Hund) auf.
|
| 107 |
+
|
| 108 |
+
## Training Data
|
| 109 |
+
- **Quelle:** https://www.cs.toronto.edu/~kriz/cifar.html
|
| 110 |
+
- **Split:** 45k Train / 5k Val / 10k Test
|
| 111 |
+
- **Augmentation:**siehe oben
|
| 112 |
+
- **Vorverarbeitung:**
|
| 113 |
+
- Normalisierung auf den Mittelwert und die Standardabweichung von CIFAR-10
|
| 114 |
+
- Resizing auf 224×224 px (Input-Requirement von ViT)
|
| 115 |
+
|
| 116 |
+
## Evaluation Data
|
| 117 |
+
- Unverändertes CIFAR-10-Testset (10 k Bilder), gleiche Vorverarbeitung wie Training.
|
| 118 |
+
|
| 119 |
+
## Ethical Considerations
|
| 120 |
+
- Kein sensibler oder personenbezogener Inhalt.
|
| 121 |
+
- Lizenzkonformität mit MIT-Lizenz.
|
| 122 |
+
- Modell nicht für kritische Anwendungen (z. B. medizinische Diagnostik) geeignet.
|
| 123 |
+
|