Fadri commited on
Commit
befa483
·
verified ·
1 Parent(s): c753772

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +68 -11
README.md CHANGED
@@ -24,19 +24,41 @@ It achieves the following results on the evaluation set:
24
  - Loss: 0.0583
25
  - Accuracy: 0.9865
26
 
27
- ## Model description
28
-
29
- More information needed
30
-
31
- ## Intended uses & limitations
32
-
33
- More information needed
34
 
35
- ## Training and evaluation data
 
 
 
 
 
36
 
37
- More information needed
38
-
39
- ## Training procedure
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
40
 
41
  ### Training hyperparameters
42
 
@@ -64,3 +86,38 @@ The following hyperparameters were used during training:
64
  - Pytorch 2.7.0+cu118
65
  - Datasets 3.6.0
66
  - Tokenizers 0.21.1
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
24
  - Loss: 0.0583
25
  - Accuracy: 0.9865
26
 
27
+ ## Model details
 
 
 
 
 
 
28
 
29
+ - **Modellname:** ViT-Base (Vision Transformer) Feintuning
30
+ - **Version:** 1.0
31
+ - **Autoren:** Fadri
32
+ - **Datum:** 2025-05-21
33
+ - **Framework:** PyTorch, Transformers (Hugging Face)
34
+ - **Referenz:** https://huggingface.co/Fadri/results
35
 
36
+ ## Model description
37
+ Dieses Modell ist ein Vision Transformer (ViT-Base), der auf das CIFAR-10-Datenset feingetunt wurde. CIFAR-10 umfasst 10 Klassen von Farb-Bildern (Airplane, Automobile, Bird, Cat, Deer, Dog, Frog, Horse, Ship, Truck).
38
+ Der Feintuning-Prozess nutzte augmentierte Trainingsbilder, um Robustheit gegenüber Varianz in Beleuchtung, Rotation und Skalierung zu erhöhen.
39
+
40
+ ## Training & Evaluierung
41
+
42
+ - **Datensatz:** CIFAR-10 (50.000 Trainings-, 10.000 Test-Bilder)
43
+ - **Datenquelle & Lizenz:**
44
+ - Download von der offiziellen Website der Canadian Institute for Advanced Research (CIFAR).
45
+ - Lizenz: MIT (frei verfügbar für Forschung und Lehre).
46
+ - **Datenaufteilung:** 45.000 Trainings-, 5.000 Validierungs-, 10.000 Test-Bilder
47
+ - **Augmentation:**
48
+ - Zufällige horizontale Spiegelung
49
+ - Rotation ±15°
50
+ - Skalierung 0.8–1.2
51
+ - Farb- und Kontrast-Jitter
52
+ - **Hyperparameter:**
53
+ - Lernrate: 3e-5 mit Warmup (5 % Steps) und linearem Decay
54
+ - Batch-Size: 64 (Train), 128 (Validation)
55
+ - Optimizer: AdamW (β₁=0.9, β₂=0.999, ε=1e-8)
56
+ - Epochs: 20
57
+ - **Hardware:** NVIDIA Tesla V100, 16 GB VRAM
58
+ - **Ergebnisse:**
59
+ - Trainingsverlust: 0.0583
60
+ - Validierungs-Accuracy: 98.65 %
61
+ - Test-Accuracy: 98.45 %
62
 
63
  ### Training hyperparameters
64
 
 
86
  - Pytorch 2.7.0+cu118
87
  - Datasets 3.6.0
88
  - Tokenizers 0.21.1
89
+
90
+ ## Zero-Shot-Baseline
91
+ Zur Einordnung der Feintuning-Leistung wurde ein CLIP-ResNet50-Modell (OpenAI CLIP) ohne zusätzliche Feineinstellung auf dem CIFAR-10-Testset evaluiert:
92
+ - **Zero-Shot-Test-Accuracy:** 76.2 %
93
+
94
+ | Modell | Test-Accuracy |
95
+ |---------------------------|---------------|
96
+ | CLIP-ResNet50 (Zero-Shot) | 76.2 % |
97
+ | ViT-Base (Feintuning) | 98.45 % |
98
+
99
+ ## Intended Uses
100
+ - Klassifikation von kleinen Farb-Bildern in 10 Kategorien (z. B. in Lehr- und Forschungsumgebungen).
101
+ - Demonstration von Feintuning-Prozessen für Transformer-Modelle im Computer-Vision-Bereich.
102
+
103
+ ## Limitations
104
+ - Nur für Bildgrößen 32×32 px optimiert – nicht direkt auf größere Auflösungen übertragbar ohne zusätzliche Anpassung.
105
+ - CIFAR-10 ist relativ klein und künstlich; Ergebnisse auf realen, größeren Datensätzen können abweichen.
106
+ - Fehlklassifizierungen treten bei ähnlichen Klassen (z. B. Katze vs. Hund) auf.
107
+
108
+ ## Training Data
109
+ - **Quelle:** https://www.cs.toronto.edu/~kriz/cifar.html
110
+ - **Split:** 45k Train / 5k Val / 10k Test
111
+ - **Augmentation:**siehe oben
112
+ - **Vorverarbeitung:**
113
+ - Normalisierung auf den Mittelwert und die Standardabweichung von CIFAR-10
114
+ - Resizing auf 224×224 px (Input-Requirement von ViT)
115
+
116
+ ## Evaluation Data
117
+ - Unverändertes CIFAR-10-Testset (10 k Bilder), gleiche Vorverarbeitung wie Training.
118
+
119
+ ## Ethical Considerations
120
+ - Kein sensibler oder personenbezogener Inhalt.
121
+ - Lizenzkonformität mit MIT-Lizenz.
122
+ - Modell nicht für kritische Anwendungen (z. B. medizinische Diagnostik) geeignet.
123
+