File size: 2,770 Bytes
68af918
45cfbb7
68af918
45cfbb7
 
 
68af918
 
 
 
 
45cfbb7
 
68af918
 
45cfbb7
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2bc5003
 
 
2146f16
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
---
license: cc0-1.0
datasets:
- RobertoMDLP/tom_and_jerry
language:
- en
metrics:
- accuracy
- f1
- precision
- recall
base_model:
- google/vit-base-patch16-224-in21k
---

# Tom and Jerry Image Classification with ViT

Este modelo es una variante ajustada de **google/vit-base-patch16-224-in21k** para clasificar im谩genes que contienen:
- Tom
- Jerry

## Metodolog铆a

1. **Preparaci贸n del dataset**  
   Se utiliz贸 el dataset [`RobertoMDLP/tom_and_jerry`](https://huggingface.co/datasets/RobertoMDLP/tom_and_jerry) con dos clases (*Tom*, *Jerry*).  
   El conjunto de datos se dividi贸 en 70% para entrenamiento, 15% para validaci贸n y 15% para prueba.

2. **Preprocesamiento**  
   Las im谩genes fueron redimensionadas a 224脳224 p铆xeles y normalizadas utilizando el `ViTImageProcessor` preentrenado de `google/vit-base-patch16-224-in21k`.  
   No se aplicaron t茅cnicas de aumento de datos.

3. **Entrenamiento**  
   Se emple贸 el modelo base **ViT** con fine-tuning completo.  
   La configuraci贸n incluy贸:
   - Tama帽o de lote: 8 (entrenamiento y evaluaci贸n)
   - Tasa de aprendizaje: 2e-4
   - 脡pocas: 3
   - Estrategia de evaluaci贸n: cada 100 pasos
   - Precisi贸n mixta (FP16)
   - Early stopping con paciencia de 3 evaluaciones
   - Selecci贸n del mejor modelo seg煤n *accuracy* de validaci贸n

4. **Evaluaci贸n**  
   El rendimiento se midi贸 con Accuracy, F1, Precision y Recall.  
   Se seleccion贸 el checkpoint con mejor Accuracy en validaci贸n.

## Resultados 

### Resumen de m茅tricas (mejor checkpoint)

| M茅trica     | Valor   |
|-------------|---------|
| Accuracy    | 0.9916  |
| F1          | 0.9911  |
| Precision   | 0.9911  |
| Recall      | 0.9911  |
| Loss (eval) | 0.0403  |

### Evoluci贸n por pasos

| Step | Train Loss | Val Loss | Accuracy  | F1       | Precision | Recall   |
|------|-----------:|---------:|----------:|---------:|----------:|---------:|
| 100  | 0.0808     | 0.1168   | 0.9705    | 0.9694   | 0.9646    | 0.9759   |
| 200  | 0.2120     | 0.1209   | 0.9705    | 0.9691   | 0.9667    | 0.9719   |
| 300  | 0.0008     | 0.0403   | 0.9916    | 0.9911   | 0.9911    | 0.9911   |
| 400  | 0.0041     | 0.0464   | 0.9895    | 0.9889   | 0.9884    | 0.9894   |
| 500  | 0.0004     | 0.1313   | 0.9684    | 0.9671   | 0.9627    | 0.9732   |
| 600  | 0.0005     | 0.0855   | 0.9811    | 0.9802   | 0.9767    | 0.9845   |

### M茅tricas finales

**Entrenamiento**
- Epoch: 2.1583  
- Loss: 0.0394  
- Tiempo: 6 min 3 s  
- Velocidad: 30.58 muestras/s  

**Evaluaci贸n**
- Accuracy: 0.9916  
- F1: 0.9911  
- Precision: 0.9911  
- Recall: 0.9911  
- Loss: 0.0403  
- Tiempo: 6.33 s  
- Velocidad: 74.97 muestras/s

### Framework versions
- Transformers 4.55.0
- Pytorch 2.6.0+cu124
- Datasets 4.0.0
- Tokenizers 0.21.4