---
license: cc0-1.0
datasets:
- RobertoMDLP/tom_and_jerry
language:
- en
metrics:
- accuracy
- f1
- precision
- recall
base_model:
- google/vit-base-patch16-224-in21k
---

# Tom and Jerry Image Classification with ViT

Este modelo es una variante ajustada de **google/vit-base-patch16-224-in21k** para clasificar imágenes que contienen:
- Tom
- Jerry

## Metodología

1. **Preparación del dataset**  
   Se utilizó el dataset [`RobertoMDLP/tom_and_jerry`](https://huggingface.co/datasets/RobertoMDLP/tom_and_jerry) con dos clases (*Tom*, *Jerry*).  
   El conjunto de datos se dividió en 70% para entrenamiento, 15% para validación y 15% para prueba.

2. **Preprocesamiento**  
   Las imágenes fueron redimensionadas a 224×224 píxeles y normalizadas utilizando el `ViTImageProcessor` preentrenado de `google/vit-base-patch16-224-in21k`.  
   No se aplicaron técnicas de aumento de datos.

3. **Entrenamiento**  
   Se empleó el modelo base **ViT** con fine-tuning completo.  
   La configuración incluyó:
   - Tamaño de lote: 8 (entrenamiento y evaluación)
   - Tasa de aprendizaje: 2e-4
   - Épocas: 3
   - Estrategia de evaluación: cada 100 pasos
   - Precisión mixta (FP16)
   - Early stopping con paciencia de 3 evaluaciones
   - Selección del mejor modelo según *accuracy* de validación

4. **Evaluación**  
   El rendimiento se midió con Accuracy, F1, Precision y Recall.  
   Se seleccionó el checkpoint con mejor Accuracy en validación.

## Resultados 

### Resumen de métricas (mejor checkpoint)

| Métrica     | Valor   |
|-------------|---------|
| Accuracy    | 0.9916  |
| F1          | 0.9911  |
| Precision   | 0.9911  |
| Recall      | 0.9911  |
| Loss (eval) | 0.0403  |

### Evolución por pasos

| Step | Train Loss | Val Loss | Accuracy  | F1       | Precision | Recall   |
|------|-----------:|---------:|----------:|---------:|----------:|---------:|
| 100  | 0.0808     | 0.1168   | 0.9705    | 0.9694   | 0.9646    | 0.9759   |
| 200  | 0.2120     | 0.1209   | 0.9705    | 0.9691   | 0.9667    | 0.9719   |
| 300  | 0.0008     | 0.0403   | 0.9916    | 0.9911   | 0.9911    | 0.9911   |
| 400  | 0.0041     | 0.0464   | 0.9895    | 0.9889   | 0.9884    | 0.9894   |
| 500  | 0.0004     | 0.1313   | 0.9684    | 0.9671   | 0.9627    | 0.9732   |
| 600  | 0.0005     | 0.0855   | 0.9811    | 0.9802   | 0.9767    | 0.9845   |

### Métricas finales

**Entrenamiento**
- Epoch: 2.1583  
- Loss: 0.0394  
- Tiempo: 6 min 3 s  
- Velocidad: 30.58 muestras/s  

**Evaluación**
- Accuracy: 0.9916  
- F1: 0.9911  
- Precision: 0.9911  
- Recall: 0.9911  
- Loss: 0.0403  
- Tiempo: 6.33 s  
- Velocidad: 74.97 muestras/s

### Framework versions
- Transformers 4.55.0
- Pytorch 2.6.0+cu124
- Datasets 4.0.0
- Tokenizers 0.21.4