Tom and Jerry Image Classification with ViT

Este modelo es una variante ajustada de google/vit-base-patch16-224-in21k para clasificar imágenes que contienen:

Metodología

Preparación del dataset
Se utilizó el dataset RobertoMDLP/tom_and_jerry con dos clases (Tom, Jerry).
El conjunto de datos se dividió en 70% para entrenamiento, 15% para validación y 15% para prueba.
Preprocesamiento
Las imágenes fueron redimensionadas a 224×224 píxeles y normalizadas utilizando el ViTImageProcessor preentrenado de google/vit-base-patch16-224-in21k.
No se aplicaron técnicas de aumento de datos.
Entrenamiento
Se empleó el modelo base ViT con fine-tuning completo.
La configuración incluyó:
- Tamaño de lote: 8 (entrenamiento y evaluación)
- Tasa de aprendizaje: 2e-4
- Épocas: 3
- Estrategia de evaluación: cada 100 pasos
- Precisión mixta (FP16)
- Early stopping con paciencia de 3 evaluaciones
- Selección del mejor modelo según accuracy de validación
Evaluación
El rendimiento se midió con Accuracy, F1, Precision y Recall.
Se seleccionó el checkpoint con mejor Accuracy en validación.

Step	Train Loss	Val Loss	Accuracy	F1	Precision	Recall
100	0.0808	0.1168	0.9705	0.9694	0.9646	0.9759
200	0.2120	0.1209	0.9705	0.9691	0.9667	0.9719
300	0.0008	0.0403	0.9916	0.9911	0.9911	0.9911
400	0.0041	0.0464	0.9895	0.9889	0.9884	0.9894
500	0.0004	0.1313	0.9684	0.9671	0.9627	0.9732
600	0.0005	0.0855	0.9811	0.9802	0.9767	0.9845

Entrenamiento

Evaluación

Safetensors

Model size

85.8M params

Tensor type

F32

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Base model

Finetuned

this model