--- license: cc0-1.0 datasets: - RobertoMDLP/tom_and_jerry language: - en metrics: - accuracy - f1 - precision - recall base_model: - google/vit-base-patch16-224-in21k --- # Tom and Jerry Image Classification with ViT Este modelo es una variante ajustada de **google/vit-base-patch16-224-in21k** para clasificar imágenes que contienen: - Tom - Jerry ## Metodología 1. **Preparación del dataset** Se utilizó el dataset [`RobertoMDLP/tom_and_jerry`](https://huggingface.co/datasets/RobertoMDLP/tom_and_jerry) con dos clases (*Tom*, *Jerry*). El conjunto de datos se dividió en 70% para entrenamiento, 15% para validación y 15% para prueba. 2. **Preprocesamiento** Las imágenes fueron redimensionadas a 224×224 píxeles y normalizadas utilizando el `ViTImageProcessor` preentrenado de `google/vit-base-patch16-224-in21k`. No se aplicaron técnicas de aumento de datos. 3. **Entrenamiento** Se empleó el modelo base **ViT** con fine-tuning completo. La configuración incluyó: - Tamaño de lote: 8 (entrenamiento y evaluación) - Tasa de aprendizaje: 2e-4 - Épocas: 3 - Estrategia de evaluación: cada 100 pasos - Precisión mixta (FP16) - Early stopping con paciencia de 3 evaluaciones - Selección del mejor modelo según *accuracy* de validación 4. **Evaluación** El rendimiento se midió con Accuracy, F1, Precision y Recall. Se seleccionó el checkpoint con mejor Accuracy en validación. ## Resultados ### Resumen de métricas (mejor checkpoint) | Métrica | Valor | |-------------|---------| | Accuracy | 0.9916 | | F1 | 0.9911 | | Precision | 0.9911 | | Recall | 0.9911 | | Loss (eval) | 0.0403 | ### Evolución por pasos | Step | Train Loss | Val Loss | Accuracy | F1 | Precision | Recall | |------|-----------:|---------:|----------:|---------:|----------:|---------:| | 100 | 0.0808 | 0.1168 | 0.9705 | 0.9694 | 0.9646 | 0.9759 | | 200 | 0.2120 | 0.1209 | 0.9705 | 0.9691 | 0.9667 | 0.9719 | | 300 | 0.0008 | 0.0403 | 0.9916 | 0.9911 | 0.9911 | 0.9911 | | 400 | 0.0041 | 0.0464 | 0.9895 | 0.9889 | 0.9884 | 0.9894 | | 500 | 0.0004 | 0.1313 | 0.9684 | 0.9671 | 0.9627 | 0.9732 | | 600 | 0.0005 | 0.0855 | 0.9811 | 0.9802 | 0.9767 | 0.9845 | ### Métricas finales **Entrenamiento** - Epoch: 2.1583 - Loss: 0.0394 - Tiempo: 6 min 3 s - Velocidad: 30.58 muestras/s **Evaluación** - Accuracy: 0.9916 - F1: 0.9911 - Precision: 0.9911 - Recall: 0.9911 - Loss: 0.0403 - Tiempo: 6.33 s - Velocidad: 74.97 muestras/s ### Framework versions - Transformers 4.55.0 - Pytorch 2.6.0+cu124 - Datasets 4.0.0 - Tokenizers 0.21.4