Tom and Jerry Image Classification with ViT

Este modelo es una variante ajustada de google/vit-base-patch16-224-in21k para clasificar imágenes que contienen:

  • Tom
  • Jerry

Metodología

  1. Preparación del dataset
    Se utilizó el dataset RobertoMDLP/tom_and_jerry con dos clases (Tom, Jerry).
    El conjunto de datos se dividió en 70% para entrenamiento, 15% para validación y 15% para prueba.

  2. Preprocesamiento
    Las imágenes fueron redimensionadas a 224×224 píxeles y normalizadas utilizando el ViTImageProcessor preentrenado de google/vit-base-patch16-224-in21k.
    No se aplicaron técnicas de aumento de datos.

  3. Entrenamiento
    Se empleó el modelo base ViT con fine-tuning completo.
    La configuración incluyó:

    • Tamaño de lote: 8 (entrenamiento y evaluación)
    • Tasa de aprendizaje: 2e-4
    • Épocas: 3
    • Estrategia de evaluación: cada 100 pasos
    • Precisión mixta (FP16)
    • Early stopping con paciencia de 3 evaluaciones
    • Selección del mejor modelo según accuracy de validación
  4. Evaluación
    El rendimiento se midió con Accuracy, F1, Precision y Recall.
    Se seleccionó el checkpoint con mejor Accuracy en validación.

Resultados

Resumen de métricas (mejor checkpoint)

Métrica Valor
Accuracy 0.9916
F1 0.9911
Precision 0.9911
Recall 0.9911
Loss (eval) 0.0403

Evolución por pasos

Step Train Loss Val Loss Accuracy F1 Precision Recall
100 0.0808 0.1168 0.9705 0.9694 0.9646 0.9759
200 0.2120 0.1209 0.9705 0.9691 0.9667 0.9719
300 0.0008 0.0403 0.9916 0.9911 0.9911 0.9911
400 0.0041 0.0464 0.9895 0.9889 0.9884 0.9894
500 0.0004 0.1313 0.9684 0.9671 0.9627 0.9732
600 0.0005 0.0855 0.9811 0.9802 0.9767 0.9845

Métricas finales

Entrenamiento

  • Epoch: 2.1583
  • Loss: 0.0394
  • Tiempo: 6 min 3 s
  • Velocidad: 30.58 muestras/s

Evaluación

  • Accuracy: 0.9916
  • F1: 0.9911
  • Precision: 0.9911
  • Recall: 0.9911
  • Loss: 0.0403
  • Tiempo: 6.33 s
  • Velocidad: 74.97 muestras/s

Framework versions

  • Transformers 4.55.0
  • Pytorch 2.6.0+cu124
  • Datasets 4.0.0
  • Tokenizers 0.21.4
Downloads last month
4
Safetensors
Model size
85.8M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for RobertoMDLP/vit-tom-jerry-model

Finetuned
(2463)
this model

Dataset used to train RobertoMDLP/vit-tom-jerry-model