vit-tom-jerry-model / README.md

RobertoMDLP

Update README.md

2146f16 verified 5 months ago

preview code

raw

history blame contribute delete

2.77 kB

metadata

license: cc0-1.0
datasets:
  - RobertoMDLP/tom_and_jerry
language:
  - en
metrics:
  - accuracy
  - f1
  - precision
  - recall
base_model:
  - google/vit-base-patch16-224-in21k

Tom and Jerry Image Classification with ViT

Este modelo es una variante ajustada de google/vit-base-patch16-224-in21k para clasificar imágenes que contienen:

Tom
Jerry

Metodología

Preparación del dataset
Se utilizó el dataset RobertoMDLP/tom_and_jerry con dos clases (Tom, Jerry).
El conjunto de datos se dividió en 70% para entrenamiento, 15% para validación y 15% para prueba.
Preprocesamiento
Las imágenes fueron redimensionadas a 224×224 píxeles y normalizadas utilizando el ViTImageProcessor preentrenado de google/vit-base-patch16-224-in21k.
No se aplicaron técnicas de aumento de datos.
Entrenamiento
Se empleó el modelo base ViT con fine-tuning completo.
La configuración incluyó:
- Tamaño de lote: 8 (entrenamiento y evaluación)
- Tasa de aprendizaje: 2e-4
- Épocas: 3
- Estrategia de evaluación: cada 100 pasos
- Precisión mixta (FP16)
- Early stopping con paciencia de 3 evaluaciones
- Selección del mejor modelo según accuracy de validación
Evaluación
El rendimiento se midió con Accuracy, F1, Precision y Recall.
Se seleccionó el checkpoint con mejor Accuracy en validación.

Resultados

Resumen de métricas (mejor checkpoint)

Métrica	Valor
Accuracy	0.9916
F1	0.9911
Precision	0.9911
Recall	0.9911
Loss (eval)	0.0403

Evolución por pasos

Step	Train Loss	Val Loss	Accuracy	F1	Precision	Recall
100	0.0808	0.1168	0.9705	0.9694	0.9646	0.9759
200	0.2120	0.1209	0.9705	0.9691	0.9667	0.9719
300	0.0008	0.0403	0.9916	0.9911	0.9911	0.9911
400	0.0041	0.0464	0.9895	0.9889	0.9884	0.9894
500	0.0004	0.1313	0.9684	0.9671	0.9627	0.9732
600	0.0005	0.0855	0.9811	0.9802	0.9767	0.9845

Métricas finales

Entrenamiento

Epoch: 2.1583
Loss: 0.0394
Tiempo: 6 min 3 s
Velocidad: 30.58 muestras/s

Evaluación

Accuracy: 0.9916
F1: 0.9911
Precision: 0.9911
Recall: 0.9911
Loss: 0.0403
Tiempo: 6.33 s
Velocidad: 74.97 muestras/s

Framework versions

Transformers 4.55.0
Pytorch 2.6.0+cu124
Datasets 4.0.0
Tokenizers 0.21.4