RobertoMDLP
/

vit-tom-jerry-model

Model card Files Files and versions

Metrics Training metrics Community

vit-tom-jerry-model / README.md

RobertoMDLP's picture

Update README.md

2146f16 verified 5 months ago

|

history blame contribute delete

2.77 kB

	---
	license: cc0-1.0
	datasets:
	- RobertoMDLP/tom_and_jerry
	language:
	- en
	metrics:
	- accuracy
	- f1
	- precision
	- recall
	base_model:
	- google/vit-base-patch16-224-in21k
	---

	# Tom and Jerry Image Classification with ViT

	Este modelo es una variante ajustada de google/vit-base-patch16-224-in21k para clasificar imágenes que contienen:
	- Tom
	- Jerry

	## Metodología

	1. Preparación del dataset
	Se utilizó el dataset [`RobertoMDLP/tom_and_jerry`](https://huggingface.co/datasets/RobertoMDLP/tom_and_jerry) con dos clases (Tom, Jerry).
	El conjunto de datos se dividió en 70% para entrenamiento, 15% para validación y 15% para prueba.

	2. Preprocesamiento
	Las imágenes fueron redimensionadas a 224×224 píxeles y normalizadas utilizando el `ViTImageProcessor` preentrenado de `google/vit-base-patch16-224-in21k`.
	No se aplicaron técnicas de aumento de datos.

	3. Entrenamiento
	Se empleó el modelo base ViT con fine-tuning completo.
	La configuración incluyó:
	- Tamaño de lote: 8 (entrenamiento y evaluación)
	- Tasa de aprendizaje: 2e-4
	- Épocas: 3
	- Estrategia de evaluación: cada 100 pasos
	- Precisión mixta (FP16)
	- Early stopping con paciencia de 3 evaluaciones
	- Selección del mejor modelo según accuracy de validación

	4. Evaluación
	El rendimiento se midió con Accuracy, F1, Precision y Recall.
	Se seleccionó el checkpoint con mejor Accuracy en validación.

	## Resultados

	### Resumen de métricas (mejor checkpoint)

	\| Métrica \| Valor \|
	\|-------------\|---------\|
	\| Accuracy \| 0.9916 \|
	\| F1 \| 0.9911 \|
	\| Precision \| 0.9911 \|
	\| Recall \| 0.9911 \|
	\| Loss (eval) \| 0.0403 \|

	### Evolución por pasos

	\| Step \| Train Loss \| Val Loss \| Accuracy \| F1 \| Precision \| Recall \|
	\|------\|-----------:\|---------:\|----------:\|---------:\|----------:\|---------:\|
	\| 100 \| 0.0808 \| 0.1168 \| 0.9705 \| 0.9694 \| 0.9646 \| 0.9759 \|
	\| 200 \| 0.2120 \| 0.1209 \| 0.9705 \| 0.9691 \| 0.9667 \| 0.9719 \|
	\| 300 \| 0.0008 \| 0.0403 \| 0.9916 \| 0.9911 \| 0.9911 \| 0.9911 \|
	\| 400 \| 0.0041 \| 0.0464 \| 0.9895 \| 0.9889 \| 0.9884 \| 0.9894 \|
	\| 500 \| 0.0004 \| 0.1313 \| 0.9684 \| 0.9671 \| 0.9627 \| 0.9732 \|
	\| 600 \| 0.0005 \| 0.0855 \| 0.9811 \| 0.9802 \| 0.9767 \| 0.9845 \|

	### Métricas finales

	Entrenamiento
	- Epoch: 2.1583
	- Loss: 0.0394
	- Tiempo: 6 min 3 s
	- Velocidad: 30.58 muestras/s

	Evaluación
	- Accuracy: 0.9916
	- F1: 0.9911
	- Precision: 0.9911
	- Recall: 0.9911
	- Loss: 0.0403
	- Tiempo: 6.33 s
	- Velocidad: 74.97 muestras/s

	### Framework versions
	- Transformers 4.55.0
	- Pytorch 2.6.0+cu124
	- Datasets 4.0.0
	- Tokenizers 0.21.4