Modelo VIT afinado para clasificación de imágenes de Tom y Jerry

Modelo base: 'google/vit-base-patch16-224-in21k'

EL modelo VIT fue ajusto para la clasificación de imágenes de Tom y Jerry en las siguientes categorías:

Tom: Tom está en la imagen
Jerry: Jerry está en la imagen
Tom_and_Jerry: Tom y Jerry están en la imagen
None: Ninguno está en la imagen

Metodología

Se realizó el afinamiento del modelo con el dataset thomashk2001/tom_and_jerry_dataset. El cual se encuentra dividido en train, eval y testing.
Los splits están estratificados por lo que hay de cada uno de los posibles labels en los splits.
Se realizó el procesamiento de las imágenes con el ViTImageProcessor con el modelo 'google/vit-base-patch16-224-in21k'.
Los argumentos de entrenamiento fueron:

training_args = TrainingArguments(
    output_dir="./vit_tom_jerry_mdl",   # Checkpoints and saved model
    per_device_train_batch_size=64,# Train batch size
    per_device_eval_batch_size=64,# Eval batch size
    num_train_epochs=5,# Number of epochs
    learning_rate=2e-4,# LR rate
    eval_strategy="steps",# Eval at the end of each step
    eval_steps=25, # How often model is evaluated
    save_strategy="steps",  # Saves model every 100 steps
    save_steps=100,
    save_total_limit=5,  # Model states saved including best model
    load_best_model_at_end=True, # Loads best model at the end
    logging_dir="./logs", # Lod dir
    logging_steps=10, # Log register step
    remove_unused_columns=False,
    metric_for_best_model="f1", # Metric used for the best model 
    greater_is_better=True, # better f1 is looked after
)

Se aplicó el afinamiento del modelo con los parámetros definidos en el paso anterior y se uso early stopping con paciencia de 3.

Resultados del entrenamiento:

Step	Training Loss	Validation Loss	Accuracy	Precision	Recall	F1
25	0.8223	0.4506	0.8893	0.8939	0.8653	0.8742
50	0.2676	0.2195	0.9392	0.9343	0.9376	0.9356
75	0.1896	0.1816	0.9526	0.9490	0.9504	0.9493
100	0.1085	0.1940	0.9380	0.9316	0.9381	0.9344
125	0.1618	0.1806	0.9477	0.9390	0.9493	0.9434
150	0.0784	0.1582	0.9574	0.9524	0.9570	0.9546
175	0.0710	0.1803	0.9416	0.9364	0.9413	0.9386
200	0.0533	0.1539	0.9611	0.9623	0.9600	0.9605
225	0.0383	0.1446	0.9647	0.9654	0.9642	0.9646
250	0.0264	0.1619	0.9513	0.9447	0.9546	0.9488
275	0.0227	0.1524	0.9550	0.9498	0.9579	0.9531
300	0.0343	0.1530	0.9562	0.9526	0.9587	0.9553

Mejor Modelo

Step: 225
Training Loss: 0.0383
Validation Loss: 0.1446
Accuracy: 0.9647
Precision: 0.9654
Recall: 0.9642
F1 Score: 0.9646

Downloads last month: 1

Safetensors

Model size

85.8M params

Tensor type

F32