touris-comments-classifier

Este repositorio contiene un modelo de clasificación de sentimientos binario basado en XLM-RoBERTa, entrenado y evaluado utilizando la librería 🤗 Transformers. El modelo está diseñado para clasificar textos (reviews) en sentimientos positivos o negativos y se encuentra listo para su uso directo desde Hugging Face.

📌 Descripción del modelo

El objetivo del modelo es realizar clasificación de sentimientos binaria sobre texto en lenguaje natural:

0 → Negativo
1 → Positivo

Gracias al uso de XLM-RoBERTa, el modelo puede generalizar correctamente en contextos multilingües y es fácilmente extensible a distintos dominios textuales.

🧠 Arquitectura

Modelo base: XLM-RoBERTa
Tipo: AutoModelForSequenceClassification
Número de etiquetas: 2
Tarea: Sentiment Analysis (Binary Classification)

📂 Preparación de los datos

El dataset fue preprocesado siguiendo un pipeline claro y reproducible:

Selección de columnas relevantes
Se conservaron únicamente las columnas necesarias:
- review (texto)
- label (etiqueta)
Eliminación de ejemplos neutrales
Todas las instancias con label == 3 fueron eliminadas para evitar ambigüedad en el entrenamiento.
Conversión a etiquetas binarias

Etiqueta original Nueva etiqueta

label < 3 0 (Negativo)

label > 3 1 (Positivo)
Tokenización
- Truncado automático
- Padding dinámico
- Longitud máxima controlada

Etiqueta original	Nueva etiqueta
label < 3	0 (Negativo)
label > 3	1 (Positivo)

Este proceso garantizó coherencia en los datos y un entrenamiento estable.

⚙️ Proceso de entrenamiento

El modelo fue entrenado utilizando la clase Trainer de Hugging Face con evaluación al final de cada epoch. Durante el entrenamiento se mantuvieron múltiples checkpoints internos, seleccionándose automáticamente el mejor modelo en función de las métricas de evaluación.

El modelo publicado corresponde al mejor estado aprendido tras completar el proceso de entrenamiento.

📊 Métricas de evaluación

Los resultados obtenidos durante la evaluación final fueron los siguientes:

Métrica	Valor
Loss	0.1380
Accuracy	0.9738
F1-score	0.9735
Epoch	3
Runtime (s)	41.29
Samples / segundo	66.60
Steps / segundo	4.17

Interpretación

El modelo alcanza una accuracy superior al 97%, indicando una alta capacidad de clasificación correcta.
El F1-score elevado confirma un balance sólido entre precisión y recall.
El valor bajo de loss refleja una buena convergencia durante el entrenamiento.

Estas métricas evidencian un desempeño robusto del modelo para tareas de análisis de sentimientos binario.

📌 Uso previsto

Este modelo es adecuado para:

Análisis de sentimientos en reviews
Clasificación de texto binaria
Fine-tuning adicional en dominios específicos
Integración en pipelines NLP de producción o investigación

⚠️ Limitaciones

El modelo no contempla una clase neutral.
El rendimiento puede variar en dominios muy distintos a los datos de entrenamiento.
No está optimizado para detección de ironía o sarcasmo.

📬 Autor

José Manuel Gómez Magariño

Downloads last month: 4

Safetensors

Model size

0.3B params

Tensor type

F32

Model tree for jgmagarino/tourist-comments-classifier

Base model

FacebookAI/xlm-roberta-base

Finetuned

(3983)

this model

jgmagarino
/

tourist-comments-classifier