touris-comments-classifier
Este repositorio contiene un modelo de clasificación de sentimientos binario basado en XLM-RoBERTa, entrenado y evaluado utilizando la librería 🤗 Transformers. El modelo está diseñado para clasificar textos (reviews) en sentimientos positivos o negativos y se encuentra listo para su uso directo desde Hugging Face.
📌 Descripción del modelo
El objetivo del modelo es realizar clasificación de sentimientos binaria sobre texto en lenguaje natural:
- 0 → Negativo
- 1 → Positivo
Gracias al uso de XLM-RoBERTa, el modelo puede generalizar correctamente en contextos multilingües y es fácilmente extensible a distintos dominios textuales.
🧠 Arquitectura
- Modelo base: XLM-RoBERTa
- Tipo:
AutoModelForSequenceClassification - Número de etiquetas: 2
- Tarea: Sentiment Analysis (Binary Classification)
📂 Preparación de los datos
El dataset fue preprocesado siguiendo un pipeline claro y reproducible:
Selección de columnas relevantes
Se conservaron únicamente las columnas necesarias:review(texto)label(etiqueta)
Eliminación de ejemplos neutrales
Todas las instancias conlabel == 3fueron eliminadas para evitar ambigüedad en el entrenamiento.Conversión a etiquetas binarias
Etiqueta original Nueva etiqueta label < 3 0 (Negativo) label > 3 1 (Positivo) Tokenización
- Truncado automático
- Padding dinámico
- Longitud máxima controlada
Este proceso garantizó coherencia en los datos y un entrenamiento estable.
⚙️ Proceso de entrenamiento
El modelo fue entrenado utilizando la clase Trainer de Hugging Face con evaluación al final de cada epoch. Durante el entrenamiento se mantuvieron múltiples checkpoints internos, seleccionándose automáticamente el mejor modelo en función de las métricas de evaluación.
El modelo publicado corresponde al mejor estado aprendido tras completar el proceso de entrenamiento.
📊 Métricas de evaluación
Los resultados obtenidos durante la evaluación final fueron los siguientes:
| Métrica | Valor |
|---|---|
| Loss | 0.1380 |
| Accuracy | 0.9738 |
| F1-score | 0.9735 |
| Epoch | 3 |
| Runtime (s) | 41.29 |
| Samples / segundo | 66.60 |
| Steps / segundo | 4.17 |
Interpretación
- El modelo alcanza una accuracy superior al 97%, indicando una alta capacidad de clasificación correcta.
- El F1-score elevado confirma un balance sólido entre precisión y recall.
- El valor bajo de loss refleja una buena convergencia durante el entrenamiento.
Estas métricas evidencian un desempeño robusto del modelo para tareas de análisis de sentimientos binario.
📌 Uso previsto
Este modelo es adecuado para:
- Análisis de sentimientos en reviews
- Clasificación de texto binaria
- Fine-tuning adicional en dominios específicos
- Integración en pipelines NLP de producción o investigación
⚠️ Limitaciones
- El modelo no contempla una clase neutral.
- El rendimiento puede variar en dominios muy distintos a los datos de entrenamiento.
- No está optimizado para detección de ironía o sarcasmo.
📬 Autor
José Manuel Gómez Magariño
- Downloads last month
- 5
Model tree for jgmagarino/tourist-comments-classifier
Base model
FacebookAI/xlm-roberta-base