touris-comments-classifier

Este repositorio contiene un modelo de clasificación de sentimientos binario basado en XLM-RoBERTa, entrenado y evaluado utilizando la librería 🤗 Transformers. El modelo está diseñado para clasificar textos (reviews) en sentimientos positivos o negativos y se encuentra listo para su uso directo desde Hugging Face.


📌 Descripción del modelo

El objetivo del modelo es realizar clasificación de sentimientos binaria sobre texto en lenguaje natural:

  • 0 → Negativo
  • 1 → Positivo

Gracias al uso de XLM-RoBERTa, el modelo puede generalizar correctamente en contextos multilingües y es fácilmente extensible a distintos dominios textuales.


🧠 Arquitectura

  • Modelo base: XLM-RoBERTa
  • Tipo: AutoModelForSequenceClassification
  • Número de etiquetas: 2
  • Tarea: Sentiment Analysis (Binary Classification)

📂 Preparación de los datos

El dataset fue preprocesado siguiendo un pipeline claro y reproducible:

  1. Selección de columnas relevantes
    Se conservaron únicamente las columnas necesarias:

    • review (texto)
    • label (etiqueta)
  2. Eliminación de ejemplos neutrales
    Todas las instancias con label == 3 fueron eliminadas para evitar ambigüedad en el entrenamiento.

  3. Conversión a etiquetas binarias

    Etiqueta original Nueva etiqueta
    label < 3 0 (Negativo)
    label > 3 1 (Positivo)
  4. Tokenización

    • Truncado automático
    • Padding dinámico
    • Longitud máxima controlada

Este proceso garantizó coherencia en los datos y un entrenamiento estable.


⚙️ Proceso de entrenamiento

El modelo fue entrenado utilizando la clase Trainer de Hugging Face con evaluación al final de cada epoch. Durante el entrenamiento se mantuvieron múltiples checkpoints internos, seleccionándose automáticamente el mejor modelo en función de las métricas de evaluación.

El modelo publicado corresponde al mejor estado aprendido tras completar el proceso de entrenamiento.


📊 Métricas de evaluación

Los resultados obtenidos durante la evaluación final fueron los siguientes:

Métrica Valor
Loss 0.1380
Accuracy 0.9738
F1-score 0.9735
Epoch 3
Runtime (s) 41.29
Samples / segundo 66.60
Steps / segundo 4.17

Interpretación

  • El modelo alcanza una accuracy superior al 97%, indicando una alta capacidad de clasificación correcta.
  • El F1-score elevado confirma un balance sólido entre precisión y recall.
  • El valor bajo de loss refleja una buena convergencia durante el entrenamiento.

Estas métricas evidencian un desempeño robusto del modelo para tareas de análisis de sentimientos binario.


📌 Uso previsto

Este modelo es adecuado para:

  • Análisis de sentimientos en reviews
  • Clasificación de texto binaria
  • Fine-tuning adicional en dominios específicos
  • Integración en pipelines NLP de producción o investigación

⚠️ Limitaciones

  • El modelo no contempla una clase neutral.
  • El rendimiento puede variar en dominios muy distintos a los datos de entrenamiento.
  • No está optimizado para detección de ironía o sarcasmo.

📬 Autor

José Manuel Gómez Magariño

Downloads last month
5
Safetensors
Model size
0.3B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for jgmagarino/tourist-comments-classifier

Finetuned
(3838)
this model

Datasets used to train jgmagarino/tourist-comments-classifier