cocoroloco
/

distilbert-review-classification

+---
+language:
+- es
+license: mit
+tags:
+- text-classification
+- sentiment-analysis
+- reviews
+- distilbert
+- spanish
+datasets:
+- amazon_reviews_multi
+metrics:
+- accuracy
+- f1
+- precision
+- recall
+model-index:
+- name: distilbert-review_classification
+  results:
+  - task:
+      type: text-classification
+      name: Clasificación de reseñas (5 clases)
+    dataset:
+      name: amazon_reviews_multi (español)
+      type: amazon_reviews_multi
+    metrics:
+      - type: accuracy
+        value: 0.5808
+      - type: f1
+        value: 0.58158
+pipeline_tag: text-classification
+widget:
+- text: "Este producto es increíble, funciona perfectamente y el precio es excelente."
+- text: "La calidad del producto deja mucho que desear y llegó con un retraso considerable."
+---
+# distilbert-review_classification
+Este modelo es una variante de DistilBERT entrenada para la clasificación de reseñas de Amazon en español. Está basado en `distilbert-base-multilingual` y ha sido afinado para predecir calificaciones de estrellas (1-5) a partir del texto de la reseña.
+## Modelo
+**Arquitectura base:** DistilBERT (distilbert-base-multilingual)
+**Tarea:** Clasificación de texto (5 clases)
+**Idioma:** Español
+**Caso de uso:** Análisis de sentimiento y clasificación de reseñas
+## Rendimiento
+El modelo fue evaluado en un conjunto de datos balanceado con 1000 muestras para cada clase (calificación de 1 a 5 estrellas):
+| Métrica | Valor |
+|---------|-------|
+| Exactitud (Accuracy) | 0.5808 |
+| F1 Score (macro promedio) | 0.58158 |
+| Precisión (macro promedio) | 0.58303 |
+| Recall (macro promedio) | 0.5808 |
+### Rendimiento por clase
+| Clase | Precisión | Recall | F1 Score | Soporte |
+|-------|-----------|--------|----------|---------|
+| 1 ⭐ | 0.72069 | 0.707 | 0.71378 | 1000 |
+| 2 ⭐ | 0.50409 | 0.554 | 0.52787 | 1000 |
+| 3 ⭐ | 0.48916 | 0.474 | 0.48146 | 1000 |
+| 4 ⭐ | 0.51613 | 0.512 | 0.51406 | 1000 |
+| 5 ⭐ | 0.68509 | 0.657 | 0.67075 | 1000 |
+## Detalles de entrenamiento
+* **Epochs:** 1
+* **Pasos de entrenamiento:** 50,000
+* **Tiempo de entrenamiento:** ~8.2 horas (29,486 segundos)
+* **Loss final:** 0.9721
+## Uso
+```python
+from transformers import AutoTokenizer, AutoModelForSequenceClassification
+import torch
+# Cargar modelo y tokenizer
+tokenizer = AutoTokenizer.from_pretrained("polodealvarado/distilbert-review_classification")
+model = AutoModelForSequenceClassification.from_pretrained("polodealvarado/distilbert-review_classification")
+# Preparar el texto de entrada
+texto = "Este producto superó mis expectativas, lo recomiendo totalmente."
+inputs = tokenizer(texto, return_tensors="pt", padding=True, truncation=True, max_length=512)
+# Realizar la predicción
+with torch.no_grad():
+    outputs = model(**inputs)
+    logits = outputs.logits
+    predicted_class = torch.argmax(logits, dim=1).item()
+# La clase predicha será un número del 0 al 4, que corresponde a 1-5 estrellas
+estrellas_predichas = predicted_class + 1
+print(f"Predicción: {estrellas_predichas} estrellas")
+```
+## Limitaciones
+- El modelo fue entrenado con datos de reseñas de Amazon, por lo que puede tener un rendimiento reducido en otros dominios.
+- El rendimiento es más alto para reseñas claramente positivas (5 estrellas) o c