File size: 5,480 Bytes
03ffcd3 239a9c0 03ffcd3 239a9c0 03ffcd3 239a9c0 03ffcd3 239a9c0 03ffcd3 239a9c0 03ffcd3 239a9c0 03ffcd3 239a9c0 03ffcd3 239a9c0 03ffcd3 b651ef6 03ffcd3 a16efc9 03ffcd3 a16efc9 03ffcd3 a16efc9 239a9c0 03ffcd3 239a9c0 03ffcd3 239a9c0 b4ab27e 239a9c0 03ffcd3 239a9c0 03ffcd3 239a9c0 03ffcd3 239a9c0 03ffcd3 239a9c0 03ffcd3 239a9c0 03ffcd3 239a9c0 03ffcd3 239a9c0 03ffcd3 239a9c0 03ffcd3 239a9c0 03ffcd3 239a9c0 03ffcd3 239a9c0 03ffcd3 239a9c0 03ffcd3 239a9c0 03ffcd3 239a9c0 03ffcd3 239a9c0 03ffcd3 239a9c0 03ffcd3 239a9c0 03ffcd3 239a9c0 03ffcd3 239a9c0 03ffcd3 239a9c0 03ffcd3 239a9c0 03ffcd3 239a9c0 03ffcd3 239a9c0 03ffcd3 239a9c0 03ffcd3 239a9c0 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 |
---
base_model: nlptown/bert-base-multilingual-uncased-sentiment
library_name: peft
tags:
- base_model:adapter:nlptown/bert-base-multilingual-uncased-sentiment
- lora
- transformers
- sentiment-analysis
- spanish
- social-media
- text-classification
datasets:
- pyupeu/social-media-peruvian-sentiment
metrics:
- accuracy
---
# SenaSoft/chdv-sentiment-analysis
Este modelo es una adaptación de `nlptown/bert-base-multilingual-uncased-sentiment` entrenado con **LoRA** para la tarea de **análisis de sentimiento** en textos en español.
Fue ajustado específicamente en un dataset de publicaciones en redes sociales peruanas con 3 etiquetas: **negativo, neutral y positivo**.
---
## Model Details
### Model Description
- **Autores:** Christopher Aponte y David Navarro
- **Modelo base:** [nlptown/bert-base-multilingual-uncased-sentiment](https://huggingface.co/nlptown/bert-base-multilingual-uncased-sentiment)
- **Tipo de modelo:** Clasificación de secuencias (sentiment analysis)
- **Idiomas:** Multilingual
- **Tarea:** Análisis de sentimiento en textos cortos (ej. redes sociales)
- **License:** Apache 2.0
- **Finetuned from:** `nlptown/bert-base-multilingual-uncased-sentiment`
### Model Sources
- **Repository:** [Hugging Face Hub](https://huggingface.co/SenaSoft/chdv-sentiment-analysis)
- **Dataset:** [pyupeu/social-media-peruvian-sentiment](https://huggingface.co/datasets/pyupeu/social-media-peruvian-sentiment)
---
## Uses
### Direct Use
Este modelo puede usarse directamente para clasificar textos en español en **positivo, negativo o neutral**.
Ejemplos de uso:
```python
from transformers import pipeline
clasificador = pipeline(
"sentiment-analysis",
model="SenaSoft/chdv-sentiment-analysis"
)
print(clasificador("Me encanta la sopa"))
# [{'label': 'positivo', 'score': 0.85}]
print(clasificador("No me gusta nada la sopa"))
# [{'label': 'negativo', 'score': 0.89}]
print(clasificador("La sopa está bien, pero prefiero otra cosa"))
# [{'label': 'neutral', 'score': 0.39}]
```
### Downstream Use
Puede integrarse en:
- Plataformas de monitoreo de redes sociales.
- Sistemas de atención al cliente.
- Análisis de feedback de usuarios.
### Out-of-Scope Use
- No está entrenado para otros idiomas distintos al español, pero el modelo base sí.
- No es un detector de sarcasmo ni de sentimientos complejos como miedo o sorpresa.
- No debe usarse en contextos médicos, legales o financieros sin verificación adicional.
---
## Bias, Risks, and Limitations
- Entrenado con un dataset específico (Perú, redes sociales). Puede no generalizar igual en otros países o contextos.
- Riesgo de sesgo cultural y lingüístico.
- Puede fallar en casos de ironía, sarcasmo o ambigüedad semántica.
### Recommendations
- Se recomienda evaluar antes de usar en producción fuera de su dominio.
- Puede complementarse con técnicas de **ensembles** o datasets más diversos.
---
## Training Details
### Training Data
Dataset: [pyupeu/social-media-peruvian-sentiment](https://huggingface.co/datasets/pyupeu/social-media-peruvian-sentiment)
Etiquetas:
- `0`: negativo
- `1`: neutral
- `2`: positivo
### Training Procedure
#### Preprocessing
- Textos truncados y/o rellenados a `max_length=128`.
- Tokenización con `AutoTokenizer` de `bert-base-multilingual-uncased-sentiment`.
#### Training Hyperparameters
- **LoRA Config:**
- `r=8`
- `lora_alpha=16`
- `lora_dropout=0.7`
- **TrainingArguments:**
- `batch_size=16`
- `num_train_epochs=20`
- `learning_rate=5e-5`
- `weight_decay=0.01`
- `eval_strategy="epoch"`
- `save_strategy="epoch"`
- `load_best_model_at_end=True`
- `metric_for_best_model="accuracy"`
#### Speeds, Sizes, Times
- Número de épocas: 20
- Mejor resultado en **epoch 15**
- Checkpoint tamaño aproximado: ~420 MB
---
## Evaluation
### Testing Data
Dataset de prueba del mismo `pyupeu/social-media-peruvian-sentiment`.
### Metrics
- **Accuracy**: 0.66
- **Training Loss (epoch 15):** 0.722
- **Validation Loss (epoch 15):** 0.785
### Results
- Mejor rendimiento alcanzado en epoch 15.
- Buen ajuste considerando dataset pequeño y dominio específico.
---
## Environmental Impact
- **Hardware:** NVIDIA GPU (única)
- **Tiempo de entrenamiento:** ~2 horas
- **Cloud Provider:** Local / Dockerizado
- **Carbon Emitted:** No estimado
---
## Technical Specifications
### Model Architecture and Objective
- Modelo base: BERT Multilingüe (`uncased`)
- Objetivo: clasificación en 3 clases
- Técnica usada: Fine-tuning con LoRA
### Compute Infrastructure
- **Hardware:** GPU local
- **Software:**
- Python 3.10+
- Transformers 4.56.1
- PEFT 0.17.1
- Datasets 3.0.2
---
## Citation
**BibTeX**
```bibtex
@misc{aponte2025chdv,
title={SenaSoft CHDV Sentiment Analysis},
author={Aponte, Christopher and Navarro, David},
year={2025},
howpublished={Hugging Face},
url={https://huggingface.co/SenaSoft/chdv-sentiment-analysis}
}
```
**APA**
Aponte, C., & Navarro, D. (2025). *SenaSoft CHDV Sentiment Analysis* [Model]. Hugging Face. https://huggingface.co/SenaSoft/chdv-sentiment-analysis
---
## Model Card Authors
Christopher Aponte y David Navarro
## Model Card Contact
Para consultas: [Christopher Aponte & David Navarro, SenaSoft 2025]
---
### Framework versions
- **PEFT:** 0.17.1
- **Transformers:** 4.56.1
- **Datasets:** 3.0.2
|