File size: 5,480 Bytes
03ffcd3
239a9c0
 
 
 
 
 
 
 
 
 
 
 
 
 
03ffcd3
 
239a9c0
03ffcd3
239a9c0
 
03ffcd3
239a9c0
03ffcd3
 
 
 
239a9c0
 
 
 
 
 
 
 
 
 
 
03ffcd3
239a9c0
03ffcd3
 
 
 
239a9c0
03ffcd3
239a9c0
 
 
03ffcd3
b651ef6
 
 
 
03ffcd3
a16efc9
 
03ffcd3
a16efc9
 
03ffcd3
a16efc9
 
239a9c0
03ffcd3
239a9c0
 
 
 
 
03ffcd3
239a9c0
b4ab27e
239a9c0
 
03ffcd3
239a9c0
03ffcd3
 
239a9c0
 
 
03ffcd3
 
239a9c0
 
03ffcd3
239a9c0
03ffcd3
 
 
 
239a9c0
 
 
 
 
03ffcd3
 
 
239a9c0
 
 
03ffcd3
 
239a9c0
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
03ffcd3
239a9c0
03ffcd3
 
 
239a9c0
 
03ffcd3
239a9c0
 
 
 
03ffcd3
 
239a9c0
 
03ffcd3
239a9c0
03ffcd3
 
239a9c0
 
 
 
03ffcd3
239a9c0
03ffcd3
239a9c0
03ffcd3
 
239a9c0
 
 
03ffcd3
 
239a9c0
 
 
 
 
 
03ffcd3
239a9c0
03ffcd3
239a9c0
03ffcd3
239a9c0
 
 
 
 
 
 
 
 
 
03ffcd3
239a9c0
 
03ffcd3
239a9c0
03ffcd3
239a9c0
 
03ffcd3
 
239a9c0
 
 
03ffcd3
239a9c0
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
---
base_model: nlptown/bert-base-multilingual-uncased-sentiment
library_name: peft
tags:
- base_model:adapter:nlptown/bert-base-multilingual-uncased-sentiment
- lora
- transformers
- sentiment-analysis
- spanish
- social-media
- text-classification
datasets:
- pyupeu/social-media-peruvian-sentiment
metrics:
- accuracy
---

# SenaSoft/chdv-sentiment-analysis

Este modelo es una adaptación de `nlptown/bert-base-multilingual-uncased-sentiment` entrenado con **LoRA** para la tarea de **análisis de sentimiento** en textos en español.  
Fue ajustado específicamente en un dataset de publicaciones en redes sociales peruanas con 3 etiquetas: **negativo, neutral y positivo**.

---

## Model Details

### Model Description
- **Autores:** Christopher Aponte y David Navarro  
- **Modelo base:** [nlptown/bert-base-multilingual-uncased-sentiment](https://huggingface.co/nlptown/bert-base-multilingual-uncased-sentiment)  
- **Tipo de modelo:** Clasificación de secuencias (sentiment analysis)  
- **Idiomas:** Multilingual  
- **Tarea:** Análisis de sentimiento en textos cortos (ej. redes sociales)  
- **License:** Apache 2.0  
- **Finetuned from:** `nlptown/bert-base-multilingual-uncased-sentiment`

### Model Sources
- **Repository:** [Hugging Face Hub](https://huggingface.co/SenaSoft/chdv-sentiment-analysis)  
- **Dataset:** [pyupeu/social-media-peruvian-sentiment](https://huggingface.co/datasets/pyupeu/social-media-peruvian-sentiment)

---

## Uses

### Direct Use
Este modelo puede usarse directamente para clasificar textos en español en **positivo, negativo o neutral**.

Ejemplos de uso:
```python
from transformers import pipeline

clasificador = pipeline(
    "sentiment-analysis",
    model="SenaSoft/chdv-sentiment-analysis"
)

print(clasificador("Me encanta la sopa"))  
# [{'label': 'positivo', 'score': 0.85}]

print(clasificador("No me gusta nada la sopa"))  
# [{'label': 'negativo', 'score': 0.89}]

print(clasificador("La sopa está bien, pero prefiero otra cosa"))  
# [{'label': 'neutral', 'score': 0.39}]
```

### Downstream Use
Puede integrarse en:
- Plataformas de monitoreo de redes sociales.  
- Sistemas de atención al cliente.  
- Análisis de feedback de usuarios.  

### Out-of-Scope Use
- No está entrenado para otros idiomas distintos al español, pero el modelo base sí.  
- No es un detector de sarcasmo ni de sentimientos complejos como miedo o sorpresa.  
- No debe usarse en contextos médicos, legales o financieros sin verificación adicional.  

---

## Bias, Risks, and Limitations
- Entrenado con un dataset específico (Perú, redes sociales). Puede no generalizar igual en otros países o contextos.  
- Riesgo de sesgo cultural y lingüístico.  
- Puede fallar en casos de ironía, sarcasmo o ambigüedad semántica.  

### Recommendations
- Se recomienda evaluar antes de usar en producción fuera de su dominio.  
- Puede complementarse con técnicas de **ensembles** o datasets más diversos.  

---

## Training Details

### Training Data
Dataset: [pyupeu/social-media-peruvian-sentiment](https://huggingface.co/datasets/pyupeu/social-media-peruvian-sentiment)  
Etiquetas:  
- `0`: negativo  
- `1`: neutral  
- `2`: positivo  

### Training Procedure

#### Preprocessing
- Textos truncados y/o rellenados a `max_length=128`.  
- Tokenización con `AutoTokenizer` de `bert-base-multilingual-uncased-sentiment`.  

#### Training Hyperparameters
- **LoRA Config:**  
  - `r=8`  
  - `lora_alpha=16`  
  - `lora_dropout=0.7`  
- **TrainingArguments:**  
  - `batch_size=16`  
  - `num_train_epochs=20`  
  - `learning_rate=5e-5`  
  - `weight_decay=0.01`  
  - `eval_strategy="epoch"`  
  - `save_strategy="epoch"`  
  - `load_best_model_at_end=True`  
  - `metric_for_best_model="accuracy"`  

#### Speeds, Sizes, Times
- Número de épocas: 20  
- Mejor resultado en **epoch 15**  
- Checkpoint tamaño aproximado: ~420 MB  

---

## Evaluation

### Testing Data
Dataset de prueba del mismo `pyupeu/social-media-peruvian-sentiment`.

### Metrics
- **Accuracy**: 0.66  
- **Training Loss (epoch 15):** 0.722  
- **Validation Loss (epoch 15):** 0.785  

### Results
- Mejor rendimiento alcanzado en epoch 15.  
- Buen ajuste considerando dataset pequeño y dominio específico.  

---

## Environmental Impact
- **Hardware:** NVIDIA GPU (única)  
- **Tiempo de entrenamiento:** ~2 horas  
- **Cloud Provider:** Local / Dockerizado  
- **Carbon Emitted:** No estimado  

---

## Technical Specifications

### Model Architecture and Objective
- Modelo base: BERT Multilingüe (`uncased`)  
- Objetivo: clasificación en 3 clases  
- Técnica usada: Fine-tuning con LoRA  

### Compute Infrastructure
- **Hardware:** GPU local  
- **Software:**  
  - Python 3.10+  
  - Transformers 4.56.1  
  - PEFT 0.17.1  
  - Datasets 3.0.2  

---

## Citation

**BibTeX**
```bibtex
@misc{aponte2025chdv,
  title={SenaSoft CHDV Sentiment Analysis},
  author={Aponte, Christopher and Navarro, David},
  year={2025},
  howpublished={Hugging Face},
  url={https://huggingface.co/SenaSoft/chdv-sentiment-analysis}
}
```

**APA**
Aponte, C., & Navarro, D. (2025). *SenaSoft CHDV Sentiment Analysis* [Model]. Hugging Face. https://huggingface.co/SenaSoft/chdv-sentiment-analysis

---

## Model Card Authors
Christopher Aponte y David Navarro

## Model Card Contact
Para consultas: [Christopher Aponte & David Navarro, SenaSoft 2025]  

---

### Framework versions
- **PEFT:** 0.17.1  
- **Transformers:** 4.56.1  
- **Datasets:** 3.0.2