t5-neutralization
This model is a fine-tuned version of t5-small on an unknown dataset. It achieves the following results on the evaluation set:
- Loss: 0.0553
- Bleu: 91.0588
- Gen Len: 30.9792
Model description
t5-neutralization es una versión fine-tuned de t5-small, un modelo de texto a texto (text-to-text) de Google basado en la arquitectura Transformer. T5 (Text-To-Text Transfer Transformer) fue preentrenado sobre un corpus masivo en inglés (C4) y está diseñado para abordar múltiples tareas de NLP bajo un mismo marco de entrada-salida de texto. Este modelo ha sido adaptado para la tarea de neutralización de texto, que consiste en transformar oraciones con carga subjetiva, emocional, sesgada o polarizada en versiones más objetivas y neutras, manteniendo el significado semántico original. A diferencia de su contraparte mbart-neutralization, este modelo está orientado principalmente a texto en inglés, dado que t5-small fue preentrenado casi exclusivamente sobre ese idioma.
Intended uses & limitations
Usos previstos:
- Neutralización de texto subjetivo o con sesgo en inglés
- Detección y reducción de sesgo lingüístico en pipelines de NLP
- Normalización del tono en contenido generado por usuarios
- Investigación académica sobre imparcialidad y objetividad en lenguaje natural
- Preprocesamiento de texto para sistemas de recuperación de información o resumen neutral
Limitaciones:
- El modelo base t5-small es relativamente compacto (~60M parámetros), lo que puede limitar su capacidad para manejar oraciones complejas o de alta longitud en comparación con modelos más grandes de la familia T5
- El dataset de entrenamiento no está documentado públicamente, lo que dificulta la reproducibilidad y la evaluación de posibles sesgos en los datos
- El modelo está optimizado principalmente para inglés y no debe usarse para neutralización en otros idiomas sin fine-tuning adicional
- La longitud media de generación (31 tokens) es considerablemente mayor que la del modelo mbart-neutralization (18 tokens), lo que puede indicar que el modelo tiende a generar paráfrasis más extensas
- Un BLEU de ~93.34 es alto pero inferior al del modelo mbart equivalente, lo cual es esperable dado el menor tamaño del modelo base
Training and evaluation data
El modelo fue entrenado sobre un dataset de pares de oraciones compuesto por texto original (con sesgo, subjetividad o carga emocional) y su versión neutralizada en inglés. Los detalles exactos del dataset, incluyendo su fuente, tamaño y metodología de anotación, no están disponibles públicamente. El conjunto fue dividido en particiones de entrenamiento y evaluación, con las métricas reportadas sobre el conjunto de validación.
Training procedure
El modelo fue fine-tuned utilizando la librería Transformers con un enfoque supervisado de secuencia a secuencia. Se empleó mixed precision training (AMP nativo) para acelerar el entrenamiento y reducir el uso de memoria, lo que lo hace más eficiente en GPUs modernas. El prefijo de tarea utilizado con T5 sigue la convención de instrucción en texto plano típica del framework T5.
Training hyperparameters
The following hyperparameters were used during training:
- learning_rate: 0.0005
- train_batch_size: 16
- eval_batch_size: 16
- seed: 42
- optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
- lr_scheduler_type: linear
- num_epochs: 3
- mixed_precision_training: Native AMP
Training results
| Training Loss | Epoch | Step | Validation Loss | Bleu | Gen Len |
|---|---|---|---|---|---|
| No log | 1.0 | 220 | 0.0712 | 87.7726 | 30.6875 |
| No log | 2.0 | 440 | 0.0627 | 87.9543 | 30.6354 |
| 0.0994 | 3.0 | 660 | 0.0553 | 91.0588 | 30.9792 |
Framework versions
- Transformers 4.51.2
- Pytorch 2.10.0+cu128
- Datasets 4.0.0
- Tokenizers 0.21.4
- Downloads last month
- 67
Model tree for marneyra/t5-neutralization
Base model
google-t5/t5-small