You need to agree to share your contact information to access this model

This repository is publicly accessible, but you have to accept the conditions to access its files and content.

🕵️‍♂️ Clickbait Detector (Spanish) - TFM Academic Evaluation Model

⚠️ ACCESO RESTRINGIDO / RESTRICTED ACCESS Este modelo está disponible exclusivamente para propósitos de evaluación académica.

📄 Descripción del Proyecto

Este modelo es un clasificador de texto diseñado para la detección de titulares clickbait en español. Ha sido desarrollado como parte del Trabajo de Fin de Máster (TFM) de Jesús Antonio Martínez, Pablo Navarro, Julen Neila, Erik Sarriegui, Pedro Pablo Vicente y Eduardo Corral para el Máster en Ciencia de Datos en la Universidad Complutense de Madrid.

Este proyecto se centra en la lucha contra la desinformación y el sensacionalismo en medios digitales en español. El modelo es un clasificador especializado en detectar titulares engañosos o clickbait, facilitando la identificación de contenidos que buscan manipular la atención del usuario.

🤖 Detalles Técnicos

Modelo Base: mmBERT-base (Multilingual ModernBERT).
Tarea: Clasificación binaria: clickbait y no_clickbait
Fuente de Datos: eriksarriegui/news-sensacionalism
Idioma: Español.

📊 Rendimiento y Evaluación

El rendimiento del modelo ha sido validado utilizando las siguientes métricas para asegurar su fiabilidad en la detección de sesgos informativos:

Métrica	Resultado
Accuracy	97%
F1-Score	89%

Utilizando el punto de corte que se ha subido de 0.6758.

⚖️ Cumplimiento del Acuerdo de Servicios de OpenAI

Este modelo se ha desarrollado siguiendo estrictamente el OpenAI Services Agreement. Se han tenido en cuenta los siguientes puntos legales:

Excepción Permitida: El contrato de OpenAI permite el uso de sus respuestas (Outputs) para desarrollar modelos de IA destinados a categorizar, clasificar u organizar datos (como este detector de desinformación).
Restricción de Distribución:: Para cumplir con los términos de dicha excepción, este modelo no se distribuye públicamente ni se pone a disposición comercial de terceros. El acceso está limitado exclusivamente al tribunal académico y tutores del TFM.
Propiedad:: Según el acuerdo, el cliente (autor del TFM) es el propietario de los resultados generados por el servicio de OpenAI utilizados para este entrenamiento.
Responsabilidad:: El autor es el único responsable de evaluar la precisión y la idoneidad del contenido generado para este caso de uso de investigación.

Para más información, puede leer la licencia.

🔄 Alternativa de Código Abierto (100% OSS)

En cumplimiento con las políticas de no competencia y distribución de OpenAI, hemos creado un repositorio independiente con un modelo entrenado únicamente con datos etiquetados por un LLM de Código Abierto. Pese a que los datos con los que ha sido entrenados son de menor calidad, el rendimiento del modelo sigue siendo bueno.

👉 JJNeila/bert-spanish-clickbait-oss