Model Card for bertweet-disaster-tweets

Clasificador binario de tweets que determina si un mensaje describe un desastre real (1) o no (0). Es un BERTweet-base afinado para la competición de Kaggle Natural Language Processing with Disaster Tweets, desarrollado como entrega del Examen Final de Procesamiento de Lenguaje Natural.

Model Details

Model Description

  • Developed by: Iván Petrlik Azabache, María Teresita Maydana, Yoandra Gisela Álvarez Pérez y Rafael López Córdova
  • Funded by [optional]: Proyecto académico (Examen Final de PLN), sin financiación externa
  • Shared by [optional]: rafa1599
  • Model type: Transformer codificador (RoBERTa/BERTweet) para clasificación de secuencias, 2 clases
  • Language(s) (NLP): Inglés (en)
  • License: MIT
  • Finetuned from model [optional]: vinai/bertweet-base

Model Sources [optional]

Uses

Direct Use

Clasificar tweets en inglés para distinguir los que reportan un desastre real (incendios, terremotos, inundaciones, accidentes, etc.) de los que usan vocabulario catastrófico en sentido figurado o cotidiano.

Downstream Use [optional]

Componente de filtrado o priorización en sistemas de monitoreo de emergencias y escucha social, o como línea base para afinar sobre dominios afines.

Out-of-Scope Use

No está pensado para idiomas distintos del inglés, ni como única fuente de verdad para decisiones críticas de seguridad o respuesta a emergencias sin supervisión humana.

Bias, Risks, and Limitations

El modelo se entrenó sobre un conjunto acotado de tweets etiquetados y puede heredar sesgos de ese corpus. Las menciones figuradas ("this party is fire") o el sarcasmo pueden inducir errores. La etiqueta de Kaggle contiene ruido conocido en algunos ejemplos.

Recommendations

Usar el umbral de decisión calibrado (0.62) y mantener revisión humana en cualquier flujo de respuesta a emergencias. Evaluar el desempeño sobre datos representativos del dominio real antes de desplegar.

How to Get Started with the Model

import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification

# El BPE de BERTweet no se reserializa bien; se carga el tokenizador original,
# que comparte vocabulario exacto con estos pesos afinados.
tok = AutoTokenizer.from_pretrained("vinai/bertweet-base", use_fast=False)
model = AutoModelForSequenceClassification.from_pretrained(
    "rafa1599/bertweet-disaster-tweets", num_labels=2).eval()

text = "Forest fire near La Ronge Sask. Canada"
enc = tok(text, truncation=True, max_length=96, return_tensors="pt")
with torch.no_grad():
    prob = torch.softmax(model(**enc).logits, dim=1)[0, 1].item()
print("Desastre real" if prob >= 0.62 else "No es desastre", round(prob, 3))

Training Details

Training Data

Dataset de la competición de Kaggle Natural Language Processing with Disaster Tweets (≈7.6k tweets de entrenamiento etiquetados como desastre/no desastre).

Training Procedure

Preprocessing [optional]

Normalización ligera del texto: se eliminan URLs, las menciones se reemplazan por @user, se quitan los símbolos # conservando la palabra del hashtag y se colapsan espacios.

Training Hyperparameters

  • Training regime: fp32 en GPU local (NVIDIA RTX 3060)
  • Modelo base: BERTweet-base · longitud máxima de secuencia: 96 tokens
  • Optimización con pérdida de entropía cruzada para 2 clases
  • Umbral de decisión calibrado por F1 en validación: 0.62

Evaluation

Testing Data, Factors & Metrics

Metrics

Métrica oficial de la competición: F1 sobre la clase positiva (desastre real).

Results

  • F1 en validación: 0.8211 (umbral 0.62)
  • F1 público en Kaggle (BERTweet solo): 0.83113

Summary

BERTweet afinado supera a las líneas base clásicas (TF-IDF + Naive Bayes) gracias al preentrenamiento específico sobre tweets, alcanzando un F1 competitivo en el conjunto público de Kaggle.

Environmental Impact

  • Hardware Type: NVIDIA GeForce RTX 3060 (entrenamiento local)
  • Cloud Provider: No aplica (cómputo local)

Technical Specifications [optional]

Model Architecture and Objective

BERTweet-base (arquitectura RoBERTa, ~135M parámetros) con una cabeza de clasificación de secuencias de 2 clases. Objetivo: clasificación binaria con entropía cruzada.

Compute Infrastructure

Hardware

Estación de trabajo local con GPU NVIDIA RTX 3060.

Software

PyTorch + 🤗 Transformers. Demo servida con Gradio en Hugging Face Spaces.

Citation [optional]

BibTeX:

@misc{bertweet_disaster_tweets_2026,
  title  = {BERTweet afinado para clasificación de tweets de desastres},
  author = {Petrlik Azabache, Iván and Maydana, María Teresita and
            Álvarez Pérez, Yoandra Gisela and López Córdova, Rafael},
  year   = {2026},
  note   = {Examen Final de Procesamiento de Lenguaje Natural},
  howpublished = {Hugging Face Hub: rafa1599/bertweet-disaster-tweets}
}

Modelo base: Nguyen, Vu y Nguyen (2020), BERTweet: A pre-trained language model for English Tweets.

Model Card Authors [optional]

Iván Petrlik Azabache · María Teresita Maydana · Yoandra Gisela Álvarez Pérez · Rafael López Córdova

Model Card Contact

rafa1599 en Hugging Face Hub.

Downloads last month
46
Safetensors
Model size
0.1B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for rafa1599/bertweet-disaster-tweets

Finetuned
(264)
this model

Space using rafa1599/bertweet-disaster-tweets 1