Instructions to use rafa1599/bertweet-disaster-tweets with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- Transformers
How to use rafa1599/bertweet-disaster-tweets with Transformers:
# Use a pipeline as a high-level helper from transformers import pipeline pipe = pipeline("text-classification", model="rafa1599/bertweet-disaster-tweets")# Load model directly from transformers import AutoTokenizer, AutoModelForSequenceClassification tokenizer = AutoTokenizer.from_pretrained("rafa1599/bertweet-disaster-tweets") model = AutoModelForSequenceClassification.from_pretrained("rafa1599/bertweet-disaster-tweets") - Notebooks
- Google Colab
- Kaggle
Model Card for bertweet-disaster-tweets
Clasificador binario de tweets que determina si un mensaje describe un desastre
real (1) o no (0). Es un BERTweet-base afinado para la competición de Kaggle
Natural Language Processing with Disaster Tweets, desarrollado como entrega del
Examen Final de Procesamiento de Lenguaje Natural.
Model Details
Model Description
- Developed by: Iván Petrlik Azabache, María Teresita Maydana, Yoandra Gisela Álvarez Pérez y Rafael López Córdova
- Funded by [optional]: Proyecto académico (Examen Final de PLN), sin financiación externa
- Shared by [optional]: rafa1599
- Model type: Transformer codificador (RoBERTa/BERTweet) para clasificación de secuencias, 2 clases
- Language(s) (NLP): Inglés (en)
- License: MIT
- Finetuned from model [optional]: vinai/bertweet-base
Model Sources [optional]
- Repository: https://huggingface.co/rafa1599/bertweet-disaster-tweets
- Demo [optional]: https://huggingface.co/spaces/rafa1599/disaster-tweets
Uses
Direct Use
Clasificar tweets en inglés para distinguir los que reportan un desastre real (incendios, terremotos, inundaciones, accidentes, etc.) de los que usan vocabulario catastrófico en sentido figurado o cotidiano.
Downstream Use [optional]
Componente de filtrado o priorización en sistemas de monitoreo de emergencias y escucha social, o como línea base para afinar sobre dominios afines.
Out-of-Scope Use
No está pensado para idiomas distintos del inglés, ni como única fuente de verdad para decisiones críticas de seguridad o respuesta a emergencias sin supervisión humana.
Bias, Risks, and Limitations
El modelo se entrenó sobre un conjunto acotado de tweets etiquetados y puede heredar sesgos de ese corpus. Las menciones figuradas ("this party is fire") o el sarcasmo pueden inducir errores. La etiqueta de Kaggle contiene ruido conocido en algunos ejemplos.
Recommendations
Usar el umbral de decisión calibrado (0.62) y mantener revisión humana en cualquier flujo de respuesta a emergencias. Evaluar el desempeño sobre datos representativos del dominio real antes de desplegar.
How to Get Started with the Model
import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification
# El BPE de BERTweet no se reserializa bien; se carga el tokenizador original,
# que comparte vocabulario exacto con estos pesos afinados.
tok = AutoTokenizer.from_pretrained("vinai/bertweet-base", use_fast=False)
model = AutoModelForSequenceClassification.from_pretrained(
"rafa1599/bertweet-disaster-tweets", num_labels=2).eval()
text = "Forest fire near La Ronge Sask. Canada"
enc = tok(text, truncation=True, max_length=96, return_tensors="pt")
with torch.no_grad():
prob = torch.softmax(model(**enc).logits, dim=1)[0, 1].item()
print("Desastre real" if prob >= 0.62 else "No es desastre", round(prob, 3))
Training Details
Training Data
Dataset de la competición de Kaggle Natural Language Processing with Disaster Tweets (≈7.6k tweets de entrenamiento etiquetados como desastre/no desastre).
Training Procedure
Preprocessing [optional]
Normalización ligera del texto: se eliminan URLs, las menciones se reemplazan por
@user, se quitan los símbolos # conservando la palabra del hashtag y se colapsan
espacios.
Training Hyperparameters
- Training regime: fp32 en GPU local (NVIDIA RTX 3060)
- Modelo base: BERTweet-base · longitud máxima de secuencia: 96 tokens
- Optimización con pérdida de entropía cruzada para 2 clases
- Umbral de decisión calibrado por F1 en validación: 0.62
Evaluation
Testing Data, Factors & Metrics
Metrics
Métrica oficial de la competición: F1 sobre la clase positiva (desastre real).
Results
- F1 en validación: 0.8211 (umbral 0.62)
- F1 público en Kaggle (BERTweet solo): 0.83113
Summary
BERTweet afinado supera a las líneas base clásicas (TF-IDF + Naive Bayes) gracias al preentrenamiento específico sobre tweets, alcanzando un F1 competitivo en el conjunto público de Kaggle.
Environmental Impact
- Hardware Type: NVIDIA GeForce RTX 3060 (entrenamiento local)
- Cloud Provider: No aplica (cómputo local)
Technical Specifications [optional]
Model Architecture and Objective
BERTweet-base (arquitectura RoBERTa, ~135M parámetros) con una cabeza de clasificación de secuencias de 2 clases. Objetivo: clasificación binaria con entropía cruzada.
Compute Infrastructure
Hardware
Estación de trabajo local con GPU NVIDIA RTX 3060.
Software
PyTorch + 🤗 Transformers. Demo servida con Gradio en Hugging Face Spaces.
Citation [optional]
BibTeX:
@misc{bertweet_disaster_tweets_2026,
title = {BERTweet afinado para clasificación de tweets de desastres},
author = {Petrlik Azabache, Iván and Maydana, María Teresita and
Álvarez Pérez, Yoandra Gisela and López Córdova, Rafael},
year = {2026},
note = {Examen Final de Procesamiento de Lenguaje Natural},
howpublished = {Hugging Face Hub: rafa1599/bertweet-disaster-tweets}
}
Modelo base: Nguyen, Vu y Nguyen (2020), BERTweet: A pre-trained language model for English Tweets.
Model Card Authors [optional]
Iván Petrlik Azabache · María Teresita Maydana · Yoandra Gisela Álvarez Pérez · Rafael López Córdova
Model Card Contact
rafa1599 en Hugging Face Hub.
- Downloads last month
- 46
Model tree for rafa1599/bertweet-disaster-tweets
Base model
vinai/bertweet-base