tcepi/bidCorpus
Viewer • Updated • 833k • 1.3k
How to use tcepi/helbert-lsg with Transformers:
# Use a pipeline as a high-level helper
from transformers import pipeline
pipe = pipeline("fill-mask", model="tcepi/helbert-lsg", trust_remote_code=True) # Load model directly
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("tcepi/helbert-lsg", trust_remote_code=True)
model = AutoModel.from_pretrained("tcepi/helbert-lsg", trust_remote_code=True)O HelBERT é um modelo de linguagem baseado na arquitetura BERT, pré-treinado com mais de 1,4 bilhão de tokens extraídos de editais de licitação, contratos públicos e legislações brasileiras, com foco exclusivo no domínio jurídico de contratações públicas.
Foi desenvolvido para superar modelos genéricos e jurídicos existentes em tarefas específicas do setor público, como classificação de objetos de contratação e identificação de indícios de fraude em editais.
| Tarefa | F1-Weighted | Accuracy |
|---|---|---|
| Classificação de objetos de contratação | 95.87% | 95.87% |
| Classificação de indícios de fraude | 91.65% | 86.08% |
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("tcepi/helbert-lsg")
model = AutoModelForMaskedLM.from_pretrained("tcepi/helbert-lsg")
input_text = "A proposta será avaliada com base no critério do [MASK]."
inputs = tokenizer(input_text, return_tensors="pt")
outputs = model(**inputs)
Estimativas aproximadas baseadas na ferramenta Machine Learning CO2 Impact:
Se este modelo for útil para você, por favor, cite da seguinte forma:
@article{Lima_da Silva_da Silva_Rabêlo_de Paiva_2026,
title={HelBERT: A BERT-Based Pretraining Model for Public Procurement Tasks in Portuguese},
volume={32},
url={https://journals-sol.sbc.org.br/index.php/jbcs/article/view/5511},
DOI={10.5753/jbcs.2026.5511},
number={1},
journal={Journal of the Brazilian Computer Society},
author={Lima, Weslley Emmanuel Martins and da Silva, Victor Ribeiro and da Silva, Jasson Carvalho and Rabêlo, Ricardo de Andrade Lira and de Paiva, Anselmo Cardoso},
year={2026},
month={Feb.},
pages={145–158}
}
Base model
google-bert/bert-base-uncased