Create README.md

cc2499c verified 1 day ago

4.65 kB

language:
  - pt
license: mit
tags:
  - text-classification
  - sentiment-analysis
  - portuguese
  - bert
  - e-commerce
  - promotional-periods
metrics:
  - accuracy
  - f1
base_model: neuralmind/bert-base-portuguese-cased

PromoSense — Modelo de Análise de Sentimento (v2)

Modelo de classificação de sentimento em avaliações de e-commerce brasileiro, com foco em períodos promocionais (Double Dates, Black Friday).

Desenvolvido como parte do Projeto Integrador do curso de Tecnólogo em Análise e Desenvolvimento de Sistemas — Senac Recife.

Uso

from transformers import pipeline

clf = pipeline(
    "text-classification",
    model="Amand4priscil4/promosense-modelo",
    truncation=True,
    max_length=512
)

# Mapeamento de labels
LABEL_MAP = {
    "LABEL_0": "negativo",
    "LABEL_1": "neutro",
    "LABEL_2": "positivo"
}

texto = "Produto chegou antes do prazo, qualidade ótima, super recomendo!"
resultado = clf(texto)[0]
sentimento = LABEL_MAP[resultado["label"]]
print(f"{sentimento} ({resultado['score']:.2%})")
# positivo (98.45%)

Modelo Base

Arquitetura: BERT
Base: neuralmind/bert-base-portuguese-cased (BERTimbau)
Tarefa: Classificação de sequência (3 classes)

Labels

Label	Sentimento
LABEL_0	negativo
LABEL_1	neutro
LABEL_2	positivo

Dataset de Treinamento

Fonte: Olist (avaliações de e-commerce brasileiro)
Arquivo: olist_rotulado_hibrido.csv
Total de amostras: ~35.246 avaliações processadas
Rotulagem: Híbrida — nota da estrela + léxico de 150 expressões + conectivos de contraste
Distribuição após rotulagem híbrida: neutros expandidos de 3.557 para 5.936 amostras

Hiperparâmetros de Treinamento

Parâmetro	Valor
Épocas	3
Batch size	32
Learning rate	2e-5
GPU	T4 (Google Colab)
Framework	PyABSA + HuggingFace Transformers

Avaliação

Treino (Olist)

Métrica	Valor
Accuracy	87.03%
F1 macro	79.50%

Ground Truth v1 — 110 amostras (Shopee)

Produtos: JBL Boombox 4, E6S TWS Bluetooth

Métrica	Valor
Accuracy	90.00% (99/110)

Ground Truth v2 — 165 amostras (Shopee)

Produtos: PS4 Slim, E6S TWS Bluetooth, JBL Boombox 4, Cozedor de Ovos 3 Andares, Fone de Ouvido E6S TWS
Aspectos avaliados: preço, entrega, qualidade

Métrica	Valor
Accuracy	59.39% (98/165)

Relatório por classe (GT v2)

Classe	Precision	Recall	F1	Support
positivo	0.6268	0.9889	0.7672	90
neutro	1.0000	0.0154	0.0303	65
negativo	0.3636	0.8000	0.5000	10
macro avg	0.6635	0.6014	0.4325	165

Matriz de Confusão (GT v2)

	Pred. positivo	Pred. neutro	Pred. negativo
Real positivo	89	0	1
Real neutro	51	1	13
Real negativo	2	0	8

Ground Truth Combinado (v1 + v2)

Amostras	Accuracy
275	71.64% (197/275)

Limitações Conhecidas

Neutro subclassificado: F1 de neutro = 0.03 no GT v2. O modelo tem forte viés para a classe positivo, classificando a maioria dos neutros como positivo (51 de 65 casos).
Viés positivo: 86% das predições no GT v2 foram classificadas como positivo.
Avaliações mistas: Textos que combinam elogios e críticas (ex: "produto ótimo, mas controle com defeito") tendem a ser classificados como positivo ou negativo, nunca neutro.
PyABSA incompatível com Python 3.12: A análise de sentimento por aspecto (ABSA) foi substituída por abordagem híbrida léxico + BERTimbau como fallback.
Léxico limitado: Rotulagem baseada em 150 expressões — expansão para 200 prevista no v3.

Trabalho Futuro (v3)

Expandir léxico de 150 para 200 expressões
Retreinar com dataset híbrido atualizado
Melhorar F1 de neutro (meta: > 0.40)
Melhorar detecção de aspecto "entrega" (precision baixa no léxico ABSA)

Equipe

Membro	Papel
Amanda	QA, anotação, modelagem, testes
Lucas	Backend (FastAPI) e Frontend (dashboard)
Kellvyn	Léxico (em desenvolvimento)
Ana Beatriz	Documentação

Citação

@misc{promosense2026,
  title={PromoSense: Análise de Sentimento em Avaliações de E-commerce Brasileiro em Períodos Promocionais},
  author={Amanda and Lucas and Kellvyn and Ana Beatriz},
  year={2026},
  institution={Senac Pernambuco — Tecnólogo em Análise e Desenvolvimento de Sistemas}
}