|
|
--- |
|
|
license: mit |
|
|
language: |
|
|
- pt |
|
|
tags: |
|
|
- finance |
|
|
- transaction-categorization |
|
|
- embeddings |
|
|
size_categories: |
|
|
- 1K<n<10K |
|
|
--- |
|
|
|
|
|
# Transaction Recategorization Dataset |
|
|
|
|
|
Dataset de embeddings para recategorização de transações financeiras em português brasileiro. |
|
|
|
|
|
## Descrição |
|
|
|
|
|
Este dataset contém 1174 exemplos de transações financeiras com suas respectivas categorias e embeddings pré-calculados usando o modelo `text-embedding-3-small` da OpenAI (1536 dimensões). |
|
|
|
|
|
## Uso |
|
|
|
|
|
```typescript |
|
|
import { HfInference } from '@huggingface/inference'; |
|
|
|
|
|
// Carregar dataset |
|
|
const response = await fetch('https://huggingface.co/datasets/leticiamantovani/recategorization/resolve/main/embeddings.json'); |
|
|
const embeddings = await response.json(); |
|
|
``` |
|
|
|
|
|
## Estrutura |
|
|
|
|
|
Cada exemplo contém: |
|
|
- `description`: Descrição da transação |
|
|
- `category`: Categoria correta |
|
|
- `embedding`: Vetor de 1536 dimensões |
|
|
|
|
|
## Categorias |
|
|
|
|
|
O dataset inclui categorias do Pluggy: |
|
|
- Streaming de vídeo/música |
|
|
- Táxi e transporte privado urbano |
|
|
- Delivery de alimentos |
|
|
- Restaurantes, bares e lanchonetes |
|
|
- Postos de gasolina |
|
|
- Supermercado |
|
|
- E muitas outras... |
|
|
|
|
|
## Estatísticas |
|
|
|
|
|
- Total de exemplos: 1174 |
|
|
- Dimensões do embedding: 1536 |
|
|
- Modelo: text-embedding-3-small (OpenAI) |
|
|
- Idioma: Português (Brasil) |
|
|
|
|
|
## Licença |
|
|
|
|
|
MIT License |
|
|
|
|
|
## Manutenção |
|
|
|
|
|
Dataset mantido pela equipe Pierre. |
|
|
|