FedCal's picture
Upload README.md with huggingface_hub
e8a88e0 verified
|
Raw
History Blame Contribute Delete
1.49 kB
metadata
license: apache-2.0
language:
  - it
library_name: sklearn
pipeline_tag: text-classification
tags:
  - fiscal
  - italian
  - expense-categorization
  - tfidf
  - random-forest
  - on-prem

Expense Categorizer IT v1

Pipeline scikit-learn (TfidfVectorizer + RandomForestClassifier) che classifica descrizioni di spese in italiano nelle categorie fiscali. Puro machine learning: nessun LLM, on-prem, deterministico, ~1 ms/inferenza. Macro-F1 ≥ 0.80 sul set di test.

Input / Output

  • Input: descrizione testuale della spesa (IT) + importo in EUR (usato come bucket di ordine di grandezza, segnale debole).
  • Output: categoria fiscale predetta.

Uso

import joblib
model = joblib.load("expense_categorizer_it_v1.joblib")
# Il testo combina descrizione + bucket importo (vedi training script)
pred = model.predict(["cena di lavoro con cliente"])
print(pred)

Training

TfidfVectorizer su descrizione (+ bucket importo) → RandomForestClassifier. Riproducibile con lo script train_expense_categorizer.py del progetto (CSV con colonne descrizione, importo, categoria).

Source & Attribution

Citation

Federico Calò, "Expense Categorizer IT v1", federicocalo.dev, 2026. https://huggingface.co/FedCal/expense-categorizer-it