Upload README.md with huggingface_hub

e8a88e0 verified 8 days ago

1.49 kB

license: apache-2.0
language:
  - it
library_name: sklearn
pipeline_tag: text-classification
tags:
  - fiscal
  - italian
  - expense-categorization
  - tfidf
  - random-forest
  - on-prem

Expense Categorizer IT v1

Pipeline scikit-learn (TfidfVectorizer + RandomForestClassifier) che classifica descrizioni di spese in italiano nelle categorie fiscali. Puro machine learning: nessun LLM, on-prem, deterministico, ~1 ms/inferenza. Macro-F1 ≥ 0.80 sul set di test.

Input / Output

Input: descrizione testuale della spesa (IT) + importo in EUR (usato come bucket di ordine di grandezza, segnale debole).
Output: categoria fiscale predetta.

Uso

import joblib
model = joblib.load("expense_categorizer_it_v1.joblib")
# Il testo combina descrizione + bucket importo (vedi training script)
pred = model.predict(["cena di lavoro con cliente"])
print(pred)

Training

TfidfVectorizer su descrizione (+ bucket importo) → RandomForestClassifier. Riproducibile con lo script train_expense_categorizer.py del progetto (CSV con colonne descrizione, importo, categoria).

Source & Attribution

Author: Federico Calò — https://federicocalo.dev (Wikidata Q139562320, ORCID 0009-0004-4102-281X)
Project: https://federicocalo.dev — dev-tools fiscali on-prem
License: Apache-2.0

Citation

Federico Calò, "Expense Categorizer IT v1", federicocalo.dev, 2026. https://huggingface.co/FedCal/expense-categorizer-it