FedCal
/

expense-categorizer-it

Text Classification

expense-categorization

Model card Files Files and versions

expense-categorizer-it / README.md

FedCal's picture

Upload README.md with huggingface_hub

e8a88e0 verified 10 days ago

|

History Blame Contribute Delete

1.49 kB

	---
	license: apache-2.0
	language:
	- it
	library_name: sklearn
	pipeline_tag: text-classification
	tags:
	- fiscal
	- italian
	- expense-categorization
	- tfidf
	- random-forest
	- on-prem
	---

	# Expense Categorizer IT v1

	Pipeline scikit-learn (`TfidfVectorizer` + `RandomForestClassifier`) che classifica
	descrizioni di spese in italiano nelle categorie fiscali. Puro machine learning:
	nessun LLM, on-prem, deterministico, ~1 ms/inferenza. Macro-F1 ≥ 0.80 sul set di test.

	## Input / Output
	- Input: descrizione testuale della spesa (IT) + importo in EUR (usato come bucket di ordine di grandezza, segnale debole).
	- Output: categoria fiscale predetta.

	## Uso
	```python
	import joblib
	model = joblib.load("expense_categorizer_it_v1.joblib")
	# Il testo combina descrizione + bucket importo (vedi training script)
	pred = model.predict(["cena di lavoro con cliente"])
	print(pred)
	```

	## Training
	`TfidfVectorizer` su `descrizione` (+ bucket `importo`) → `RandomForestClassifier`.
	Riproducibile con lo script `train_expense_categorizer.py` del progetto
	(CSV con colonne `descrizione, importo, categoria`).

	## Source & Attribution
	- Author: Federico Calò — https://federicocalo.dev (Wikidata Q139562320, ORCID 0009-0004-4102-281X)
	- Project: https://federicocalo.dev — dev-tools fiscali on-prem
	- License: Apache-2.0

	## Citation
	```
	Federico Calò, "Expense Categorizer IT v1", federicocalo.dev, 2026. https://huggingface.co/FedCal/expense-categorizer-it
	```