ITA-Mini-60M / README.md

Update README.md

473314c verified 7 days ago

3.72 kB

	---
	license: mit
	datasets:
	- Mattimax/TinyChat-ITA
	language:
	- it
	library_name: transformers.js
	tags:
	- DAC
	- M.INC.
	- conversational
	---

	# 🇮🇹 MINC01/ITA-Mini-60M

	MINC01/ITA-Mini-60M è un modello linguistico causale da circa 60 milioni di parametri, ottimizzato per la conversazione in lingua italiana.
	Il modello è stato addestrato su un dataset proprietario di dialoghi istruzione-risposta, con l’obiettivo di offrire buone capacità conversazionali in un formato leggero e facilmente distribuibile.

	---

	## 📌 Panoramica

	- Modello: Decoder-only (stile LLaMA)
	- Parametri: ~60M
	- Lingua principale: Italiano
	- Task principale: Chat / Istruzioni / Generazione testo
	- Contesto massimo: 512 token
	- Addestramento: Supervised Fine-Tuning (SFT)

	---

	## 🎯 Use Cases Previsti

	- Chatbot in lingua italiana
	- Assistenti locali / embedded
	- Prototipi di agenti conversazionali
	- Dataset labeling / data augmentation
	- Esperimenti di ricerca su modelli piccoli

	Non è progettato per:

	- Ragionamento complesso multi-step
	- Applicazioni mission-critical
	- Produzione di contenuti ad alta affidabilità

	---

	## 🧠 Architettura

	- Transformer decoder-only
	- Causal Language Model
	- Embedding e blocchi compatibili con ecosistema LLaMA
	- Addestramento con masking delle parti prompt (solo risposta contribuisce alla loss)

	---

	## 📚 Dataset

	- Proprietario
	- ~30.000 esempi
	- Struttura: coppie input → response
	- Dominio: conversazionale generale
	- Lingua: italiano

	### Pulizia applicata

	- Rimozione esempi vuoti
	- Parsing JSON validato
	- Scarto sequenze sopra la lunghezza massima

	---

	## 🏗️ Template Conversazionale

	```

	<\|user\|>
	{testo_utente}
	<\|assistant\|>
	{risposta_modello}</s>

	````

	Il modello è sensibile a questo formato.

	---

	## ⚙️ Procedura di Training (Sintesi)

	- Fine-tuning supervisionato
	- Mixed Precision (AMP)
	- Gradient Accumulation
	- Gradient Checkpointing
	- AdamW optimizer
	- Cosine learning rate schedule con warmup

	### Parametri principali

	\| Parametro \| Valore \|
	\|----------\|-------\|
	\| Batch size \| 8 \|
	\| Gradient accumulation \| 4 \|
	\| Learning rate \| 2e-5 \|
	\| Epochs \| 2 \|
	\| Weight decay \| 0.05 \|
	\| Warmup ratio \| 0.1 \|
	\| Max grad norm \| 1.0 \|
	\| Validation split \| 5% \|

	---

	## 📈 Valutazione

	- Metica: Cross-Entropy Loss su validation set
	- Non sono stati eseguiti benchmark standard (es. MMLU, HELM, etc.)

	Il modello è stato validato esclusivamente tramite loss e test qualitativi manuali.

	---

	## 🧪 Limitazioni Note

	- Possibili allucinazioni
	- Conoscenza limitata
	- Sensibile al prompt
	- Ragionamento debole
	- Possibili bias presenti nel dataset proprietario

	---

	## ⚠️ Considerazioni Etiche

	Il modello:

	- Può generare informazioni errate
	- Non deve essere usato come fonte autorevole
	- Non ha filtri di sicurezza avanzati

	Responsabilità d’uso interamente a carico dell’utente.

	---

	## 🚀 Come Usare

	```python
	from transformers import AutoTokenizer, AutoModelForCausalLM

	tok = AutoTokenizer.from_pretrained("MINC01/ITA-Mini-60M")
	model = AutoModelForCausalLM.from_pretrained("MINC01/ITA-Mini-60M")

	prompt = "<\|user\|>\nScrivi una poesia sul mare.\n<\|assistant\|>\n"
	inputs = tok(prompt, return_tensors="pt")

	out = model.generate(**inputs, max_new_tokens=200)
	print(tok.decode(out[0], skip_special_tokens=True))
	````

	---

	## 🔁 Prompting Tips

	* Usare sempre il template
	* Istruzioni brevi e chiare
	* Una richiesta per volta
	* Evitare contesti troppo lunghi

	---

	## 👤 Autore

	MINC01

	---

	## 📌 Citazione

	```
	@misc{minc01_ita_mini_60m,
	title = {MINC01/ITA-Mini-60M},
	author = {MINC01},
	year = {2026},
	publisher = {HuggingFace}
	}
	```