ITA-Mini-60M / README.md
Mattimax's picture
Update README.md
473314c verified
metadata
license: mit
datasets:
  - Mattimax/TinyChat-ITA
language:
  - it
library_name: transformers.js
tags:
  - DAC
  - M.INC.
  - conversational

🇮🇹 MINC01/ITA-Mini-60M

MINC01/ITA-Mini-60M è un modello linguistico causale da circa 60 milioni di parametri, ottimizzato per la conversazione in lingua italiana.
Il modello è stato addestrato su un dataset proprietario di dialoghi istruzione-risposta, con l’obiettivo di offrire buone capacità conversazionali in un formato leggero e facilmente distribuibile.


📌 Panoramica

  • Modello: Decoder-only (stile LLaMA)
  • Parametri: ~60M
  • Lingua principale: Italiano
  • Task principale: Chat / Istruzioni / Generazione testo
  • Contesto massimo: 512 token
  • Addestramento: Supervised Fine-Tuning (SFT)

🎯 Use Cases Previsti

  • Chatbot in lingua italiana
  • Assistenti locali / embedded
  • Prototipi di agenti conversazionali
  • Dataset labeling / data augmentation
  • Esperimenti di ricerca su modelli piccoli

Non è progettato per:

  • Ragionamento complesso multi-step
  • Applicazioni mission-critical
  • Produzione di contenuti ad alta affidabilità

🧠 Architettura

  • Transformer decoder-only
  • Causal Language Model
  • Embedding e blocchi compatibili con ecosistema LLaMA
  • Addestramento con masking delle parti prompt (solo risposta contribuisce alla loss)

📚 Dataset

  • Proprietario
  • ~30.000 esempi
  • Struttura: coppie input → response
  • Dominio: conversazionale generale
  • Lingua: italiano

Pulizia applicata

  • Rimozione esempi vuoti
  • Parsing JSON validato
  • Scarto sequenze sopra la lunghezza massima

🏗️ Template Conversazionale


<|user|>
{testo_utente}
<|assistant|>
{risposta_modello}</s>

Il modello è sensibile a questo formato.


⚙️ Procedura di Training (Sintesi)

  • Fine-tuning supervisionato
  • Mixed Precision (AMP)
  • Gradient Accumulation
  • Gradient Checkpointing
  • AdamW optimizer
  • Cosine learning rate schedule con warmup

Parametri principali

Parametro Valore
Batch size 8
Gradient accumulation 4
Learning rate 2e-5
Epochs 2
Weight decay 0.05
Warmup ratio 0.1
Max grad norm 1.0
Validation split 5%

📈 Valutazione

  • Metica: Cross-Entropy Loss su validation set
  • Non sono stati eseguiti benchmark standard (es. MMLU, HELM, etc.)

Il modello è stato validato esclusivamente tramite loss e test qualitativi manuali.


🧪 Limitazioni Note

  • Possibili allucinazioni
  • Conoscenza limitata
  • Sensibile al prompt
  • Ragionamento debole
  • Possibili bias presenti nel dataset proprietario

⚠️ Considerazioni Etiche

Il modello:

  • Può generare informazioni errate
  • Non deve essere usato come fonte autorevole
  • Non ha filtri di sicurezza avanzati

Responsabilità d’uso interamente a carico dell’utente.


🚀 Come Usare

from transformers import AutoTokenizer, AutoModelForCausalLM

tok = AutoTokenizer.from_pretrained("MINC01/ITA-Mini-60M")
model = AutoModelForCausalLM.from_pretrained("MINC01/ITA-Mini-60M")

prompt = "<|user|>\nScrivi una poesia sul mare.\n<|assistant|>\n"
inputs = tok(prompt, return_tensors="pt")

out = model.generate(**inputs, max_new_tokens=200)
print(tok.decode(out[0], skip_special_tokens=True))

🔁 Prompting Tips

  • Usare sempre il template
  • Istruzioni brevi e chiare
  • Una richiesta per volta
  • Evitare contesti troppo lunghi

👤 Autore

MINC01


📌 Citazione

@misc{minc01_ita_mini_60m,
  title = {MINC01/ITA-Mini-60M},
  author = {MINC01},
  year = {2026},
  publisher = {HuggingFace}
}