Mattimax
/

microDAC

@@ -1,150 +1,215 @@
 ---
 license: gpl-3.0
 language:
 - it
 library_name: transformers
 tags:
 - DAC
 - DATA-AI
 ---
 # 🧠 microDAC
-**Progetto:** microDAC
-**Azienda:** M.INC.
-**Autore:** Mattia
-**Versione:** 1.0
-**Modello:** Decoder-only, 40M parametri
-**Linguaggio target:** Italiano conversazionale
 ---
-## 📌 Descrizione generale
-microDAC è un modello linguistico compatto progettato da M.INC. per gestire conversazioni in italiano in modo naturale, fluido e contestuale.
-È pensato per essere leggero, addestrabile su GPU consumer e facilmente integrabile in chatbot, assistenti vocali o agenti embedded.
-Il training è supervisionato e ottimizzato per generare risposte coerenti, evitando la ripetizione dei prompt utente e focalizzandosi sulla qualità delle risposte.
 ---
-## 🧱 Architettura del modello
-| Parametro         | Valore         |
-|-------------------|----------------|
-| Tipo              | Decoder-only (GPT2-like) |
-| Parametri totali  | ~40 milioni    |
-| Vocab size        | 32.000         |
-| Context window    | 2048 token     |
-| Embedding dim     | 512            |
-| Layer             | 16             |
-| Attention heads   | 8              |
-| FFN dim           | 2048 (gelu_new)|
-| Attivazione       | GELU (new)     |
-| Precisione        | FP16/BF16      |
-| Gradient checkpointing | ✅ Attivo |
 ---
 ## 🗣️ Tokenizer
-- Tipo: Byte-Pair Encoding (BPE)
-- Addestrato da zero su `microDAC_dataset.jsonl`
-- Special tokens:
-  - `<|user|>`: inizio turno utente
-  - `<|assistant|>`: inizio risposta modello
-  - `<|sep|>`: separatore fine turno
-  - `<|pad|>`, `<|bos|>`, `<|eos|>`: padding e delimitatori
-Il tokenizer è salvato in `tokenizer_microDAC/` e viene caricato automaticamente. Se non esiste, viene ricreato.
 ---
 ## 🎯 Obiettivo di training
-Il modello è addestrato per generare solo le risposte dell’assistente.
-I token dell’utente vengono mascherati con `-100` nei label per evitare che il modello li imiti.
-### Masking logico:
 ```text
 <|user|> ... <|sep|>        → label = -100
 <|assistant|> ... <|sep|>   → label = token_id
-```
 ---
-## ⚙️ Parametri di training
-| Parametro               | Valore         |
-|-------------------------|----------------|
-| Epochs                  | 2              |
-| Batch per device        | 8              |
-| Gradient accumulation   | 4              |
-| Learning rate           | 3e-4           |
-| Weight decay            | 0.01           |
-| Scheduler               | Cosine         |
-| Warmup ratio            | 0.05           |
-| Max grad norm           | 1.0            |
-| Precision               | FP16/BF16      |
-| Optimizer               | AdamW (torch)  |
-| Checkpointing           | ogni 2000 step |
-| Resume automatico       | ✅             |
-| Save best model         | ✅             |
----
-## 🖥️ Compatibilità e ambiente
-- Sistema operativo: Windows (con `freeze_support`)
-- GPU consigliata: ≥12 GB VRAM
-- Framework: Hugging Face Transformers + Datasets
-- Precisione: FP16/BF16 automatico
-- Multiprocessing: gestito con `if __name__ == "__main__"` e `dataloader_num_workers=0`
 ---
-## 🔄 Ripresa da checkpoint
-Lo script cerca automaticamente l’ultimo checkpoint valido (`checkpoint-XXXX`) e riprende il training.
-Se non trova nulla, parte da zero.
 ---
-## 📦 Output finale
-Alla fine del training, il modello e il tokenizer vengono salvati in:
-```
 ./microDAC-40M/final/
-```
 Contiene:
-- `pytorch_model.bin`
-- `config.json`
-- `tokenizer.json`
-- `special_tokens_map.json`
-- `vocab.json`
 ---
-## 🛠️ Modifiche consigliate
-- Per aumentare la qualità: alza `N_LAYER` a 24 e `N_EMBD` a 768 (→ ~120M parametri)
-- Per ridurre VRAM: abbassa `N_CTX` a 1024 e usa `adamw_bnb_8bit` con bitsandbytes
-- Per training multi-turno: costruisci prompt concatenati con alternanza `<|user|>...<|assistant|>...` e maschera solo l’ultimo blocco
 ---
-## 📣 Autore e contatti
-**Mattia — M.INC.**
-Per domande tecniche, ottimizzazioni o estensioni del progetto, contattare il team AI di M.INC.
-Questo file è pensato per essere modificabile e aggiornabile da qualsiasi sviluppatore.
 ---
-## 📁 Versioni future
-- [ ] Integrazione LoRA per fine-tuning leggero
-- [ ] Supporto FlashAttention
-- [ ] Training multi-turno con contesto esteso
-- [ ] Valutazione automatica su benchmark italiani

+Perfetto 😎
+Ecco la versione finale e completa della model card di microDAC, con i badge in stile professionale identico a quello del whitepaper di PicoDAC & PicoDAC-IT:
+---
 ---
 license: gpl-3.0
+datasets:
+- Mattimax/Little_ITA_60k
 language:
 - it
 library_name: transformers
 tags:
 - DAC
+- data-ai
 - DATA-AI
+- transformer
+- experimental
+new_version: Mattimax/microDAC
 ---
 # 🧠 microDAC
+[![HuggingFace](https://img.shields.io/badge/HuggingFace-Mattimax-brightgreen)](https://huggingface.co/Mattimax)
+[![M.INC](https://img.shields.io/badge/M.INC-Labs-blue)](https://huggingface.co/MINC01)
+![Logo di microDAC](https://huggingface.co/Mattimax/microDAC/resolve/main/microDAC_Logo.png)
 ---
+## ℹ️ Informazioni sul modello
+- **Autore:** [Mattimax](https://huggingface.co/Mattimax)
+- **Organizzazione:** [M.INC](https://huggingface.co/MINC01)
+- **Pagina GitHub:** [microDAC](https://github.com/M-INC-01/microDAC)
+- **Licenza:** GPL-3.0
+**Descrizione:**
+microDAC è un modello linguistico compatto di tipo *Decoder-only*, con circa **40 milioni di parametri**, progettato per la **generazione di testo in italiano**.
+È un’evoluzione di PicoDAC, con maggiore profondità architetturale e un contesto più ampio, mantenendo leggerezza e velocità d’esecuzione.
+Pensato per **chatbot, agenti vocali e applicazioni embedded**, è ottimizzato per risposte fluide, coerenti e naturali, con training supervisionato per evitare la ripetizione dei prompt.
 ---
+## ⚙️ Caratteristiche tecniche
+* **Architettura:** Transformer Decoder-only (GPT2-like)
+* **Parametri totali:** ~40 milioni
+* **Vocabolario:** 32.000 token
+* **Lunghezza massima del contesto:** 2048 token
+* **Dimensione embedding:** 512
+* **Numero di layer:** 16
+* **Teste di attenzione:** 8
+* **Feed-Forward (FFN):** 2048 (GELU-new)
+* **Attivazione:** GELU (new)
+* **Precisione:** FP16 / BF16
+* **Gradient checkpointing:** ✅ Attivo
 ---
 ## 🗣️ Tokenizer
+* **Tipo:** Byte-Pair Encoding (BPE)
+* **Addestramento:** da zero su `microDAC_dataset.jsonl`
+* **Token speciali:**
+  - `<|user|>` → inizio turno utente
+  - `<|assistant|>` → risposta del modello
+  - `<|sep|>` → fine turno
+  - `<|pad|>`, `<|bos|>`, `<|eos|>` → padding e delimitatori
+Il tokenizer è salvato in `tokenizer_microDAC/` e viene ricreato automaticamente se non presente.
 ---
 ## 🎯 Obiettivo di training
+Il modello è addestrato per **generare esclusivamente le risposte dell’assistente**, mascherando i token dell’utente.
+**Schema di masking:**
 ```text
 <|user|> ... <|sep|>        → label = -100
 <|assistant|> ... <|sep|>   → label = token_id
 ---
+🧩 Parametri di training
+Parametro	Valore
+Epochs	2
+Batch per device	8
+Gradient accumulation	4
+Learning rate	3e-4
+Weight decay	0.01
+Scheduler	Cosine
+Warmup ratio	0.05
+Max grad norm	1.0
+Precision	FP16 / BF16
+Optimizer	AdamW (torch)
+Checkpointing	ogni 2000 step
+Resume automatico	✅
+Save best model	✅
 ---
+💻 Compatibilità e ambiente
+OS: Windows / Linux
+GPU consigliata: ≥ 12 GB VRAM
+Framework: Hugging Face Transformers + Datasets
+Precisione: FP16 / BF16 automatica
+Multiprocessing: gestito con if __name__ == "__main__"
 ---
+📦 Output finale
+Alla fine del training, il modello viene salvato in:
 ./microDAC-40M/final/
 Contiene:
+pytorch_model.bin
+config.json
+tokenizer.json
+special_tokens_map.json
+vocab.json
 ---
+⚠️ Avvertenze e limitazioni
+microDAC è un modello sperimentale, soggetto a miglioramenti futuri.
+Le prestazioni su conversazioni complesse o troppo lunghe possono degradare.
+Non adatto a contenuti sensibili o critici.
 ---
+🚀 Uso previsto
+Chatbot leggeri e assistenti in lingua italiana
+Prototipi embedded o mobile
+Fine-tuning personalizzati su dataset specifici
+Nota: mantenere input sotto i 2 000 token per risultati ottimali.
+---
+🧰 Installazione
+pip install transformers torch
+---
+🧪 Esempio di utilizzo in Python
+from transformers import AutoModelForCausalLM, AutoTokenizer
+import torch
+tokenizer = AutoTokenizer.from_pretrained("Mattimax/microDAC")
+model = AutoModelForCausalLM.from_pretrained("Mattimax/microDAC").to("cuda")
+prompt = "<|user|> Ciao, come stai oggi?<|assistant|>"
+inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
+outputs = model.generate(**inputs, max_new_tokens=100, temperature=0.7)
+print(tokenizer.decode(outputs[0], skip_special_tokens=True))
 ---
+🔗 Integrazione consigliata
+Applicazioni mobile o embedded: basso consumo e rapidità.
+Sperimentazione NLP: ottimo punto di partenza per LoRA o adattamenti leggeri.
+Dataset sintetici: utile per generare coppie domanda-risposta.
+---
+📚 Riferimenti
+Autore: [Mattimax](https://huggingface.co/Mattimax)
+Organizzazione: M.INC