Mattimax
/

PicoDAC

@@ -17,54 +17,101 @@ tags:
 ## Informazioni sul modello
-**Nome modello:** PicoDAC
-**Autore:** [Mattimax](https://huggingface.co/Mattimax)
-**Organizzazione:** [M.INC](https://huggingface.co/MINC01)
-**Licenza:** GPL-3.0
-**Descrizione:**
 PicoDAC è un modello di linguaggio compatto progettato per chat in lingua italiana. Basato su una architettura Transformer leggera, è ottimizzato per essere rapido e facilmente distribuibile. Questo modello è un **esperimento** ed è ancora in fase di sviluppo, quindi le prestazioni possono essere limitate rispetto a modelli più grandi e sofisticati.
-**Dataset di addestramento:**
 Il modello è stato addestrato sul dataset [Little_ITA_60k](https://huggingface.co/datasets/Mattimax/Little_ITA_60k), contenente conversazioni brevi in italiano.
-**Obiettivo:**
 Fornire un prototipo di chatbot italiano leggero, utile per test, sperimentazioni e applicazioni dove la dimensione del modello e la velocità sono prioritarie rispetto alla qualità generativa.
 ---
 ## Caratteristiche tecniche
-- Architettura: Transformer autoregressivo compatto
-- Dimensione del vocabolario: 1.920 token
-- Lunghezza massima del contesto: 64 token
-- Numero di strati (layers): 6
-- Numero di teste di attenzione: 6
-- Dimensione embedding: 240
-- Quantizzazione: int8 per la maggior parte dei pesi, con embedding e layernorm ottimizzati a bit più alti
 ---
 ## Avvertenze e limitazioni
-- Questo modello è **ancora sperimentale**: può generare risposte incoerenti o incomplete.
-- Non è addestrato per conversazioni sensibili o contenuti critici.
-- Performance su testi lunghi o conversazioni complesse sono limitate a causa della breve lunghezza del contesto e della piccola dimensione del modello.
 ---
 ## Uso previsto
-- Chatbot sperimentali in italiano
-- Applicazioni leggere dove la dimensione del modello è critica
-- Prototipazione e testing di modelli di dialogo
 **Nota:** consigliato l’uso con input brevi e contesti semplici.
 ---
 ## Riferimenti
-- Dataset: [Little_ITA_60k](https://huggingface.co/datasets/Mattimax/Little_ITA_60k)
-- Autore: [Mattimax](https://huggingface.co/Mattimax)
-- Organizzazione: [M.INC](https://huggingface.co/MINC01)

 ## Informazioni sul modello
+**Nome modello:** PicoDAC
+**Autore:** [Mattimax](https://huggingface.co/Mattimax)
+**Organizzazione:** [M.INC](https://huggingface.co/MINC01)
+**Licenza:** GPL-3.0
+**Descrizione:**
 PicoDAC è un modello di linguaggio compatto progettato per chat in lingua italiana. Basato su una architettura Transformer leggera, è ottimizzato per essere rapido e facilmente distribuibile. Questo modello è un **esperimento** ed è ancora in fase di sviluppo, quindi le prestazioni possono essere limitate rispetto a modelli più grandi e sofisticati.
+**Dataset di addestramento:**
 Il modello è stato addestrato sul dataset [Little_ITA_60k](https://huggingface.co/datasets/Mattimax/Little_ITA_60k), contenente conversazioni brevi in italiano.
+**Obiettivo:**
 Fornire un prototipo di chatbot italiano leggero, utile per test, sperimentazioni e applicazioni dove la dimensione del modello e la velocità sono prioritarie rispetto alla qualità generativa.
 ---
 ## Caratteristiche tecniche
+* Architettura: Transformer autoregressivo compatto
+* Dimensione del vocabolario: 1.920 token
+* Lunghezza massima del contesto: 64 token
+* Numero di strati (layers): 6
+* Numero di teste di attenzione: 6
+* Dimensione embedding: 240
+* Quantizzazione: int8 per la maggior parte dei pesi, con embedding e layernorm ottimizzati a bit più alti
 ---
 ## Avvertenze e limitazioni
+* Questo modello è **ancora sperimentale**: può generare risposte incoerenti o incomplete.
+* Non è addestrato per conversazioni sensibili o contenuti critici.
+* Performance su testi lunghi o conversazioni complesse sono limitate a causa della breve lunghezza del contesto e della piccola dimensione del modello.
 ---
 ## Uso previsto
+* Chatbot sperimentali in italiano
+* Applicazioni leggere dove la dimensione del modello è critica
+* Prototipazione e testing di modelli di dialogo
 **Nota:** consigliato l’uso con input brevi e contesti semplici.
 ---
+## Installazione
+```bash
+pip install transformers torch
+```
+---
+## Esempio di utilizzo in Python
+```python
+from transformers import AutoModelForCausalLM, AutoTokenizer
+import torch
+# Carica modello e tokenizer
+model_name = "Mattimax/PicoDAC"
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+model = AutoModelForCausalLM.from_pretrained(model_name)
+# Input di esempio
+input_text = "Ciao, come va?"
+inputs = tokenizer(input_text, return_tensors="pt")
+# Generazione
+with torch.no_grad():
+    outputs = model.generate(**inputs, max_length=64, do_sample=True, temperature=0.8)
+# Decodifica
+response = tokenizer.decode(outputs[0], skip_special_tokens=True)
+print(response)
+```
+**Suggerimenti pratici:**
+* Usa `max_length` basso per mantenere la coerenza delle risposte.
+* Temperature intorno a 0.7–1.0 favoriscono generazioni più creative.
+* Evita input troppo lunghi (oltre 64 token), perché il modello può perdere il contesto precedente.
+---
+## Integrazione consigliata
+* **Applicazioni mobile**: dimensione ridotta e quantizzazione riducono il consumo di RAM e storage.
+* **Sperimentazione NLP**: utile per test di prompt, fine-tuning leggero o per costruire dataset sintetici.
+---
 ## Riferimenti
+* Dataset: [Little_ITA_60k](https://huggingface.co/datasets/Mattimax/Little_ITA_60k)
+* Autore: [Mattimax](https://huggingface.co/Mattimax)
+* Organizzazione: [M.INC](https://huggingface.co/MINC01)