|
|
--- |
|
|
license: mit |
|
|
base_model: |
|
|
- Mattimax/DACMini-IT |
|
|
language: |
|
|
- it |
|
|
library_name: transformers |
|
|
tags: |
|
|
- DAC |
|
|
- DATA-AI |
|
|
- data-ai |
|
|
- quantized |
|
|
- gguf |
|
|
- Q8 |
|
|
- lightweight |
|
|
datasets: |
|
|
- Mattimax/DATA-AI_Conversation_ITA |
|
|
--- |
|
|
|
|
|
[](https://huggingface.co/Mattimax) |
|
|
[](https://huggingface.co/MINC01) |
|
|
|
|
|
# Mattimax/DACMini-IT-Q8_0 |
|
|
|
|
|
 |
|
|
|
|
|
* **Autore:** [Mattimax](https://huggingface.co/Mattimax) |
|
|
* **Organizzazione:** [M.INC](https://huggingface.co/MINC01) |
|
|
* **Licenza:** MIT |
|
|
* **Modello base:** [Mattimax/DACMini-IT](https://huggingface.co/Mattimax/DACMini-IT) |
|
|
|
|
|
--- |
|
|
|
|
|
## Descrizione |
|
|
|
|
|
**DACMini-IT-Q8_0** è la **versione quantizzata in Q8_0** del modello [**Mattimax/DACMini-IT**](https://huggingface.co/Mattimax/DACMini-IT), ottimizzata per l’esecuzione **più efficiente e leggera** su CPU e GPU con supporto limitato alla memoria. |
|
|
Questa versione mantiene la qualità linguistica e conversazionale del modello originale, riducendo drasticamente il peso e il consumo di RAM grazie alla **quantizzazione a 8 bit (Q8_0)**. |
|
|
|
|
|
La quantizzazione è stata realizzata per l’uso con **llama.cpp**, **text-generation-webui**, e altri framework compatibili con il formato **GGUF**. |
|
|
|
|
|
--- |
|
|
|
|
|
## Caratteristiche tecniche |
|
|
|
|
|
| Proprietà | Valore | |
|
|
|------------|--------| |
|
|
| **Base model** | Mattimax/DACMini-IT | |
|
|
| **Architettura** | GPT-2 Small (italian adaptation) | |
|
|
| **Parametri effettivi** | ~109M | |
|
|
| **Formato** | GGUF | |
|
|
| **Quantizzazione** | Q8_0 | |
|
|
| **Precisione numerica** | 8-bit | |
|
|
| **Contesto massimo** | 512 token | |
|
|
| **Dimensione del file** | ~420 MB | |
|
|
| **Vocabolario** | ~50.000 token | |
|
|
|
|
|
--- |
|
|
|
|
|
## Cos’è la quantizzazione Q8_0 |
|
|
|
|
|
Il formato **Q8_0** (int8 a precisione fissa) rappresenta un compromesso ideale tra **efficienza computazionale e qualità del modello**. |
|
|
Riduce le dimensioni del file e l’uso di memoria **senza una perdita significativa di performance** nel dialogo e nella comprensione linguistica. |
|
|
|
|
|
- Ogni parametro è compresso in 8 bit. |
|
|
- Mantiene una precisione quasi identica al modello FP16. |
|
|
- Ideale per inferenza su CPU (Intel, AMD) o GPU di fascia media (es. GTX, RTX, Tesla). |
|
|
|
|
|
--- |
|
|
|
|
|
## Obiettivi |
|
|
|
|
|
* Esecuzione **offline o embedded** di chatbot in lingua italiana. |
|
|
* Supporto per **applicazioni su macchine a risorse limitate**. |
|
|
* Esperimenti NLP e inferenza rapida in ambiente desktop o server. |
|
|
|
|
|
--- |
|
|
|
|
|
## Uso consigliato |
|
|
|
|
|
### 1. Inference con `llama.cpp` |
|
|
|
|
|
```bash |
|
|
./main -m DACMini-IT-Q8_0.gguf -p "Ciao, come stai oggi?" -n 150 |
|
|
```` |
|
|
|
|
|
### 2. Inference con `text-generation-webui` |
|
|
|
|
|
1. Copia il file `.gguf` nella cartella `models/`. |
|
|
2. Seleziona il modello da interfaccia grafica. |
|
|
3. Imposta temperatura, top_p e lunghezza di output a piacere. |
|
|
4. Avvia la chat. |
|
|
|
|
|
--- |
|
|
|
|
|
## Prestazioni stimate |
|
|
|
|
|
| Dispositivo | RAM richiesta | Tempo di risposta medio (token/s) | |
|
|
| -------------------------- | ------------- | --------------------------------- | |
|
|
| CPU Intel i7-3770 | ~1.5 GB | ~20 token/s | |
|
|
| GPU GTX 970 | ~1.2 GB VRAM | ~40 token/s | |
|
|
| CPU moderni (Ryzen 5 5600) | ~1.0 GB | ~60 token/s | |
|
|
|
|
|
*(valori indicativi, possono variare in base al contesto e al sistema operativo)* |
|
|
|
|
|
--- |
|
|
|
|
|
## Limitazioni |
|
|
|
|
|
* Alcune lievi imprecisioni nelle risposte rispetto alla versione FP16. |
|
|
* Non adatto a compiti di reasoning o traduzione complessa. |
|
|
* Ottimizzato per dialoghi e generazione di testo naturale in italiano. |
|
|
|
|
|
--- |
|
|
|
|
|
## Riferimenti |
|
|
|
|
|
* Modello originale: [Mattimax/DACMini-IT](https://huggingface.co/Mattimax/DACMini-IT) |
|
|
* Dataset di addestramento: [Mattimax/DATA-AI_Conversation_ITA](https://huggingface.co/datasets/Mattimax/DATA-AI_Conversation_ITA) |
|
|
* Organizzazione: [M.INC](https://huggingface.co/MINC01) |
|
|
* Collezione: [Little_DAC Collection](https://huggingface.co/collections/Mattimax/little-dac-collection-68e11d19a5949d08e672b312) |
|
|
|
|
|
--- |
|
|
|
|
|
## Citazione |
|
|
|
|
|
Se utilizzi **Mattimax/DACMini-IT-Q8_0** in un progetto o pubblicazione, cita il modello originale: |
|
|
|
|
|
```bibtex |
|
|
@misc{mattimax2025dacminiitq8, |
|
|
title = {{Mattimax/DACMini-IT-Q8_0}: versione quantizzata del modello DACMini-IT}, |
|
|
author = {Mattimax}, |
|
|
howpublished = {\url{https://huggingface.co/Mattimax/DACMini-IT-Q8_0}}, |
|
|
year = {2025}, |
|
|
note = {Versione quantizzata (Q8_0) basata su Mattimax/DACMini-IT. Licenza MIT.} |
|
|
} |
|
|
``` |
|
|
|
|
|
--- |
|
|
|
|
|
**© 2025 Mattimax / M.INC Labs** — Modello open source rilasciato sotto licenza **MIT**. |
|
|
Ottimizzato per un’intelligenza artificiale accessibile, leggera e tutta italiana. |