DACMini-IT_Q8_0 / README.md
Mattimax's picture
Update README.md
73c8d1e verified
metadata
license: mit
base_model:
  - Mattimax/DACMini-IT
language:
  - it
library_name: transformers
tags:
  - DAC
  - DATA-AI
  - data-ai
  - quantized
  - gguf
  - Q8
  - lightweight
datasets:
  - Mattimax/DATA-AI_Conversation_ITA

HuggingFace M.INC

Mattimax/DACMini-IT-Q8_0

Logo di DACMini


Descrizione

DACMini-IT-Q8_0 è la versione quantizzata in Q8_0 del modello Mattimax/DACMini-IT, ottimizzata per l’esecuzione più efficiente e leggera su CPU e GPU con supporto limitato alla memoria.
Questa versione mantiene la qualità linguistica e conversazionale del modello originale, riducendo drasticamente il peso e il consumo di RAM grazie alla quantizzazione a 8 bit (Q8_0).

La quantizzazione è stata realizzata per l’uso con llama.cpp, text-generation-webui, e altri framework compatibili con il formato GGUF.


Caratteristiche tecniche

Proprietà Valore
Base model Mattimax/DACMini-IT
Architettura GPT-2 Small (italian adaptation)
Parametri effettivi ~109M
Formato GGUF
Quantizzazione Q8_0
Precisione numerica 8-bit
Contesto massimo 512 token
Dimensione del file ~420 MB
Vocabolario ~50.000 token

Cos’è la quantizzazione Q8_0

Il formato Q8_0 (int8 a precisione fissa) rappresenta un compromesso ideale tra efficienza computazionale e qualità del modello.
Riduce le dimensioni del file e l’uso di memoria senza una perdita significativa di performance nel dialogo e nella comprensione linguistica.

  • Ogni parametro è compresso in 8 bit.
  • Mantiene una precisione quasi identica al modello FP16.
  • Ideale per inferenza su CPU (Intel, AMD) o GPU di fascia media (es. GTX, RTX, Tesla).

Obiettivi

  • Esecuzione offline o embedded di chatbot in lingua italiana.
  • Supporto per applicazioni su macchine a risorse limitate.
  • Esperimenti NLP e inferenza rapida in ambiente desktop o server.

Uso consigliato

1. Inference con llama.cpp

./main -m DACMini-IT-Q8_0.gguf -p "Ciao, come stai oggi?" -n 150

2. Inference con text-generation-webui

  1. Copia il file .gguf nella cartella models/.
  2. Seleziona il modello da interfaccia grafica.
  3. Imposta temperatura, top_p e lunghezza di output a piacere.
  4. Avvia la chat.

Prestazioni stimate

Dispositivo RAM richiesta Tempo di risposta medio (token/s)
CPU Intel i7-3770 ~1.5 GB ~20 token/s
GPU GTX 970 ~1.2 GB VRAM ~40 token/s
CPU moderni (Ryzen 5 5600) ~1.0 GB ~60 token/s

(valori indicativi, possono variare in base al contesto e al sistema operativo)


Limitazioni

  • Alcune lievi imprecisioni nelle risposte rispetto alla versione FP16.
  • Non adatto a compiti di reasoning o traduzione complessa.
  • Ottimizzato per dialoghi e generazione di testo naturale in italiano.

Riferimenti


Citazione

Se utilizzi Mattimax/DACMini-IT-Q8_0 in un progetto o pubblicazione, cita il modello originale:

@misc{mattimax2025dacminiitq8,
    title = {{Mattimax/DACMini-IT-Q8_0}: versione quantizzata del modello DACMini-IT},
    author = {Mattimax},
    howpublished = {\url{https://huggingface.co/Mattimax/DACMini-IT-Q8_0}},
    year = {2025},
    note = {Versione quantizzata (Q8_0) basata su Mattimax/DACMini-IT. Licenza MIT.}
}

© 2025 Mattimax / M.INC Labs — Modello open source rilasciato sotto licenza MIT. Ottimizzato per un’intelligenza artificiale accessibile, leggera e tutta italiana.