DACMini-IT_Q8_0 / README.md

Mattimax

Update README.md

73c8d1e verified 4 months ago

preview code

raw

history blame contribute delete

4.75 kB

metadata

license: mit
base_model:
  - Mattimax/DACMini-IT
language:
  - it
library_name: transformers
tags:
  - DAC
  - DATA-AI
  - data-ai
  - quantized
  - gguf
  - Q8
  - lightweight
datasets:
  - Mattimax/DATA-AI_Conversation_ITA

Mattimax/DACMini-IT-Q8_0

Autore: Mattimax
Organizzazione: M.INC
Licenza: MIT
Modello base: Mattimax/DACMini-IT

Descrizione

DACMini-IT-Q8_0 è la versione quantizzata in Q8_0 del modello Mattimax/DACMini-IT, ottimizzata per l’esecuzione più efficiente e leggera su CPU e GPU con supporto limitato alla memoria.
Questa versione mantiene la qualità linguistica e conversazionale del modello originale, riducendo drasticamente il peso e il consumo di RAM grazie alla quantizzazione a 8 bit (Q8_0).

La quantizzazione è stata realizzata per l’uso con llama.cpp, text-generation-webui, e altri framework compatibili con il formato GGUF.

Caratteristiche tecniche

Proprietà	Valore
Base model	Mattimax/DACMini-IT
Architettura	GPT-2 Small (italian adaptation)
Parametri effettivi	~109M
Formato	GGUF
Quantizzazione	Q8_0
Precisione numerica	8-bit
Contesto massimo	512 token
Dimensione del file	~420 MB
Vocabolario	~50.000 token

Cos’è la quantizzazione Q8_0

Il formato Q8_0 (int8 a precisione fissa) rappresenta un compromesso ideale tra efficienza computazionale e qualità del modello.
Riduce le dimensioni del file e l’uso di memoria senza una perdita significativa di performance nel dialogo e nella comprensione linguistica.

Ogni parametro è compresso in 8 bit.
Mantiene una precisione quasi identica al modello FP16.
Ideale per inferenza su CPU (Intel, AMD) o GPU di fascia media (es. GTX, RTX, Tesla).

Obiettivi

Esecuzione offline o embedded di chatbot in lingua italiana.
Supporto per applicazioni su macchine a risorse limitate.
Esperimenti NLP e inferenza rapida in ambiente desktop o server.

Uso consigliato

1. Inference con `llama.cpp`

./main -m DACMini-IT-Q8_0.gguf -p "Ciao, come stai oggi?" -n 150

2. Inference con `text-generation-webui`

Copia il file .gguf nella cartella models/.
Seleziona il modello da interfaccia grafica.
Imposta temperatura, top_p e lunghezza di output a piacere.
Avvia la chat.

Prestazioni stimate

Dispositivo	RAM richiesta	Tempo di risposta medio (token/s)
CPU Intel i7-3770	~1.5 GB	~20 token/s
GPU GTX 970	~1.2 GB VRAM	~40 token/s
CPU moderni (Ryzen 5 5600)	~1.0 GB	~60 token/s

(valori indicativi, possono variare in base al contesto e al sistema operativo)

Limitazioni

Alcune lievi imprecisioni nelle risposte rispetto alla versione FP16.
Non adatto a compiti di reasoning o traduzione complessa.
Ottimizzato per dialoghi e generazione di testo naturale in italiano.

Riferimenti

Modello originale: Mattimax/DACMini-IT
Dataset di addestramento: Mattimax/DATA-AI_Conversation_ITA
Organizzazione: M.INC
Collezione: Little_DAC Collection

Citazione

Se utilizzi Mattimax/DACMini-IT-Q8_0 in un progetto o pubblicazione, cita il modello originale:

@misc{mattimax2025dacminiitq8,
    title = {{Mattimax/DACMini-IT-Q8_0}: versione quantizzata del modello DACMini-IT},
    author = {Mattimax},
    howpublished = {\url{https://huggingface.co/Mattimax/DACMini-IT-Q8_0}},
    year = {2025},
    note = {Versione quantizzata (Q8_0) basata su Mattimax/DACMini-IT. Licenza MIT.}
}