Instructions to use Mattimax/DACMini-IT_Q8_0 with libraries, inference providers, notebooks, and local apps. Follow these links to get started.

Libraries

How to use Mattimax/DACMini-IT_Q8_0 with Transformers:

# Load model directly
from transformers import AutoModel
model = AutoModel.from_pretrained("Mattimax/DACMini-IT_Q8_0", dtype="auto")

llama-cpp-python

How to use Mattimax/DACMini-IT_Q8_0 with llama-cpp-python:

# !pip install llama-cpp-python

from llama_cpp import Llama

llm = Llama.from_pretrained(
	repo_id="Mattimax/DACMini-IT_Q8_0",
	filename="DACMini.gguf",
)

llm.create_chat_completion(
	messages = "No input example has been defined for this model task."
)

Notebooks
Google Colab
Kaggle
Local Apps

llama.cpp

How to use Mattimax/DACMini-IT_Q8_0 with llama.cpp:

Install from brew

brew install llama.cpp
# Start a local OpenAI-compatible server with a web UI:
llama-server -hf Mattimax/DACMini-IT_Q8_0
# Run inference directly in the terminal:
llama-cli -hf Mattimax/DACMini-IT_Q8_0

Install from WinGet (Windows)

winget install llama.cpp
# Start a local OpenAI-compatible server with a web UI:
llama-server -hf Mattimax/DACMini-IT_Q8_0
# Run inference directly in the terminal:
llama-cli -hf Mattimax/DACMini-IT_Q8_0

Use pre-built binary

# Download pre-built binary from:
# https://github.com/ggerganov/llama.cpp/releases
# Start a local OpenAI-compatible server with a web UI:
./llama-server -hf Mattimax/DACMini-IT_Q8_0
# Run inference directly in the terminal:
./llama-cli -hf Mattimax/DACMini-IT_Q8_0

Build from source code

git clone https://github.com/ggerganov/llama.cpp.git
cd llama.cpp
cmake -B build
cmake --build build -j --target llama-server llama-cli
# Start a local OpenAI-compatible server with a web UI:
./build/bin/llama-server -hf Mattimax/DACMini-IT_Q8_0
# Run inference directly in the terminal:
./build/bin/llama-cli -hf Mattimax/DACMini-IT_Q8_0

Use Docker

docker model run hf.co/Mattimax/DACMini-IT_Q8_0

LM Studio
Jan
Ollama
How to use Mattimax/DACMini-IT_Q8_0 with Ollama:
```
ollama run hf.co/Mattimax/DACMini-IT_Q8_0
```

Unsloth Studio new

How to use Mattimax/DACMini-IT_Q8_0 with Unsloth Studio:

Install Unsloth Studio (macOS, Linux, WSL)

curl -fsSL https://unsloth.ai/install.sh | sh
# Run unsloth studio
unsloth studio -H 0.0.0.0 -p 8888
# Then open http://localhost:8888 in your browser
# Search for Mattimax/DACMini-IT_Q8_0 to start chatting

Install Unsloth Studio (Windows)

irm https://unsloth.ai/install.ps1 | iex
# Run unsloth studio
unsloth studio -H 0.0.0.0 -p 8888
# Then open http://localhost:8888 in your browser
# Search for Mattimax/DACMini-IT_Q8_0 to start chatting

Using HuggingFace Spaces for Unsloth

# No setup required
# Open https://huggingface.co/spaces/unsloth/studio in your browser
# Search for Mattimax/DACMini-IT_Q8_0 to start chatting

Docker Model Runner
How to use Mattimax/DACMini-IT_Q8_0 with Docker Model Runner:
```
docker model run hf.co/Mattimax/DACMini-IT_Q8_0
```

Lemonade

How to use Mattimax/DACMini-IT_Q8_0 with Lemonade:

Pull the model

# Download Lemonade from https://lemonade-server.ai/
lemonade pull Mattimax/DACMini-IT_Q8_0

Run and chat with the model

lemonade run user.DACMini-IT_Q8_0-{{QUANT_TAG}}

List all available models

lemonade list

Mattimax commited on Oct 17, 2025

Commit

73c8d1e

verified ·

1 Parent(s): 756ab48

Update README.md

Browse files

Files changed (1) hide show

README.md +141 -3

README.md CHANGED Viewed

@@ -1,3 +1,141 @@
----
-license: mit
----

+---
+license: mit
+base_model:
+- Mattimax/DACMini-IT
+language:
+- it
+library_name: transformers
+tags:
+- DAC
+- DATA-AI
+- data-ai
+- quantized
+- gguf
+- Q8
+- lightweight
+datasets:
+- Mattimax/DATA-AI_Conversation_ITA
+---
+[![HuggingFace](https://img.shields.io/badge/HuggingFace-Mattimax-brightgreen)](https://huggingface.co/Mattimax)
+[![M.INC](https://img.shields.io/badge/M.INC-Labs-blue)](https://huggingface.co/MINC01)
+# Mattimax/DACMini-IT-Q8_0
+![Logo di DACMini](https://huggingface.co/Mattimax/DACMini/resolve/main/DACMini_Logo/DACMini_Logo.png)
+* **Autore:** [Mattimax](https://huggingface.co/Mattimax)
+* **Organizzazione:** [M.INC](https://huggingface.co/MINC01)
+* **Licenza:** MIT
+* **Modello base:** [Mattimax/DACMini-IT](https://huggingface.co/Mattimax/DACMini-IT)
+---
+## Descrizione
+**DACMini-IT-Q8_0** è la **versione quantizzata in Q8_0** del modello [**Mattimax/DACMini-IT**](https://huggingface.co/Mattimax/DACMini-IT), ottimizzata per l’esecuzione **più efficiente e leggera** su CPU e GPU con supporto limitato alla memoria.
+Questa versione mantiene la qualità linguistica e conversazionale del modello originale, riducendo drasticamente il peso e il consumo di RAM grazie alla **quantizzazione a 8 bit (Q8_0)**.
+La quantizzazione è stata realizzata per l’uso con **llama.cpp**, **text-generation-webui**, e altri framework compatibili con il formato **GGUF**.
+---
+## Caratteristiche tecniche
+| Proprietà | Valore |
+|------------|--------|
+| **Base model** | Mattimax/DACMini-IT |
+| **Architettura** | GPT-2 Small (italian adaptation) |
+| **Parametri effettivi** | ~109M |
+| **Formato** | GGUF |
+| **Quantizzazione** | Q8_0 |
+| **Precisione numerica** | 8-bit |
+| **Contesto massimo** | 512 token |
+| **Dimensione del file** | ~420 MB |
+| **Vocabolario** | ~50.000 token |
+---
+## Cos’è la quantizzazione Q8_0
+Il formato **Q8_0** (int8 a precisione fissa) rappresenta un compromesso ideale tra **efficienza computazionale e qualità del modello**.
+Riduce le dimensioni del file e l’uso di memoria **senza una perdita significativa di performance** nel dialogo e nella comprensione linguistica.
+- Ogni parametro è compresso in 8 bit.
+- Mantiene una precisione quasi identica al modello FP16.
+- Ideale per inferenza su CPU (Intel, AMD) o GPU di fascia media (es. GTX, RTX, Tesla).
+---
+## Obiettivi
+* Esecuzione **offline o embedded** di chatbot in lingua italiana.
+* Supporto per **applicazioni su macchine a risorse limitate**.
+* Esperimenti NLP e inferenza rapida in ambiente desktop o server.
+---
+## Uso consigliato
+### 1. Inference con `llama.cpp`
+```bash
+./main -m DACMini-IT-Q8_0.gguf -p "Ciao, come stai oggi?" -n 150
+````
+### 2. Inference con `text-generation-webui`
+1. Copia il file `.gguf` nella cartella `models/`.
+2. Seleziona il modello da interfaccia grafica.
+3. Imposta temperatura, top_p e lunghezza di output a piacere.
+4. Avvia la chat.
+---
+## Prestazioni stimate
+| Dispositivo                | RAM richiesta | Tempo di risposta medio (token/s) |
+| -------------------------- | ------------- | --------------------------------- |
+| CPU Intel i7-3770          | ~1.5 GB       | ~20 token/s                       |
+| GPU GTX 970                | ~1.2 GB VRAM  | ~40 token/s                       |
+| CPU moderni (Ryzen 5 5600) | ~1.0 GB       | ~60 token/s                       |
+*(valori indicativi, possono variare in base al contesto e al sistema operativo)*
+---
+## Limitazioni
+* Alcune lievi imprecisioni nelle risposte rispetto alla versione FP16.
+* Non adatto a compiti di reasoning o traduzione complessa.
+* Ottimizzato per dialoghi e generazione di testo naturale in italiano.
+---
+## Riferimenti
+* Modello originale: [Mattimax/DACMini-IT](https://huggingface.co/Mattimax/DACMini-IT)
+* Dataset di addestramento: [Mattimax/DATA-AI_Conversation_ITA](https://huggingface.co/datasets/Mattimax/DATA-AI_Conversation_ITA)
+* Organizzazione: [M.INC](https://huggingface.co/MINC01)
+* Collezione: [Little_DAC Collection](https://huggingface.co/collections/Mattimax/little-dac-collection-68e11d19a5949d08e672b312)
+---
+## Citazione
+Se utilizzi **Mattimax/DACMini-IT-Q8_0** in un progetto o pubblicazione, cita il modello originale:
+```bibtex
+@misc{mattimax2025dacminiitq8,
+    title = {{Mattimax/DACMini-IT-Q8_0}: versione quantizzata del modello DACMini-IT},
+    author = {Mattimax},
+    howpublished = {\url{https://huggingface.co/Mattimax/DACMini-IT-Q8_0}},
+    year = {2025},
+    note = {Versione quantizzata (Q8_0) basata su Mattimax/DACMini-IT. Licenza MIT.}
+}
+```
+---
+**© 2025 Mattimax / M.INC Labs** — Modello open source rilasciato sotto licenza **MIT**.
+Ottimizzato per un’intelligenza artificiale accessibile, leggera e tutta italiana.