File size: 4,199 Bytes

---
language: 
  - "it"
  - "en"
thumbnail: "https://img.shields.io/badge/HuggingFace-Model-orange"
tags:
  - multimodal
  - ai
  - vision-language
  - italian
license: "apache-2.0"
datasets:
  - "Mattimax/DATA-AI_IT"
metrics:
  - "256M parametri"
  - "Inferenze con < 1 GB di RAM GPU"
base_model: "HuggingFaceTB/SmolVLM-256M-Instruct"
---

# Mattimax/DATA-AI_Smol256M-Instruct

![License: Apache-2.0](https://img.shields.io/badge/License-Apache%202.0-blue.svg)  
![Hugging Face Model](https://img.shields.io/badge/HuggingFace-Model-orange)

---

## 📜 Licenza
Il modello è distribuito sotto la licenza **Apache 2.0**, che consente l’uso commerciale, la modifica, la distribuzione e la sublicenza.

## 📚 Dataset
- [Mattimax/DATA-AI_IT](https://huggingface.co/datasets/Mattimax/DATA-AI_IT)

## 🌍 Lingue Supportate
- it Italiano
- en Inglese

## 🏗 Modello Base
- [HuggingFaceTB/SmolVLM-256M-Instruct](https://huggingface.co/HuggingFaceTB/SmolVLM-256M-Instruct)

## 🛠 Libreria Supportata
- 🤗 Transformers

---

## 📝 Descrizione

**"Mattimax/DATA-AI_Smol256M-Instruct"** è un modello AI multimodale ottimizzato per l’italiano, basato su **"HuggingFaceTB/SmolVLM-256M-Instruct"** e sottoposto a fine-tuning con il dataset **"Mattimax/DATA-AI_IT"**.

Il modello è progettato per interpretare e generare testo in combinazione con immagini, garantendo un'ottima efficienza su dispositivi con risorse limitate. Grazie al fine-tuning specifico per la lingua italiana, offre prestazioni avanzate in compiti multimodali, migliorando l’accuratezza delle risposte e la naturalezza del linguaggio.

---

## 🚀 Caratteristiche Principali

✅ **Multimodalità** – Supporta l’elaborazione congiunta di testo e immagini.  
✅ **Compattezza** – Solo **256M parametri**, con inferenze su immagini che richiedono meno di **1 GB di RAM GPU**.  
✅ **Ottimizzazione per l’italiano** – Addestrato su un dataset curato per migliorare la qualità delle risposte in italiano.  
✅ **Efficienza Computazionale** – Perfetto per applicazioni su hardware a risorse limitate.  
✅ **Supporto Open Source** – Pensato per democratizzare l’uso dell’IA e promuovere la ricerca libera.

---

## 🏗 Origini del Modello

**[HuggingFaceTB/SmolVLM-256M-Instruct](https://huggingface.co/HuggingFaceTB/SmolVLM-256M-Instruct)** è il modello di base da cui è stato sviluppato **"Mattimax/DATA-AI_Smol256M-Instruct"**.  

📌 **SmolVLM-256M-Instruct** è attualmente il modello multimodale più leggero disponibile.  
📌 Permette l’elaborazione di testo e immagini con un **bilanciamento ideale tra performance ed efficienza**.  
📌 È in grado di operare su **hardware con risorse limitate** senza sacrificare la qualità delle risposte.

---

## 🎯 Applicazioni

🔹 **Image Captioning** – Generazione automatica di descrizioni dettagliate per immagini.  
🔹 **Visual Question Answering** – Risposte a domande su contenuti visivi.  
🔹 **Trascrizione e Traduzione Multimodale** – Estrazione e conversione di testo da immagini.  
🔹 **AI su Dispositivi Edge** – Perfetto per applicazioni mobile o su dispositivi embedded.  

---

## 🛠 Come Usarlo

Il modello può essere facilmente caricato tramite 🤗 **Transformers**:

```python
from transformers import AutoModelForVision2Seq, AutoProcessor
import torch
from PIL import Image

# Carica il modello e il processore
model_name = "Mattimax/DATA-AI_Smol256M-Instruct"
model = AutoModelForVision2Seq.from_pretrained(model_name)
processor = AutoProcessor.from_pretrained(model_name)

# Esempio di input con immagine e testo
image = Image.open("example.jpg")
inputs = processor(images=image, text="Cosa c'è nell'immagine?", return_tensors="pt")

# Genera la risposta
with torch.no_grad():
    outputs = model.generate(**inputs)

# Decodifica la risposta
response = processor.batch_decode(outputs, skip_special_tokens=True)[0]
print("Risposta del modello:", response)
```
---

## 🏁 Conclusioni

✨ "Mattimax/DATA-AI_Smol256M-Instruct" rappresenta un passo avanti per l’IA multimodale in italiano.
💡 Il modello offre prestazioni solide, è leggero ed è open source, perfetto per l’uso in vari contesti.