|
|
--- |
|
|
language: |
|
|
- "it" |
|
|
- "en" |
|
|
thumbnail: "https://img.shields.io/badge/HuggingFace-Model-orange" |
|
|
tags: |
|
|
- multimodal |
|
|
- ai |
|
|
- vision-language |
|
|
- italian |
|
|
license: "apache-2.0" |
|
|
datasets: |
|
|
- "Mattimax/DATA-AI_IT" |
|
|
metrics: |
|
|
- "256M parametri" |
|
|
- "Inferenze con < 1 GB di RAM GPU" |
|
|
base_model: "HuggingFaceTB/SmolVLM-256M-Instruct" |
|
|
--- |
|
|
|
|
|
# Mattimax/DATA-AI_Smol256M-Instruct |
|
|
|
|
|
 |
|
|
 |
|
|
|
|
|
--- |
|
|
|
|
|
## 📜 Licenza |
|
|
Il modello è distribuito sotto la licenza **Apache 2.0**, che consente l’uso commerciale, la modifica, la distribuzione e la sublicenza. |
|
|
|
|
|
## 📚 Dataset |
|
|
- [Mattimax/DATA-AI_IT](https://huggingface.co/datasets/Mattimax/DATA-AI_IT) |
|
|
|
|
|
## 🌍 Lingue Supportate |
|
|
- it Italiano |
|
|
- en Inglese |
|
|
|
|
|
## 🏗 Modello Base |
|
|
- [HuggingFaceTB/SmolVLM-256M-Instruct](https://huggingface.co/HuggingFaceTB/SmolVLM-256M-Instruct) |
|
|
|
|
|
## 🛠 Libreria Supportata |
|
|
- 🤗 Transformers |
|
|
|
|
|
--- |
|
|
|
|
|
## 📝 Descrizione |
|
|
|
|
|
**"Mattimax/DATA-AI_Smol256M-Instruct"** è un modello AI multimodale ottimizzato per l’italiano, basato su **"HuggingFaceTB/SmolVLM-256M-Instruct"** e sottoposto a fine-tuning con il dataset **"Mattimax/DATA-AI_IT"**. |
|
|
|
|
|
Il modello è progettato per interpretare e generare testo in combinazione con immagini, garantendo un'ottima efficienza su dispositivi con risorse limitate. Grazie al fine-tuning specifico per la lingua italiana, offre prestazioni avanzate in compiti multimodali, migliorando l’accuratezza delle risposte e la naturalezza del linguaggio. |
|
|
|
|
|
--- |
|
|
|
|
|
## 🚀 Caratteristiche Principali |
|
|
|
|
|
✅ **Multimodalità** – Supporta l’elaborazione congiunta di testo e immagini. |
|
|
✅ **Compattezza** – Solo **256M parametri**, con inferenze su immagini che richiedono meno di **1 GB di RAM GPU**. |
|
|
✅ **Ottimizzazione per l’italiano** – Addestrato su un dataset curato per migliorare la qualità delle risposte in italiano. |
|
|
✅ **Efficienza Computazionale** – Perfetto per applicazioni su hardware a risorse limitate. |
|
|
✅ **Supporto Open Source** – Pensato per democratizzare l’uso dell’IA e promuovere la ricerca libera. |
|
|
|
|
|
--- |
|
|
|
|
|
## 🏗 Origini del Modello |
|
|
|
|
|
**[HuggingFaceTB/SmolVLM-256M-Instruct](https://huggingface.co/HuggingFaceTB/SmolVLM-256M-Instruct)** è il modello di base da cui è stato sviluppato **"Mattimax/DATA-AI_Smol256M-Instruct"**. |
|
|
|
|
|
📌 **SmolVLM-256M-Instruct** è attualmente il modello multimodale più leggero disponibile. |
|
|
📌 Permette l’elaborazione di testo e immagini con un **bilanciamento ideale tra performance ed efficienza**. |
|
|
📌 È in grado di operare su **hardware con risorse limitate** senza sacrificare la qualità delle risposte. |
|
|
|
|
|
--- |
|
|
|
|
|
## 🎯 Applicazioni |
|
|
|
|
|
🔹 **Image Captioning** – Generazione automatica di descrizioni dettagliate per immagini. |
|
|
🔹 **Visual Question Answering** – Risposte a domande su contenuti visivi. |
|
|
🔹 **Trascrizione e Traduzione Multimodale** – Estrazione e conversione di testo da immagini. |
|
|
🔹 **AI su Dispositivi Edge** – Perfetto per applicazioni mobile o su dispositivi embedded. |
|
|
|
|
|
--- |
|
|
|
|
|
## 🛠 Come Usarlo |
|
|
|
|
|
Il modello può essere facilmente caricato tramite 🤗 **Transformers**: |
|
|
|
|
|
```python |
|
|
from transformers import AutoModelForVision2Seq, AutoProcessor |
|
|
import torch |
|
|
from PIL import Image |
|
|
|
|
|
# Carica il modello e il processore |
|
|
model_name = "Mattimax/DATA-AI_Smol256M-Instruct" |
|
|
model = AutoModelForVision2Seq.from_pretrained(model_name) |
|
|
processor = AutoProcessor.from_pretrained(model_name) |
|
|
|
|
|
# Esempio di input con immagine e testo |
|
|
image = Image.open("example.jpg") |
|
|
inputs = processor(images=image, text="Cosa c'è nell'immagine?", return_tensors="pt") |
|
|
|
|
|
# Genera la risposta |
|
|
with torch.no_grad(): |
|
|
outputs = model.generate(**inputs) |
|
|
|
|
|
# Decodifica la risposta |
|
|
response = processor.batch_decode(outputs, skip_special_tokens=True)[0] |
|
|
print("Risposta del modello:", response) |
|
|
``` |
|
|
--- |
|
|
|
|
|
## 🏁 Conclusioni |
|
|
|
|
|
✨ "Mattimax/DATA-AI_Smol256M-Instruct" rappresenta un passo avanti per l’IA multimodale in italiano. |
|
|
💡 Il modello offre prestazioni solide, è leggero ed è open source, perfetto per l’uso in vari contesti. |