File size: 4,199 Bytes
18774ae e14211b 6881509 e14211b 6881509 e14211b 6881509 e14211b 6881509 e14211b 6881509 e14211b 6881509 e14211b 6881509 b17b7d6 6881509 e14211b 6881509 e14211b 6881509 e14211b 6881509 b17b7d6 e14211b b17b7d6 e14211b b17b7d6 6881509 b17b7d6 e14211b b17b7d6 e14211b b17b7d6 e14211b b17b7d6 6881509 b17b7d6 e14211b b17b7d6 e14211b b17b7d6 6881509 b17b7d6 e14211b b17b7d6 e14211b b17b7d6 e14211b 6881509 b17b7d6 6881509 b17b7d6 6881509 b17b7d6 6881509 b17b7d6 6881509 e14211b 18774ae e14211b |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 |
---
language:
- "it"
- "en"
thumbnail: "https://img.shields.io/badge/HuggingFace-Model-orange"
tags:
- multimodal
- ai
- vision-language
- italian
license: "apache-2.0"
datasets:
- "Mattimax/DATA-AI_IT"
metrics:
- "256M parametri"
- "Inferenze con < 1 GB di RAM GPU"
base_model: "HuggingFaceTB/SmolVLM-256M-Instruct"
---
# Mattimax/DATA-AI_Smol256M-Instruct


---
## 📜 Licenza
Il modello è distribuito sotto la licenza **Apache 2.0**, che consente l’uso commerciale, la modifica, la distribuzione e la sublicenza.
## 📚 Dataset
- [Mattimax/DATA-AI_IT](https://huggingface.co/datasets/Mattimax/DATA-AI_IT)
## 🌍 Lingue Supportate
- it Italiano
- en Inglese
## 🏗 Modello Base
- [HuggingFaceTB/SmolVLM-256M-Instruct](https://huggingface.co/HuggingFaceTB/SmolVLM-256M-Instruct)
## 🛠 Libreria Supportata
- 🤗 Transformers
---
## 📝 Descrizione
**"Mattimax/DATA-AI_Smol256M-Instruct"** è un modello AI multimodale ottimizzato per l’italiano, basato su **"HuggingFaceTB/SmolVLM-256M-Instruct"** e sottoposto a fine-tuning con il dataset **"Mattimax/DATA-AI_IT"**.
Il modello è progettato per interpretare e generare testo in combinazione con immagini, garantendo un'ottima efficienza su dispositivi con risorse limitate. Grazie al fine-tuning specifico per la lingua italiana, offre prestazioni avanzate in compiti multimodali, migliorando l’accuratezza delle risposte e la naturalezza del linguaggio.
---
## 🚀 Caratteristiche Principali
✅ **Multimodalità** – Supporta l’elaborazione congiunta di testo e immagini.
✅ **Compattezza** – Solo **256M parametri**, con inferenze su immagini che richiedono meno di **1 GB di RAM GPU**.
✅ **Ottimizzazione per l’italiano** – Addestrato su un dataset curato per migliorare la qualità delle risposte in italiano.
✅ **Efficienza Computazionale** – Perfetto per applicazioni su hardware a risorse limitate.
✅ **Supporto Open Source** – Pensato per democratizzare l’uso dell’IA e promuovere la ricerca libera.
---
## 🏗 Origini del Modello
**[HuggingFaceTB/SmolVLM-256M-Instruct](https://huggingface.co/HuggingFaceTB/SmolVLM-256M-Instruct)** è il modello di base da cui è stato sviluppato **"Mattimax/DATA-AI_Smol256M-Instruct"**.
📌 **SmolVLM-256M-Instruct** è attualmente il modello multimodale più leggero disponibile.
📌 Permette l’elaborazione di testo e immagini con un **bilanciamento ideale tra performance ed efficienza**.
📌 È in grado di operare su **hardware con risorse limitate** senza sacrificare la qualità delle risposte.
---
## 🎯 Applicazioni
🔹 **Image Captioning** – Generazione automatica di descrizioni dettagliate per immagini.
🔹 **Visual Question Answering** – Risposte a domande su contenuti visivi.
🔹 **Trascrizione e Traduzione Multimodale** – Estrazione e conversione di testo da immagini.
🔹 **AI su Dispositivi Edge** – Perfetto per applicazioni mobile o su dispositivi embedded.
---
## 🛠 Come Usarlo
Il modello può essere facilmente caricato tramite 🤗 **Transformers**:
```python
from transformers import AutoModelForVision2Seq, AutoProcessor
import torch
from PIL import Image
# Carica il modello e il processore
model_name = "Mattimax/DATA-AI_Smol256M-Instruct"
model = AutoModelForVision2Seq.from_pretrained(model_name)
processor = AutoProcessor.from_pretrained(model_name)
# Esempio di input con immagine e testo
image = Image.open("example.jpg")
inputs = processor(images=image, text="Cosa c'è nell'immagine?", return_tensors="pt")
# Genera la risposta
with torch.no_grad():
outputs = model.generate(**inputs)
# Decodifica la risposta
response = processor.batch_decode(outputs, skip_special_tokens=True)[0]
print("Risposta del modello:", response)
```
---
## 🏁 Conclusioni
✨ "Mattimax/DATA-AI_Smol256M-Instruct" rappresenta un passo avanti per l’IA multimodale in italiano.
💡 Il modello offre prestazioni solide, è leggero ed è open source, perfetto per l’uso in vari contesti. |