Update README.md

18774ae verified 10 months ago

4.2 kB

	---
	language:
	- "it"
	- "en"
	thumbnail: "https://img.shields.io/badge/HuggingFace-Model-orange"
	tags:
	- multimodal
	- ai
	- vision-language
	- italian
	license: "apache-2.0"
	datasets:
	- "Mattimax/DATA-AI_IT"
	metrics:
	- "256M parametri"
	- "Inferenze con < 1 GB di RAM GPU"
	base_model: "HuggingFaceTB/SmolVLM-256M-Instruct"
	---

	# Mattimax/DATA-AI_Smol256M-Instruct

	![License: Apache-2.0](https://img.shields.io/badge/License-Apache%202.0-blue.svg)
	![Hugging Face Model](https://img.shields.io/badge/HuggingFace-Model-orange)

	---

	## 📜 Licenza
	Il modello è distribuito sotto la licenza Apache 2.0, che consente l’uso commerciale, la modifica, la distribuzione e la sublicenza.

	## 📚 Dataset
	- [Mattimax/DATA-AI_IT](https://huggingface.co/datasets/Mattimax/DATA-AI_IT)

	## 🌍 Lingue Supportate
	- it Italiano
	- en Inglese

	## 🏗 Modello Base
	- [HuggingFaceTB/SmolVLM-256M-Instruct](https://huggingface.co/HuggingFaceTB/SmolVLM-256M-Instruct)

	## 🛠 Libreria Supportata
	- 🤗 Transformers

	---

	## 📝 Descrizione

	"Mattimax/DATA-AI_Smol256M-Instruct" è un modello AI multimodale ottimizzato per l’italiano, basato su "HuggingFaceTB/SmolVLM-256M-Instruct" e sottoposto a fine-tuning con il dataset "Mattimax/DATA-AI_IT".

	Il modello è progettato per interpretare e generare testo in combinazione con immagini, garantendo un'ottima efficienza su dispositivi con risorse limitate. Grazie al fine-tuning specifico per la lingua italiana, offre prestazioni avanzate in compiti multimodali, migliorando l’accuratezza delle risposte e la naturalezza del linguaggio.

	---

	## 🚀 Caratteristiche Principali

	✅ Multimodalità – Supporta l’elaborazione congiunta di testo e immagini.
	✅ Compattezza – Solo 256M parametri, con inferenze su immagini che richiedono meno di 1 GB di RAM GPU.
	✅ Ottimizzazione per l’italiano – Addestrato su un dataset curato per migliorare la qualità delle risposte in italiano.
	✅ Efficienza Computazionale – Perfetto per applicazioni su hardware a risorse limitate.
	✅ Supporto Open Source – Pensato per democratizzare l’uso dell’IA e promuovere la ricerca libera.

	---

	## 🏗 Origini del Modello

	[HuggingFaceTB/SmolVLM-256M-Instruct](https://huggingface.co/HuggingFaceTB/SmolVLM-256M-Instruct) è il modello di base da cui è stato sviluppato "Mattimax/DATA-AI_Smol256M-Instruct".

	📌 SmolVLM-256M-Instruct è attualmente il modello multimodale più leggero disponibile.
	📌 Permette l’elaborazione di testo e immagini con un bilanciamento ideale tra performance ed efficienza.
	📌 È in grado di operare su hardware con risorse limitate senza sacrificare la qualità delle risposte.

	---

	## 🎯 Applicazioni

	🔹 Image Captioning – Generazione automatica di descrizioni dettagliate per immagini.
	🔹 Visual Question Answering – Risposte a domande su contenuti visivi.
	🔹 Trascrizione e Traduzione Multimodale – Estrazione e conversione di testo da immagini.
	🔹 AI su Dispositivi Edge – Perfetto per applicazioni mobile o su dispositivi embedded.

	---

	## 🛠 Come Usarlo

	Il modello può essere facilmente caricato tramite 🤗 Transformers:

	```python
	from transformers import AutoModelForVision2Seq, AutoProcessor
	import torch
	from PIL import Image

	# Carica il modello e il processore
	model_name = "Mattimax/DATA-AI_Smol256M-Instruct"
	model = AutoModelForVision2Seq.from_pretrained(model_name)
	processor = AutoProcessor.from_pretrained(model_name)

	# Esempio di input con immagine e testo
	image = Image.open("example.jpg")
	inputs = processor(images=image, text="Cosa c'è nell'immagine?", return_tensors="pt")

	# Genera la risposta
	with torch.no_grad():
	outputs = model.generate(**inputs)

	# Decodifica la risposta
	response = processor.batch_decode(outputs, skip_special_tokens=True)[0]
	print("Risposta del modello:", response)
	```
	---

	## 🏁 Conclusioni

	✨ "Mattimax/DATA-AI_Smol256M-Instruct" rappresenta un passo avanti per l’IA multimodale in italiano.
	💡 Il modello offre prestazioni solide, è leggero ed è open source, perfetto per l’uso in vari contesti.