|
|
--- |
|
|
license: apache-2.0 |
|
|
license_link: https://huggingface.co/Qwen/Qwen2.5-0.5B-Instruct/blob/main/LICENSE |
|
|
language: |
|
|
- it |
|
|
- en |
|
|
pipeline_tag: text-generation |
|
|
base_model: Qwen/Qwen2.5-0.5B-Instruct |
|
|
tags: |
|
|
- chat |
|
|
library_name: transformers |
|
|
datasets: |
|
|
- Mattimax/DATA-AI_Conversation_ITA |
|
|
- teelinsan/camoscio |
|
|
- efederici/alpaca-gpt4-it |
|
|
- s-conia/arc_italian |
|
|
- alexandrainst/m_mmlu |
|
|
--- |
|
|
|
|
|
# 🧠 Mattimax/DATA-AI\_Chat\_4.1\_0.5B |
|
|
|
|
|
**DATA-AI Chat 4.1 (0.5B)** è un modello di linguaggio di tipo *instruction-following* fine-tuned sulla base di [`Qwen/Qwen2.5-0.5B-Instruct`](https://huggingface.co/Qwen/Qwen2.5-0.5B-Instruct), specializzato per generazione, conversazione e risoluzione di compiti in lingua **italiana**. |
|
|
|
|
|
È stato addestrato su un mix curato di dataset aperti per rafforzare le capacità del modello in ambiti conversazionali, accademici e di ragionamento automatico. |
|
|
|
|
|
--- |
|
|
|
|
|
## 📌 Modello di Partenza |
|
|
|
|
|
* **Base model**: `Qwen/Qwen2.5-0.5B-Instruct` |
|
|
* **Architettura**: Causal Language Model (decoder-only) |
|
|
* **Parametri**: 0.5 miliardi |
|
|
* **Licenza originale**: [Qwen License](https://huggingface.co/Qwen/Qwen2.5-0.5B-Instruct) |
|
|
|
|
|
--- |
|
|
|
|
|
## 🎯 Obiettivo del Fine-tuning |
|
|
|
|
|
Il fine-tuning ha mirato a: |
|
|
|
|
|
* Ottimizzare il comportamento *instruction-following* in italiano |
|
|
* Migliorare l’interazione in stile chatbot |
|
|
* Aumentare le performance in domande a scelta multipla e contenuti accademici |
|
|
* Integrare capacità generative con robustezza nei task di comprensione |
|
|
|
|
|
--- |
|
|
|
|
|
## 🗂️ Dataset utilizzati |
|
|
|
|
|
Il modello è stato addestrato su un mix di dataset open-source contenenti sia dialoghi generativi che domande complesse. |
|
|
Tutti i dataset sono in lingua italiana o sono stati tradotti automaticamente. |
|
|
|
|
|
| Dataset | Fonte | Tipo | Note | |
|
|
| ------------------------------------- | -------------------- | ----------------- | ---------------------- | |
|
|
| `Mattimax/DATA-AI_Conversation_ITA` | Conversazionale | Prompt + Risposta | Chat generative | |
|
|
| `teelinsan/camoscio` | Instruction-based | Prompt + Risposta | Domande dirette | |
|
|
| `efederici/alpaca-gpt4-it` | Instruction tuning | Prompt + Output | Tradotto da Alpaca | |
|
|
| `s-conia/arc_italian` (ARC Challenge) | QA a scelta multipla | Tradotto | Task di ragionamento | |
|
|
| `alexandrainst/m_mmlu` (`it`) | QA accademico | Tradotto | MMLU versione italiana | |
|
|
|
|
|
> Gli esempi sono stati filtrati per garantire che ogni esempio avesse sia un’istruzione (o prompt) che una risposta (o output), con un preprocessing dedicato per ARC e MMLU. |
|
|
|
|
|
--- |
|
|
|
|
|
## 🌍 Lingue |
|
|
|
|
|
* **Lingua di addestramento principale**: 🇮🇹 Italiano |
|
|
|
|
|
Il modello si basa su una base multilingua, ma il fine-tuning è interamente focalizzato sull’italiano. |
|
|
|
|
|
--- |
|
|
|
|
|
## ⚙️ Dettagli del Training |
|
|
|
|
|
| Parametro | Valore | |
|
|
| ---------------------- | ------------------------------------- | |
|
|
| Max sequence length | 1024 | |
|
|
| Batch size effettivo | 32 (2 per device x 16 grad. accum.) | |
|
|
| Learning rate | 2e-5 | |
|
|
| Max steps | 5000 | |
|
|
| Validation split | 5% | |
|
|
| Precisione | BF16 | |
|
|
| Gradient checkpointing | ✅ Abilitato | |
|
|
|
|
|
--- |
|
|
|
|
|
## 📄 Licenza |
|
|
|
|
|
Il modello eredita la licenza del modello di partenza: **[Qwen License](https://huggingface.co/Qwen/Qwen2.5-0.5B-Instruct)**. |
|
|
Assicurati di rispettare i termini di utilizzo e distribuzione. |
|
|
|
|
|
--- |
|
|
|
|
|
## 🚀 Come usare il modello |
|
|
|
|
|
```python |
|
|
from transformers import AutoModelForCausalLM, AutoTokenizer |
|
|
|
|
|
model_name = "Mattimax/DATA-AI_Chat_4.1_0.5B" |
|
|
|
|
|
tokenizer = AutoTokenizer.from_pretrained(model_name) |
|
|
model = AutoModelForCausalLM.from_pretrained(model_name) |
|
|
|
|
|
prompt = "Spiega in parole semplici la fotosintesi clorofilliana." |
|
|
input_ids = tokenizer(prompt, return_tensors="pt").input_ids |
|
|
|
|
|
outputs = model.generate(input_ids, max_new_tokens=200, do_sample=True) |
|
|
print(tokenizer.decode(outputs[0], skip_special_tokens=True)) |
|
|
``` |
|
|
|
|
|
--- |
|
|
|
|
|
## 📊 Valutazione qualitativa |
|
|
|
|
|
Durante il fine-tuning, il modello ha dimostrato: |
|
|
|
|
|
* Migliore coerenza nelle risposte lunghe |
|
|
* Comprensione semantica di prompt complessi |
|
|
* Aumento dell’accuratezza nei task di QA (ARC e MMLU in italiano) |
|
|
* Fluidità e naturalezza nei contesti di chat |
|
|
|
|
|
Benchmark quantitativi estesi possono essere eseguiti successivamente. |
|
|
|
|
|
--- |
|
|
|
|
|
## 👤 Autore e contatti |
|
|
|
|
|
Fine-tuning eseguito da **Mattimax** |
|
|
📬 Per feedback, segnalazioni o collaborazioni, apri una issue o contattami tramite Hugging Face. |