Update README.md

b657806 verified 6 months ago

4.77 kB

	---
	license: apache-2.0
	license_link: https://huggingface.co/Qwen/Qwen2.5-0.5B-Instruct/blob/main/LICENSE
	language:
	- it
	- en
	pipeline_tag: text-generation
	base_model: Qwen/Qwen2.5-0.5B-Instruct
	tags:
	- chat
	library_name: transformers
	datasets:
	- Mattimax/DATA-AI_Conversation_ITA
	- teelinsan/camoscio
	- efederici/alpaca-gpt4-it
	- s-conia/arc_italian
	- alexandrainst/m_mmlu
	---

	# 🧠 Mattimax/DATA-AI\_Chat\_4.1\_0.5B

	DATA-AI Chat 4.1 (0.5B) è un modello di linguaggio di tipo instruction-following fine-tuned sulla base di [`Qwen/Qwen2.5-0.5B-Instruct`](https://huggingface.co/Qwen/Qwen2.5-0.5B-Instruct), specializzato per generazione, conversazione e risoluzione di compiti in lingua italiana.

	È stato addestrato su un mix curato di dataset aperti per rafforzare le capacità del modello in ambiti conversazionali, accademici e di ragionamento automatico.

	---

	## 📌 Modello di Partenza

	* Base model: `Qwen/Qwen2.5-0.5B-Instruct`
	* Architettura: Causal Language Model (decoder-only)
	* Parametri: 0.5 miliardi
	* Licenza originale: [Qwen License](https://huggingface.co/Qwen/Qwen2.5-0.5B-Instruct)

	---

	## 🎯 Obiettivo del Fine-tuning

	Il fine-tuning ha mirato a:

	* Ottimizzare il comportamento instruction-following in italiano
	* Migliorare l’interazione in stile chatbot
	* Aumentare le performance in domande a scelta multipla e contenuti accademici
	* Integrare capacità generative con robustezza nei task di comprensione

	---

	## 🗂️ Dataset utilizzati

	Il modello è stato addestrato su un mix di dataset open-source contenenti sia dialoghi generativi che domande complesse.
	Tutti i dataset sono in lingua italiana o sono stati tradotti automaticamente.

	\| Dataset \| Fonte \| Tipo \| Note \|
	\| ------------------------------------- \| -------------------- \| ----------------- \| ---------------------- \|
	\| `Mattimax/DATA-AI_Conversation_ITA` \| Conversazionale \| Prompt + Risposta \| Chat generative \|
	\| `teelinsan/camoscio` \| Instruction-based \| Prompt + Risposta \| Domande dirette \|
	\| `efederici/alpaca-gpt4-it` \| Instruction tuning \| Prompt + Output \| Tradotto da Alpaca \|
	\| `s-conia/arc_italian` (ARC Challenge) \| QA a scelta multipla \| Tradotto \| Task di ragionamento \|
	\| `alexandrainst/m_mmlu` (`it`) \| QA accademico \| Tradotto \| MMLU versione italiana \|

	> Gli esempi sono stati filtrati per garantire che ogni esempio avesse sia un’istruzione (o prompt) che una risposta (o output), con un preprocessing dedicato per ARC e MMLU.

	---

	## 🌍 Lingue

	* Lingua di addestramento principale: 🇮🇹 Italiano

	Il modello si basa su una base multilingua, ma il fine-tuning è interamente focalizzato sull’italiano.

	---

	## ⚙️ Dettagli del Training

	\| Parametro \| Valore \|
	\| ---------------------- \| ------------------------------------- \|
	\| Max sequence length \| 1024 \|
	\| Batch size effettivo \| 32 (2 per device x 16 grad. accum.) \|
	\| Learning rate \| 2e-5 \|
	\| Max steps \| 5000 \|
	\| Validation split \| 5% \|
	\| Precisione \| BF16 \|
	\| Gradient checkpointing \| ✅ Abilitato \|

	---

	## 📄 Licenza

	Il modello eredita la licenza del modello di partenza: [Qwen License](https://huggingface.co/Qwen/Qwen2.5-0.5B-Instruct).
	Assicurati di rispettare i termini di utilizzo e distribuzione.

	---

	## 🚀 Come usare il modello

	```python
	from transformers import AutoModelForCausalLM, AutoTokenizer

	model_name = "Mattimax/DATA-AI_Chat_4.1_0.5B"

	tokenizer = AutoTokenizer.from_pretrained(model_name)
	model = AutoModelForCausalLM.from_pretrained(model_name)

	prompt = "Spiega in parole semplici la fotosintesi clorofilliana."
	input_ids = tokenizer(prompt, return_tensors="pt").input_ids

	outputs = model.generate(input_ids, max_new_tokens=200, do_sample=True)
	print(tokenizer.decode(outputs[0], skip_special_tokens=True))
	```

	---

	## 📊 Valutazione qualitativa

	Durante il fine-tuning, il modello ha dimostrato:

	* Migliore coerenza nelle risposte lunghe
	* Comprensione semantica di prompt complessi
	* Aumento dell’accuratezza nei task di QA (ARC e MMLU in italiano)
	* Fluidità e naturalezza nei contesti di chat

	Benchmark quantitativi estesi possono essere eseguiti successivamente.

	---

	## 👤 Autore e contatti

	Fine-tuning eseguito da Mattimax
	📬 Per feedback, segnalazioni o collaborazioni, apri una issue o contattami tramite Hugging Face.