DAC60M / README.md

Update README.md

ecf572f verified 11 days ago

4.02 kB

	---
	license: mit
	datasets:
	- Mattimax/TinyChat-ITA
	language:
	- it
	library_name: transformers
	tags:
	- DAC
	- M.INC.
	- conversational
	- llama
	- small-language-model
	base_model:
	- sapienzanlp/Minerva-350M-base-v1.0
	---

	[![HuggingFace](https://img.shields.io/badge/HuggingFace-Mattimax-brightgreen)](https://huggingface.co/Mattimax)
	[![M.INC](https://img.shields.io/badge/M.INC-Labs-blue)](https://huggingface.co/MINC01)

	# DAC60M

	![Logo di DAC60M](https://huggingface.co/Mattimax/DAC60M/resolve/main/DAC60M_Logo/DAC60M_Logo.png)

	DAC60M è un compact language model sviluppato da M.INC. Research e addestrato da Mattimax, progettato per esplorare il trade-off tra dimensioni ridotte ed efficacia nella generazione testuale in lingua italiana.

	Il modello adotta un’architettura LLaMA-style decoder-only, con un totale di ~67 milioni di parametri, ed è ottimizzato per scenari di ricerca, sperimentazione e deployment su risorse limitate.

	---

	## Key Facts

	- Developer: M.INC. Research
	- Trainer: Mattimax
	https://huggingface.co/Mattimax
	- Model type: Decoder-only Transformer (LLaMA-style causal LM)
	- Parameters: ~67M
	- Primary language: Italian

	---

	## 🔍 Overview

	DAC60M nasce come modello leggero ma strutturalmente solido, pensato per:

	- sperimentare architetture LLaMA compatte,
	- effettuare fine-tuning rapidi e a basso costo,
	- testare pipeline conversational su hardware limitato,
	- fungere da base per distillazione o ricerca accademica.

	L’obiettivo non è competere con modelli di scala superiore, ma offrire un baseline pulito, trasparente e facilmente estendibile nel segmento small language models.

	## 🧠 Architecture

	DAC60M utilizza una variante personalizzata di LlamaForCausalLM.

	### Core Configuration

	```json
	{
	"architectures": ["LlamaForCausalLM"],
	"model_type": "llama",
	"hidden_size": 512,
	"intermediate_size": 2048,
	"num_hidden_layers": 8,
	"num_attention_heads": 8,
	"num_key_value_heads": 8,
	"head_dim": 64,
	"hidden_act": "silu",
	"max_position_embeddings": 2048,
	"vocab_size": 32768,
	"attention_bias": false,
	"attention_dropout": 0.0,
	"mlp_bias": false,
	"rms_norm_eps": 1e-06,
	"rope_theta": 10000.0,
	"rope_scaling": null,
	"tie_word_embeddings": false,
	"initializer_range": 0.02,
	"bos_token_id": 1,
	"eos_token_id": 2,
	"torch_dtype": "float32",
	"use_cache": true,
	"transformers_version": "4.51.3"
	}
	```

	---

	## 🔤 Tokenizer

	DAC60M utilizza il tokenizer del modello:

	sapienzanlp/Minerva-350M-base-v1.0
	[https://huggingface.co/sapienzanlp/Minerva-350M-base-v1.0](https://huggingface.co/sapienzanlp/Minerva-350M-base-v1.0)

	Motivazione:

	* Vocabolario ampio (32k)
	* Buon supporto multilingua
	* Stabilità comprovata

	---

	## 📚 Training

	Dettagli sul training:

	* Framework: PyTorch + HuggingFace Transformers
	* Objective: Causal Language Modeling
	* Precisione: float32

	(Ulteriori dettagli su dataset, token count e schedule possono essere aggiunti se disponibili)

	---

	## 🎯 Intended Use

	DAC60M è adatto per:

	* Generazione di testo
	* Autocompletamento
	* Chatbot sperimentali
	* Studio di scaling laws
	* Distillazione

	Non è progettato per:

	* Uso medicale
	* Uso legale
	* Decision making critico

	---

	## ⚠️ Limitations

	* Capacità limitate rispetto a modelli >1B parametri
	* Possibili allucinazioni
	* Sensibile alla qualità dei prompt

	---

	## 🛡️ Ethical Considerations

	Il modello può generare contenuti scorretti o fuorvianti.
	È responsabilità dell’utente:

	* Filtrare output
	* Implementare moderation
	* Evitare usi dannosi

	---

	## 🔁 Reproducibility

	Per riprodurre l’ambiente:

	```bash
	pip install transformers==4.51.3 torch
	```

	---

	## 📌 Citation

	```bibtex
	@misc{dac60m,
	title={DAC60M: A Compact LLaMA-style Language Model},
	author={M.INC. Research and Mattimax},
	year={2025},
	url={https://huggingface.co/Mattimax}
	}
	```

	---

	## 📫 Contact

	* Organization: M.INC. (Research)
	* Trainer: Mattimax (HuggingFace)