|
|
--- |
|
|
license: mit |
|
|
datasets: |
|
|
- Mattimax/TinyChat-ITA |
|
|
language: |
|
|
- it |
|
|
library_name: transformers |
|
|
tags: |
|
|
- DAC |
|
|
- M.INC. |
|
|
- conversational |
|
|
- llama |
|
|
- small-language-model |
|
|
base_model: |
|
|
- sapienzanlp/Minerva-350M-base-v1.0 |
|
|
--- |
|
|
|
|
|
[](https://huggingface.co/Mattimax) |
|
|
[](https://huggingface.co/MINC01) |
|
|
|
|
|
# DAC60M |
|
|
|
|
|
 |
|
|
|
|
|
**DAC60M** è un *compact language model* sviluppato da **M.INC. Research** e addestrato da **Mattimax**, progettato per esplorare il trade-off tra dimensioni ridotte ed efficacia nella generazione testuale in lingua italiana. |
|
|
|
|
|
Il modello adotta un’architettura **LLaMA-style decoder-only**, con un totale di ~67 milioni di parametri, ed è ottimizzato per scenari di ricerca, sperimentazione e deployment su risorse limitate. |
|
|
|
|
|
--- |
|
|
|
|
|
## Key Facts |
|
|
|
|
|
- **Developer:** M.INC. Research |
|
|
- **Trainer:** Mattimax |
|
|
https://huggingface.co/Mattimax |
|
|
- **Model type:** Decoder-only Transformer (LLaMA-style causal LM) |
|
|
- **Parameters:** ~67M |
|
|
- **Primary language:** Italian |
|
|
|
|
|
--- |
|
|
|
|
|
## 🔍 Overview |
|
|
|
|
|
DAC60M nasce come modello leggero ma strutturalmente solido, pensato per: |
|
|
|
|
|
- sperimentare architetture LLaMA compatte, |
|
|
- effettuare fine-tuning rapidi e a basso costo, |
|
|
- testare pipeline conversational su hardware limitato, |
|
|
- fungere da base per distillazione o ricerca accademica. |
|
|
|
|
|
L’obiettivo non è competere con modelli di scala superiore, ma offrire **un baseline pulito, trasparente e facilmente estendibile** nel segmento *small language models*. |
|
|
|
|
|
## 🧠 Architecture |
|
|
|
|
|
DAC60M utilizza una variante personalizzata di **LlamaForCausalLM**. |
|
|
|
|
|
### Core Configuration |
|
|
|
|
|
```json |
|
|
{ |
|
|
"architectures": ["LlamaForCausalLM"], |
|
|
"model_type": "llama", |
|
|
"hidden_size": 512, |
|
|
"intermediate_size": 2048, |
|
|
"num_hidden_layers": 8, |
|
|
"num_attention_heads": 8, |
|
|
"num_key_value_heads": 8, |
|
|
"head_dim": 64, |
|
|
"hidden_act": "silu", |
|
|
"max_position_embeddings": 2048, |
|
|
"vocab_size": 32768, |
|
|
"attention_bias": false, |
|
|
"attention_dropout": 0.0, |
|
|
"mlp_bias": false, |
|
|
"rms_norm_eps": 1e-06, |
|
|
"rope_theta": 10000.0, |
|
|
"rope_scaling": null, |
|
|
"tie_word_embeddings": false, |
|
|
"initializer_range": 0.02, |
|
|
"bos_token_id": 1, |
|
|
"eos_token_id": 2, |
|
|
"torch_dtype": "float32", |
|
|
"use_cache": true, |
|
|
"transformers_version": "4.51.3" |
|
|
} |
|
|
``` |
|
|
|
|
|
--- |
|
|
|
|
|
## 🔤 Tokenizer |
|
|
|
|
|
DAC60M utilizza il tokenizer del modello: |
|
|
|
|
|
**sapienzanlp/Minerva-350M-base-v1.0** |
|
|
[https://huggingface.co/sapienzanlp/Minerva-350M-base-v1.0](https://huggingface.co/sapienzanlp/Minerva-350M-base-v1.0) |
|
|
|
|
|
Motivazione: |
|
|
|
|
|
* Vocabolario ampio (32k) |
|
|
* Buon supporto multilingua |
|
|
* Stabilità comprovata |
|
|
|
|
|
--- |
|
|
|
|
|
## 📚 Training |
|
|
|
|
|
Dettagli sul training: |
|
|
|
|
|
* Framework: PyTorch + HuggingFace Transformers |
|
|
* Objective: Causal Language Modeling |
|
|
* Precisione: float32 |
|
|
|
|
|
*(Ulteriori dettagli su dataset, token count e schedule possono essere aggiunti se disponibili)* |
|
|
|
|
|
--- |
|
|
|
|
|
## 🎯 Intended Use |
|
|
|
|
|
DAC60M è adatto per: |
|
|
|
|
|
* Generazione di testo |
|
|
* Autocompletamento |
|
|
* Chatbot sperimentali |
|
|
* Studio di scaling laws |
|
|
* Distillazione |
|
|
|
|
|
Non è progettato per: |
|
|
|
|
|
* Uso medicale |
|
|
* Uso legale |
|
|
* Decision making critico |
|
|
|
|
|
--- |
|
|
|
|
|
## ⚠️ Limitations |
|
|
|
|
|
* Capacità limitate rispetto a modelli >1B parametri |
|
|
* Possibili allucinazioni |
|
|
* Sensibile alla qualità dei prompt |
|
|
|
|
|
--- |
|
|
|
|
|
## 🛡️ Ethical Considerations |
|
|
|
|
|
Il modello può generare contenuti scorretti o fuorvianti. |
|
|
È responsabilità dell’utente: |
|
|
|
|
|
* Filtrare output |
|
|
* Implementare moderation |
|
|
* Evitare usi dannosi |
|
|
|
|
|
--- |
|
|
|
|
|
## 🔁 Reproducibility |
|
|
|
|
|
Per riprodurre l’ambiente: |
|
|
|
|
|
```bash |
|
|
pip install transformers==4.51.3 torch |
|
|
``` |
|
|
|
|
|
--- |
|
|
|
|
|
## 📌 Citation |
|
|
|
|
|
```bibtex |
|
|
@misc{dac60m, |
|
|
title={DAC60M: A Compact LLaMA-style Language Model}, |
|
|
author={M.INC. Research and Mattimax}, |
|
|
year={2025}, |
|
|
url={https://huggingface.co/Mattimax} |
|
|
} |
|
|
``` |
|
|
|
|
|
--- |
|
|
|
|
|
## 📫 Contact |
|
|
|
|
|
* Organization: M.INC. (Research) |
|
|
* Trainer: Mattimax (HuggingFace) |