File size: 4,016 Bytes
6ea0c25 8fd22f8 8c07b56 8efe267 6f3ccd4 8fd22f8 8efe267 ecf572f 62b9f43 8fd22f8 8efe267 8fd22f8 8efe267 8fd22f8 8efe267 8fd22f8 8efe267 8fd22f8 8efe267 8fd22f8 8efe267 8fd22f8 8efe267 8fd22f8 8efe267 8fd22f8 8efe267 f96f448 8efe267 f96f448 8efe267 f96f448 8efe267 1d5fcab 8efe267 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 |
---
license: mit
datasets:
- Mattimax/TinyChat-ITA
language:
- it
library_name: transformers
tags:
- DAC
- M.INC.
- conversational
- llama
- small-language-model
base_model:
- sapienzanlp/Minerva-350M-base-v1.0
---
[](https://huggingface.co/Mattimax)
[](https://huggingface.co/MINC01)
# DAC60M

**DAC60M** è un *compact language model* sviluppato da **M.INC. Research** e addestrato da **Mattimax**, progettato per esplorare il trade-off tra dimensioni ridotte ed efficacia nella generazione testuale in lingua italiana.
Il modello adotta un’architettura **LLaMA-style decoder-only**, con un totale di ~67 milioni di parametri, ed è ottimizzato per scenari di ricerca, sperimentazione e deployment su risorse limitate.
---
## Key Facts
- **Developer:** M.INC. Research
- **Trainer:** Mattimax
https://huggingface.co/Mattimax
- **Model type:** Decoder-only Transformer (LLaMA-style causal LM)
- **Parameters:** ~67M
- **Primary language:** Italian
---
## 🔍 Overview
DAC60M nasce come modello leggero ma strutturalmente solido, pensato per:
- sperimentare architetture LLaMA compatte,
- effettuare fine-tuning rapidi e a basso costo,
- testare pipeline conversational su hardware limitato,
- fungere da base per distillazione o ricerca accademica.
L’obiettivo non è competere con modelli di scala superiore, ma offrire **un baseline pulito, trasparente e facilmente estendibile** nel segmento *small language models*.
## 🧠 Architecture
DAC60M utilizza una variante personalizzata di **LlamaForCausalLM**.
### Core Configuration
```json
{
"architectures": ["LlamaForCausalLM"],
"model_type": "llama",
"hidden_size": 512,
"intermediate_size": 2048,
"num_hidden_layers": 8,
"num_attention_heads": 8,
"num_key_value_heads": 8,
"head_dim": 64,
"hidden_act": "silu",
"max_position_embeddings": 2048,
"vocab_size": 32768,
"attention_bias": false,
"attention_dropout": 0.0,
"mlp_bias": false,
"rms_norm_eps": 1e-06,
"rope_theta": 10000.0,
"rope_scaling": null,
"tie_word_embeddings": false,
"initializer_range": 0.02,
"bos_token_id": 1,
"eos_token_id": 2,
"torch_dtype": "float32",
"use_cache": true,
"transformers_version": "4.51.3"
}
```
---
## 🔤 Tokenizer
DAC60M utilizza il tokenizer del modello:
**sapienzanlp/Minerva-350M-base-v1.0**
[https://huggingface.co/sapienzanlp/Minerva-350M-base-v1.0](https://huggingface.co/sapienzanlp/Minerva-350M-base-v1.0)
Motivazione:
* Vocabolario ampio (32k)
* Buon supporto multilingua
* Stabilità comprovata
---
## 📚 Training
Dettagli sul training:
* Framework: PyTorch + HuggingFace Transformers
* Objective: Causal Language Modeling
* Precisione: float32
*(Ulteriori dettagli su dataset, token count e schedule possono essere aggiunti se disponibili)*
---
## 🎯 Intended Use
DAC60M è adatto per:
* Generazione di testo
* Autocompletamento
* Chatbot sperimentali
* Studio di scaling laws
* Distillazione
Non è progettato per:
* Uso medicale
* Uso legale
* Decision making critico
---
## ⚠️ Limitations
* Capacità limitate rispetto a modelli >1B parametri
* Possibili allucinazioni
* Sensibile alla qualità dei prompt
---
## 🛡️ Ethical Considerations
Il modello può generare contenuti scorretti o fuorvianti.
È responsabilità dell’utente:
* Filtrare output
* Implementare moderation
* Evitare usi dannosi
---
## 🔁 Reproducibility
Per riprodurre l’ambiente:
```bash
pip install transformers==4.51.3 torch
```
---
## 📌 Citation
```bibtex
@misc{dac60m,
title={DAC60M: A Compact LLaMA-style Language Model},
author={M.INC. Research and Mattimax},
year={2025},
url={https://huggingface.co/Mattimax}
}
```
---
## 📫 Contact
* Organization: M.INC. (Research)
* Trainer: Mattimax (HuggingFace) |