File size: 4,016 Bytes
6ea0c25
 
 
 
 
 
 
 
 
 
 
8fd22f8
 
8c07b56
 
8efe267
 
6f3ccd4
 
 
8fd22f8
8efe267
ecf572f
62b9f43
8fd22f8
8efe267
8fd22f8
8efe267
8fd22f8
8efe267
8fd22f8
8efe267
8fd22f8
 
 
 
 
 
8efe267
8fd22f8
8efe267
 
 
8fd22f8
8efe267
8fd22f8
 
 
 
8efe267
8fd22f8
8efe267
 
 
f96f448
8efe267
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
f96f448
8efe267
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
f96f448
8efe267
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1d5fcab
 
8efe267
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
---
license: mit
datasets:
- Mattimax/TinyChat-ITA
language:
- it
library_name: transformers
tags:
- DAC
- M.INC.
- conversational
- llama
- small-language-model
base_model:
- sapienzanlp/Minerva-350M-base-v1.0
---

[![HuggingFace](https://img.shields.io/badge/HuggingFace-Mattimax-brightgreen)](https://huggingface.co/Mattimax)
[![M.INC](https://img.shields.io/badge/M.INC-Labs-blue)](https://huggingface.co/MINC01)

# DAC60M

![Logo di DAC60M](https://huggingface.co/Mattimax/DAC60M/resolve/main/DAC60M_Logo/DAC60M_Logo.png)

**DAC60M** è un *compact language model* sviluppato da **M.INC. Research** e addestrato da **Mattimax**, progettato per esplorare il trade-off tra dimensioni ridotte ed efficacia nella generazione testuale in lingua italiana.

Il modello adotta un’architettura **LLaMA-style decoder-only**, con un totale di ~67 milioni di parametri, ed è ottimizzato per scenari di ricerca, sperimentazione e deployment su risorse limitate.

---

## Key Facts

- **Developer:** M.INC. Research  
- **Trainer:** Mattimax  
  https://huggingface.co/Mattimax  
- **Model type:** Decoder-only Transformer (LLaMA-style causal LM)  
- **Parameters:** ~67M  
- **Primary language:** Italian  

---

## 🔍 Overview

DAC60M nasce come modello leggero ma strutturalmente solido, pensato per:

- sperimentare architetture LLaMA compatte,
- effettuare fine-tuning rapidi e a basso costo,
- testare pipeline conversational su hardware limitato,
- fungere da base per distillazione o ricerca accademica.

L’obiettivo non è competere con modelli di scala superiore, ma offrire **un baseline pulito, trasparente e facilmente estendibile** nel segmento *small language models*.

## 🧠 Architecture

DAC60M utilizza una variante personalizzata di **LlamaForCausalLM**.

### Core Configuration

```json
{
  "architectures": ["LlamaForCausalLM"],
  "model_type": "llama",
  "hidden_size": 512,
  "intermediate_size": 2048,
  "num_hidden_layers": 8,
  "num_attention_heads": 8,
  "num_key_value_heads": 8,
  "head_dim": 64,
  "hidden_act": "silu",
  "max_position_embeddings": 2048,
  "vocab_size": 32768,
  "attention_bias": false,
  "attention_dropout": 0.0,
  "mlp_bias": false,
  "rms_norm_eps": 1e-06,
  "rope_theta": 10000.0,
  "rope_scaling": null,
  "tie_word_embeddings": false,
  "initializer_range": 0.02,
  "bos_token_id": 1,
  "eos_token_id": 2,
  "torch_dtype": "float32",
  "use_cache": true,
  "transformers_version": "4.51.3"
}
```

---

## 🔤 Tokenizer

DAC60M utilizza il tokenizer del modello:

**sapienzanlp/Minerva-350M-base-v1.0**
[https://huggingface.co/sapienzanlp/Minerva-350M-base-v1.0](https://huggingface.co/sapienzanlp/Minerva-350M-base-v1.0)

Motivazione:

* Vocabolario ampio (32k)
* Buon supporto multilingua
* Stabilità comprovata

---

## 📚 Training

Dettagli sul training:

* Framework: PyTorch + HuggingFace Transformers
* Objective: Causal Language Modeling
* Precisione: float32

*(Ulteriori dettagli su dataset, token count e schedule possono essere aggiunti se disponibili)*

---

## 🎯 Intended Use

DAC60M è adatto per:

* Generazione di testo
* Autocompletamento
* Chatbot sperimentali
* Studio di scaling laws
* Distillazione

Non è progettato per:

* Uso medicale
* Uso legale
* Decision making critico

---

## ⚠️ Limitations

* Capacità limitate rispetto a modelli >1B parametri
* Possibili allucinazioni
* Sensibile alla qualità dei prompt

---

## 🛡️ Ethical Considerations

Il modello può generare contenuti scorretti o fuorvianti.
È responsabilità dell’utente:

* Filtrare output
* Implementare moderation
* Evitare usi dannosi

---

## 🔁 Reproducibility

Per riprodurre l’ambiente:

```bash
pip install transformers==4.51.3 torch
```

---

## 📌 Citation

```bibtex
@misc{dac60m,
  title={DAC60M: A Compact LLaMA-style Language Model},
  author={M.INC. Research and Mattimax},
  year={2025},
  url={https://huggingface.co/Mattimax}
}
```

---

## 📫 Contact

* Organization: M.INC. (Research)
* Trainer: Mattimax (HuggingFace)