DAC60M

File size: 4,016 Bytes

---
license: mit
datasets:
- Mattimax/TinyChat-ITA
language:
- it
library_name: transformers
tags:
- DAC
- M.INC.
- conversational
- llama
- small-language-model
base_model:
- sapienzanlp/Minerva-350M-base-v1.0
---

[![HuggingFace](https://img.shields.io/badge/HuggingFace-Mattimax-brightgreen)](https://huggingface.co/Mattimax)
[![M.INC](https://img.shields.io/badge/M.INC-Labs-blue)](https://huggingface.co/MINC01)

# DAC60M

![Logo di DAC60M](https://huggingface.co/Mattimax/DAC60M/resolve/main/DAC60M_Logo/DAC60M_Logo.png)

**DAC60M** è un *compact language model* sviluppato da **M.INC. Research** e addestrato da **Mattimax**, progettato per esplorare il trade-off tra dimensioni ridotte ed efficacia nella generazione testuale in lingua italiana.

Il modello adotta un’architettura **LLaMA-style decoder-only**, con un totale di ~67 milioni di parametri, ed è ottimizzato per scenari di ricerca, sperimentazione e deployment su risorse limitate.

---

## Key Facts

- **Developer:** M.INC. Research  
- **Trainer:** Mattimax  
  https://huggingface.co/Mattimax  
- **Model type:** Decoder-only Transformer (LLaMA-style causal LM)  
- **Parameters:** ~67M  
- **Primary language:** Italian  

---

## 🔍 Overview

DAC60M nasce come modello leggero ma strutturalmente solido, pensato per:

- sperimentare architetture LLaMA compatte,
- effettuare fine-tuning rapidi e a basso costo,
- testare pipeline conversational su hardware limitato,
- fungere da base per distillazione o ricerca accademica.

L’obiettivo non è competere con modelli di scala superiore, ma offrire **un baseline pulito, trasparente e facilmente estendibile** nel segmento *small language models*.

## 🧠 Architecture

DAC60M utilizza una variante personalizzata di **LlamaForCausalLM**.

### Core Configuration

```json
{
  "architectures": ["LlamaForCausalLM"],
  "model_type": "llama",
  "hidden_size": 512,
  "intermediate_size": 2048,
  "num_hidden_layers": 8,
  "num_attention_heads": 8,
  "num_key_value_heads": 8,
  "head_dim": 64,
  "hidden_act": "silu",
  "max_position_embeddings": 2048,
  "vocab_size": 32768,
  "attention_bias": false,
  "attention_dropout": 0.0,
  "mlp_bias": false,
  "rms_norm_eps": 1e-06,
  "rope_theta": 10000.0,
  "rope_scaling": null,
  "tie_word_embeddings": false,
  "initializer_range": 0.02,
  "bos_token_id": 1,
  "eos_token_id": 2,
  "torch_dtype": "float32",
  "use_cache": true,
  "transformers_version": "4.51.3"
}
```

---

## 🔤 Tokenizer

DAC60M utilizza il tokenizer del modello:

**sapienzanlp/Minerva-350M-base-v1.0**
[https://huggingface.co/sapienzanlp/Minerva-350M-base-v1.0](https://huggingface.co/sapienzanlp/Minerva-350M-base-v1.0)

Motivazione:

* Vocabolario ampio (32k)
* Buon supporto multilingua
* Stabilità comprovata

---

## 📚 Training

Dettagli sul training:

* Framework: PyTorch + HuggingFace Transformers
* Objective: Causal Language Modeling
* Precisione: float32

*(Ulteriori dettagli su dataset, token count e schedule possono essere aggiunti se disponibili)*

---

## 🎯 Intended Use

DAC60M è adatto per:

* Generazione di testo
* Autocompletamento
* Chatbot sperimentali
* Studio di scaling laws
* Distillazione

Non è progettato per:

* Uso medicale
* Uso legale
* Decision making critico

---

## ⚠️ Limitations

* Capacità limitate rispetto a modelli >1B parametri
* Possibili allucinazioni
* Sensibile alla qualità dei prompt

---

## 🛡️ Ethical Considerations

Il modello può generare contenuti scorretti o fuorvianti.
È responsabilità dell’utente:

* Filtrare output
* Implementare moderation
* Evitare usi dannosi

---

## 🔁 Reproducibility

Per riprodurre l’ambiente:

```bash
pip install transformers==4.51.3 torch
```

---

## 📌 Citation

```bibtex
@misc{dac60m,
  title={DAC60M: A Compact LLaMA-style Language Model},
  author={M.INC. Research and Mattimax},
  year={2025},
  url={https://huggingface.co/Mattimax}
}
```

---

## 📫 Contact

* Organization: M.INC. (Research)
* Trainer: Mattimax (HuggingFace)