--- license: mit datasets: - Mattimax/TinyChat-ITA language: - it library_name: transformers tags: - DAC - M.INC. - conversational - llama - small-language-model base_model: - sapienzanlp/Minerva-350M-base-v1.0 --- [![HuggingFace](https://img.shields.io/badge/HuggingFace-Mattimax-brightgreen)](https://huggingface.co/Mattimax) [![M.INC](https://img.shields.io/badge/M.INC-Labs-blue)](https://huggingface.co/MINC01) # DAC60M ![Logo di DAC60M](https://huggingface.co/Mattimax/DAC60M/resolve/main/DAC60M_Logo/DAC60M_Logo.png) **DAC60M** è un *compact language model* sviluppato da **M.INC. Research** e addestrato da **Mattimax**, progettato per esplorare il trade-off tra dimensioni ridotte ed efficacia nella generazione testuale in lingua italiana. Il modello adotta un’architettura **LLaMA-style decoder-only**, con un totale di ~67 milioni di parametri, ed è ottimizzato per scenari di ricerca, sperimentazione e deployment su risorse limitate. --- ## Key Facts - **Developer:** M.INC. Research - **Trainer:** Mattimax https://huggingface.co/Mattimax - **Model type:** Decoder-only Transformer (LLaMA-style causal LM) - **Parameters:** ~67M - **Primary language:** Italian --- ## 🔍 Overview DAC60M nasce come modello leggero ma strutturalmente solido, pensato per: - sperimentare architetture LLaMA compatte, - effettuare fine-tuning rapidi e a basso costo, - testare pipeline conversational su hardware limitato, - fungere da base per distillazione o ricerca accademica. L’obiettivo non è competere con modelli di scala superiore, ma offrire **un baseline pulito, trasparente e facilmente estendibile** nel segmento *small language models*. ## 🧠 Architecture DAC60M utilizza una variante personalizzata di **LlamaForCausalLM**. ### Core Configuration ```json { "architectures": ["LlamaForCausalLM"], "model_type": "llama", "hidden_size": 512, "intermediate_size": 2048, "num_hidden_layers": 8, "num_attention_heads": 8, "num_key_value_heads": 8, "head_dim": 64, "hidden_act": "silu", "max_position_embeddings": 2048, "vocab_size": 32768, "attention_bias": false, "attention_dropout": 0.0, "mlp_bias": false, "rms_norm_eps": 1e-06, "rope_theta": 10000.0, "rope_scaling": null, "tie_word_embeddings": false, "initializer_range": 0.02, "bos_token_id": 1, "eos_token_id": 2, "torch_dtype": "float32", "use_cache": true, "transformers_version": "4.51.3" } ``` --- ## 🔤 Tokenizer DAC60M utilizza il tokenizer del modello: **sapienzanlp/Minerva-350M-base-v1.0** [https://huggingface.co/sapienzanlp/Minerva-350M-base-v1.0](https://huggingface.co/sapienzanlp/Minerva-350M-base-v1.0) Motivazione: * Vocabolario ampio (32k) * Buon supporto multilingua * Stabilità comprovata --- ## 📚 Training Dettagli sul training: * Framework: PyTorch + HuggingFace Transformers * Objective: Causal Language Modeling * Precisione: float32 *(Ulteriori dettagli su dataset, token count e schedule possono essere aggiunti se disponibili)* --- ## 🎯 Intended Use DAC60M è adatto per: * Generazione di testo * Autocompletamento * Chatbot sperimentali * Studio di scaling laws * Distillazione Non è progettato per: * Uso medicale * Uso legale * Decision making critico --- ## ⚠️ Limitations * Capacità limitate rispetto a modelli >1B parametri * Possibili allucinazioni * Sensibile alla qualità dei prompt --- ## 🛡️ Ethical Considerations Il modello può generare contenuti scorretti o fuorvianti. È responsabilità dell’utente: * Filtrare output * Implementare moderation * Evitare usi dannosi --- ## 🔁 Reproducibility Per riprodurre l’ambiente: ```bash pip install transformers==4.51.3 torch ``` --- ## 📌 Citation ```bibtex @misc{dac60m, title={DAC60M: A Compact LLaMA-style Language Model}, author={M.INC. Research and Mattimax}, year={2025}, url={https://huggingface.co/Mattimax} } ``` --- ## 📫 Contact * Organization: M.INC. (Research) * Trainer: Mattimax (HuggingFace)