Mattimax commited on
Commit
8efe267
·
verified ·
1 Parent(s): 4045a41

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +166 -1
README.md CHANGED
@@ -9,4 +9,169 @@ tags:
9
  - DAC
10
  - M.INC.
11
  - conversational
12
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
9
  - DAC
10
  - M.INC.
11
  - conversational
12
+ ---
13
+
14
+ ## Model Name
15
+
16
+ **DAC67M**
17
+
18
+ ## Developed by
19
+
20
+ **M.INC. Research**
21
+
22
+ ## Trained by
23
+
24
+ **Mattimax**
25
+ [https://huggingface.co/Mattimax](https://huggingface.co/Mattimax)
26
+
27
+ ## Model Type
28
+
29
+ Decoder-only Transformer (LLaMA-style causal language model)
30
+
31
+ ## Parameter Count
32
+
33
+ ~67 Million parameters
34
+
35
+ ---
36
+
37
+ ## 🔍 Overview
38
+
39
+ DAC67M è un language model compatto basato su un’architettura LLaMA personalizzata, progettato per offrire buone capacità di generazione testuale con un footprint ridotto.
40
+
41
+ Il modello è pensato per:
42
+
43
+ * Ricerca
44
+ * Esperimenti su architetture compatte
45
+ * Fine-tuning leggero
46
+ * Applicazioni edge / low-resource
47
+
48
+ ---
49
+
50
+ ## 🧠 Architecture
51
+
52
+ DAC67M utilizza una variante personalizzata di **LlamaForCausalLM**.
53
+
54
+ ### Core Configuration
55
+
56
+ ```json
57
+ {
58
+ "architectures": ["LlamaForCausalLM"],
59
+ "model_type": "llama",
60
+ "hidden_size": 512,
61
+ "intermediate_size": 2048,
62
+ "num_hidden_layers": 8,
63
+ "num_attention_heads": 8,
64
+ "num_key_value_heads": 8,
65
+ "head_dim": 64,
66
+ "hidden_act": "silu",
67
+ "max_position_embeddings": 2048,
68
+ "vocab_size": 32768,
69
+ "attention_bias": false,
70
+ "attention_dropout": 0.0,
71
+ "mlp_bias": false,
72
+ "rms_norm_eps": 1e-06,
73
+ "rope_theta": 10000.0,
74
+ "rope_scaling": null,
75
+ "tie_word_embeddings": false,
76
+ "initializer_range": 0.02,
77
+ "bos_token_id": 1,
78
+ "eos_token_id": 2,
79
+ "torch_dtype": "float32",
80
+ "use_cache": true,
81
+ "transformers_version": "4.51.3"
82
+ }
83
+ ```
84
+
85
+ ---
86
+
87
+ ## 🔤 Tokenizer
88
+
89
+ DAC67M utilizza il tokenizer del modello:
90
+
91
+ **sapienzanlp/Minerva-350M-base-v1.0**
92
+ [https://huggingface.co/sapienzanlp/Minerva-350M-base-v1.0](https://huggingface.co/sapienzanlp/Minerva-350M-base-v1.0)
93
+
94
+ Motivazione:
95
+
96
+ * Vocabolario ampio (32k)
97
+ * Buon supporto multilingua
98
+ * Stabilità comprovata
99
+
100
+ ---
101
+
102
+ ## 📚 Training
103
+
104
+ Dettagli sul training:
105
+
106
+ * Framework: PyTorch + HuggingFace Transformers
107
+ * Objective: Causal Language Modeling
108
+ * Precisione: float32
109
+
110
+ *(Ulteriori dettagli su dataset, token count e schedule possono essere aggiunti se disponibili)*
111
+
112
+ ---
113
+
114
+ ## 🎯 Intended Use
115
+
116
+ DAC67M è adatto per:
117
+
118
+ * Generazione di testo
119
+ * Autocompletamento
120
+ * Chatbot sperimentali
121
+ * Studio di scaling laws
122
+ * Distillazione
123
+
124
+ Non è progettato per:
125
+
126
+ * Uso medicale
127
+ * Uso legale
128
+ * Decision making critico
129
+
130
+ ---
131
+
132
+ ## ⚠️ Limitations
133
+
134
+ * Capacità limitate rispetto a modelli >1B parametri
135
+ * Possibili allucinazioni
136
+ * Sensibile alla qualità dei prompt
137
+
138
+ ---
139
+
140
+ ## 🛡️ Ethical Considerations
141
+
142
+ Il modello può generare contenuti scorretti o fuorvianti.
143
+ È responsabilità dell’utente:
144
+
145
+ * Filtrare output
146
+ * Implementare moderation
147
+ * Evitare usi dannosi
148
+
149
+ ---
150
+
151
+ ## 🔁 Reproducibility
152
+
153
+ Per riprodurre l’ambiente:
154
+
155
+ ```bash
156
+ pip install transformers==4.51.3 torch
157
+ ```
158
+
159
+ ---
160
+
161
+ ## 📌 Citation
162
+
163
+ ```bibtex
164
+ @misc{dac67m,
165
+ title={DAC67M: A Compact LLaMA-style Language Model},
166
+ author={M.INC. Research and Mattimax},
167
+ year={2025},
168
+ url={https://huggingface.co/Mattimax}
169
+ }
170
+ ```
171
+
172
+ ---
173
+
174
+ ## 📫 Contact
175
+
176
+ * Organization: M.INC. (Research)
177
+ * Trainer: Mattimax (HuggingFace)