File size: 1,939 Bytes
74e0d02
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
---
license: apache-2.0
language:
- en
- de
- es
- fr
- it
- pt
- pl
- nl
- tr
- sv
- cs
- el
- hu
- ro
- fi
- uk
- sl
- sk
- da
- lt
- lv
- et
- bg
- 'no'
- ca
- hr
- ga
- mt
- gl
- zh
- ru
- ko
- ja
- ar
- hi
library_name: mlx
pipeline_tag: text-generation
tags:
- mlx
---

# Modelo Zion 1.0


- **Developed by:** Next AI Solutions.
- **Model type:** 9B  transfomer LLM.

### Model Description

O Zion 1.0 utiliza uma arquitetura Transformer densa e padrão:
- Utilizamos a atenção de consulta agrupada (GQA) com 8 cabeças de chave-valor, pois demonstrou aumentar a velocidade no momento da inferência, mantendo o desempenho a jusante.
- Realizamos a normalização pré-camada, pois melhora a estabilidade do treinamento, e utilizamos o RMSNorm, que é mais rápido.
- Utilizamos a função de ativação SwiGLU, pois demonstrou levar a bons resultados em tarefas a jusante.
- Utilizamos incorporações posicionais rotativas (RoPE) em todas as camadas, pois demonstraram levar a bons desempenhos, permitindo a extensão do comprimento do contexto.

Para o pré-treinamento, utilizamos quatro Mac Studio M4 128, treinando o modelo com um tamanho de lote constante de 2.800 sequências, o que corresponde a aproximadamente 12 milhões de tokens, utilizando o otimizador Adam e precisão BF16.
Aqui está um resumo dos hiperparâmetros do modelo:
| | |
|--------------------------------------|----------------------|
| Comprimento da Sequência | 4.096 |
| Número de Camadas | 42 |
| Tamanho de Incorporação | 4.096 |
| Tamanho Oculto FFN | 12.288 |
| Número de Cabeças | 32 |
| Número de Cabeças KV (GQA) | 8 |
| Função de Ativação | SwiGLU |
| Codificações de Posição | RoPE (\Theta=10.000) |
| Norma da Camada | RMSNorm |
| Incorporações Amarradas | Não |
| Parâmetros de Incorporação | 0,524B |
| Parâmetros da Cabeça LM | 0,524B |
| Parâmetros Não Incorporantes | 8,105B |
| Parâmetros Totais | 9,154B |