Modelo Zion 1.0

Developed by: Next AI Solutions.
Model type: 9B transfomer LLM.

Model Description

O Zion 1.0 utiliza uma arquitetura Transformer densa e padrão:

Utilizamos a atenção de consulta agrupada (GQA) com 8 cabeças de chave-valor, pois demonstrou aumentar a velocidade no momento da inferência, mantendo o desempenho a jusante.
Realizamos a normalização pré-camada, pois melhora a estabilidade do treinamento, e utilizamos o RMSNorm, que é mais rápido.
Utilizamos a função de ativação SwiGLU, pois demonstrou levar a bons resultados em tarefas a jusante.
Utilizamos incorporações posicionais rotativas (RoPE) em todas as camadas, pois demonstraram levar a bons desempenhos, permitindo a extensão do comprimento do contexto.

Para o pré-treinamento, utilizamos quatro Mac Studio M4 128, treinando o modelo com um tamanho de lote constante de 2.800 sequências, o que corresponde a aproximadamente 12 milhões de tokens, utilizando o otimizador Adam e precisão BF16. Aqui está um resumo dos hiperparâmetros do modelo:


Comprimento da Sequência	4.096
Número de Camadas	42
Tamanho de Incorporação	4.096
Tamanho Oculto FFN	12.288
Número de Cabeças	32
Número de Cabeças KV (GQA)	8
Função de Ativação	SwiGLU
Codificações de Posição	RoPE (\Theta=10.000)
Norma da Camada	RMSNorm
Incorporações Amarradas	Não
Parâmetros de Incorporação	0,524B
Parâmetros da Cabeça LM	0,524B
Parâmetros Não Incorporantes	8,105B
Parâmetros Totais	9,154B

Downloads last month: 9

Safetensors

Model size

9B params

Tensor type

BF16

MLX

Hardware compatibility

Quantized

Model tree for nsxtai/Zion-9B

Quantizations

2 models