MicroLM2-1M

MicroLM2-1M é um modelo de linguagem ultrapequeno (~1M parâmetros) treinado do zero com foco em inglês e português.

Detalhes

Arquitetura estilo LLaMA
~1 milhão de parâmetros
Contexto de 1024 tokens
Vocabulário de 2048 tokens
Tokenizer BPE + Metaspace

Dataset

Treinado em aproximadamente 4.5 bilhões de tokens usando:

Wikipedia EN
Wikipedia PT
FineWeb
FineWeb-Edu
FineWeb2 PT (por_Latn)

Treino

Treinado do zero
FlashAttention 2
bfloat16
PyTorch + Transformers

Benchmarks

O resultado do MicroLM2-1M no BLiMP foi: 0.5422

Uso

from transformers import AutoTokenizer, LlamaForCausalLM

tokenizer = AutoTokenizer.from_pretrained(
    "CromIA/MicroLM2-1M"
)

model = LlamaForCausalLM.from_pretrained(
    "CromIA/MicroLM2-1M"
)

Observações

Projeto experimental voltado para:

pesquisa
tiny language models
eficiência
experimentos com tokenizers

Downloads last month: 79

Safetensors

Model size

1.71M params

Tensor type

BF16

Model tree for CromIA/MicroLM2-1M

Quantizations

1 model

CromIA
/

MicroLM2-1M