metadata
license: apache-2.0
datasets:
- HuggingFaceFW/fineweb-2
- HuggingFaceFW/fineweb
- HuggingFaceFW/fineweb-edu
- wikimedia/wikipedia
language:
- pt
- en
pipeline_tag: text-generation
tags:
- microlm2
- cromia
- crom
- llms
- smol-llms
MicroLM2-1M
MicroLM2-1M é um modelo de linguagem ultrapequeno (~1M parâmetros) treinado do zero com foco em inglês e português.
Detalhes
- Arquitetura estilo LLaMA
- ~1 milhão de parâmetros
- Contexto de 1024 tokens
- Vocabulário de 2048 tokens
- Tokenizer BPE + Metaspace
Dataset
Treinado em aproximadamente 4.5 bilhões de tokens usando:
- Wikipedia EN
- Wikipedia PT
- FineWeb
- FineWeb-Edu
- FineWeb2 PT (
por_Latn)
Treino
- Treinado do zero
- FlashAttention 2
- bfloat16
- PyTorch + Transformers
Benchmarks
O resultado do MicroLM2-1M no BLiMP foi: 0.5422
Uso
from transformers import AutoTokenizer, LlamaForCausalLM
tokenizer = AutoTokenizer.from_pretrained(
"CromIA/MicroLM2-1M"
)
model = LlamaForCausalLM.from_pretrained(
"CromIA/MicroLM2-1M"
)
Observações
Projeto experimental voltado para:
- pesquisa
- tiny language models
- eficiência
- experimentos com tokenizers