MicroLM2-1M / README.md

pedrodev2026

Update README.md

3dc879d verified about 14 hours ago

preview code

raw

history blame contribute delete

1.19 kB

metadata

license: apache-2.0
datasets:
  - HuggingFaceFW/fineweb-2
  - HuggingFaceFW/fineweb
  - HuggingFaceFW/fineweb-edu
  - wikimedia/wikipedia
language:
  - pt
  - en
pipeline_tag: text-generation
tags:
  - microlm2
  - cromia
  - crom
  - llms
  - smol-llms

MicroLM2-1M

MicroLM2-1M é um modelo de linguagem ultrapequeno (~1M parâmetros) treinado do zero com foco em inglês e português.

Detalhes

Arquitetura estilo LLaMA
~1 milhão de parâmetros
Contexto de 1024 tokens
Vocabulário de 2048 tokens
Tokenizer BPE + Metaspace

Dataset

Treinado em aproximadamente 4.5 bilhões de tokens usando:

Wikipedia EN
Wikipedia PT
FineWeb
FineWeb-Edu
FineWeb2 PT (por_Latn)

Treino

Treinado do zero
FlashAttention 2
bfloat16
PyTorch + Transformers

Benchmarks

O resultado do MicroLM2-1M no BLiMP foi: 0.5422

Uso

from transformers import AutoTokenizer, LlamaForCausalLM

tokenizer = AutoTokenizer.from_pretrained(
    "CromIA/MicroLM2-1M"
)

model = LlamaForCausalLM.from_pretrained(
    "CromIA/MicroLM2-1M"
)

Observações

Projeto experimental voltado para:

pesquisa
tiny language models
eficiência
experimentos com tokenizers