MicroLM2-1M / README.md
pedrodev2026's picture
Update README.md
3dc879d verified
metadata
license: apache-2.0
datasets:
  - HuggingFaceFW/fineweb-2
  - HuggingFaceFW/fineweb
  - HuggingFaceFW/fineweb-edu
  - wikimedia/wikipedia
language:
  - pt
  - en
pipeline_tag: text-generation
tags:
  - microlm2
  - cromia
  - crom
  - llms
  - smol-llms

MicroLM2-1M

MicroLM2-1M é um modelo de linguagem ultrapequeno (~1M parâmetros) treinado do zero com foco em inglês e português.

Detalhes

  • Arquitetura estilo LLaMA
  • ~1 milhão de parâmetros
  • Contexto de 1024 tokens
  • Vocabulário de 2048 tokens
  • Tokenizer BPE + Metaspace

Dataset

Treinado em aproximadamente 4.5 bilhões de tokens usando:

  • Wikipedia EN
  • Wikipedia PT
  • FineWeb
  • FineWeb-Edu
  • FineWeb2 PT (por_Latn)

Treino

  • Treinado do zero
  • FlashAttention 2
  • bfloat16
  • PyTorch + Transformers

Benchmarks

O resultado do MicroLM2-1M no BLiMP foi: 0.5422

Uso

from transformers import AutoTokenizer, LlamaForCausalLM

tokenizer = AutoTokenizer.from_pretrained(
    "CromIA/MicroLM2-1M"
)

model = LlamaForCausalLM.from_pretrained(
    "CromIA/MicroLM2-1M"
)

Observações

Projeto experimental voltado para:

  • pesquisa
  • tiny language models
  • eficiência
  • experimentos com tokenizers