File size: 1,192 Bytes

---
license: apache-2.0
datasets:
- HuggingFaceFW/fineweb-2
- HuggingFaceFW/fineweb
- HuggingFaceFW/fineweb-edu
- wikimedia/wikipedia
language:
- pt
- en
pipeline_tag: text-generation
tags:
- microlm2
- cromia
- crom
- llms
- smol-llms
---
# MicroLM2-1M

MicroLM2-1M é um modelo de linguagem ultrapequeno (~1M parâmetros) treinado do zero com foco em inglês e português.

## Detalhes

- Arquitetura estilo LLaMA
- ~1 milhão de parâmetros
- Contexto de 1024 tokens
- Vocabulário de 2048 tokens
- Tokenizer BPE + Metaspace

## Dataset

Treinado em aproximadamente **4.5 bilhões de tokens** usando:

- Wikipedia EN
- Wikipedia PT
- FineWeb
- FineWeb-Edu
- FineWeb2 PT (`por_Latn`)

## Treino

- Treinado do zero
- FlashAttention 2
- bfloat16
- PyTorch + Transformers

## Benchmarks

O resultado do MicroLM2-1M no BLiMP foi: 0.5422  

## Uso

```python
from transformers import AutoTokenizer, LlamaForCausalLM

tokenizer = AutoTokenizer.from_pretrained(
    "CromIA/MicroLM2-1M"
)

model = LlamaForCausalLM.from_pretrained(
    "CromIA/MicroLM2-1M"
)
```

## Observações

Projeto experimental voltado para:

* pesquisa
* tiny language models
* eficiência
* experimentos com tokenizers