MicroLM2-1M / README.md
pedrodev2026's picture
Update README.md
3dc879d verified
---
license: apache-2.0
datasets:
- HuggingFaceFW/fineweb-2
- HuggingFaceFW/fineweb
- HuggingFaceFW/fineweb-edu
- wikimedia/wikipedia
language:
- pt
- en
pipeline_tag: text-generation
tags:
- microlm2
- cromia
- crom
- llms
- smol-llms
---
# MicroLM2-1M
MicroLM2-1M é um modelo de linguagem ultrapequeno (~1M parâmetros) treinado do zero com foco em inglês e português.
## Detalhes
- Arquitetura estilo LLaMA
- ~1 milhão de parâmetros
- Contexto de 1024 tokens
- Vocabulário de 2048 tokens
- Tokenizer BPE + Metaspace
## Dataset
Treinado em aproximadamente **4.5 bilhões de tokens** usando:
- Wikipedia EN
- Wikipedia PT
- FineWeb
- FineWeb-Edu
- FineWeb2 PT (`por_Latn`)
## Treino
- Treinado do zero
- FlashAttention 2
- bfloat16
- PyTorch + Transformers
## Benchmarks
O resultado do MicroLM2-1M no BLiMP foi: 0.5422
## Uso
```python
from transformers import AutoTokenizer, LlamaForCausalLM
tokenizer = AutoTokenizer.from_pretrained(
"CromIA/MicroLM2-1M"
)
model = LlamaForCausalLM.from_pretrained(
"CromIA/MicroLM2-1M"
)
```
## Observações
Projeto experimental voltado para:
* pesquisa
* tiny language models
* eficiência
* experimentos com tokenizers