File size: 1,192 Bytes
08b87c9 3dc879d 08b87c9 | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 | ---
license: apache-2.0
datasets:
- HuggingFaceFW/fineweb-2
- HuggingFaceFW/fineweb
- HuggingFaceFW/fineweb-edu
- wikimedia/wikipedia
language:
- pt
- en
pipeline_tag: text-generation
tags:
- microlm2
- cromia
- crom
- llms
- smol-llms
---
# MicroLM2-1M
MicroLM2-1M é um modelo de linguagem ultrapequeno (~1M parâmetros) treinado do zero com foco em inglês e português.
## Detalhes
- Arquitetura estilo LLaMA
- ~1 milhão de parâmetros
- Contexto de 1024 tokens
- Vocabulário de 2048 tokens
- Tokenizer BPE + Metaspace
## Dataset
Treinado em aproximadamente **4.5 bilhões de tokens** usando:
- Wikipedia EN
- Wikipedia PT
- FineWeb
- FineWeb-Edu
- FineWeb2 PT (`por_Latn`)
## Treino
- Treinado do zero
- FlashAttention 2
- bfloat16
- PyTorch + Transformers
## Benchmarks
O resultado do MicroLM2-1M no BLiMP foi: 0.5422
## Uso
```python
from transformers import AutoTokenizer, LlamaForCausalLM
tokenizer = AutoTokenizer.from_pretrained(
"CromIA/MicroLM2-1M"
)
model = LlamaForCausalLM.from_pretrained(
"CromIA/MicroLM2-1M"
)
```
## Observações
Projeto experimental voltado para:
* pesquisa
* tiny language models
* eficiência
* experimentos com tokenizers
|