File size: 1,192 Bytes
08b87c9
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3dc879d
 
 
 
08b87c9
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
---
license: apache-2.0
datasets:
- HuggingFaceFW/fineweb-2
- HuggingFaceFW/fineweb
- HuggingFaceFW/fineweb-edu
- wikimedia/wikipedia
language:
- pt
- en
pipeline_tag: text-generation
tags:
- microlm2
- cromia
- crom
- llms
- smol-llms
---
# MicroLM2-1M

MicroLM2-1M é um modelo de linguagem ultrapequeno (~1M parâmetros) treinado do zero com foco em inglês e português.

## Detalhes

- Arquitetura estilo LLaMA
- ~1 milhão de parâmetros
- Contexto de 1024 tokens
- Vocabulário de 2048 tokens
- Tokenizer BPE + Metaspace

## Dataset

Treinado em aproximadamente **4.5 bilhões de tokens** usando:

- Wikipedia EN
- Wikipedia PT
- FineWeb
- FineWeb-Edu
- FineWeb2 PT (`por_Latn`)

## Treino

- Treinado do zero
- FlashAttention 2
- bfloat16
- PyTorch + Transformers

## Benchmarks

O resultado do MicroLM2-1M no BLiMP foi: 0.5422  

## Uso

```python
from transformers import AutoTokenizer, LlamaForCausalLM

tokenizer = AutoTokenizer.from_pretrained(
    "CromIA/MicroLM2-1M"
)

model = LlamaForCausalLM.from_pretrained(
    "CromIA/MicroLM2-1M"
)
```

## Observações

Projeto experimental voltado para:

* pesquisa
* tiny language models
* eficiência
* experimentos com tokenizers