CromIA
/

MicroLM2-1M

Text Generation

Model card Files Files and versions

MicroLM2-1M / README.md

pedrodev2026's picture

Update README.md

3dc879d verified about 17 hours ago

|

history blame contribute delete

1.19 kB

	---
	license: apache-2.0
	datasets:
	- HuggingFaceFW/fineweb-2
	- HuggingFaceFW/fineweb
	- HuggingFaceFW/fineweb-edu
	- wikimedia/wikipedia
	language:
	- pt
	- en
	pipeline_tag: text-generation
	tags:
	- microlm2
	- cromia
	- crom
	- llms
	- smol-llms
	---
	# MicroLM2-1M

	MicroLM2-1M é um modelo de linguagem ultrapequeno (~1M parâmetros) treinado do zero com foco em inglês e português.

	## Detalhes

	- Arquitetura estilo LLaMA
	- ~1 milhão de parâmetros
	- Contexto de 1024 tokens
	- Vocabulário de 2048 tokens
	- Tokenizer BPE + Metaspace

	## Dataset

	Treinado em aproximadamente 4.5 bilhões de tokens usando:

	- Wikipedia EN
	- Wikipedia PT
	- FineWeb
	- FineWeb-Edu
	- FineWeb2 PT (`por_Latn`)

	## Treino

	- Treinado do zero
	- FlashAttention 2
	- bfloat16
	- PyTorch + Transformers

	## Benchmarks

	O resultado do MicroLM2-1M no BLiMP foi: 0.5422

	## Uso

	```python
	from transformers import AutoTokenizer, LlamaForCausalLM

	tokenizer = AutoTokenizer.from_pretrained(
	"CromIA/MicroLM2-1M"
	)

	model = LlamaForCausalLM.from_pretrained(
	"CromIA/MicroLM2-1M"
	)
	```

	## Observações

	Projeto experimental voltado para:

	* pesquisa
	* tiny language models
	* eficiência
	* experimentos com tokenizers