CromIA
/

MicroLM2-1M

Text Generation

Model card Files Files and versions

pedrodev2026 commited on 5 days ago

Commit

08b87c9

·

verified ·

1 Parent(s): 77a38ab

Create README.md

Files changed (1) hide show

README.md +69 -0

README.md ADDED Viewed

	@@ -0,0 +1,69 @@

+---
+license: apache-2.0
+datasets:
+- HuggingFaceFW/fineweb-2
+- HuggingFaceFW/fineweb
+- HuggingFaceFW/fineweb-edu
+- wikimedia/wikipedia
+language:
+- pt
+- en
+pipeline_tag: text-generation
+tags:
+- microlm2
+- cromia
+- crom
+- llms
+- smol-llms
+---
+# MicroLM2-1M
+MicroLM2-1M é um modelo de linguagem ultrapequeno (~1M parâmetros) treinado do zero com foco em inglês e português.
+## Detalhes
+- Arquitetura estilo LLaMA
+- ~1 milhão de parâmetros
+- Contexto de 1024 tokens
+- Vocabulário de 2048 tokens
+- Tokenizer BPE + Metaspace
+## Dataset
+Treinado em aproximadamente **4.5 bilhões de tokens** usando:
+- Wikipedia EN
+- Wikipedia PT
+- FineWeb
+- FineWeb-Edu
+- FineWeb2 PT (`por_Latn`)
+## Treino
+- Treinado do zero
+- FlashAttention 2
+- bfloat16
+- PyTorch + Transformers
+## Uso
+```python
+from transformers import AutoTokenizer, LlamaForCausalLM
+tokenizer = AutoTokenizer.from_pretrained(
+    "CromIA/MicroLM2-1M"
+)
+model = LlamaForCausalLM.from_pretrained(
+    "CromIA/MicroLM2-1M"
+)
+```
+## Observações
+Projeto experimental voltado para:
+* pesquisa
+* tiny language models
+* eficiência
+* experimentos com tokenizers