| --- |
| license: apache-2.0 |
| datasets: |
| - HuggingFaceFW/fineweb-2 |
| - HuggingFaceFW/fineweb |
| - HuggingFaceFW/fineweb-edu |
| - wikimedia/wikipedia |
| language: |
| - pt |
| - en |
| pipeline_tag: text-generation |
| tags: |
| - microlm2 |
| - cromia |
| - crom |
| - llms |
| - smol-llms |
| --- |
| # MicroLM2-1M |
|
|
| MicroLM2-1M é um modelo de linguagem ultrapequeno (~1M parâmetros) treinado do zero com foco em inglês e português. |
|
|
| ## Detalhes |
|
|
| - Arquitetura estilo LLaMA |
| - ~1 milhão de parâmetros |
| - Contexto de 1024 tokens |
| - Vocabulário de 2048 tokens |
| - Tokenizer BPE + Metaspace |
|
|
| ## Dataset |
|
|
| Treinado em aproximadamente **4.5 bilhões de tokens** usando: |
|
|
| - Wikipedia EN |
| - Wikipedia PT |
| - FineWeb |
| - FineWeb-Edu |
| - FineWeb2 PT (`por_Latn`) |
|
|
| ## Treino |
|
|
| - Treinado do zero |
| - FlashAttention 2 |
| - bfloat16 |
| - PyTorch + Transformers |
|
|
| ## Benchmarks |
|
|
| O resultado do MicroLM2-1M no BLiMP foi: 0.5422 |
|
|
| ## Uso |
|
|
| ```python |
| from transformers import AutoTokenizer, LlamaForCausalLM |
| |
| tokenizer = AutoTokenizer.from_pretrained( |
| "CromIA/MicroLM2-1M" |
| ) |
| |
| model = LlamaForCausalLM.from_pretrained( |
| "CromIA/MicroLM2-1M" |
| ) |
| ``` |
|
|
| ## Observações |
|
|
| Projeto experimental voltado para: |
|
|
| * pesquisa |
| * tiny language models |
| * eficiência |
| * experimentos com tokenizers |
|
|