--- license: apache-2.0 datasets: - HuggingFaceFW/fineweb-2 - HuggingFaceFW/fineweb - HuggingFaceFW/fineweb-edu - wikimedia/wikipedia language: - pt - en pipeline_tag: text-generation tags: - microlm2 - cromia - crom - llms - smol-llms --- # MicroLM2-1M MicroLM2-1M é um modelo de linguagem ultrapequeno (~1M parâmetros) treinado do zero com foco em inglês e português. ## Detalhes - Arquitetura estilo LLaMA - ~1 milhão de parâmetros - Contexto de 1024 tokens - Vocabulário de 2048 tokens - Tokenizer BPE + Metaspace ## Dataset Treinado em aproximadamente **4.5 bilhões de tokens** usando: - Wikipedia EN - Wikipedia PT - FineWeb - FineWeb-Edu - FineWeb2 PT (`por_Latn`) ## Treino - Treinado do zero - FlashAttention 2 - bfloat16 - PyTorch + Transformers ## Benchmarks O resultado do MicroLM2-1M no BLiMP foi: 0.5422 ## Uso ```python from transformers import AutoTokenizer, LlamaForCausalLM tokenizer = AutoTokenizer.from_pretrained( "CromIA/MicroLM2-1M" ) model = LlamaForCausalLM.from_pretrained( "CromIA/MicroLM2-1M" ) ``` ## Observações Projeto experimental voltado para: * pesquisa * tiny language models * eficiência * experimentos com tokenizers