pedrodev2026 commited on
Commit
08b87c9
·
verified ·
1 Parent(s): 77a38ab

Create README.md

Browse files
Files changed (1) hide show
  1. README.md +69 -0
README.md ADDED
@@ -0,0 +1,69 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: apache-2.0
3
+ datasets:
4
+ - HuggingFaceFW/fineweb-2
5
+ - HuggingFaceFW/fineweb
6
+ - HuggingFaceFW/fineweb-edu
7
+ - wikimedia/wikipedia
8
+ language:
9
+ - pt
10
+ - en
11
+ pipeline_tag: text-generation
12
+ tags:
13
+ - microlm2
14
+ - cromia
15
+ - crom
16
+ - llms
17
+ - smol-llms
18
+ ---
19
+ # MicroLM2-1M
20
+
21
+ MicroLM2-1M é um modelo de linguagem ultrapequeno (~1M parâmetros) treinado do zero com foco em inglês e português.
22
+
23
+ ## Detalhes
24
+
25
+ - Arquitetura estilo LLaMA
26
+ - ~1 milhão de parâmetros
27
+ - Contexto de 1024 tokens
28
+ - Vocabulário de 2048 tokens
29
+ - Tokenizer BPE + Metaspace
30
+
31
+ ## Dataset
32
+
33
+ Treinado em aproximadamente **4.5 bilhões de tokens** usando:
34
+
35
+ - Wikipedia EN
36
+ - Wikipedia PT
37
+ - FineWeb
38
+ - FineWeb-Edu
39
+ - FineWeb2 PT (`por_Latn`)
40
+
41
+ ## Treino
42
+
43
+ - Treinado do zero
44
+ - FlashAttention 2
45
+ - bfloat16
46
+ - PyTorch + Transformers
47
+
48
+ ## Uso
49
+
50
+ ```python
51
+ from transformers import AutoTokenizer, LlamaForCausalLM
52
+
53
+ tokenizer = AutoTokenizer.from_pretrained(
54
+ "CromIA/MicroLM2-1M"
55
+ )
56
+
57
+ model = LlamaForCausalLM.from_pretrained(
58
+ "CromIA/MicroLM2-1M"
59
+ )
60
+ ```
61
+
62
+ ## Observações
63
+
64
+ Projeto experimental voltado para:
65
+
66
+ * pesquisa
67
+ * tiny language models
68
+ * eficiência
69
+ * experimentos com tokenizers