teszenofficial commited on
Commit
b686dbd
·
verified ·
1 Parent(s): d1bec4a

Delete config.yaml

Browse files
Files changed (1) hide show
  1. config.yaml +0 -42
config.yaml DELETED
@@ -1,42 +0,0 @@
1
- # MTP Mini - Configuración Compatible Mejorada
2
-
3
- model:
4
- vocab_size: 4000 # Mantener vocabulario actual
5
- d_model: 384 # Dimensión actual (aumentar a 768 cuando tengas más datos)
6
- n_layers: 6 # Capas actuales (aumentar a 12 cuando tengas más datos)
7
- n_heads: 6 # Cabezas actuales
8
- d_ff: 1536 # 4x d_model
9
- max_seq_len: 256 # Contexto actual (aumentar a 512 cuando tengas más datos)
10
- dropout: 0.1
11
- use_swiglu: false # Cambiar a true cuando tengas 1000+ ejemplos
12
-
13
- training:
14
- batch_size: 8 # Tamaño actual
15
- accumulation_steps: 1 # Sin accumulation por ahora (activar con más datos)
16
- epochs: 100 # Más épocas para corpus pequeño
17
- learning_rate: 0.0001 # LR actual
18
- min_lr: 0.00001 # LR mínimo
19
- weight_decay: 0.01 # Weight decay actual
20
- max_grad_norm: 0.5
21
- num_threads: 4
22
- save_every: 10
23
-
24
- # Learning rate schedule
25
- warmup_steps: 100 # Warmup steps
26
- use_lr_scheduler: true # Activar scheduler
27
-
28
- data:
29
- corpus_path: corpus/mtp_mini_corpus.jsonl
30
- min_text_length: 20
31
- max_text_length: 1000
32
- validation_split: 0.1
33
-
34
- # NOTA: Cuando tengas 1000+ ejemplos de calidad, actualizar a:
35
- # - vocab_size: 8000
36
- # - d_model: 768
37
- # - n_layers: 12
38
- # - n_heads: 12
39
- # - max_seq_len: 512
40
- # - use_swiglu: true
41
- # - accumulation_steps: 4
42
- # Esto te dará un modelo ~117M parámetros comparable a GPT-2