| # MTP Mini - Configuración Compatible Mejorada | |
| model: | |
| vocab_size: 4000 # Mantener vocabulario actual | |
| d_model: 384 # Dimensión actual (aumentar a 768 cuando tengas más datos) | |
| n_layers: 6 # Capas actuales (aumentar a 12 cuando tengas más datos) | |
| n_heads: 6 # Cabezas actuales | |
| d_ff: 1536 # 4x d_model | |
| max_seq_len: 256 # Contexto actual (aumentar a 512 cuando tengas más datos) | |
| dropout: 0.1 | |
| use_swiglu: false # Cambiar a true cuando tengas 1000+ ejemplos | |
| training: | |
| batch_size: 8 # Tamaño actual | |
| accumulation_steps: 1 # Sin accumulation por ahora (activar con más datos) | |
| epochs: 60 # Más épocas para corpus pequeño | |
| learning_rate: 0.0001 # LR actual | |
| min_lr: 0.00001 # LR mínimo | |
| weight_decay: 0.01 # Weight decay actual | |
| max_grad_norm: 0.5 | |
| num_threads: 4 | |
| save_every: 10 | |
| # Learning rate schedule | |
| warmup_steps: 60 # Warmup steps | |
| use_lr_scheduler: true # Activar scheduler | |
| data: | |
| corpus_path: corpus/mtp_mini_corpus.jsonl | |
| min_text_length: 20 | |
| max_text_length: 1000 | |
| validation_split: 0.1 | |
| # NOTA: Cuando tengas 1000+ ejemplos de calidad, actualizar a: | |
| # - vocab_size: 8000 | |
| # - d_model: 768 | |
| # - n_layers: 12 | |
| # - n_heads: 12 | |
| # - max_seq_len: 512 | |
| # - use_swiglu: true | |
| # - accumulation_steps: 4 | |
| # Esto te dará un modelo ~117M parámetros comparable a GPT-2 |