mtp-3.1 / config.yaml
teszenofficial's picture
Upload 6 files
9de0f7f verified
# MTP Mini - Configuración Compatible Mejorada
model:
vocab_size: 4000 # Mantener vocabulario actual
d_model: 384 # Dimensión actual (aumentar a 768 cuando tengas más datos)
n_layers: 6 # Capas actuales (aumentar a 12 cuando tengas más datos)
n_heads: 6 # Cabezas actuales
d_ff: 1536 # 4x d_model
max_seq_len: 256 # Contexto actual (aumentar a 512 cuando tengas más datos)
dropout: 0.1
use_swiglu: false # Cambiar a true cuando tengas 1000+ ejemplos
training:
batch_size: 8 # Tamaño actual
accumulation_steps: 1 # Sin accumulation por ahora (activar con más datos)
epochs: 60 # Más épocas para corpus pequeño
learning_rate: 0.0001 # LR actual
min_lr: 0.00001 # LR mínimo
weight_decay: 0.01 # Weight decay actual
max_grad_norm: 0.5
num_threads: 4
save_every: 10
# Learning rate schedule
warmup_steps: 60 # Warmup steps
use_lr_scheduler: true # Activar scheduler
data:
corpus_path: corpus/mtp_mini_corpus.jsonl
min_text_length: 20
max_text_length: 1000
validation_split: 0.1
# NOTA: Cuando tengas 1000+ ejemplos de calidad, actualizar a:
# - vocab_size: 8000
# - d_model: 768
# - n_layers: 12
# - n_heads: 12
# - max_seq_len: 512
# - use_swiglu: true
# - accumulation_steps: 4
# Esto te dará un modelo ~117M parámetros comparable a GPT-2