MTPw / config.yaml
teszenofficial's picture
Upload 4 files
77d62e8 verified
# MTP Mini - Configuración Mejorada para Generación Coherente
model:
vocab_size: 4000
d_model: 512 # Aumentado para más capacidad
n_layers: 8 # Más capas
n_heads: 8 # Más cabezas de atención
d_ff: 2048 # 4x d_model
max_seq_len: 512 # Contexto más largo
dropout: 0.2 # Más dropout para evitar overfitting
use_swiglu: true # Activación mejorada
training:
batch_size: 4 # Batch más pequeño para corpus pequeño
accumulation_steps: 4 # Effective batch = 16
epochs: 20 # MENOS épocas
learning_rate: 0.0003 # LR más alto para convergencia rápida
min_lr: 0.00001
weight_decay: 0.1 # MÁS weight decay para regularización
max_grad_norm: 1.0
num_threads: 4
save_every: 5
# Early stopping
patience: 5 # Parar si no mejora en 5 epochs
min_delta: 0.001 # Mejora mínima requerida
# Learning rate schedule
warmup_steps: 100
use_lr_scheduler: true
# Regularización adicional
label_smoothing: 0.1
use_eos_loss_weight: true # Dar más peso al token EOS
data:
corpus_path: corpus/mtp_mini_corpus.jsonl
min_text_length: 50 # Textos más largos
max_text_length: 2000 # Permitir respuestas largas
validation_split: 0.15
# Augmentación de datos
use_augmentation: true
augmentation_prob: 0.3
generation:
# Parámetros de generación mejorados
default_max_tokens: 150
default_temperature: 0.7
default_top_k: 40
default_top_p: 0.92
default_repetition_penalty: 1.15
min_response_length: 20
use_length_penalty: true
# Control de coherencia
use_perplexity_filter: true
max_perplexity: 100.0
# Stop sequences
stop_sequences:
- "###"
- "\n\n\n"
- "Instrucción:"