File size: 2,335 Bytes
f078257 | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 | # MTP Mini - Configuración Optimizada 20x Más Grande e Inteligente
model:
vocab_size: 8000 # 2x más vocabulario
d_model: 1024 # 2x dimensión (512 → 1024)
n_layers: 24 # 3x capas (8 → 24)
n_heads: 16 # 2x cabezas (8 → 16)
d_ff: 4096 # 4x d_model
max_seq_len: 2048 # 4x contexto (512 → 2048)
dropout: 0.15 # Dropout optimizado
use_swiglu: true # Mejor activación
use_flash_attention: true # Atención optimizada
use_confidence_scoring: true # Anti-alucinación
min_confidence: 0.3
training:
batch_size: 2 # Pequeño para modelo grande
accumulation_steps: 16 # Effective batch = 32
epochs: 25 # 25 épocas como pediste
learning_rate: 0.0002 # LR bajo para estabilidad
min_lr: 0.000005
weight_decay: 0.15 # Regularización fuerte
max_grad_norm: 0.5
num_threads: 4
save_every: 5 # Guardar cada 5 épocas
# Early stopping (para no perder info)
patience: 10 # Muy paciente (espera 10 épocas sin mejora)
min_delta: 0.0003 # Mejora mínima aceptable
# Learning rate
warmup_steps: 500
use_lr_scheduler: true
# Regularización
label_smoothing: 0.15
use_eos_loss_weight: true
eos_weight: 3.0
# Optimizaciones GPU
use_gradient_checkpointing: true # Ahorra VRAM
use_fp16: true # Mixed precision
data:
corpus_path: corpus/mtp_mini_corpus.jsonl
min_text_length: 100
max_text_length: 4000
validation_split: 0.2 # 20% para validación
# Augmentación
use_augmentation: true
augmentation_prob: 0.4
generation:
default_max_tokens: 300
default_temperature: 0.65
default_top_k: 50
default_top_p: 0.9
default_repetition_penalty: 1.2
min_response_length: 30
# Anti-alucinación
use_perplexity_filter: true
max_perplexity: 80.0
use_entropy_threshold: true
max_entropy: 4.0
# Control de calidad
use_confidence_filter: true
min_confidence_threshold: 0.3
stop_sequences:
- "###"
- "\n\n\n\n"
- "Instrucción:"
- "Usuario:"
# Optimización de memoria
memory:
use_fp16: true
use_gradient_checkpointing: true
max_memory_gb: 14 |