# MTP Mini - Configuración Mejorada para Generación Coherente model: vocab_size: 4000 d_model: 512 # Aumentado para más capacidad n_layers: 8 # Más capas n_heads: 8 # Más cabezas de atención d_ff: 2048 # 4x d_model max_seq_len: 512 # Contexto más largo dropout: 0.2 # Más dropout para evitar overfitting use_swiglu: true # Activación mejorada training: batch_size: 4 # Batch más pequeño para corpus pequeño accumulation_steps: 4 # Effective batch = 16 epochs: 20 # MENOS épocas learning_rate: 0.0003 # LR más alto para convergencia rápida min_lr: 0.00001 weight_decay: 0.1 # MÁS weight decay para regularización max_grad_norm: 1.0 num_threads: 4 save_every: 5 # Early stopping patience: 5 # Parar si no mejora en 5 epochs min_delta: 0.001 # Mejora mínima requerida # Learning rate schedule warmup_steps: 100 use_lr_scheduler: true # Regularización adicional label_smoothing: 0.1 use_eos_loss_weight: true # Dar más peso al token EOS data: corpus_path: corpus/mtp_mini_corpus.jsonl min_text_length: 50 # Textos más largos max_text_length: 2000 # Permitir respuestas largas validation_split: 0.15 # Augmentación de datos use_augmentation: true augmentation_prob: 0.3 generation: # Parámetros de generación mejorados default_max_tokens: 150 default_temperature: 0.7 default_top_k: 40 default_top_p: 0.92 default_repetition_penalty: 1.15 min_response_length: 20 use_length_penalty: true # Control de coherencia use_perplexity_filter: true max_perplexity: 100.0 # Stop sequences stop_sequences: - "###" - "\n\n\n" - "Instrucción:"