TeszenAI
/

MTP-4

+# MTP Mini - Configuración Mejorada para Generación Coherente
+model:
+  vocab_size: 4000
+  d_model: 512              # Aumentado para más capacidad
+  n_layers: 8               # Más capas
+  n_heads: 8                # Más cabezas de atención
+  d_ff: 2048                # 4x d_model
+  max_seq_len: 512          # Contexto más largo
+  dropout: 0.2              # Más dropout para evitar overfitting
+  use_swiglu: true          # Activación mejorada
+training:
+  batch_size: 4             # Batch más pequeño para corpus pequeño
+  accumulation_steps: 4     # Effective batch = 16
+  epochs: 20                # MENOS épocas
+  learning_rate: 0.0003     # LR más alto para convergencia rápida
+  min_lr: 0.00001
+  weight_decay: 0.1         # MÁS weight decay para regularización
+  max_grad_norm: 1.0
+  num_threads: 4
+  save_every: 5
+  # Early stopping
+  patience: 5               # Parar si no mejora en 5 epochs
+  min_delta: 0.001          # Mejora mínima requerida
+  # Learning rate schedule
+  warmup_steps: 100
+  use_lr_scheduler: true
+  # Regularización adicional
+  label_smoothing: 0.1
+  use_eos_loss_weight: true # Dar más peso al token EOS
+data:
+  corpus_path: corpus/mtp_mini_corpus.jsonl
+  min_text_length: 50       # Textos más largos
+  max_text_length: 2000     # Permitir respuestas largas
+  validation_split: 0.15
+  # Augmentación de datos
+  use_augmentation: true
+  augmentation_prob: 0.3
+generation:
+  # Parámetros de generación mejorados
+  default_max_tokens: 150
+  default_temperature: 0.7
+  default_top_k: 40
+  default_top_p: 0.92
+  default_repetition_penalty: 1.15
+  min_response_length: 20
+  use_length_penalty: true
+  # Control de coherencia
+  use_perplexity_filter: true
+  max_perplexity: 100.0
+  # Stop sequences
+  stop_sequences:
+    - "###"
+    - "\n\n\n"
+    - "Instrucción:"