TeszenAI
/

MTP3.7

+# MTP Mini - Configuración MEJORADA x20 para Alto Rendimiento
+model:
+  vocab_size: 8000              # Vocabulario ampliado
+  d_model: 1024                 # x2 dimensión (más capacidad)
+  n_layers: 24                  # x3 capas (razonamiento profundo)
+  n_heads: 16                   # x2 atención (mejor comprensión)
+  d_ff: 4096                    # 4x d_model (más procesamiento)
+  max_seq_len: 1024             # x2 contexto (más memoria)
+  dropout: 0.15                 # Menos dropout (modelo más grande)
+  use_swiglu: true              # Activación mejorada
+  use_flash_attention: true     # Optimización de atención
+  # Nuevas capacidades avanzadas
+  use_reasoning_layer: true     # Capa de razonamiento explícito
+  reasoning_steps: 3            # Pasos de razonamiento interno
+  use_confidence_score: true    # Puntuación de confianza
+  use_memory_retrieval: true    # Recuperación de memoria contextual
+training:
+  batch_size: 8                 # Batch más grande
+  accumulation_steps: 8         # Effective batch = 64
+  epochs: 40                    # Más épocas para dataset grande
+  learning_rate: 0.0002         # LR ajustado para modelo grande
+  min_lr: 0.000005
+  weight_decay: 0.15            # Más regularización
+  max_grad_norm: 1.0
+  num_threads: 8
+  save_every: 3
+  # Early stopping ajustado
+  patience: 8                   # Más paciencia para convergencia
+  min_delta: 0.0005             # Delta más fino
+  # Learning rate schedule
+  warmup_steps: 500             # Más warmup para modelo grande
+  use_lr_scheduler: true
+  scheduler_type: "cosine"      # Cosine annealing
+  # Regularización mejorada
+  label_smoothing: 0.1
+  use_eos_loss_weight: true
+  mixup_alpha: 0.2              # Mixup para generalización
+  # Optimización avanzada
+  use_gradient_checkpointing: true  # Ahorrar memoria
+  use_mixed_precision: true         # FP16 para velocidad
+data:
+  corpus_path: corpus/mtp_mini_corpus.jsonl
+  min_text_length: 30
+  max_text_length: 3000         # Textos más largos
+  validation_split: 0.12        # 88% train, 12% val
+  # Augmentación avanzada
+  use_augmentation: true
+  augmentation_prob: 0.4
+  use_back_translation: false   # Desactivado (requiere modelo externo)
+  use_paraphrasing: true
+  # Filtrado de calidad
+  min_quality_score: 0.3
+  remove_duplicates: true
+  max_repetition_ratio: 0.3
+generation:
+  # Parámetros base
+  default_max_tokens: 200
+  default_temperature: 0.75
+  default_top_k: 50
+  default_top_p: 0.93
+  default_repetition_penalty: 1.2
+  min_response_length: 25
+  # Control de calidad avanzado
+  use_length_penalty: true
+  length_penalty_alpha: 0.8
+  use_perplexity_filter: true
+  max_perplexity: 80.0
+  use_confidence_threshold: true
+  min_confidence: 0.4           # Rechazar respuestas de baja confianza
+  # Anti-alucinación
+  use_fact_checking: true
+  use_source_grounding: true    # Anclar respuestas en el contexto
+  hallucination_penalty: 2.0
+  # Capacidades especiales
+  enable_summarization: true
+  enable_rewriting: true
+  enable_comparison: true
+  enable_reasoning: true
+  # Stop sequences
+  stop_sequences:
+    - "###"
+    - "\n\n\n"
+    - "Instrucción:"
+    - "[FIN]"
+# Configuración de razonamiento
+reasoning:
+  enable_chain_of_thought: true
+  thinking_tokens: 50           # Tokens internos para "pensar"
+  show_reasoning: false         # No mostrar razonamiento interno
+  reasoning_temperature: 0.5    # Más determinístico para razonar
+# Configuración de memoria
+memory:
+  enable_context_memory: true
+  memory_size: 512              # Tokens de memoria contextual
+  similarity_threshold: 0.7     # Umbral para recuperación similar
+  max_retrieved_chunks: 3       # Máx. fragmentos similares a recuperar