TeszenAI
/

MTP-3

teszenofficial commited on Jan 16

Commit

b686dbd

verified ·

1 Parent(s): d1bec4a

Delete config.yaml

Files changed (1) hide show

config.yaml DELETED Viewed

@@ -1,42 +0,0 @@
-# MTP Mini - Configuración Compatible Mejorada
-model:
-  vocab_size: 4000          # Mantener vocabulario actual
-  d_model: 384              # Dimensión actual (aumentar a 768 cuando tengas más datos)
-  n_layers: 6               # Capas actuales (aumentar a 12 cuando tengas más datos)
-  n_heads: 6                # Cabezas actuales
-  d_ff: 1536                # 4x d_model
-  max_seq_len: 256          # Contexto actual (aumentar a 512 cuando tengas más datos)
-  dropout: 0.1
-  use_swiglu: false         # Cambiar a true cuando tengas 1000+ ejemplos
-training:
-  batch_size: 8             # Tamaño actual
-  accumulation_steps: 1     # Sin accumulation por ahora (activar con más datos)
-  epochs: 100               # Más épocas para corpus pequeño
-  learning_rate: 0.0001     # LR actual
-  min_lr: 0.00001           # LR mínimo
-  weight_decay: 0.01        # Weight decay actual
-  max_grad_norm: 0.5
-  num_threads: 4
-  save_every: 10
-  # Learning rate schedule
-  warmup_steps: 100         # Warmup steps
-  use_lr_scheduler: true    # Activar scheduler
-data:
-  corpus_path: corpus/mtp_mini_corpus.jsonl
-  min_text_length: 20
-  max_text_length: 1000
-  validation_split: 0.1
-# NOTA: Cuando tengas 1000+ ejemplos de calidad, actualizar a:
-# - vocab_size: 8000
-# - d_model: 768
-# - n_layers: 12
-# - n_heads: 12
-# - max_seq_len: 512
-# - use_swiglu: true
-# - accumulation_steps: 4
-# Esto te dará un modelo ~117M parámetros comparable a GPT-2