Delete config.yaml
Browse files- config.yaml +0 -42
config.yaml
DELETED
|
@@ -1,42 +0,0 @@
|
|
| 1 |
-
# MTP Mini - Configuración Compatible Mejorada
|
| 2 |
-
|
| 3 |
-
model:
|
| 4 |
-
vocab_size: 4000 # Mantener vocabulario actual
|
| 5 |
-
d_model: 384 # Dimensión actual (aumentar a 768 cuando tengas más datos)
|
| 6 |
-
n_layers: 6 # Capas actuales (aumentar a 12 cuando tengas más datos)
|
| 7 |
-
n_heads: 6 # Cabezas actuales
|
| 8 |
-
d_ff: 1536 # 4x d_model
|
| 9 |
-
max_seq_len: 256 # Contexto actual (aumentar a 512 cuando tengas más datos)
|
| 10 |
-
dropout: 0.1
|
| 11 |
-
use_swiglu: false # Cambiar a true cuando tengas 1000+ ejemplos
|
| 12 |
-
|
| 13 |
-
training:
|
| 14 |
-
batch_size: 8 # Tamaño actual
|
| 15 |
-
accumulation_steps: 1 # Sin accumulation por ahora (activar con más datos)
|
| 16 |
-
epochs: 100 # Más épocas para corpus pequeño
|
| 17 |
-
learning_rate: 0.0001 # LR actual
|
| 18 |
-
min_lr: 0.00001 # LR mínimo
|
| 19 |
-
weight_decay: 0.01 # Weight decay actual
|
| 20 |
-
max_grad_norm: 0.5
|
| 21 |
-
num_threads: 4
|
| 22 |
-
save_every: 10
|
| 23 |
-
|
| 24 |
-
# Learning rate schedule
|
| 25 |
-
warmup_steps: 100 # Warmup steps
|
| 26 |
-
use_lr_scheduler: true # Activar scheduler
|
| 27 |
-
|
| 28 |
-
data:
|
| 29 |
-
corpus_path: corpus/mtp_mini_corpus.jsonl
|
| 30 |
-
min_text_length: 20
|
| 31 |
-
max_text_length: 1000
|
| 32 |
-
validation_split: 0.1
|
| 33 |
-
|
| 34 |
-
# NOTA: Cuando tengas 1000+ ejemplos de calidad, actualizar a:
|
| 35 |
-
# - vocab_size: 8000
|
| 36 |
-
# - d_model: 768
|
| 37 |
-
# - n_layers: 12
|
| 38 |
-
# - n_heads: 12
|
| 39 |
-
# - max_seq_len: 512
|
| 40 |
-
# - use_swiglu: true
|
| 41 |
-
# - accumulation_steps: 4
|
| 42 |
-
# Esto te dará un modelo ~117M parámetros comparable a GPT-2
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|