TeszenAI
/

mtp-3.1

Model card Files Files and versions

mtp-3.1 / config.yaml

teszenofficial's picture

Upload 6 files

9de0f7f verified 4 months ago

history blame contribute delete

1.46 kB

	# MTP Mini - Configuración Compatible Mejorada

	model:
	vocab_size: 4000 # Mantener vocabulario actual
	d_model: 384 # Dimensión actual (aumentar a 768 cuando tengas más datos)
	n_layers: 6 # Capas actuales (aumentar a 12 cuando tengas más datos)
	n_heads: 6 # Cabezas actuales
	d_ff: 1536 # 4x d_model
	max_seq_len: 256 # Contexto actual (aumentar a 512 cuando tengas más datos)
	dropout: 0.1
	use_swiglu: false # Cambiar a true cuando tengas 1000+ ejemplos

	training:
	batch_size: 8 # Tamaño actual
	accumulation_steps: 1 # Sin accumulation por ahora (activar con más datos)
	epochs: 60 # Más épocas para corpus pequeño
	learning_rate: 0.0001 # LR actual
	min_lr: 0.00001 # LR mínimo
	weight_decay: 0.01 # Weight decay actual
	max_grad_norm: 0.5
	num_threads: 4
	save_every: 10

	# Learning rate schedule
	warmup_steps: 60 # Warmup steps
	use_lr_scheduler: true # Activar scheduler

	data:
	corpus_path: corpus/mtp_mini_corpus.jsonl
	min_text_length: 20
	max_text_length: 1000
	validation_split: 0.1

	# NOTA: Cuando tengas 1000+ ejemplos de calidad, actualizar a:
	# - vocab_size: 8000
	# - d_model: 768
	# - n_layers: 12
	# - n_heads: 12
	# - max_seq_len: 512
	# - use_swiglu: true
	# - accumulation_steps: 4
	# Esto te dará un modelo ~117M parámetros comparable a GPT-2