TeszenAI
/

MTP-3.5

Model card Files Files and versions

MTP-3.5 / config.yaml

teszenofficial's picture

Upload 6 files

86e7f0f verified 3 months ago

history blame contribute delete

1.85 kB

	# MTP Mini - Configuración Mejorada para Generación Coherente

	model:
	vocab_size: 4000
	d_model: 512 # Aumentado para más capacidad
	n_layers: 8 # Más capas
	n_heads: 8 # Más cabezas de atención
	d_ff: 2048 # 4x d_model
	max_seq_len: 512 # Contexto más largo
	dropout: 0.2 # Más dropout para evitar overfitting
	use_swiglu: true # Activación mejorada

	training:
	batch_size: 4 # Batch más pequeño para corpus pequeño
	accumulation_steps: 4 # Effective batch = 16
	epochs: 20 # MENOS épocas
	learning_rate: 0.0003 # LR más alto para convergencia rápida
	min_lr: 0.00001
	weight_decay: 0.1 # MÁS weight decay para regularización
	max_grad_norm: 1.0
	num_threads: 4
	save_every: 5

	# Early stopping
	patience: 5 # Parar si no mejora en 5 epochs
	min_delta: 0.001 # Mejora mínima requerida

	# Learning rate schedule
	warmup_steps: 100
	use_lr_scheduler: true

	# Regularización adicional
	label_smoothing: 0.1
	use_eos_loss_weight: true # Dar más peso al token EOS

	data:
	corpus_path: corpus/mtp_mini_corpus.jsonl
	min_text_length: 50 # Textos más largos
	max_text_length: 2000 # Permitir respuestas largas
	validation_split: 0.15

	# Augmentación de datos
	use_augmentation: true
	augmentation_prob: 0.3

	generation:
	# Parámetros de generación mejorados
	default_max_tokens: 150
	default_temperature: 0.7
	default_top_k: 40
	default_top_p: 0.92
	default_repetition_penalty: 1.15
	min_response_length: 20
	use_length_penalty: true

	# Control de coherencia
	use_perplexity_filter: true
	max_perplexity: 100.0

	# Stop sequences
	stop_sequences:
	- "###"
	- "\n\n\n"
	- "Instrucción:"