Add test suite

d4614fe verified about 1 month ago

6.98 kB

	"""Test the OpenMythos model: forward pass, backward pass, all variants."""

	import sys
	import os
	sys.path.insert(0, os.path.dirname(os.path.abspath(__file__)))

	import torch
	from open_mythos_hf import (
	OpenMythosConfig,
	OpenMythosForCausalLM,
	mythos_tiny,
	mythos_140m,
	)

	def count_params(model):
	return sum(p.numel() for p in model.parameters())

	def test_forward_backward(name, config):
	print(f"\n{'='*60}")
	print(f"Testing: {name}")
	print(f" n_embd={config.n_embd}, heads={config.n_heads}, "
	f"prelude={config.n_layers_in_prelude}, rec={config.n_layers_in_recurrent_block}, "
	f"coda={config.n_layers_in_coda}")
	print(f" injection={config.injection_type}, MLA={config.use_mla}, MoE={config.use_moe}")

	model = OpenMythosForCausalLM(config)
	total_params = count_params(model)
	print(f" Parameters: {total_params:,} ({total_params / 1e6:.1f}M)")

	# Forward pass (training mode — uses Poisson sampling)
	model.train()
	B, S = 2, min(128, config.block_size)
	input_ids = torch.randint(0, config.vocab_size, (B, S))
	labels = input_ids.clone()

	print(f" Input shape: [{B}, {S}]")

	output = model(input_ids=input_ids, labels=labels)
	print(f" Output logits shape: {output.logits.shape}")
	print(f" Loss: {output.loss.item():.4f}")
	print(f" Num recurrence steps: {output.num_steps}")

	# Backward pass
	output.loss.backward()
	grad_norm = sum(p.grad.norm().item() 2 for p in model.parameters() if p.grad is not None) 0.5
	print(f" Gradient norm: {grad_norm:.4f}")

	# Check gradients exist for key components
	has_prelude_grad = any(p.grad is not None and p.grad.norm() > 0
	for p in model.prelude.parameters())
	has_rec_grad = any(p.grad is not None and p.grad.norm() > 0
	for p in model.recurrent_block.parameters())
	has_coda_grad = any(p.grad is not None and p.grad.norm() > 0
	for p in model.coda.parameters())
	has_lm_head_grad = model.lm_head.weight.grad is not None and model.lm_head.weight.grad.norm() > 0

	print(f" Gradients: prelude={has_prelude_grad}, recurrent={has_rec_grad}, "
	f"coda={has_coda_grad}, lm_head={has_lm_head_grad}")

	# Inference mode (fixed steps)
	model.eval()
	with torch.no_grad():
	output_eval = model(input_ids=input_ids, num_steps=config.mean_recurrence)
	print(f" Eval logits shape: {output_eval.logits.shape}")
	print(f" Eval num_steps: {output_eval.num_steps}")

	print(f" ✅ {name} PASSED")
	return True


	def test_lti_stability():
	"""Test that LTI injection maintains spectral radius < 1."""
	from open_mythos_hf.modeling import LTIInjection

	print(f"\n{'='*60}")
	print("Testing LTI Injection stability")

	lti = LTIInjection(256, 256)
	A_bar, B_bar = lti.get_AB_bar()

	max_A = A_bar.abs().max().item()
	min_A = A_bar.abs().min().item()
	print(f" A_bar range: [{min_A:.6f}, {max_A:.6f}]")
	assert max_A < 1.0, f"Spectral radius >= 1: {max_A}"
	print(f" ✅ Spectral radius < 1 guaranteed: ρ(Ā) = {max_A:.6f}")

	# Test convergence: repeated application should not diverge
	h = torch.randn(1, 16, 256)
	e = torch.randn(1, 16, 256)
	norms = []
	for i in range(100):
	h = lti(h, e)
	norms.append(h.norm().item())

	print(f" State norm after 100 steps: {norms[-1]:.2f} "
	f"(converges: {norms[-1] < norms[0] * 100})")
	print(f" ✅ LTI stability PASSED")


	def test_mla():
	"""Test Multi-Latent Attention."""
	from open_mythos_hf.modeling import MultiLatentAttention, precompute_freqs_cis

	print(f"\n{'='*60}")
	print("Testing Multi-Latent Attention")

	config = OpenMythosConfig(
	n_embd=512, n_heads=8, head_dim=64,
	use_mla=True, kv_lora_rank=128, q_lora_rank=256, rope_head_dim=32,
	)
	mla = MultiLatentAttention(config)

	x = torch.randn(2, 32, 512)
	freqs_cis = precompute_freqs_cis(64, 64)
	out = mla(x, freqs_cis)

	print(f" Input: {x.shape}, Output: {out.shape}")
	assert out.shape == x.shape, f"Shape mismatch: {out.shape} != {x.shape}"

	# Check compression ratio
	full_kv = 2 * config.n_heads * config.head_dim * config.n_embd # standard K + V
	compressed_kv = config.kv_lora_rank * config.n_embd # compressed
	print(f" KV cache reduction: {full_kv} → {compressed_kv} "
	f"({compressed_kv / full_kv * 100:.1f}%)")
	print(f" ✅ MLA PASSED")


	def test_moe():
	"""Test Sparse MoE."""
	from open_mythos_hf.modeling import SparseMoE

	print(f"\n{'='*60}")
	print("Testing Sparse MoE")

	config = OpenMythosConfig(
	n_embd=256, n_heads=4, head_dim=64,
	use_moe=True, n_routed_experts=8, n_shared_experts=2,
	moe_top_k=2, moe_intermediate_size=512,
	intermediate_size=1024,
	)
	moe = SparseMoE(config)

	x = torch.randn(2, 16, 256)
	out = moe(x)

	print(f" Input: {x.shape}, Output: {out.shape}")
	assert out.shape == x.shape

	# Backward
	out.sum().backward()
	print(f" Backward passed")
	print(f" ✅ MoE PASSED")


	if __name__ == "__main__":
	print("=" * 60)
	print("OpenMythos HF Reimplementation — Test Suite")
	print("=" * 60)

	# Component tests
	test_lti_stability()
	test_mla()
	test_moe()

	# Full model tests
	# 1. Tiny with LTI injection (no MLA, no MoE)
	test_forward_backward("Tiny (LTI)", mythos_tiny())

	# 2. Tiny with linear injection (Huginn-style)
	config_linear = mythos_tiny()
	config_linear.injection_type = "linear"
	test_forward_backward("Tiny (Linear injection)", config_linear)

	# 3. With MLA
	config_mla = mythos_tiny()
	config_mla.use_mla = True
	config_mla.kv_lora_rank = 64
	config_mla.q_lora_rank = 128
	config_mla.rope_head_dim = 32
	config_mla.head_dim = 64 # need head_dim > rope_head_dim
	test_forward_backward("Tiny (MLA)", config_mla)

	# 4. With MoE
	config_moe = mythos_tiny()
	config_moe.use_moe = True
	config_moe.n_routed_experts = 4
	config_moe.n_shared_experts = 1
	config_moe.moe_top_k = 2
	config_moe.moe_intermediate_size = 256
	test_forward_backward("Tiny (MoE)", config_moe)

	# 5. Full combo
	config_full = mythos_tiny()
	config_full.injection_type = "lti"
	config_full.use_mla = True
	config_full.kv_lora_rank = 64
	config_full.q_lora_rank = 128
	config_full.rope_head_dim = 32
	config_full.head_dim = 64
	config_full.use_moe = True
	config_full.n_routed_experts = 4
	config_full.n_shared_experts = 1
	config_full.moe_top_k = 2
	config_full.moe_intermediate_size = 256
	test_forward_backward("Tiny (Full: LTI + MLA + MoE)", config_full)

	print(f"\n{'='*60}")
	print("ALL TESTS PASSED ✅")
	print(f"{'='*60}")