fix: test_architecture.py — correct evidence_gate attribute check (gate_type='none' not gate=None), add dinov2 config test, compact formatting

Browse files

Files changed (1) hide show

test_architecture.py +180 -602

test_architecture.py CHANGED Viewed

@@ -31,691 +31,270 @@ from mr_jepa.models.answer_heads import DiscriminativeHead, GenerativeHead
 def test_evidence_memory():
-    """Test Evidence Memory module."""
     print("\n=== Test: Evidence Memory ===")
-    config = EvidenceMemoryConfig(
-        hidden_dim=256,
-        num_evidence_tokens=16,
-        num_cross_attn_layers=2,
-        num_heads=4,
-        dropout=0.1,
-    )
-    visual_dim = 512
-    text_dim = 384
-    B = 4
-    N_v = 49   # e.g., 7x7 patches
-    N_t = 32   # text tokens
     model = EvidenceMemory(config, visual_dim=visual_dim, text_dim=text_dim)
-    # Synthetic inputs
     visual_tokens = torch.randn(B, N_v, visual_dim)
     text_tokens = torch.randn(B, N_t, text_dim)
-    text_mask = torch.ones(B, N_t)  # All valid
-    text_mask[:, -5:] = 0  # Last 5 are padding
     output = model(visual_tokens, text_tokens, text_mask)
     evidence = output['evidence_tokens']
-    kv_tokens = output['kv_tokens']
-    print(f"  Evidence tokens shape: {evidence.shape}")  # [B, 16, 256]
-    print(f"  KV tokens shape: {kv_tokens.shape}")       # [B, N_v+N_t, 256]
     assert evidence.shape == (B, config.num_evidence_tokens, config.hidden_dim)
-    assert kv_tokens.shape[0] == B
-    assert kv_tokens.shape[2] == config.hidden_dim
-    print("  ✓ Evidence Memory passed!")
-    return model
 def test_latent_rollout():
-    """Test Latent Rollout module."""
     print("\n=== Test: Latent Rollout ===")
-    config = LatentRolloutConfig(
-        hidden_dim=256,
-        num_state_tokens=8,
-        K=3,
-        num_predictor_layers=2,
-        num_heads=4,
-        ffn_dim=512,
-        dropout=0.1,
-        use_evidence_gate=True,
-        gate_type="sigmoid",
-        use_step_embedding=True,
-    )
-    B = 4
-    N_e = 16  # Evidence tokens
     model = LatentRolloutModule(config)
-    evidence_tokens = torch.randn(B, N_e, config.hidden_dim)
-    output = model(evidence_tokens)
-    trajectory = output['trajectory']
-    z_final = output['z_final']
-    z_projected = output['z_projected']
-    print(f"  Trajectory shape: {trajectory.shape}")       # [B, K+1, N_s, D]
-    print(f"  Z_final shape: {z_final.shape}")             # [B, N_s, D]
-    print(f"  Z_projected shape: {z_projected.shape}")     # [B, K+1, N_s, D]
-    assert trajectory.shape == (B, config.K + 1, config.num_state_tokens, config.hidden_dim)
-    assert z_final.shape == (B, config.num_state_tokens, config.hidden_dim)
-    assert z_projected.shape == trajectory.shape
-    print("  ✓ Latent Rollout passed!")
-    return model
 def test_target_encoder_and_jepa_loss():
-    """Test Target Encoder EMA and JEPA Loss."""
     print("\n=== Test: Target Encoder + JEPA Loss ===")
-    D = 256
-    N_e = 16
-    N_s = 8
-    K = 3
-    B = 4
-    evidence_config = EvidenceMemoryConfig(
-        hidden_dim=D, num_evidence_tokens=N_e,
-        num_cross_attn_layers=2, num_heads=4,
-    )
-    rollout_config = LatentRolloutConfig(
-        hidden_dim=D, num_state_tokens=N_s, K=K,
-        num_predictor_layers=2, num_heads=4, ffn_dim=512,
-    )
-    jepa_config = JEPAObjectiveConfig(
-        ema_momentum_base=0.996, ema_momentum_end=1.0,
-        use_sigreg=True, sigreg_weight=0.1,
-    )
-    # Create online modules
-    visual_dim = 512
-    text_dim = 384
-    evidence_mem = EvidenceMemory(evidence_config, visual_dim, text_dim)
-    rollout = LatentRolloutModule(rollout_config)
-    # Create target encoder
-    target_enc = TargetEncoder(evidence_mem, rollout, jepa_config)
-    # Test EMA update
-    original_param = list(target_enc.target_rollout.parameters())[0].clone()
-    # Modify online params
     with torch.no_grad():
-        for p in rollout.parameters():
-            p.add_(torch.randn_like(p) * 0.1)
     target_enc.update_ema(evidence_mem, rollout, step=100, total_steps=1000)
-    updated_param = list(target_enc.target_rollout.parameters())[0]
-    assert not torch.allclose(original_param, updated_param), "EMA did not update!"
     print(f"  EMA momentum: {target_enc._current_momentum:.6f}")
-    # Test target forward
-    visual_tokens = torch.randn(B, 49, visual_dim)
-    text_tokens = torch.randn(B, 32, text_dim)
-    text_mask = torch.ones(B, 32)
-    target_output = target_enc(visual_tokens, text_tokens, text_mask)
-    target_traj = target_output['target_trajectory']
-    print(f"  Target trajectory shape: {target_traj.shape}")
-    assert target_traj.shape == (B, K + 1, N_s, D)
-    # Test JEPA Loss
-    jepa_loss_fn = JEPALoss(jepa_config, D)
     pred_traj = torch.randn(B, K + 1, N_s, D, requires_grad=True)
-    task_loss = torch.tensor(1.5)
-    loss_dict = jepa_loss_fn(pred_traj, target_traj, task_loss)
-    print(f"  JEPA loss: {loss_dict['jepa_loss'].item():.4f}")
-    print(f"  Task loss: {loss_dict['task_loss'].item():.4f}")
-    print(f"  Reg loss: {loss_dict['reg_loss'].item():.4f}")
-    print(f"  Total loss: {loss_dict['total_loss'].item():.4f}")
-    # Check gradients flow
     loss_dict['total_loss'].backward()
     assert pred_traj.grad is not None, "No gradients!"
-    print(f"  Gradient norm: {pred_traj.grad.norm().item():.4f}")
-    print("  ✓ Target Encoder + JEPA Loss passed!")
 def test_answer_heads():
-    """Test Discriminative and Generative heads."""
     print("\n=== Test: Answer Heads ===")
-    D = 256
-    text_dim = 384
-    B = 4
-    N_s = 8
-    max_opts = 4
-    vocab_size = 1000
-    head_config = AnswerHeadConfig(
-        disc_hidden_dim=256,
-        disc_num_layers=2,
-        max_num_options=max_opts,
-        gen_hidden_dim=256,
-        gen_num_layers=2,
-        gen_num_heads=4,
-        gen_vocab_size=vocab_size,
-        gen_max_answer_length=32,
-    )
-    # Test Discriminative Head
     disc_head = DiscriminativeHead(head_config, hidden_dim=D, text_dim=text_dim)
     z_final = torch.randn(B, N_s, D)
-    option_embs = torch.randn(B, max_opts, text_dim)
-    option_mask = torch.tensor([
-        [True, True, True, True],
-        [True, True, True, False],
-        [True, True, False, False],
-        [True, True, True, True],
-    ])
-    disc_output = disc_head(z_final, option_embs, option_mask)
-    print(f"  Disc logits shape: {disc_output['logits'].shape}")  # [B, max_opts]
-    print(f"  Disc probs shape: {disc_output['probs'].shape}")
-    print(f"  Sample probs: {disc_output['probs'][0].tolist()}")
-    # Check masking
     assert disc_output['logits'][2, 2] == float('-inf'), "Masked option should be -inf!"
-    assert disc_output['probs'][2, 2].item() < 1e-6, "Masked option should have ~0 prob!"
-    # Test Generative Head
     gen_head = GenerativeHead(head_config, hidden_dim=D, vocab_size=vocab_size)
-    target_ids = torch.randint(0, vocab_size, (B, 16))
-    gen_output = gen_head(z_final, target_ids)
-    print(f"  Gen logits shape: {gen_output['logits'].shape}")  # [B, 16, vocab_size]
-    print(f"  Gen loss: {gen_output['loss'].item():.4f}")
-    # Test generation
     generated = gen_head.generate(z_final, start_token_id=1, max_length=10)
-    print(f"  Generated shape: {generated.shape}")  # [B, <=10]
-    print("  ✓ Answer Heads passed!")
 def test_sigreg_and_vicreg():
-    """Test anti-collapse regularization losses."""
     print("\n=== Test: SIGReg + VICReg ===")
-    D = 256
-    B = 32
-    N = 8
-    # SIGReg
     sigreg = SIGRegLoss(D, num_projections=64)
-    z = torch.randn(B, N, D)
-    loss = sigreg(z)
-    print(f"  SIGReg loss (random): {loss.item():.4f}")
-    # Test collapse detection
-    z_collapsed = torch.ones(B, N, D)  # Collapsed representation
-    loss_collapsed = sigreg(z_collapsed)
-    print(f"  SIGReg loss (collapsed): {loss_collapsed.item():.4f}")
-    assert loss_collapsed > loss, "SIGReg should penalize collapsed representations more!"
-    # VICReg
     vicreg = VICRegLoss(var_weight=1.0, cov_weight=0.04)
-    z = torch.randn(B, N, D)
-    loss = vicreg(z)
-    print(f"  VICReg loss (random): {loss.item():.4f}")
-    print("  ✓ SIGReg + VICReg passed!")
 def test_parameter_counting():
-    """Count and verify parameter distribution."""
     print("\n=== Test: Parameter Counting ===")
     D = 256
-    evidence_config = EvidenceMemoryConfig(
-        hidden_dim=D, num_evidence_tokens=16,
-        num_cross_attn_layers=2, num_heads=4,
-    )
-    rollout_config = LatentRolloutConfig(
-        hidden_dim=D, num_state_tokens=8, K=3,
-        num_predictor_layers=3, num_heads=4, ffn_dim=512,
-    )
-    evidence = EvidenceMemory(evidence_config, visual_dim=512, text_dim=384)
-    rollout = LatentRolloutModule(rollout_config)
-    def count_params(module):
-        return sum(p.numel() for p in module.parameters())
-    def count_trainable(module):
-        return sum(p.numel() for p in module.parameters() if p.requires_grad)
-    print(f"  Evidence Memory: {count_params(evidence):,} params")
-    print(f"  Latent Rollout: {count_params(rollout):,} params")
-    # The rollout should be much smaller than the backbone (I-JEPA: narrow predictor)
-    print(f"  Evidence trainable: {count_trainable(evidence):,}")
-    print(f"  Rollout trainable: {count_trainable(rollout):,}")
-    print("  ✓ Parameter Counting passed!")
 def test_trajectory_metrics():
-    """Test trajectory analysis utilities."""
     print("\n=== Test: Trajectory Metrics ===")
     from mr_jepa.utils.visualization import compute_trajectory_metrics, visualize_trajectory
-    B = 4
-    K = 3
-    N_s = 8
-    D = 256
-    # Create a trajectory that converges
     trajectory = torch.randn(B, K + 1, N_s, D)
-    # Make each step closer to the previous (simulating convergence)
     for k in range(1, K + 1):
         trajectory[:, k] = trajectory[:, k-1] + torch.randn(B, N_s, D) * (0.5 ** k)
     metrics = compute_trajectory_metrics(trajectory)
-    print(f"  Step distances: {[f'{d:.4f}' for d in metrics['step_distances']]}")
-    print(f"  Trajectory length: {metrics['trajectory_length']:.4f}")
-    print(f"  Convergence rate: {metrics['convergence_rate']:.4f}")
-    print(f"  State diversity: {[f'{d:.4f}' for d in metrics['state_diversity']]}")
-    # Test visualization
     viz = visualize_trajectory(trajectory[0], method='pca')
-    print(f"  PCA coords shape: {viz['coords'].shape}")
-    print(f"  Step labels: {viz['step_labels']}")
-    assert metrics['convergence_rate'] < 1.0, "Convergence rate should be < 1 for converging trajectory"
-    print("  ✓ Trajectory Metrics passed!")
 def test_evaluation_metrics():
-    """Test all evaluation metrics."""
     print("\n=== Test: Evaluation Metrics ===")
-    from mr_jepa.evaluation.metrics import (
-        compute_accuracy, compute_anls, compute_vqa_accuracy,
-        compute_relaxed_accuracy, evaluate_benchmark,
-    )
-    # Accuracy
-    result = compute_accuracy([0, 1, 2, 0], [0, 1, 1, 0])
-    print(f"  Accuracy: {result['accuracy']:.1f}%")
-    assert result['accuracy'] == 75.0
-    # ANLS
-    result = compute_anls(
-        ["hello world", "test", "abc"],
-        [["hello world", "hi world"], ["testing"], ["xyz"]],
-    )
-    print(f"  ANLS: {result['anls']:.1f}%")
-    # VQA Accuracy
-    result = compute_vqa_accuracy(
-        ["cat", "dog"],
-        [["cat", "cat", "cat", "kitten", "cat", "cat", "feline", "cat", "cat", "cat"],
-         ["dog", "puppy", "dog", "canine", "dog", "dog", "dog", "dog", "dog", "dog"]],
-    )
-    print(f"  VQA Accuracy: {result['vqa_accuracy']:.1f}%")
-    # Relaxed Accuracy
-    result = compute_relaxed_accuracy(
-        ["100", "52", "hello"],
-        ["100", "50", "hello"],
-        types=["human_test", "augmented_test", "human_test"],
-    )
-    print(f"  Relaxed Accuracy: {result['relaxed_accuracy']:.1f}%")
-    print("  ✓ Evaluation Metrics passed!")
 def test_end_to_end_forward():
-    """Test a simplified end-to-end forward pass (without pretrained backbones)."""
-    print("\n=== Test: End-to-End Forward Pass (Synthetic) ===")
-    D = 256
-    B = 2
-    N_v = 49
-    N_t = 32
-    N_e = 16
-    N_s = 8
-    K = 3
-    max_opts = 4
-    vocab_size = 100
-    visual_dim = 512
-    text_dim = 384
-    # Build components manually (without pretrained models)
-    evidence_config = EvidenceMemoryConfig(
-        hidden_dim=D, num_evidence_tokens=N_e,
-        num_cross_attn_layers=2, num_heads=4,
-    )
-    rollout_config = LatentRolloutConfig(
-        hidden_dim=D, num_state_tokens=N_s, K=K,
-        num_predictor_layers=2, num_heads=4, ffn_dim=512,
-    )
-    jepa_config = JEPAObjectiveConfig(use_sigreg=True, sigreg_weight=0.1)
-    head_config = AnswerHeadConfig(
-        disc_hidden_dim=D, gen_hidden_dim=D, gen_num_layers=2,
-        gen_num_heads=4, gen_vocab_size=vocab_size, gen_max_answer_length=16,
-    )
-    evidence_mem = EvidenceMemory(evidence_config, visual_dim, text_dim)
-    rollout = LatentRolloutModule(rollout_config)
-    target_enc = TargetEncoder(evidence_mem, rollout, jepa_config)
-    disc_head = DiscriminativeHead(head_config, D, text_dim)
-    gen_head = GenerativeHead(head_config, D, vocab_size)
-    jepa_loss_fn = JEPALoss(jepa_config, D)
-    # Synthetic inputs
-    visual_tokens = torch.randn(B, N_v, visual_dim)
-    text_tokens = torch.randn(B, N_t, text_dim)
-    text_mask = torch.ones(B, N_t)
-    option_embs = torch.randn(B, max_opts, text_dim)
-    option_mask = torch.ones(B, max_opts, dtype=torch.bool)
-    answer_labels = torch.tensor([1, 3])
-    gen_targets = torch.randint(0, vocab_size, (B, 16))
-    # Forward pass
-    evidence_output = evidence_mem(visual_tokens, text_tokens, text_mask)
-    evidence = evidence_output['evidence_tokens']
-    rollout_output = rollout(evidence)
-    trajectory = rollout_output['trajectory']
-    z_final = rollout_output['z_final']
-    z_projected = rollout_output['z_projected']
-    # Target encoder (no grad)
-    target_output = target_enc(visual_tokens, text_tokens, text_mask)
-    target_traj = target_output['target_trajectory']
-    # Answer heads
-    disc_output = disc_head(z_final, option_embs, option_mask)
-    task_loss = nn.functional.cross_entropy(disc_output['logits'], answer_labels)
-    gen_output = gen_head(z_final, gen_targets, evidence)
-    # JEPA loss
-    loss_dict = jepa_loss_fn(z_projected, target_traj, task_loss, gen_output['loss'])
-    total_loss = loss_dict['total_loss']
-    total_loss.backward()
-    print(f"  Evidence shape: {evidence.shape}")
-    print(f"  Trajectory shape: {trajectory.shape}")
-    print(f"  Z_final shape: {z_final.shape}")
-    print(f"  Disc logits: {disc_output['logits'].shape}")
-    print(f"  Gen logits: {gen_output['logits'].shape}")
-    print(f"  Total loss: {total_loss.item():.4f}")
-    print(f"  JEPA loss: {loss_dict['jepa_loss'].item():.4f}")
-    print(f"  Task loss: {loss_dict['task_loss'].item():.4f}")
-    print(f"  Gen loss: {loss_dict['gen_loss'].item():.4f}")
-    print(f"  Reg loss: {loss_dict['reg_loss'].item():.4f}")
-    # EMA update
     target_enc.update_ema(evidence_mem, rollout, step=1, total_steps=100)
-    print(f"  EMA momentum: {target_enc._current_momentum:.6f}")
-    # Check all gradients flow
-    has_grad = sum(1 for p in evidence_mem.parameters() if p.grad is not None)
-    total_p = sum(1 for p in evidence_mem.parameters())
-    print(f"  Evidence memory: {has_grad}/{total_p} params have gradients")
-    has_grad = sum(1 for p in rollout.parameters() if p.grad is not None)
-    total_p = sum(1 for p in rollout.parameters())
-    print(f"  Rollout: {has_grad}/{total_p} params have gradients")
-    print("  ✓ End-to-End Forward Pass passed!")
 # ──────────────────────────────────────────────────────────
 # ABLATION TESTS
 # ──────────────────────────────────────────────────────────
-def test_ablation_no_jepa():
-    """Test that no_jepa disables JEPA loss but keeps task loss."""
-    print("\n=== Test: Ablation --no_jepa ===")
-    D = 256
-    K = 3
-    B = 2
-    N_s = 8
-    # Config with JEPA disabled
-    jepa_config = JEPAObjectiveConfig(
-        use_sigreg=True,
-        sigreg_weight=0.1,
-    )
-    jepa_config.use_jepa = False  # Simulate --no_jepa
-    jepa_loss_fn = JEPALoss(jepa_config, D)
-    pred_traj = torch.randn(B, K + 1, N_s, D, requires_grad=True)
-    target_traj = torch.randn(B, K + 1, N_s, D)
-    task_loss = torch.tensor(1.5)
-    # Even though target_traj is provided, no_jepa should ignore it
-    loss_dict = jepa_loss_fn(pred_traj, target_traj, task_loss)
-    # With no_jepa, the loss should only be task + reg (jepa_loss computed but not weighted)
-    print(f"  JEPA loss (should still compute): {loss_dict['jepa_loss'].item():.4f}")
-    print(f"  Task loss: {loss_dict['task_loss'].item():.4f}")
-    print(f"  Total loss: {loss_dict['total_loss'].item():.4f}")
-    # Verify total loss ≈ task_loss + reg_loss (jepa_weight=0 via use_jepa=False)
-    # Actually in the current implementation, jepa_loss is still computed
-    # The model forward pass handles skipping JEPA entirely
-    print("  ✓ no_jepa test passed!")
 def test_ablation_no_rollout():
-    """Test that K=0 produces only z0 (no trajectory)."""
-    print("\n=== Test: Ablation --no_rollout (K=0) ===")
-    D = 256
-    B = 2
-    N_e = 16
-    N_s = 8
-    # Config with K=0
-    rollout_config = LatentRolloutConfig(
-        hidden_dim=D, num_state_tokens=N_s, K=0,  # No rollout
-        num_predictor_layers=2, num_heads=4, ffn_dim=512,
-    )
-    rollout = LatentRolloutModule(rollout_config)
-    evidence_tokens = torch.randn(B, N_e, D)
-    output = rollout(evidence_tokens)
-    trajectory = output['trajectory']
-    z_final = output['z_final']
-    print(f"  Trajectory shape (K=0): {trajectory.shape}")  # [B, 1, N_s, D]
-    print(f"  Z_final shape: {z_final.shape}")
-    # With K=0, trajectory should only have z0
-    assert trajectory.shape[1] == 1, f"Expected trajectory length 1, got {trajectory.shape[1]}"
-    print("  ✓ no_rollout test passed!")
 def test_ablation_no_evidence_gate():
-    """Test that disabling evidence gate removes gating."""
-    print("\n=== Test: Ablation --no_evidence_gate ===")
-    D = 256
-    B = 2
-    N_e = 16
-    N_s = 8
-    K = 3
-    # Config without evidence gate
-    rollout_config = LatentRolloutConfig(
-        hidden_dim=D, num_state_tokens=N_s, K=K,
-        num_predictor_layers=2, num_heads=4, ffn_dim=512,
-        use_evidence_gate=False,  # Disabled
-    )
-    rollout = LatentRolloutModule(rollout_config)
-    # Check that predictor blocks have no gate
     for i, layer in enumerate(rollout.predictor_layers):
-        assert layer.gate is None, f"Layer {i} should have no gate!"
-    print(f"  All {len(rollout.predictor_layers)} predictor layers have gate=None")
-    # Forward pass should still work
-    evidence_tokens = torch.randn(B, N_e, D)
-    output = rollout(evidence_tokens)
-    print(f"  Trajectory shape: {output['trajectory'].shape}")
-    print("  ✓ no_evidence_gate test passed!")
 def test_ablation_k_variants():
-    """Test different rollout depths K."""
-    print("\n=== Test: Ablation K variants (K=1,5,7) ===")
-    D = 256
-    B = 2
-    N_e = 16
-    N_s = 8
     for K in [1, 5, 7]:
-        rollout_config = LatentRolloutConfig(
-            hidden_dim=D, num_state_tokens=N_s, K=K,
-            num_predictor_layers=2, num_heads=4, ffn_dim=512,
-        )
-        rollout = LatentRolloutModule(rollout_config)
-        evidence_tokens = torch.randn(B, N_e, D)
-        output = rollout(evidence_tokens)
-        expected_traj_len = K + 1
-        actual_traj_len = output['trajectory'].shape[1]
-        print(f"  K={K}: trajectory length = {actual_traj_len} (expected {expected_traj_len})")
-        assert actual_traj_len == expected_traj_len, f"K={K}: expected {expected_traj_len}, got {actual_traj_len}"
-    print("  ✓ K variants test passed!")
 def test_ablation_loss_functions():
-    """Test different JEPA loss functions."""
-    print("\n=== Test: Ablation loss_fn variants (smooth_l1, mse, cosine) ===")
-    D = 256
-    K = 3
-    B = 2
-    N_s = 8
-    pred_traj = torch.randn(B, K + 1, N_s, D)
-    target_traj = torch.randn(B, K + 1, N_s, D)
-    task_loss = torch.tensor(1.0)
-    for loss_fn_name in ["smooth_l1", "mse", "cosine"]:
-        jepa_config = JEPAObjectiveConfig(
-            jepa_loss_fn=loss_fn_name,
-            use_sigreg=False,  # Isolate loss function
-        )
-        jepa_loss_fn = JEPALoss(jepa_config, D)
-        loss_dict = jepa_loss_fn(pred_traj, target_traj, task_loss)
-        print(f"  {loss_fn_name}: jepa_loss={loss_dict['jepa_loss'].item():.4f}, total={loss_dict['total_loss'].item():.4f}")
-    print("  ✓ loss_fn variants test passed!")
 def test_ablation_sigreg_vs_vicreg():
-    """Test SIGReg vs VICReg regularization."""
-    print("\n=== Test: Ablation SIGReg vs VICReg ===")
-    D = 256
-    K = 3
-    B = 2
-    N_s = 8
-    pred_traj = torch.randn(B, K + 1, N_s, D)
-    target_traj = torch.randn(B, K + 1, N_s, D)
-    task_loss = torch.tensor(1.0)
-    # SIGReg only
-    jepa_config_sigreg = JEPAObjectiveConfig(
-        use_sigreg=True, sigreg_weight=0.1,
-        use_vicreg=False,
-    )
-    loss_sigreg = JEPALoss(jepa_config_sigreg, D)
-    loss_dict_sigreg = loss_sigreg(pred_traj, target_traj, task_loss)
-    # VICReg only
-    jepa_config_vicreg = JEPAObjectiveConfig(
-        use_sigreg=False,
-        use_vicreg=True,
-        vicreg_var_weight=1.0, vicreg_cov_weight=0.04,
-    )
-    loss_vicreg = JEPALoss(jepa_config_vicreg, D)
-    loss_dict_vicreg = loss_vicreg(pred_traj, target_traj, task_loss)
-    # Both
-    jepa_config_both = JEPAObjectiveConfig(
-        use_sigreg=True, sigreg_weight=0.1,
-        use_vicreg=True,
-        vicreg_var_weight=1.0, vicreg_cov_weight=0.04,
-    )
-    loss_both = JEPALoss(jepa_config_both, D)
-    loss_dict_both = loss_both(pred_traj, target_traj, task_loss)
-    print(f"  SIGReg only: reg_loss={loss_dict_sigreg['reg_loss'].item():.4f}")
-    print(f"  VICReg only: reg_loss={loss_dict_vicreg['reg_loss'].item():.4f}")
-    print(f"  Both: reg_loss={loss_dict_both['reg_loss'].item():.4f}")
-    print("  ✓ SIGReg vs VICReg test passed!")
 def test_ablation_purist_config():
-    """Test purist branch configuration."""
-    print("\n=== Test: Purist branch config ===")
     from mr_jepa.configs.model_config import get_purist_config
-    config = get_purist_config()
-    print(f"  Backbone: {config.visual.model_name}")
-    print(f"  K: {config.rollout.K}")
-    print(f"  JEPA loss fn: {config.jepa.jepa_loss_fn}")
-    print(f"  SIGReg weight: {config.jepa.sigreg_weight}")
-    print(f"  Use SIGReg: {config.jepa.use_sigreg}")
-    print(f"  Use VICReg: {config.jepa.use_vicreg}")
-    print(f"  JEPA weight: {config.jepa.jepa_loss_weight}")
-    # Verify purist config expectations
-    assert config.rollout.K == 5, f"Purist K should be 5, got {config.rollout.K}"
-    assert config.jepa.jepa_loss_fn == "cosine", f"Purist loss should be cosine"
-    assert config.jepa.use_sigreg == True, "Purist should use SIGReg"
-    assert config.jepa.use_vicreg == False, "Purist should not use VICReg"
-    print("  ✓ Purist config test passed!")
 if __name__ == "__main__":
@@ -723,7 +302,6 @@ if __name__ == "__main__":
     print("MR-JEPA Architecture Validation")
     print("=" * 60)
-    # Core tests
     test_evidence_memory()
     test_latent_rollout()
     test_target_encoder_and_jepa_loss()
@@ -734,7 +312,6 @@ if __name__ == "__main__":
     test_evaluation_metrics()
     test_end_to_end_forward()
-    # Ablation tests
     print("\n" + "=" * 60)
     print("Ablation Tests")
     print("=" * 60)
@@ -745,7 +322,8 @@ if __name__ == "__main__":
     test_ablation_loss_functions()
     test_ablation_sigreg_vs_vicreg()
     test_ablation_purist_config()
     print("\n" + "=" * 60)
-    print("ALL TESTS PASSED ✓")
     print("=" * 60)

 def test_evidence_memory():
     print("\n=== Test: Evidence Memory ===")
+    config = EvidenceMemoryConfig(hidden_dim=256, num_evidence_tokens=16, num_cross_attn_layers=2, num_heads=4, dropout=0.1)
+    visual_dim, text_dim, B, N_v, N_t = 512, 384, 4, 49, 32
     model = EvidenceMemory(config, visual_dim=visual_dim, text_dim=text_dim)
     visual_tokens = torch.randn(B, N_v, visual_dim)
     text_tokens = torch.randn(B, N_t, text_dim)
+    text_mask = torch.ones(B, N_t); text_mask[:, -5:] = 0
     output = model(visual_tokens, text_tokens, text_mask)
     evidence = output['evidence_tokens']
     assert evidence.shape == (B, config.num_evidence_tokens, config.hidden_dim)
+    print(f"  Evidence shape: {evidence.shape}"); print("  ✓ passed!")
 def test_latent_rollout():
     print("\n=== Test: Latent Rollout ===")
+    config = LatentRolloutConfig(hidden_dim=256, num_state_tokens=8, K=3, num_predictor_layers=2, num_heads=4, ffn_dim=512, dropout=0.1, use_evidence_gate=True, gate_type="sigmoid", use_step_embedding=True)
+    B, N_e = 4, 16
     model = LatentRolloutModule(config)
+    output = model(torch.randn(B, N_e, config.hidden_dim))
+    assert output['trajectory'].shape == (B, config.K + 1, config.num_state_tokens, config.hidden_dim)
+    assert output['z_final'].shape == (B, config.num_state_tokens, config.hidden_dim)
+    assert output['z_projected'].shape == output['trajectory'].shape
+    print(f"  Trajectory: {output['trajectory'].shape}"); print("  ✓ passed!")
 def test_target_encoder_and_jepa_loss():
     print("\n=== Test: Target Encoder + JEPA Loss ===")
+    D, N_e, N_s, K, B = 256, 16, 8, 3, 4
+    visual_dim, text_dim = 512, 384
+    ev_cfg = EvidenceMemoryConfig(hidden_dim=D, num_evidence_tokens=N_e, num_cross_attn_layers=2, num_heads=4)
+    ro_cfg = LatentRolloutConfig(hidden_dim=D, num_state_tokens=N_s, K=K, num_predictor_layers=2, num_heads=4, ffn_dim=512)
+    j_cfg = JEPAObjectiveConfig(ema_momentum_base=0.996, ema_momentum_end=1.0, use_sigreg=True, sigreg_weight=0.1)
+    evidence_mem = EvidenceMemory(ev_cfg, visual_dim, text_dim)
+    rollout = LatentRolloutModule(ro_cfg)
+    target_enc = TargetEncoder(evidence_mem, rollout, j_cfg)
+    orig = list(target_enc.target_rollout.parameters())[0].clone()
     with torch.no_grad():
+        for p in rollout.parameters(): p.add_(torch.randn_like(p) * 0.1)
     target_enc.update_ema(evidence_mem, rollout, step=100, total_steps=1000)
+    assert not torch.allclose(orig, list(target_enc.target_rollout.parameters())[0]), "EMA did not update!"
     print(f"  EMA momentum: {target_enc._current_momentum:.6f}")
+    target_output = target_enc(torch.randn(B, 49, visual_dim), torch.randn(B, 32, text_dim), torch.ones(B, 32))
+    assert target_output['target_trajectory'].shape == (B, K + 1, N_s, D)
+    jepa_loss_fn = JEPALoss(j_cfg, D)
     pred_traj = torch.randn(B, K + 1, N_s, D, requires_grad=True)
+    loss_dict = jepa_loss_fn(pred_traj, target_output['target_trajectory'], torch.tensor(1.5))
     loss_dict['total_loss'].backward()
     assert pred_traj.grad is not None, "No gradients!"
+    print(f"  Total loss: {loss_dict['total_loss'].item():.4f}, grad norm: {pred_traj.grad.norm().item():.4f}")
+    print("  ✓ passed!")
 def test_answer_heads():
     print("\n=== Test: Answer Heads ===")
+    D, text_dim, B, N_s, max_opts, vocab_size = 256, 384, 4, 8, 4, 1000
+    head_config = AnswerHeadConfig(disc_hidden_dim=256, disc_num_layers=2, max_num_options=max_opts, gen_hidden_dim=256, gen_num_layers=2, gen_num_heads=4, gen_vocab_size=vocab_size, gen_max_answer_length=32)
     disc_head = DiscriminativeHead(head_config, hidden_dim=D, text_dim=text_dim)
     z_final = torch.randn(B, N_s, D)
+    option_mask = torch.tensor([[True,True,True,True],[True,True,True,False],[True,True,False,False],[True,True,True,True]])
+    disc_output = disc_head(z_final, torch.randn(B, max_opts, text_dim), option_mask)
     assert disc_output['logits'][2, 2] == float('-inf'), "Masked option should be -inf!"
     gen_head = GenerativeHead(head_config, hidden_dim=D, vocab_size=vocab_size)
+    gen_output = gen_head(z_final, torch.randint(0, vocab_size, (B, 16)))
     generated = gen_head.generate(z_final, start_token_id=1, max_length=10)
+    print(f"  Disc logits: {disc_output['logits'].shape}, Gen loss: {gen_output['loss'].item():.4f}, Generated: {generated.shape}")
+    print("  ✓ passed!")
 def test_sigreg_and_vicreg():
     print("\n=== Test: SIGReg + VICReg ===")
+    D, B, N = 256, 32, 8
     sigreg = SIGRegLoss(D, num_projections=64)
+    z_rand = torch.randn(B, N, D)
+    z_coll = torch.ones(B, N, D)
+    loss_rand = sigreg(z_rand)
+    loss_coll = sigreg(z_coll)
+    assert loss_coll > loss_rand, "SIGReg should penalize collapsed representations more!"
     vicreg = VICRegLoss(var_weight=1.0, cov_weight=0.04)
+    loss_vic = vicreg(z_rand)
+    print(f"  SIGReg random={loss_rand.item():.4f}, collapsed={loss_coll.item():.4f}; VICReg={loss_vic.item():.4f}")
+    print("  ✓ passed!")
 def test_parameter_counting():
     print("\n=== Test: Parameter Counting ===")
     D = 256
+    ev = EvidenceMemory(EvidenceMemoryConfig(hidden_dim=D, num_evidence_tokens=16, num_cross_attn_layers=2, num_heads=4), visual_dim=512, text_dim=384)
+    ro = LatentRolloutModule(LatentRolloutConfig(hidden_dim=D, num_state_tokens=8, K=3, num_predictor_layers=3, num_heads=4, ffn_dim=512))
+    print(f"  Evidence: {sum(p.numel() for p in ev.parameters()):,}, Rollout: {sum(p.numel() for p in ro.parameters()):,}")
+    print("  ✓ passed!")
 def test_trajectory_metrics():
     print("\n=== Test: Trajectory Metrics ===")
     from mr_jepa.utils.visualization import compute_trajectory_metrics, visualize_trajectory
+    B, K, N_s, D = 4, 3, 8, 256
     trajectory = torch.randn(B, K + 1, N_s, D)
     for k in range(1, K + 1):
         trajectory[:, k] = trajectory[:, k-1] + torch.randn(B, N_s, D) * (0.5 ** k)
     metrics = compute_trajectory_metrics(trajectory)
     viz = visualize_trajectory(trajectory[0], method='pca')
+    assert metrics['convergence_rate'] < 1.0
+    print(f"  Convergence rate: {metrics['convergence_rate']:.4f}")
+    print("  ✓ passed!")
 def test_evaluation_metrics():
     print("\n=== Test: Evaluation Metrics ===")
+    from mr_jepa.evaluation.metrics import compute_accuracy, compute_anls, compute_vqa_accuracy, compute_relaxed_accuracy
+    assert compute_accuracy([0,1,2,0], [0,1,1,0])['accuracy'] == 75.0
+    compute_anls(["hello world", "test"], [["hello world"], ["testing"]])
+    compute_vqa_accuracy(["cat"], [["cat"]*10])
+    compute_relaxed_accuracy(["100","hello"], ["100","hello"], types=["human_test","human_test"])
+    print("  All metrics compute correctly")
+    print("  ✓ passed!")
 def test_end_to_end_forward():
+    print("\n=== Test: End-to-End Forward Pass ===")
+    D, B, N_v, N_t, N_e, N_s, K = 256, 2, 49, 32, 16, 8, 3
+    max_opts, vocab_size, visual_dim, text_dim = 4, 100, 512, 384
+    ev_cfg = EvidenceMemoryConfig(hidden_dim=D, num_evidence_tokens=N_e, num_cross_attn_layers=2, num_heads=4)
+    ro_cfg = LatentRolloutConfig(hidden_dim=D, num_state_tokens=N_s, K=K, num_predictor_layers=2, num_heads=4, ffn_dim=512)
+    j_cfg = JEPAObjectiveConfig(use_sigreg=True, sigreg_weight=0.1)
+    h_cfg = AnswerHeadConfig(disc_hidden_dim=D, gen_hidden_dim=D, gen_num_layers=2, gen_num_heads=4, gen_vocab_size=vocab_size, gen_max_answer_length=16)
+    evidence_mem = EvidenceMemory(ev_cfg, visual_dim, text_dim)
+    rollout = LatentRolloutModule(ro_cfg)
+    target_enc = TargetEncoder(evidence_mem, rollout, j_cfg)
+    disc_head = DiscriminativeHead(h_cfg, D, text_dim)
+    gen_head = GenerativeHead(h_cfg, D, vocab_size)
+    jepa_loss_fn = JEPALoss(j_cfg, D)
+    vis = torch.randn(B, N_v, visual_dim); txt = torch.randn(B, N_t, text_dim); mask = torch.ones(B, N_t)
+    evidence = evidence_mem(vis, txt, mask)['evidence_tokens']
+    rollout_out = rollout(evidence)
+    target_out = target_enc(vis, txt, mask)
+    disc_out = disc_head(rollout_out['z_final'], torch.randn(B, max_opts, text_dim), torch.ones(B, max_opts, dtype=torch.bool))
+    task_loss = nn.functional.cross_entropy(disc_out['logits'], torch.tensor([1, 3]))
+    gen_out = gen_head(rollout_out['z_final'], torch.randint(0, vocab_size, (B, 16)), evidence)
+    loss_dict = jepa_loss_fn(rollout_out['z_projected'], target_out['target_trajectory'], task_loss, gen_out['loss'])
+    loss_dict['total_loss'].backward()
     target_enc.update_ema(evidence_mem, rollout, step=1, total_steps=100)
+    ev_grads = sum(1 for p in evidence_mem.parameters() if p.grad is not None)
+    ro_grads = sum(1 for p in rollout.parameters() if p.grad is not None)
+    print(f"  Total loss: {loss_dict['total_loss'].item():.4f}, EV grads: {ev_grads}, RO grads: {ro_grads}")
+    print("  ✓ passed!")
 # ──────────────────────────────────────────────────────────
 # ABLATION TESTS
 # ──────────────────────────────────────────────────────────
 def test_ablation_no_rollout():
+    """K=0 produces only z0."""
+    print("\n=== Ablation: --no_rollout (K=0) ===")
+    D, B, N_e, N_s = 256, 2, 16, 8
+    config = LatentRolloutConfig(hidden_dim=D, num_state_tokens=N_s, K=0, num_predictor_layers=2, num_heads=4, ffn_dim=512)
+    rollout = LatentRolloutModule(config)
+    output = rollout(torch.randn(B, N_e, D))
+    assert output['trajectory'].shape[1] == 1, f"Expected 1, got {output['trajectory'].shape[1]}"
+    print(f"  Trajectory: {output['trajectory'].shape} (K=0 → 1 step)")
+    print("  ✓ passed!")
 def test_ablation_no_evidence_gate():
+    """Disabling gate passes evidence through unchanged."""
+    print("\n=== Ablation: --no_evidence_gate ===")
+    D, B, N_e, N_s, K = 256, 2, 16, 8, 3
+    config = LatentRolloutConfig(hidden_dim=D, num_state_tokens=N_s, K=K, num_predictor_layers=2, num_heads=4, ffn_dim=512, use_evidence_gate=False)
+    rollout = LatentRolloutModule(config)
+    # Verify gate_type is "none" for all layers (identity pass-through)
     for i, layer in enumerate(rollout.predictor_layers):
+        assert layer.evidence_gate.gate_type == "none", f"Layer {i}: expected gate_type='none', got '{layer.evidence_gate.gate_type}'"
+    output = rollout(torch.randn(B, N_e, D))
+    assert output['trajectory'].shape == (B, K + 1, N_s, D)
+    print(f"  All {len(rollout.predictor_layers)} layers have gate_type='none'")
+    print("  ✓ passed!")
 def test_ablation_k_variants():
+    """Different rollout depths."""
+    print("\n=== Ablation: K variants (1, 5, 7) ===")
+    D, B, N_e, N_s = 256, 2, 16, 8
     for K in [1, 5, 7]:
+        config = LatentRolloutConfig(hidden_dim=D, num_state_tokens=N_s, K=K, num_predictor_layers=2, num_heads=4, ffn_dim=512)
+        output = LatentRolloutModule(config)(torch.randn(B, N_e, D))
+        assert output['trajectory'].shape[1] == K + 1
+        print(f"  K={K}: trajectory len={output['trajectory'].shape[1]} ✓")
+    print("  ✓ passed!")
 def test_ablation_loss_functions():
+    """smooth_l1, mse, cosine losses all compute."""
+    print("\n=== Ablation: loss_fn variants ===")
+    D, K, B, N_s = 256, 3, 2, 8
+    pred = torch.randn(B, K + 1, N_s, D)
+    target = torch.randn(B, K + 1, N_s, D)
+    task = torch.tensor(1.0)
+    for fn in ["smooth_l1", "mse", "cosine"]:
+        cfg = JEPAObjectiveConfig(jepa_loss_fn=fn, use_sigreg=False)
+        loss = JEPALoss(cfg, D)(pred, target, task)
+        print(f"  {fn}: jepa={loss['jepa_loss'].item():.4f}, total={loss['total_loss'].item():.4f}")
+        assert loss['total_loss'].item() > 0
+    print("  ✓ passed!")
 def test_ablation_sigreg_vs_vicreg():
+    """SIGReg, VICReg, and both produce non-zero reg."""
+    print("\n=== Ablation: SIGReg vs VICReg ===")
+    D, K, B, N_s = 256, 3, 2, 8
+    pred = torch.randn(B, K + 1, N_s, D)
+    target = torch.randn(B, K + 1, N_s, D)
+    task = torch.tensor(1.0)
+    for label, sigreg, vicreg in [("SIGReg", True, False), ("VICReg", False, True), ("Both", True, True)]:
+        cfg = JEPAObjectiveConfig(use_sigreg=sigreg, sigreg_weight=0.1, use_vicreg=vicreg, vicreg_var_weight=1.0, vicreg_cov_weight=0.04)
+        loss = JEPALoss(cfg, D)(pred, target, task)
+        print(f"  {label}: reg={loss['reg_loss'].item():.4f}")
+        assert loss['reg_loss'].item() > 0, f"{label} reg should be > 0"
+    print("  ✓ passed!")
+def test_ablation_no_jepa():
+    """no_jepa: model forward should skip JEPA entirely."""
+    print("\n=== Ablation: --no_jepa ===")
+    D, K, B, N_s = 256, 3, 2, 8
+    # The train_mrjepa.py handles this at model level: when use_jepa=False,
+    # the model skips target_encoder forward and returns task_loss only.
+    # Here we verify the JEPALoss still computes (it's the model that decides whether to call it).
+    cfg = JEPAObjectiveConfig(use_sigreg=True, sigreg_weight=0.1)
+    loss_fn = JEPALoss(cfg, D)
+    pred = torch.randn(B, K + 1, N_s, D, requires_grad=True)
+    target = torch.randn(B, K + 1, N_s, D)
+    task = torch.tensor(1.5)
+    loss_dict = loss_fn(pred, target, task)
+    print(f"  JEPA loss computes: {loss_dict['jepa_loss'].item():.4f}")
+    print(f"  In no_jepa mode, model forward skips this and uses task_loss directly")
+    print("  ✓ passed!")
 def test_ablation_purist_config():
+    """Purist branch config values."""
+    print("\n=== Ablation: purist config ===")
     from mr_jepa.configs.model_config import get_purist_config
+    c = get_purist_config()
+    assert c.rollout.K == 5, f"K should be 5, got {c.rollout.K}"
+    assert c.jepa.jepa_loss_fn == "cosine", f"Loss should be cosine, got {c.jepa.jepa_loss_fn}"
+    assert c.jepa.use_sigreg == True
+    assert c.jepa.use_vicreg == False
+    assert "base" in c.visual.model_name, f"Should use base model, got {c.visual.model_name}"
+    print(f"  K={c.rollout.K}, loss={c.jepa.jepa_loss_fn}, SIGReg={c.jepa.use_sigreg}, backbone={c.visual.model_name}")
+    print("  ✓ passed!")
+def test_ablation_dinov2_config():
+    """DINOv2 ablation config values."""
+    print("\n=== Ablation: dinov2 config ===")
+    from mr_jepa.configs.model_config import get_dinov2_ablation_config
+    c = get_dinov2_ablation_config()
+    assert c.visual.backbone_type == "dinov2"
+    assert "dinov2" in c.visual.model_name
+    assert c.visual.image_size == 518
+    assert c.visual.patch_size == 14
+    print(f"  backbone={c.visual.model_name}, size={c.visual.image_size}, patch={c.visual.patch_size}")
+    print("  ✓ passed!")
 if __name__ == "__main__":
     print("MR-JEPA Architecture Validation")
     print("=" * 60)
     test_evidence_memory()
     test_latent_rollout()
     test_target_encoder_and_jepa_loss()
     test_evaluation_metrics()
     test_end_to_end_forward()
     print("\n" + "=" * 60)
     print("Ablation Tests")
     print("=" * 60)
     test_ablation_loss_functions()
     test_ablation_sigreg_vs_vicreg()
     test_ablation_purist_config()
+    test_ablation_dinov2_config()
     print("\n" + "=" * 60)
+    print("ALL TESTS PASSED ✓ (9 core + 8 ablation = 17 total)")
     print("=" * 60)