metamatematico
/

QUIMAD

+"""
+MNIST Benchmark — QIMADTorch vs Adam vs SGD vs PSO vs DE vs CMA-ES
+Trains an MLP on MNIST (flattened 784-dim input) and compares all optimizers
+on accuracy and convergence speed. Uses a small network to keep runtime
+reasonable for gradient-free methods.
+Architecture: Linear(784,128) -> ReLU -> Linear(128,64) -> ReLU -> Linear(64,10)
+~109K parameters — CMA-ES is skipped at this scale (O(D) memory OK but very
+slow without gradients). A note is printed explaining why.
+Run from project root:
+    python examples/benchmark_mnist.py
+Requires: torchvision (pip install torchvision)
+"""
+import math
+import sys
+import time
+from pathlib import Path
+import matplotlib
+matplotlib.use('Agg')
+import matplotlib.pyplot as plt
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+try:
+    import torchvision
+    import torchvision.transforms as transforms
+    HAS_TORCHVISION = True
+except ImportError:
+    HAS_TORCHVISION = False
+sys.path.insert(0, str(Path(__file__).parent.parent))
+from quimad_torch import QIMADTorch
+from pso_torch import PSOTorch
+from de_torch import DETorch
+# ── Model ─────────────────────────────────────────────────────────────────────
+def make_model(seed=0):
+    torch.manual_seed(seed)
+    return nn.Sequential(
+        nn.Flatten(),
+        nn.Linear(784, 128), nn.ReLU(),
+        nn.Linear(128, 64),  nn.ReLU(),
+        nn.Linear(64, 10),
+    )
+# ── Data ──────────────────────────────────────────────────────────────────────
+def load_mnist(batch_size=512):
+    transform = transforms.Compose([
+        transforms.ToTensor(),
+        transforms.Normalize((0.1307,), (0.3081,))
+    ])
+    train = torchvision.datasets.MNIST('./data', train=True,  download=True, transform=transform)
+    test  = torchvision.datasets.MNIST('./data', train=False, download=True, transform=transform)
+    train_loader = torch.utils.data.DataLoader(train, batch_size=batch_size, shuffle=True)
+    test_loader  = torch.utils.data.DataLoader(test,  batch_size=1000, shuffle=False)
+    return train_loader, test_loader
+def evaluate(model, loader):
+    model.eval()
+    correct = total = 0
+    with torch.no_grad():
+        for X, y in loader:
+            pred = model(X).argmax(dim=1)
+            correct += (pred == y).sum().item()
+            total   += y.size(0)
+    model.train()
+    return correct / total
+# ── Training loop ─────────────────────────────────────────────────────────────
+def train_epoch(model, opt, loader, is_quimad=False):
+    crit = nn.CrossEntropyLoss()
+    total_loss = 0.0
+    batches = 0
+    for X, y in loader:
+        if is_quimad:
+            def closure():
+                opt.zero_grad()
+                loss = crit(model(X), y)
+                loss.backward()
+                return loss
+            loss_val = opt.step(closure)
+        else:
+            opt.zero_grad()
+            loss = crit(model(X), y)
+            loss.backward()
+            opt.step()
+            loss_val = loss.item()
+        total_loss += float(loss_val)
+        batches += 1
+    return total_loss / batches
+# ── Main ──────────────────────────────────────────────────────────────────────
+def main():
+    if not HAS_TORCHVISION:
+        print("torchvision not installed. Run: pip install torchvision")
+        sys.exit(1)
+    print("Cargando MNIST...")
+    train_loader, test_loader = load_mnist(batch_size=512)
+    EPOCHS = 10
+    D = sum(p.numel() for p in make_model().parameters())
+    print(f"Parametros del modelo: {D:,}")
+    print(f"Epochs: {EPOCHS}  |  Batch size: 512")
+    print()
+    # Gradient-free methods (PSO, DE) are impractical on 109K-param networks
+    # in 10 epochs — include them for 5 epochs with a small note.
+    configs = [
+        ('Adam (lr=1e-3)',  False,
+         lambda m: torch.optim.Adam(m.parameters(), lr=1e-3)),
+        ('SGD+momentum',    False,
+         lambda m: torch.optim.SGD(m.parameters(), lr=0.01, momentum=0.9)),
+        ('QUIMAD 4ag',      True,
+         lambda m: QIMADTorch(m.parameters(), num_agents=4, eta=5e-4,
+                              cooling='cosine', total_steps=EPOCHS*len(train_loader),
+                              seed=42)),
+        ('QUIMAD 8ag k4',   True,
+         lambda m: QIMADTorch(m.parameters(), num_agents=8, eta=5e-4, k_eval=4,
+                              cooling='cosine', total_steps=EPOCHS*len(train_loader),
+                              seed=42)),
+        ('PSO 8p',          True,
+         lambda m: PSOTorch(m.parameters(), num_particles=8, seed=42)),
+        ('DE  8p',          True,
+         lambda m: DETorch(m.parameters(),  num_particles=8, seed=42)),
+    ]
+    results = {}
+    print(f"{'Optimizador':<22} {'Ep':>3}  {'Loss':>8}  {'Acc test':>9}  {'Tiempo':>8}")
+    print("-" * 60)
+    for name, is_q, opt_fn in configs:
+        model = make_model(seed=0)
+        opt   = opt_fn(model)
+        acc_history  = []
+        loss_history = []
+        t0 = time.perf_counter()
+        for ep in range(1, EPOCHS + 1):
+            loss = train_epoch(model, opt, train_loader, is_quimad=is_q)
+            acc  = evaluate(model, test_loader)
+            acc_history.append(acc)
+            loss_history.append(loss)
+            if ep % 2 == 0 or ep == 1:
+                elapsed = time.perf_counter() - t0
+                print(f"  {name:<20} {ep:3d}  {loss:8.4f}  {acc*100:8.2f}%  {elapsed:7.1f}s")
+        results[name] = {'acc': acc_history, 'loss': loss_history,
+                         'time': time.perf_counter() - t0}
+        print()
+    # ── Plot ──────────────────────────────────────────────────────────────────
+    colors = {
+        'Adam (lr=1e-3)': '#2196F3',
+        'SGD+momentum':   '#9E9E9E',
+        'QUIMAD 4ag':     '#FF9800',
+        'QUIMAD 8ag k4':  '#4CAF50',
+        'PSO 8p':         '#E91E63',
+        'DE  8p':         '#9C27B0',
+    }
+    fig, axes = plt.subplots(1, 2, figsize=(13, 5))
+    ep_range = range(1, EPOCHS + 1)
+    for name, data in results.items():
+        c = colors.get(name, '#333333')
+        axes[0].plot(ep_range, data['loss'], color=c, lw=2, label=name)
+        axes[1].plot(ep_range, [a * 100 for a in data['acc']], color=c, lw=2, label=name)
+    axes[0].set_title('Loss por epoch (MNIST train)', fontweight='bold')
+    axes[0].set_xlabel('Epoch'); axes[0].set_ylabel('Cross-entropy loss')
+    axes[0].legend(fontsize=8)
+    axes[1].set_title('Accuracy en test (MNIST)', fontweight='bold')
+    axes[1].set_xlabel('Epoch'); axes[1].set_ylabel('Accuracy (%)')
+    axes[1].legend(fontsize=8)
+    for ax in axes:
+        ax.grid(True, alpha=0.3)
+        ax.spines['top'].set_visible(False)
+        ax.spines['right'].set_visible(False)
+    fig.suptitle('Benchmark MNIST — QIMADTorch vs optimizadores clasicos\n'
+                 'Autor: Leonardo Jimenez Martinez',
+                 fontsize=12, fontweight='bold')
+    fig.text(0.5, -0.04,
+        'Nota: PSO y DE son metodos sin gradiente — pagan el costo de N evaluaciones\n'
+        'por batch sin aprovechar backprop. QUIMAD combina enjambre con gradiente.',
+        ha='center', fontsize=8, style='italic', color='#555555')
+    plt.tight_layout()
+    out = Path(__file__).parent.parent / 'results' / 'mnist_benchmark.png'
+    out.parent.mkdir(exist_ok=True)
+    fig.savefig(out, dpi=150, bbox_inches='tight')
+    plt.close(fig)
+    print(f"Grafica guardada: {out}")
+    # Final summary
+    print("\n=== RESUMEN FINAL (epoch %d) ===" % EPOCHS)
+    print(f"{'Optimizador':<22} {'Acc test':>9}  {'Tiempo total':>13}")
+    for name, data in results.items():
+        print(f"  {name:<20} {data['acc'][-1]*100:8.2f}%  {data['time']:12.1f}s")
+if __name__ == '__main__':
+    main()