File size: 17,950 Bytes

a7e3c11
 
3eebacd
 
 
 
 
 
 
a7e3c11
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3eebacd
 
a7e3c11
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3eebacd
 
 
 
 
 
 
a7e3c11
3eebacd
a7e3c11
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3eebacd
a7e3c11
 
3eebacd
a7e3c11
 
 
 
3eebacd
 
 
a7e3c11
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3eebacd
 
a7e3c11
 
 
 
3eebacd
 
 
 
 
a7e3c11
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
ad77ff7
a7e3c11
 
 
 
 
 
 
 
 
 
 
 
 
3eebacd
a7e3c11
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3eebacd
a7e3c11
 
 
 
 
 
 
 
 
 
 
 
3eebacd
 
 
a7e3c11
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3eebacd
a7e3c11
 
 
 
 
 
3eebacd
a7e3c11
 
 
 
 
 
3eebacd
a7e3c11
 
 
 
 
 
 
 
3eebacd
a7e3c11
 
 
 
 
 
 
 
 
 
 
 
3eebacd
a7e3c11
 
 
 
 
3eebacd
a7e3c11
 
 
 
 
 
 
3eebacd
 
a7e3c11
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3eebacd
a7e3c11
 
 
 
 
 
 
 
 
 
3eebacd
a7e3c11
 
 
 
 
 
 
 
 
3eebacd
 
a7e3c11
 
 
 
 
 
 
3eebacd
a7e3c11
 
 
3eebacd
a7e3c11
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3eebacd
a7e3c11
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3eebacd
a7e3c11
 
 
3eebacd
a7e3c11
 
 
 
 
 
 
 
 
3eebacd
a7e3c11
3eebacd
a7e3c11
 
3eebacd
 
a7e3c11
 
 
 
 
3eebacd
 
a7e3c11
 
 
 
 
3eebacd
a7e3c11
 
3eebacd
a7e3c11
 
3eebacd
a7e3c11
3eebacd
a7e3c11
 
3eebacd
a7e3c11

#!/usr/bin/env python3
"""
CIFAR-10 — Tri-Stream GeoLIP ViT v8
=====================================
v7→v8 changes:
  1. GAL_UPDATE_INTERVAL: 50 → 25 (2× more frequent)
  2. GAL_LR: 0.01 → 0.015 (+50% response)
  3. Tracks nce_b and geo_nce_acc separately
  4. stream_b_nce_weight=0.5, geo_nce_weight=0.5
"""

import torch
import torch.nn as nn
import torch.nn.functional as F
import os, time
import numpy as np
from tqdm import tqdm
from torchvision import datasets, transforms
from torch.utils.tensorboard import SummaryWriter

DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
torch.backends.cuda.matmul.allow_tf32 = True
torch.backends.cudnn.allow_tf32 = True

# ── Architecture ──
NUM_CLASSES = 10
IMG_SIZE = 32
PATCH_SIZE = 4
EMBED_DIM = 384
STREAM_DIM = 192
N_BLOCKS = 9
N_HEADS = 8
OUTPUT_DIM = 256
N_ANCHORS = 128
N_GAL_ANCHORS = 64
N_COMP = 16
D_COMP = 128
ANCHOR_DROP = 0.10
CV_TARGET = 0.22

# ── Loss weights ──
CV_WEIGHT = 0.1
ENABLE_AUTOGRAD = True
AUTOGRAD_TANG = 1.0
AUTOGRAD_SEP = 0.1
LABEL_SMOOTHING = 0.1
INFONCE_WEIGHT = 0.1
BCE_WEIGHT = 1.0
CM_WEIGHT = 0.1
INFONCE_TEMP = 0.07

# ── v8: Stream B + Geo NCE weights ──
STREAM_B_NCE_WEIGHT = 0.5
GEO_NCE_WEIGHT = 0.5

# ── v8: GAL — faster updates, stronger response ──
GAL_UPDATE_INTERVAL = 25    # was 50
GAL_LR = 0.015              # was 0.01 (+50%)
GAL_BUFFER_SIZE = 50000
USE_WHITENED_PROCRUSTES = False

# ── Mastery queue ──
MASTERY_PATIENCE = 50
MASTERY_MARGIN_START = 0.1
MASTERY_MARGIN_END = 0.3
MASTERY_MARGIN_WARMUP = 5000
MASTERY_MIN_SIZE = 1024
MASTERY_MAX_SIZE = 16384
MASTERY_INITIAL_SIZE = 4096
MASTERY_RESIZE_STEP = 2048
MASTERY_RESIZE_COOLDOWN = 5
MASTERY_OVERFIT_THRESH = 3.0

# ── Training ──
BATCH = 256
EPOCHS = 100
LR = 3e-4
WARMUP = 5
GRAD_CLIP = 1.0
V1_CKPT = ""  # set to checkpoint path for warm start

print("=" * 60)
print("CIFAR-10 — Tri-Stream GeoLIP ViT v8")
print(f"  Architecture: {N_BLOCKS}× TriStreamBlock")
print(f"  Sphere: {OUTPUT_DIM}-d, {N_ANCHORS} anchors, {N_COMP}×{D_COMP} pw")
print(f"  GAL: {N_GAL_ANCHORS} anchors, Procrustes every {GAL_UPDATE_INTERVAL} "
      f"batches (lr={GAL_LR}, whiten={USE_WHITENED_PROCRUSTES})")
print(f"  v8 fixes: uniform hypersphere init, gate_init=1/(2×{N_BLOCKS})")
print(f"  v8 fixes: InfoNCE on emb_b (w={STREAM_B_NCE_WEIGHT}) "
      f"+ geo_emb (w={GEO_NCE_WEIGHT})")
print(f"  Device: {DEVICE}")
print("=" * 60)

# ══════════════════════════════════════════════════════════════════
# DATA
# ══════════════════════════════════════════════════════════════════

CIFAR_MEAN = (0.4914, 0.4822, 0.4465)
CIFAR_STD = (0.2470, 0.2435, 0.2616)

class DualAugDataset(torch.utils.data.Dataset):
    def __init__(self, base_ds, transform):
        self.base = base_ds; self.transform = transform
    def __len__(self): return len(self.base)
    def __getitem__(self, i):
        img, label = self.base[i]
        return self.transform(img), self.transform(img), label

aug_transform = transforms.Compose([
    transforms.RandomCrop(32, padding=4),
    transforms.RandomHorizontalFlip(),
    transforms.ColorJitter(0.2, 0.2, 0.2, 0.05),
    transforms.ToTensor(),
    transforms.Normalize(CIFAR_MEAN, CIFAR_STD),
])
val_transform = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize(CIFAR_MEAN, CIFAR_STD),
])

raw_train = datasets.CIFAR10(root='./data', train=True, download=True)
train_ds = DualAugDataset(raw_train, aug_transform)
val_ds = datasets.CIFAR10(root='./data', train=False,
                           download=True, transform=val_transform)

train_loader = torch.utils.data.DataLoader(
    train_ds, batch_size=BATCH, shuffle=True,
    num_workers=2, pin_memory=True, drop_last=True)
val_loader = torch.utils.data.DataLoader(
    val_ds, batch_size=BATCH, shuffle=False,
    num_workers=2, pin_memory=True)

print(f"  Train: {len(train_ds):,} (two views)  Val: {len(val_ds):,}")

# ══════════════════════════════════════════════════════════════════
# BUILD MODEL
# ══════════════════════════════════════════════════════════════════

print(f"\n  Building model...")
model = create_tri_stream_vit(
    num_classes=NUM_CLASSES, img_size=IMG_SIZE, patch_size=PATCH_SIZE,
    embed_dim=EMBED_DIM, stream_dim=STREAM_DIM, n_blocks=N_BLOCKS,
    n_heads=N_HEADS, output_dim=OUTPUT_DIM,
    n_anchors=N_ANCHORS, n_gal_anchors=N_GAL_ANCHORS,
    n_comp=N_COMP, d_comp=D_COMP,
    anchor_drop=ANCHOR_DROP, cv_target=CV_TARGET,
    dropout=0.1, infonce_temp=INFONCE_TEMP,
    infonce_weight=INFONCE_WEIGHT, bce_weight=BCE_WEIGHT,
    cm_weight=CM_WEIGHT, cv_weight=CV_WEIGHT,
    autograd_tang=AUTOGRAD_TANG, autograd_sep=AUTOGRAD_SEP,
    enable_autograd=ENABLE_AUTOGRAD,
    label_smoothing=LABEL_SMOOTHING,
    stream_b_nce_weight=STREAM_B_NCE_WEIGHT,
    geo_nce_weight=GEO_NCE_WEIGHT,
).to(DEVICE)

if V1_CKPT and os.path.exists(V1_CKPT):
    ckpt = torch.load(V1_CKPT, map_location="cpu", weights_only=False)
    missing, unexpected = model.load_state_dict(
        ckpt["state_dict"], strict=False)
    print(f"  ✓ Loaded weights: epoch {ckpt.get('epoch', '?')}")
    if missing:
        print(f"    New params (expected): {len(missing)}")
else:
    print(f"  Training from scratch")

total_params = sum(p.numel() for p in model.parameters())
print(f"  Parameters: {total_params:,}")

# ══════════════════════════════════════════════════════════════════
# OPTIMIZER + SCHEDULER
# ══════════════════════════════════════════════════════════════════

print(f"\n{'='*60}")
print(f"TRAINING — {EPOCHS} epochs, lr={LR}, batch={BATCH}")
print(f"  GAL Procrustes: every {GAL_UPDATE_INTERVAL} batches, "
      f"lr={GAL_LR}, whiten={USE_WHITENED_PROCRUSTES}")
print(f"{'='*60}")

optimizer = torch.optim.Adam(model.parameters(), lr=LR)

total_steps = len(train_loader) * EPOCHS
warmup_steps = len(train_loader) * WARMUP
scheduler = torch.optim.lr_scheduler.SequentialLR(
    optimizer,
    [torch.optim.lr_scheduler.LinearLR(
        optimizer, start_factor=0.01, total_iters=warmup_steps),
     torch.optim.lr_scheduler.CosineAnnealingLR(
         optimizer, T_max=max(total_steps - warmup_steps, 1), eta_min=1e-6)],
    milestones=[warmup_steps])

scaler = torch.amp.GradScaler("cuda")
os.makedirs("checkpoints", exist_ok=True)
writer = SummaryWriter("runs/cifar10_tri_stream_v8")
best_acc = 0.0
gs = 0

# Mastery queue
mastery = MasteryQueue(
    dim=OUTPUT_DIM, min_size=MASTERY_MIN_SIZE, max_size=MASTERY_MAX_SIZE,
    initial_size=MASTERY_INITIAL_SIZE, patience=MASTERY_PATIENCE,
    device=DEVICE, margin_start=MASTERY_MARGIN_START,
    margin_end=MASTERY_MARGIN_END, margin_warmup=MASTERY_MARGIN_WARMUP,
    resize_step=MASTERY_RESIZE_STEP, resize_cooldown=MASTERY_RESIZE_COOLDOWN,
    overfit_threshold=MASTERY_OVERFIT_THRESH)

# GAL simplex buffer
simplex_buf = SimplexBuffer(
    dim=STREAM_DIM, max_size=GAL_BUFFER_SIZE, device=DEVICE)

gal_update_count = 0

# ══════════════════════════════════════════════════════════════════
# TRAINING LOOP
# ══════════════════════════════════════════════════════════════════

for epoch in range(EPOCHS):
    model.train()
    t0 = time.time()

    acc_dict = {
        "loss": 0, "ce": 0, "bce": 0, "geo_bce": 0,
        "acc_a": 0, "acc_b": 0, "geo_acc": 0,
        "nce": 0, "nce_acc": 0,
        "nce_b": 0, "nce_b_acc": 0,
        "geo_nce": 0, "geo_nce_acc": 0,
        "cm": 0, "cm_valid": 0, "cv": 0, "cv_main": 0, "cv_geo": 0,
        "spread": 0, "mastery": 0, "hard_neg": 0, "hard_pos": 0,
        "correct": 0, "total": 0, "n": 0}

    pbar = tqdm(train_loader, desc=f"E{epoch+1:3d}/{EPOCHS}",
                unit="batch")

    for v1, v2, targets in pbar:
        v1 = v1.to(DEVICE, non_blocking=True)
        v2 = v2.to(DEVICE, non_blocking=True)
        targets = targets.to(DEVICE, non_blocking=True)

        with torch.amp.autocast("cuda", dtype=torch.bfloat16):
            out1 = model(v1, apply_autograd=True)
            out2 = model(v2, apply_autograd=True)
            loss, ld = model.compute_loss(
                out1, targets, output_aug=out2, mastery_queue=mastery)

        optimizer.zero_grad(set_to_none=True)
        scaler.scale(loss).backward()
        scaler.unscale_(optimizer)
        nn.utils.clip_grad_norm_(model.parameters(), GRAD_CLIP)
        scaler.step(optimizer); scaler.update()
        scheduler.step()

        mastery.check_activation(ld.get('nce_acc', 0))

        pool_geo = out1.get('pool_geo')
        if pool_geo is not None:
            simplex_buf.push(pool_geo.float(), targets)

        gs += 1
        if gs % GAL_UPDATE_INTERVAL == 0 and simplex_buf.size > 500:
            score = model.update_gal_anchors(
                simplex_buf, lr=GAL_LR, whiten=USE_WHITENED_PROCRUSTES)
            if score is not None:
                gal_update_count += 1
                writer.add_scalar("step/procrustes_score", score, gs)

        # Track
        preds = out1['logits_a'].argmax(-1)
        correct = (preds == targets).sum().item()
        acc_dict["correct"] += correct
        acc_dict["total"] += targets.shape[0]
        acc_dict["loss"] += loss.item()

        for k in ["ce", "bce", "geo_bce", "nce", "nce_b", "geo_nce",
                   "cm", "cv", "spread", "mastery"]:
            v = ld.get(k, 0)
            acc_dict[k] += v.item() if torch.is_tensor(v) else v

        acc_dict["acc_a"] += ld.get("acc_a", 0)
        acc_dict["acc_b"] += ld.get("acc_b", 0)
        acc_dict["geo_acc"] += ld.get("geo_acc", 0)
        acc_dict["nce_acc"] += ld.get("nce_acc", 0)
        acc_dict["nce_b_acc"] += ld.get("nce_b_acc", 0)
        acc_dict["geo_nce_acc"] += ld.get("geo_nce_acc", 0)
        acc_dict["cm_valid"] += ld.get("cm_valid", 0)
        acc_dict["cv_main"] += ld.get("cv_main", 0)
        acc_dict["cv_geo"] += ld.get("cv_geo", 0)
        acc_dict["hard_neg"] += ld.get("hard_neg_cos", 0)
        acc_dict["hard_pos"] += ld.get("hard_pos_cos", 0)
        acc_dict["n"] += 1

        if acc_dict["n"] % 10 == 0:
            d = acc_dict["n"]
            ta = 100 * acc_dict["correct"] / acc_dict["total"]
            ga = 100 * acc_dict["geo_acc"] / d
            nb = acc_dict["nce_b_acc"] / d
            stg = "M" if mastery.active else "S1"
            pbar.set_postfix(
                loss=f"{acc_dict['loss']/d:.4f}",
                a=f"{ta:.0f}%",
                ga=f"{ga:.0f}%",
                nb=f"{nb:.2f}",
                stg=stg,
                gal=gal_update_count,
                ordered=True)

        if gs % 20 == 0:
            writer.add_scalar("step/loss", loss.item(), gs)
            writer.add_scalar("step/geo_acc", ld.get("geo_acc", 0), gs)
            writer.add_scalar("step/nce_b_acc", ld.get("nce_b_acc", 0), gs)
            writer.add_scalar("step/geo_nce_acc", ld.get("geo_nce_acc", 0), gs)
            gates_a = out1.get('gates_a', [])
            if gates_a:
                writer.add_scalar("step/gate_a_mean",
                                  sum(gates_a) / len(gates_a), gs)
                writer.add_scalar("step/gate_b_mean",
                                  sum(out1.get('gates_b', [0])) / max(len(gates_a), 1), gs)

    # ── Epoch stats ──
    elapsed = time.time() - t0
    d = acc_dict["n"]
    train_acc = 100 * acc_dict["correct"] / acc_dict["total"]

    writer.add_scalar("epoch/train_loss", acc_dict["loss"] / d, epoch + 1)
    writer.add_scalar("epoch/train_acc", train_acc, epoch + 1)
    writer.add_scalar("epoch/acc_a", 100 * acc_dict["acc_a"] / d, epoch + 1)
    writer.add_scalar("epoch/acc_b", 100 * acc_dict["acc_b"] / d, epoch + 1)
    writer.add_scalar("epoch/geo_acc", 100 * acc_dict["geo_acc"] / d, epoch + 1)
    writer.add_scalar("epoch/nce_acc", acc_dict["nce_acc"] / d, epoch + 1)
    writer.add_scalar("epoch/nce_b_acc", acc_dict["nce_b_acc"] / d, epoch + 1)
    writer.add_scalar("epoch/geo_nce_acc", acc_dict["geo_nce_acc"] / d, epoch + 1)
    writer.add_scalar("epoch/cv_main", acc_dict["cv_main"] / d, epoch + 1)
    writer.add_scalar("epoch/cv_geo", acc_dict["cv_geo"] / d, epoch + 1)
    writer.add_scalar("epoch/cm_valid", acc_dict["cm_valid"] / d, epoch + 1)
    writer.add_scalar("epoch/gal_updates", gal_update_count, epoch + 1)

    # ── Validation ──
    model.eval()
    val_correct, val_total, val_loss_sum, val_n = 0, 0, 0, 0
    val_geo_correct = 0
    val_b_correct = 0
    all_embs = []

    with torch.no_grad(), torch.amp.autocast("cuda", dtype=torch.bfloat16):
        for images, labels_v in val_loader:
            images = images.to(DEVICE, non_blocking=True)
            labels_v = labels_v.to(DEVICE, non_blocking=True)
            out = model(images, apply_autograd=False)
            preds = out['logits_a'].argmax(dim=-1)
            val_correct += (preds == labels_v).sum().item()
            val_b_correct += (out['logits_b'].argmax(-1) == labels_v).sum().item()
            val_geo_correct += (out['geo_logits'].argmax(-1) == labels_v).sum().item()
            val_total += labels_v.shape[0]
            loss_v = F.cross_entropy(out['logits_a'], labels_v)
            val_loss_sum += loss_v.item()
            val_n += 1
            all_embs.append(out['embedding'].float().cpu())

    val_acc = 100 * val_correct / val_total
    val_b_acc = 100 * val_b_correct / val_total
    val_geo_acc = 100 * val_geo_correct / val_total
    val_loss = val_loss_sum / max(val_n, 1)

    # ── Val embedding diagnostics ──
    embs = torch.cat(all_embs)
    with torch.no_grad():
        sample = embs[:2000].to(DEVICE)
        vols = []
        for _ in range(200):
            idx = torch.randperm(2000)[:5]
            pts = sample[idx].unsqueeze(0).float()
            gram = torch.bmm(pts, pts.transpose(1, 2))
            norms = torch.diagonal(gram, dim1=1, dim2=2)
            d2 = norms.unsqueeze(2) + norms.unsqueeze(1) - 2 * gram
            d2 = F.relu(d2)
            cm = torch.zeros(1, 6, 6, device=DEVICE, dtype=torch.float32)
            cm[:, 0, 1:] = 1; cm[:, 1:, 0] = 1; cm[:, 1:, 1:] = d2
            v2 = -torch.linalg.det(cm) / 9216
            if v2[0].item() > 1e-20:
                vols.append(v2[0].sqrt())
        v_cv = (torch.stack(vols).std() / (torch.stack(vols).mean() + 1e-8)).item() if len(vols) > 10 else 0.0

    with torch.no_grad():
        _, v_np = model.constellation.triangulate(
            embs[:2000].to(DEVICE), training=False)
        n_active = v_np.cpu().unique().numel()

    writer.add_scalar("epoch/val_acc", val_acc, epoch + 1)
    writer.add_scalar("epoch/val_b_acc", val_b_acc, epoch + 1)
    writer.add_scalar("epoch/val_geo_acc", val_geo_acc, epoch + 1)
    writer.add_scalar("epoch/val_cv", v_cv, epoch + 1)
    writer.add_scalar("epoch/val_anchors", n_active, epoch + 1)

    mastery.update_size(train_acc, val_acc, epoch + 1)

    # ── Checkpoint ──
    mk = ""
    if val_acc > best_acc:
        best_acc = val_acc
        torch.save({
            "state_dict": model.state_dict(),
            "config": model.config,
            "epoch": epoch + 1,
            "val_acc": val_acc,
            "val_b_acc": val_b_acc,
            "val_geo_acc": val_geo_acc,
            "mastery": mastery.state_dict(),
            "gal_updates": gal_update_count,
        }, "checkpoints/tri_stream_v8_best.pt")
        mk = " ★"

    if (epoch + 1) % 10 == 0:
        torch.save({
            "state_dict": model.state_dict(),
            "config": model.config,
            "epoch": epoch + 1,
            "val_acc": val_acc,
            "optimizer": optimizer.state_dict(),
        }, f"checkpoints/tri_stream_v8_e{epoch+1:03d}.pt")

    # ── Epoch print — v8: shows B acc + nce_b + geo_nce ──
    ga = 100 * acc_dict["geo_acc"] / d
    ab = 100 * acc_dict["acc_b"] / d
    nb_acc = acc_dict["nce_b_acc"] / d
    gn_acc = acc_dict["geo_nce_acc"] / d
    cvf = acc_dict["cv_main"] / d
    cvg = acc_dict["cv_geo"] / d
    cmv = acc_dict["cm_valid"] / d
    stage = "MASTERY" if mastery.active else "stage1"

    # Gate check
    last_gates = []
    try:
        model.eval()
        with torch.no_grad():
            sample_imgs = next(iter(val_loader))[0][:4].to(DEVICE)
            sample_out = model(sample_imgs, apply_autograd=False)
            last_gates = sample_out.get('gates_a', [])
    except:
        pass
    gate_str = f"g={np.mean(last_gates):.4f}" if last_gates else "g=?"

    print(f"  E{epoch+1:3d}: A={train_acc:.1f}% B={ab:.0f}% "
          f"val={val_acc:.1f}%/{val_b_acc:.1f}%/{val_geo_acc:.1f}% "
          f"loss={acc_dict['loss']/d:.4f}/{val_loss:.4f} "
          f"nb={nb_acc:.2f} gn={gn_acc:.2f} "
          f"cv={v_cv:.4f}(m={cvf:.5f} g={cvg:.5f}) "
          f"cm={cmv:.0%} anch={n_active}/{N_ANCHORS} "
          f"[{stage}] {gate_str} "
          f"gal={gal_update_count} ({elapsed:.0f}s){mk}")

writer.close()
print(f"\n  Best val accuracy: {best_acc:.1f}%")
print(f"\n{'='*60}")
print("DONE")
print(f"{'='*60}")