Scale overfit test LR and steps by model size in LossDebugger

Adjust Check 4 (single-batch overfit) parameters based on model size:
- Large (>500M): lr=1e-4, 400 steps; medium (>50M): lr=3e-4, 300 steps; small: lr=1e-3, 200 steps
- Add gradient clipping (norm=1.0) to prevent instability in large models
- Relax pass threshold from loss < 0.1 to min_loss < 0.5 to reduce false negatives
- Track min loss across all steps for a more robust pass/fail signal

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>

Files changed (1) hide show

llm_lab/training/debugger.py +17 -6

llm_lab/training/debugger.py CHANGED Viewed

@@ -400,30 +400,41 @@ class LossDebugger:
             torch.cuda.empty_cache()
         # ── Check 4: Single-batch overfit test ──
-        print(f"\n  ⏳ Check 4: Single-batch overfit test (200 steps)...")
         overfit_model = copy.deepcopy(model)
         overfit_model.to(device)
         overfit_model.train()
-        overfit_optimizer = torch.optim.AdamW(overfit_model.parameters(), lr=1e-3)
         single_input = input_ids[:1].to(device)  # single sample
         single_target = targets[:1].to(device)
         overfit_losses = []
-        for step in range(200):
             overfit_optimizer.zero_grad()
             with torch.amp.autocast(device_type="cuda", dtype=dtype, enabled=(dtype != torch.float32)):
                 _, loss = overfit_model(single_input, single_target)
             loss.backward()
             overfit_optimizer.step()
             overfit_losses.append(loss.item())
-            if (step + 1) % 50 == 0:
                 print(f"       Step {step + 1}: Loss = {loss.item():.4f}")
         final_overfit_loss = overfit_losses[-1]
-        overfit_ok = final_overfit_loss < 0.1
         detail = (
             f"Single-batch overfit: {overfit_losses[0]:.4f} -> {final_overfit_loss:.4f} "
-            f"(target < 0.1)"
         )
         results.append(_check_result("Single-batch overfit", overfit_ok, detail))
         icon = "✅" if overfit_ok else "❌"

             torch.cuda.empty_cache()
         # ── Check 4: Single-batch overfit test ──
+        # Scale LR and steps based on model size to avoid instability
+        num_params = sum(p.numel() for p in model.parameters())
+        if num_params > 500e6:
+            overfit_lr, overfit_steps = 1e-4, 400
+        elif num_params > 50e6:
+            overfit_lr, overfit_steps = 3e-4, 300
+        else:
+            overfit_lr, overfit_steps = 1e-3, 200
+        print(f"\n  ⏳ Check 4: Single-batch overfit test ({overfit_steps} steps, lr={overfit_lr:.0e})...")
         overfit_model = copy.deepcopy(model)
         overfit_model.to(device)
         overfit_model.train()
+        overfit_optimizer = torch.optim.AdamW(overfit_model.parameters(), lr=overfit_lr)
         single_input = input_ids[:1].to(device)  # single sample
         single_target = targets[:1].to(device)
+        log_interval = max(overfit_steps // 4, 1)
         overfit_losses = []
+        for step in range(overfit_steps):
             overfit_optimizer.zero_grad()
             with torch.amp.autocast(device_type="cuda", dtype=dtype, enabled=(dtype != torch.float32)):
                 _, loss = overfit_model(single_input, single_target)
             loss.backward()
+            torch.nn.utils.clip_grad_norm_(overfit_model.parameters(), 1.0)
             overfit_optimizer.step()
             overfit_losses.append(loss.item())
+            if (step + 1) % log_interval == 0:
                 print(f"       Step {step + 1}: Loss = {loss.item():.4f}")
         final_overfit_loss = overfit_losses[-1]
+        min_overfit_loss = min(overfit_losses)
+        overfit_ok = min_overfit_loss < 0.5
         detail = (
             f"Single-batch overfit: {overfit_losses[0]:.4f} -> {final_overfit_loss:.4f} "
+            f"(min={min_overfit_loss:.4f}, target < 0.5)"
         )
         results.append(_check_result("Single-batch overfit", overfit_ok, detail))
         icon = "✅" if overfit_ok else "❌"