Fix batch size diagnostic: widen window and list multiple causes

- Increase loss CV window from 20 to 50 steps for statistical stability
- Replace single-cause diagnosis ("batch too small") with multi-cause
guidance (LR, batch size, data quality)

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>

Files changed (1) hide show

llm_lab/training/debugger.py +7 -7

llm_lab/training/debugger.py CHANGED Viewed

@@ -754,21 +754,21 @@ class LossDebugger:
         print("\n  Batch Size Analysis:")
         print(f"    Effective batch: {config.effective_batch_size}")
-        if len(train_losses) >= 20:
-            recent_losses = train_losses[-20:]
             loss_mean = sum(recent_losses) / len(recent_losses)
             loss_var = sum((x - loss_mean) ** 2 for x in recent_losses) / len(recent_losses)
             loss_cv = (loss_var ** 0.5) / max(loss_mean, 1e-8)
-            print(f"    Recent loss CV: {loss_cv:.4f} (coefficient of variation)")
             if loss_cv > 0.1:
                 findings.append({
-                    "issue": "Batch size may be too small",
-                    "evidence": f"Loss CV = {loss_cv:.4f} (high variance)",
-                    "action": "Increase gradient_accumulation_steps",
                 })
-                print(f"    🟡 High loss variance → batch may be too small")
             else:
                 print(f"    ✅ Loss variance is acceptable")

         print("\n  Batch Size Analysis:")
         print(f"    Effective batch: {config.effective_batch_size}")
+        if len(train_losses) >= 50:
+            recent_losses = train_losses[-50:]
             loss_mean = sum(recent_losses) / len(recent_losses)
             loss_var = sum((x - loss_mean) ** 2 for x in recent_losses) / len(recent_losses)
             loss_cv = (loss_var ** 0.5) / max(loss_mean, 1e-8)
+            print(f"    Recent loss CV: {loss_cv:.4f} (coefficient of variation, last 50 steps)")
             if loss_cv > 0.1:
                 findings.append({
+                    "issue": "Training loss has high variance",
+                    "evidence": f"Loss CV = {loss_cv:.4f} over last 50 steps",
+                    "action": "Check: (1) LR may be too high, (2) increase gradient_accumulation_steps, (3) inspect data quality",
                 })
+                print(f"    🟡 High loss variance → check LR, batch size, or data quality")
             else:
                 print(f"    ✅ Loss variance is acceptable")