Add NaN detection to diagnose_status classification chain

diagnose_status filtered NaN values but never classified them as
problematic, causing NaN-containing histories (e.g. mock_history_b)
to be reported as NORMAL. Add STATUS_NAN_DETECTED check before
unstable/overfitting/plateau checks.

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>

Files changed (1) hide show

llm_lab/training/debugger.py +18 -3

llm_lab/training/debugger.py CHANGED Viewed

@@ -41,6 +41,7 @@ STATUS_DIVERGING = "DIVERGING"
 STATUS_PLATEAU = "PLATEAU"
 STATUS_OVERFITTING = "OVERFITTING"
 STATUS_UNSTABLE = "UNSTABLE"
 # GPT-3 LR reference by model size (Brown et al. 2020, Table 2.1)
 # (param_count, recommended_lr, batch_tokens_str)
@@ -199,7 +200,21 @@ class LossDebugger:
             )
             recommended_levels = [1, 2, 3]
-        # Check 3: Unstable (large spikes)
         elif recent_std > 0.5 * recent_mean:
             status = STATUS_UNSTABLE
             severity = "yellow"
@@ -209,7 +224,7 @@ class LossDebugger:
             )
             recommended_levels = [3, 2]
-        # Check 4: Overfitting
         elif val_trend == "increasing" and second_half_avg < first_half_avg:
             status = STATUS_OVERFITTING
             severity = "yellow"
@@ -220,7 +235,7 @@ class LossDebugger:
             )
             recommended_levels = [4]
-        # Check 5: Plateau
         elif abs(second_half_avg - first_half_avg) < 0.05 and last_loss > _EXPECTED_TRAIN_LOSS[1]:
             status = STATUS_PLATEAU
             severity = "yellow"

 STATUS_PLATEAU = "PLATEAU"
 STATUS_OVERFITTING = "OVERFITTING"
 STATUS_UNSTABLE = "UNSTABLE"
+STATUS_NAN_DETECTED = "NAN_DETECTED"
 # GPT-3 LR reference by model size (Brown et al. 2020, Table 2.1)
 # (param_count, recommended_lr, batch_tokens_str)
             )
             recommended_levels = [1, 2, 3]
+        # Check 3: NaN detected in training loss
+        elif has_nan:
+            nan_count = len(raw_train_losses) - len(train_losses)
+            nan_idx = next(i for i, l in enumerate(raw_train_losses) if math.isnan(l))
+            status = STATUS_NAN_DETECTED
+            severity = "red"
+            details = (
+                f"NaN detected in train_loss: {nan_count} NaN values "
+                f"(first at step ~{nan_idx}). "
+                f"Before NaN: {first_loss:.4f} -> {last_loss:.4f}. "
+                f"Check gradient norms, LR schedule, and numerical precision."
+            )
+            recommended_levels = [2, 3]
+        # Check 4: Unstable (large spikes)
         elif recent_std > 0.5 * recent_mean:
             status = STATUS_UNSTABLE
             severity = "yellow"
             )
             recommended_levels = [3, 2]
+        # Check 5: Overfitting
         elif val_trend == "increasing" and second_half_avg < first_half_avg:
             status = STATUS_OVERFITTING
             severity = "yellow"
             )
             recommended_levels = [4]
+        # Check 6: Plateau
         elif abs(second_half_avg - first_half_avg) < 0.05 and last_loss > _EXPECTED_TRAIN_LOSS[1]:
             status = STATUS_PLATEAU
             severity = "yellow"