Tighten expected loss ranges for FineWeb-Edu dataset

FineWeb-Edu is higher quality filtered data, so the model can achieve
lower loss at the same token count compared to generic web corpora.

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>

Files changed (1) hide show

llm_lab/training/debugger.py +4 -4

llm_lab/training/debugger.py CHANGED Viewed

@@ -29,10 +29,10 @@ from llm_lab.config import TrainConfig
 # Constants
 # ═══════════════════════════════════════════════════════════════════
-# Normal convergence ranges for a 1B model trained on ~10B tokens
-_EXPECTED_TRAIN_LOSS = (2.8, 3.5)
-_EXPECTED_VAL_LOSS = (3.0, 3.8)
-_EXPECTED_VAL_PPL = (20, 45)
 # Status labels
 STATUS_NORMAL = "NORMAL"

 # Constants
 # ═══════════════════════════════════════════════════════════════════
+# Normal convergence ranges for a 1B model trained on ~10B tokens (FineWeb-Edu)
+_EXPECTED_TRAIN_LOSS = (2.5, 3.3)
+_EXPECTED_VAL_LOSS = (2.7, 3.6)
+_EXPECTED_VAL_PPL = (15, 37)
 # Status labels
 STATUS_NORMAL = "NORMAL"