Spaces:

lsdf
/

ai-seo-analyzer

Running

lsdf commited on Mar 24

Commit

6859d9b

1 Parent(s): 74af0ae

fix(optimizer): require bert target for each phrase

Prevent early BERT stage completion when only one phrase reaches the threshold. The stage now completes only when all tracked phrase scores meet bert_stage_target, and docs reflect the new per-phrase rule.

Made-with: Cursor

Files changed (2) hide show

docs/FULL_FUNCTIONAL_DOCUMENTATION.md +3 -0
optimizer.py +5 -2

docs/FULL_FUNCTIONAL_DOCUMENTATION.md CHANGED Viewed

@@ -469,6 +469,9 @@ HTML extraction pipeline:
   - hard constraints (не ухудшать критичные метрики сверх допустимого);
   - режимы `conservative/balanced/aggressive` задают пороги регрессии;
   - решение учитывает и `goal_improved`, и общий `delta_score`.
 - `_validate_candidate_text`:
   - отклоняет некачественные/спамные кандидаты (дубли слов/сущностей, подозрительные склейки токенов);
   - добавляет anti-stuffing фильтр для цели BERT (повторы exact phrase и чрезмерные повторы focus-термов).

   - hard constraints (не ухудшать критичные метрики сверх допустимого);
   - режимы `conservative/balanced/aggressive` задают пороги регрессии;
   - решение учитывает и `goal_improved`, и общий `delta_score`.
+- `_is_stage_complete` для `bert`:
+  - этап считается завершённым только когда **каждая** отслеживаемая ключевая фраза достигает `bert_stage_target` (проверка по `min(bert_phrase_scores)`);
+  - достижение порога одной «сильной» фразой больше не завершает BERT-этап.
 - `_validate_candidate_text`:
   - отклоняет некачественные/спамные кандидаты (дубли слов/сущностей, подозрительные склейки токенов);
   - добавляет anti-stuffing фильтр для цели BERT (повторы exact phrase и чрезмерные повторы focus-термов).

optimizer.py CHANGED Viewed

@@ -1328,9 +1328,12 @@ def _stage_primary_progress(stage: str, prev_metrics: Dict[str, Any], next_metri
 def _is_stage_complete(stage: str, metrics: Dict[str, Any], bert_stage_target: float = BERT_TARGET_THRESHOLD) -> bool:
     if stage == "bert":
         scores = [float(v) for v in (metrics.get("bert_phrase_scores") or {}).values()]
-        max_phrase = max([0.0] + scores)
-        return max_phrase >= float(bert_stage_target)
     if stage == "bm25":
         return int(metrics.get("bm25_remove_count", 0)) <= 3
     if stage == "semantic":

 def _is_stage_complete(stage: str, metrics: Dict[str, Any], bert_stage_target: float = BERT_TARGET_THRESHOLD) -> bool:
     if stage == "bert":
+        # Complete only when all tracked BERT phrase scores meet the threshold.
+        # This enforces per-phrase target behavior (no early exit on one strong phrase).
         scores = [float(v) for v in (metrics.get("bert_phrase_scores") or {}).values()]
+        if not scores:
+            return True
+        return min(scores) >= float(bert_stage_target)
     if stage == "bm25":
         return int(metrics.get("bm25_remove_count", 0)) <= 3
     if stage == "semantic":