Spaces:

lsdf
/

ai-seo-analyzer

Running

lsdf commited on Feb 7

Commit

dd8a113

1 Parent(s): 6453a28

BM25 fix: hyphen-to-space in ngrams, sync corpus builder

Files changed (3) hide show

2026-02-07_19-13-16.png ADDED Viewed

2026-02-07_23-21-43.png ADDED Viewed

logic.py CHANGED Viewed

@@ -3,6 +3,7 @@ from collections import Counter
 from typing import List, Dict
 import numpy as np
 from rank_bm25 import BM25Okapi
 # Новые импорты для BERT
 import torch
@@ -97,14 +98,14 @@ def get_lemmas_flat(text: str, lang: str) -> List[str]:
 def generate_ngrams_safe(text: str, lang: str, n: int) -> List[str]:
     """
     Генерирует n-граммы.
-    ВЕРСИЯ: SMART WINDOW.
-    1. Считает N-граммой последовательность из N ЗНАЧИМЫХ слов.
-    2. Сохраняет стоп-слова ВНУТРИ фразы (для читаемости).
-    3. Обрезает стоп-слова ПО КРАЯМ (для чистоты).
-    Пример (N=2): "Website des Anbieters" -> "website des anbieters" (считается биграммой).
     """
     if not text: return []
     # Нормализация
     clean_text = " ".join(text.split())
     doc = get_doc(clean_text, lang)
@@ -326,7 +327,13 @@ def calculate_bm25_recommendations(target_text: str, competitor_texts: List[str]
             continue
         target_ngrams = generate_ngrams_safe(target_text, lang, n)
-        comp_ngrams_list = [generate_ngrams_safe(t, lang, n) for t in competitor_texts]
         corpus = [target_ngrams] + comp_ngrams_list

 from typing import List, Dict
 import numpy as np
 from rank_bm25 import BM25Okapi
+import re
 # Новые импорты для BERT
 import torch
 def generate_ngrams_safe(text: str, lang: str, n: int) -> List[str]:
     """
     Генерирует n-граммы.
+    LOGIC: Smart Window (сохраняет предлоги внутри).
+    FIX: Заменяет дефисы на пробелы перед анализом (Casino-Websites -> Casino Websites).
     """
     if not text: return []
+    # 1. ПРЕ-ПРОЦЕССИНГ: Дефисы в пробелы
+    text = re.sub(r'[\-\–\—\/]', ' ', text)
     # Нормализация
     clean_text = " ".join(text.split())
     doc = get_doc(clean_text, lang)
             continue
         target_ngrams = generate_ngrams_safe(target_text, lang, n)
+        comp_ngrams_list = []
+        for t in competitor_texts:
+            if t.strip():
+                comp_ngrams_list.append(generate_ngrams_safe(t, lang, n))
+            else:
+                comp_ngrams_list.append([])
         corpus = [target_ngrams] + comp_ngrams_list