Spaces:

agus1111
/

bot-signal-telegram

Sleeping

App Files Files Community

agus1111 commited on Aug 28

Commit

5c821c2

verified ·

1 Parent(s): 5b6413e

Update botsignal.py

Browse files

Files changed (1) hide show

botsignal.py +84 -22

botsignal.py CHANGED Viewed

@@ -49,7 +49,7 @@ SOURCE_CHATS = CORE_CHATS + SUPPORT_CHATS
 TARGET_CHAT = os.environ.get("TARGET_CHAT", "https://t.me/MidasTouchsignalll")
-# Kata kunci topik (biarkan simbol "$" tetap dipakai sesuai kebutuhanmu)
 THEME_KEYWORDS = [
     "call", "signal", "entry", "buy", "sell", "tp", "sl",
     "pump", "spot", "futures", "setup",
@@ -81,6 +81,9 @@ DRY_RUN = os.environ.get("DRY_RUN", "0") == "1"
 # Backfill buffer: abaikan pesan lebih tua dari (startup_time - buffer)
 BACKFILL_BUFFER_MINUTES = int(os.environ.get("BACKFILL_BUFFER_MINUTES", "3"))
 # ========= Client bootstrap =========
 def build_client() -> TelegramClient:
@@ -179,11 +182,35 @@ def _windows(tokens: List[str], size: int = 20):
     for i in range(0, len(tokens), size):
         yield " ".join(tokens[i:i+size])
 def score_relevance(text: str, keywords: List[str]) -> float:
     """Skor: exact keyword + fuzzy windowed (top-3 rata-rata) agar adil untuk teks panjang."""
     if not text:
         return 0.0
-    t = text.lower()
     # exact hits (unik)
     exact_hits = 0
@@ -198,7 +225,6 @@ def score_relevance(text: str, keywords: List[str]) -> float:
         return exact_score
     scores = []
     for w in _windows(tokens, 20):
-        # untuk setiap window, ambil skor tertinggi atas semua kw
         best = 0.0
         for kw in keywords:
             sc = fuzz.partial_ratio(kw, w) / 100.0
@@ -210,12 +236,6 @@ def score_relevance(text: str, keywords: List[str]) -> float:
     return exact_score + fuzzy_score
-def _strip_urls_and_mentions(s: str) -> str:
-    s = re.sub(r"https?://\S+", "", s)
-    s = re.sub(r"t\.me/[A-Za-z0-9_]+", "", s)
-    s = re.sub(r"@[A-Za-z0-9_]+", "", s)
-    return re.sub(r"\s+", " ", s).strip()
 def hash_for_dedup(text: str, msg) -> str:
     """Hash campuran (lama) – menahan duplikat per pesan+media."""
     parts = [text or ""]
@@ -383,7 +403,7 @@ async def _send_initial(msg, text: str) -> int:
         return await _send_initial(msg, text)
 async def post_or_update(keyword: str, body: str, new_tier: str, src_msg) -> None:
-    prefix = f"[{new_tier.upper()}] "
     text = prefix + body
     prev = last_posted.get(keyword)
     if not prev:
@@ -460,17 +480,56 @@ async def send_as_is(msg, text_override: Optional[str] = None) -> None:
         await client.send_message(TARGET_CHAT, orig_text, formatting_entities=entities, link_preview=True)
-# ========= Keyword extraction =========
 def _extract_all_keywords(text_norm: str) -> List[str]:
     """
-    Deteksi SEMUA keyword dari THEME_KEYWORDS (support $ticker).
     Tidak menghapus simbol '$' (sesuai permintaan).
     """
-    t = re.sub(r"\$([a-z0-9]+)", r"\1", text_norm, flags=re.I)  # toleran untuk pencarian kw
     found = []
     for kw in THEME_KEYWORDS:
         if re.search(rf"(^|\W){re.escape(kw)}(\W|$)", t, flags=re.I):
             found.append(kw.lower())
     # unik dengan urutan muncul pertama
     uniq = []
     seen = set()
@@ -483,15 +542,15 @@ def _extract_all_keywords(text_norm: str) -> List[str]:
 def _choose_dominant_keyword(text_norm: str, kws: List[str]) -> Optional[str]:
     if not kws:
         return None
-    # pilih berdasarkan frekuensi kemunculan + preferensi earliest
     score = {}
     for kw in kws:
         cnt = len(re.findall(rf"(^|\W){re.escape(kw)}(\W|$)", text_norm, flags=re.I))
         first = re.search(rf"(^|\W){re.escape(kw)}(\W|$)", text_norm, flags=re.I)
         first_idx = first.start() if first else 1_000_000
-        score[kw] = (cnt, -first_idx)
-    # sort: freq desc, earliest asc
-    chosen = sorted(score.items(), key=lambda x: (x[1][0], x[1][1]), reverse=True)[0][0]
     return chosen
 def _role_of(chat_id: int) -> str:
@@ -526,7 +585,7 @@ async def process_message(msg, source_chat_id: int) -> None:
         return
     recent_hashes.append(h)
-    # Relevansi
     score = score_relevance(text_norm, THEME_KEYWORDS)
     debug_log(f"Skor relevansi={score:.2f}", orig_text)
     if score < RELEVANCE_THRESHOLD:
@@ -546,10 +605,13 @@ async def process_message(msg, source_chat_id: int) -> None:
     now = datetime.now(timezone.utc)
     class_label, unique_groups = update_and_classify(main_kw, group_key, now)
-    # Gating SUPPORT (tetap aturan semula; tidak memaksa CORE presence)
-    if role == "support" and unique_groups < SUPPORT_MIN_UNIQUE:
-        debug_log(f"Support ditahan (unique_groups={unique_groups} < {SUPPORT_MIN_UNIQUE})", orig_text)
-        return
     # Filter kalimat ajakan (whitelist-aware)
     cleaned_body = filter_invite_sentences(orig_text)

 TARGET_CHAT = os.environ.get("TARGET_CHAT", "https://t.me/MidasTouchsignalll")
+# Kata kunci topik + simbol '$' tetap dipakai
 THEME_KEYWORDS = [
     "call", "signal", "entry", "buy", "sell", "tp", "sl",
     "pump", "spot", "futures", "setup",
 # Backfill buffer: abaikan pesan lebih tua dari (startup_time - buffer)
 BACKFILL_BUFFER_MINUTES = int(os.environ.get("BACKFILL_BUFFER_MINUTES", "3"))
+# Opsional: bypass gating support bila keyword dominan adalah $ticker (default ON)
+SUPPORT_TICKER_BYPASS = os.environ.get("SUPPORT_TICKER_BYPASS", "1") == "1"
 # ========= Client bootstrap =========
 def build_client() -> TelegramClient:
     for i in range(0, len(tokens), size):
         yield " ".join(tokens[i:i+size])
+# --- Tambahan: bersihkan URL/CA untuk kepentingan SCORING relevansi ---
+CA_SOL_RE = re.compile(r"\b[1-9A-HJ-NP-Za-km-z]{32,48}\b")  # Solana base58 (perkiraan)
+CA_EVM_RE = re.compile(r"\b0x[a-fA-F0-9]{40}\b")            # EVM address
+CA_LABEL_RE = re.compile(r"\bCA\s*[:=]\s*\S+", re.IGNORECASE)  # "CA: ..." potong tokennya
+def _strip_urls_and_mentions(s: str) -> str:
+    s = re.sub(r"https?://\S+", "", s)
+    s = re.sub(r"t\.me/[A-Za-z0-9_]+", "", s)
+    s = re.sub(r"@[A-Za-z0-9_]+", "", s)
+    return re.sub(r"\s+", " ", s).strip()
+def strip_contracts_for_scoring(s: str) -> str:
+    """
+    Hilangkan URL/mention, alamat kontrak, dan token setelah 'CA:'
+    agar kata 'pump' pada CA/URL (mis. pump.fun) tidak memengaruhi skor.
+    """
+    s0 = _strip_urls_and_mentions(s)
+    s1 = CA_LABEL_RE.sub(" ", s0)
+    s2 = CA_EVM_RE.sub(" ", s1)
+    s3 = CA_SOL_RE.sub(" ", s2)
+    return re.sub(r"\s+", " ", s3).strip()
 def score_relevance(text: str, keywords: List[str]) -> float:
     """Skor: exact keyword + fuzzy windowed (top-3 rata-rata) agar adil untuk teks panjang."""
     if not text:
         return 0.0
+    # Gunakan versi yang TIDAK mengandung URL/CA agar 'pump' di CA tidak ikut dihitung
+    t = strip_contracts_for_scoring(text).lower()
     # exact hits (unik)
     exact_hits = 0
         return exact_score
     scores = []
     for w in _windows(tokens, 20):
         best = 0.0
         for kw in keywords:
             sc = fuzz.partial_ratio(kw, w) / 100.0
     return exact_score + fuzzy_score
 def hash_for_dedup(text: str, msg) -> str:
     """Hash campuran (lama) – menahan duplikat per pesan+media."""
     parts = [text or ""]
         return await _send_initial(msg, text)
 async def post_or_update(keyword: str, body: str, new_tier: str, src_msg) -> None:
+    prefix = f"[{new_tier.UPPER()}] " if hasattr(new_tier, "UPPER") else f"[{new_tier.upper()}] "
     text = prefix + body
     prev = last_posted.get(keyword)
     if not prev:
         await client.send_message(TARGET_CHAT, orig_text, formatting_entities=entities, link_preview=True)
+# ========= Keyword extraction ($ticker-aware) =========
+TICKER_CLEAN_RE = re.compile(r"\$[A-Za-z0-9]{2,12}")
+TICKER_NOISY_RE = re.compile(r"\$[A-Za-z0-9](?:[^A-Za-z0-9]+[A-Za-z0-9]){1,11}")
+def _extract_tickers(text_norm: str) -> List[str]:
+    """
+    Ambil $TICKER dengan dua cara:
+    - Bersih: $ABC, $JBCOIN
+    - Noisy: $J*BCOIN -> dinormalisasi jadi $JBCOIN untuk *keyword* saja.
+      (Teks asli tetap dikirim apa adanya.)
+    """
+    found = []
+    # bersih
+    for m in TICKER_CLEAN_RE.finditer(text_norm):
+        found.append(m.group(0).lower())
+    # noisy -> normalisasi internal
+    for m in TICKER_NOISY_RE.finditer(text_norm):
+        raw = m.group(0)
+        norm = "$" + re.sub(r"[^A-Za-z0-9]+", "", raw[1:])
+        if 3 <= len(norm) <= 13:  # termasuk '$'
+            found.append(norm.lower())
+    # unik & pertahankan urutan
+    seen = set()
+    uniq = []
+    for x in found:
+        if x not in seen:
+            uniq.append(x)
+            seen.add(x)
+    return uniq
 def _extract_all_keywords(text_norm: str) -> List[str]:
     """
+    Deteksi SEMUA keyword dari THEME_KEYWORDS + $ticker.
     Tidak menghapus simbol '$' (sesuai permintaan).
     """
+    # toleran untuk pencarian keyword tema (seperti semula)
+    t = re.sub(r"\$([a-z0-9]+)", r"\1", text_norm, flags=re.I)
     found = []
     for kw in THEME_KEYWORDS:
         if re.search(rf"(^|\W){re.escape(kw)}(\W|$)", t, flags=re.I):
             found.append(kw.lower())
+    # gabungkan hasil $ticker
+    tickers = _extract_tickers(text_norm)
+    found.extend(tickers)
     # unik dengan urutan muncul pertama
     uniq = []
     seen = set()
 def _choose_dominant_keyword(text_norm: str, kws: List[str]) -> Optional[str]:
     if not kws:
         return None
+    # pilih berdasarkan frekuensi kemunculan + preferensi $ticker + posisi paling awal
     score = {}
     for kw in kws:
         cnt = len(re.findall(rf"(^|\W){re.escape(kw)}(\W|$)", text_norm, flags=re.I))
         first = re.search(rf"(^|\W){re.escape(kw)}(\W|$)", text_norm, flags=re.I)
         first_idx = first.start() if first else 1_000_000
+        bonus = 1 if kw.startswith("$") else 0  # prefer $ticker saat imbang
+        score[kw] = (cnt, bonus, -first_idx)
+    chosen = sorted(score.items(), key=lambda x: (x[1][0], x[1][1], x[1][2]), reverse=True)[0][0]
     return chosen
 def _role_of(chat_id: int) -> str:
         return
     recent_hashes.append(h)
+    # Relevansi (pakai teks yang CA/URL-nya dinetralkan)
     score = score_relevance(text_norm, THEME_KEYWORDS)
     debug_log(f"Skor relevansi={score:.2f}", orig_text)
     if score < RELEVANCE_THRESHOLD:
     now = datetime.now(timezone.utc)
     class_label, unique_groups = update_and_classify(main_kw, group_key, now)
+    # Gating SUPPORT: izinkan $ticker bila SUPPORT_TICKER_BYPASS aktif
+    if role == "support":
+        if main_kw.startswith("$") and SUPPORT_TICKER_BYPASS:
+            pass
+        elif unique_groups < SUPPORT_MIN_UNIQUE:
+            debug_log(f"Support ditahan (unique_groups={unique_groups} < {SUPPORT_MIN_UNIQUE})", orig_text)
+            return
     # Filter kalimat ajakan (whitelist-aware)
     cleaned_body = filter_invite_sentences(orig_text)