Spaces:

Perth0603
/

Random-Forest-Model-for-PhishingDetection

Sleeping

App Files Files Community

Perth0603 commited on Nov 10, 2025

Commit

40f61ad

verified ·

1 Parent(s): 211af6f

Update app.py

Browse files

Files changed (1) hide show

app.py +10 -8

app.py CHANGED Viewed

@@ -75,7 +75,7 @@ if NLTK_AVAILABLE:
         'alert', 'warning', 'action required', 'unusual activity', 'compromised'
     }
-# Consolidated lookalike characters dictionary (used once throughout)
 LOOKALIKE_CHARS = {
     # Cyrillic
     'а': 'a', 'е': 'e', 'о': 'o', 'р': 'p', 'с': 'c', 'х': 'x',
@@ -90,11 +90,11 @@ LOOKALIKE_CHARS = {
 BRAND_NAMES = [
     "facebook", "linkedin", "paypal", "google", "amazon", "apple",
-    "microsoft", "instagram", "netflix", "twitter", "whatsapp"
 ]
 SUSPICIOUS_KEYWORDS = ["login", "verify", "secure", "update", "bank", "pay", "account", "webscr"]
-SUSPICIOUS_TLDS = {"tk", "ml", "ga", "cf", "gq", "xyz", "top", "buzz", "icu", "fit", "rest", "work", "click", "country", "zip"}
 app = FastAPI(
@@ -425,7 +425,8 @@ def _engineer_features(urls: List[str], feature_cols: List[str]) -> pd.DataFrame
     def _ratio_digits(txt: str) -> float:
         if not txt:
             return 0.0
-        return sum(c.isdigit() for c in txt) / len(txt)
     out["sld_digit_ratio"] = sld_series.apply(_ratio_digits)
     out["sld_entropy"] = sld_series.apply(_shannon_entropy)
@@ -435,10 +436,11 @@ def _engineer_features(urls: List[str], feature_cols: List[str]) -> pd.DataFrame
         if not host:
             return 0.0
         sld = host.split(".")[-2] if "." in host else host
-        return max(
-            SequenceMatcher(None, host, brand).ratio(),
-            SequenceMatcher(None, sld, brand).ratio()
-        ) for brand in BRAND_NAMES
     out["max_brand_sim"] = hosts.apply(_max_brand_similarity)
     out["like_facebook"] = hosts.apply(

         'alert', 'warning', 'action required', 'unusual activity', 'compromised'
     }
+# Consolidated lookalike characters dictionary
 LOOKALIKE_CHARS = {
     # Cyrillic
     'а': 'a', 'е': 'e', 'о': 'o', 'р': 'p', 'с': 'c', 'х': 'x',
 BRAND_NAMES = [
     "facebook", "linkedin", "paypal", "google", "amazon", "apple",
+    "microsoft", "instagram", "netflix", "twitter", "whatsapp", "bank", "hsbc", "yahoo", "outlook"
 ]
 SUSPICIOUS_KEYWORDS = ["login", "verify", "secure", "update", "bank", "pay", "account", "webscr"]
+SUSPICIOUS_TLDS = {"tk", "ml", "ga", "cf", "gq", "xyz", "top", "buzz", "icu", "fit", "rest", "work", "click", "country", "zip", "ru", "kim", "support", "ltd"}
 app = FastAPI(
     def _ratio_digits(txt: str) -> float:
         if not txt:
             return 0.0
+        digits = sum(c.isdigit() for c in txt)
+        return float(digits) / float(len(txt))
     out["sld_digit_ratio"] = sld_series.apply(_ratio_digits)
     out["sld_entropy"] = sld_series.apply(_shannon_entropy)
         if not host:
             return 0.0
         sld = host.split(".")[-2] if "." in host else host
+        similarities = []
+        for brand in BRAND_NAMES:
+            similarities.append(SequenceMatcher(None, host, brand).ratio())
+            similarities.append(SequenceMatcher(None, sld, brand).ratio())
+        return max(similarities) if similarities else 0.0
     out["max_brand_sim"] = hosts.apply(_max_brand_similarity)
     out["like_facebook"] = hosts.apply(