Upload 72 files

Browse files

Files changed (13) hide show

.gitattributes +36 -36
Models/Unconfirmed 784952.crdownload +3 -0
Models/linear_model (1).pkl +3 -0
Models/logistic_model.pkl +2 -2
Models/logvectorizer.pkl +3 -0
README.md +13 -0
Templates/NB_spam.html +70 -70
Templates/logistic.html +1 -1
app.py +653 -356
load_file.py +17 -6
requirements.txt +0 -0
save_token.py +1 -1
train_logistic_model.py +19 -27

.gitattributes CHANGED Viewed

@@ -1,36 +1,36 @@
-*.7z filter=lfs diff=lfs merge=lfs -text
-*.arrow filter=lfs diff=lfs merge=lfs -text
-*.bin filter=lfs diff=lfs merge=lfs -text
-*.bz2 filter=lfs diff=lfs merge=lfs -text
-*.ckpt filter=lfs diff=lfs merge=lfs -text
-*.ftz filter=lfs diff=lfs merge=lfs -text
-*.gz filter=lfs diff=lfs merge=lfs -text
-*.h5 filter=lfs diff=lfs merge=lfs -text
-*.joblib filter=lfs diff=lfs merge=lfs -text
-*.lfs.* filter=lfs diff=lfs merge=lfs -text
-*.mlmodel filter=lfs diff=lfs merge=lfs -text
-*.model filter=lfs diff=lfs merge=lfs -text
-*.msgpack filter=lfs diff=lfs merge=lfs -text
-*.npy filter=lfs diff=lfs merge=lfs -text
-*.npz filter=lfs diff=lfs merge=lfs -text
-*.onnx filter=lfs diff=lfs merge=lfs -text
-*.ot filter=lfs diff=lfs merge=lfs -text
-*.parquet filter=lfs diff=lfs merge=lfs -text
-*.pb filter=lfs diff=lfs merge=lfs -text
-*.pickle filter=lfs diff=lfs merge=lfs -text
-*.pkl filter=lfs diff=lfs merge=lfs -text
-*.pt filter=lfs diff=lfs merge=lfs -text
-*.pth filter=lfs diff=lfs merge=lfs -text
-*.rar filter=lfs diff=lfs merge=lfs -text
-*.safetensors filter=lfs diff=lfs merge=lfs -text
-saved_model/**/* filter=lfs diff=lfs merge=lfs -text
-*.tar.* filter=lfs diff=lfs merge=lfs -text
-*.tar filter=lfs diff=lfs merge=lfs -text
-*.tflite filter=lfs diff=lfs merge=lfs -text
-*.tgz filter=lfs diff=lfs merge=lfs -text
-*.wasm filter=lfs diff=lfs merge=lfs -text
-*.xz filter=lfs diff=lfs merge=lfs -text
-*.zip filter=lfs diff=lfs merge=lfs -text
-*.zst filter=lfs diff=lfs merge=lfs -text
-*tfevents* filter=lfs diff=lfs merge=lfs -text
-Static/decision_tree.png filter=lfs diff=lfs merge=lfs -text

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
+Models/Unconfirmed[[:space:]]784952.crdownload filter=lfs diff=lfs merge=lfs -text

Models/Unconfirmed 784952.crdownload ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b76814785969081fb542eb90f1adca0b7e08af310da68ab91231c806c4e3d53d
+size 69189991

Models/linear_model (1).pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e686db9126ad24dbdd3eaee6b9915cce209e0c703e3279c23787cdb3f1fa6e7a
+size 577

Models/logistic_model.pkl CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:436ed4986a74683a04c42554ee5e827e963971f108dee7cf7974e5e05e83a6b7
-size 62127

 version https://git-lfs.github.com/spec/v1
+oid sha256:57c8921a04cc148eb213bc4e1d21bf7d4e027401ea0dbe272567d6d6dd12d920
+size 40863

Models/logvectorizer.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e51b1d8b6c8975d5469c9c7540af43fab5ac2bdce0008d7109cfdab4fd481917
+size 160142

README.md ADDED Viewed

	@@ -0,0 +1,13 @@

+---
+title: Neroml
+emoji: 📉
+colorFrom: indigo
+colorTo: yellow
+sdk: gradio
+sdk_version: 5.43.1
+app_file: app.py
+pinned: false
+short_description: IT is a web page that teach ml algorithm with visualisation
+---
+Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

Templates/NB_spam.html CHANGED Viewed

@@ -72,74 +72,74 @@
     </style>
 </head>
 <body>
-    <h1>🔍 Naive Bayes URL Spam Checker</h1>
-    <input type="text" id="urlInput" placeholder="Enter URL (e.g. http://example.com)">
-    <br>
-    <button onclick="checkURL()">Check</button>
-    <div id="result"></div>
-    <div id="spellSteps"></div>
-    <div id="reason"></div>
-    <script>
-        async function checkURL() {
-            const url = document.getElementById("urlInput").value.trim();
-            const resultDiv = document.getElementById("result");
-            const reasonDiv = document.getElementById("reason");
-            const spellStepsDiv = document.getElementById("spellSteps");
-            // Clear previous outputs
-            resultDiv.innerHTML = "⏳ Checking...";
-            reasonDiv.innerHTML = "";
-            spellStepsDiv.innerHTML = "";
-            try {
-                const response = await fetch('/predict', {
-                    method: 'POST',
-                    headers: { 'Content-Type': 'application/json' },
-                    body: JSON.stringify({ url: url })
-                });
-                const data = await response.json();
-                // Show result
-                if (data.prediction === 1) {
-                    resultDiv.innerHTML = "🚫 <span class='spam'>SPAM / PHISHING</span>";
-                } else {
-                    resultDiv.innerHTML = "✅ <span class='safe'>This URL is SAFE</span>";
-                }
-                // Show reason
-                if (data.reason) {
-                    reasonDiv.innerText = `🔍 Reason: ${data.reason}`;
-                }
-                // Show spell check steps
-                if (data.steps && data.steps.length > 0) {
-                    const title = document.createElement("h3");
-                    title.innerText = "🧠 Spell Checker Log:";
-                    spellStepsDiv.appendChild(title);
-                    data.steps.forEach((step) => {
-                        const line = document.createElement("div");
-                        line.innerHTML = step.valid
-                            ? `✅ ${step.word} → Valid`
-                            : `❌ ${step.word} → Misspelled`;
-                        line.style.color = step.valid ? "green" : "red";
-                        spellStepsDiv.appendChild(line);
-                    });
-                }
-            } catch (err) {
-                resultDiv.innerHTML = "⚠️ Error checking the URL.";
-                reasonDiv.innerText = err.message;
-            }
-        }
-    </script>
-    <div class="mt-6 text-center">
-  <a href="/naive_bayes" class="inline-block bg-gray-200 hover:bg-gray-300 text-gray-800 px-4 py-2 rounded shadow">
-    ← Back to Naive_bayes classification
-  </a>
 </body>
-</html>

     </style>
 </head>
 <body>
+   <title>Naive Bayes URL Spam Checker</title>
+</head>
+<body>
+  <h1>🔍 Naive Bayes URL Spam Checker</h1>
+  <input type="text" id="urlInput" placeholder="Enter URL (e.g. http://example.com)">
+  <br>
+  <button onclick="checkURL()">Check</button>
+  <div id="result"></div>
+  <div id="spellSteps"></div>
+  <div id="reason"></div>
+  <script>
+      async function checkURL() {
+          const url = document.getElementById("urlInput").value.trim();
+          const resultDiv = document.getElementById("result");
+          const reasonDiv = document.getElementById("reason");
+          const spellStepsDiv = document.getElementById("spellSteps");
+          resultDiv.innerHTML = "⏳ Checking...";
+          reasonDiv.innerHTML = "";
+          spellStepsDiv.innerHTML = "";
+          try {
+              const response = await fetch('/predict', {
+                  method: 'POST',
+                  headers: { 'Content-Type': 'application/json' },
+                  body: JSON.stringify({ url: url })
+              });
+              const data = await response.json();
+              if (data.prediction === 1) {
+                  resultDiv.innerHTML = "🚫 <span class='spam'>SPAM / PHISHING</span>";
+              } else {
+                  resultDiv.innerHTML = "✅ <span class='safe'>This URL is SAFE</span>";
+              }
+              if (data.reason) {
+                  reasonDiv.innerText = `🔍 Reason: ${data.reason}`;
+              }
+              if (data.steps && data.steps.length > 0) {
+                  const title = document.createElement("h3");
+                  title.innerText = "🧠 Spell Checker Log:";
+                  spellStepsDiv.appendChild(title);
+                  data.steps.forEach((step) => {
+                      const line = document.createElement("div");
+                      line.innerHTML = step.valid
+                          ? `✅ ${step.word} → Valid`
+                          : `❌ ${step.word} → Misspelled`;
+                      line.style.color = step.valid ? "green" : "red";
+                      spellStepsDiv.appendChild(line);
+                  });
+              }
+          } catch (err) {
+              resultDiv.innerHTML = "⚠️ Error checking the URL.";
+              reasonDiv.innerText = err.message;
+          }
+      }
+  </script>
+  <div class="mt-6 text-center">
+    <a href="/naive_bayes" class="inline-block bg-gray-200 hover:bg-gray-300 text-gray-800 px-4 py-2 rounded shadow">
+      ← Back to Naive Bayes classification
+    </a>
+  </div>
 </body>
+</html>

Templates/logistic.html CHANGED Viewed

@@ -58,7 +58,7 @@
   <ul class="space-y-1 font-mono text-xs">
     <li><strong>Cleaned Text:</strong> {{ cleaned }}</li>
     <li><strong>Tokenized:</strong> {{ tokens }}</li>
-    <li><strong>Vector:</strong> {{ vector }}</li>
     <li><strong>Sigmoid Output:</strong> {{ probability }}</li>
     <li><strong>Final Prediction:</strong> {{ prediction }}</li>
   </ul>

   <ul class="space-y-1 font-mono text-xs">
     <li><strong>Cleaned Text:</strong> {{ cleaned }}</li>
     <li><strong>Tokenized:</strong> {{ tokens }}</li>
     <li><strong>Sigmoid Output:</strong> {{ probability }}</li>
     <li><strong>Final Prediction:</strong> {{ prediction }}</li>
   </ul>

app.py CHANGED Viewed

@@ -38,6 +38,18 @@ from dotenv import load_dotenv
 import os
 from urllib.parse import urlparse
 import tldextract
 # Load environment variables from .env
 load_dotenv()
 #spam url import relateted
@@ -83,59 +95,59 @@ import google.generativeai as genai
    #huggung face code start
-from huggingface_hub import hf_hub_download
-import joblib
-import numpy as np
-import torch
-REPO_ID = "deedrop1140/my-ml-models"
-def load_file(filename):
-    """Download a file from Hugging Face Hub and load it with the right library."""
-    file_path = hf_hub_download(repo_id=REPO_ID, filename=filename)
-    if filename.endswith(".pkl") or filename.endswith(".joblib"):
-        return joblib.load(file_path)
-    elif filename.endswith(".npy"):
-        return np.load(file_path, allow_pickle=True)
-    elif filename.endswith(".pt") or filename.endswith(".pth"):
-        return torch.load(file_path)
-    else:
-        return file_path
-# =====================
-# Replace your old model loads with this:
-# =====================
-# Models
-knn_model = load_file("Models/knn_model.pkl")
-lasso_model = load_file("Models/lasso_model.pkl")
-liar_model = load_file("Models/liar_model.joblib")
-linear_model = load_file("Models/linear_model.pkl")
-logistic_model = load_file("Models/logistic_model.pkl")
-nb_url_model = load_file("Models/nb_url_model.pkl")
-poly_model = load_file("Models/poly_model.pkl")
-rf_model = load_file("Models/rf_model.pkl")
-ridge_model = load_file("Models/ridge_model.pkl")
-supervised_model = load_file("Models/supervised_model.pkl")
-svr_model = load_file("Models/svr_model.pkl")
-voting_url_model = load_file("Models/voting_url_model.pkl")
-# Vectorizers / Encoders / Scalers
-label_classes = load_file("Models/label_classes.npy")
-label_encoder = load_file("Models/label_encoder.pkl")
-lasso_scaler = load_file("Models/lasso_scaler.pkl")
-liar_vectorizer = load_file("Models/liar_vectorizer.joblib")
-nb_url_vectorizer = load_file("Models/nb_url_vectorizer.pkl")
-poly_transform = load_file("Models/poly_transform.pkl")
-ridge_scaler = load_file("Models/ridge_scaler.pkl")
-svr_scaler_X = load_file("Models/svr_scaler_X.pkl")
-svr_scaler_y = load_file("Models/svr_scaler_y.pkl")
-tfidf_vectorizer = load_file("Models/tfidf_vectorizer.pkl")
-url_vectorizer = load_file("Models/url_vectorizer.pkl")
-vectorizer_joblib = load_file("Models/vectorizer.joblib")
-vectorizer_pkl = load_file("Models/vectorizer.pkl")
-# huggung face code end
 MODEL_DIR = "Models"
 DATA_DIR = "housedata" # Assuming your house data is here
@@ -155,7 +167,7 @@ def ask_gemini(statement):
     return response.text
 #rfc
-model = load("Models/liar_model.joblib")
 vectorizer = load("Models/liar_vectorizer.joblib")
 # Load BERT fact-checker pipeline (local model)
@@ -237,16 +249,27 @@ def get_house_data():
 loaded_models = {}
 # Load logistic model and vectorizer for SMS
-vectorizer = joblib.load("Models/vectorizer.pkl")
 model = joblib.load("Models/logistic_model.pkl")
 # Load models once NB+DT+SVM is trained
-model = joblib.load("Models/voting_url_model.pkl")
-vectorizer = joblib.load("Models/url_vectorizer.pkl")
 #END NB+DT+SVM
 # === Naive Bayes URL Spam Classifier (NB_spam.html) ===
 # === Load Model & Vectorizer ===
 VT_API_KEY = os.getenv("VT_API_KEY")
 model_path = os.path.join("Models", "nb_url_model.pkl")
@@ -266,236 +289,412 @@ else:
 # Load dictionary words
-valid_words = set(words.words())
-def load_trusted_keywords(file_path):
-    with open(file_path, 'r', encoding='utf-8') as f:
-        return set(line.strip().lower() for line in f if line.strip())
-# Load trusted colleges from file
-with open("data/trusted_colleges.txt", "r") as f:
-    trusted_colleges = set(line.strip().lower() for line in f if line.strip())
-whitelist = set([
-    # Search Engines
-    'google', 'bing', 'yahoo', 'duckduckgo', 'baidu', 'ask',
-    # Social Media
-    'facebook', 'instagram', 'twitter', 'linkedin', 'snapchat', 'tiktok',
-    'threads', 'pinterest', 'reddit', 'quora',
-    # Communication Tools
-    'whatsapp', 'telegram', 'skype', 'zoom', 'meet', 'discord',
-    'teams', 'signal', 'messenger',
-    # Global E-commerce
-    'amazon', 'ebay', 'shopify', 'alibaba', 'walmart', 'target',
-    'etsy', 'shein', 'bestbuy', 'costco', 'newegg',
-    # Indian E-commerce / Services
-    'flipkart', 'myntra', 'ajio', 'nykaa', 'meesho', 'snapdeal',
-    'paytm', 'phonepe', 'mobikwik', 'zomato', 'swiggy', 'ola', 'uber', 'bookmyshow',
-    'ixigo', 'makemytrip', 'yatra', 'redbus', 'bigbasket', 'grofers', 'blinkit','https://universalcollegeofengineering.edu.in',
-    # Education / Productivity
-    'youtube', 'docs', 'drive', 'calendar', 'photos', 'zoom',
-    'gmail', 'notion', 'edx', 'coursera', 'udemy', 'khanacademy', 'byjus', 'unacademy',
-    # News / Media / Tech
-    'bbc', 'cnn', 'nyt', 'forbes', 'bloomberg', 'reuters',
-    'ndtv', 'indiatimes', 'thehindu', 'hindustantimes', 'indiatoday',
-    'techcrunch', 'verge', 'wired',
-    # Streaming / Entertainment
-    'netflix', 'hotstar', 'primevideo', 'spotify', 'gaana', 'wynk', 'saavn', 'voot',
-    # Dev & Tools
-    'github', 'stackoverflow', 'medium', 'gitlab', 'bitbucket',
-    'adobe', 'figma', 'canva',
-    # Financial / Banking
-    'hdfcbank', 'icicibank', 'sbi', 'axisbank', 'kotak', 'boi', 'upi',
-    'visa', 'mastercard', 'paypal', 'stripe', 'razorpay', 'phonepe', 'paytm',
-    # Government / Utilities
-    'gov', 'nic', 'irctc', 'uidai', 'mygov', 'incometax', 'aadhar', 'rbi',
-    # Others Common
-    'airtel', 'jio', 'bsnl', 'vi', 'speedtest', 'cricbuzz', 'espn', 'espncricinfo',
-    'wikipedia', 'mozilla', 'opera', 'chrome', 'android', 'apple', 'windows', 'microsoft'
-])
-def is_gibberish_word(word):
-    word = word.lower()
-    if len(word) < 4:
-        return False
-    if not word.isalpha():
-        return True
-    return word not in valid_words
-def is_rule_based_spam(url):
-    url = url.strip().lower()
-    print(f"\n🌐 Checking URL: {url}")
-    try:
-        parsed = urlparse(url if url.startswith(("http://", "https://")) else "http://" + url)
-        domain = parsed.netloc
-        path = parsed.path
-        query = parsed.query
-        fragment = parsed.fragment
-    except Exception as e:
-        print("❌ Failed: Malformed URL")
-        return True, f"❌ Malformed URL: {e}"
-    if not domain:
-        print("❌ Failed: Empty domain after parsing")
-        return True, "❌ Empty domain after parsing"
-    else:
-        print("✅ Parsed domain:", domain)
-    # --- Rules ---
-    if '.' not in domain:
-        print("❌ Failed Rule 1: Domain missing dot (.)")
-        return True, "❌ Domain missing dot (.)"
-    else:
-        print("✅ Passed Rule 1: Domain contains dot")
-    trusted_tlds = ['.gov', '.nic.in', '.edu', '.ac.in', '.mil', '.org', '.int', '.co.in', '.gov.in', '.res.in', '.net.in', '.nic.gov.in']
-    if any(tld in domain for tld in trusted_tlds):
-        print("✅ Passed Rule 2: Trusted TLD")
-    else:
-        print("✅ Passed Rule 2: Not a trusted TLD (but not blocked yet)")
-    try:
-        ext = tldextract.extract(url)
-        domain_name = ext.domain
-        suffix = ext.suffix
-        print(f"✅ Extracted domain name: {domain_name}, suffix: {suffix}")
-    except Exception:
-        print("❌ Failed: Cannot extract domain/suffix")
-        return True, "❌ Cannot extract domain/suffix"
-    # Rule 2.5: Check if domain matches a trusted college keyword
-    if any(college in domain for college in trusted_colleges):
-       print("✅ Passed Rule 2.5: Trusted college name matched")
-       return False, "✅ Trusted college"
-    else:
-       print("✅ Passed Rule 2.5: No trusted college matched (continue checking)")
-    if domain_name in whitelist:
-       print("✅ Skipping gibberish check for whitelisted domain")
-    else:
-       parts = re.split(r'[\/\.\-\_\?\=\&]', url)
-       long_parts = [p for p in parts if len(p) >= 5 and p.isalpha()]
-       gibberish_parts = [p for p in long_parts if is_gibberish_word(p)]
-    if len(long_parts) > 0 and (len(gibberish_parts) / len(long_parts)) > 0.6:
-        print("❌ Failed Rule 15: Mostly gibberish words")
-        return True, "🧾 Mostly gibberish / non-dictionary words"
-    else:
-        print("✅ Passed Rule 15: Words are mostly valid")
-    if re.match(r'^\d{1,3}(\.\d{1,3}){3}$', domain):
-        print("❌ Failed Rule 3: IP address as domain")
-        return True, "📟 IP address instead of domain"
-    else:
-        print("✅ Passed Rule 3: Domain is not an IP address")
-    bad_tlds = ['.xyz', '.tk', '.ml', '.ga', '.cf', '.top', '.gq', '.cn', '.ru', '.pw', '.bid', '.link', '.loan', '.party', '.science', '.stream', '.webcam', '.online', '.site', '.website', '.space', '.club', '.buzz', '.info']
-    if any(suffix == tld.lstrip('.') for tld in bad_tlds):
-        print(f"❌ Failed Rule 4: Suspicious TLD ({suffix})")
-        return True, "🧨 Suspicious top-level domain"
-    else:
-        print("✅ Passed Rule 4: TLD not in suspicious list")
-    if len(domain_name) > 30:
-        print("❌ Failed Rule 5: Very long domain name")
-        return True, "📏 Very long and unrecognized domain name"
-    else:
-        print("✅ Passed Rule 5: Domain name length is acceptable")
-    numeric_chars = sum(c.isdigit() for c in domain_name)
-    if len(domain_name) > 5 and (numeric_chars / len(domain_name)) > 0.5:
-        print("❌ Failed Rule 6: Numeric-heavy domain")
-        return True, "🔢 Numeric-heavy domain name"
-    else:
-        print("✅ Passed Rule 6: Domain has few or no digits")
-    if domain_name.count('-') > 3 or re.search(r'[!@#$%^&*()_+={}\[\]|\\:;"\'<>,?/`~]', domain_name):
-        print("❌ Failed Rule 7: Too many special characters")
-        return True, "➖ Excessive hyphens or special characters in domain"
-    else:
-        print("✅ Passed Rule 7: No excessive special characters")
-    if domain_name.startswith('xn--'):
-        print("❌ Failed Rule 8: Punycode detected")
-        return True, "🌐 Punycode detected (potential homograph attack)"
-    else:
-        print("✅ Passed Rule 8: No punycode")
-    subdomains = ext.subdomain.split('.') if ext.subdomain else []
-    if len(subdomains) > 4:
-        print("❌ Failed Rule 9: Excessive subdomains")
-        return True, "🌳 Excessive subdomains"
-    else:
-        print("✅ Passed Rule 9: Subdomain count is normal")
-    if re.match(r'^\d{1,3}(-\d{1,3}){3}$', domain_name.replace('.', '-')):
-        print("❌ Failed Rule 10: Domain name formatted like an IP")
-        return True, "🔢 Domain name formatted like an IP"
-    else:
-        print("✅ Passed Rule 10: Domain name is not IP-like")
-    phishing_keywords = [
-        'login', 'verify', 'secure', 'account', 'update', 'confirm', 'authenticate',
-        'free', 'bonus', 'offer', 'prize', 'winner', 'gift', 'coupon', 'discount',
-        'bank', 'paypal', 'creditcard', 'mastercard', 'visa', 'amex', 'westernunion',
-        'signin', 'click', 'password', 'unlock', 'recover', 'validate', 'urgency',
-        'limitedtime', 'expires', 'suspicious', 'alert', 'important', 'actionrequired'
-    ]
-    full_url_parts = url + path + query + fragment
-    if any(keyword in full_url_parts for keyword in phishing_keywords):
-        print("❌ Failed Rule 11: Contains phishing keyword")
-        return True, "🔍 Contains phishing keyword"
-    else:
-        print("✅ Passed Rule 11: No phishing keywords found")
-    if len(path) > 100:
-        print("❌ Failed Rule 12: Very long path")
-        return True, "📜 Very long URL path"
-    else:
-        print("✅ Passed Rule 12: Path length is acceptable")
-    suspicious_extensions = ['.exe', '.zip', '.rar', '.js', '.php', '.asp', '.aspx', '.jsp', '.sh']
-    if any(path.endswith(ext) for ext in suspicious_extensions):
-        print("❌ Failed Rule 13: Suspicious file extension")
-        return True, "📁 Suspicious file extension in path"
-    else:
-        print("✅ Passed Rule 13: No suspicious file extension")
-    if any(param in query for param in ['redirect=', 'url=', 'goto=', 'link=']):
-        print("❌ Failed Rule 14: Redirect pattern in query")
-        return True, "🔗 Potential redirect link"
-    else:
-        print("✅ Passed Rule 14: No redirect pattern in query")
-    # Gibberish Check
-    parts = re.split(r'[\/\.\-\_\?\=\&]', url)
-    long_parts = [p for p in parts if len(p) >= 5 and p.isalpha()]
-    gibberish_parts = [p for p in long_parts if is_gibberish_word(p)]
-    if len(long_parts) > 0 and (len(gibberish_parts) / len(long_parts)) > 0.6:
-        print("❌ Failed Rule 15: Mostly gibberish words")
-        return True, "🧾 Mostly gibberish / non-dictionary words"
-    else:
-        print("✅ Passed Rule 15: Words are mostly valid")
-    print("✅ All rule-based checks passed")
-    return False, None
-    #end of navis baiyes
@@ -800,43 +999,58 @@ def run_svr_demo():
 def clean_text(text):
     return text.lower().strip()
 @app.route('/logistic', methods=['GET', 'POST'])
 def logistic():
-    prediction = None
-    confidence_percentage = None
-    cleaned = None
-    tokens = None
-    vector = None
-    probability = None
     if request.method == "POST":
         try:
-            msg = request.form.get('message', '')
-            cleaned = clean_text(msg)
             vector = vectorizer.transform([cleaned])
             probability = model.predict_proba(vector)[0][1]
             prediction = "Spam" if probability >= 0.5 else "Not Spam"
             confidence_percentage = round(probability * 100, 2)
         except Exception as e:
-            print("Error in /logistic:", e)
             prediction = "Error"
-    return render_template("logistic.html",
-                           prediction=prediction,
-                           confidence_percentage=confidence_percentage,
-                           cleaned=cleaned,
-                           tokens=cleaned.split() if cleaned else [],
-                           vector=vector.toarray().tolist() if vector is not None else [],
-                           probability=round(probability, 4) if probability else None,
-                           source="form")
 @app.route('/logistic-sms', methods=['POST'])
 def logistic_sms():
     try:
         data = request.get_json()
         msg = data.get('message', '')
         cleaned = clean_text(msg)
         vector = vectorizer.transform([cleaned])
         probability = model.predict_proba(vector)[0][1]
         prediction = "Spam" if probability >= 0.5 else "Not Spam"
@@ -847,8 +1061,7 @@ def logistic_sms():
             "confidence": confidence_percentage,
             "probability": round(probability, 4),
             "cleaned": cleaned,
-            "tokens": cleaned.split(),
-            "vector": vector.toarray().tolist(),
             "source": "json"
         })
@@ -1247,112 +1460,196 @@ def dt_visual_predict():
     # --- Naive Bayes Routes ---
 @app.route('/nb_spam')
 def nb_spam_page():
     return render_template('NB_spam.html')
-@app.route("/predict", methods=["POST"])
-def predict():
-    try:
-        import re
-        from urllib.parse import urlparse
-        from spellchecker import SpellChecker
-        import wordninja
-        data = request.get_json()
-        url = data.get("url")
-        if not url:
-            print("❌ No URL provided in request")
-            return jsonify({'error': 'No URL provided'}), 400
-        print(f"\n🌐 Checking URL: {url}")
-        # 1. ✅ VirusTotal
-        vt_flagged, vt_reason = check_with_virustotal(url)
-        if vt_flagged:
-            print(f"☣️ VirusTotal flagged it as malicious: {vt_reason}")
-            return jsonify({'prediction': 1, 'reason': vt_reason})
-        print("✅ VirusTotal check passed")
-        # 2. ✅ Rule-based
-        rule_flagged, rule_reason = is_rule_based_spam(url)
-        if rule_flagged:
-            print(f"📛 Rule-based detection triggered: {rule_reason}")
-            return jsonify({'prediction': 1, 'reason': rule_reason})
-        print("✅ Rule-based checks passed")
-        # 3. ✅ ML Prediction
-        features = vectorizer.transform([url])
-        prediction = nb_model.predict(features)[0]
-        print(f"📊 ML Model predicted: {'SPAM' if prediction == 1 else 'SAFE'} (prediction = {prediction})")
-        # 4️⃣ Spelling Checker 🔍
         spell = SpellChecker(distance=1)
-        # Load custom dictionary from words_alpha
-        with open("data/words_alpha.txt", "r") as f:
-            dictionary_words = set(line.strip().lower() for line in f if line.strip())
-            spell.word_frequency.load_words(dictionary_words)
-        # --- Word Extraction and Spell Check ---
-        def extract_words(url, dictionary_words):
-            parsed = urlparse(url)
-            parts = re.split(r'\W+', parsed.netloc + parsed.path)
-            seen = set()
-            final_words = []
-            final_log = []
-            for word in parts:
-                if len(word) > 3 and word.isalpha():
-                    split_words = wordninja.split(word.lower())
-                    if len(split_words) <= 1:
-                        split_words = [word.lower()]
-                    for w in split_words:
-                        if len(w) > 2 and w not in seen:
-                            seen.add(w)
-                            final_words.append(w)
-                            final_log.append({
-                                "word": w,
-                                "valid": w in dictionary_words
-                            })
-            return final_words, final_log
-        # Run extraction and get spelling log
-        words, spell_log = extract_words(url, dictionary_words)
-        misspelled = [entry["word"] for entry in spell_log if not entry["valid"]]
-        # If ML says safe but spell check has typos → override
-        if prediction == 0 and misspelled:
-            print("⚠️ Spelling Mismatch: CSV said Safe, but typos found:", misspelled)
             return jsonify({
-                'prediction': 1,
-                'reason': f"⚠️ Spelling mismatch: {', '.join(misspelled)}",
-                'steps': spell_log
             })
-        # ✅ Final Safe/Spam Decision
-        return jsonify({
-            'prediction': int(prediction),
-            'reason': "✅ Passed all checks" if prediction == 0 else "🧾 ML model flagged it",
-            'steps': spell_log
-        })
     except Exception as e:
-        print(f"❌ ERROR in /predict: {e}")
-        return jsonify({'error': str(e)}), 500
@@ -1550,4 +1847,4 @@ def DBSCAN():
 if __name__ == '__main__':
     #app.run(debug=True, port=5000)
-    app.run(debug=True)

 import os
 from urllib.parse import urlparse
 import tldextract
+import string
+from transformers import AutoTokenizer, AutoModelForSequenceClassification, pipeline
+model_name = "microsoft/deberta-v3-small"
+tokenizer = AutoTokenizer.from_pretrained(model_name, use_fast=True)
+model = AutoModelForSequenceClassification.from_pretrained(model_name)
+bert_checker = pipeline("text-classification", model=model, tokenizer=tokenizer)
 # Load environment variables from .env
 load_dotenv()
 #spam url import relateted
    #huggung face code start
+# from huggingface_hub import hf_hub_download
+# import joblib
+# import numpy as np
+# import torch
+# REPO_ID = "deedrop1140/my-ml-models"
+# def load_file(filename):
+#     """Download a file from Hugging Face Hub and load it with the right library."""
+#     file_path = hf_hub_download(repo_id=REPO_ID, filename=filename)
+#     if filename.endswith(".pkl") or filename.endswith(".joblib"):
+#         return joblib.load(file_path)
+#     elif filename.endswith(".npy"):
+#         return np.load(file_path, allow_pickle=True)
+#     elif filename.endswith(".pt") or filename.endswith(".pth"):
+#         return torch.load(file_path)
+#     else:
+#         return file_path
+# # =====================
+# # Replace your old model loads with this:
+# # =====================
+# # Models
+# knn_model = load_file("Models/knn_model.pkl")
+# lasso_model = load_file("Models/lasso_model.pkl")
+# liar_model = load_file("Models/liar_model.joblib")
+# linear_model = load_file("Models/linear_model.pkl")
+# logistic_model = load_file("Models/logistic_model.pkl")
+# nb_url_model = load_file("Models/nb_url_model.pkl")
+# poly_model = load_file("Models/poly_model.pkl")
+# rf_model = load_file("Models/rf_model.pkl")
+# ridge_model = load_file("Models/ridge_model.pkl")
+# supervised_model = load_file("Models/supervised_model.pkl")
+# svr_model = load_file("Models/svr_model.pkl")
+# voting_url_model = load_file("Models/voting_url_model.pkl")
+# # Vectorizers / Encoders / Scalers
+# label_classes = load_file("Models/label_classes.npy")
+# label_encoder = load_file("Models/label_encoder.pkl")
+# lasso_scaler = load_file("Models/lasso_scaler.pkl")
+# liar_vectorizer = load_file("Models/liar_vectorizer.joblib")
+# nb_url_vectorizer = load_file("Models/nb_url_vectorizer.pkl")
+# poly_transform = load_file("Models/poly_transform.pkl")
+# ridge_scaler = load_file("Models/ridge_scaler.pkl")
+# svr_scaler_X = load_file("Models/svr_scaler_X.pkl")
+# svr_scaler_y = load_file("Models/svr_scaler_y.pkl")
+# tfidf_vectorizer = load_file("Models/tfidf_vectorizer.pkl")
+# url_vectorizer = load_file("Models/url_vectorizer.pkl")
+# vectorizer_joblib = load_file("Models/vectorizer.joblib")
+# vectorizer_pkl = load_file("Models/vectorizer.pkl")
+# # huggung face code end
 MODEL_DIR = "Models"
 DATA_DIR = "housedata" # Assuming your house data is here
     return response.text
 #rfc
+# model = load("Models/liar_model.joblib")
 vectorizer = load("Models/liar_vectorizer.joblib")
 # Load BERT fact-checker pipeline (local model)
 loaded_models = {}
 # Load logistic model and vectorizer for SMS
+vectorizer = joblib.load("Models/logvectorizer.pkl")
 model = joblib.load("Models/logistic_model.pkl")
 # Load models once NB+DT+SVM is trained
+try:
+    vectorizer = joblib.load("Models/logvectorizer.pkl")
+    model = joblib.load("Models/logistic_model.pkl")
+    print("✅ Model and vectorizer loaded into memory successfully!")
+except Exception as e:
+    vectorizer = None
+    model = None
+    print(f"❌ Error: Could not load model or vectorizer. Please check your file paths. Error: {e}")
 #END NB+DT+SVM
 # === Naive Bayes URL Spam Classifier (NB_spam.html) ===
 # === Load Model & Vectorizer ===
 VT_API_KEY = os.getenv("VT_API_KEY")
 model_path = os.path.join("Models", "nb_url_model.pkl")
 # Load dictionary words
+# valid_words = set(words.words())
+# def load_trusted_keywords(file_path):
+#     with open(file_path, 'r', encoding='utf-8') as f:
+#         return set(line.strip().lower() for line in f if line.strip())
+# # # Load trusted colleges from file
+# # with open("data/trusted_colleges.txt", "r") as f:
+# #     trusted_colleges = set(line.strip().lower() for line in f if line.strip())
+# whitelist = set([
+#     # Search Engines
+#     'google', 'bing', 'yahoo', 'duckduckgo', 'baidu', 'ask',
+#     # Social Media
+#     'facebook', 'instagram', 'twitter', 'linkedin', 'snapchat', 'tiktok',
+#     'threads', 'pinterest', 'reddit', 'quora',
+#     # Communication Tools
+#     'whatsapp', 'telegram', 'skype', 'zoom', 'meet', 'discord',
+#     'teams', 'signal', 'messenger',
+#     # Global E-commerce
+#     'amazon', 'ebay', 'shopify', 'alibaba', 'walmart', 'target',
+#     'etsy', 'shein', 'bestbuy', 'costco', 'newegg',
+#     # Indian E-commerce / Services
+#     'flipkart', 'myntra', 'ajio', 'nykaa', 'meesho', 'snapdeal',
+#     'paytm', 'phonepe', 'mobikwik', 'zomato', 'swiggy', 'ola', 'uber', 'bookmyshow',
+#     'ixigo', 'makemytrip', 'yatra', 'redbus', 'bigbasket', 'grofers', 'blinkit','https://universalcollegeofengineering.edu.in',
+#     # Education / Productivity
+#     'youtube', 'docs', 'drive', 'calendar', 'photos', 'zoom',
+#     'gmail', 'notion', 'edx', 'coursera', 'udemy', 'khanacademy', 'byjus', 'unacademy',
+#     # News / Media / Tech
+#     'bbc', 'cnn', 'nyt', 'forbes', 'bloomberg', 'reuters',
+#     'ndtv', 'indiatimes', 'thehindu', 'hindustantimes', 'indiatoday',
+#     'techcrunch', 'verge', 'wired',
+#     # Streaming / Entertainment
+#     'netflix', 'hotstar', 'primevideo', 'spotify', 'gaana', 'wynk', 'saavn', 'voot',
+#     # Dev & Tools
+#     'github', 'stackoverflow', 'medium', 'gitlab', 'bitbucket',
+#     'adobe', 'figma', 'canva',
+#     # Financial / Banking
+#     'hdfcbank', 'icicibank', 'sbi', 'axisbank', 'kotak', 'boi', 'upi',
+#     'visa', 'mastercard', 'paypal', 'stripe', 'razorpay', 'phonepe', 'paytm',
+#     # Government / Utilities
+#     'gov', 'nic', 'irctc', 'uidai', 'mygov', 'incometax', 'aadhar', 'rbi',
+#     # Others Common
+#     'airtel', 'jio', 'bsnl', 'vi', 'speedtest', 'cricbuzz', 'espn', 'espncricinfo',
+#     'wikipedia', 'mozilla', 'opera', 'chrome', 'android', 'apple', 'windows', 'microsoft'
+# ])
+# def is_gibberish_word(word):
+#     word = word.lower()
+#     if len(word) < 4:
+#         return False
+#     if not word.isalpha():
+#         return True
+#     return word not in valid_words
+# def is_rule_based_spam(url):
+#     url = url.strip().lower()
+#     print(f"\n🌐 Checking URL: {url}")
+#     try:
+#         parsed = urlparse(url if url.startswith(("http://", "https://")) else "http://" + url)
+#         domain = parsed.netloc
+#         path = parsed.path
+#         query = parsed.query
+#         fragment = parsed.fragment
+#     except Exception as e:
+#         print("❌ Failed: Malformed URL")
+#         return True, f"❌ Malformed URL: {e}"
+#     if not domain:
+#         print("❌ Failed: Empty domain after parsing")
+#         return True, "❌ Empty domain after parsing"
+#     else:
+#         print("✅ Parsed domain:", domain)
+#     # --- Rules ---
+#     if '.' not in domain:
+#         print("❌ Failed Rule 1: Domain missing dot (.)")
+#         return True, "❌ Domain missing dot (.)"
+#     else:
+#         print("✅ Passed Rule 1: Domain contains dot")
+#     trusted_tlds = ['.gov', '.nic.in', '.edu', '.ac.in', '.mil', '.org', '.int', '.co.in', '.gov.in', '.res.in', '.net.in', '.nic.gov.in']
+#     if any(tld in domain for tld in trusted_tlds):
+#         print("✅ Passed Rule 2: Trusted TLD")
+#     else:
+#         print("✅ Passed Rule 2: Not a trusted TLD (but not blocked yet)")
+#     try:
+#         ext = tldextract.extract(url)
+#         domain_name = ext.domain
+#         suffix = ext.suffix
+#         print(f"✅ Extracted domain name: {domain_name}, suffix: {suffix}")
+#     except Exception:
+#         print("❌ Failed: Cannot extract domain/suffix")
+#         return True, "❌ Cannot extract domain/suffix"
+#     if domain_name in whitelist:
+#        print("✅ Skipping gibberish check for whitelisted domain")
+#     else:
+#        parts = re.split(r'[\/\.\-\_\?\=\&]', url)
+#        long_parts = [p for p in parts if len(p) >= 5 and p.isalpha()]
+#        gibberish_parts = [p for p in long_parts if is_gibberish_word(p)]
+#     if len(long_parts) > 0 and (len(gibberish_parts) / len(long_parts)) > 0.6:
+#         print("❌ Failed Rule 15: Mostly gibberish words")
+#         return True, "🧾 Mostly gibberish / non-dictionary words"
+#     else:
+#         print("✅ Passed Rule 15: Words are mostly valid")
+#     if re.match(r'^\d{1,3}(\.\d{1,3}){3}$', domain):
+#         print("❌ Failed Rule 3: IP address as domain")
+#         return True, "📟 IP address instead of domain"
+#     else:
+#         print("✅ Passed Rule 3: Domain is not an IP address")
+#     bad_tlds = ['.xyz', '.tk', '.ml', '.ga', '.cf', '.top', '.gq', '.cn', '.ru', '.pw', '.bid', '.link', '.loan', '.party', '.science', '.stream', '.webcam', '.online', '.site', '.website', '.space', '.club', '.buzz', '.info']
+#     if any(suffix == tld.lstrip('.') for tld in bad_tlds):
+#         print(f"❌ Failed Rule 4: Suspicious TLD ({suffix})")
+#         return True, "🧨 Suspicious top-level domain"
+#     else:
+#         print("✅ Passed Rule 4: TLD not in suspicious list")
+#     if len(domain_name) > 30:
+#         print("❌ Failed Rule 5: Very long domain name")
+#         return True, "📏 Very long and unrecognized domain name"
+#     else:
+#         print("✅ Passed Rule 5: Domain name length is acceptable")
+#     numeric_chars = sum(c.isdigit() for c in domain_name)
+#     if len(domain_name) > 5 and (numeric_chars / len(domain_name)) > 0.5:
+#         print("❌ Failed Rule 6: Numeric-heavy domain")
+#         return True, "🔢 Numeric-heavy domain name"
+#     else:
+#         print("✅ Passed Rule 6: Domain has few or no digits")
+#     if domain_name.count('-') > 3 or re.search(r'[!@#$%^&*()_+={}\[\]|\\:;"\'<>,?/`~]', domain_name):
+#         print("❌ Failed Rule 7: Too many special characters")
+#         return True, "➖ Excessive hyphens or special characters in domain"
+#     else:
+#         print("✅ Passed Rule 7: No excessive special characters")
+#     if domain_name.startswith('xn--'):
+#         print("❌ Failed Rule 8: Punycode detected")
+#         return True, "🌐 Punycode detected (potential homograph attack)"
+#     else:
+#         print("✅ Passed Rule 8: No punycode")
+#     subdomains = ext.subdomain.split('.') if ext.subdomain else []
+#     if len(subdomains) > 4:
+#         print("❌ Failed Rule 9: Excessive subdomains")
+#         return True, "🌳 Excessive subdomains"
+#     else:
+#         print("✅ Passed Rule 9: Subdomain count is normal")
+#     if re.match(r'^\d{1,3}(-\d{1,3}){3}$', domain_name.replace('.', '-')):
+#         print("❌ Failed Rule 10: Domain name formatted like an IP")
+#         return True, "🔢 Domain name formatted like an IP"
+#     else:
+#         print("✅ Passed Rule 10: Domain name is not IP-like")
+#     phishing_keywords = [
+#         'login', 'verify', 'secure', 'account', 'update', 'confirm', 'authenticate',
+#         'free', 'bonus', 'offer', 'prize', 'winner', 'gift', 'coupon', 'discount',
+#         'bank', 'paypal', 'creditcard', 'mastercard', 'visa', 'amex', 'westernunion',
+#         'signin', 'click', 'password', 'unlock', 'recover', 'validate', 'urgency',
+#         'limitedtime', 'expires', 'suspicious', 'alert', 'important', 'actionrequired'
+#     ]
+#     full_url_parts = url + path + query + fragment
+#     if any(keyword in full_url_parts for keyword in phishing_keywords):
+#         print("❌ Failed Rule 11: Contains phishing keyword")
+#         return True, "🔍 Contains phishing keyword"
+#     else:
+#         print("✅ Passed Rule 11: No phishing keywords found")
+#     if len(path) > 100:
+#         print("❌ Failed Rule 12: Very long path")
+#         return True, "📜 Very long URL path"
+#     else:
+#         print("✅ Passed Rule 12: Path length is acceptable")
+#     suspicious_extensions = ['.exe', '.zip', '.rar', '.js', '.php', '.asp', '.aspx', '.jsp', '.sh']
+#     if any(path.endswith(ext) for ext in suspicious_extensions):
+#         print("❌ Failed Rule 13: Suspicious file extension")
+#         return True, "📁 Suspicious file extension in path"
+#     else:
+#         print("✅ Passed Rule 13: No suspicious file extension")
+#     if any(param in query for param in ['redirect=', 'url=', 'goto=', 'link=']):
+#         print("❌ Failed Rule 14: Redirect pattern in query")
+#         return True, "🔗 Potential redirect link"
+#     else:
+#         print("✅ Passed Rule 14: No redirect pattern in query")
+#     # Gibberish Check
+#     parts = re.split(r'[\/\.\-\_\?\=\&]', url)
+#     long_parts = [p for p in parts if len(p) >= 5 and p.isalpha()]
+#     gibberish_parts = [p for p in long_parts if is_gibberish_word(p)]
+#     if len(long_parts) > 0 and (len(gibberish_parts) / len(long_parts)) > 0.6:
+#         print("❌ Failed Rule 15: Mostly gibberish words")
+#         return True, "🧾 Mostly gibberish / non-dictionary words"
+#     else:
+#         print("✅ Passed Rule 15: Words are mostly valid")
+#     print("✅ All rule-based checks passed")
+#     return False, None
+    #end of navis baiyes
+    #start of navi# --- Dictionary Words ---
+# valid_words = set(words.words())
+# # --- Load Trusted Keywords ---
+# def load_trusted_keywords(file_path):
+#     with open(file_path, 'r', encoding='utf-8') as f:
+#         return set(line.strip().lower() for line in f if line.strip())
+# # --- Whitelist (common safe domains/services) ---
+# whitelist = set([
+#     # Search Engines
+#     'google', 'bing', 'yahoo', 'duckduckgo', 'baidu', 'ask',
+#     # Social Media
+#     'facebook', 'instagram', 'twitter', 'linkedin', 'snapchat', 'tiktok',
+#     'threads', 'pinterest', 'reddit', 'quora',
+#     # Communication Tools
+#     'whatsapp', 'telegram', 'skype', 'zoom', 'meet', 'discord',
+#     'teams', 'signal', 'messenger',
+#     # Global E-commerce
+#     'amazon', 'ebay', 'shopify', 'alibaba', 'walmart', 'target',
+#     'etsy', 'shein', 'bestbuy', 'costco', 'newegg',
+#     # Indian E-commerce / Services
+#     'flipkart', 'myntra', 'ajio', 'nykaa', 'meesho', 'snapdeal',
+#     'paytm', 'phonepe', 'mobikwik', 'zomato', 'swiggy', 'ola', 'uber', 'bookmyshow',
+#     'ixigo', 'makemytrip', 'yatra', 'redbus', 'bigbasket', 'grofers', 'blinkit',
+#     'universalcollegeofengineering',
+#     # Education / Productivity
+#     'youtube', 'docs', 'drive', 'calendar', 'photos', 'gmail', 'notion',
+#     'edx', 'coursera', 'udemy', 'khanacademy', 'byjus', 'unacademy',
+#     # News / Media / Tech
+#     'bbc', 'cnn', 'nyt', 'forbes', 'bloomberg', 'reuters',
+#     'ndtv', 'indiatimes', 'thehindu', 'hindustantimes', 'indiatoday',
+#     'techcrunch', 'verge', 'wired',
+#     # Streaming / Entertainment
+#     'netflix', 'hotstar', 'primevideo', 'spotify', 'gaana', 'wynk', 'saavn', 'voot',
+#     # Dev & Tools
+#     'github', 'stackoverflow', 'medium', 'gitlab', 'bitbucket',
+#     'adobe', 'figma', 'canva',
+#     # Financial / Banking
+#     'hdfcbank', 'icicibank', 'sbi', 'axisbank', 'kotak', 'boi', 'upi',
+#     'visa', 'mastercard', 'paypal', 'stripe', 'razorpay', 'phonepe', 'paytm',
+#     # Government / Utilities
+#     'gov', 'nic', 'irctc', 'uidai', 'mygov', 'incometax', 'aadhar', 'rbi',
+#     # Others Common
+#     'airtel', 'jio', 'bsnl', 'vi', 'speedtest', 'cricbuzz', 'espn', 'espncricinfo',
+#     'wikipedia', 'mozilla', 'opera', 'chrome', 'android', 'apple', 'windows', 'microsoft'
+# ])
+# # --- Gibberish Check Helper ---
+# def is_gibberish_word(word):
+#     word = word.lower()
+#     if len(word) < 4:
+#         return False
+#     if not word.isalpha():
+#         return True
+#     return word not in valid_words
+# # --- RULE BASED CHECK ---
+# def is_rule_based_spam(url, skip_gibberish=False):
+#     url = url.strip().lower()
+#     print(f"\n🌐 Checking URL: {url}")
+#     try:
+#         parsed = urlparse(url if url.startswith(("http://", "https://")) else "http://" + url)
+#         domain = parsed.netloc
+#         path = parsed.path
+#         query = parsed.query
+#         fragment = parsed.fragment
+#     except Exception as e:
+#         return True, f"❌ Malformed URL: {e}"
+#     if not domain:
+#         return True, "❌ Empty domain after parsing"
+#     # Rule 1: Dot in domain
+#     if '.' not in domain:
+#         return True, "❌ Domain missing dot (.)"
+#     # Trusted TLDs
+#     trusted_tlds = [
+#         '.gov', '.nic.in', '.edu', '.ac.in', '.mil', '.org', '.int',
+#         '.co.in', '.gov.in', '.res.in', '.net.in', '.nic.gov.in'
+#     ]
+#     try:
+#         ext = tldextract.extract(url)
+#         domain_name = ext.domain
+#         suffix = ext.suffix
+#         subdomains = ext.subdomain.split('.') if ext.subdomain else []
+#     except Exception:
+#         return True, "❌ Cannot extract domain/suffix"
+#     # --- WHITELIST / TRUSTED SKIP ---
+#     if any(tld in domain for tld in trusted_tlds) or domain_name in whitelist:
+#         print("✅ Trusted/whitelisted → gibberish will be skipped")
+#         skip_gibberish = True
+#     # Rule 3: IP as domain
+#     if re.match(r'^\d{1,3}(\.\d{1,3}){3}$', domain):
+#         return True, "📟 IP address instead of domain"
+#     # Rule 4: Bad TLD
+#     bad_tlds = ['.xyz', '.tk', '.ml', '.ga', '.cf', '.top', '.gq', '.cn',
+#                 '.ru', '.pw', '.bid', '.link', '.loan', '.party', '.science',
+#                 '.stream', '.webcam', '.online', '.site', '.website', '.space',
+#                 '.club', '.buzz', '.info']
+#     if any(suffix == tld.lstrip('.') for tld in bad_tlds):
+#         return True, "🧨 Suspicious top-level domain"
+#     # Rule 5: Long domain
+#     if len(domain_name) > 30:
+#         return True, "📏 Very long and unrecognized domain name"
+#     # Rule 6: Numeric-heavy
+#     numeric_chars = sum(c.isdigit() for c in domain_name)
+#     if len(domain_name) > 5 and (numeric_chars / len(domain_name)) > 0.5:
+#         return True, "🔢 Numeric-heavy domain name"
+#     # Rule 7: Special characters
+#     if domain_name.count('-') > 3 or re.search(r'[!@#$%^&*()_+={}\[\]|\\:;"\'<>,?/`~]', domain_name):
+#         return True, "➖ Excessive hyphens or special characters in domain"
+#     # Rule 8: Punycode
+#     if domain_name.startswith('xn--'):
+#         return True, "🌐 Punycode detected (potential homograph attack)"
+#     # Rule 9: Excessive subdomains
+#     if len(subdomains) > 4:
+#         return True, "🌳 Excessive subdomains"
+#     # Rule 10: Domain looks like IP
+#     if re.match(r'^\d{1,3}(-\d{1,3}){3}$', domain_name.replace('.', '-')):
+#         return True, "🔢 Domain name formatted like an IP"
+#     # Rule 11: Phishing keywords
+#     phishing_keywords = [
+#         'login', 'verify', 'secure', 'account', 'update', 'confirm', 'authenticate',
+#         'free', 'bonus', 'offer', 'prize', 'winner', 'gift', 'coupon', 'discount',
+#         'bank', 'paypal', 'creditcard', 'mastercard', 'visa', 'amex', 'westernunion',
+#         'signin', 'click', 'password', 'unlock', 'recover', 'validate', 'urgency',
+#         'limitedtime', 'expires', 'suspicious', 'alert', 'important', 'actionrequired'
+#     ]
+#     full_url_parts = url + path + query + fragment
+#     if any(keyword in full_url_parts for keyword in phishing_keywords):
+#         return True, "🔍 Contains phishing keyword"
+#     # Rule 12: Long path
+#     if len(path) > 100:
+#         return True, "📜 Very long URL path"
+#     # Rule 13: Suspicious file extensions
+#     suspicious_extensions = ['.exe', '.zip', '.rar', '.js', '.php', '.asp', '.aspx', '.jsp', '.sh']
+#     if any(path.endswith(ext) for ext in suspicious_extensions):
+#         return True, "📁 Suspicious file extension in path"
+#     # Rule 14: Redirect in query
+#     if any(param in query for param in ['redirect=', 'url=', 'goto=', 'link=']):
+#         return True, "🔗 Potential redirect link"
+#     # Rule 15: Gibberish (only if not skipped)
+#     if not skip_gibberish:
+#         parts = re.split(r'[\/\.\-\_\?\=\&]', url)
+#         long_parts = [p for p in parts if len(p) >= 5 and p.isalpha()]
+#         gibberish_parts = [p for p in long_parts if is_gibberish_word(p)]
+#         if len(long_parts) > 0 and (len(gibberish_parts) / len(long_parts)) > 0.6:
+#             return True, "🧾 Mostly gibberish / non-dictionary words"
+#     return False, None
+# #end of navbaiesd
 def clean_text(text):
     return text.lower().strip()
+import re
+# Load saved model and vectorizer
+model = joblib.load("Models/logistic_model.pkl")
+vectorizer = joblib.load("Models/logvectorizer.pkl")
+# Text cleaning
+def clean_text(text):
+    text = text.lower()
+    text = re.sub(r'\W', ' ', text)
+    text = re.sub(r'\s+[a-zA-Z]\s+', ' ', text)
+    text = re.sub(r'\s+', ' ', text)
+    return text.strip()
 @app.route('/logistic', methods=['GET', 'POST'])
 def logistic():
+    prediction, confidence_percentage, cleaned, tokens, probability = None, None, None, None, None
     if request.method == "POST":
+        msg = request.form.get('message', '')
+        cleaned = clean_text(msg)
+        tokens = cleaned.split()
         try:
             vector = vectorizer.transform([cleaned])
             probability = model.predict_proba(vector)[0][1]
             prediction = "Spam" if probability >= 0.5 else "Not Spam"
             confidence_percentage = round(probability * 100, 2)
         except Exception as e:
+            print("Error predicting:", e)
             prediction = "Error"
+            confidence_percentage = 0
+    return render_template(
+        "logistic.html",
+        prediction=prediction,
+        confidence_percentage=confidence_percentage,
+        cleaned=cleaned,
+        tokens=tokens,
+        probability=round(probability, 4) if probability else None,
+        source="sms"
+    )
 @app.route('/logistic-sms', methods=['POST'])
 def logistic_sms():
     try:
         data = request.get_json()
         msg = data.get('message', '')
         cleaned = clean_text(msg)
+        tokens = cleaned.split()
         vector = vectorizer.transform([cleaned])
         probability = model.predict_proba(vector)[0][1]
         prediction = "Spam" if probability >= 0.5 else "Not Spam"
             "confidence": confidence_percentage,
             "probability": round(probability, 4),
             "cleaned": cleaned,
+            "tokens": tokens,
             "source": "json"
         })
     # --- Naive Bayes Routes ---
+from urllib.parse import urlparse
+from sklearn.naive_bayes import GaussianNB
+from nltk.corpus import words
+model_path = "Models/nb_url_model.pkl"
+vectorizer_path = "Models/nb_url_vectorizer.pkl"
+if os.path.exists(model_path) and os.path.exists(vectorizer_path):
+    nb_model = joblib.load(model_path)
+    vectorizer = joblib.load(vectorizer_path)
+    print("✅ Loaded Naive Bayes URL model")
+else:
+    nb_model, vectorizer = None, None
+    print("❌ Model/vectorizer not found")
 @app.route('/nb_spam')
 def nb_spam_page():
     return render_template('NB_spam.html')
+import re
+from urllib.parse import urlparse
+from spellchecker import SpellChecker
+import wordninja
+# ---- Whitelist (your full one, unchanged) ----
+whitelist = set([
+    # Search Engines
+    'google', 'bing', 'yahoo', 'duckduckgo', 'baidu', 'ask',
+    # Social Media
+    'facebook', 'instagram', 'twitter', 'linkedin', 'snapchat', 'tiktok',
+    'threads', 'pinterest', 'reddit', 'quora',
+    # Communication Tools
+    'whatsapp', 'telegram', 'skype', 'zoom', 'meet', 'discord',
+    'teams', 'signal', 'messenger',
+    # Global E-commerce
+    'amazon', 'ebay', 'shopify', 'alibaba', 'walmart', 'target',
+    'etsy', 'shein', 'bestbuy', 'costco', 'newegg',
+    # Indian E-commerce / Services
+    'flipkart', 'myntra', 'ajio', 'nykaa', 'meesho', 'snapdeal',
+    'paytm', 'phonepe', 'mobikwik', 'zomato', 'swiggy', 'ola', 'uber', 'bookmyshow',
+    'ixigo', 'makemytrip', 'yatra', 'redbus', 'bigbasket', 'grofers', 'blinkit',
+    'universalcollegeofengineering',
+    # Education / Productivity
+    'youtube', 'docs', 'drive', 'calendar', 'photos', 'gmail', 'notion',
+    'edx', 'coursera', 'udemy', 'khanacademy', 'byjus', 'unacademy',
+    # News / Media / Tech
+    'bbc', 'cnn', 'nyt', 'forbes', 'bloomberg', 'reuters',
+    'ndtv', 'indiatimes', 'thehindu', 'hindustantimes', 'indiatoday',
+    'techcrunch', 'verge', 'wired',
+    # Streaming / Entertainment
+    'netflix', 'hotstar', 'primevideo', 'spotify', 'gaana', 'wynk', 'saavn', 'voot',
+    # Dev & Tools
+    'github', 'stackoverflow', 'medium', 'gitlab', 'bitbucket',
+    'adobe', 'figma', 'canva',
+    # Financial / Banking
+    'hdfcbank', 'icicibank', 'sbi', 'axisbank', 'kotak', 'boi', 'upi',
+    'visa', 'mastercard', 'paypal', 'stripe', 'razorpay', 'phonepe', 'paytm',
+    # Government / Utilities
+    'gov', 'nic', 'irctc', 'uidai', 'mygov', 'incometax', 'aadhar', 'rbi',
+    # Others Common
+    'airtel', 'jio', 'bsnl', 'vi', 'speedtest', 'cricbuzz', 'espn', 'espncricinfo',
+    'wikipedia', 'mozilla', 'opera', 'chrome', 'android', 'apple', 'windows', 'microsoft'
+])
+    # ... your full whitelist from before ...
+# ---- Trusted & Bad TLDs ----
+trusted_tlds = [
+    '.gov', '.nic.in', '.edu', '.ac.in', '.mil', '.org', '.int',
+    '.co.in', '.gov.in', '.res.in', '.net.in', '.nic.gov.in'
+]
+# Expanded Bad TLDs (Rule 4)
+bad_tlds = [
+    '.xyz', '.tk', '.ml', '.ga', '.cf', '.top', '.gq', '.cn',
+    '.ru', '.pw', '.bid', '.link', '.loan', '.party', '.science',
+    '.stream', '.webcam', '.online', '.site', '.website', '.space',
+    '.club', '.buzz', '.info'
+]
+# Suspicious extensions (Rule 13)
+suspicious_extensions = ['.exe', '.zip', '.rar', '.js', '.php', '.asp', '.aspx', '.jsp', '.sh']
+# Phishing keywords (Rule 11, your full list)
+phishing_keywords = [
+    'login', 'verify', 'secure', 'account', 'update', 'confirm', 'authenticate',
+    'free', 'bonus', 'offer', 'prize', 'winner', 'gift', 'coupon', 'discount',
+    'bank', 'paypal', 'creditcard', 'mastercard', 'visa', 'amex', 'westernunion',
+    'signin', 'click', 'password', 'unlock', 'recover', 'validate', 'urgency',
+    'limitedtime', 'expires', 'suspicious', 'alert', 'important', 'actionrequired'
+]
+# ---- Rules 5–14 ----
+rules = {
+    5: r"https?://\d{1,3}(\.\d{1,3}){3}",
+    6: r"@[A-Za-z0-9.-]+\.[A-Za-z]{2,}",
+    7: r"(free money|win now|click here)",
+    8: r"https?://[^\s]*\.(ru|cn|tk)",
+    9: r"https?://.{0,6}\..{2,6}/.{0,6}",
+    10: r"[0-9]{10,}",
+    12: r"https?://[^\s]*@[^\s]+",
+    13: r"https?://[^\s]*//[^\s]+",
+    14: r"https?://[^\s]*\?(?:[^=]+=[^&]*&){5,}",
+}
+# ---- Gibberish Check Helper (Rule 15) ----
+def is_gibberish_word(word):
+    vowels = "aeiou"
+    v_count = sum(c in vowels for c in word)
+    return v_count / len(word) < 0.25
+# # ---- Utility: Extract words from URL ----
+# def extract_words(url):
+#     parsed = urlparse(url if url.startswith(("http://", "https://")) else "http://" + url)
+#     raw = parsed.netloc.replace('-', '') + parsed.path.replace('-', '')
+#     # Split using wordninja
+#     words = wordninja.split(raw.lower())
+#     # Keep only alphabetic words of length >= 3
+#     words = [w for w in words if w.isalpha() and len(w) >= 3]
+#     return words
+# ---- Extract words from URL ----
+def extract_words(url):
+    parsed = urlparse(url if url.startswith(("http://", "https://")) else "http://" + url)
+    parts = re.split(r'\W+', parsed.netloc + parsed.path)
+    final_words = []
+    for word in parts:
+        if len(word) > 2 and word.isalpha():
+            split_words = wordninja.split(word.lower())
+            if len(split_words) <= 1:
+                split_words = [word.lower()]
+            final_words.extend(split_words)
+    return final_words
+# --- Your original predict function, now inside the Flask app ---
+@app.route("/predict", methods=["POST"])
+def predict():
+    try:
+        data = request.get_json()
+        url = data.get("url", "").lower()
+        if not url:
+            return jsonify({'error': 'No URL provided'}), 400
+        parsed = urlparse(url if url.startswith(("http://", "https://")) else "http://" + url)
+        path = parsed.path
+        # ---- SpellChecker using built-in dictionary ----
         spell = SpellChecker(distance=1)
+        # ---- Extract words and check spelling ----
+        words = extract_words(url)
+        # ignore known TLDs
+        tlds_to_ignore = [tld.replace('.', '',"/") for tld in trusted_tlds + bad_tlds]
+        words_for_spellcheck = [w for w in words if w not in tlds_to_ignore]
+        misspelled = spell.unknown(words_for_spellcheck)
+        steps = [{"word": w, "valid": (w not in misspelled) or (w in tlds_to_ignore)} for w in words]
+        if misspelled:
             return jsonify({
+                "prediction": 1,
+                "reason": f"🧾 Spelling errors: {', '.join(misspelled)}",
+                "steps": steps
+            })
+        else:
+            return jsonify({
+                "prediction": 0,
+                "reason": "✅ No spelling issues",
+                "steps": steps
             })
     except Exception as e:
+        return jsonify({'error': f"An issue occurred during spell checking: {str(e)}"}), 500
 if __name__ == '__main__':
     #app.run(debug=True, port=5000)
+    app.run(debug=True,use_reloader=False)

load_file.py CHANGED Viewed

@@ -8,15 +8,26 @@ load_dotenv()
 # Get token from environment
 HF_TOKEN = os.getenv("HF_TOKEN")
-# Login (only needed if you don’t use huggingface-cli)
 login(token=HF_TOKEN)
-REPO_ID = "deedrop1140/my-ml-models"
 def load_file(filename):
-    file_path = hf_hub_download(
-        repo_id=REPO_ID,
-        filename=filename,
-        token=HF_TOKEN  # token is loaded from environment
     )
     return file_path

 # Get token from environment
 HF_TOKEN = os.getenv("HF_TOKEN")
+# Login (only needed if you don't use huggingface-cli)
 login(token=HF_TOKEN)
+REPO_ID = "deedrop1140/Neroml" # Replace with your repository ID
 def load_file(filename):
+    """
+    Downloads a specified file from the Hugging Face Hub repository.
+    Args:
+        filename (str): The name of the file to download from the repository.
+    Returns:
+        str: The local path where the downloaded file is stored.
+    """
+    file_path = hf_hub_download(
+        repo_id=REPO_ID,
+        filename=filename,
+        token=HF_TOKEN # token is loaded from environment
     )
     return file_path

requirements.txt CHANGED Viewed

Binary files a/requirements.txt and b/requirements.txt differ

save_token.py CHANGED Viewed

@@ -2,4 +2,4 @@ import os
 from huggingface_hub import HfApi
 token = os.getenv("HF_TOKEN")  # loaded from .env or system environment
-api = HfApi(token=token)

 from huggingface_hub import HfApi
 token = os.getenv("HF_TOKEN")  # loaded from .env or system environment
+api = HfApi(token=token)

train_logistic_model.py CHANGED Viewed

@@ -1,55 +1,47 @@
 import pandas as pd
 import re
-from sklearn.model_selection import train_test_split
 from sklearn.feature_extraction.text import TfidfVectorizer
 from sklearn.linear_model import LogisticRegression
-import joblib
-import os
-# Load CSV
 df = pd.read_csv("data/spam.csv", encoding='latin-1')
-# Only keep the columns you need (for spam.csv structure)
 df = df[['v1', 'v2']]
 df.columns = ['label', 'message']
-# Drop duplicates
 df.drop_duplicates(inplace=True)
-# Fill missing values in messages with empty string (text can't use mean)
 df['message'] = df['message'].fillna("")
-# Fill missing values in label with mode (most common class)
 df['label'] = df['label'].fillna(df['label'].mode()[0])
-# Clean message text
 def clean_text(text):
-    text = text.lower()  # lowercase
-    text = re.sub(r'\W', ' ', text)  # remove non-words
-    text = re.sub(r'\s+[a-zA-Z]\s+', ' ', text)  # remove single chars
-    text = re.sub(r'\s+', ' ', text)  # remove multiple spaces
     return text.strip()
 df['message'] = df['message'].apply(clean_text)
-# Label encoding: spam = 1, ham = 0
 df['label'] = df['label'].map({'ham': 0, 'spam': 1})
-# Split data
-X_train, X_test, y_train, y_test = train_test_split(df['message'], df['label'], test_size=0.2, random_state=42)
-# Vectorization
-vectorizer = TfidfVectorizer()
 X_train_vec = vectorizer.fit_transform(X_train)
 X_test_vec = vectorizer.transform(X_test)
-# Logistic Regression Model
 model = LogisticRegression()
 model.fit(X_train_vec, y_train)
-# Save model and vectorizer
 os.makedirs("Models", exist_ok=True)
 joblib.dump(model, "Models/logistic_model.pkl")
-joblib.dump(vectorizer, "Models/vectorizer.pkl")
-print("✅ Logistic model trained and saved!")

 import pandas as pd
 import re
+import os
+import joblib
 from sklearn.feature_extraction.text import TfidfVectorizer
 from sklearn.linear_model import LogisticRegression
+from sklearn.model_selection import train_test_split
+# Load data
 df = pd.read_csv("data/spam.csv", encoding='latin-1')
 df = df[['v1', 'v2']]
 df.columns = ['label', 'message']
 df.drop_duplicates(inplace=True)
 df['message'] = df['message'].fillna("")
 df['label'] = df['label'].fillna(df['label'].mode()[0])
+# Clean text
 def clean_text(text):
+    text = text.lower()
+    text = re.sub(r'\W', ' ', text)
+    text = re.sub(r'\s+[a-zA-Z]\s+', ' ', text)
+    text = re.sub(r'\s+', ' ', text)
     return text.strip()
 df['message'] = df['message'].apply(clean_text)
 df['label'] = df['label'].map({'ham': 0, 'spam': 1})
+# Train-test split
+X_train, X_test, y_train, y_test = train_test_split(
+    df['message'], df['label'], test_size=0.2, random_state=42
+)
+# Vectorize
+vectorizer = TfidfVectorizer(max_features=5000)
 X_train_vec = vectorizer.fit_transform(X_train)
 X_test_vec = vectorizer.transform(X_test)
+# Train model
 model = LogisticRegression()
 model.fit(X_train_vec, y_train)
+# Save model
 os.makedirs("Models", exist_ok=True)
 joblib.dump(model, "Models/logistic_model.pkl")
+joblib.dump(vectorizer, "Models/logvectorizer.pkl")
+print("✅ Logistic model trained & saved successfully!")